MST

星途 面试题库

面试题:分布式系统中监控指标的选择

在分布式系统的监控中,通常会关注哪些关键指标?请举例说明,并阐述选择这些指标的原因。
47.5万 热度难度
后端开发分布式系统

知识考点

AI 面试

面试题答案

一键面试

关键指标及原因

  1. CPU 使用率
    • 举例:通过监控工具获取服务器 CPU 使用率,如发现某台服务器 CPU 使用率长期超过 80%。
    • 原因:CPU 是处理请求的核心组件,过高的使用率可能导致系统响应变慢,甚至无法处理新的请求,影响整个分布式系统的性能。
  2. 内存使用率
    • 举例:监控到某节点内存使用率达到 90%,剩余内存不足。
    • 原因:内存用于存储数据和运行程序,如果内存使用率过高,可能引发频繁的磁盘交换,严重降低系统性能,还可能导致进程因内存不足而崩溃。
  3. 网络带宽
    • 举例:发现某个时间段内,集群间网络带宽占用率达到 95%。
    • 原因:分布式系统中各节点间依赖网络进行数据传输,带宽不足会造成数据传输延迟,影响系统的整体协同工作能力,导致部分功能无法正常运行。
  4. 请求响应时间
    • 举例:统计特定 API 的平均响应时间从 200ms 上升到 500ms。
    • 原因:这直接反映了系统对用户请求的处理速度,响应时间过长会严重影响用户体验,可能导致用户流失。
  5. 吞吐量
    • 举例:某分布式应用每秒处理的事务数从 1000 下降到 500。
    • 原因:吞吐量体现了系统在单位时间内处理的工作量,其下降可能意味着系统性能出现问题,或存在资源瓶颈。
  6. 错误率
    • 举例:某个服务的 API 调用错误率从 1%上升到 5%。
    • 原因:错误率的升高表明系统可能存在故障或异常,影响系统的稳定性和可靠性,需要及时排查修复。
  7. 节点可用性
    • 举例:检测到某一节点连续 5 分钟无响应。
    • 原因:分布式系统由多个节点组成,节点不可用会破坏系统的完整性,影响整个系统的功能和性能,需尽快恢复以确保服务的连续性。