面试题答案
一键面试关键指标及原因
- CPU 使用率
- 举例:通过监控工具获取服务器 CPU 使用率,如发现某台服务器 CPU 使用率长期超过 80%。
- 原因:CPU 是处理请求的核心组件,过高的使用率可能导致系统响应变慢,甚至无法处理新的请求,影响整个分布式系统的性能。
- 内存使用率
- 举例:监控到某节点内存使用率达到 90%,剩余内存不足。
- 原因:内存用于存储数据和运行程序,如果内存使用率过高,可能引发频繁的磁盘交换,严重降低系统性能,还可能导致进程因内存不足而崩溃。
- 网络带宽
- 举例:发现某个时间段内,集群间网络带宽占用率达到 95%。
- 原因:分布式系统中各节点间依赖网络进行数据传输,带宽不足会造成数据传输延迟,影响系统的整体协同工作能力,导致部分功能无法正常运行。
- 请求响应时间
- 举例:统计特定 API 的平均响应时间从 200ms 上升到 500ms。
- 原因:这直接反映了系统对用户请求的处理速度,响应时间过长会严重影响用户体验,可能导致用户流失。
- 吞吐量
- 举例:某分布式应用每秒处理的事务数从 1000 下降到 500。
- 原因:吞吐量体现了系统在单位时间内处理的工作量,其下降可能意味着系统性能出现问题,或存在资源瓶颈。
- 错误率
- 举例:某个服务的 API 调用错误率从 1%上升到 5%。
- 原因:错误率的升高表明系统可能存在故障或异常,影响系统的稳定性和可靠性,需要及时排查修复。
- 节点可用性
- 举例:检测到某一节点连续 5 分钟无响应。
- 原因:分布式系统由多个节点组成,节点不可用会破坏系统的完整性,影响整个系统的功能和性能,需尽快恢复以确保服务的连续性。