面试题：Cassandra集群故障恢复的基本流程

检测故障：
- 集群中的其他节点通过心跳机制持续监测每个节点的状态。当某个节点在一定时间内没有响应心跳时，其他节点会标记该节点为疑似故障。
- 随后，会进行进一步的确认，比如尝试进行其他类型的连接，如果多次尝试仍无法连接，就正式判定该节点故障。
数据重分布：
- Cassandra采用一致性哈希算法来分布数据。当一个节点故障后，原本分布在该故障节点上的数据需要重新分配到集群中的其他节点。
- 数据范围会根据一致性哈希环的结构，被相邻的节点所接管。例如，若节点A故障，其负责的数据范围会被节点B和节点C按照一致性哈希的规则接收。
修复数据：
- 提示修复：故障节点恢复上线后，系统可以通过提示修复机制来恢复数据。集群中的其他节点会向新上线的节点发送提示信息，告知它需要修复哪些数据。新节点根据这些提示，从拥有相关数据副本的节点拉取数据进行修复。
- 全量修复：也可以执行全量修复操作，即新上线的节点与集群中的所有节点进行数据同步，确保自身的数据与其他节点保持一致。这种方式虽然能保证数据完整性，但相对消耗更多的资源和时间。
更新元数据：
- 集群中的节点会更新元数据信息，以反映故障节点的状态变化。这包括更新系统表中的节点信息，如节点的存活状态、负责的数据范围等。
- 元数据的更新确保整个集群对节点状态和数据分布有准确的认知，从而能正常提供服务。

星途面试题库

面试题：Cassandra集群故障恢复的基本流程

知识考点

面试题答案