面试题：MongoDB分布式环境下增删改查异常处理与故障恢复

检测异常

心跳检测：MongoDB副本集和分片集群内部通过心跳机制来监控节点状态。节点之间定期发送心跳信息，若某个节点在一定时间内未收到其他节点的心跳，就可能发生了网络分区。可以通过查看日志，例如在副本集主节点日志中，如果发现长时间未收到从节点心跳，可能存在网络问题。
oplog 分析：在副本集环境中，主节点的操作日志（oplog）记录了所有写操作。从节点通过复制 oplog 来保持数据同步。通过对比不同节点 oplog 的时间戳和操作记录，可以检测是否存在操作不一致的情况。例如，在网络分区后重新恢复通信，比较主从节点 oplog 中最新操作的时间戳，如果差异较大，可能存在写操作不一致。
数据版本标记：在应用层面，可以为每个写操作添加版本号或者时间戳等标记。在读取数据时，检查不同节点上数据的版本标记。如果版本标记不同，说明可能存在数据不一致。例如，每次更新文档时，增加一个 “version” 字段并自增，读取时对比不同节点文档的 “version” 字段。

故障恢复

副本集故障恢复
- 自动故障转移：MongoDB副本集具备自动故障转移机制。当主节点检测到网络分区，并且自身无法与大多数节点通信时，它会自动降级为从节点。在网络恢复后，副本集会重新选举主节点。新的主节点会将自己的数据状态同步给其他节点，确保数据最终一致性。例如，假设网络分区导致主节点A与从节点B、C断开连接，A会降级，B和C重新选举新主节点（如B），网络恢复后，A会从新主节点B同步数据。
- 手动干预：若自动故障转移未能正常进行，管理员可以手动干预。通过 rs.stepDown() 命令将当前主节点降级，然后使用 rs.reconfig() 命令重新配置副本集成员，强制进行选举，确保数据同步。例如，在某些异常情况下，主节点未正确降级，管理员可以登录到主节点执行 rs.stepDown() 命令，促使选举正常进行。
分片集群故障恢复
- Balancer 重新平衡：分片集群中的Balancer负责在分片之间均衡数据。当网络分区恢复后，Balancer会自动检测数据分布情况，并将数据重新平衡到各个分片上，确保数据一致性。例如，网络分区导致部分分片数据更新不一致，Balancer在网络恢复后会重新评估数据分布，将数据移动到合适的分片，使各分片数据状态一致。
- 手动数据修复：管理员可以使用 mongodump 和 mongorestore 工具在不同分片之间手动同步数据。首先在数据状态正确的分片上使用 mongodump 导出数据，然后在数据异常的分片上使用 mongorestore 导入数据。例如，发现某个分片上的数据因为网络分区少了部分写操作，从正确的分片导出数据后，导入到异常分片进行修复。同时，可以结合 db.collection.validate() 命令检查集合的完整性，确保数据修复成功。

面试题：MongoDB分布式环境下增删改查异常处理与故障恢复

知识考点

面试题答案

检测异常

故障恢复