面试题：MongoDB事务在复杂读写分离拓扑中的故障处理

故障检测

心跳检测：MongoDB副本集和分片集群内部通过心跳机制持续监测节点状态。每个节点定期向其他节点发送心跳消息，若在一定时间内未收到某个节点的心跳响应，就判定该节点可能出现故障。例如，副本集成员默认每2秒发送一次心跳。
选举检测：在副本集内，当主节点（Primary）出现故障时，剩余的从节点（Secondary）会发起选举，通过比较节点的优先级、日志时间戳等因素，选出新的主节点。在选举过程中，节点间的通信交互也能检测到其他节点是否正常响应，进一步确认故障。
集群监控：使用MongoDB的管理工具（如MongoDB Compass或mongosniff等），可以实时监控集群的状态，包括节点的健康状况、网络连接等。这些工具能够及时发现节点故障，并通过告警机制通知运维人员。

恢复机制

副本集故障恢复
- 主节点故障：当主节点故障时，从节点会发起选举。选举成功的从节点晋升为新的主节点，原主节点恢复后将作为从节点加入副本集。新主节点会继续处理事务日志，确保数据的一致性。例如，在故障期间若有未完成的事务，新主节点会根据事务日志的记录来继续完成或回滚事务。
- 从节点故障：从节点故障恢复相对简单，当从节点恢复后，它会与主节点进行数据同步，通过复制主节点的 oplog（操作日志）来追赶上最新的数据状态。这个过程是自动进行的，MongoDB会确保从节点的数据与主节点最终一致。
分片集群故障恢复
- 分片节点故障：如果某个分片节点出现故障，mongos路由节点会检测到该分片不可用。当分片节点恢复后，它会重新加入集群，并通过与其他分片节点和配置服务器（Config Server）的交互，重新同步数据，确保整个集群的数据一致性。配置服务器会记录集群的元数据信息，帮助分片节点恢复到正确的状态。
- 配置服务器故障：配置服务器存储着集群的关键元数据，若配置服务器出现故障，整个集群的元数据信息可能无法正常获取。MongoDB的配置服务器通常部署为副本集形式，当某个配置服务器节点故障时，其他节点会继续提供服务。故障节点恢复后，会自动与其他配置服务器节点同步数据，恢复正常运行。

事务状态维护

事务日志：MongoDB使用事务日志（WiredTiger存储引擎中的预写式日志，Write - Ahead Log，WAL）来记录事务操作。在事务执行过程中，每一个操作都会被记录到日志中，包括写入、更新等操作。当节点出现故障时，系统可以根据事务日志来恢复事务的状态。例如，对于未完成的事务，系统可以根据日志记录进行回滚，确保数据的一致性。
两阶段提交（2PC）：在多节点事务中，MongoDB采用两阶段提交协议来保证事务的原子性和一致性。在准备阶段，所有参与事务的节点会对事务操作进行验证和预执行，但不提交数据。只有当所有节点都准备好后，协调者（通常是主节点）才会发起提交阶段，通知所有节点正式提交事务。如果在这个过程中某个节点出现故障，协调者会根据故障节点的状态决定是继续提交还是回滚事务。例如，如果故障节点处于准备阶段且未响应，协调者会等待一段时间，若仍未收到响应，则回滚整个事务。
分布式锁：为了保证事务的隔离性，MongoDB使用分布式锁机制。在事务执行期间，会对涉及的数据资源加锁，防止其他事务并发修改相同的数据。例如，在更新文档时，会对该文档所在的集合或分片加锁，确保同一时间只有一个事务可以修改该数据，避免数据冲突，保证事务的隔离性。
持久化：MongoDB通过将数据和事务日志持久化到磁盘来保证持久性。WAL日志会定期刷新到磁盘，即使系统崩溃，重启后也可以根据日志恢复未完成的事务，确保已提交的事务对数据的修改是永久性的。同时，MongoDB的存储引擎（如WiredTiger）会定期将内存中的数据刷盘，进一步保证数据的持久性。

面试题：MongoDB事务在复杂读写分离拓扑中的故障处理

知识考点

面试题答案

故障检测

恢复机制

事务状态维护