面试题：分布式系统中基于ACID特性，如何设计高效的数据库事务恢复策略

日志记录

运行时记录：在事务执行过程中，使用预写式日志（Write-Ahead Logging, WAL），每个操作（如数据修改）在实际应用到数据存储之前，先记录到日志中。日志记录应包含事务ID、操作类型（插入、更新、删除等）、操作的数据项及旧值和新值等详细信息。
日志持久化：确保日志以同步方式写入持久化存储，如磁盘，保证即使系统崩溃，日志也不会丢失。

检查点机制

定期创建：周期性地（或在系统负载较低时）创建检查点。在检查点时，将内存中已修改的数据块（脏页）刷新到磁盘，并在日志中记录检查点信息，包括所有活跃事务列表。
恢复加速：在故障恢复时，从最近的检查点开始恢复，而非从头扫描整个日志，大大减少恢复时间。

故障恢复流程

崩溃恢复
- 分析阶段：系统重启后，从日志末尾开始向前扫描，根据检查点信息确定需要恢复的事务范围。识别出故障时未完成的事务（活跃事务）和已提交但数据可能未完全持久化的事务。
- 重做阶段：对已提交的事务，按照日志记录重新应用操作，从检查点开始，根据日志中的新值将数据更新到故障前的状态。
- 撤销阶段：对于未完成的事务，根据日志记录的旧值将数据回滚到事务开始前的状态。
网络分区恢复
- 分区检测：通过心跳机制或分布式一致性协议（如Raft）的成员关系检测，及时发现网络分区。
- 数据一致性处理：
  - 读操作：如果读操作发生在网络分区期间，根据系统的一致性模型，可能返回陈旧数据或拒绝读操作。对于强一致性系统，等待分区恢复后再进行读操作。
  - 写操作：若在分区期间有写操作，不同分区可能有不同的数据状态。当分区恢复后，采用分布式一致性协议（如两阶段提交、三阶段提交或Paxos等）来协调各分区的数据，确保数据最终一致。对于未成功提交的写事务，需要回滚。
节点故障恢复
- 故障检测：利用心跳机制或监控工具检测节点故障。
- 数据副本与恢复：采用数据复制技术（如多副本存储），当某个节点故障时，其他副本节点可以继续提供服务。故障节点恢复后，从其他副本节点同步数据，使其状态与集群一致。恢复过程遵循上述崩溃恢复的流程，根据日志记录来恢复数据到故障前的正确状态。

分布式事务协调

两阶段提交（2PC）：引入协调者节点，第一阶段，协调者向所有参与者发送准备消息，参与者检查自身能否提交事务并回复准备结果。第二阶段，若所有参与者都准备好，协调者发送提交消息，否则发送回滚消息。但2PC存在单点故障和阻塞问题。
三阶段提交（3PC）：在2PC基础上增加预准备阶段，减少单点故障和阻塞风险。协调者先发送预准备消息，参与者回复是否能执行事务。然后协调者发送准备消息，最后根据参与者反馈决定提交或回滚。
基于Paxos或Raft的分布式一致性协议：用于在分布式节点间达成数据一致性，确保事务的正确执行和恢复。例如Raft协议通过选举领导者，领导者负责协调数据复制和事务提交，即使部分节点故障也能保证数据一致性。

星途面试题库

面试题：分布式系统中基于ACID特性，如何设计高效的数据库事务恢复策略

知识考点

面试题答案

日志记录

检查点机制

故障恢复流程

分布式事务协调