面试题：分布式系统3PC协议在极端故障组合下的事务可靠性保障

3PC维持事务可靠性的处理逻辑

节点故障处理
- 协调者故障：在3PC的准备阶段（CanCommit），若协调者故障，参与者会等待超时。超时后，参与者会自动中断事务。在预提交（PreCommit）和提交（DoCommit）阶段，若协调者故障，新的协调者会选举产生（通过Paxos等一致性算法）。新协调者根据之前记录的日志状态，向参与者发送相应指令，继续事务流程。
- 参与者故障：在CanCommit阶段，若部分参与者故障，协调者收不到所有参与者的响应，会中断事务，向其他正常参与者发送中断指令。在PreCommit阶段，若参与者故障，协调者会等待其恢复，恢复后可根据日志继续执行。若等待超时，协调者向其他参与者发送中断指令。在DoCommit阶段，若参与者故障，同样等待恢复后根据日志完成提交，若超时则向其他参与者发送回滚指令。
网络分区处理
- 分区内协调者与参与者正常通信：在CanCommit阶段，分区内协调者与参与者可正常交互，分区内事务流程正常推进。但因网络分区，协调者无法获取其他分区参与者的响应，此时协调者会等待。等待超时后，协调者认为其他分区参与者故障，中断事务，向本分区参与者发送中断指令。
- 预提交和提交阶段：若在PreCommit或DoCommit阶段发生网络分区，协调者向能通信的参与者发送指令。当网络恢复后，协调者根据事务日志，向新加入的参与者发送对应指令，确保所有参与者状态一致。
时钟漂移处理：3PC依赖时间戳来保证事务顺序。若出现时钟漂移，协调者和参与者在交互时会检查时间戳。若发现时间戳异常（如参与者的时间戳远落后于协调者预期），参与者会拒绝来自协调者的指令，并向协调者反馈异常。协调者收到反馈后，可调整自身时间或重新同步时间，然后重新发起事务流程。

恢复机制

日志记录：参与者和协调者都记录详细的事务日志，包括事务状态（如CanCommit、PreCommit、DoCommit等）、参与者响应等信息。当出现故障恢复时，根据日志确定事务执行到的阶段，继续执行未完成的操作。
状态询问：协调者恢复后，向所有参与者询问其事务状态。参与者根据自身日志回复当前事务状态，协调者根据收集到的信息，决定是继续提交还是回滚事务。

性能与可靠性权衡

可靠性方面：3PC相比2PC增加了CanCommit阶段，减少了协调者单点故障导致数据不一致的风险，提高了事务的可靠性。通过日志记录和恢复机制，在面对各种故障时能尽量保证事务的原子性和一致性。
性能方面：3PC增加的阶段和复杂的恢复机制导致额外的网络通信开销和处理时间。例如，每次交互都需要等待参与者响应，在网络延迟高或节点多的情况下，性能会显著下降。在实际应用中，对于可靠性要求极高，数据一致性不容有失的场景（如金融交易系统），优先考虑3PC的可靠性；而对于性能要求高，对一定程度的数据不一致可容忍的场景（如某些实时统计系统），可能需要权衡采用其他更轻量级的一致性协议。

星途面试题库

面试题：分布式系统3PC协议在极端故障组合下的事务可靠性保障

知识考点

面试题答案

3PC维持事务可靠性的处理逻辑

恢复机制

性能与可靠性权衡