面试题：医疗分布式系统下Saga模式的故障处理机制

故障处理流程：
- 检测故障：当子事务执行失败时，系统的事务协调器会收到失败的反馈信息，例如通过异常捕获机制、子事务执行结果的状态码等方式感知到故障。
- 暂停相关事务：事务协调器立即暂停后续尚未执行的子事务，避免更多错误和数据不一致情况的发生。同时记录当前失败子事务的相关信息，如事务ID、执行步骤、失败原因等。
- 通知相关服务：事务协调器向涉及该子事务的所有相关服务发送故障通知，告知它们当前子事务失败情况，相关服务包括可能依赖该子事务结果的其他服务。
补偿策略：
- 反向操作补偿：
  - 对于有明确反向操作的子事务，执行其对应的反向操作来撤销已经执行的部分。例如，如果子事务是创建一条医疗记录，反向操作就是删除该医疗记录。在执行反向操作时，要确保操作的幂等性，即多次执行反向操作和执行一次的效果相同，防止重复操作导致数据错误。
- 补偿日志：
  - 系统维护一个补偿日志，记录每个子事务的执行情况和对应的补偿操作。当故障发生时，根据补偿日志确定需要执行的补偿操作。补偿日志可以采用持久化存储，如数据库，以保证在系统重启等情况下仍能准确进行补偿。
- 重试机制：
  - 对于一些可能由于临时性错误（如网络波动、短暂的资源繁忙等）导致失败的子事务，可以采用重试机制。在一定的时间间隔后尝试重新执行该子事务。为了避免无限重试，需要设置最大重试次数和重试间隔的递增策略，例如初始重试间隔为1秒，每次重试间隔翻倍，最大重试次数为5次。
- 人工干预：
  - 对于一些复杂的、无法通过自动补偿解决的故障，触发人工干预流程。例如，某些涉及复杂业务规则或存在模糊数据状态的情况，需要人工介入分析故障原因并制定合适的补偿方案。系统可以通过消息通知、任务列表等方式告知运维人员或业务专家需要人工处理的事务，人工处理完成后，系统更新事务状态并继续后续流程。

星途面试题库

面试题：医疗分布式系统下Saga模式的故障处理机制

知识考点

面试题答案