面试题：MySQL复制拓扑结构及故障处理

常见的MySQL复制拓扑结构

主从（Master - Slave）：
- 结构描述：一个主库（Master）负责处理写操作并记录二进制日志（binary log），一个或多个从库（Slave）通过读取主库的二进制日志来进行数据复制。从库主要用于分担读压力，例如在网站应用中，读操作往往远多于写操作，从库可以处理大量的查询请求。
- 工作原理：主库在执行写操作时，将相关操作记录到二进制日志中。从库通过I/O线程连接主库，读取二进制日志并写入到自己的中继日志（relay log）中，然后通过SQL线程读取中继日志并应用到自身数据库，从而保持与主库数据的一致性。
主主（Master - Master）：
- 结构描述：两个MySQL数据库实例都配置为主库，它们之间相互进行数据复制。每个主库既可以处理写操作，也可以将写操作同步给对方。这种结构在一定程度上可以提高系统的写性能和可用性。
- 工作原理：每个主库在执行写操作后，记录二进制日志。同时，每个主库又作为对方的从库，通过I/O线程读取对方的二进制日志并写入中继日志，再由SQL线程应用到自身数据库，实现双向数据同步。
多主多从（Multi - Master Multi - Slave）：
- 结构描述：存在多个主库和多个从库。多个主库之间可以相互同步数据，同时多个从库分别从不同的主库或主库组合进行数据复制。这种结构适用于大规模、高并发且对可用性要求极高的场景，多个主库可以分担写压力，多个从库可以分担读压力。
- 工作原理：主库之间通过类似主主结构的方式进行双向或多向数据同步，每个主库将写操作记录到二进制日志并同步给其他主库。从库则根据配置从相应的主库读取二进制日志进行数据复制，过程与主从结构中的从库类似。

多主多从拓扑结构中主库故障恢复与数据一致性保证

故障检测：
- 使用监控工具：例如Zabbix、Nagios等，通过定期检查主库的服务状态（如MySQL服务端口是否可连接、数据库是否响应健康检查查询等）来及时发现主库故障。
- 心跳机制：在MySQL复制拓扑中，可以设置心跳检测机制，主库定期向其他节点（包括其他主库和从库）发送心跳包，若一段时间内未收到心跳包，则判定该主库可能出现故障。
故障恢复：
- 提升从库为新主库：
  - 选择合适从库：根据从库的性能、负载情况以及与其他节点的网络连接等因素，选择一个合适的从库提升为新主库。例如，可以选择与原主库数据同步延迟最小且性能较好的从库。
  - 配置调整：将选定从库的复制相关配置修改，使其不再作为从库，而是作为主库。这包括关闭从库复制功能（如执行STOP SLAVE命令），并开启主库功能（如配置log - bin参数，生成新的二进制日志）。
- 重新配置复制关系：
  - 其他主库与新主库同步：其他主库需要重新配置与新提升的主库之间的复制关系，以便继续保持数据同步。这可能涉及到修改主库配置文件中的复制相关参数，如master_host、master_user、master_password等，指向新主库，并重启复制线程（如执行START SLAVE命令）。
  - 从库与新主库同步：原从库（包括从原故障主库复制数据的从库以及其他从库）也需要重新配置复制关系，使其从新主库获取数据。同样需要修改相关配置参数并重启复制线程。
数据一致性保证：
- 应用日志补偿：
  - 分析日志差异：在故障恢复过程中，可能会存在数据不一致的情况。可以通过对比原主库和新主库的二进制日志或中继日志，分析出在故障期间发生的数据差异。
  - 应用补偿操作：根据分析出的日志差异，在新主库上执行相应的SQL操作，以补偿缺失的数据，确保数据一致性。例如，如果原主库在故障前有一些写操作记录在二进制日志中，但新主库尚未同步这些操作，就需要在新主库上手动执行这些SQL语句。
- 使用一致性算法：
  - 分布式一致性算法：例如Paxos、Raft等算法可以应用于多主多从拓扑结构中。这些算法可以保证在分布式环境下数据的一致性。在MySQL多主多从场景中，可以基于这些算法实现对数据更新的共识，确保各个主库之间的数据一致性。
  - 同步策略调整：在故障恢复后，调整复制同步策略，如增加同步频率、进行全量数据比对等，以进一步保证数据的一致性。例如，可以在一定时间间隔内，对新主库和其他节点的数据进行全量比对，若发现不一致，及时进行修复。

面试题：MySQL复制拓扑结构及故障处理

知识考点

面试题答案

常见的MySQL复制拓扑结构

多主多从拓扑结构中主库故障恢复与数据一致性保证