面试题：MongoDB副本集自动修复机制与故障场景模拟

MongoDB副本集自动修复机制工作原理

检测故障：MongoDB副本集成员通过心跳机制（通常每2秒一次）相互通信。当一个成员在10秒内未收到另一个成员的心跳时，就会将其标记为不可达。
选举过程：如果失联的成员是主节点，副本集将发起选举来选出新的主节点。剩余的健康从节点会参与选举，符合条件（如优先级设置、数据同步程度等）的从节点将有可能被选举为新主节点。在选举过程中，节点会相互投票，获得大多数（超过一半）投票的节点将成为新主节点。
重新同步：当新主节点选举产生后，失联后重新恢复连接的节点（假设网络故障恢复）会自动与新主节点进行数据同步。它会从新主节点获取缺失的操作日志（oplog），并应用这些操作来使自身数据与主节点保持一致，从而重新融入副本集。

手动干预措施（若自动修复未成功）

检查网络连接
- 确认网络配置：在故障成员所在服务器上，使用ping命令检查与其他副本集成员服务器的网络连通性，例如ping <其他成员服务器IP>。
- 检查防火墙设置：确保MongoDB服务使用的端口（默认27017）在防火墙中已正确开放。在Linux系统上，可以使用iptables -L命令查看防火墙规则，必要时使用iptables -A INPUT -p tcp --dport 27017 -j ACCEPT开放端口（不同系统可能略有差异）。
检查MongoDB服务状态
- 查看服务日志：在故障成员服务器上，查看MongoDB日志文件（通常位于/var/log/mongodb/mongod.log，路径可能因安装方式而异），查找有关连接问题、复制错误等相关信息。例如tail -f /var/log/mongodb/mongod.log实时查看日志。
- 重启MongoDB服务：在Linux系统上，可以使用sudo systemctl restart mongod命令重启MongoDB服务，尝试重新建立连接。
手动重新加入副本集
- 进入MongoDB shell：在故障成员服务器上，运行mongo命令进入MongoDB shell。
- 重新初始化副本集配置：如果副本集配置有变动，需要重新初始化。先获取当前副本集配置，使用rs.conf()命令，记录配置信息。然后使用rs.reconfig(<配置文档>)命令重新配置副本集，例如：

var cfg = rs.conf();
// 假设故障成员主机名为'member1.example.com'
cfg.members.push({_id: <新的唯一ID>, host:'member1.example.com:27017'});
rs.reconfig(cfg);

- **强制同步数据**：如果重新加入副本集后数据同步仍有问题，可以尝试强制从主节点同步数据。在故障成员的MongoDB shell中，使用`rs.syncFrom("<主节点主机名:端口>")`命令，例如`rs.syncFrom("primary.example.com:27017")`，强制从指定主节点同步数据。

面试题：MongoDB副本集自动修复机制与故障场景模拟

知识考点

面试题答案

MongoDB副本集自动修复机制工作原理

手动干预措施（若自动修复未成功）