面试题：MongoDB副本集数据修复策略问题

1. 发现问题

监控与告警：通过MongoDB自带的监控工具（如MongoDB Compass的监控面板、mongostat命令等）或第三方监控系统（如Prometheus + Grafana），设置关键指标（如复制延迟、oplog大小差异等）的阈值，当指标超出阈值时触发告警，提示可能存在数据不一致问题。
手动检查：定期使用rs.status()命令查看副本集状态，重点关注optimeDate字段，若不同节点的该字段差异较大，可能存在数据不一致。同时，可以对比不同节点特定集合的数据量，使用db.collection.countDocuments()命令。

2. 分析问题

确定不一致类型：
- 数据丢失：某个节点缺失部分文档，可通过对比不同节点同一集合的数据量及文档内容发现。
- 数据重复：某个节点存在多余的重复文档，可通过唯一索引检查（若有设置）或自行编写脚本对文档进行去重检查。
- 数据版本不一致：同一文档在不同节点有不同的字段值或版本号，可通过人工抽样对比文档内容发现。
查找原因：
- 网络问题：检查网络连接是否稳定，使用ping命令及网络抓包工具查看是否有丢包、延迟高等问题。网络不稳定可能导致复制延迟，进而引发数据不一致。
- 节点故障：查看节点日志（位于/var/log/mongodb/mongod.log等位置），检查是否有节点因硬件故障、软件崩溃等原因短暂下线，重新上线后可能出现数据同步异常。
- 配置错误：检查副本集配置，使用rs.conf()命令，确认members配置、优先级设置等是否正确，错误的配置可能影响数据同步。

3. 选择修复方法

重新同步：
- 适用场景：数据不一致程度较大，节点间差异明显，且无法通过简单的复制操作修复。
- 操作流程：
  - 先将有问题的节点从副本集中移除，使用rs.remove("<node_hostname:port>")命令。
  - 对该节点的数据目录进行清理（确保备份好重要数据），然后重新启动该节点。
  - 将该节点重新加入副本集，使用rs.add("<node_hostname:port>")命令，此时该节点会从其他节点完整同步数据。
手动修复：
- 适用场景：数据不一致问题较轻微，如少量数据丢失或重复，且能够准确定位问题文档。
- 操作流程：
  - 对于数据丢失，从其他正常节点导出缺失的文档，使用mongoexport命令，然后在有问题的节点使用mongoimport命令导入。
  - 对于数据重复，编写脚本或使用聚合操作在有问题的节点删除重复文档，可利用唯一索引或自定义的去重逻辑。
使用oplog修复：
- 适用场景：数据不一致是由于复制延迟或部分oplog未正确应用导致，且节点间oplog存在差异。
- 操作流程：
  - 首先确定主节点和有问题的从节点，在主节点上使用rs.printReplicationInfo()命令获取oplog相关信息。
  - 找到主节点和从节点oplog的差异点，可通过对比oplog.rs集合中的记录（需有一定的oplog操作知识）。
  - 从主节点的oplog中提取从节点缺失的操作记录，将这些记录应用到从节点，可使用db.oplog.rs.find({...}).forEach(function(doc){...})形式的脚本执行操作。但此方法风险较高，需谨慎操作，建议先在测试环境验证。

面试题：MongoDB副本集数据修复策略问题

知识考点

面试题答案

1. 发现问题

2. 分析问题

3. 选择修复方法