面试题：复杂场景下MongoDB分片服务器配置修改的故障处理

网络层面
- 使用ping命令检查分片服务器、副本集成员之间的网络连通性，确定是哪部分网络出现故障。
- 检查网络设备（如路由器、交换机）的配置和状态，查看是否有端口错误、VLAN配置问题等。
- 利用traceroute命令追踪数据包的路径，找到网络中断或延迟高的节点。
MongoDB 日志分析
- 查看mongod日志文件，一般位于/var/log/mongodb/目录下（根据具体安装配置可能不同）。在日志中查找与数据迁移相关的错误信息，例如“network error”“connection refused”等关键字，确定数据迁移失败的具体操作和原因。
- 检查configsvr的日志，因为配置服务器保存着整个集群的元数据信息，它的日志可能包含与分片配置修改相关的错误提示。
副本集状态检查
- 使用rs.status()命令查看每个副本集的状态，确认哪些副本集的成员在数据迁移过程中受到影响。检查成员的state字段，正常的主节点state为1，从节点有不同的状态值，异常状态可能表明成员在数据迁移时出现问题。
- 查看副本集的optime字段，对比各个成员的操作时间戳，判断数据同步的差异。如果某些成员的optime明显落后，可能是数据迁移未完成导致的。

手动重同步
- 如果确定是某个副本集成员的数据迁移未完成，且网络故障已排除，可以尝试手动重同步该成员。首先，将该成员从副本集中移除，使用rs.remove("member_host:port")命令。
- 然后重新添加该成员，使用rs.add("member_host:port")命令。MongoDB会自动开始同步数据，从其他成员复制缺失的数据，以达到数据一致性。
利用 oplog 修复
- 找到数据迁移未完成的副本集成员，分析其oplog（操作日志）。通过db.getReplSetOplog()命令可以查看oplog内容。
- 确定在网络故障时未同步完成的操作，手动在受影响的成员上重新应用这些操作。可以使用db.runCommand()执行相应的写操作命令，如insert、update、delete等，以恢复数据一致性。但此方法需要对oplog格式和MongoDB操作有深入理解，操作时需谨慎。

确认网络稳定 在继续配置修改之前，确保网络已经完全恢复正常。通过多次ping测试和网络连通性验证，保证分片服务器之间、副本集成员之间以及与配置服务器之间的网络稳定且无丢包现象。
重新执行配置修改
- 再次尝试更换分片的主节点操作。在MongoDB shell中，使用sh.movePrimary("shard_name", "new_primary_host:port")命令重新指定分片的主节点。
- 执行命令后，密切监控操作过程，通过查看日志和使用sh.status()命令实时查看集群状态，确保配置修改顺利完成，并且数据迁移能够正常进行，没有出现新的错误。

选择合适的时间窗口 尽量选择业务低峰期进行配置修改操作，如深夜或周末等时间段。这样即使出现故障，对业务的影响也能降到最低。
启用维护模式（如果支持） 在MongoDB集群中，可以考虑启用维护模式（不同版本可能支持情况不同）。在维护模式下，可以暂停部分非关键业务的读写操作，集中资源处理配置修改和数据恢复任务，同时确保关键业务的基本读写不受太大影响。
备份与回滚策略 在进行配置修改之前，对重要数据进行备份。如果在修改过程中出现严重问题无法快速恢复，能够及时回滚到修改前的状态，保证业务的连续性。回滚操作可以通过恢复备份数据，并重新应用备份之后的增量操作日志来实现。

知识考点