面试题：MongoDB备份效率优化之专家难度题

定期全量备份
- 选择业务低峰期，例如凌晨2 - 6点，对整个分布式MongoDB集群进行全量备份。可以使用mongodump工具，该工具会将指定数据库或整个集群的数据以BSON格式导出到指定目录。
- 全量备份的周期可以根据数据量和业务需求来设定，如每周一次。
增量备份
- 在两次全量备份之间，采用增量备份策略。利用MongoDB的oplog（操作日志）来记录所有数据库的写操作。可以使用oplog tailing技术，不断跟踪oplog的变化，并将新增的操作记录备份下来。
- 增量备份的频率可以设置得较为频繁，如每小时一次，以减少数据丢失的风险。

全量恢复
- 首先停止MongoDB服务，确保数据处于静止状态。
- 使用mongorestore工具将之前全量备份的BSON文件导入到MongoDB中。指定恢复的目标数据库和备份文件的路径。
- 启动MongoDB服务，使数据库恢复到全量备份时的状态。
增量恢复
- 在全量恢复完成后，对增量备份的oplog记录进行重放。按照增量备份的时间顺序，依次将记录的操作应用到数据库中。
- 可以使用一些工具（如Mongorocks等）来辅助oplog重放过程，确保操作的正确性和完整性。

网络故障
- 在备份过程中，如果遇到网络故障，导致mongodump或增量备份中断。可以通过设置重试机制，在网络恢复后，从断点处继续备份。例如，mongodump工具支持--resume选项，可以在中断后继续备份未完成的部分。
- 同时，记录网络故障的时间和备份进度，以便在恢复时能够快速定位并继续。
磁盘空间不足
- 提前对备份存储设备进行容量监控，当发现磁盘空间不足时，及时清理无用文件或扩展存储容量。
- 如果在备份过程中磁盘空间耗尽，备份工具通常会报错中断。此时需要手动清理空间或更换存储路径，并重新启动备份任务，利用--resume选项从断点处继续。
数据库写入异常
- 在增量备份过程中，如果遇到数据库写入异常（如写入操作失败、锁争用等），需要对异常进行记录和分析。可以暂停增量备份任务，等待数据库恢复正常后，重新启动备份任务，并确保异常期间丢失的操作记录得到妥善处理（如通过手动补录等方式）。

备份期间
- 全量备份：mongodump操作会占用一定的系统资源，包括CPU、内存和磁盘I/O。由于需要读取大量数据并进行序列化存储，可能会对正在运行的业务产生一定影响。尤其是在数据量较大时，可能导致数据库响应变慢。可以通过调整mongodump的并发数（--numParallelCollections选项）来平衡备份速度和对业务的影响。
- 增量备份：虽然增量备份主要是跟踪oplog变化，对系统资源的占用相对较小，但oplog tailing过程仍会消耗一定的网络和CPU资源。频繁的增量备份可能会增加网络带宽的使用，特别是在网络带宽有限的情况下，可能对业务网络产生一定压力。
恢复期间
- 全量恢复：mongorestore操作同样会占用大量系统资源，包括磁盘I/O和内存。将大量备份数据重新导入数据库需要一定时间，期间可能会导致数据库服务不可用或响应缓慢。可以通过分批恢复或调整恢复的并发数（--numParallelCollections选项）来优化恢复过程，减少对系统的影响。
- 增量恢复：oplog重放过程相对全量恢复对系统性能影响较小，但如果重放操作处理不当，如并发度过高，可能会导致数据库锁争用，影响业务的正常运行。因此，需要合理控制oplog重放的并发度，确保恢复过程的稳定性。

知识考点