面试题：MongoDB Shell下如何对海量数据进行分片及相关操作优化

选择基数高的字段：基数指的是该字段不同值的数量。例如，如果集合存储用户信息，使用用户ID作为分片键就比较合适，因为每个用户的ID通常是唯一的，基数非常高。这样数据能较为均匀地分布在各个分片上。示例代码：sh.shardCollection("testDB.testCollection", { "userId": "hashed" }); 使用哈希分片方式对userId字段进行分片，以确保数据均匀分布。
考虑读写模式：如果读操作主要基于某个字段，那么该字段可作为分片键的候选。比如经常按日期范围查询订单数据，日期字段可以作为分片键，但要注意日期数据随着时间推移分布可能不均匀，可能需要结合其他字段或者采用范围分片策略。例如，按月份分片订单数据：sh.shardCollection("testDB.orders", { "orderDate": 1 });
避免使用单调递增字段：如时间戳或自增ID，因为这会导致数据集中在某一个分片上，造成热点分片。如果必须使用这类字段，可以采用哈希分片，将单调递增的键通过哈希函数转换为随机分布的键。例如：sh.shardCollection("testDB.logs", { "timestamp": "hashed" });

var data = [
    { "name": "user1", "age": 20 },
    { "name": "user2", "age": 25 }
];
db.testCollection.insertMany(data);

启用写入确认：根据业务需求合理设置写入确认级别。对于海量数据插入，可适当降低写入确认级别（如设置为{w: 1}），减少等待确认的时间，提高插入速度。示例：db.testCollection.insertOne({ "name": "user3", "age": 30 }, {w: 1});

使用覆盖索引：确保查询条件中的字段以及需要返回的字段都包含在索引中，这样查询时不需要回表操作，直接从索引中获取数据，提高查询效率。例如，查询用户姓名和年龄，且这两个字段都在索引中：db.testCollection.find({ "name": "user1" }, { "name": 1, "age": 1, "_id": 0 }).hint({ "name": 1, "age": 1 });
查询优化器提示：在复杂查询中，使用hint方法指定使用的索引，引导查询优化器选择最优的查询计划。如：db.testCollection.find({ "status": "active", "category": "electronics" }).hint({ "status": 1, "category": 1 });
范围查询优化：如果是按范围查询分片键，要确保范围的划分不会导致数据集中在少数分片上。例如，在按日期范围查询时，日期跨度不宜过大，尽量均匀分布查询请求到各个分片。

知识考点