面试题：Cassandra合并操作基础性能调优

合并操作基本原理

SSTable结构基础：Cassandra 以 SSTable（Sorted String Table）形式存储数据。每个 SSTable 是不可变的，按排序方式存储数据。新写入的数据首先进入 Memtable，当 Memtable 达到一定阈值后会刷新成新的 SSTable。随着时间推移，会产生多个 SSTable。
合并触发：当 SSTable 数量达到一定阈值（例如，在默认配置下，同一层级 SSTable 数量超过 3 个），合并操作就会被触发。其目的是减少 SSTable 的数量，提高读性能。因为读取时若涉及多个 SSTable，会增加 I/O 开销。
合并过程：合并操作将多个 SSTable 中的数据读取出来，按照 key 进行排序合并。相同 key 的数据会被合并，新的数据会覆盖旧数据（基于时间戳等规则）。最终生成一个或多个新的 SSTable，旧的 SSTable 会被标记为可删除，在适当的时候被清理。

从数据存储结构角度的性能调优

调整 SSTable 大小和数量
- 合适的 SSTable 大小：通过调整 Memtable 大小（memtable_allocation_type 和 memtable_size_in_mb 等配置参数）来间接控制 SSTable 大小。较大的 SSTable 可以减少 SSTable 数量，降低合并频率，但过大可能导致单次合并成本过高。需要根据实际硬件和数据写入量调整。
- 层级设置：Cassandra 使用分层存储架构（Leveled Compaction Strategy 等）。合理设置层级间 SSTable 数量和大小的比例，例如在 Leveled Compaction 中，控制每层 SSTable 的数量增长比例，防止某一层级 SSTable 数量过多导致合并压力过大。
索引优化
- 布隆过滤器：布隆过滤器用于快速判断数据是否可能存在于 SSTable 中。合理调整布隆过滤器的参数（如 bloom_filter_fp_chance），在误判率和内存消耗之间找到平衡。误判率过低会消耗过多内存，过高则会导致不必要的磁盘 I/O。
- 分区索引：Cassandra 基于分区存储数据，优化分区策略，确保数据在各个分区均匀分布。避免数据倾斜，因为倾斜可能导致某些分区内 SSTable 数量和大小不均衡，影响合并性能。
存储设备优化
- 使用 SSD：SSD 的随机读写性能远优于传统机械硬盘，可加快 SSTable 读取和写入速度，从而提升合并操作性能。
- RAID 配置：选择合适的 RAID 级别，在数据安全性和读写性能之间找到平衡。例如，RAID 0 提供较高的读写性能，但没有数据冗余；RAID 5 和 RAID 6 提供一定的数据冗余，但会有写性能损耗。根据业务需求选择合适配置。

星途面试题库

面试题：Cassandra合并操作基础性能调优

知识考点

面试题答案

合并操作基本原理

从数据存储结构角度的性能调优