面试题：复杂业务场景下HBase模式定义对数据存储扩展性与一致性的权衡

行键设计：在社交平台用户活动记录场景下，行键可采用 “用户ID + 时间戳（倒序）” 的组合方式。例如，若用户ID为 12345，活动时间为 2024 - 01 - 01 12:00:00，可转化为倒序时间戳如 20240101120000，行键即为 12345_20240101120000。这样设计能让同一用户的活动记录在物理上相邻存储，方便按用户维度查询；同时倒序时间戳使得最新的活动记录排在前面，便于快速获取最新数据。
列族设计：可分为基本信息列族和详细内容列族。基本信息列族存储活动类型、活动简要描述等常用信息，详细内容列族存储活动的详细日志、图片链接等非频繁访问的信息。例如，基本信息列族可命名为 basic_info，列 type 记录活动类型（如 “点赞”“评论”）；详细内容列族命名为 detail_info，列 log 记录活动详细日志。

确定分区键：基于行键设计，可选取时间戳部分作为分区键。例如，按月份进行分区，将时间戳格式化为 YYYYMM，每个月的数据划分到一个分区。
计算分区点：假设数据起始时间为 202401，可根据业务增长预估未来几个月的数据量，计算出每个分区的边界值。如第一个分区点为 202402，第二个分区点为 202403 等。通过HBase的 create 命令指定分区点创建预分区表，如 create 'user_activity_table', 'basic_info', 'detail_info', SPLITS => ['202402', '202403']。这样能避免数据热点问题，使数据均匀分布在不同RegionServer上，提升读写性能。

设置副本数：一般设置副本数为3。HBase通过HDFS存储数据，HDFS默认副本数为3。设置HBase表的副本数为3，可确保数据在不同节点存储，提高数据的可用性和容错性。在HBase表创建时，可通过 CONFIGURATION => {'hbase.hstore.blockingStoreFiles' => '3'} 来设置副本数（不同版本设置方式可能略有差异）。

扩展性方面：通过合理的预分区设计，数据能均匀分布在不同RegionServer上，随着数据量增长，只需增加RegionServer节点即可扩展存储容量和读写性能。同时，列族设计使得不同类型数据分开存储，便于按需扩展存储资源。例如，若详细内容数据量增长快，可针对性地为存储详细内容列族数据的节点增加存储设备。
一致性方面：HBase通过WAL（Write - Ahead Log）保证数据写入一致性。每次写入操作先写入WAL，再写入MemStore，MemStore达到阈值后刷写到磁盘成为StoreFile。在副本设置上，副本之间通过同步机制保证数据一致性。但这也带来一定性能开销，为了平衡扩展性与一致性，可在高并发写入场景下，适当放宽一致性要求，如采用异步复制方式同步副本数据。但这样可能会出现短暂的数据不一致情况，需根据业务场景评估可接受的不一致时间窗口。在读取数据时，可通过设置 READ_POLICY 来选择合适的读取策略，如选择从主副本读取以保证强一致性，或从任意副本读取以提高读取性能但可能读到较旧数据。

知识考点