面试题：HBase行式存储下，如何通过调整数据模型来优化并发性能？

行键设计
- 行键是HBase中数据定位的关键。合理的行键设计可以有效分散读写负载，避免热点问题。如果行键设计不当，大量读写请求可能集中在少数RegionServer上，导致性能瓶颈。例如，若按时间戳单调递增作为行键，新写入的数据会不断集中在最新的Region上，形成热点。
- 良好的行键设计应使数据在RegionServer之间均匀分布，从而提高并发读写能力。因为HBase基于行键进行数据分区，不同行键范围的数据分布在不同的Region上，进而由不同的RegionServer处理，实现并发处理。
列族划分
- 列族在HBase中有重要作用，每个列族的数据在存储时是独立管理的。合理划分列族能优化I/O操作。将经常一起读写的列归为一个列族，这样在读取或写入数据时，可以减少I/O操作的范围。例如，将一些频繁更新的列和不常更新的列分在不同列族，更新频繁的列族可以设置较小的块缓存（BlockCache），而不常更新但读取频繁的列族设置较大的块缓存，从而提高缓存命中率，提升并发读写性能。

行键设计优化策略
- 散列前缀：在原行键前添加散列值。比如，对于用户ID作为行键的场景，如果直接使用用户ID，可能因为某些用户活跃度高而导致热点。可以对用户ID进行散列（如MD5等散列算法），取散列值的前几位作为前缀，再拼接原用户ID。这样数据会更均匀地分布在不同Region上。例如，用户ID为123456，MD5散列值为e10adc3949ba59abbe56e057f20f883e，取前4位e10a作为前缀，新行键为e10a_123456。
- 反转行键：对于时间序列数据，若原行键按时间戳递增排列，可以将时间戳反转。比如原时间戳为20231001120000，反转后为00001201012032。这样新写入的数据会分散到不同的Region，避免热点。因为HBase按字典序存储行键，反转后新数据不再集中在最新的Region。
列族划分优化策略
- 业务属性划分：以电商订单数据为例，将订单基本信息（如订单号、下单时间、客户ID等）划分为一个列族order_basic，将订单商品详情（商品名称、价格、数量等）划分为另一个列族order_items。当查询订单基本信息时，只需要读取order_basic列族的数据，减少了I/O开销，提高并发读取性能。在更新订单商品数量时，也只涉及order_items列族，不影响order_basic列族的数据，提高并发写入性能。

知识考点