面试题：HBase中针对高写入和高读取场景，数据建模有何不同策略？

RowKey设计
- 散列设计：为避免写入热点，可在RowKey前缀添加散列值。例如，将数据按业务ID划分，若业务ID为数字，可对其取模后作为前缀。如业务ID为12345，对10取模得5，RowKey前缀设为005，这样能使写入均匀分布在不同Region。
- 时间戳后置：如果数据有时间特性，将时间戳放在RowKey末尾。例如记录用户操作日志，RowKey可设计为“用户ID_操作类型_时间戳”，方便按时间顺序写入，且新数据写入时不易造成热点。
Column Family划分
- 减少Column Family数量：每个Column Family在HBase底层会对应一个HFile，过多Column Family会增加写入时的I/O开销。因此，尽量将相关度高的列放在一个Column Family。如用户基本信息（姓名、年龄、性别）可放在一个Column Family。
- 选择合适的数据类型：对于频繁写入的列，选择紧凑的数据类型，减少存储开销。如布尔类型用1字节存储，而不用字符串“true”或“false”。
数据版本管理
- 设置较低版本数：若业务对历史版本需求不高，可将数据版本设置为1，减少写入时的版本管理开销。例如，实时监控数据，只需要最新值，设置VERSIONS = 1。

RowKey设计
- 前缀匹配优化：若读取操作多为按前缀查询，设计RowKey时将查询前缀部分前置。比如按地区查询用户数据，RowKey可设计为“地区_用户ID”，这样可利用HBase的前缀查询特性快速定位数据。
- 关联字段组合：若经常根据多个字段联合查询，可将这些字段组合在RowKey中。例如，订单数据经常按“店铺ID + 订单时间”查询，RowKey可设计为“店铺ID_订单时间_订单ID”。
Column Family划分
- 读写分离Column Family：将读频繁的列和写频繁的列分别放在不同Column Family。如订单数据中，订单金额读频繁，订单备注写频繁，可将订单金额放在一个Column Family，订单备注放在另一个Column Family，读操作时避免读入不必要的写频繁数据。
- 预取Column Family：对于关联查询的数据，放在同一Column Family。如用户基本信息和用户最近登录信息，放在一个Column Family，一次读取可获取更多相关数据，减少I/O次数。
数据版本管理
- 保留多版本：若业务需要查询历史版本数据，适当增加数据版本数。如文档编辑历史，设置VERSIONS = 10，方便查询不同历史版本。

RowKey设计
- 高写入场景下的散列设计虽然能避免热点，但不利于前缀查询；高读取场景下的前缀匹配设计在写入时可能导致热点。例如，散列设计的RowKey无法快速按前缀查询，而前缀匹配设计的RowKey在写入时可能因前缀相同而集中在同一Region。
Column Family划分
- 高写入场景下减少Column Family数量虽能降低I/O开销，但可能导致读操作读取到过多不需要的数据；高读取场景下的读写分离和预取设计会增加Column Family数量，提高写入I/O开销。如减少Column Family数量后，读操作可能读到写频繁但不需要的列数据；读写分离Column Family设计会使写入时需要操作多个HFile。
数据版本管理
- 高写入场景下设置低版本数能减少写入开销，但无法满足查询历史版本需求；高读取场景下保留多版本虽方便历史版本查询，但增加了存储和写入开销。如设置VERSIONS = 1无法查询历史数据，而VERSIONS = 10会占用更多存储空间并增加写入负担。

知识考点