面试题：Hbase中高表与宽表存储优化之基础认知

高表：
- 行键设计：高表的行键通常包含多个部分，用于对数据进行精细的排序和检索。例如，在一个存储用户操作日志的高表中，行键可能由用户ID、时间戳等组成，按照时间顺序排列，便于快速查询某个用户在特定时间段内的操作。
- 列族与列：列族数量相对较少，列相对较多且动态扩展。列族一般根据数据的逻辑类别划分，如在上述用户操作日志中，可能有一个“操作详情”列族，其中的列可以动态增加，记录不同类型的操作信息。
- 数据分布：数据在水平方向上分布相对均匀，以行为单位进行存储和读取，适用于按行顺序访问数据的场景，比如按时间顺序查看用户操作记录。
宽表：
- 行键设计：行键相对简单，一般是唯一标识，如在一个存储用户基本信息和扩展信息的宽表中，行键可能就是用户ID。
- 列族与列：列族数量较多，每个列族下的列相对固定。例如，对于用户信息宽表，可能有“基本信息”列族（包含姓名、年龄等固定列），“联系方式”列族（包含电话、邮箱等固定列）等。
- 数据分布：数据在垂直方向上分布相对集中，以列族为单位进行存储和读取，适合快速获取某类数据的全部信息，比如一次性获取某个用户的所有联系方式。

高表优化策略：
- 行键设计优化：确保行键能够充分利用HBase的排序特性，将经常一起查询的数据放在相近的行键范围内。例如，按时间顺序生成行键时，可以适当增加时间粒度，减少热点问题。
- 列族设计：合理划分列族，将访问频率相近的数据放在同一列族，因为HBase以列族为单位进行存储和压缩，这样可以提高压缩效率和读取性能。
- 预分区：根据数据的分布规律，提前对表进行分区，避免数据集中在少数Region上，导致热点问题。例如，可以根据行键中的某个字段（如用户ID的哈希值）进行预分区。
宽表优化策略：
- 列族划分：将关联性强、访问频率高的列放在同一列族，减少跨列族的I/O操作。例如，将用户的基本信息列和常用的扩展信息列放在一个列族中。
- 数据存储格式优化：选择合适的存储格式，如使用Snappy或Gzip等压缩算法，减少存储占用空间，提高数据传输效率，尤其是对于宽表中可能存在的大量数据。
- 缓存策略：由于宽表适合批量读取数据，合理使用缓存可以减少对HBase的直接读取次数。例如，可以在应用层使用Memcached等缓存工具，缓存经常访问的宽表数据。

知识考点