面试题：深入剖析MariaDB查询优化器的成本模型及调优

MariaDB查询优化器成本模型工作原理

扫描操作成本计算
- 全表扫描：成本主要与表的行数、块数以及磁盘I/O成本相关。假设表的行数为R，表占用的数据块数为B，从磁盘读取一个数据块的I/O成本为I/O_cost_per_block，则全表扫描成本Cost_full_table_scan = B * I/O_cost_per_block。这里假设每行数据都在一个块内，如果存在行跨块存储等复杂情况，计算会更复杂。
- 索引扫描：对于索引扫描，成本与索引的层次深度（高度）、索引的选择性（即索引列值的重复程度）等有关。若索引高度为h，通过索引定位到的数据行数为r，从磁盘读取一个索引块的I/O成本为I/O_cost_per_index_block，则索引扫描成本Cost_index_scan = h * I/O_cost_per_index_block + r * I/O_cost_per_data_block（这里假设获取索引后定位数据块的I/O成本为单个数据块读取成本）。选择性越高，即索引列值越不重复，通过索引扫描定位到的数据行数r相对全表行数R越小，成本越低。
连接操作成本计算
- 嵌套循环连接（Nested - Loop Join）：假设有两个表A和B，表A的行数为RA，表B的行数为RB。如果先扫描表A，对于表A中的每一行，都要去表B中匹配连接条件。假设从磁盘读取表A的成本为Cost_A，读取表B一次的成本为Cost_B，则嵌套循环连接成本Cost_nested_loop_join = Cost_A + RA * Cost_B。若表A和B上有合适的索引，成本会因索引扫描成本变化而改变。
- 哈希连接（Hash Join）：哈希连接成本计算较为复杂。首先在构建阶段，要对较小的表（假设为表A）构建哈希表，构建哈希表的成本与表A的行数、内存使用等有关。假设构建哈希表的成本为Cost_build_hash_table。然后在探测阶段，对表B进行扫描，与哈希表进行匹配。若表B的行数为RB，扫描表B的成本为Cost_B，则哈希连接成本Cost_hash_join = Cost_build_hash_table + Cost_B。这里假设构建哈希表和扫描表B在内存中完成，如果涉及磁盘I/O，成本会增加。
- 排序合并连接（Sort - Merge Join）：需要先对两个表按照连接列进行排序，假设表A排序成本为Cost_sort_A，表B排序成本为Cost_sort_B，排序后进行合并的成本与两个表的行数有关，假设合并成本为Cost_merge。则排序合并连接成本Cost_sort_merge_join = Cost_sort_A + Cost_sort_B + Cost_merge。

优化非最优执行计划的方法

调整成本模型相关参数
- 调整I/O成本参数：可以通过修改与磁盘I/O相关的成本参数，比如I/O_cost_per_block。如果实际环境中磁盘I/O性能较好，可以适当降低该参数值，这样查询优化器在评估扫描操作成本时会倾向于更复杂的扫描方式（如索引扫描），因为相对的I/O成本降低了。在MariaDB配置文件（如my.cnf）中，可以通过相关配置项来调整这些参数，不同版本的配置项可能有所不同，一般会有类似io_block_cost = [new_value]这样的设置。
- 调整CPU成本参数：对于一些操作，如排序、构建哈希表等，涉及CPU计算成本。可以调整CPU相关成本参数，例如在某些版本中，排序操作的CPU成本系数等参数。如果CPU性能较强，可以适当降低CPU成本相关参数，使得优化器在评估排序合并连接等操作成本时，更倾向于选择此类操作。
其他手段
- 添加或优化索引：如果查询优化器选择了全表扫描而非索引扫描导致执行计划非最优，可以分析查询条件，在合适的列上添加索引。例如，对于频繁在WHERE子句中使用的列添加索引，这样索引扫描成本降低，优化器可能会选择更优的索引扫描执行计划。也可以对已有的索引进行优化，如删除不必要的索引（减少索引维护成本），或者对复合索引的列顺序进行调整，以提高索引的选择性和查询性能。
- 使用查询提示（Query Hints）：在SQL查询中，可以使用查询提示来强制优化器按照特定的方式执行查询。例如，使用STRAIGHT_JOIN提示可以指定连接表的顺序，USE INDEX (index_name)提示可以强制优化器使用指定的索引。例如SELECT /*+ USE INDEX (idx_column) */ * FROM table_name WHERE column = 'value';，这样可以引导优化器生成更符合需求的执行计划。
- 分析表和索引统计信息：确保表和索引的统计信息是最新和准确的。不准确的统计信息可能导致优化器做出错误的成本估算。可以使用ANALYZE TABLE语句来更新表的统计信息，ANALYZE TABLE table_name;，对于索引，可以使用ANALYZE INDEX index_name ON table_name;来更新索引的统计信息，使优化器能基于更准确的信息生成执行计划。

星途面试题库

面试题：深入剖析MariaDB查询优化器的成本模型及调优

知识考点

面试题答案

MariaDB查询优化器成本模型工作原理

优化非最优执行计划的方法