面试题：MySQL全文索引实践：复杂场景应用

字符集选择

推荐字符集：对于包含多种语言（中文、英文等）的全文索引，utf8mb4字符集是一个很好的选择。它支持几乎所有Unicode字符，能够涵盖各种语言的字符。例如，MySQL 8.0 版本默认的字符集就是utf8mb4。
原因：utf8mb4相比utf8（实际上是utf8mb3，只支持最多3字节长度的字符），能处理4字节的字符，如一些生僻汉字、表情符号等。这对于多语言内容管理系统至关重要，确保所有语言的内容都能正确存储和索引。

索引构建策略

创建表时添加全文索引：

CREATE TABLE articles (
    id INT AUTO_INCREMENT PRIMARY KEY,
    title VARCHAR(255),
    content TEXT,
    FULLTEXT(title, content)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

在上述示例中，对title和content字段同时创建全文索引。注意，InnoDB存储引擎才支持全文索引，MyISAM虽然也支持，但在多语言和高并发场景下，InnoDB表现更优。 2. 索引字段选择：选择经常用于搜索的字段建立全文索引，避免对过多字段建立索引，因为过多索引会增加存储开销和写入成本。例如，如果文章的作者字段很少用于搜索，就不必为其建立全文索引。 3. 批量插入数据：在构建索引前，尽量批量插入数据，而不是逐条插入。因为逐条插入会导致索引多次重建，性能较低。例如使用INSERT INTO articles (title, content) VALUES ('title1', 'content1'), ('title2', 'content2');这样的批量插入语句。

查询优化

使用MATCH AGAINST语法：

SELECT * FROM articles
MATCH (title, content)
AGAINST ('search_term' IN NATURAL LANGUAGE MODE);

MATCH AGAINST语法专门用于全文索引查询，相比LIKE操作符，它在全文索引上性能更高。MATCH AGAINST会对查询词进行分词处理，并利用索引快速定位结果。 2. 选择合适的查询模式： - 自然语言模式（NATURAL LANGUAGE MODE）：适用于一般的搜索场景，MySQL会自动处理停用词（如“the”“and”等在英文中无实际搜索意义的词）。 - IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION：在自然语言模式基础上，会尝试扩展查询词，以获取更多相关结果，但可能会返回一些不太相关的结果，适用于希望获取更广泛结果集的场景。 - IN NATURAL LANGUAGE MODE WITH SYNONYMS：用于处理同义词，需要事先定义同义词表，能提高查询的准确性和召回率。 3. 查询词长度：注意查询词的长度，MySQL对全文索引的查询词有最小和最大长度限制。默认最小长度为4个字符，可通过ft_min_word_len系统变量调整；最大长度为84个字符，可通过ft_max_word_len系统变量调整。如果查询词过短或过长，可能无法匹配到结果。

不同语言分词问题及解决方案

中文分词问题：
- 问题：中文不像英文有天然的词边界（空格），MySQL原生的全文索引对中文分词效果不佳，它默认按字拆分，无法准确识别语义单元。例如“中国人民”会被拆分为“中”“国”“人”“民”。
- 解决方案：使用第三方中文分词插件，如ngram插件。在MySQL 8.0中，可以安装ngram插件并配置。首先，在MySQL配置文件（如my.cnf）中添加ngram_token_size = 2（这里设置为2，可根据需求调整，一般2 - 4较为合适），表示按2个字为单位进行分词。然后重启MySQL服务。创建索引时指定使用ngram解析器：

CREATE TABLE chinese_articles (
    id INT AUTO_INCREMENT PRIMARY KEY,
    content TEXT,
    FULLTEXT(content) WITH PARSER ngram
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

其他语言分词：
- 问题：不同语言有不同的语法、词法规则，一些语言的词形变化丰富（如德语、俄语等屈折语），MySQL默认的分词方式可能无法满足需求。例如，德语中一个单词可能有多种词尾变化形式，但搜索时希望能匹配到所有相关形式。
- 解决方案：对于有词形变化的语言，可以使用Snowball词干提取器。虽然MySQL本身没有直接集成Snowball，但可以通过外部工具在数据插入前对文本进行预处理，将单词转换为词干形式，然后再插入数据库并建立索引。例如，对于德语，可以使用Snowball的德语词干提取算法，将“spielen”“spielte”“gespielt”等形式转换为词干“spiel”，这样在搜索时能匹配到所有相关词形的文章。同时，对于一些语言特定的停用词处理，也可以通过自定义停用词表来优化搜索结果。可以在MySQL配置文件中通过ft_stopword_file参数指定停用词文件路径，将语言特定的停用词添加到文件中，让MATCH AGAINST在查询时忽略这些词。

面试题：MySQL全文索引实践：复杂场景应用

知识考点

面试题答案

字符集选择

索引构建策略

查询优化

不同语言分词问题及解决方案