面试题：SQLite数据库文件格式深度剖析与优化

1. SQLite数据库文件格式中B - tree结构的存储原理

节点结构：
- 叶子节点：存储实际的数据行，每个叶子节点包含若干个键值对（Key - Value Pair）。键是用于索引的字段值，值是对应的数据记录。例如，在一个用户表中，键可能是用户ID，值是用户的详细信息记录。
- 内部节点：用于引导查询路径，内部节点包含若干个键和指向子节点的指针。键起到分隔作用，通过比较查询值与内部节点的键，决定向下搜索的子节点方向。
存储布局：
- SQLite将B - tree存储在数据库文件的页（Page）中。每个页有固定的大小（通常为1024、2048、4096字节等）。节点可能跨多个页存储，一个页也可能包含多个节点的部分数据。例如，一个较大的叶子节点可能需要多个连续的页来存储所有的键值对。
- 页与页之间通过双向链表连接，方便顺序访问。这种连接方式有助于范围查询等操作，例如在进行全表扫描时，可以按链表顺序依次读取每个页的数据。

2. SQLite数据库文件格式中B - tree结构的查询原理

查询过程：
- 从根节点开始，将查询的键值与根节点中的键进行比较。如果查询键小于某个键，则沿着该键左侧的指针进入对应的子节点；如果查询键大于某个键，则沿着该键右侧的指针进入子节点；如果相等，则可能直接在当前节点找到数据（若为叶子节点）或沿着指针继续查找（若为内部节点）。
- 重复上述过程，直到到达叶子节点。在叶子节点中，通过顺序查找（通常是线性查找）匹配查询键，找到对应的记录。例如，查询用户ID为100的用户记录，从根节点开始比较，逐步向下找到包含ID为100的叶子节点，然后在该叶子节点中找到具体记录。
优化机制：
- SQLite使用缓存机制，将经常访问的页缓存在内存中，减少磁盘I/O。对于重复查询相同数据的场景，直接从缓存中获取数据，大大提高查询效率。例如，在短时间内多次查询某个热门用户的记录，这些页会被缓存，后续查询无需再次读取磁盘。
- 利用索引统计信息，SQLite的查询优化器可以选择更优的查询路径。例如，通过统计不同索引列的基数（唯一值数量）等信息，决定使用哪个索引来执行查询，以减少搜索范围。

3. 高并发读写场景下的优化思路

优化B - tree结构参数：
- 页大小调整：
  - 技术思路：适当增大页大小可以减少I/O次数。较大的页能容纳更多的节点数据，在读取节点时，一次I/O操作能获取更多有用信息，减少随机I/O。但页大小过大会增加内存占用，且在更新操作时可能导致更多的数据移动。
  - 实现方案：在创建数据库时，通过设置合适的PRAGMA page_size参数来调整页大小。例如，PRAGMA page_size = 4096;，然后重新创建数据库并导入数据。需要对不同页大小进行性能测试，找到适合业务场景的最佳值。
- 填充因子调整：
  - 技术思路：填充因子决定了节点在插入数据时填满的程度。较高的填充因子可以减少节点分裂次数，提高空间利用率，但在更新频繁的场景下，可能导致频繁的节点分裂和合并。较低的填充因子则相反，预留更多空间，减少更新时的节点操作，但会浪费部分空间。
  - 实现方案：SQLite中可以通过CREATE INDEX语句的FILLFACTOR选项来设置填充因子。例如，CREATE INDEX idx_name ON table_name (column_name) FILLFACTOR 80;，这里设置填充因子为80%，根据业务读写特性进行调整。
文件格式层面调整：
- ** WAL（Write - Ahead Logging）模式**：
  - 技术思路：WAL模式下，写操作先记录到日志文件中，而不是直接修改数据库文件。读操作可以直接从数据库文件读取，与写操作互不干扰，从而提高并发性能。多个写操作可以并发进行，日志文件按顺序写入，减少磁盘I/O争用。
  - 实现方案：通过PRAGMA journal_mode = WAL;启用WAL模式。应用程序需要注意在合适的时机（如事务结束或定期）进行日志文件的检查点操作（PRAGMA wal_checkpoint;），将日志中的修改合并到数据库文件，以控制日志文件大小。
- 分区技术：
  - 技术思路：根据数据的某个属性（如时间、地域等）将数据划分到不同的分区中。在高并发读写时，不同的读写请求可以分布到不同的分区，减少单个分区的争用。例如，按时间分区的日志表，不同时间段的读写操作可以分别在对应的分区上进行。
  - 实现方案：在SQLite中，可以通过应用层逻辑实现分区。例如，创建多个表，每个表对应一个分区，通过业务逻辑决定数据插入到哪个表中。也可以使用虚拟表和自定义的表接口来模拟分区功能，提高数据管理和并发处理能力。

面试题：SQLite数据库文件格式深度剖析与优化

知识考点

面试题答案

1. SQLite数据库文件格式中B - tree结构的存储原理

2. SQLite数据库文件格式中B - tree结构的查询原理

3. 高并发读写场景下的优化思路