面试题：PostgreSQL Zheap引擎故障恢复中的日志管理

记录修改内容：PostgreSQL的日志（Write-Ahead Log，WAL）会记录数据库中所有对数据文件的修改操作。例如，当执行一条UPDATE语句修改表中某行数据时，日志会记录该行数据修改前和修改后的镜像，以及相关的事务信息。
事务相关记录：日志会记录事务的开始、提交和回滚等关键节点。对于每个事务，日志会分配一个唯一的事务标识符（XID），并记录事务中所有相关的数据库操作，使得可以通过XID追踪事务的整个生命周期。

日志记录结构：每条日志记录（Log Record）通常包含多个字段。例如，记录类型字段（标识是数据修改、事务开始等不同类型操作）、事务标识符（XID）、相关的数据页标识符（用于定位被修改的数据在数据文件中的位置）、修改的数据内容（旧值和新值等）。
日志序列号（LSN）：每个日志记录都有一个唯一的日志序列号（Log Sequence Number，LSN）。LSN是一个单调递增的数字，用于标识日志记录的顺序，它在故障恢复过程中起到关键作用，用于定位和排序日志记录。

Write-Ahead Logging（WAL）原则：在对数据文件进行实际修改之前，必须先将对应的日志记录写入到日志文件中。这确保了即使在数据修改过程中发生故障，也能通过日志恢复数据。
刷盘策略：日志记录并非立即写入磁盘，而是先在内存中的日志缓冲区（WAL buffer）中积累。当缓冲区达到一定阈值（例如填满一定比例），或者事务提交时，会将缓冲区中的日志记录批量写入到磁盘上的日志文件中。这种策略减少了磁盘I/O次数，提高了性能。

崩溃恢复（Crash Recovery）：
- 分析阶段：数据库重启时，首先从最新的检查点（Checkpoint）开始扫描日志。检查点是数据库定期创建的一个时间点标记，记录了此时已提交事务修改的数据都已刷新到磁盘。从检查点开始分析日志，通过LSN顺序读取日志记录，构建一个事务列表，标记出哪些事务是已提交的，哪些是未提交的。
- 重做阶段（Redo Phase）：对于分析阶段标记为已提交的事务，根据日志记录中的数据修改信息，重新应用这些修改到数据文件中。由于日志记录了所有的修改操作，按照LSN顺序重做可以确保数据被正确恢复到故障前已提交事务的状态。
- 回滚阶段（Undo Phase）：对于分析阶段标记为未提交的事务，根据日志记录中的旧值信息，将数据回滚到事务开始前的状态，以保证数据一致性。
介质恢复（Media Recovery）：当数据文件损坏时，可以利用归档日志（如果开启归档模式）和当前的WAL日志进行恢复。首先应用归档日志将数据库恢复到某个时间点，然后再应用当前的WAL日志，按照崩溃恢复的方式完成恢复，确保数据一致性。

星途面试题库