面试题：Python写入文件性能优化之缓冲机制

全缓冲：
- 描述：当缓冲区满时，才会将数据写入文件。对于以二进制模式打开的文件，默认使用全缓冲。缓冲区的大小通常是系统默认的，比如4096字节等。
- 优点：减少磁盘I/O操作次数，因为只有缓冲区满了才进行实际写入，适合大量数据一次性写入的场景，性能较高。
- 缺点：如果程序异常终止，缓冲区中的数据可能丢失，因为还没来得及写入文件。
行缓冲：
- 描述：当遇到换行符（\n）时，就会将缓冲区中的数据写入文件。对于以文本模式打开且与终端交互的文件（如标准输出sys.stdout），默认使用行缓冲。
- 优点：能及时将数据写入文件，适合需要实时显示或记录日志的场景，每行数据能及时保存。
- 缺点：由于每次遇到换行符就写入，相比全缓冲会增加磁盘I/O操作次数，在写入大量数据时性能不如全缓冲。
无缓冲：
- 描述：数据会立即写入文件，没有缓冲区。
- 优点：数据写入最及时，不会因缓冲区问题导致数据丢失。
- 缺点：频繁的磁盘I/O操作，性能最差，因为每次写入都直接操作磁盘。

设置全缓冲：
- 在open()函数中通过buffering参数设置，buffering设为大于0的整数表示全缓冲，且该整数指定缓冲区大小（字节数）。如果buffering为1，默认开启行缓冲。例如：
```
with open('test.txt', 'w', buffering = 4096) as f:
    for i in range(1000000):
        f.write('This is line {}\n'.format(i))
```

设置行缓冲：

with open('test.txt', 'w', buffering = 1) as f:
    for i in range(1000000):
        f.write('This is line {}\n'.format(i))

设置无缓冲：

with open('test.txt', 'w', buffering = 0) as f:
    for i in range(1000000):
        f.write('This is line {}\n'.format(i))

对于要将100万行数据写入文件的场景，设置全缓冲能获得较好的性能。因为全缓冲减少了磁盘I/O操作次数，虽然缓冲区满才写入，但对于大量数据写入场景整体性能较高。可以选择一个合适的缓冲区大小，如4096字节（这是常见的系统默认缓冲区大小）或更大（但不宜过大以免占用过多内存）。示例代码如下：

with open('test.txt', 'w', buffering = 4096) as f:
    for i in range(1000000):
        f.write('This is line {}\n'.format(i))

这样能在减少磁盘I/O操作次数的同时，避免因缓冲区过大占用过多内存，从而优化写入性能。

知识考点