缓冲机制工作原理
- 字节缓冲流(
BufferedInputStream
和 BufferedOutputStream
):
BufferedInputStream
内部维护一个字节数组作为缓冲区。当从流中读取数据时,它一次性从底层输入流读取多个字节(通常是缓冲区大小的数量)到缓冲区数组中。后续的读取操作首先从缓冲区中获取数据,只有当缓冲区中的数据读完后,才会再次从底层输入流读取数据填充缓冲区。
- 例如:
BufferedInputStream bis = new BufferedInputStream(new FileInputStream("example.txt"));
int data;
while ((data = bis.read()) != -1) {
// 处理数据
}
BufferedOutputStream
同样维护一个缓冲区。当向流中写入数据时,数据首先被写入缓冲区。只有当缓冲区被填满,或者调用 flush()
方法,或者关闭流时,缓冲区中的数据才会被一次性写入到底层输出流。
- 例如:
BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream("output.txt"));
bos.write("Hello, World!".getBytes());
bos.flush(); // 手动刷新缓冲区,确保数据写入文件
bos.close(); // 关闭流时也会刷新缓冲区
- 字符缓冲流(
BufferedReader
和 BufferedWriter
):
BufferedReader
用于字符输入,它以字符为单位操作缓冲区。除了常规的 read()
方法读取单个字符外,还提供了 readLine()
方法用于读取一行字符。它从底层字符输入流读取字符块填充缓冲区,然后从缓冲区提供数据。
- 例如:
BufferedReader br = new BufferedReader(new FileReader("example.txt"));
String line;
while ((line = br.readLine()) != null) {
// 处理行数据
}
BufferedWriter
用于字符输出,与 BufferedOutputStream
类似,数据先写入缓冲区,在缓冲区满、调用 flush()
或关闭流时写入底层输出流。它还提供了 newLine()
方法用于写入平台相关的换行符。
- 例如:
BufferedWriter bw = new BufferedWriter(new FileWriter("output.txt"));
bw.write("Hello, World!");
bw.newLine();
bw.flush();
bw.close();
合理设置缓冲区大小优化性能
- 缓冲区大小影响因素:
- 数据量:如果处理的数据量较小,较小的缓冲区(如默认的8192字节或字符)可能就足够了。但对于大量数据,适当增大缓冲区可能提高性能。例如,处理一个几GB的大文件,增大缓冲区能减少底层I/O操作次数。
- 硬件资源:设置过大的缓冲区会占用更多内存。要考虑系统的可用内存,避免内存溢出。在服务器环境中,可能需要根据服务器的总内存和同时处理的任务数量来合理分配缓冲区大小。
- 设置缓冲区大小:
- 字节缓冲流构造函数可接受缓冲区大小参数,如
BufferedInputStream(InputStream in, int size)
和 BufferedOutputStream(OutputStream out, int size)
。
- 字符缓冲流类似,
BufferedReader(Reader in, int sz)
和 BufferedWriter(Writer out, int sz)
。
- 例如,对于处理大文件的字节流:
BufferedInputStream bis = new BufferedInputStream(new FileInputStream("largeFile.dat"), 16384);
BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream("output.dat"), 16384);
- 一般来说,通过测试不同的缓冲区大小,结合实际应用场景(如文件大小、读写频率等),找到性能最佳的缓冲区大小。
不使用缓冲流可能带来的性能问题
- 频繁系统调用:没有缓冲区,每次读写操作都直接与底层设备(如磁盘、网络)交互。例如,从文件读取单个字节,就需要一次系统调用,而系统调用相对开销较大,频繁调用会导致性能严重下降。
- 降低吞吐量:由于每次读写的数据量小,数据传输的效率低,整体的输入输出吞吐量不高。特别是在网络传输中,小数据量的频繁发送会增加网络开销,如TCP的包头等,降低有效数据传输率。
- 增加资源消耗:频繁的I/O操作会增加CPU的负担,因为每次操作都需要CPU参与处理。同时,频繁的磁盘I/O操作可能导致磁盘的机械部件频繁移动,增加磁盘的磨损和能耗。