面试题：Node.js Stream 压缩中处理大文件的优化

优化内存使用策略

管道（Piping）：
- 使用 stream.pipe 方法将可读流直接连接到可写流，这样数据就会以流的方式从可读流流向可写流，而不是一次性全部加载到内存中。例如，在压缩文件时，将文件可读流直接管道到压缩算法对应的可写流（如 zlib 模块的 createGzip 创建的可写流），然后再管道到最终的输出文件可写流。
缓冲区大小控制：
- 对于可读流，可以通过设置 highWaterMark 选项来控制内部缓冲区的大小。较小的缓冲区大小意味着每次读取的数据量较少，从而减少内存占用。例如，在创建文件可读流时：
```
const fs = require('fs');
const readableStream = fs.createReadStream('largeFile.txt', { highWaterMark: 16384 });// 16KB 缓冲区大小
```

分块处理：

手动分块读取数据，在处理函数中处理完一块数据后再读取下一块，而不是依赖流的自动缓冲区机制。例如：

const fs = require('fs');
const readableStream = fs.createReadStream('largeFile.txt');
const bufferSize = 16384;
let buffer = Buffer.alloc(bufferSize);
readableStream.on('readable', function () {
    let chunk;
    while (null!== (chunk = readableStream.read(bufferSize))) {
        // 在这里处理chunk数据，比如传递给压缩算法
        // 处理完后可以继续读取下一块
    }
});

及时释放资源：

确保在流结束或出现错误时，及时关闭相关资源，释放内存。例如，在文件可读流和可写流的 end 和 error 事件中，关闭文件描述符：

const fs = require('fs');
const readableStream = fs.createReadStream('largeFile.txt');
const writeableStream = fs.createWriteStream('compressedFile.gz');
readableStream.on('end', function () {
    writeableStream.end();
    // 可以在这里做一些清理操作
});
readableStream.on('error', function (err) {
    console.error(err);
    writeableStream.end();
    // 处理错误并清理资源
});

监控和调优

内存监控：

Node.js 内置工具：使用 process.memoryUsage() 方法可以获取当前 Node.js 进程的内存使用情况，包括 rss（resident set size，进程在物理内存中占用的字节数）、heapTotal 和 heapUsed 等。可以在流处理的关键节点（如开始、每处理一定量的数据、结束）打印这些信息来观察内存使用趋势。

const fs = require('fs');
const zlib = require('zlib');
const readableStream = fs.createReadStream('largeFile.txt');
const writeableStream = fs.createWriteStream('compressedFile.gz');
const gzip = zlib.createGzip();
let dataProcessed = 0;
readableStream.on('data', function (chunk) {
    dataProcessed += chunk.length;
    if (dataProcessed % 1048576 === 0) { // 每处理1MB数据
        const memoryUsage = process.memoryUsage();
        console.log(`Processed ${dataProcessed / 1048576}MB data. RSS: ${memoryUsage.rss / 1024 / 1024}MB, Heap Total: ${memoryUsage.heapTotal / 1024 / 1024}MB, Heap Used: ${memoryUsage.heapUsed / 1024 / 1024}MB`);
    }
});
readableStream.pipe(gzip).pipe(writeableStream);

外部工具：可以使用 node - inspector 或 Chrome DevTools 来进行更详细的内存分析。启动 node - inspector 后，使用 Chrome 浏览器打开对应的调试地址，在 Performance 和 Memory 面板中可以记录和分析内存使用情况，查找可能的内存泄漏点。

调优：
- 根据内存监控的结果，如果发现 rss 持续增长且没有回落，可能存在内存泄漏问题，需要检查代码中是否有未释放的资源或对数据的不当引用。如果 heapUsed 接近 heapTotal，可以考虑进一步调小缓冲区大小或者优化数据处理逻辑，减少中间数据在内存中的停留时间。

完整代码示例

const fs = require('fs');
const zlib = require('zlib');

// 创建可读流，设置较小的缓冲区
const readableStream = fs.createReadStream('largeFile.txt', { highWaterMark: 16384 });
// 创建gzip压缩流
const gzip = zlib.createGzip();
// 创建可写流
const writeableStream = fs.createWriteStream('compressedFile.gz');

let dataProcessed = 0;
readableStream.on('data', function (chunk) {
    dataProcessed += chunk.length;
    if (dataProcessed % 1048576 === 0) { // 每处理1MB数据
        const memoryUsage = process.memoryUsage();
        console.log(`Processed ${dataProcessed / 1048576}MB data. RSS: ${memoryUsage.rss / 1024 / 1024}MB, Heap Total: ${memoryUsage.heapTotal / 1024 / 1024}MB, Heap Used: ${memoryUsage.heapUsed / 1024 / 1024}MB`);
    }
});

// 使用管道连接流
readableStream.pipe(gzip).pipe(writeableStream);

// 处理结束和错误事件
readableStream.on('end', function () {
    writeableStream.end();
    console.log('Compression completed.');
});
readableStream.on('error', function (err) {
    console.error(err);
    writeableStream.end();
});

面试题：Node.js Stream 压缩中处理大文件的优化

知识考点

面试题答案

优化内存使用策略

监控和调优

完整代码示例