面试题：Node.js 处理未捕获异常与拒绝在集群（cluster）模式下的挑战与解决方案

挑战

跨进程异常传递：在cluster模式下，每个工作进程都是独立的进程，一个工作进程中的未捕获异常或拒绝并不会直接影响到主进程或其他工作进程，这使得异常信息难以在进程间传递，主进程难以及时知晓工作进程中的异常情况。
集中式错误处理：由于存在多个工作进程，如何实现一个统一的、集中式的错误处理机制，以便对所有工作进程的异常进行有效管理和监控成为挑战。如果每个工作进程都独立处理错误，很难从整体上把握应用的健康状态。
进程稳定性：工作进程中的未捕获异常或拒绝可能导致该进程崩溃，如果没有适当的处理机制，频繁的进程崩溃会影响整个应用的稳定性和可用性。

解决方案

跨进程异常传递
- 使用进程间通信（IPC）：工作进程可以通过process.send()方法将异常信息发送给主进程。主进程通过监听message事件来接收这些异常信息。
- 示例代码：

// 主进程（master.js）
const cluster = require('cluster');
const http = require('http');
const numCPUs = require('os').cpus().length;

if (cluster.isMaster) {
    for (let i = 0; i < numCPUs; i++) {
        cluster.fork();
    }

    cluster.on('message', (worker, message) => {
        if (message.error) {
            console.log(`Worker ${worker.id} reported an error:`, message.error);
        }
    });

    cluster.on('exit', (worker, code, signal) => {
        if (code!== 0 &&!worker.exitedAfterDisconnect) {
            console.log(`Worker ${worker.id} crashed. Starting a new worker...`);
            cluster.fork();
        }
    });
} else {
    const server = http.createServer((req, res) => {
        try {
            // 模拟可能抛出异常的操作
            throw new Error('Simulated error');
            res.writeHead(200);
            res.end('Hello World!');
        } catch (error) {
            process.send({ error });
        }
    });

    server.listen(8000);
}

集中式错误处理
- 在主进程中统一处理：主进程通过监听工作进程发送的异常信息，实现集中式错误处理。可以记录异常日志、进行报警等操作。
- 使用全局错误处理中间件（在Web应用场景下）：如果是基于Express等框架的Web应用，可以在主进程中使用全局错误处理中间件，将工作进程传递过来的异常信息进行统一处理。
- 示例代码（基于Express）：

// 主进程（master.js）
const cluster = require('cluster');
const http = require('http');
const express = require('express');
const numCPUs = require('os').cpus().length;

const app = express();

if (cluster.isMaster) {
    for (let i = 0; i < numCPUs; i++) {
        cluster.fork();
    }

    cluster.on('message', (worker, message) => {
        if (message.error) {
            // 模拟记录日志
            console.error(`Worker ${worker.id} error:`, message.error);
            // 可以在此处添加报警逻辑，如发送邮件等
        }
    });

    cluster.on('exit', (worker, code, signal) => {
        if (code!== 0 &&!worker.exitedAfterDisconnect) {
            console.log(`Worker ${worker.id} crashed. Starting a new worker...`);
            cluster.fork();
        }
    });

    const server = http.createServer(app);
    server.listen(8000);
} else {
    const expressApp = express();
    expressApp.get('/', (req, res) => {
        try {
            // 模拟可能抛出异常的操作
            throw new Error('Simulated error');
            res.send('Hello World!');
        } catch (error) {
            process.send({ error });
        }
    });

    const workerServer = http.createServer(expressApp);
    workerServer.listen(0);
}

进程稳定性
- 自动重启崩溃的工作进程：主进程监听exit事件，当工作进程因为未捕获异常而崩溃时，主进程可以自动重启该工作进程，保持应用的可用性。
- 示例代码：

// 主进程（master.js）
const cluster = require('cluster');
const http = require('http');
const numCPUs = require('os').cpus().length;

if (cluster.isMaster) {
    for (let i = 0; i < numCPUs; i++) {
        cluster.fork();
    }

    cluster.on('exit', (worker, code, signal) => {
        if (code!== 0 &&!worker.exitedAfterDisconnect) {
            console.log(`Worker ${worker.id} crashed. Starting a new worker...`);
            cluster.fork();
        }
    });
} else {
    const server = http.createServer((req, res) => {
        try {
            // 模拟可能抛出异常的操作
            throw new Error('Simulated error');
            res.writeHead(200);
            res.end('Hello World!');
        } catch (error) {
            console.error('Worker error:', error);
        }
    });

    server.listen(8000);
}

面试题：Node.js 处理未捕获异常与拒绝在集群（cluster）模式下的挑战与解决方案

知识考点

面试题答案

挑战

解决方案