面试题：网络编程之Netty深度优化实践

主从Reactor多线程模型
- Boss Group：使用一个NioEventLoopGroup作为Boss Group，其线程数一般设置为1或与服务器CPU核心数相关（如Runtime.getRuntime().availableProcessors()）。它主要负责接收客户端连接请求，将新连接分配给Worker Group。例如：
```
EventLoopGroup bossGroup = new NioEventLoopGroup(1);
```
- Worker Group：使用另一个NioEventLoopGroup作为Worker Group，线程数通常设置为CPU核心数的2倍左右，以充分利用多核CPU。Worker Group负责处理已建立连接的I/O读写操作。例如：
```
EventLoopGroup workerGroup = new NioEventLoopGroup(Runtime.getRuntime().availableProcessors() * 2);
```
- 业务线程池：为了避免I/O线程被复杂业务逻辑阻塞，创建一个独立的业务线程池。比如使用ThreadPoolExecutor，根据系统资源和预估业务负载设置核心线程数、最大线程数等参数。
```
ExecutorService businessExecutor = new ThreadPoolExecutor(
    corePoolSize,
    maximumPoolSize,
    keepAliveTime,
    TimeUnit.SECONDS,
    new LinkedBlockingQueue<>());
```
当I/O线程读取到消息后，将消息处理任务提交到业务线程池。

池化内存分配
- 使用Netty提供的池化内存分配器，如PooledByteBufAllocator。它可以减少内存碎片，提高内存分配和回收的效率。在启动服务端或客户端时，设置使用池化内存分配器，例如：
```
ServerBootstrap bootstrap = new ServerBootstrap();
bootstrap.childOption(ChannelOption.ALLOCATOR, PooledByteBufAllocator.DEFAULT);
```
直接内存（Direct Memory）
- 优先使用直接内存，因为直接内存读写速度快，能减少Java堆内存和物理内存之间的数据拷贝。通过设置PooledByteBufAllocator为默认分配器，Netty会优先分配直接内存。同时，可以通过-XX:MaxDirectMemorySize参数调整直接内存的大小。

TCP层面流量控制
- Netty基于TCP协议，TCP本身具有流量控制机制。接收方通过在TCP报文头部的窗口字段告知发送方自己的接收缓冲区大小，发送方根据接收方的窗口大小调整发送数据的速率，从而实现流量控制。
应用层面流量控制
- 令牌桶算法：在Netty的业务处理逻辑中引入令牌桶算法。可以使用Guava库中的RateLimiter实现。例如，在消息处理方法中：
```
RateLimiter rateLimiter = RateLimiter.create(permitsPerSecond);
if (rateLimiter.tryAcquire()) {
    // 处理消息
} else {
    // 丢弃或延迟处理消息
}
```
- 漏桶算法：也可以自行实现漏桶算法，维护一个固定容量的桶，以固定速率从桶中移除消息进行处理。当桶满时，新到达的消息被丢弃或延迟处理。

网络抖动应对
- 心跳机制：在客户端和服务端之间定期发送心跳包。Netty可以通过IdleStateHandler实现心跳检测。在服务端和客户端管道中添加IdleStateHandler，例如：
```
pipeline.addLast(new IdleStateHandler(readIdleTime, writeIdleTime, allIdleTime, TimeUnit.SECONDS));
```
当一段时间内没有读或写操作时，触发相应的IdleStateEvent，可以在业务逻辑中处理，如重新连接等。
- 重试机制：当网络抖动导致连接中断时，实现自动重试机制。可以使用RetryPolicy策略，例如通过ExponentialBackOffRetry策略，每次重试间隔时间逐渐增加，直到达到最大重试次数或连接成功。
节点故障应对
- 数据备份与复制：在分布式系统中，对重要消息进行多副本备份。可以使用一致性哈希算法将消息分布到不同节点，并为每个消息创建多个副本存储在不同节点上。当某个节点故障时，其他节点上的副本可以继续提供服务。
- 故障检测与自动恢复：使用分布式系统中的故障检测机制，如基于心跳的故障检测。当检测到某个节点故障时，自动将该节点从集群中移除，并通知其他节点重新分配负载。同时，启动故障节点的恢复流程，如自动重启服务，并从备份数据中恢复状态。

知识考点