当前位置：首页 > news >正文

从Linux内核IO模型到Netty架构：深入解析高并发网络编程基石

news 2026/5/17 0:16:02

1. 项目概述：为什么我们要从内核视角看Netty？

做Java服务端开发，尤其是高并发网络编程，Netty几乎是绕不开的基石。我们经常讨论它的线程模型、零拷贝、内存池，但很多朋友在深入使用时，总会遇到一些“知其然不知其所以然”的困惑：为什么Netty的默认线程数要和CPU核心数挂钩？为什么说Reactor模式高效？Channel的read和write操作背后到底发生了什么？要真正理解这些，仅仅停留在Netty API层面是远远不够的，我们必须下沉一层，去看看Netty所构建的抽象之下，操作系统内核（特别是Linux）是如何处理输入输出（IO）的。这就是“从内核角度看IO模型”的意义所在。

Netty本身是一个卓越的网络应用框架，它封装、优化并提供了统一的异步事件驱动编程模型。但这个模型的根基，深深扎在操作系统的IO多路复用机制上。理解内核的IO模型，就像是拿到了Netty高性能设计的“底层图纸”。它能让你明白，为什么在C10K甚至C100K的问题上，基于NIO的Netty可以如此游刃有余，而传统的BIO服务器却举步维艰。这不仅仅是为了炫技，更是为了在实际工作中，当遇到性能瓶颈、诡异的连接问题或需要做深度调优时，你能有一个清晰的排查思路和理论依据，知道该从哪个方向去“拧螺丝”。

2. 核心思路：连接内核IO与Netty架构的桥梁

要建立这个连接，我们的思路不能是孤立地讲Linux内核API，然后生硬地套上Netty的类名。相反，我们需要沿着一条数据流的生命轨迹来展开：一个网络数据包，从网卡到达用户态的Netty应用，中间经历了哪些内核层的等待、通知和拷贝？Netty的各个核心组件，又是如何与这些内核机制一一对应、协同工作的？

这个思路的核心在于映射与抽象。我们将重点关注两个层面：

内核的IO模型演进：从最基础的阻塞式IO（BIO）到非阻塞IO（NIO），再到IO多路复用（如select,poll,epoll），最后到异步IO（AIO）。每一种模型如何改变应用程序与内核的交互方式，其效率和瓶颈何在。
Netty的架构对应：Netty的EventLoopGroup、Channel、ChannelPipeline、ByteBuf等核心组件，是如何封装和利用底层最高效的IO多路复用机制（通常是epoll）的。例如，一个EventLoop本质上就是一个不断执行“查询就绪事件->处理事件”的循环，这直接对应了epoll_wait的系统调用。

通过这种对照，我们就能理解，Netty的“异步事件驱动”并非凭空产生，而是对操作系统提供的最优网络IO能力的一种现代化、易用的编程范式封装。理解了内核，你再看Netty的源码或配置参数，很多地方都会豁然开朗。

2.1 核心需求解析：超越API用法的深度理解

为什么我们需要这份“底层图纸”？主要满足以下几类深层需求：

调优决策有据可依：当别人告诉你“SO_BACKLOG参数要调大”时，你知道这个参数对应的是内核中listen系统调用后维护的“未完成连接队列”和“已完成连接队列”的大小。当你知道epoll有LT（水平触发）和ET（边缘触发）两种模式，而Netty默认使用更安全的LT模式时，你就能理解在某些极端性能场景下尝试ET模式可能带来的风险与收益。
问题排查直击要害：线上服务出现连接超时、吞吐量上不去。如果你清楚从网卡硬中断、到内核协议栈的软中断、再到epoll通知用户态进程的完整路径，你的排查链路就会非常清晰。是epoll集合太大导致epoll_wait遍历效率低？还是应用程序处理速度太慢，导致内核接收缓冲区满了，进而触发TCP零窗口通告？
技术选型心知肚明：面对Redis、Nginx等同样以高性能著称的软件，你知道它们和Netty在底层利用了相同的内核机制（epoll/kqueue），因此其高并发原理是相通的。这有助于你构建统一的知识体系，而不是孤立地学习每一个工具。
避免抽象泄漏（Leaky Abstractions）：再好的框架也无法百分百屏蔽底层细节。比如，当你使用ByteBuf的堆外内存（Direct Buffer）时，如果不理解这避免了从内核缓冲区到JVM堆的又一次内存拷贝（即“零拷贝”优势之一），你可能就会困惑于为何要处理更复杂的内存管理。理解内核，能帮你更好地驾驭框架的抽象。

3. 深入内核：五种IO模型的演进与本质

要理解Netty的基石，我们必须先穿越到操作系统层面，看看应用程序进行一次网络IO操作（例如read）时，到底发生了什么。这个过程通常涉及两个阶段：

等待数据就绪（Waiting for the data to be ready）。
将数据从内核缓冲区拷贝到用户进程缓冲区（Copying the data from the kernel to the process）。

不同的IO模型，主要区别就在于这两个阶段是如何被处理的。

3.1 阻塞式IO（Blocking IO）：最朴素的模型

这是最经典、最简单的模型，也是Java中传统Socket和ServerSocket的默认行为。

内核视角：

用户进程发起recvfrom系统调用。
内核开始准备数据（对于网络IO，就是等待网络数据包到达，然后被内核协议栈处理，存入对应的套接字接收缓冲区）。
在数据完全到达并存入内核缓冲区之前，用户进程会被操作系统挂起（阻塞），进入睡眠状态，让出CPU。
直到数据准备好，内核将数据从内核空间拷贝到用户进程指定的内存地址。
拷贝完成，内核返回结果，用户进程被唤醒，继续执行。

对应Netty的批评：这就是BIO。在Netty的语境下，这意味着每个连接都需要一个独立的线程来处理。当这个线程阻塞在read操作上时，它什么也做不了。对于海量连接，线程上下文切换的开销将吞噬所有CPU资源，连接数受限于线程数，无法支撑高并发。

注意：很多初学者混淆了“阻塞”与“同步”。阻塞IO是同步IO的一种实现方式。同步IO（Synchronous IO）指的是用户进程在整个IO操作（包含等待和拷贝）完成之前都必须等待。阻塞IO是其中一种，非阻塞IO在“等待就绪”阶段不阻塞，但在“数据拷贝”阶段依然是阻塞/等待的，所以也是同步IO。

3.2 非阻塞式IO（Non-blocking IO）：轮询的代价

为了解决阻塞的问题，可以让套接字变成“非阻塞”的。通过fcntl设置O_NONBLOCK标志即可。

内核视角：

用户进程发起recvfrom系统调用。
如果内核缓冲区没有数据，内核立即返回一个错误（如EAGAIN或EWOULDBLOCK），而不是将进程阻塞。
用户进程收到错误后，可以去做其他事情，然后过段时间再来“问一次”（轮询）。
如此循环，直到某次调用时，数据已经就绪，内核执行数据拷贝，返回成功。

对应Netty的关联：这是Java NIO中Selector出现之前的基础。SocketChannel.configureBlocking(false)就是设置非阻塞。它的巨大问题是空轮询消耗CPU。如果有一万个连接，每次轮询都要进行一万次系统调用（recvfrom），而其中绝大多数调用都是无效的，CPU时间被白白浪费在用户态到内核态的切换上。

3.3 IO多路复用（IO Multiplexing）：从`select`到`epoll`的革命

这是高性能网络编程的基石，也是Netty默认在Linux下使用的机制。核心思想是：用一个专门的系统调用（select/poll/epoll）来批量监听多个文件描述符（fd）上的就绪事件，而不是为每个fd启动一个线程或进行轮询。

select/poll的内核视角：

用户进程将需要监听的fd集合（通过fd_set或pollfd数组）传递给内核（select/poll系统调用）。
内核会遍历这个fd集合，检查每个fd的状态（是否有数据可读、可写等）。
这个遍历检查的过程是同步的，内核会等待直到有fd就绪，或者超时。
遍历完成后，内核将就绪的fd标记出来，并返回给用户进程。
用户进程拿到返回后，必须再次遍历整个fd集合，才能知道具体是哪些fd就绪了，然后对其进行IO操作。

select/poll的瓶颈：

两次遍历：内核遍历一次，用户进程遍历一次，时间复杂度O(n)。
fd集合有上限：select通常限制为1024。
内核与用户空间的数据拷贝：每次调用都需要将整个fd集合从用户空间拷贝到内核空间，调用返回时又拷贝回来。对于万级连接，拷贝开销巨大。

epoll的革新：Linux 2.6引入的epoll完美解决了上述问题。

epoll_create：创建一个epoll实例，返回一个文件描述符（epfd）。
epoll_ctl：向epfd添加、修改或删除需要监听的fd及其关注的事件（读、写等）。这个操作是增量的，不需要每次传递全部fd。
epoll_wait：等待事件发生。它只返回已经就绪的fd及其事件，用户进程无需遍历整个集合。内核通过一个就绪列表（ready list）来维护这些fd，效率极高。

epoll的关键优势：

事件驱动，无需遍历：内核通过回调机制（当设备就绪时，唤醒等待队列上的进程）将就绪的fd放入就绪列表，epoll_wait直接读取这个列表，时间复杂度O(1)。
内存共享（mmap）：epoll使用内存映射（mmap）技术，使得epoll_wait返回的就绪事件数据在用户空间和内核空间是共享的，避免了内存拷贝。
无数量限制：仅受系统最大文件描述符数限制。

对应Netty的核心映射：

EventLoop：它的核心循环，本质上就是在一个while(true)循环中调用Selector.select()（在Linux下底层就是epoll_wait），获取就绪的SelectionKey（对应就绪的fd和事件），然后分发给对应的ChannelHandler处理。
Selector：对应一个epoll实例（epfd）。
Channel.register(selector, ops)：对应epoll_ctl的EPOLL_CTL_ADD/MOD操作。
Netty的线程模型（如主从Reactor）就是基于一个或多个这样的EventLoop（即一个或多个epoll实例）构建起来的。

3.4 信号驱动IO（Signal-driven IO）与异步IO（Asynchronous IO）

这两种模型在实际生产环境的网络编程中应用相对较少，但为了知识体系的完整，我们简要了解。

信号驱动IO：进程通过sigaction系统调用安装一个信号处理函数（如SIGIO），然后内核在fd就绪时向进程发送信号。进程在信号处理函数中进行IO操作。它解决了等待数据就绪阶段的阻塞，但数据拷贝阶段仍然是同步/阻塞的。且信号处理函数中能做的事情有限，编程复杂，性能优势在epoll面前并不明显。
异步IO（AIO）：这是真正的“异步”。用户进程发起aio_read操作后，整个IO操作（等待数据+数据拷贝）都由内核完成，内核完成后会通知用户进程（比如通过信号或回调）。用户进程在发起调用后，直到内核通知完成，期间完全不需要等待，也无需参与数据拷贝。Linux的Native AIO（libaio）主要针对磁盘IO优化，网络AIO（io_uring是新的希望）成熟度在历史上一直不如epoll。

Netty的取舍：Netty早期版本曾尝试支持AIO，但后来发现其成熟度和性能在Linux下并不优于成熟的epoll模型，且增加了代码复杂度。因此，Netty在Linux平台默认使用epoll，在macOS使用kqueue，在Windows使用IOCP（这是Windows下真正的异步IO模型）。io_uring作为Linux新一代异步IO接口，Netty社区也在积极跟进。

4. Netty架构与内核机制的深度对应

理解了epoll，我们再回头看Netty，就会发现它的设计几乎是为高效利用epoll而量身定制的。

4.1 Reactor模式：事件处理的经典范式

Netty的线程模型是Reactor模式的多种实现。以最常用的“主从Reactor多线程模型”为例：

Main Reactor (Boss Group)：对应一个EventLoopGroup，通常只包含一个EventLoop。它负责监听服务器端口的accept事件（即新连接到达）。这个EventLoop的Selector上只注册了ServerSocketChannel。
Sub Reactor (Worker Group)：对应另一个EventLoopGroup，包含多个EventLoop（通常为CPU核心数*2）。当Main Reactor接收到新连接后，会将这个新连接（SocketChannel）注册到Worker Group中的某个EventLoop的Selector上（Netty采用轮询等策略进行分配）。
WorkerEventLoop：负责监听已建立连接上的读写事件（read,write），并执行对应的ChannelHandler。

内核映射：

每一个EventLoop和一个Selector（即一个epoll实例）绑定。
EventLoop的run方法核心就是for (;;) { selector.select(...); processSelectedKeys(); ... }。这里的selector.select()在Linux下就是epoll_wait系统调用。
将不同的Channel注册到不同的Selector，本质上是将大量的连接fd分散到多个epoll实例上进行监听，避免了单个epoll实例管理过多fd可能带来的性能下降（虽然epoll本身管理大量fd效率很高，但单个EventLoop处理所有事件会成为瓶颈）。

4.2 Channel与ByteBuf：数据流的载体与零拷贝

Channel：Netty对网络连接（或文件等）的抽象。它底层封装了一个Java NIO的SelectableChannel（如SocketChannel），而后者又对应一个操作系统级别的文件描述符（fd）。所以，一个Channel对象直接关联着一个内核中的套接字。
ByteBuf与零拷贝：这是Netty性能优化的关键。传统的Java IO，数据从网卡到应用进程需要经历：网卡 -> 内核缓冲区 -> JVM堆外内存（Direct Memory） -> JVM堆内内存（Heap ByteBuffer） -> 用户业务代码。存在多次拷贝。
Netty的ByteBuf尤其是堆外直接内存（Direct Buffer），允许数据从内核缓冲区直接拷贝到JVM管理的堆外内存，省去了向JVM堆内拷贝的一次。这就是“零拷贝”在用户态的一种体现。更进一步，Netty的FileRegion、CompositeByteBuf以及底层对sendfile、gather/write等系统调用的封装，可以实现更极致的、内核态的零拷贝，让数据直接从文件系统缓存发送到网卡，或者在不同Channel间直接传输，完全绕过用户进程。

内核关联：当你调用channel.writeAndFlush(msg)时，Netty最终会调用底层Channel的write方法，这可能会触发sendmsg或writev系统调用，将ByteBuf中的数据写入到内核的套接字发送缓冲区。理解内核发送缓冲区的容量、阻塞与非阻塞模式下的行为（如EAGAIN），对于理解Netty的写高低水位线（WriteBufferWaterMark）和背压（Backpressure）控制至关重要。

4.3 事件循环的处理粒度：Channel与ChannelPipeline

EventLoop处理的是就绪的SelectionKey，但Netty并没有直接将业务逻辑塞在EventLoop线程里。而是引入了ChannelPipeline。

精细化事件分类：epoll_wait返回的事件是相对原始的“可读”、“可写”。Netty将其转化为更具体的入站（channelRead,exceptionCaught）和出站（write,flush）事件。
责任链模式：ChannelPipeline是一系列ChannelHandler组成的责任链。一个读事件到来，会从Pipeline的头部开始，依次流经各个InboundHandler。这允许用户以插件化的方式处理数据（如解码、业务逻辑、编码）。
线程隔离的思考：默认情况下，Channel上所有的Handler都由绑定该Channel的EventLoop线程执行。这保证了针对同一个连接的事件处理是串行的，无需加锁，极大提升了性能。但这也要求Handler中的业务逻辑不能有阻塞操作，否则会阻塞整个EventLoop，影响其他连接的处理。对于耗时业务，必须提交到独立的业务线程池。

内核层面的启示：这种设计模式，使得Netty应用程序本身也成为一个高效的“内核”。EventLoop像调度器，Pipeline像处理流水线。它确保了IO密集型任务（数据读写）被最快速度处理，而计算密集型任务被分流，这与操作系统调度IO中断和进程的思路一脉相承。

5. 从内核参数到Netty配置：实战调优指南

理解了原理，我们就可以进行有的放矢的调优。以下是一些关键的内核参数与Netty配置的对应关系。

5.1 连接建立相关：`SO_BACKLOG`与`tcp_max_syn_backlog`

当Netty服务器绑定端口时，可以设置SO_BACKLOG参数（通过ServerBootstrap.option(ChannelOption.SO_BACKLOG, value)）。

内核机制：在TCP三次握手过程中，服务器收到SYN包后，会进入SYN_RCVD状态，并将该连接放入一个“未完成连接队列”（SYN queue）。完成三次握手后，连接变为ESTABLISHED状态，被移动到“已完成连接队列”（Accept queue）。SO_BACKLOG参数指定了这个已完成连接队列的最大长度。
Netty配置影响：如果accept处理速度跟不上连接建立的速度，已完成连接队列会满。此时，内核的行为由/proc/sys/net/ipv4/tcp_abort_on_overflow决定（通常为0，即默默丢弃客户端发来的ACK，客户端会重试）。适当调大SO_BACKLOG可以应对连接洪峰，但设置过大会消耗更多内存。通常建议值为128或更高，根据实际并发连接建立速率调整。
关联内核参数：
- /proc/sys/net/ipv4/tcp_max_syn_backlog：控制SYN队列大小。
- /proc/sys/net/core/somaxconn：系统级别的全局“已完成连接队列”最大长度上限。SO_BACKLOG的值不能超过somaxconn。通常需要将其修改为更大的值（如4096）。

5.2 缓冲区与高低水位线：`SO_RCVBUF`,`SO_SNDBUF`与`WriteBufferWaterMark`

内核缓冲区：每个TCP套接字在内核中都有发送缓冲区和接收缓冲区。SO_SNDBUF和SO_RCVBUF可以设置其大小。缓冲区大小影响了TCP的滑动窗口和流量控制。
Netty的写水位线：Channel可以设置WriteBufferWaterMark。当待发送数据量超过高水位线时，Channel的isWritable()会变为false，可以触发ChannelWritabilityChanged事件。这用于应用层的背压控制，防止用户程序写入速度远高于网络发送速度，导致Netty发送队列和内核发送缓冲区积压，最终内存耗尽。
调优建议：
- 内核缓冲区不宜过小，否则会限制TCP吞吐量；也不宜过大，否则会增加内存消耗和延迟。现代操作系统通常有自动调优机制，除非有特殊需求，一般无需手动设置。
- Netty的写水位线（默认低水位32KB，高水位64KB）需要根据业务平均数据包大小和网络状况调整。对于频繁发送小消息的场景，可以适当调低，以便更灵敏地感知拥堵。

5.3 资源限制与`EventLoop`数量：文件描述符与线程数

文件描述符（fd）限制：每个TCP连接都是一个fd。系统对单个进程和全局可打开的fd数量有限制。使用ulimit -n可以查看和修改。对于高并发Netty服务，必须将其调大（例如65535或更高）。同时需要检查/proc/sys/fs/file-max（系统总限制）。
EventLoop线程数：Netty的NioEventLoopGroup默认线程数为CPU核心数 * 2。这个经验公式来源于一个权衡：既要充分利用CPU核心（IO多路复用本身不占CPU，但业务处理占），又要避免过多线程导致的上下文切换开销。EventLoop线程是IO密集型（大量时间在epoll_wait）和少量计算密集型（处理就绪事件）的结合。通常这个默认值是合理的起点。对于纯代理或转发类应用（业务逻辑极轻），线程数可以接近CPU核心数；对于业务逻辑较重的应用，可以适当增加，并通过监控EventLoop的负载（处理时间占比）来调整。

5.4 TCP协议栈调优

Netty运行在TCP之上，因此TCP本身的调优也会极大影响Netty应用的网络性能。以下是一些关键的内核参数：

内核参数路径	含义	对Netty应用的影响	建议调优方向
`net.ipv4.tcp_tw_reuse`	允许将TIME-WAIT状态的socket重新用于新的连接	在高并发短连接场景下，可以显著减少TIME-WAIT连接数，避免端口耗尽。	对于客户端或需要频繁建立短连接的服务器，可设置为`1`。
`net.ipv4.tcp_tw_recycle`	（已废弃，Linux 4.12+移除）快速回收TIME-WAIT连接	曾用于激进地回收连接，但易导致NAT环境下的问题，强烈不建议启用。	禁用。
`net.ipv4.tcp_fin_timeout`	FIN-WAIT-2状态保持时间	影响连接关闭的速度。降低它可以更快释放资源，但可能干扰延迟的FIN包。	默认60秒，在纯内网或可控环境可适当调低（如30秒）。
`net.ipv4.tcp_max_syn_backlog`	SYN队列大小	影响服务器抗SYN Flood攻击能力及连接建立吞吐量。	根据`SYN_RCVD`状态连接数监控调整，通常增大（如`2048`）。
`net.core.somaxconn`	已完成连接队列全局最大值	限制`SO_BACKLOG`的实际生效值。	必须调大（如`4096`），以支持高并发连接建立。
`net.ipv4.tcp_slow_start_after_idle`	空闲后拥塞窗口是否重置	对于长连接、突发流量的服务，重置会导致每次空闲后吞吐量从低速开始增长。	设置为`0`，避免空闲重置，保持高吞吐。
`net.ipv4.tcp_congestion_control`	拥塞控制算法	影响带宽利用率和延迟。`bbr`算法在现代网络中通常比`cubic`表现更好。	尝试设置为`bbr`（需内核支持）。

6. 常见问题排查：从现象回溯内核与Netty

掌握了内核视角，排查问题就有了清晰的路径。以下是一些典型场景：

6.1 连接超时或无法建立

现象：客户端大量连接超时，服务器accept不到。
排查思路：
1. 检查服务器负载：top查看CPU、内存。ss -lnt查看监听端口，观察Recv-Q（Accept queue当前长度）是否持续很高？如果接近或等于SO_BACKLOG值，说明EventLoop（Boss Group）处理accept太慢，或者Worker Group已满。
2. 检查内核参数：确认somaxconn和tcp_max_syn_backlog设置是否过小。使用netstat -s | grep -i listen查看是否有times the listen queue of a socket overflowed的计数，有则说明Accept queue溢出过。
3. 检查文件描述符：cat /proc/[pid]/limits查看进程fd限制，ls -l /proc/[pid]/fd | wc -l查看当前使用数。是否达到上限？
4. 检查Netty配置：Boss Group线程数是否足够（通常1个足够）？是否在ChannelInitializer中加入了耗时的Handler，阻塞了连接建立过程？

6.2 吞吐量上不去，CPU利用率低

现象：QPS不高，但服务器CPU很闲，网络带宽也远未打满。
排查思路：
1. 检查EventLoop阻塞：是否在ChannelHandler中执行了同步阻塞操作（如同步数据库调用、耗时计算）？这会导致单个EventLoop线程被卡住，它负责的所有连接处理都会变慢。使用jstack查看线程栈，确认EventLoop线程是否停留在业务代码上。
2. 检查GC：频繁的Full GC会导致所有线程暂停。监控JVM GC日志。如果使用堆外内存，要关注DirectByteBuffer的GC和可能导致的OutOfDirectMemoryError。
3. 检查网络延迟与缓冲区：使用ping和traceroute检查网络延迟。检查内核TCP缓冲区是否设置过小（net.ipv4.tcp_rmem,net.ipv4.tcp_wmem），或者Netty的高低水位线设置是否过于敏感，导致写操作频繁被暂停。
4. 检查epoll本身：极端情况下，如果注册的fd数量巨大（数十万），epoll_wait返回的就绪事件列表很大，遍历这个列表本身也可能成为开销。但这在绝大多数场景下不是问题。

6.3 内存增长异常或OOM

现象：堆内存或直接内存持续增长，最终OOM。
排查思路：
1. 堆外内存泄漏：Netty的PooledDirectByteBuf必须显式release()。使用PlatformDependent.usedDirectMemory()监控直接内存使用量。确保所有ByteBuf都在finally块中或通过ReferenceCountUtil.release()释放，或者利用SimpleChannelInboundHandler的自动释放特性。
2. 对象池化滥用：Netty大量使用对象池（Recycler）。如果自定义的Handler或对象被错误地加入池化且未正确清理，可能导致内存积累。关注io.netty.util.Recycler相关的监控。
3. 发送队列堆积：如果网络对端消费速度慢，而本端发送太快，且未做背压控制，会导致Netty的写队列和内核发送缓冲区积压大量数据，消耗内存。监控Channel的isWritable()状态和ChannelOutboundBuffer的大小。
4. Channel未关闭：连接断开后，对应的Channel对象及其关联的资源（如ByteBuf）未被正确回收。确保实现了channelInactive或exceptionCaught进行清理。

6.4 使用`epoll`ET模式与Netty的注意事项

Netty默认使用epoll的LT（水平触发）模式。ET（边缘触发）模式效率更高，但编程更复杂，因为必须一次将缓冲区中的数据全部读完/写完，否则可能会丢失事件。

风险：如果切换到ET模式（通过EpollEventLoopGroup和EpollServerSocketChannel，并配置EpollChannelOption.EPOLL_MODE为边缘触发），你必须确保：
1. 读操作：必须循环读取，直到read返回EAGAIN（在Java NIO中表现为read() <= 0），表示本次触发的事件对应的数据已全部读完。
2. 写操作：在可写事件触发时，必须一次性将发送缓冲区中的数据尽量写完，否则可能直到下次有数据写入前，都不会再收到可写事件，导致数据滞留。
Netty的考虑：Netty为了通用性和易用性，选择了LT模式。在LT模式下，如果一次没有读完数据，epoll会持续通知你fd可读，编程模型更简单，不易出错。性能上，对于设计良好的、能及时处理数据的应用，LT和ET的差异并不大。除非你在追求极致的、确定性的性能压榨，并且能妥善处理ET的复杂性，否则建议使用Netty默认的LT模式。

从内核视角审视Netty，不是一个一蹴而就的过程，但它能带来根本性的认知提升。它让你从框架的使用者，转变为真正的理解者和驾驭者。下次当你配置EventLoopGroup的线程数、调整缓冲区大小、或者遇到一个棘手的网络问题时，不妨在脑海里过一遍数据包在内核和Netty之间的旅程。这份“底层地图”，将是你在高并发网络编程领域最宝贵的资产。

查看全文

http://www.jsqmd.com/news/831356/