当前位置：首页 > news >正文

Linux内核物理内存管理：从伙伴系统到反碎片化技术

news 2026/6/17 10:34:18

1. 项目概述：从“黑盒”到“白盒”的探索

每次看到服务器上那动辄数百GB的物理内存，或者自己电脑里插着的几根内存条，你有没有想过一个问题：操作系统，特别是Linux内核，到底是怎么管理这些物理内存的？它怎么知道哪块内存是空闲的，哪块已经被程序占用了？当程序申请内存时，内核又是如何从这茫茫的物理地址空间中，精准地划出一块给你用的？这听起来像是一个庞大的物流仓库管理员的工作，而Linux内核就是这个管理员，它必须高效、精确、无差错地管理着整个系统的物理内存资源。

这个问题远不止是理论上的好奇。理解物理内存管理，是深入Linux系统性能调优、排查内存泄漏、编写高性能应用乃至进行内核开发的基石。比如，当你遇到系统因为“内存不足”而变慢，或者某个进程莫名其妙地吃掉大量内存时，如果你只知道用free或top命令看个大概，那就像只看到了仓库的进出货记录，却不知道货架是怎么摆放、调度规则是什么，很难从根本上解决问题。今天，我们就来彻底拆解这个“仓库管理系统”，看看Linux内核是如何在幕后井然有序地打理这一切的。

2. 物理内存管理的核心架构与设计哲学

Linux内核管理物理内存并非一蹴而就，它是一套经过几十年演进、高度抽象和分层的复杂系统。其核心设计哲学可以概括为：通过分层抽象，将复杂的硬件差异屏蔽，向上提供统一、高效的页面级管理接口。理解这个架构，是理解一切细节的前提。

2.1 内存管理的起点：物理地址空间探测与划分

当系统上电，内核刚开始启动时，它面对的是一个“未知”的物理内存世界。它需要回答几个基本问题：系统总共有多少物理内存？这些内存的物理地址范围是什么？有没有一些特殊的、不能用于通用目的的内存区域（比如被BIOS或硬件保留的区域）？

内核通过BIOS（在传统BIOS系统上）或UEFI（在现代系统上）提供的信息，以及自身对硬件的探测，来构建一张物理内存的“地图”。这个过程称为内存探测。获取到的信息会被整理成一个关键的数据结构：mem_map数组（在较新内核中概念有所演变，但本质类似）。这个数组的每一个元素，都对应着物理内存中的一个页帧。页帧是物理内存管理的基本单位，在x86_64架构上通常是4KB（4096字节）。你可以把它想象成仓库里一个个标准尺寸的货架格子。

注意：这里说的“页帧”是指物理内存的划分单元，而“页面”通常指虚拟内存管理中的概念。一个页帧可以容纳一个页面（当页面被映射到物理内存时）。在讨论物理内存管理时，我们更关注页帧。

内核接着会根据获取的信息，将物理地址空间划分为几个主要的区域：

ZONE_DMA：用于直接内存访问（DMA）的区域。一些老旧的ISA设备只能对低16MB物理地址进行DMA操作，这部分内存就被划归此区域。
ZONE_DMA32：在64位系统上，用于支持只能对低4GB物理地址进行DMA的32位设备。
ZONE_NORMAL：内核可以直接映射的“普通”内存区域。在x86_64上，通常指从物理地址起始到大约896MB（这个值可配置）的区域。这部分内存的物理地址和内核虚拟地址之间存在简单的线性偏移关系（PAGE_OFFSET），因此内核可以快速访问。
ZONE_HIGHMEM：在32位系统上，当物理内存超过内核直接映射区（通常是896MB）时，超出部分就属于高端内存。内核不能直接映射访问它，需要通过动态映射。在64位系统上，由于虚拟地址空间极其巨大（48位或57位），通常没有ZONE_HIGHMEM。
ZONE_MOVABLE：一个特殊的区域，包含可移动的页帧。这是为了支持内存热插拔和反碎片化技术。内核可以将这个区域的页帧内容迁移到别处，从而腾出连续的物理空间。

这种分区管理的目的是为了应对硬件的限制和优化性能。例如，来自ZONE_DMA的页帧分配给需要DMA的设备驱动，可以确保兼容性。

2.2 伙伴系统：解决外部碎片的核心引擎

物理内存被划分成一个个页帧后，内核如何高效地分配和释放它们呢？最直接的想法可能是用一个链表把所有空闲页帧串起来，需要时取一个。但这样会遇到两个大问题：1. 如何快速分配连续多个页帧（即一个“大块内存”）？2. 频繁分配释放后，物理内存会变得“千疮百孔”（外部碎片），导致即使总空闲内存很多，也无法分配出一块连续的大内存。

Linux内核的答案是伙伴系统。伙伴系统是物理内存分配器的基石，它精巧地解决了外部碎片问题。其核心思想是：

按阶管理：内存块被组织成一系列链表，每个链表上的内存块大小都是2的幂次方个页帧。这个幂次方称为“阶”。例如，0阶链表上的块大小是1个页帧（4KB），1阶是2个页帧（8KB），2阶是4个页帧（16KB），以此类推，最大可以到MAX_ORDER（通常是10或11，即1024或2048个页帧，4MB或8MB）。
伙伴关系：每个内存块都有一个“伙伴”。伙伴块是指大小相同、物理地址连续，并且合并后能形成一个更大阶的、地址对齐的块的两个内存块。例如，两个连续的、地址对齐的4KB块（0阶）是伙伴，它们可以合并成一个8KB块（1阶）。
分配算法：当请求分配2^n个页帧时，系统首先在n阶空闲链表中查找。如果找到，直接分配。如果没找到，就向更高阶（n+1阶）寻找。找到后，将该大块分裂成两个伙伴块，一个用于分配，另一个放入低一阶（n阶）的空闲链表。这个过程可能递归进行。
释放与合并：当释放一个内存块时，系统会立即检查其伙伴块是否也空闲且位于同一阶的空闲链表中。如果是，则将这两个伙伴块合并成一个更高阶的大块，并放入更高阶的空闲链表。这个过程也会递归进行，尽可能合并出更大的连续空闲块。

通过这种“分裂-合并”机制，伙伴系统极大地减少了外部碎片，保证了长时间运行后，系统仍然能分配出较大的连续物理内存。每个内存区域（ZONE）都有自己的伙伴系统数据结构（struct zone中的free_area数组）来管理本区域内的页帧。

2.3 每CPU页帧缓存：加速高频小内存分配

伙伴系统虽然解决了外部碎片，但其操作（分裂、合并、链表操作）涉及到锁的竞争，对于单个页帧（4KB）这种极其高频的分配请求（比如进程创建时分配栈空间），直接走伙伴系统效率不够高。

为此，内核在伙伴系统之上，为每个CPU核心都设置了一个每CPU页帧缓存。每个CPU有两个主要的缓存列表：

pcp->lists[0](MIGRATE_UNMOVABLE): 用于缓存不可移动类型的页帧。
pcp->lists[1](MIGRATE_RECLAIMABLE等): 用于缓存可回收或可移动类型的页帧。

当内核需要分配单个页帧时，它首先尝试从当前CPU的pcp列表中获取。因为pcp列表是每个CPU独有的，所以无需加锁，速度极快。如果pcp列表空了，内核会一次性从伙伴系统中批量“批发”一批（比如几十个）页帧到pcp列表中，然后再从中分配一个给请求者。释放单个页帧时，也是先放回pcp列表，只有当pcp列表满了（达到高水位线），才会将一批页帧“退还”给伙伴系统。

这个设计是典型的“缓存”思想，用空间换时间，将全局的、慢速的伙伴系统分配，转化为局部的、快速的每CPU缓存分配，极大地提升了高频小内存分配的效率。

3. 深入伙伴系统与反碎片化技术

理解了基本框架，我们深入到伙伴系统的实现细节和它如何与现代的反碎片化技术结合。

3.1 伙伴系统的数据结构实现

在Linux内核中，每个内存区域（struct zone）都有一个struct free_area数组，大小是MAX_ORDER。这就是伙伴系统的核心数据结构。

struct free_area { struct list_head free_list[MIGRATE_TYPES]; // 不同迁移类型的空闲链表 unsigned long nr_free; // 该阶总的空闲块数 };

这里出现了一个新概念：MIGRATE_TYPES（迁移类型）。这是反碎片化技术的关键。传统的伙伴系统只按大小（阶）组织空闲块，但Linux内核将空闲块进一步按“迁移类型”分类：

MIGRATE_UNMOVABLE：不可移动页。例如内核代码、数据、大多数内核数据结构（如task_struct）。它们通常被钉在固定的物理地址。
MIGRATE_RECLAIMABLE：可回收页。例如文件缓存（page cache）。当内存紧张时，这些页的内容可以被丢弃（如果是干净页）或写回磁盘（如果是脏页），然后页帧本身可以被重新分配。
MIGRATE_MOVABLE：可移动页。例如用户进程的匿名内存（堆、栈）。这些页的内容可以被迁移到其他物理页帧。
MIGRATE_PCPTYPES：这是每CPU缓存使用的类型。
MIGRATE_CMA：连续内存分配器类型，用于预留大块连续物理内存。
MIGRATE_ISOLATE：隔离类型，用于内存热插拔等场景，不能被分配。

为什么这么分？目的是减少不可移动页造成的长期碎片。想象一下，如果不可移动的内核数据（MIGRATE_UNMOVABLE）和可移动的用户进程页面（MIGRATE_MOVABLE）在物理内存中交错分布，经过长时间运行后，即使释放了大量用户进程页面，它们留下的“空隙”也可能因为被不可移动的页面包围而无法合并成连续大块。这就是“碎片化”。

通过按迁移类型隔离，内核在分配时尽量从相同类型的链表中分配。例如，分配用户内存时，优先从MIGRATE_MOVABLE链表中找。这样，不可移动的页面会自然地聚集在一起，可移动的页面也聚集在一起。当需要分配大块连续内存时，如果当前迁移类型的链表无法满足，内核会尝试从其他类型的链表中“偷”页面（称为“fallback”机制，有一个预定义的fallback顺序），但这已经是最后手段。通过这种隔离，显著降低了长期运行后内存碎片化的程度。

3.2 页面分配器的调用链路

当内核中的代码（比如通过alloc_pages系列函数）需要分配物理页帧时，整个分配流程是一个层层递进的过程，体现了效率优先的原则：

快速路径（每CPU缓存）：对于单页分配请求（order=0），分配器首先尝试从当前CPU的pcp（每CPU页帧缓存）列表中获取。这是最快、无锁的路径。
伙伴系统路径：如果pcp为空，或者请求分配多个页（order > 0），则进入伙伴系统分配路径。
- 首先，根据分配标志（如GFP_KERNEL,GFP_ATOMIC）确定可以从哪些内存区域（ZONE）分配。有一个区域后备列表（zonelist），按优先顺序排列（例如，可能优先尝试ZONE_NORMAL，不行再试ZONE_DMA32）。
- 在选定的区域中，从请求的order开始，在对应迁移类型的free_area链表中查找空闲块。
- 如果找到，则从链表中摘下，更新区域统计信息，完成分配。
- 如果没找到，则尝试“fallback”到其他迁移类型的链表，或者向更高阶查找并分裂。
慢速路径与回收：如果伙伴系统在当前区域的所有迁移类型和阶数上都找不到足够的内存，则会触发页面回收机制。这可能包括：
- 将pcp列表中的页批量返还给伙伴系统。
- 唤醒kswapd内核线程，开始扫描并回收可回收页面（如干净的page cache）。
- 如果内存压力极大，可能会触发更激进的回收，甚至OOM Killer来终止进程以释放内存。
分配标志（GFP Flags）的含义：调用者通过GFP_标志控制分配行为，这对理解内存分配至关重要。
- __GFP_HIGHMEM：允许从高端内存区域分配。
- __GFP_DMA/__GFP_DMA32：要求从DMA区域分配。
- __GFP_MOVABLE：请求可移动的页面。
- __GFP_RECLAIMABLE：请求可回收的页面。
- __GFP_IO/__GFP_FS：允许在回收过程中执行I/O或文件系统操作。
- __GFP_ATOMIC：用于原子上下文（不能睡眠），分配器会尽力在不触发回收的情况下分配，可能从紧急保留池中取。
- __GFP_ZERO：分配后将页面内容清零。
- __GFP_NOWARN：分配失败时不打印警告信息。

理解这条调用链路和GFP标志，对于诊断“内存分配失败”类问题至关重要。例如，在中断处理程序（原子上下文）中分配内存必须使用GFP_ATOMIC，否则会导致内核崩溃。

4. 物理内存的“状态机”：页帧的状态与生命周期

一个物理页帧在内核中并非只有“空闲”和“已用”两种状态。它有一个精细的生命周期，由struct page结构体中的标志位和引用计数来管理。理解这些状态是理解内存回收、迁移等高级特性的基础。

4.1`struct page`：页帧的身份证

每个物理页帧都有一个对应的struct page结构体，这些结构体通常存放在一个叫mem_map的数组中（或通过其他更复杂的稀疏内存模型组织）。struct page是内核管理物理页帧的元数据，它包含了页帧的所有管理信息，但本身不存储用户数据。数据存储在页帧指向的4KB物理内存中。

struct page中几个关键字段：

flags：一长串位图，标识页帧的当前状态。例如：
- PG_locked：页被锁定，通常在进行I/O操作时设置。
- PG_dirty：页的内容已被修改，与磁盘上的数据不一致。
- PG_uptodate：页的内容是有效的（对于缓存页）。
- PG_lru：页在LRU（最近最少使用）链表上，这是页面回收的关键。
- PG_slab：页被slab分配器使用（用于分配小对象）。
- PG_swapbacked：页的内容可被交换到交换分区。
_refcount：引用计数。表示有多少个“使用者”正在引用这个页帧。例如，一个页帧被映射到用户进程的地址空间，计数会增加；被多个进程共享（如共享内存），计数会大于1。当_refcount减为0时，表示该页帧可以被释放回伙伴系统。
_mapcount：页表映射计数。表示这个页帧被映射到多少个页表项（PTE）中。这对于写时复制（Copy-On-Write）等机制很重要。
mapping：指向该页所属的地址空间对象（address_space）的指针。如果是匿名页（如进程堆内存），mapping指向一个特殊的匿名地址空间；如果是文件缓存页，mapping指向对应文件的address_space。
private：私有数据指针，其含义取决于页的类型。例如，对于缓冲区页，它可能指向缓冲区头。
lru：链表头，用于将页链接到各种LRU链表或伙伴系统的空闲链表中。

4.2 页帧的生命周期与状态转换

一个页帧的典型生命周期如下：

空闲（Free）：页帧位于伙伴系统的某个free_area链表中，_refcount为0。struct page的大部分字段未初始化或处于默认状态。
分配（Allocated）：通过alloc_pages从伙伴系统分配后，页帧离开空闲链表。其_refcount被设置为1（表示被分配器持有），并根据分配标志初始化部分flags。
使用（In Use）：页帧被交给某个“消费者”。这可能是：
- 用户空间：通过页表映射到进程的虚拟地址空间。此时_mapcount会增加，mapping可能被设置为匿名地址空间。
- 内核空间：作为内核数据结构的存储，或者通过kmap等临时映射到内核地址空间。
- 页缓存（Page Cache）：用于缓存文件数据。此时mapping指向文件的address_space，页被加入到对应地址空间的基数树中，同时也会被加入到LRU链表。
- Slab/Slub：页被交给slab分配器，分割成多个小对象（如task_struct,inode等）。此时flags会设置PG_slab。
回收候选（Reclaimable）：对于页缓存或匿名页（如果系统启用了交换空间），当系统内存紧张时，这些页会被内核的页面回收线程（kswapd）扫描。干净的页缓存（未修改）可以直接丢弃；脏的页缓存需要写回磁盘；匿名页需要被交换到交换分区。这些页都位于LRU链表上。
- 活跃LRU链表：最近被访问过的页。
- 非活跃LRU链表：最近未被访问的页。回收主要从非活跃链表的尾部开始。
释放（Freed）：当页帧的所有引用都消失（_refcount减为0），它会被释放回伙伴系统。如果是slab页，会先释放给slab分配器，再由slab分配器在适当的时候将整页还给伙伴系统。

4.3 LRU链表与页面回收机制

LRU（Least Recently Used）链表是页面回收的核心数据结构。内核维护多组LRU链表，对页帧进行粗略的“热度”分类：

匿名页LRU：存储进程的堆、栈等匿名内存页。
文件页LRU：存储文件缓存页。
每组LRU又分为活跃链表和非活跃链表。

kswapd内核线程定期或在内存压力事件触发时运行。它的工作流程简化如下：

计算当前内存压力水平（通过watermark检查）。系统为每个内存区域设置了三个水位线：min,low,high。
如果空闲页低于low水位，开始扫描LRU链表。扫描顺序和强度取决于内存压力。
将疑似“冷”的页从活跃链表尾部移动到非活跃链表。
尝试回收非活跃链表尾部的页：
- 对于文件页：如果是干净的，直接丢弃；如果是脏的，发起写回。
- 对于匿名页：尝试交换到交换分区。
回收成功的页帧（内容已妥善处理，页帧已空闲）被释放回伙伴系统。
持续回收，直到空闲页数量回到high水位以上。

实操心得：理解LRU机制对调优至关重要。通过/proc/sys/vm/swappiness可以调节内核回收匿名页和文件页的倾向性。值越高，越倾向于交换匿名页；值越低，越倾向于丢弃文件缓存。对于数据库服务器（依赖大量文件缓存），通常建议降低swappiness（如10）；对于内存密集型计算（匿名页多），可能需要调高。但现代内核的回收逻辑已经非常复杂，swappiness只是一个影响因素。

5. 高级主题与性能考量

物理内存管理不仅仅是分配和释放。在现代系统中，它还需要处理更复杂的需求，如大页、内存热插拔、内存cgroup等。

5.1 大页（Huge Pages）支持

标准页帧是4KB，这对于管理大量内存（如数百GB）来说，意味着页表会非常庞大，导致TLB（转址旁路缓存）压力大。TLB是缓存虚拟地址到物理地址映射的硬件单元，容量有限。频繁的TLB未命中会严重降低性能。

大页通过使用更大的页尺寸（如2MB或1GB）来缓解这个问题。一个2MB大页相当于512个标准4KB页。使用大页的好处：

减少页表项：映射相同大小的内存，需要的页表项更少。
提高TLB命中率：一个TLB条目可以覆盖更大的地址范围。
减少页错误开销：处理一次大页页错误可以映射更大区域。

Linux内核支持两种大页：

透明大页：内核自动将连续的普通小页合并成一个大页，对应用透明。由khugepaged内核线程负责。可以通过/sys/kernel/mm/transparent_hugepage/enabled控制。
显式大页：需要应用预先通过mmap或shmget系统调用，从预留的大页池中分配。大页池需要在系统启动时通过内核参数（如hugepages=2048）预留。

注意事项：大页并非万能。由于分配单位大，可能造成内部碎片（例如，一个应用只需要3MB，但分配了一个2MB大页后，剩下的1MB可能浪费）。此外，透明大页的合并/分裂操作本身也有开销，在某些极端负载下可能反而导致性能下降，这也是为什么有些数据库或高性能计算场景会选择关闭透明大页，改用显式大页进行更精确的控制。

5.2 内存热插拔与内存规整

内存热插拔允许在系统运行期间动态添加或移除物理内存（需要硬件支持）。这涉及到将新内存区域加入到现有的内存管理框架中，或者将某个内存区域隔离、清空并移除。ZONE_MOVABLE区域的设计很大程度上就是为了支持内存热移除——需要移动的页面可以被迁移到其他区域，从而腾出连续的空闲区域供移除。

内存规整是内核为了减少碎片、满足大块连续内存分配需求而进行的内存迁移过程。当内核无法分配足够大的连续物理内存时（即使总空闲内存足够），内存规整机制（由kcompactd内核线程执行）会被触发。它会尝试将可移动页面（MIGRATE_MOVABLE）从某个区域迁移走，从而在物理地址上“挤”出一块连续的空闲空间。这个过程与伙伴系统的迁移类型隔离相辅相成，共同对抗碎片化。

5.3 控制组与内存资源隔离

在容器化环境中，多个容器共享同一个内核。如何公平地分配和限制每个容器的物理内存使用？这需要内存控制组。

内存cgroup为每个控制组维护一套独立的内存使用统计和限制：

memory.limit_in_bytes：设置内存使用硬限制。超过此限制，组内进程的内存分配会失败，或触发OOM Killer（如果memory.oom_control允许）。
memory.soft_limit_in_bytes：软限制。当系统内存紧张时，超过软限制的cgroup会优先被回收内存。
memory.usage_in_bytes：当前内存使用量统计。
memory.stat：详细的内存使用统计，包括文件缓存、匿名页、交换缓存等细分项。

内核的页面回收机制（kswapd）和OOM Killer都感知cgroup。当某个cgroup达到限制时，回收和OOM操作会局限于该cgroup内部，不会影响其他cgroup。这实现了容器间的内存隔离和公平性。

6. 实战：观测与调试物理内存管理

理论最终要服务于实践。我们如何观察和验证内核的物理内存管理行为呢？以下是一些核心工具和技巧。

6.1 通过`/proc`和`/sys`接口观测

Linux提供了丰富的虚拟文件系统接口来暴露内存管理信息。

/proc/meminfo：这是最全面的内存使用情况摘要。关键字段解读：
- MemTotal：总物理内存。
- MemFree：完全未被使用的内存。这个值通常很小，因为Linux会积极使用空闲内存做文件缓存。
- MemAvailable：估算的可用内存。这是比MemFree更有意义的指标，它包含了可回收的缓存（Cached和SReclaimable）。当应用需要内存时，这部分缓存可以被快速回收。
- Buffers：块设备缓冲区缓存（原始磁盘块）。
- Cached：页缓存（page cache），用于缓存文件数据。Cached + Buffers≈ 文件缓存总量。
- SwapCached：被换出过，但又换回内存的页面。当再次需要这些页面时，可以直接从交换缓存读取，速度很快。
- Active(anon)/Inactive(anon)：活跃/非活跃的匿名页。
- Active(file)/Inactive(file)：活跃/非活跃的文件页。
- Unevictable：不可回收的页（如mlock的页）。
- Mlocked：被锁在内存中的页大小。
- SwapTotal/SwapFree：交换分区总量/剩余量。
- Dirty：等待写回磁盘的脏页大小。
- Writeback：正在写回磁盘的页大小。
- AnonPages：匿名页（堆、栈等）总量。
- Mapped：被映射到用户空间的页（包括文件映射和匿名映射）。
- Shmem：共享内存（tmpfs等）大小。
- KReclaimable：内核可回收内存（如slab中的可回收部分）。
- Slab：slab分配器使用的总内存（SReclaimable+SUnreclaim）。
- PageTables：页表占用的内存。
- CommitLimit/Committed_AS：基于overcommit策略的提交限制和已提交量。
/proc/buddyinfo：这是观察伙伴系统碎片情况的最直接工具。它按内存区域和迁移类型，显示每个阶（order）有多少个空闲块。
```
Node 0, zone DMA 1 0 1 0 2 1 1 0 1 1 3 Node 0, zone DMA32 3148 2097 1562 927 486 223 106 38 16 2 0 Node 0, zone Normal 42538 29876 14521 6231 2024 511 123 20 4 0 0
```
每一行代表一个内存区域。后面的数字分别代表order 0, order 1, ..., order 10的空闲块数量。如果高阶（比如order 3以上）的数字长期为0或很小，说明系统存在一定程度的碎片，可能难以分配连续的大块内存。
/proc/pagetypeinfo：提供更详细的按迁移类型划分的伙伴系统信息，可以看到每个区域、每个阶、每种迁移类型的空闲页数。
/proc/vmstat：包含海量的内存管理事件计数器。对于性能分析极其有用。
- pgalloc_normal：普通区域分配的页数。
- pgfree：释放的页数。
- pgscan_kswapd/pgscan_direct：由kswapd和直接回收扫描的页数。
- pgsteal_kswapd/pgsteal_direct：成功回收的页数。
- oom_kill：OOM Killer触发的次数。
- 通过定期采样（如watch -n 1 cat /proc/vmstat）并计算差值，可以了解内存管理的动态活动。
/sys/kernel/mm/transparent_hugepage：透明大页相关控制接口，可以查看状态（enabled,defrag）和统计信息（khugepaged的扫描、合并次数等）。

6.2 使用`vmstat`和`sar`进行动态监控

vmstat 1：每秒输出一次系统概览。
- swpd：使用的交换空间大小。
- free：空闲内存（与/proc/meminfo的MemFree类似，意义不大）。
- buff/cache：缓冲区/缓存大小。
- si/so：每秒从交换分区换入/换出的内存量（KB）。如果持续大于0，说明内存压力很大。
- inact/active：非活跃/活跃内存估计值。
- cs：上下文切换次数。内存回收可能导致cs增高。
sar -B 1：查看页面调度（分页）统计。
- pgpgin/s/pgpgout/s：每秒换入/换出的页数（包括文件I/O和交换）。
- fault/s：每秒缺页异常总数（主要+次要）。
- majflt/s：每秒主要缺页异常数。主要缺页需要从磁盘加载数据，代价高昂。如果这个值持续很高，说明可能物理内存严重不足，或者应用访问模式非常随机。

6.3 诊断内存碎片与分配失败

当遇到“无法分配连续内存”的错误时（常见于驱动或某些需要DMA的应用），可以按以下步骤诊断：

检查/proc/buddyinfo：首先确认高阶空闲块是否确实稀少。如果某个区域的order 3以上数字全是0，说明该区域碎片严重。
检查/proc/pagetypeinfo：看是否是特定迁移类型（如Unmovable）的碎片导致。如果Unmovable类型的块很多且分散，会阻碍连续分配。
检查内核日志dmesg：寻找类似“page allocation failure”或“Out of memory”的错误信息，通常会附带当时的GFP标志、order、以及buddyinfo的快照。
分析内存使用：使用slabtop查看内核对象（slab）的使用情况。某些内核模块可能分配了大量不可移动的内存，导致碎片。使用cat /proc/meminfo | grep -i slab查看slab总量。
尝试缓解：
- 如果问题由透明大页引起，可以尝试临时关闭它：echo never > /sys/kernel/mm/transparent_hugepage/enabled。
- 调整/proc/sys/vm/下的参数，如增加min_free_kbytes（确保有足够的最低空闲内存供紧急分配），或调整zone_reclaim_mode（控制内存回收策略）。
- 最根本的，可能是应用或驱动本身的问题，需要优化其内存分配模式，避免频繁分配释放大小不一的内存块。

理解Linux内核的物理内存管理，就像掌握了服务器内存系统的“地图”和“操作手册”。从宏观的分区管理，到微观的页帧状态；从高效的伙伴系统分配，到复杂的反碎片和回收机制，每一层设计都旨在平衡性能、效率和资源利用率。下次当你再面对内存问题时，希望这份深入底层的“地图”，能帮你更快地定位问题根源，做出更有效的决策。

查看全文

http://www.jsqmd.com/news/849262/