当前位置：首页 > news >正文

Linux内存管理(六): 伙伴系统与alloc_pages的分配策略

news 2026/6/6 23:59:57

1. 伙伴系统：Linux物理内存管理的基石

第一次看到"伙伴系统"这个词时，我脑海中浮现的是两个形影不离的好朋友。实际上在Linux内核中，伙伴系统（Buddy System）确实像一对默契的搭档，只不过它们管理的是物理内存页面的分配与回收。这个从1963年就被提出的算法，至今仍是Linux内核物理内存管理的核心机制。

简单来说，伙伴系统就像个智能仓库管理员，把物理内存划分成不同大小的区块（都是2的幂次方），当应用程序申请内存时，它会自动匹配最合适的区块大小。比如你需要5个页面，它会给你8个（2^3），既避免了内存浪费，又保证了分配效率。

在内核源码mm/page_alloc.c中，伙伴系统的实现堪称精妙。它通过11个（MAX_ORDER默认值）free_area链表来管理不同大小的内存块，每个链表对应着2^0到2^(MAX_ORDER-1)个连续页面。我曾在调试内存泄漏时用crash工具查看过这些链表，那种清晰的层级结构让人印象深刻。

2. alloc_pages函数详解：从API到底层实现

alloc_pages()堪称Linux内核开发者的"瑞士军刀"，这个定义在include/linux/gfp.h中的函数，负责分配连续的物理内存页面。它的函数原型看起来很简单：

struct page *alloc_pages(gfp_t gfp_mask, unsigned int order);

但就像Linux中许多看似简单的接口一样，魔鬼藏在细节里。gfp_mask这个参数就包含了至少32种不同的标志位组合，控制着内存分配的方方面面。记得我第一次使用时，被__GFP_HIGHMEM、__GFP_ATOMIC这些标志搞得晕头转向，直到在项目中出现几次内存分配失败后，才真正理解它们的意义。

这个函数最有趣的地方在于它的NUMA适配性。在非NUMA系统上，它直接调用alloc_pages_node()在当前节点分配；而在NUMA系统中，它会根据内存策略（如MPOL_INTERLEAVE）进行跨节点分配。我在优化一个数据库应用时，就曾通过调整NUMA策略获得了20%的性能提升。

3. GFP掩码：内存分配的行为指南

GFP（Get Free Page）掩码就像是给内存分配器下的"军令状"，它决定了：

从哪里分配（DMA区域？普通区域？）
分配时能否休眠（在中断上下文就不能休眠）
是否清空页面内容
内存不足时如何处理

内核中预定义了一些常用组合，比如：

GFP_KERNEL：最常用的标志，可能引起休眠
GFP_ATOMIC：用于原子上下文，不会休眠
GFP_DMA：从DMA区域分配

我曾经踩过一个坑：在中断处理函数中使用GFP_KERNEL导致内核崩溃。后来才明白，中断上下文必须使用GFP_ATOMIC，因为中断不能休眠。这个教训让我养成了仔细检查GFP标志的习惯。

4. 分配策略：快速路径与慢速路径的智慧

alloc_pages的分配过程就像去餐厅吃饭：

快速路径（get_page_from_freelist）：就像直接有空位，立即入座
慢速路径（__alloc_pages_slowpath）：需要等位，可能还要请人离开（内存回收）

快速路径会直接检查伙伴系统的空闲链表，如果找到合适大小的块就直接返回。而慢速路径则要复杂得多，它可能会：

唤醒kswapd进行后台回收
尝试内存压缩（compaction）
直接回收内存（reclaim）
最后甚至触发OOM killer

我在分析一个性能问题时，用ftrace捕捉到进程频繁进入慢速路径，最终发现是因为内存碎片化严重。通过调整vm.extfrag_threshold参数，情况得到了明显改善。

5. 内存碎片化与ALLOC_NOFRAGMENT

内存碎片化是物理内存管理的天敌。Linux通过多种机制应对：

迁移类型（MIGRATE_TYPES）：将页面分为可移动、不可移动等类型
ALLOC_NOFRAGMENT标志：避免混合分配不同类型的页面块

在mm/internal.h中定义的ALLOC_NOFRAGMENT标志特别有意思。当设置这个标志时，分配器会尽量避免拆分大的连续内存块，从而减少碎片。这就像停车场管理员会尽量把相邻车位留给大型车辆一样。

我在优化一个视频处理应用时，发现频繁的大块内存分配会导致系统碎片化严重。通过合理使用ALLOC_NOFRAGMENT标志，不仅提高了分配成功率，还降低了延迟。

6. 实战经验：调试内存分配问题

在实际工作中，我总结了几种调试alloc_pages问题的方法：

通过/proc/buddyinfo查看伙伴系统状态
使用tracepoint跟踪分配过程：

echo 1 > /sys/kernel/debug/tracing/events/kmem/mm_page_alloc/enable

分析OOM killer日志
使用vmstat观察内存压力指标

曾经有个案例：某台服务器偶尔会出现内存分配延迟飙升。通过分析发现，当系统空闲内存低于low watermark时，kswapd会被频繁唤醒。调整vm.min_free_kbytes后问题得到解决。

7. 性能优化技巧

根据我的经验，优化内存分配性能有几个关键点：

合理设置gfp_mask：能用GFP_NOWAIT就不用GFP_KERNEL
预分配大块内存：特别是对于需要连续物理内存的场景
理解NUMA拓扑：numactl工具很有用
监控碎片化指标：/proc/pagetypeinfo

在实现一个高速网络包处理模块时，我们通过预分配内存池的方式，将内存分配耗时从微秒级降到了纳秒级。这再次证明了理解底层机制的重要性。

查看全文

http://www.jsqmd.com/news/652604/

【Windows】使用启动U盘重装Windows10系统

微信小游戏广告接入避坑指南：从1000用户门槛到Banner广告精准定位（附完整代码）

Matplotlib 怎么设置坐标轴刻度？

别再让机器人原地打转了！详解Gazebo中skid_steer_drive_controller插件与URDF坐标系设置的避坑指南

Windows远程桌面mstsc命令的隐藏玩法：从编辑RDP文件到多显示器适配

Linux基础开发工具(git篇)

告别Windows和TwinCAT：用树莓派+开源IgH搭建低成本EtherCAT主站测试平台

基于STM32与TEA5767的FM收音机硬件系统设计：从原理图到模块选型

【项目实战】Kubernetes 排障指南：如何高效查询 Pod 日志

终极Autosub快速入门：5分钟学会为视频添加自动字幕的完整指南

Linux_01(基础命令)

DICOM WSI标准：从金字塔结构到像素矩阵的病理图像数字化实践

利用x-anylabeling与Labelme格式互转，提升数据标注效率

别再死记硬背UVM框图了！用PHPStudy+ModelSim手把手搭建你的第一个验证平台（附完整代码）

解锁Simple Transformers的终极潜能：多模态分类与对话AI实战指南

终极Gradle Play Publisher认证指南：Service Account配置与权限设置全攻略

拆解T265视觉定位：除了给PX4发数据，树莓派上的ROS节点还能怎么玩？

大模型 kimi / deepseek /豆包/元宝网页版登录

P数据库链接包使用指南，jsp连接数据库包科普，轻松掌握数据交互基础

Chart.js项目实战：AI技术发展轨迹监控系统

CANFD数据帧解析实战：从示波器波形到STM32代码，一步步看懂那64个字节怎么传

SkeyeVSS开发日志： Skeyevss日志采集方案落地实践

Win Docker ClickHouse 数据卷挂载方案：解决本地目录写入权限与Inode限制

从FreeRTOS转战Zephyr：一个老嵌入式工程师的Ubuntu环境搭建与初体验笔记

DownKyi：5步掌握B站视频下载与管理的终极技巧

React Native Spinkit跨平台兼容性指南：iOS与Android差异处理

BLIP2实战：从零到一，手把手教你部署多模态视觉语言模型

LLM编排层事务断裂真相，深度拆解向量数据库与微服务协同中的Saga补偿盲区

从“独上高楼”到“炸鸡啤酒”：Top_p参数如何让AI续写古诗时“跑偏”或“封神”？

垃圾回收机制