当前位置：首页 > news >正文

USDPAA SDK 1.2多进程架构演进：从静态独占到动态共享的资源管理

news 2026/6/17 9:11:49

1. 项目概述：从单进程到多进程的架构演进

在嵌入式网络处理器的世界里，追求极致的数据平面性能是一个永恒的主题。USDPAA（用户空间数据路径加速架构）的出现，正是为了将数据包处理的重任从内核态解放出来，直接交付给用户空间的应用程序，从而绕过昂贵的系统调用和上下文切换开销。在早期的SDK 1.1时代，USDPAA的设计哲学是“简单直接”——整个系统假设只有一个USDPAA进程在运行。这种设计带来了编码上的便利，所有硬件资源，比如帧队列（FQ）、缓冲区池（BPID）、拥塞组记录（CGR）和DMA内存区域，都可以在应用启动时静态分配、硬编码配置。开发者无需关心资源冲突，因为“天下独此一份”。

然而，这种“独占式”的设计很快遇到了瓶颈。随着多核处理器成为主流，以及网络功能虚拟化（NFV）等场景的需求，系统需要同时运行多个独立的USDPAA应用进程，例如一个进程处理控制平面协议，另一个进程专攻高速转发，甚至多个进程处理不同的网络端口或流量类型。SDK 1.1的硬编码模式在此刻显得捉襟见肘：资源无法在进程间共享或隔离，DMA内存映射僵化，更缺乏对资源生命周期的有效跟踪。这就像在一个大办公室里只配了一把钥匙，谁先来谁用，后来者只能干等着，而且没人知道钥匙最后被谁拿走了。

SDK 1.2的发布，正是为了解决这些痛点，其核心目标就是为USDPAA引入健壮、安全的多进程支持。这次演进并非小修小补，而是一次从资源管理理念到API接口的全面重构。其核心思路是**“内核集中管理，进程按需申请”**。具体来说，它引入了一个统一的“进程驱动”（/dev/fsl_usdpaa），所有USDPAA进程都通过这个唯一的文件描述符与内核交互，进行资源的申请、释放和映射。内核由此成为了资源的“总调度中心”，能够清晰地知晓每个进程持有哪些资源，并在进程异常退出时进行检测和告警。同时，DMA内存管理也从单一的、固定大小的映射，升级为支持多区域、可按需创建（命名共享或进程私有）的灵活模型。对于QMan和BMan的资源（如FQID、BPID、CGRID、Pool Channel），也建立了基于设备树（Device Tree）范围定义的内核态统一分配器，彻底告别了用户空间和内核空间各自为政、资源可能冲突的混乱局面。

如果你正在基于Freescale（现NXP）QorIQ系列处理器开发高性能网络应用，并且面临需要将单进程应用拆分为多进程架构，或者需要在同一系统中部署多个独立的USDPAA处理模块，那么理解SDK 1.2带来的这些变化至关重要。它不仅关乎功能的实现，更关乎系统的稳定性、可维护性和资源利用率。接下来，我们将深入拆解这套新机制的设计思路、实操要点以及升级过程中你必然会遇到的“坑”。

1.1 核心价值：为什么多进程支持如此重要？

在深入技术细节之前，我们有必要先厘清多进程支持带来的实际价值。这不仅仅是“从1到N”的数量变化，更是系统架构能力的一次质变。

首先，它实现了资源的弹性与隔离。在单进程模型中，所有资源在启动时就已固定。如果某个应用只需要少量队列，但系统预留了256个，那么剩余的资源就被浪费了。在多进程模型下，每个应用可以根据自身实际需求动态申请资源，用多少申请多少。同时，内核作为仲裁者，可以确保不同进程的资源彼此隔离，避免一个进程的错误配置或恶意行为（如耗尽所有缓冲区池）影响到其他进程，提升了系统的整体健壮性。

其次，它简化了应用部署与组合。开发者可以编写专注于单一功能的、更小更独立的USDPAA进程。例如，你可以有一个专门负责IPSec加解密的进程，另一个负责负载均衡的进程，再有一个负责流量统计的进程。这些进程可以独立开发、测试、升级，然后通过共享内存或网络套接字进行协作。这种微服务化的思想，极大地提升了大型网络应用软件的模块化程度和开发效率。

再者，它提供了更清晰的生命周期管理和故障定位能力。统一的进程驱动使得内核能够跟踪每个文件描述符背后的资源归属。当某个USDPAA进程崩溃或未正常清理资源就退出时，内核驱动可以在日志中明确打印出“USDPAA process leaking 10 FQIDs”这样的警告信息。这为运维和调试提供了强有力的线索，而在过去，资源泄漏是无声无息的，可能直到系统资源耗尽出现诡异故障时才发现。

最后，它为未来更复杂的场景铺平了道路。比如容器化部署，每个容器内可能运行一个或多个USDPAA进程；又比如动态资源调配，系统可以根据负载情况动态创建或销毁处理进程。这些高级特性都依赖于一个能够动态、安全管理多份资源实例的底层架构。

因此，从SDK 1.1升级到1.2，表面上是API的变更，实质上是开发范式从“独占式单机”向“共享式平台”的转变。理解并适应这种转变，是构建下一代高性能、可扩展网络数据平面应用的基础。

2. 架构核心：统一的进程驱动与资源管理模型

SDK 1.2多进程支持的基石，在于其全新的资源管理架构。这个架构的核心是一个名为/dev/fsl_usdpaa的字符设备，我们称之为“进程驱动”。所有关于资源的故事，都围绕着这个驱动展开。

2.1 进程驱动（/dev/fsl_usdpaa）：资源管理的总枢纽

在SDK 1.1中，USDPAA应用与内核的交互是分散且隐式的。DMA内存通过/dev/fsl_usdpaa_shmem设备映射，而QMan/BMan的资源则通过硬编码或静态配置获取。应用本身并不需要显式地“打开”一个资源管理器。

SDK 1.2彻底改变了这一点。每个USDPAA进程在初始化时，必须首先打开/dev/fsl_usdpaa设备。这个操作获得的文件描述符（fd），将成为该进程在整个生命周期内与内核资源管理器通信的唯一句柄。所有后续的资源申请（ioctl）、释放、查询操作，都通过这个文件描述符进行。

// SDK 1.2 应用初始化伪代码示例 int usdpaa_fd = open(“/dev/fsl_usdpaa”, O_RDWR); if (usdpaa_fd < 0) { perror(“Failed to open USDPAA process device”); return -1; } // 此后，usdpaa_fd 将用于所有资源管理ioctl调用

这个设计带来了几个根本性的优势：

内核态全局视图：内核驱动通过维护一个file_operations结构体，能够将文件描述符与进程ID、资源链表关联起来。它清楚地知道fd=5对应进程A，持有FQID 100-110；fd=6对应进程B，持有BPID 32。
统一的分配器入口：无论是用户空间进程还是内核其他模块（如网络驱动），当需要分配一个FQID或BPID时，最终都会调用到内核中同一套资源分配器逻辑。这确保了资源分配的全局唯一性和公平性，彻底解决了SDK 1.1中用户空间和内核空间分配器不互通的问题。
自动化的资源回收与泄漏检测：这是最关键的一点。当进程退出时（无论是正常退出还是崩溃），内核会关闭其打开的所有文件描述符。在关闭/dev/fsl_usdpaa对应的文件描述符时，驱动会执行清理回调函数。这个函数会遍历该fd关联的所有资源链表（FQID列表、BPID列表等）。如果发现还有资源未被应用显式释放，它就会向内核日志（如dmesg）打印警告信息。

注意：关于资源泄漏警告的深层含义内核驱动虽然会检��并报告泄漏，但在SDK 1.2版本中，它并不会自动回收这些泄漏的资源。警告信息如“USDPAA process leaking 10 FQIDs”只是一个提醒。原因是，一个被进程持有但未正确释放的资源（例如一个帧队列可能还在硬件中处于激活状态），其内部状态可能是未知的、不稳定的。盲目将其放回空闲池，可能会被分配给下一个进程，导致数据损坏或系统崩溃。因此，应用开发者必须确保自己的程序有完善的资源清理逻辑（通常在退出信号处理函数或主循环退出前）。日志中的泄漏警告是你代码中存在Bug的明确信号，必须被严肃对待。

2.2 DMA内存管理的革命：从单一映射到灵活分区

DMA内存是USDPAA应用的“工作台”，所有需要硬件加速器（如帧管理器FMan）直接访问的数据缓冲区都必须位于这片内存中。SDK 1.1的DMA内存管理非常原始：

静态预留：内核在启动早期通过一个编译时配置的固定大小（如64MB）来保留一块物理连续内存。
单一映射：唯一的USDPAA进程通过/dev/fsl_usdpaa_shmem设备，将整块预留内存一次性映射到自己的用户空间地址。你无法只映射一部分，也无法创建多个独立的区域。
无共享机制：这块内存只能被一个进程独占，其他进程无法访问。

这种设计显然是多进程的“死敌”。SDK 1.2的DMA内存管理进行了彻底的重构：

1. 按需预留：内存不再默认预留。你必须通过内核启动参数usdpaa_mem来显式指定预留内存的大小。例如，在U-Boot或内核引导参数中添加：

usdpaa_mem=256M

这意味着，如果你忘记添加这个参数，你的USDPAA应用在尝试创建DMA映射时会失败。这是一个重要的变更点，需要更新你的系统部署脚本和文档。

2. 支持多区域和子区域分配：核心思想是将大的预留内存池划分为多个逻辑区域。每个USDPAA进程可以创建一个或多个这样的区域映射。

私有（Unnamed）区域：仅对创建它的进程可见。适合存储进程内部私有数据。
共享（Named）区域：多个进程可以通过一个共同的“名称”来映射到同一块物理内存区域。这是实现进程间高性能数据共享（例如传递数据包描述符或统计数据）的关键机制。

创建映射的API是dma_mem_create()，通过标志位（DMA_MAP_FLAG_SHARED,DMA_MAP_FLAG_NEW等）来控制行为。例如，第一个进程可以创建一个名为“packet_pool”的共享区域，第二个进程以相同的名称和SHARED标志（但不带NEW标志）进行映射，即可访问同一片内存。

3. 内核管理的优化分配器：dma_mem_create支持DMA_MAP_FLAG_ALLOC标志。如果设置，内核会在该区域内部提供一个类似malloc/free的分配器（通过dma_mem_memalign和dma_mem_free）。多个映射了同一共享区域的进程，可以通过这个分配器安全地分配和释放小块内存，内核会通过睡眠锁（sleep-based lock）来同步分配操作，防止竞争条件。

4. TLB1条目与性能考量：这是底层硬件相关的一个高级主题。Power架构的MMU使用TLB（转址旁路缓存）来加速虚拟地址到物理地址的转换。TLB1用于映射大页（如256MB）。为了达到最高的性能，避免在数据路径处理中出现TLB缺失（TLB Miss）导致的页故障（Page Fault）开销，USDPAA驱动会为每个“进程-区域”映射对预留一个TLB1条目。usdpaa_mem启动参数支持第二个可选参数来指定预留的TLB1条目数量：

usdpaa_mem=256M,4

这表示预留256MB内存，并分配4个TLB1条目给USDPAA使用。你需要根据系统中同时活跃的“进程-区域”映射数量来合理设置这个值。如果映射数量超过了预留的TLB1条目数，系统会以轮询方式使用这些条目，导致频繁的TLB重填，性能下降。通常，一个典型的Linux内核自身会使用3个左右的TLB1条目，剩余的可以被USDPAA或HugeTLB使用。你需要查阅SoC数据手册来了解可用的总TLB1条目数。

2.3 QMan/BMan资源：从静态配置到动态分配

在SDK 1.1中，QMan（队列管理器）和BMan（缓冲区管理器）的资源管理是割裂且静态的。

帧队列（FQ）：内核空间默认从硬编码的缓冲区池0（BPID 0）分配FQID（范围0x100-0x1ff），或通过可选的fsl,fqid-range设备树节点分配。用户空间则使用另一套硬编码的软件分配器（范围0x200-0x3ff）。两套分配器互不知晓，极易冲突。
拥塞组记录（CGR）：根本没有系统级的分配器。各软件模块自己假设一个可用的CGRID范围，极易冲突。
池通道（Pool Channel）：设备树中静态定义，网络接口通过fsl,qman-channel属性绑定到特定池通道。缺乏动态分配能力。
缓冲区池（BPID）：内核通过SoC型号推断总数，设备树节点可以“预留”部分BPID，其余放入一个分配器。用户空间无统一接口。

SDK 1.2的解决方案是为所有资源类型建立基于设备树范围定义的、内核统一的软件分配器，并通过进程驱动的ioctl命令向用户空间暴露分配接口。

1. 设备树定义资源池：在设备树中，使用统一的<base, count>二元组格式来定义各种资源的可用范围。这些定义通常放在arch/powerpc/boot/dts/fsl/qoriq-dpaa-res*.dtsi包含文件中。

// FQID 范围：从256开始，共256个 qman-fqids@0 { compatible = “fsl,fqid-range”; fsl,fqid-range = <256 256>; }; // CGRID 范围：从0开始，共256个 qman-cgrids@0 { compatible = “fsl,cgrid-range”; fsl,cgrid-range = <0 256>; }; // 池通道范围：从0x21 (33)开始，共15个 qman-pools@0 { compatible = “fsl,pool-channel-range”; fsl,pool-channel-range = <0x21 0xf>; }; // BPID 范围：从32开始，共32个 bman-bpids@0 { compatible = “fsl,bpid-range”; fsl,bpid-range = <32 32>; };

内核在启动时解析这些节点，初始化对应的资源分配器。这些范围是全局的，涵盖了内核和所有用户空间进程可用的资源总量。

2. 统一的用户空间API：用户空间进程不再有独立的分配器。它通过/dev/fsl_usdpaa文件描述符，使用与内核模块相同的API来申请和释放资源。例如，申请一个FQID：

uint32_t fqid; int ret = ioctl(usdpaa_fd, USDPAA_IOCTL_ALLOC_FQID, &fqid); // 或者使用更高级的封装库函数，其内部最终会调用此ioctl

这些调用会进入内核，由统一的分配器处理，确保FQID不会重复分配给两个不同的请求者（无论是另一个用户进程还是内核驱动）。

3. 门户（Portal）的动态绑定：门户是CPU核心与QMan/BMan硬件交互的接口。在SDK 1.1中，设备树通过fsl,usdpaa-portal和cpu-handle属性静态指定某个门户给USDPAA或内核，并绑定到特定CPU。在SDK 1.2中，设备树中的门户节点不再有这些属性，它们被简单地声明为硬件资源。内核启动时：

首先为自己分配并初始化所需数量的门户（通常尝试每个核心一个）。
然后将剩余的所有门户作为UIO设备导出，供USDPAA使用。
当一个USDPAA应用线程初始化门户时（例如调用qman_thread_init()），它会打开对应的UIO设备。这个打开操作会触发内核逻辑，自动将该门户绑定到当前正在执行此线程的CPU核心上。这个过程是完全动态的，无需在设备树中预先配置亲和性。

这种动态绑定机制极大地增强了灵活性，使得USDPAA应用可以更自由地在不同CPU核心上迁移或创建线程，而无需担心门户的亲和性问题。

3. API变更详解与迁移实操

从SDK 1.1迁移到1.2，最大的工作量来自于API的变更。理解这些变更并掌握新的使用方式，是成功升级的关键。下面我们分类解析主要的API改动。

3.1 线程与全局初始化：化繁为简

SDK 1.1的初始化API需要指定CPU和恢复模式，显得冗长且不灵活。

// SDK 1.1 (已废弃) int qman_thread_init(int cpu, int recovery_mode); int bman_thread_init(int cpu, int recovery_mode); int qman_global_init(int recovery_mode); int bman_global_init(int recovery_mode);

SDK 1.2的API大幅简化，去掉了cpu和recovery_mode参数。

// SDK 1.2 int qman_thread_init(void); int bman_thread_init(void); int qman_global_init(void); int bman_global_init(void);

为什么这样改？

CPU亲和性动态化：如前所述，门户现在动态绑定到调用线程所在的CPU。因此，你不再需要指定cpu参数。qman_thread_init()会在内部自动为当前线程分配一个可用的门户并绑定到当前CPU。
恢复模式移除：recovery_mode参数关联的恢复API（qman_recovery_cleanup_fq,bman_recovery_cleanup_bpid等）在SDK 1.1中本身就是非功能性的存根，且在多进程环境下概念不清。在1.2中，这些API被彻底移除，因此初始化函数也不再需要此参数。

迁移操作：对于现有代码，只需简单地删除这两个参数即可。这是最直接的变更之一。

// 迁移前 (SDK 1.1) qman_global_init(0); // 假设非恢复模式 qman_thread_init(5, 0); // 绑定到CPU 5 // 迁移后 (SDK 1.2) qman_global_init(); qman_thread_init(); // 自动绑定到调用线程的CPU

3.2 DMA内存API：从单一到多实例

这是变更最大、最需要仔细处理的API组。核心变化是引入了struct dma_mem指针作为上下文参数，因为现在系统中可以同时存在多个DMA映射区域。

1. 映射创建：SDK 1.1使用一个无参数的dma_mem_setup(void)来建立唯一的全局映射。 SDK 1.2使用dma_mem_create()来创建（或连接到一个已存在的）映射。

struct dma_mem *dma_mem_create(uint32_t flags, const char *map_name, size_t len);

flags: 控制映射行为的位掩码，例如DMA_MAP_FLAG_SHARED（创建/连接共享区域）、DMA_MAP_FLAG_NEW（必须新建）、DMA_MAP_FLAG_ALLOC（启用内部分配器）。
map_name: 共享区域的标识符字符串。对于私有区域，可以传NULL。
len: 请求的区域大小。

2. 内存分配与地址转换：所有需要指定DMA区域的操作，现在都需要传入对应的struct dma_mem *map参数。

// SDK 1.1 void *ptr = dma_mem_memalign(64, 4096); // 从唯一全局池分配 dma_addr_t phy = dma_mem_vtop(ptr); // 转换虚拟地址到物理地址 // SDK 1.2 struct dma_mem *my_map = dma_mem_create(0, NULL, 1024*1024); // 创建1MB私有区域 void *ptr = dma_mem_memalign(my_map, 64, 4096); // 从my_map区域分配 dma_addr_t phy = dma_mem_vtop(my_map, ptr); // 转换，需指定map

3. 遗留代码兼容性辅助：为了降低迁移成本，SDK 1.2提供了一个过渡方案。你可以创建一个默认的DMA映射，并将其赋值给全局变量dma_mem_generic，然后使用一组双下划线前缀的兼容性函数（__dma_mem_*）。这些函数内部会使用dma_mem_generic作为map参数。

// 在应用初始化时 dma_mem_generic = dma_mem_create(0, NULL, DEFAULT_MEM_SIZE); // 然后，可以将旧代码中的 dma_mem_memalign -> __dma_mem_memalign // dma_mem_vtop -> __dma_mem_vtop，以此类推。

但请注意，这只是权宜之计。对于新设计的多进程应用，强烈建议直接使用新的多实例API，以充分利用其灵活性和安全性。

3.3 QMan/BMan资源分配API：统一与增强

SDK 1.2为QMan和BMan的各种资源引入了统一的“范围分配”API模式，并移除了过时的接口。

1. 新的分配API模式：以帧队列（FQ）和缓冲区池（BPID）为例，新的API遵循alloc/release加_range后缀的模式，支持单资源和批量资源分配。

// QMan FQID 分配 (示例，实际可能通过ioctl封装) int qman_alloc_fqid_range(u32 *result, u32 count, u32 align, int partial); static inline int qman_alloc_fqid(u32 *result) { return (qman_alloc_fqid_range(result, 1, 0, 0) > 0) ? 0 : -1; } void qman_release_fqid_range(u32 fqid, unsigned int count); // BMan BPID 分配 int bman_alloc_bpid_range(u32 *result, u32 count, u32 align, int partial); static inline int bman_alloc_bpid(u32 *result) { return (bman_alloc_bpid_range(result, 1, 0, 0) > 0) ? 0 : -1; } void bman_release_bpid_range(u32 bpid, unsigned int count);

count: 请求分配连续资源的数量。
align: 对齐要求（例如，请求的起始ID是align的倍数）。
partial: 如果非零，表示允许部分分配（即如果无法满足count个，则分配尽可能多的）。如果为零，则必须完全满足，否则失败。
内联的alloc/release函数是分配/释放单个资源的便捷版本。

2. 被移除的API：

基于缓冲池的FQ分配器(qm_fq_new,qm_fq_free): 因为FQID现在全部由统一的软件分配器管理，不再与特定的缓冲池（BPID 0）绑定。
恢复API(qman_recovery_cleanup_fq,bman_recovery_cleanup_bpid): 如前所述，已移除。
NULL FQ API(qman_get_null_cb等): 该功能被认为边缘化且无已知用例，被移除以简化代码。
has_stashing标志: 现在假设在所有环境中（原生Linux、Hypervisor）都启用了硬件暂存（Stashing）功能，移除了相关检查以优化性能。

3. 新增的实用API：

qman_affine_channel(int cpu): 获取与指定CPU核心关联的门户通道ID。这在多核编程中非常有用，例如你可以将特定的帧队列调度到某个CPU核心的门户上进行出队操作。
qman_set_dc_ern(qman_cb_dc_ern handler, int affine): 设置数据一致性错误通知（DC_ERN）的回调处理器。现在DC_ERN只能在门户级别处理，此API允许你为当前CPU关联的门户或所有门户设置一个全局回退处理器。

3.4 网络配置结构体简化

struct usdpaa_netcfg_info在SDK 1.2中得到了简化，移除了与CGR和池通道相关的字段。

// SDK 1.1 struct usdpaa_netcfg_info { uint8_t num_cgrids; uint32_t *cgrids; uint8_t num_pool_channels; enum qm_channel *pool_channels; uint8_t num_ethports; // ... }; // SDK 1.2 struct usdpaa_netcfg_info { uint8_t num_ethports; // ... (CGR和pool_channels字段已移除) };

原因：在SDK 1.2中，CGRID和池通道现在通过统一的QMan API动态分配（qman_alloc_cgrid,qman_alloc_pool），不再需要从网络配置信息中获取硬编码的列表。这进一步解耦了网络接口配置与底层队列资源的管理。

4. 设备树与内核配置变更

要让SDK 1.2的多进程支持正常工作，除了应用代码，系统底层的设备树（Device Tree）和内核配置也必须相应更新。

4.1 设备树变更要点

设备树的变更主要集中在移除旧属性、增加资源范围节点以及更新网络节点。

1. 门户节点清理：移除门户（qman-portal,bman-portal）节点中的fsl,usdpaa-portal和cpu-handle属性。门户的用途和CPU亲和性现在由内核动态决定。

// SDK 1.1 及之前 qportal1: qman-portal@4000 { ... fsl,usdpaa-portal; // 移除 cpu-handle = <&cpu1>; // 移除 fsl,qman-pool-channels = <...>; // 移除（池通道现在动���分配） }; // SDK 1.2 及之后 qportal1: qman-portal@4000 { ... // 仅保留 reg, interrupts, compatible 等基本属性 };

2. 移除BPID 0的特殊节点：不再需要为BPID 0创建特殊的缓冲区池设备树节点，因为FQID分配不再依赖BPID 0。

3. 网络接口节点更新：以太网接口节点（如fsl,dpa-ethernet）不再包含fsl,qman-channel属性来静态链接池通道。池通道现在由内核网络驱动在初始化时动态分配。

// 旧方式 (移除) ethernet@2 { compatible = “fsl,dpa-ethernet”; fsl,fman-mac = <&enet2>; fsl,qman-channel = <&qpool4>; // 移除这行 };

4. 增加资源范围节点：这是必须添加的新内容。你需要根据硬件资源和系统规划，在设备树中添加FQID、CGRID、池通道和BPID的范围定义。通常，你可以直接包含NXP提供的默认资源文件，然后根据需要进行调整。

/include/ “fsl/qoriq-dpaa-res1.dtsi” // 包含默认资源范围定义 // 或者，手动定义 qman-fqids@0 { compatible = “fsl,fqid-range”; fsl,fqid-range = <256 768>; // 示例：分配768个FQID，从256开始 }; bman-bpids@0 { compatible = “fsl,bpid-range”; fsl,bpid-range = <32 32>; // 分配32个BPID，从32开始 }; // ... 类似地添加 cgrid-range 和 pool-channel-range

4.2 内核配置变更

内核配置选项（Kconfig）也进行了精简，移除了许多在SDK 1.2新架构下不再需要或总是启用的选项。

需要移除或注意的配置：

CONFIG_FSL_DPA_HAVE_IRQ: 已移除，IRQ支持现在总是启用。
CONFIG_FSL_BMAN_PORTAL: 已移除，BMan门户支持总是启用。
CONFIG_FSL_QMAN_PORTAL: 已移除，QMan门户支持总是启用。
CONFIG_FSL_QMAN_PORTAL_DISABLEAUTO_DCA: 已移除，门户总是为DQRR条目启用DCA消费。
CONFIG_FSL_QMAN_NULL_FQ_DEMUX: 已移除，对应NULL FQ API的移除。
CONFIG_FSL_QMAN_DQRR_PREFETCHING: 已移除，驱动现在总是优化为假设暂存（Stashing）已启用。

迁移操作：在编译SDK 1.2内核时，直接使用其默认的配置文件（如corenet64_smp_defconfig），不要从旧配置中继承这些已被移除的选项。如果使用自定义配置，请确保清理掉上述选项。

5. 常见问题、排查技巧与迁移实战指南

从SDK 1.1迁移到1.2是一个系统工程，在实际操作中会遇到各种问题。下面是我根据经验总结的一些常见陷阱和解决思路。

5.1 编译与链接错误

问题1：找不到dma_mem_setup等函数定义。

原因：这是最直接的API变更。你的代码还在调用旧的SDK 1.1函数。
解决：
1. 将dma_mem_setup()替换为dma_mem_create()来创建初始映射。
2. 将所有dma_mem_memalign,dma_mem_free,dma_mem_ptov,dma_mem_vtop调用，加上struct dma_mem *类型的第一个参数。如果暂时想快速验证，可以使用dma_mem_generic过渡方案。
3. 更新QMan/BMan的初始化调用，移除cpu和recovery_mode参数。

问题2：链接时提示undefined reference to ‘qman_alloc_fqid’等。

原因：SDK 1.2的库文件路径或名称可能发生了变化，或者你需要链接新的库。
解决：
1. 检查你的Makefile或构建脚本，确保链接的库路径指向SDK 1.2的库目录（例如-L$(SDK_PATH)/usr/lib）。
2. 确认链接的库名正确。通常需要链接-lusdpaa -lqbman -ldpa等。参考SDK 1.2提供的示例应用（如dpa-examples）的编译命令。
3. 确保你的头文件包含路径也指向了SDK 1.2的目录。

5.2 运行时错误

问题3：应用启动失败，打开/dev/fsl_usdpaa设备时返回ENODEV（No such device）。

原因：内核中没有加载fsl_usdpaa驱动，或者驱动初始化失败。
排查：
1. 运行lsmod | grep fsl_usdpaa确认驱动已加载。
2. 检查内核启动日志（dmesg），查看是否有fsl_usdpaa相关的错误信息。常见原因是缺少usdpaa_mem启动参数。
3. 确保在内核启动参数中添加了usdpaa_mem=<size>，例如usdpaa_mem=256M。没有这个参数，驱动不会预留内存，导致初始化失败。

问题4：DMA内存映射失败，dma_mem_create返回错误。

原因： a)usdpaa_mem参数设置的内存大小不足，或不是页大小的整数倍。 b) 请求创建共享区域（DMA_MAP_FLAG_SHARED）时，名称冲突或标志使用不当（例如，试图用NEW标志连接一个已存在的区域）。 c) 请求的大小超过了预留的总内存。
排查：
1. 检查dmesg日志，驱动在初始化时会打印预留的内存信息，如“USDPAA memory: 256 MB reserved”。
2. 确保usdpaa_mem的大小是4的幂次方乘以页大小（通常4KB），例如64M, 256M, 1G。
3. 仔细检查dma_mem_create的flags参数。记住：SHARED+NEW用于创建新的命名区域；SHARED（无NEW）用于连接已存在的命名区域；无SHARED则创建进程私有区域。
4. 使用DMA_MAP_FLAG_LAZY标志可以缓解多进程同时创建同名区域时的竞争条件。

问题5：资源分配失败（如FQID、BPID）。

原因： a) 设备树中对应的资源范围节点（如fsl,fqid-range）未定义或范围太小，已被分配完。 b) 另一个进程（或内核驱动）已经占用了所有资源。 c) 进程之前异常退出导致资源未释放，虽然内核会警告，但资源并未回收，导致可用资源减少。
排查：
1. 首先检查设备树，确认资源范围节点已正确添加且范围合理。可以通过/proc/device-tree在运行时查看解析后的节点。
2. 使用cat /proc/bman /proc/qman（如果内核配置了相关调试信息）或通过调试工具查看资源使用情况。
3. 检查dmesg是否有之前进程的资源泄漏警告。如果有，需要重启系统或找到办法手动清理硬件状态（这可能很复杂）。
4. 考虑在应用启动时，先尝试分配少量资源，验证分配器是否工作正常。

问题6：性能下降，特别是在多进程频繁映射/取消映射DMA区域时。

原因：TLB1条目不足。当活跃的“进程-区域”映射数量超过usdpaa_mem参数中指定的TLB1条目数时，会发生TLB颠簸。
解决：
1. 估算你的应用场景中最大并发映射数。例如，3个进程，每个有1个私有区域和1个共享区域，共6个映射。
2. 增加usdpaa_mem的第二个参数，例如usdpaa_mem=256M,8，预留8个TLB1条目。
3. 查阅SoC手册，了解总共有多少TLB1条目，确保给USDPAA和HugeTLB（如果使用）留出足够数量后，内核自身还有所需条目（通常3-4个）。

5.3 迁移实战步骤建议

环境准备：
- 获取完整的SDK 1.2 BSP（板级支持包），包括内核源码、根文件系统、工具链和库文件。
- 备份你现有的SDK 1.1项目代码和设备树文件。
内核与设备树升级：
- 使用SDK 1.2的内核配置编译新内核。
- 修改你的设备树文件：
  - 移除门户节点的fsl,usdpaa-portal和cpu-handle属性。
  - 移除网络接口的fsl,qman-channel属性。
  - 添加必要的资源范围节点（fsl,fqid-range,fsl,cgrid-range,fsl,pool-channel-range,fsl,bpid-range）。可以从SDK提供的dtsi文件中复制默认配置开始。
- 更新U-Boot或引导加载器的内核启动参数，添加usdpaa_mem=大小（例如usdpaa_mem=256M）。
应用代码迁移：
- 初始化：修改qman_thread_init,bman_thread_init,qman_global_init,bman_global_init调用，移除cpu和recovery_mode参数。
- DMA内存：这是重灾区。将dma_mem_setup()替换为dma_mem_create()。为所有dma_mem_*函数添加struct dma_mem *参数。建议先使用dma_mem_generic过渡方案让程序跑起来，再逐步重构为多映射模型。
- 资源分配：将硬编码的资源ID或旧的分配API（如果使用了）替换为新的qman_alloc_*/bman_alloc_*系列API。确保通过/dev/fsl_usdpaa的文件描述符进行ioctl调用（通常这些库函数内部已处理）。
- 网络配置：更新usdpaa_netcfg_info结构体的使用，不再访问其cgrids和pool_channels字段。CGR和池通道改用新的API动态分配。
- 编译：更新Makefile，指向SDK 1.2的头文件和库路径。
测试与调试：
- 先运行一个最简单的示例（如SDK自带的dpa-examples中的某个应用），确保基础环境（内核、驱动、设备树）工作正常。
- 分模块测试你的应用。例如，先测试DMA内存映射和释放，再测试QMan/BMan资源分配。
- 充分利用dmesg日志。SDK 1.2的驱动在资源泄漏、参数错误时会打印非常详细的警告信息，这是调试的第一手资料。
- 进行压力测试和长时间运行测试，观察是否有资源泄漏（通过dmesg警告）或性能异常。

最后一点心得：从SDK 1.1到1.2的迁移，思维上要从“静态独占”转向“动态共享”。在设计新的多进程应用时，要像设计一个微服务系统一样思考资源的生命周期：谁创建、谁使用、谁释放。清晰地定义每个进程的职责和资源边界，并建立完善的错误处理和资源清理机制，这样才能充分发挥SDK 1.2多进程架构的威力，构建出既高性能又稳定可靠的数据平面系统。

查看全文

http://www.jsqmd.com/news/1028707/