当前位置：首页 > news >正文

FPGA与GPU通信：RDMA、PCIE实现方式

news 2026/7/4 9:52:04

一句话结论（先记住）

RDMA是“通信语义/协议”，PCIe是“物理互连/总线”。

RDMA关心“内存怎么被远端直接访问”，

PCIe关心“设备怎么挂在同一台机器里”。

两者不是替代关系，而是不同层级。

一、RDMA 是什么？（本质）

RDMA（Remote Direct Memory Access），跨设备/跨节点直接访问内存的通信机制。

（一）核心特征

直接读/写远端内存
绕过 CPU
零拷贝
面向内存语义

（二）常见 RDMA 承载协议

名称	物理层
RoCE v2	Ethernet
InfiniBand	专用网络
iWARP	TCP

（三）RDMA 在逻辑上的位置

Application │ RDMA verbs ←（语义） │ RNIC ←（硬件） │ Ethernet / IB

二、PCIe 是什么？（本质）

PCIe（Peripheral Component Interconnect Express），主机内部的高速总线。

（一）核心特征

点到点互连（PCIe P2P（Peer-to-Peer））
基于Load / Store
架构上是主从模型
面向设备访问

（二）PCIe 在逻辑上的位置

CPU Root Complex │ PCIe Fabric ←（总线） │ Device (GPU / FPGA / NIC)

三、RDMA与PCIE区别与联系

维度	RDMA	PCIe
层级	通信协议 / 语义	硬件互连
是否跨机器	✅	❌
是否需要 CPU	❌	✅（RC）
访问模型	内存读写	设备寄存器 / BAR
延迟	µs 级	ns–µs
典型用途	GPU ↔ GPU / FPGA ↔ GPU	GPU ↔ CPU / FPGA ↔ CPU

简单来说：

PCIe 是硬件底层的“高速公路”。
RDMA 是运行在这条公路上的一种高效的“特种物流协议”。

它们处于不同的技术层级，但又紧密协作。下面我们来详细分解它们的区别与联系。

（一）核心区别

（二）深入解析

1. PCIe：系统内部的“血脉”

功能：PCIe是计算机主板上的核心总线，负责连接所有关键的高性能外设和加速器。它是数据在CPU、内存、GPU、FPGA、NVMe SSD、网卡等之间流动的物理通道。
关键点：
- 拓扑：点对点串行连接，通过交换机（PCIe Switch）扩展。
- DMA：PCIe 是实现DMA的物理基础。设备（如GPU、FPGA）通过PCIe总线获取DMA能力，从而直接读写主机内存。
- 性能：延迟极低（纳秒级），带宽极高（每通道速度随代际提升，如PCIe 5.0 x16带宽可达约128 GB/s）。
- 范围局限：它主要局限于一个物理机箱或一个主板之内。

2. RDMA：跨越网络的“灵魂直达”

功能：RDMA是一种网络技术，它允许一台计算机通过网络直接访问另一台计算机的内存，而不需要对方操作系统的内核介入（Kernel Bypass），也不需要在发送或接收端进行内存拷贝（Zero-Copy）。
关键点：
- 核心优势：极低的延迟和极低的CPU开销。CPU只需要“登记”一块内存区域供RDMA使用，之后的数据搬运工作完全由RDMA网卡完成，CPU可以处理其他任务。
- 依赖硬件：RDMA功能需要专门的RDMA网卡来实现，例如InfiniBand HCA或支持RoCE的智能以太网卡。
- 网络协议：RDMA可以通过三种主流网络承载：
  - InfiniBand：原生支持RDMA，性能最好。
  - RoCE：在以太网上运行RDMA。
  - iWARP：在TCP/IP上运行RDMA，兼容性好但性能略低。
- 应用场景：分布式存储（Ceph）、高性能计算、AI集群训练、金融交易系统。

（三）核心联系与协作

RDMA 严重依赖 PCIe 作为其“最后一公里”的高速通道。

这是理解二者关系的关键：

数据路径中的角色：
- 当进行RDMA读写操作时，数据流是这样的：应用内存 -> （通过PCIe）-> 本地RDMA网卡 -> 网络线缆 -> 远程RDMA网卡 -> （通过PCIe）-> 远程应用内存。
- 在整个路径中，PCIe负责了服务器内部数据从内存到网卡，以及从网卡到内存的两次关键传输。如果PCIe带宽不足或延迟高，会成为整个RDMA链路的瓶颈。
共同的目标：
- 降低延迟：PCIe在板级降低延迟，RDMA在网络级降低延迟。
- 减少CPU负担：PCIe的DMA机制让外设可以自主访问内存；RDMA则将这一理念扩展到网络层面，让网卡自主完成网络内存访问。
技术理念的延续：
- RDMA可以看作是“将PCIe的DMA理念通过网络扩展到远程机器”的一种实现。它试图让网络访问变得像访问本地设备（通过PCIe DMA）一样高效。

（四）总结与类比

结论：

PCIe是基石，是服务器内部不可或缺的高速硬件互联。
RDMA是升华，是构建在高速网络和高速内部总线（PCIe）之上的、用于实现极致网络性能的软件/硬件协同协议。
在现代高性能系统中，尤其是AI集群和分布式存储中，高速的PCIe（如PCIe 4.0/5.0）和支持RDMA的高速网络（如InfiniBand/ RoCEv2）是相辅相成的两大核心支柱。

四、FPGA与GPU通信怎么选

（一）场景 1：FPGA ↔ GPU（PCIe）

FPGA ── PCIe ── CPU Root ── GPU

1.特点

同一台机器
FPGA 通常是 Endpoint
CPU / IOMMU 参与

2.实际行为

FPGA DMA 写 GPU BAR / Host memory
GPU 再拷贝到显存

⚠️不是“远端内存访问”，只是设备访问

（二）场景 2：FPGA ↔ GPU（RDMA / RoCE）

FPGA ── Ethernet ── RNIC ── GPU HBM

1.特点

可以跨机器
NIC 直接写 GPU 显存
CPU 完全不参与

✔真正的“内存语义”

（三）什么时候用哪个？（工程决策表）

1.实际最优解：

数据面：RDMA / UDP（100G） 控制面：PCIe / UDP

📌原因

RDMA 擅长大吞吐
PCIe 擅长控制 & 配置

五、PCIe P2P到底行不行

GPU通过pcie与fpga实现通信吗有如下两种方式：

通过CPU内存中转（传统方式）
- 流程：FPGA 将数据通过PCIe DMA写入CPU的系统内存-> CPU通知GPU -> GPU通过PCIe DMA从系统内存读取数据。反之亦然。
- 优点：实现相对简单，利用标准的驱动和API（如OpenCL、CUDA）。
- 缺点：延迟最高，数据需要经过CPU内存复制，增加了不必要的延迟和CPU开销。
点对点直接通信
- 流程：利用PCIe P2P技术，允许FPGA和GPU在不经过CPU系统内存的情况下，直接通过PCIe交换机进行数据传输。
- 优点：大幅降低延迟和CPU占用，提高了传输带宽的有效利用率。
- 缺点：需要硬件、驱动和软件栈的支持，实现更复杂。NVIDIA GPU 和 Xilinx/Altera FPGA 在特定平台和驱动下支持此功能。

（一）结论先行（直接给答案）

理论上 GPU 可以通过 PCIe P2P 与 FPGA 通信，
但在绝大多数真实工程中：
❌ 不稳定
❌ 平台强依赖
❌ 不可移植
❌ 调试代价极高
👉所以生产系统几乎不用它

（二）什么是 PCIe P2P？（准确含义）

PCIe Peer-to-Peer

👉两个 PCIe Endpoint 设备之间直接读写对方的 BAR 地址

FPGA (EP) ⇄ PCIe Switch ⇄ GPU (EP)

本质

仍然是PCIe load/store
不是 RDMA
必须有 CPU Root Complex

（三）为什么“理论可行”？

条件满足时，P2P 是成立的：

GPU 和 FPGA 在同一个 PCIe Root / Switch
BIOS 允许 P2P
IOMMU / ACS 关闭
GPU 驱动支持 P2P（NVIDIA）

此时：

FPGA DMA → GPU BAR
GPU DMA → FPGA BAR

（四）为什么“工程上几乎不可用”？（核心原因）

1.GPU 不能随意暴露显存为 BAR

GPU 显存 ≠ PCIe BAR
GPU BAR 通常只有：
- 控制寄存器
- 一小段映射窗口

👉不能直接 DMA 写 HBM

2.NVIDIA 对 P2P 的限制非常多

条件	状态
同 RC	必须
同 PCIe Switch	必须
同 NUMA	必须
驱动版本	强绑定
虚拟化	基本不可用

3.IOMMU / ACS 是最大杀手

Linux 默认开启 IOMMU
PCIe ACS 会强制流量回到 CPU
P2P 被拆散成两次 DMA

👉 表面是 P2P，实际不是

4.FPGA Endpoint 的现实问题

FPGA PCIe IP 是 EP
GPU 也是 EP
EP ↔ EP 没有天然主从
必须依赖 RC / Switch 仲裁

5.CUDA P2P ≠ FPGA P2P

很多人看到：
cudaDeviceEnablePeerAccess()

以为能 FPGA ↔ GPU

❌ 错

这是：

GPU ↔ GPU
NVIDIA 专有

（五）真实工程中的结论（血泪总结）

PCIe P2P = Demo 技术，不是系统技术

它的问题不是带宽，而是：

平台相关性
BIOS / 主板耦合
升级即崩
无法规模化

（六）那为什么 RDMA + NIC 却能稳定？

FPGA → Ethernet → RNIC → GPU

✔ RNIC 是真正的 PCIe Master
✔ GPU 显存通过GPUDirect RDMA暴露
✔ NVIDIA 官方长期支持
✔ 数据中心标准做法

（七）什么时候 PCIe P2P 反而“勉强可用”？

场景	结论
实验室验证	⚠️ 可以
单机、固定主板	⚠️ 勉强
产品级	❌
多 GPU / FPGA	❌

（八）如果你“非要用 PCIe P2P”，最低可行方案

FPGA (PCIe DMA) │ ▼ Pinned Host Memory │ ▼ GPU memcpyAsync 👉这不是 P2P，但 99% 稳定

（十）一句话总结（请记住）

PCIe P2P 能跑 ≠ 能用 ≠ 能量产

查看全文

http://www.jsqmd.com/news/135251/

当智能化工具应用于企业，如何借助AI销冠系统提升工作效率？

Java计算机毕设之基于springboot的滑雪售票系统设计与实现vue和springboot框架开发的滑雪场售票系统设计与实现（完整前后端代码+说明文档+LW，调试定制等）

基于python的课程学习试题库管理系统_c975x--论文

2025年AI论文写作工具“防坑”红黑榜：谁在大搞学术诈骗，谁是真科研神器？

实验7

【计算机毕业设计案例】基于SpringBoot+Vue的中华传统文化平台设计与实现基于springboot+vue的传统文化交流交易平台(程序+文档+讲解+定制)

别做“调包侠”！手把手教你用“沁言学术+DeepSeek”搭建满分论文SOP

【教程4＞第10章＞第9节】基于FPGA的图像双边滤波开发——理论分析与matlab仿真

基于python的飞机场免税店网上商城航司互售系统的设计与实现_t7i6n--论文

【课程设计/毕业设计】基于springboot的滑雪售票系统设计与实现滑雪场日常售票、客流管控、订单管理【附源码、数据库、万字文档】

【毕业设计】基于springboot+vue的传统文化交流交易平台(源码+文档+远程调试，全bao定制等)

ICML/CVPR/AAAI/ICLR 2025大模型顶会论文合集，小白也能轻松学懂的大模型资源

状态和水印

【计算机毕业设计案例】基于springboot+vue的企业项目合同信息系统基于springboot的合同信息管理系统(程序+文档+讲解+定制)

Springboot小区物业管理系统ia0at（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

【开题答辩全过程】以基于springboot的社区团购小程序设计与实现为例，包含答辩的问题和答案

别再苦熬数月写论文了！8个免费AI神器20分钟搞定，文理医工全覆盖

正弦曲线的形成过程 | JsxGraph 代码

AI大模型入门到进阶：9步掌握AI应用开发核心技术，零基础也能学会！

【商志考研英语】【2001】【part4】

基于python的高校就业管理系统的设计和实现--论文pycharm django vue flask

【毕业设计】基于springboot的合同信息管理系统(源码+文档+远程调试，全bao定制等)

c++字符串

一个现代化的资产安全管理平台，致力于实现资产探测自动化与风险可视化

AI Agent记忆工程完全指南：从上下文到智能协作

基于PowerWorld的风电场仿真与计算

B站视频下载终极指南：BilibiliDown完整使用教程

AI大模型应用开发入门：算法不再是唯一门槛，两种方向任你选

MCP+Agent+RAG：打造能说会做的下一代智能系统架构

基于双层优化的电动汽车优化调度MATLAB代码探秘

一、RDMA 是什么？（本质）

（一）核心特征

（二）常见 RDMA 承载协议

（三）RDMA 在逻辑上的位置

二、PCIe 是什么？（本质）

（一）核心特征

（二）PCIe 在逻辑上的位置

三、RDMA与PCIE区别与联系

（一）核心区别

（二）深入解析

1. PCIe：系统内部的“血脉”

2. RDMA：跨越网络的“灵魂直达”

（三）核心联系与协作

（四）总结与类比

四、FPGA与GPU通信怎么选

（一）场景 1：FPGA ↔ GPU（PCIe）

1.特点

2.实际行为

（二）场景 2：FPGA ↔ GPU（RDMA / RoCE）

1.特点

（三）什么时候用哪个？（工程决策表）

1.实际最优解：

五、PCIe P2P到底行不行

（一）结论先行（直接给答案）

（二）什么是 PCIe P2P？（准确含义）

PCIe Peer-to-Peer

本质

（三）为什么“理论可行”？

条件满足时，P2P 是成立的：

（四）为什么“工程上几乎不可用”？（核心原因）

1.GPU 不能随意暴露显存为 BAR

2.NVIDIA 对 P2P 的限制非常多

3.IOMMU / ACS 是最大杀手

4.FPGA Endpoint 的现实问题

5.CUDA P2P ≠ FPGA P2P

（五）真实工程中的结论（血泪总结）

（六）那为什么 RDMA + NIC 却能稳定？

（七）什么时候 PCIe P2P 反而“勉强可用”？

（八）如果你“非要用 PCIe P2P”，最低可行方案

（十）一句话总结（请记住）

相关文章：