Versal GTM(1):收发器概览
Versal Adaptive SoC 简介
AMD Versal adaptive SoC 将可编程逻辑(PL)、处理系统(PS)和 AI Engine 与领先的内存和互连技术整合在一起,为各种应用提供强大的异构加速能力。其硬件和软件面向数据科学家、软件和硬件开发者进行编程和优化。各类工具、软件、库、IP、中间件和框架使 Versal adaptive SoC 能够支持所有行业标准的设计流程。
Versal 产品系列是一个将软件可编程性与领域专用硬件加速结合在一起的平台,具备应对当今快速创新节奏所需的适应性。该系列覆盖从云到网络、无线通信、边缘计算和终端等各种应用。
Versal 架构具有丰富的连接和通信能力,以及可编程的片上网络(NoC),提供对整个器件全部高度和宽度的无缝内存映射访问。AI Engine 是用于自适应推理和高级信号处理计算的 SIMD VLIW 矢量处理器。PL 包含为高计算密度而设计的可配置逻辑块、存储器和 DSP Engine。PS 包含来自 Arm 的应用处理器和实时处理器,用于密集型计算任务。
特性
Versal 架构 GTM 高速收发器在 7 nm 工艺上提供最高的性能和集成度,包括串行 I/O 带宽和逻辑容量。作为 7 nm 工艺节点上的高端 FPGA,该系列适用于 400G 网络、大规模 ASIC 原型验证和仿真等应用。
GTM 收发器支持 9.5 Gb/s 到 112 Gb/s 的线速率。根据可用 PLL 分频配置,支持的线速率:
NRZ 调制:9.5–15 Gb/s、19–29 Gb/s。
PAM4 调制:19–29 Gb/s、38–58 Gb/s、76–112 Gb/s。
GTM 收发器分为两个功能层:PCS(Physical Coding Sublayer,物理编码子层)和 PMA(Physical Medium Attachment,物理介质附加子层)。这是 IEEE 802.3 定义的 SerDes 标准分层——PCS 处理编码、解码、PRBS 等数字逻辑,PMA 处理串化/解串、时钟生成、线路驱动等模拟和混合信号电路。特性按这两组归纳:
| 功能层 | 特性 |
|---|---|
| PCS | PRBS 发生器和校验器 |
| 可编程 FPGA 逻辑接口 | |
| PMA | LC 振荡器 PLL(LCPLL),最佳抖动性能 |
| 每个 Quad 两个 LCPLL 的灵活时钟方案(四个通道) | |
| 可编程 TX 输出 | |
| TX FIR 滤波器,带去加重控制 | |
| 连续时间线性均衡(CTLE) | |
| 判决反馈均衡(DFE) | |
| 前馈均衡(FFE) |
Quad 是由四个 GTM 收发器通道、一个 GTME5_QUAD 原语、两对差分参考时钟引脚和模拟电源引脚组成的集群。GTME5_QUAD 是 GTM 收发器的硬件原语(primitive),是设计中直接例化的最低层级模块,对应芯片上的一组物理资源。其中 E5 是 Xilinx 收发器架构的第 5 代编号(7 系列为 E2、UltraScale 为 E3、UltraScale+ 为 E4)。与上一代 UltraScale 架构不同,GTM 没有独立的通道原语(如 GTH_CHANNEL 或 GTY_CHANNEL),所有四个通道的配置和访问都通过单一的 GTME5_QUAD 原语完成。
GTM Quad 可以工作在全密度模式或半密度模式下。全密度模式(Full Density)下 Quad 内四个通道全部工作。半密度模式(Half Density)下只有两个通道工作(通道 0 或 1,以及通道 2 或 3)。
全密度模式支持所有 NRZ 线速率,以及 58 Gb/s 以下的 PAM4。58 Gb/s 以上的 PAM4 必须使用半密度模式。使用 320 位和 512 位并行数据位宽(TXDATA/RXDATA)的设计也必须使用半密度模式。
GTM 收发器支持 NRZ 和 PAM4 调制,以及以下协议:
- 400GE CDAUI4 / CDAUI8
- 100GE CAUI2 / CAUI4 / CAUI1
- 50GE LAUI / LAUI2
- 多速率 CPRI(10.1–100 Gb/s)
- Interlaken(51.5625 Gb/s、25 Gb/s、12.5 Gb/s)
- OTU4
- 112G XSR
- 56G PAM4 Backplane / 56.52G PAM4 Midplane / 28.21G PAM4 Backplane
- 10GBASE-KR
- 802.3bj Backplanes and Cables
Quad 配置
下图为四个收发器通道和两个高速时钟(HSCLK)块组成 GTME5_QUAD 原语的示意。
四个通道与两个 HSCLK 块组成一个 Quad。每个 HSCLK 块包含一个 LC 振荡器 PLL(LCPLL)。每个 HSCLK 中的 LCPLL 可以为同一 Quad 内任意通道提供时钟。每个通道包含一个发送器和一个接收器。
下图为 GTM 通道拓扑结构。
TX 方向:数据从用户数据接口进入 TX 接口,穿过 PCS 和 PMA,经 TX 驱动器输出为高速串行数据。
RX 方向:高速串行数据从板级走线进入 RX PMA,穿过 PCS,进入用户数据接口。
仿真
GTM 本身是模拟/混合信号收发器,RTL 仿真无法模拟其模拟行为(眼图、均衡等)。仿真的目的是验证 GTM 数字接口侧的逻辑是否正确。AMD 提供 GTM 的 SecureIP 模型(加密的 SystemVerilog 行为模型),仿真 PCS 侧的数字时序和状态机。
使用 SecureIP 模型前的环境要求:
- 仿真器需要支持 SecureIP(IEEE Std 1364-2005 加密标准)
- VHDL 设计需要混合语言仿真器(SecureIP 模型使用 SystemVerilog)
- 需要安装 GTM 收发器 SecureIP 模型
- 仿真器需要正确配置(初始化文件、环境变量)
典型验证场景:通过 PRBS 发生器和校验器做近端或远端环回测试,验证 TX→RX 数据路径的连通性。验证复位序列——PLL 锁定、TX/RX 初始化、RESETDONE 的时序是否符合预期。确认 TXUSRCLK/RXUSRCLK 下的数据写入和读取对齐。
GTME5_QUAD 原语上只有一组以 SIM_ 为前缀的仿真专用属性,没有仅用于仿真的端口。也就是说原语的所有输入输出端口在综合和仿真中都要用到,仿真特有的配置通过属性参数完成。
| 属性 | 类型 | 描述 |
|---|---|---|
| SIM_VERSION | String | 选择与不同芯片版本对应的仿真版本。VERSAL_[]ES1:工程样品 1,VERSAL[]ES2:工程样品 2,VERSAL[]:量产芯片。[] 取值为 AI_CORE、AI_EDGE、AI_RF、HBM、PREMIUM、PRIME |
| QUAD_SIM_MODE | String | 选择仿真模式,默认值为 FAST |
| QUAD_SIM_RESET_SPEEDUP | String | TRUE(默认)时使用近似的复位序列以加快仿真复位时间。FALSE 时模型详细仿真硬件复位行为 |
| CH[0/1/2/3]_SIM_MODE | String | 应与 QUAD_SIM_MODE 保持一致 |
| CH[0/1/2/3]_SIM_RESET_SPEEDUP | String | 应与 QUAD_SIM_RESET_SPEEDUP 保持一致 |
| CH[0/1/2/3]_SIM_RECEIVER_DETECT_PASS | String | TRUE(默认)时接收检测指示通过,FALSE 时指示失败 |
