当前位置：首页 > news >正文

RISC-V多核SoC系统级验证：协同仿真破局软硬件协同挑战

news 2026/5/11 2:02:52

1. 项目概述：当RISC-V走出单核，系统级验证的挑战与破局

几年前，当我和团队第一次把一个自研的RISC-V核心成功跑起来，看到串口打印出“Hello World”时，那种兴奋感至今记忆犹新。但很快，现实就给了我们一记重拳：当我们把这个“完美”的核心，连同几个DMA控制器、一个自定义的加密加速模块以及一堆外设IP集成进SoC时，整个系统变得异常脆弱。仿真一次完整的启动流程需要数天，软件团队抱怨他们的驱动在“真实硬件”上行为诡异，而硬件团队则被淹没在海量的波形图里，找不到问题的根源。这不仅仅是我们的困境，而是所有涉足复杂RISC-V系统设计的工程师们共同面对的“验证墙”。

传统的基于RTL仿真的方法，在应对单核、小规模逻辑时尚可一战。但一旦系统复杂度指数级上升——多核集群、异构加速器、复杂的片上网络以及与之配套的庞大软件栈（从Bootloader到操作系统再到应用层）——仿真的速度便成了无法逾越的瓶颈。你不可能用跑一秒真实时间需要数小时的仿真环境，去验证一个需要几分钟才能完成操作系统启动的系统。这时，项目进度就会陷入一种可怕的僵局：硬件等软件验证，软件等硬件稳定，两边都在用不完整、不真实的模型隔空对望，bug就像地雷，被埋得越来越深，直到流片前夜才连环爆炸。

因此，今天我想深入探讨的，不是如何验证一个孤立的RISC-V CPU核心（这已是相对成熟的话题），而是如何驾驭一个基于RISC-V的复杂片上系统的验证难题。核心矛盾在于，如何在项目早期，就以接近真实的运行速度，让尚未完全定型的硬件RTL和正在同步开发的复杂软件，在一个统一、高效、可调试的环境中进行协同验证。这不仅仅是买一个更快的工具，而是一套从方法论到工具链的体系化解决方案。

2. 验证范式的演进：从仿真到协同仿真的必然之路

要理解我们为什么需要新的验证方法，首先得看清传统方法的局限在哪里。在RISC-V生态的早期，验证的重点是指令集架构（ISA）合规性。大家关心的是，你设计的核心是否正确地执行了RISC-V手册里的每一条指令。这个阶段，基于参考模型（如Spike、QEMU）的仿真和形式验证工具是主力。然而，当核心被嵌入SoC，成为系统的一部分时，验证的维度发生了根本性变化。

2.1 RTL仿真的“速度墙”与“调试迷雾”

寄存器传输级（RTL）仿真，比如使用VCS、QuestaSim或Verilator，是硬件工程师最熟悉的环境。它的优势是信号级可见性，你可以观察到每一个触发器、每一根连线的变化。对于模块级验证和UVM测试平台的构建，它是不可或缺的。

但是，它的劣势在系统级验证面前被无限放大：

速度极慢：通常性能在每秒几十到几百个时钟周期。验证一个需要执行数百万甚至上亿条指令的软件场景（如Linux内核启动），需要数天甚至数周。这完全无法支持敏捷的软硬件协同开发迭代。
测试覆盖率收敛缓慢：由于速度慢，难以在有限时间内执行足够多的随机激励或复杂场景，导致功能覆盖率难以提升，死角难以触及。
软硬件协同调试困难：当软件在CPU上运行时发生问题，硬件工程师需要从漫长的波形中反推软件执行流，效率极低；软件工程师则面对一个“慢动作”且难以注入调试探针的虚拟硬件。

注意：很多团队会尝试用更快的软件ISS（指令集仿真器）或虚拟平台进行早期软件开发，但这本质上是在验证一个与最终RTL有差异的模型。当模型与真实硬件行为不一致时，所有在软件模型上通过的测试都可能需要重做，造成大量返工。

2.2 硬件仿真：突破速度瓶颈的关键基础设施

硬件仿真（Emulation）是解决上述“速度墙”的核心技术。它通过将RTL设计映射到由专用处理器阵列（如基于FPGA的仿真器）或定制处理器（如基于处理器的仿真器）构成的大规模硬件系统上运行，将验证速度提升到MHz级别（比RTL仿真快4-6个数量级）。

这意味着，原来需要跑一天的测试用例，现在可能几分钟就跑完了。这种速度量级的飞跃，带来了几个根本性的改变：

长序列测试成为可能：可以运行完整的操作系统启动、复杂的应用负载测试、长时间的压力测试。
真实的软件负载：可以直接在仿真器上运行未经修改的、需要与硬件深度交互的生产级软件，如驱动程序、中间件乃至完整的应用程序。
加速覆盖率收敛：能够在短时间内灌注海量的随机测试向量，更快地达到高功能覆盖率。

更重要的是，一个设计良好的硬件仿真环境，其测试平台（Testbench）可以与RTL仿真环境复用。这得益于像AccelleraSCE-MI（标准协同仿真建模接口）这样的行业标准。SCE-MI定义了事务级（Transaction-Level）的通信接口，将测试平台的激励生成和结果检查（通常运行在主机服务器上）与运行在仿真器中的RTL设计解耦。这样，同一套用SystemVerilog/UVM或SystemC编写的高级测试场景，既可以驱动仿真器，也可以驱动仿真器，实现了验证资产的最大化复用。

2.3 协同仿真：连接软硬件世界的桥梁

硬件仿真解决了硬件验证的速度问题，但如何让软件团队无缝加入呢？这就是协同仿真（Co-Emulation）的价值所在。

软件团队通常的起点是虚拟平台（Virtual Platform），这是一个用SystemC TLM（事务级建模）等高速建模语言构建的、完全在软件中运行的完整系统模型。它运行速度远快于RTL仿真（可达每秒百万指令），非常适合早期固件、驱动甚至操作系统的开发。

协同仿真的精妙之处在于，它将硬件仿真器与软件虚拟平台连接起来。具体架构如下：

硬件侧：整个或部分SoC的RTL设计运行在MHz速度的硬件仿真器中。
软件侧：软件团队熟悉的虚拟平台（包含CPU的ISS模型、内存模型等）运行在主机上。
连接层：通过SCE-MI标准接口，虚拟平台中的事务（例如，一次存储器读写、一个中断信号）被转换成高速通信协议，与仿真器中的对应硬件模块进行交互。对于软件来说，它仿佛是在一个完整的、高速的虚拟平台上运行；而对于硬件来说，它接收的是来自真实软件的事务级激励。

这种架构创造了巨大的优势：

软件无需等待硬件：在RTL尚未完全稳定或不可综合时，软件就可以基于虚拟平台开发。当部分硬件RTL可用后，通过协同仿真，软件可以立即开始与真实RTL进行集成测试，无需切换开发环境。
硬件获得真实激励：硬件验证不再依赖于人工编写的定向测试或受限的随机测试，而是由真实的、复杂的软件行为来驱动，更能暴露深层次的交互问题。
早期暴露系统级问题：软硬件之间的时序问题、资源竞争、中断响应延迟、DMA与CPU的协同等系统级缺陷，可以在项目中期就被发现和修复，避免了流片后的灾难。
统一的调试视角：高级调试工具可以同时观察软件执行流（源码级调试）和硬件信号活动（波形调试），甚至能将两者在时间线上对齐，极大简化了软硬件交互问题的定位。

3. 构建基于协同仿真的RISC-V系统验证平台

理解了“为什么”之后，我们来看“怎么做”。搭建一个高效的协同仿真验证平台，需要从规划到实施的周密设计。

3.1 平台架构设计与组件选型

一个典型的用于复杂RISC-V SoC验证的协同仿真平台包含以下核心组件：

组件	技术选型与说明	在平台中的角色
硬件仿真器	商业解决方案（如Cadence Palladium, Siemens Veloce, Aldec HES）或基于大规模FPGA的自建原型验证系统。商业仿真器在调试能力、容量和易用性上通常更优。	执行RTL设计，提供MHz级的运行速度。
事务级接口	SCE-MI是事实标准。选择支持SCE-MI 2.x的仿真器和工具链。它通常通过“管道”（Pipe）或“函数调用”（Function Call）模型实现主机与仿真器间的事务交换。	实现测试平台/虚拟平台与RTL设计之间的高速、事务级通信。
测试平台/虚拟平台	UVM/SystemVerilog：用于传统的硬件验证组件（记分板、监控器、序列生成器）。SystemC/TLM-2.0：用于构建虚拟平台，模拟处理器、内存、外设等的高行为模型。	UVM部分：提供约束随机验证、覆盖率收集。虚拟平台部分：为软件提供运行环境，并生成事务驱动硬件。
处理器模型集成	RISC-V ISS：如Imperas的参考模型、SiFive的模型或开源模型。将其集成到虚拟平台中，作为CPU的行为模型。在协同仿真中，它可以与仿真器中的RTL CPU进行“锁步”比较，实时检查执行正确性。	1. 作为虚拟平台的CPU。 2. 作为RTL CPU的“黄金参考模型”，用于实时比对。
调试与分析工具	仿真器自带的高级调试套件（支持源码级调试、波形探测、内存查看、性能分析）。以及像 Lauterbach TRACE32 这类支持通过仿真器接口对运行中的软件进行源码调试的工具。	提供软硬件统一的调试视图，快速定位问题。

设计思路：平台的目标是分层验证和前后向兼容。

分层：平台应支持从模块级（UVM测试）、子系统级（CPU+总线+内存）到全系统级（加入所有外设和软件）的平滑过渡。
兼容：为模块级验证编写的UVM测试序列，应能通过SCE-MI接口直接复用于系统级验证。虚拟平台在早期作为纯软件模型，后期通过SCE-MI“嫁接”到硬件仿真器上，成为协同仿真环境。

3.2 关键实施步骤与实操要点

3.2.1 第一步：打造“仿真就绪”的测试平台

这是最重要的一步，决定了后续能否顺利过渡到仿真。在RTL仿真阶段，你就要以仿真的标准来构建UVM测试平台。

抽象通信层：将所有与DUT（被测设计）的物理信号交互，封装在事务级接口之后。例如，使用uvm_tlm_nb_transport_port或自定义的抽象事务端口。在仿真时，这些端口通过uvm_tlm连接到仿真器的SCE-MI适配器；在仿真时，它们则连接到基于SCE-MI的仿真接口组件。
避免时序绝对化：测试平台中的激励和检查，尽量基于事务（如“发起一个读请求”）而非具体的时钟周期延迟。将时序检查（如响应延迟）作为可配置的断言或监控器的一部分，这样在速度不同的仿真和仿真环境中都能工作。
分离测试场景与平台：使用UVM的uvm_sequence机制，将具体的测试场景（如“初始化所有外设然后启动DMA传输”）与底层驱动和通信机制分离。这样，切换后端通信方式（仿真 vs. 仿真）时，测试场景代码无需改动。

实操心得：我们曾在一个项目中，早期图省事，在驱动里写了很多#100ns这样的绝对延迟。迁移到仿真时，这些延迟要么导致测试跑得奇慢（因为仿真器处理延迟的效率不同），要么破坏了事务的原子性。后来我们重构为基于事件和事务完成的同步机制，才解决了问题。教训是：在仿真阶段就拥抱事务级抽象，长远看节省的时间远超初期投入。

3.2.2 第二步：集成虚拟平台与协同仿真接口

这是实现软硬件协同的关键。

构建虚拟平台：使用SystemC TLM-2.0为你的SoC创建一个快速模型。至少包括：
- RISC-V ISS（指令集仿真器）作为CPU模型。
- TLM内存模型。
- TLM总线路由器（如ARM的AMBA TLM模型或自定义的）。
- 关键外设的TLM模型（如UART、GPIO、定时器）。这些模型初期可以是“存根”（Stub），仅实现基本功能。
开发SCE-MI适配层：这是技术难点。你需要为每个需要与仿真器RTL进行交互的虚拟组件（通常是总线从设备或外设模型）编写一个事务转换器。
- 这个转换器在虚拟平台侧是一个SystemC模块，它通过TLM接口接收事务。
- 它将TLM事务（如一个tlm_generic_payload）打包成SCE-MI定义的数据结构。
- 通过SCE-MI API（通常是C/C++函数）调用，将数据包发送到仿真器侧对应的代理模块。
- 仿真器内的代理模块（用HDL或HVL编写）解包数据，转换成实际的信号电平，驱动RTL设计。响应路径则相反。
集成调试与性能分析：配置好仿真器的调试工具，使其能够捕获虚拟平台通过SCE-MI发送的事务，并与RTL波形关联显示。同时，在虚拟平台和测试平台中插入性能监测点，收集吞吐量、延迟等数据，用于系统架构的优化。

3.2.3 第三步：制定验证策略与执行流程

有了平台，还需要科学的流程来发挥其威力。

早期（RTL不稳定期）：
- 软件侧：在纯虚拟平台上开发Bootloader、基础驱动、操作系统移植。
- 硬件侧：在仿真器上进行模块级和核心子系统（CPU + Cache + Bus）的UVM验证，使用SCE-MI连接的事务级测试平台。
- 协同：将已验证的CPU子系统RTL通过协同仿真接入虚拟平台。软件团队可以开始用近乎真实的速度，在“准硬件”上运行他们的代码，验证基础硬件功能。
中期（主要RTL可用期）：
- 将更多的RTL模块（如DMA、加速器、复杂外设）纳入仿真器。
- 虚拟平台中对应的TLM模型被逐步替换或与RTL模块协同工作。
- 执行系统级场景测试：如“Linux从SPI Flash启动，加载驱动，并通过以太网传输数据”。这种测试在纯仿真下需数周，在协同仿真下可能只需几小时。
- 运行约束随机系统测试：在顶层注入随机总线事务、中断等，进行压力测试和覆盖率收集。
后期（RTL冻结前后）：
- 进行性能基准测试：在协同仿真环境中运行真实的应用程序（如加密算法、图像处理），精确测量在真实硬件上的性能，为软件优化和硬件微调提供数据。
- 回归测试：建立基于协同仿真的自动化回归测试套件，任何RTL或软件的修改都需通过此套件，确保不会引入回归错误。
- 为FPGA原型铺路：协同仿真环境验证了软硬件接口的正确性，大大降低了直接进行FPGA原型集成的风险。许多在协同仿真中使用的测试向量和软件镜像可以直接用于原型。

4. 常见陷阱、问题排查与效能提升技巧

即使搭建了先进的平台，在实际操作中依然会踩坑。下面分享一些我们趟过的雷和总结的经验。

4.1 同步与性能瓶颈问题

问题现象：协同仿真速度远低于预期，甚至比纯虚拟平台还慢。或者出现数据不同步、死锁。

根因分析与解决：

事务粒度过细：如果虚拟平台对每一次存储器读写（即使是一个字节）都发起一次SCE-MI事务，通信开销将淹没仿真器带来的速度优势。
- 解决：实现事务聚合。例如，对于DMA传输或批量内存初始化，虚拟平台应将多次访问打包成一个大的SCE-MI事务。在仿真器侧，代理模块将其拆解为多个总线周期。
同步机制不当：SCE-MI通信本质上是异步的。如果虚拟平台和RTL侧没有设计好握手和同步，极易产生活锁或数据竞争。
- 解决：采用请求-响应-完成的明确事务模型。为每个事务分配唯一ID，虚拟平台在收到响应或完成通知前阻塞等待。使用仿真器提供的同步原语（如信号量、屏障）谨慎处理。
仿真器资源未优化：设计在仿真器上的布局布线不佳，或时钟设置不合理。
- 解决：与仿真器供应商工程师紧密合作，对设计进行自动或手动分区优化，确保关键路径和通信密集型模块被合理放置。使用仿真器提供的性能分析工具定位瓶颈。

4.2 调试复杂性问题

问题现象：软件运行出错，但难以判断是软件bug、虚拟平台模型不准、SCE-MI通信错误，还是RTL设计缺陷。

排查思路（分层隔离法）：

第一步：隔离软件。在纯虚拟平台（不连接仿真器）上运行出错的软件场景。如果问题复现，则是软件或虚拟平台模型的问题。用软件调试器（如GDB）定位。
第二步：隔离事务层。如果第一步通过，则在协同仿真环境中，启用SCE-MI的事务日志功能。检查从虚拟平台发出和仿真器接收/返回的事务是否匹配，数据是否正确。可以编写简单的对比脚本，自动化检查。
第三步：深入RTL。如果事务通信无误，问题很可能在RTL内部。此时，利用仿真器的高级调试功能：
- 设置触发条件：例如，当CPU访问某个特定地址或数据时，触发波形记录。
- 源码级关联调试：将软件符号表（ELF文件）加载到调试工具中，实现硬件断点与软件源码行的映射。当RTL执行到某条指令时，能直接暂停并高亮对应的C语言源码行。
- 内存与寄存器查看：直接查看仿真器中CPU的通用寄存器、CSR寄存器以及片上内存的内容，与软件预期值对比。

4.3 与FPGA原型验证的衔接

很多人会问：既然有了高速的协同仿真，还需要FPGA原型验证吗？答案是：需要，但角色不同。

协同仿真：优势在于灵活性、可调试性和早期可用性。RTL无需完全综合即可使用，调试功能强大，可以快速迭代。它是项目中期进行功能验证、性能评估和软硬件集成的主力。
FPGA原型：优势在于极高的运行速度（可接近真实芯片速度的几分之一）。它是在流片前，进行最终软件压力测试、长时间稳定性测试、真实外设对接以及演示的终极平台。

最佳实践：采用“左移”策略。将绝大部分功能验证和软硬件集成工作放在协同仿真阶段完成。只有当设计在协同仿真中达到很高的稳定度后，才将其综合到FPGA原型上。此时，由于主要功能bug已清除，FPGA原型的集成调试会顺利得多，可以专注于解决时序、功耗和与真实物理外设的交互等更深层次问题。协同仿真环境中使用的测试软件和用例，可以几乎无缝地移植到FPGA原型上运行。

构建一个强大的、基于协同仿真的RISC-V复杂系统验证平台，初期投入确实不菲，包括学习曲线、工具成本和工程时间。但在我看来，这对于任何志在开发高性能、高可靠性RISC-V SoC的团队来说，都不是可选项，而是必选项。它本质上是在用可控的工程成本，去对冲流片失败这个最大的商业风险。当你能在芯片回来前数月，就让软件团队在“几乎真实”的硬件上畅快开发，当你能在项目中期就发现并修复那些致命的系统级交互bug时，你会觉得所有前期的投入都是值得的。验证不再是一个跟在设计后面的“质检部门”，而是推动项目整体向前、实现软硬件真正并行开发的引擎。

查看全文

http://www.jsqmd.com/news/792962/