当前位置：首页 > news >正文

从单周期到五级流水：手把手教你用Verilog搭建一个能跑起来的LoongArch CPU（附完整代码）

news 2026/5/7 3:03:17

从单周期到五级流水：手把手教你用Verilog搭建一个能跑起来的LoongArch CPU

第一次在FPGA上看到自己设计的CPU运行起来时，那种成就感至今难忘。记得当时为了调试一个跳转指令的错误，连续三天熬到凌晨两点，最终发现是流水线握手信号的时序问题。本文将分享如何从零开始构建支持LoongArch指令集的五级流水线CPU，这段经历让我深刻理解了计算机体系结构中那些教科书上的概念是如何在硬件中真实运作的。

1. 硬件设计基础准备

1.1 开发环境搭建

构建CPU前需要准备以下工具链：

Verilog开发环境：推荐使用Vivado（Xilinx FPGA）或Quartus（Intel FPGA）
仿真工具：ModelSim或Verilator
LoongArch工具链：包括交叉编译器和模拟器
测试程序：预先编译好的LoongArch二进制文件

安装完成后，建议先运行一个简单的LED闪烁程序验证工具链是否正常工作。我在第一次搭建环境时，因为PATH配置错误浪费了半天时间排查。

1.2 单周期CPU回顾

五级流水线是在单周期CPU基础上演进而来的，先回顾单周期设计的关键点：

module single_cycle_cpu( input clk, input reset, output [31:0] pc, input [31:0] instr, output mem_write, output [31:0] mem_addr, output [31:0] mem_data ); // 主要组件 reg [31:0] reg_file[31:0]; wire [31:0] alu_result; // 控制信号 wire reg_write, alu_src, mem_to_reg; wire [2:0] alu_control; // 数据通路连接 // ... endmodule

单周期设计的主要局限在于：

所有指令必须在一个时钟周期完成
时钟频率受最慢指令限制
硬件利用率低（大部分组件每个周期只工作一次）

2. 流水线架构设计

2.1 五级流水线划分

将CPU工作划分为五个阶段后，每个阶段只需完成特定任务：

流水级	名称	主要功能	关键组件
IF	取指	指令获取	PC寄存器，指令存储器
ID	译码	指令解码，寄存器读取	控制单元，寄存器文件
EXE	执行	算术逻辑运算	ALU
MEM	访存	数据存储器访问	数据存储器
WB	写回	结果写回寄存器	寄存器文件写端口

这种划分使得：

五条指令可同时在不同阶段执行
时钟频率可大幅提高
硬件利用率显著提升

2.2 流水线缓存设计

各级之间需要插入流水线寄存器保存中间结果：

// IF/ID流水线寄存器示例 reg [31:0] if_id_pc; reg [31:0] if_id_instr; reg if_id_valid; always @(posedge clk) begin if (reset) begin if_id_valid <= 0; end else if (if_allowin) begin if_id_pc <= if_pc; if_id_instr <= instr_mem_out; if_id_valid <= if_valid; end end

每个流水线寄存器包含：

有效位（valid）：标识当前数据是否有效
数据字段：传递到下个阶段的所有信息
控制信号：解码产生的控制信号

3. 关键模块实现细节

3.1 取指阶段（IF）

取指阶段需要处理两个关键问题：

PC更新逻辑：

wire [31:0] next_pc = br_taken ? br_target : pc + 4; always @(posedge clk) begin if (reset) pc <= 32'h1bfffffc; // 复位地址 else if (if_allowin) pc <= next_pc; end

指令存储器接口：

assign inst_sram_en = if_valid && if_allowin; assign inst_sram_addr = next_pc; assign inst_sram_we = 4'h0; // 只读

常见问题：指令存储器延迟需要特别注意。在我的实现中，指令在时钟上升沿后一个周期才能准备好，因此需要额外的等待状态。

3.2 译码阶段（ID）

译码阶段是设计中最复杂的部分之一：

// 主要解码逻辑 always @(*) begin case (opcode) 6'h00: begin // ADD.W alu_op = ADD; reg_write = 1; mem_write = 0; end 6'h0a: begin // LD.W alu_op = ADD; reg_write = 1; mem_write = 0; mem_en = 1; end // 其他指令解码... endcase end

设计技巧：我创建了一个解码器模块来简化控制信号生成：

module decoder( input [31:0] instr, output reg [11:0] alu_control, output reg mem_write, output reg reg_write, // 其他控制信号... ); // 解码逻辑... endmodule

3.3 执行阶段（EXE）

执行阶段主要包含ALU运算和数据存储器地址计算：

alu u_alu( .alu_op(alu_control), .src1(alu_src1), .src2(alu_src2), .result(alu_result) ); // 数据存储器接口 assign data_sram_addr = alu_result; assign data_sram_wdata = store_data; assign data_sram_we = mem_write ? 4'hf : 4'h0;

ALU设计要点：

支持LoongArch所有算术逻辑指令
注意有符号和无符号运算的区别
移位指令需要特殊处理

4. 流水线控制机制

4.1 握手信号设计

流水线各级之间通过握手信号协调：

// 典型握手信号生成逻辑 assign stage_ready_go = 1'b1; // 本阶段已完成工作 assign stage_allowin = !stage_valid || (stage_ready_go && next_stage_allowin); assign stage_to_next_valid = stage_valid && stage_ready_go;

信号说明：

ready_go：本阶段工作完成
allowin：下一阶段可以接收数据
to_next_valid：传递到下一阶段的数据有效

4.2 数据冒险处理

虽然本实验不考虑冲突处理，但实际设计中必须解决三种冒险：

结构冒险：通过分离指令和数据存储器解决
数据冒险：可采用前递（Forwarding）或停顿（Stalling）
控制冒险：通过分支预测和延迟槽解决

前递逻辑示例：

// EXE阶段结果前递到ID阶段 wire [31:0] forwarded_data = (exe_reg_write && exe_rd == id_rs1) ? exe_result : (mem_reg_write && mem_rd == id_rs1) ? mem_result : id_rs1_data;

5. 测试与验证方法

5.1 仿真测试框架

构建完善的测试环境至关重要：

module tb_cpu(); reg clk = 0; reg reset = 1; // 时钟生成 always #5 clk = ~clk; initial begin #100 reset = 0; #1000 $finish; end // 实例化CPU和存储器 cpu u_cpu(.clk(clk), .reset(reset)); memory u_mem(.clk(clk)); endmodule

5.2 功能测试用例

建议按以下顺序测试：

算术指令测试：ADD、SUB、SLT等
访存指令测试：LD、ST
跳转指令测试：B、BEQ、JIRL
综合测试：小型计算程序

调试技巧：遇到问题时，可以：

检查流水线寄存器值是否正确传递
验证握手信号时序
查看波形图中关键信号的变化

6. 完整代码结构

项目建议采用如下目录结构：

/rtl /cpu if_stage.v id_stage.v exe_stage.v mem_stage.v wb_stage.v mycpu_top.v /lib alu.v regfile.v decoder.v /tb tb_cpu.v test_programs

关键文件说明：

mycpu_top.v：CPU顶层模块，连接各流水级
alu.v：算术逻辑单元实现
regfile.v：寄存器文件实现

7. 性能优化方向

基础流水线完成后，可考虑以下优化：

分支预测：减少控制冒险带来的性能损失
指令缓存：提高指令读取速度
数据前递：完善数据冒险处理
超标量：支持多指令并行

实测数据：在我的Basys3 FPGA上，优化前后的性能对比：

优化措施	最高频率(MHz)	Dhrystone分数
基础流水线	50	1.0
加入分支预测	65	1.4
加入指令缓存	75	1.8

记得第一次成功运行Dhrystone测试时，虽然分数不高，但那种"它真的工作了！"的兴奋感，正是硬件设计的魅力所在。建议读者在完成基础版本后，尝试添加自己的优化创新，这才是学习计算机体系结构最有效的方式。

查看全文

http://www.jsqmd.com/news/767512/

codex调用gpt模型哪家专业

DownKyi视频下载完全指南：新手也能轻松掌握的B站收藏神器

国际物联卡印尼：如何降低出海设备运维成本与断联损耗

终极跨平台B站客户端：PiliPlus完整使用指南与深度体验

通过Nodejs快速构建一个基于Taotoken多模型的内容生成服务

三步轻松掌握：高效批量下载喜马拉雅VIP与付费音频的完整方案

IOnode：轻量级边缘计算节点的架构设计与工程实践

无传感器BLDC电机控制原理与数字滤波实现

文化墙介绍

数说故事消费者洞察：全域大数据解析电解质饮料日常水替新趋势

如何快速解密RPG游戏资源：RPG Maker解密工具的完整指南

编程技能树：从命令行到项目实战的系统化学习路径

Rigorously：自动化论文质量检查工具，提升科研严谨性与可重复性

【架构深析】打破安防“黑盒”：GB28181/RTSP 视频管理平台如何通过源码交付与 API 驱动节省 95% 开发成本

AI编码代理监控仪表盘：基于tmux的零依赖本地Web解决方案

权威加冕！悬镜安全斩获信通院泰尔实验室全景图多项TOP1，领跑AI原生安全与数字供应链安全双赛道

AI智能体赋能DevOps：xops.bot实现自然语言运维与安全自动化

CANoe测试时Trace没报文？手把手教你用CAPL脚本搞定CAN ACK自应答

2025最权威的降重复率助手解析与推荐

国产用例管理工具2026全景观察：全流程闭环能力成核心竞争力

到底如何成为AI产品经理？

通过TaotokenCLI工具一键配置团队开发环境中的模型密钥

Cursor Commands：AI 结对编程的标准化工作流实践

如何快速将Windows电脑变WiFi热点：专业网络共享终极指南

Kubernetes 中 podManagementPolicy 和 updateStrategy

Hi-Fi音频动态范围解析与DAC芯片实测指南

大语言模型上下文压缩：解决长文本记忆难题的工程实践

och：基于Bash的OpenClaw CLI工具，提升会话管理与自动化效率

Prompt Engineering实战指南：从基础概念到高级应用，解锁大语言模型生产力

嵌入式毕设容易的题目汇总