当前位置：首页 > news >正文

基于MAX 10 FPGA的Z80与8051双核单板计算机设计与实现

news 2026/5/23 2:13:17

1. 项目概述与核心价值

最近在整理工作室的旧物，翻出了一堆老古董——Z80和8051的芯片。看着这些曾经叱咤风云的处理器，一个念头冒了出来：能不能用现代的技术，把它们“复活”在一块板子上，做一个集成的单板计算机？这个想法听起来有点“复古朋克”，但背后的技术考量其实很实际。用FPGA来实现，意味着我们可以在一块芯片里，同时拥有两个完全独立的、可灵活配置的处理器系统，这对于学习计算机体系结构、嵌入式系统设计，甚至是做一些特定的控制或教学演示，都极具价值。

这个项目的核心，就是基于Intel（现在叫Altera）的MAX 10 FPGA，来构建一个同时包含Z80和8051 CPU的单板计算机。Z80，作为8位微处理器的经典，指令集丰富，在早期的CP/M系统和众多嵌入式设备中广泛应用；而8051，则是单片机领域的常青树，其架构简单、外设经典，是学习嵌入式入门的绝佳选择。用FPGA来实现它们，你得到的不是两个固定的芯片，而是两套可以随时修改、调整、甚至优化其内部微架构的“软核”。你可以调整总线宽度、外设映射、中断控制器，一切尽在掌握。这比单纯玩现成的开发板，理解要深入得多。

选择MAX 10 FPGA，是因为它在成本和易用性上找到了一个很好的平衡点。它内部集成了闪存配置芯片和模拟模块，对于这样一个中等复杂度的数字系统来说，资源足够，又不需要额外昂贵的配置芯片，非常适合爱好者和小批量项目。最终的目标，是设计出一块PCB，上面有MAX 10 FPGA、SDRAM、Flash、串口、按键、LED等基本外设，然后通过硬件描述语言（如Verilog或VHDL）编写Z80和8051的软核，并让它们共享或独立访问部分外设，形成一个真正的、可工作的“二合一”单板机。

2. 整体系统架构与设计思路

2.1 核心芯片选型：为什么是MAX 10？

市面上FPGA选择很多，从低端的Lattice到高端的Xilinx UltraScale+。但对于这个项目，Intel MAX 10系列几乎是量身定做。首先，它属于非易失性FPGA，配置比特流直接存储在芯片内部的闪存中。上电即运行，无需外部配置存储器（如EPCS）。这极大地简化了PCB设计和BOM成本，对于单板计算机的稳定性和可靠性是极大的加分项。

其次，MAX 10内部集成了双配置闪存和用户闪存（UFM）。这意味着，你不仅可以存储FPGA的配置文件，还可以利用UFM来存储Z80或8051需要执行的程序代码，比如8051的固件或者Z80的监控程序（Monitor），实现真正的“单芯片”解决方案。虽然容量不大（几十到几百Kb），但对于简单的演示程序绰绰有余。

再者，MAX 10部分型号还集成了ADC（模数转换器），这为未来扩展模拟传感器接口提供了可能，虽然本项目主要聚焦数字系统，但预留这个能力总是好的。最后，它的逻辑资源（LEs）和存储器资源（M9K）对于实现两个8位CPU软核及其必要的外设（如定时器、UART、GPIO控制器）来说，是足够且经济的。例如，一颗10M08SCE144C8G芯片，约有8000个逻辑单元，完成本项目核心功能后仍有富余。

2.2 双核系统架构设计

在一个FPGA内部实现两个CPU，并不是简单地把两个软核代码扔进去编译就行。核心挑战在于资源仲裁和系统互连。我们设计的是一种“松散耦合”的共享总线架构。

主系统总线（Avalon-MM或自定义总线）：我们以FPGA内部构建一个主系统总线为中心。这个总线负责连接主要的共享资源，如SDRAM控制器、Flash控制器、以及连接外部物理芯片的接口。Z80软核和8051软核作为总线上的两个主设备（Master）。

独立外设与共享外设：一些外设可以设计为各自CPU独享，以简化逻辑。例如，每个CPU都可以拥有自己独立的UART（串口）控制器，这样它们可以同时通过不同的物理串口（如USB转双串口芯片CH340）与PC通信，互不干扰。而像SDRAM、Nor Flash这类大容量存储设备，则通过总线仲裁器共享。仲裁器可以采用简单的固定优先级或轮询策略，确保同一时刻只有一个CPU能访问共享资源，避免冲突。

中断与通信机制：两个CPU之间可能需要通信。我们可以设计一个简单的“邮箱”（Mailbox）模块，即一段双端口RAM（或利用FPGA的RAM块实现），配合中断产生电路。Z80可以向邮箱写入数据，然后触发一个8051的外部中断；反之亦然。这是多核系统间最简单的进程间通信（IPC）方式。

时钟与复位：两个软核可以运行在不同的时钟频率下，这得益于FPGA内部灵活的时钟网络。Z80可能运行在50MHz，而8051运行在24MHz。我们需要使用FPGA内部的PLL或时钟分频器来生成这些时钟，并为每个时钟域提供独立的复位同步电路，这是确保系统稳定性的关键。

注意：在FPGA中实现多时钟域设计需要格外小心跨时钟域信号的处理。对于“邮箱”这类需要跨域通信的信号，必须使用同步器（如两级触发器）来避免亚稳态，否则系统会表现出极不稳定的随机错误。

2.3 外设规划与板级设计

单板计算机要“有用”，外设必不可少。以下是我们规划的核心外设：

存储系统：
- SDRAM：选用一颗32Mbit（4MB）或64Mbit（8MB）的SDRAM芯片，如IS42S16400J。它为两个CPU提供运行程序和数据存储的空间。需要在FPGA内实现一个SDRAM控制器，这是整个项目的难点之一。
- Nor Flash：一颗16Mbit（2MB）或更大的SPI Nor Flash，如W25Q16JV。用于存储FPGA配置比特流（虽然MAX10内置闪存，但外部Flash可作为备用）以及Z80/8051的应用程序代码，实现“存储程序”的概念。
- MAX10 UFM：作为Boot ROM，存储8051或Z80的初级引导程序，用于从外部Flash加载更大规模的应用程序到SDRAM中运行。
通信接口：
- 双UART：使用一片CH340G或FT2232HL这类USB转多串口芯片，为两个CPU提供独立的、稳定的USB串口调试和通信通道。
- GPIO：引出足够多的FPGA IO到排针，用于连接LED、按键、数码管、LCD屏等，提供最基础的输入输出能力。
调试与配置接口：
- JTAG：用于FPGA的编程、调试和SignalTap II逻辑分析仪调试，这是开发阶段的“眼睛”。
- USB供电：采用Micro-USB或Type-C接口进行5V供电，并通过板载LDO稳压器转换为FPGA和芯片所需的3.3V、2.5V、1.2V等电压。

3. 核心模块的硬件描述语言实现

3.1 Z80软核的实现要点

Z80软核已经有大量成熟的开源实现，例如T80核心。我们不需要从零开始写一个Z80，但需要理解如何将它集成到我们的系统中。

核心实例化与接口：我们需要将Z80核心（T80模块）封装一层，形成我们自己的z80_system模块。这个封装层主要负责：

时钟生成：Z80原生的总线周期需要等待信号（WAIT_n），我们需要根据总线仲裁和外围设备响应情况，正确产生这个信号。
地址译码：将Z80输出的16位地址线，映射到我们自定义的系统总线地址空间。例如，规定地址0x0000-0x7FFF映射到SDRAM，0x8000-0x80FF映射到本地的UART控制器等。
总线周期转换：Z80有自己的MREQ_n、IORQ_n、RD_n、WR_n信号，我们需要将这些信号转换为Avalon-MM总线或我们自定义总线所需的read、write、address、writedata、readdata信号格式。

module z80_system ( input wire clk_50m, // 50MHz主时钟 input wire rst_n, // 全局复位，低有效 // 与系统总线的接口 output wire [31:0] bus_addr, output wire bus_read, output wire bus_write, input wire [31:0] bus_readdata, output wire [31:0] bus_writedata, input wire bus_waitrequest, // 独享外设接口，如UART output wire uart_tx, input wire uart_rx ); // 实例化T80核心 T80a cpu_core ( .RESET_n (rst_n), .CLK (clk_50m), .WAIT_n (~bus_waitrequest), // 将总线等待转换为Z80的WAIT_n .INT_n (1'b1), // 中断暂时悬空 .NMI_n (1'b1), .BUSRQ_n (1'b1), .M1_n (), .MREQ_n (mreq_n), .IORQ_n (iorq_n), .RD_n (rd_n), .WR_n (wr_n), .RFSH_n (), .HALT_n (), .BUSAK_n (), .A (z80_addr), .DI (z80_data_in), .DO (z80_data_out) ); // 总线接口转换逻辑（此处省略具体译码和状态机） // ... endmodule

外设控制器：需要为Z80实现必要的外设IP，如：

UART 16550兼容控制器：实现发送、接收、波特率生成、中断产生等功能。波特率发生器通常由系统时钟分频得到。
定时器/计数器：实现类似Z80 CTC（Counter/Timer Channel）的功能，用于产生精确的时间间隔或脉冲。
GPIO控制器：简单的输入输出寄存器，用于控制LED和读取按键状态。

3.2 8051软核的实现与优化

8051软核的选择也很多，如MC8051或CPU51。8051是哈佛架构，程序存储器和数据存储器分开。在FPGA中，我们可以灵活配置这两块存储器的大小和位置。

存储器映射：典型的8051软核会有rom_addr/rom_data接口和ram_addr/ram_data接口。我们可以将内部ROM（rom_*）连接到MAX10的UFM，存放一小段Bootloader。将内部RAM（ram_*）用FPGA的LEs或M9K块RAM实现，通常是256字节的内部RAM。外部数据存储器（XDATA）空间则可以映射到我们自定义的系统总线上，从而让8051也能访问SDRAM和共享外设。

特殊功能寄存器（SFR）扩展：标准的8051 SFR（如P0, P1, TCON, SCON等）需要实现。此外，我们还可以自定义新的SFR，用于访问我们为8051独享或共享的外设。例如，地址0xA0可以映射到我们自定义的、连接LED的GPIO端口。

性能考量：一个时钟周期执行一条指令的8051软核（1T 8051）比传统的12时钟周期机器快得多。我们可以选择或修改软核，让其运行在更高的频率（如50MHz），并保持1T架构，这样其性能将远超传统的89C51芯片。

3.3 SDRAM控制器的设计与挑战

SDRAM控制器是连接FPGA逻辑世界和动态存储器的桥梁，也是整个系统稳定性的基石。SDRAM操作复杂，需要严格的时序控制：上电初始化、预充电、刷新、行列激活、读写 burst 操作等。

状态机设计：控制器核心是一个复杂的状态机。通常包含以下状态：INIT_POWER_ON、INIT_PRECHARGE、INIT_LOAD_MODE_REGISTER、IDLE、ACTIVE、READ、WRITE、PRECHARGE、AUTO_REFRESH。状态机的设计必须严格按照所选SDRAM芯片的数据手册中的时序参数（如tRCD,tRP,tRC,CL等）进行。

刷新管理：SDRAM需要定期刷新（例如每64ms刷新8192行）。控制器必须维护一个刷新计数器，在IDLE状态下定期插入AUTO_REFRESH命令。这可能会暂时阻塞CPU的访问，因此需要设计合理的仲裁，或者使用带缓冲的读写FIFO来隐藏刷新延迟。

与系统总线的接口：控制器面向系统总线的一端，应该提供一个简单的、类似SRAM的接口（地址、数据、读使能、写使能）。内部则负责将这个请求翻译成一系列的SDRAM命令，并管理数据路径。

实操心得：调试SDRAM控制器时，SignalTap II逻辑分析仪是你的最佳伙伴。你需要抓取SDRAM的命令线（CKE, CS_n, RAS_n, CAS_n, WE_n）、地址线、数据线以及内部状态机信号。对照数据手册的时序图，一个周期一个周期地核对，确保tRCD、CL等参数满足要求。初次尝试，可以从较低频率（如50MHz）开始，稳定后再逐步提升。另外，PCB布局布线对SDRAM稳定性影响巨大，时钟线和数据线尽可能等长，并做好阻抗控制。

3.4 总线仲裁器与系统集成

当Z80和8051都要访问共享的SDRAM控制器或Flash控制器时，就需要仲裁。一个简单可靠的轮询仲裁器设计如下：

module round_robin_arbiter ( input wire clk, input wire rst_n, // 来自主设备0（如Z80）的请求 input wire req0, output reg gnt0, // 来自主设备1（如8051）的请求 input wire req1, output reg gnt1, // 共享总线接口（连接到从设备，如SDRAM控制器） output reg bus_read, output reg bus_write, output reg [31:0] bus_addr, output reg [31:0] bus_writedata, input wire [31:0] bus_readdata, input wire bus_waitrequest ); reg last_winner; // 记录上一次获得授权的主设备 always @(posedge clk or negedge rst_n) begin if (!rst_n) begin gnt0 <= 1'b0; gnt1 <= 1'b0; last_winner <= 1'b0; end else begin // 默认无授权 gnt0 <= 1'b0; gnt1 <= 1'b0; // 仲裁逻辑 if (req0 && req1) begin // 两者都请求，轮询 if (last_winner == 1'b0) begin gnt1 <= 1'b1; last_winner <= 1'b1; end else begin gnt0 <= 1'b1; last_winner <= 1'b0; end end else if (req0) begin gnt0 <= 1'b1; last_winner <= 1'b0; end else if (req1) begin gnt1 <= 1'b1; last_winner <= 1'b1; end end end // 根据授权信号，将当前获得授权的主设备信号切换到共享总线 always @(*) begin if (gnt0) begin // 将主设备0的信号连接到总线 bus_read = z80_bus_read; bus_write = z80_bus_write; bus_addr = z80_bus_addr; bus_writedata = z80_bus_writedata; // 将总线数据回传给主设备0 z80_bus_readdata = bus_readdata; z80_bus_waitrequest = bus_waitrequest; // 主设备1的信号置为无效或高阻 _51_bus_readdata = 32'bz; _51_bus_waitrequest = 1'b1; end else if (gnt1) begin // 将主设备1的信号连接到总线 bus_read = _51_bus_read; bus_write = _51_bus_write; bus_addr = _51_bus_addr; bus_writedata = _51_bus_writedata; // 将总线数据回传给主设备1 _51_bus_readdata = bus_readdata; _51_bus_waitrequest = bus_waitrequest; // 主设备0的信号置为无效或高阻 z80_bus_readdata = 32'bz; z80_bus_waitrequest = 1'b1; end else begin // 无授权，总线空闲 bus_read = 1'b0; bus_write = 1'b0; bus_addr = 32'b0; bus_writedata = 32'b0; z80_bus_readdata = 32'bz; z80_bus_waitrequest = 1'b1; _51_bus_readdata = 32'bz; _51_bus_waitrequest = 1'b1; end end endmodule

这个仲裁器确保了公平性，避免了某个CPU长时间霸占总线导致另一个CPU“饿死”。在实际集成时，你需要将Z80系统模块和8051系统模块的顶层信号，连接到这个仲裁器的req0/gnt0和req1/gnt1端口。

4. 软件开发与系统调试

4.1 交叉编译工具链搭建

硬件是躯体，软件是灵魂。我们需要为Z80和8051分别搭建交叉编译环境。

对于Z80：

汇编器/链接器：z80asm或sdcc（Small Device C Compiler，它支持Z80后端）。sdcc允许你用C语言为Z80编写程序，虽然代码效率可能不如手写汇编，但开发效率高。
二进制文件转换：编译链接后生成的文件通常是ihx或hex格式，需要转换成纯二进制（bin）格式，以便写入Flash或通过Bootloader加载。
库与启动代码：需要编写或找到Z80的极简运行时库（crt0.s），负责设置栈指针、初始化数据段（如果有）、然后跳转到main函数。

对于8051：

编译器：最经典的是sdcc，它对8051的支持非常成熟。也可以使用Keil C51，但它是商业软件。
编程方式：8051的程序通常直接编译后写入其程序存储器（ROM）。在我们的系统中，8051的ROM在UFM中，我们可以利用Quartus的In-System Memory Content Editor工具，在FPGA运行时，通过JTAG直接修改UFM内容，实现“软”编程，非常方便调试。

4.2 Bootloader设计与系统启动流程

一个优雅的系统需要一个Bootloader。我们的设计思路是：

上电：FPGA配置完成，Z80和8051软核开始运行。
8051 Bootloader：8051软核从其UFM中的ROM起始地址（0x0000）开始执行。这里的代码是一个简单的Bootloader，它通过SPI接口（或GPIO模拟SPI）读取外部Flash中指定扇区的8051应用程序代码，将其拷贝到SDRAM中为8051分配的地址空间（例如0x80000000），然后跳转到SDRAM中执行。
Z80 Bootloader/Monitor：Z80软核从其复位向量（通常为0x0000）开始执行，这个地址映射到一块小的Boot ROM（也可以用UFM实现，但需与8051的Bootloader代码分区存放）。Z80的Bootloader可以更复杂，成为一个简单的监控程序（Monitor），它通过UART接收来自PC的命令，可以读写内存、加载程序到SDRAM、执行程序等。这样，Z80的应用程序就可以通过串口动态加载，无需每次修改都重新综合FPGA工程。
双核并行运行：当两个CPU的Bootloader都完成任务后，它们便分别运行在SDRAM中的应用程序里，共享着系统的其他资源。

4.3 调试技巧与问题排查实录

在这样一个软硬件协同的复杂系统中，调试是最大的挑战。以下是一些实录的技巧：

问题一：系统上电后，某个CPU完全不运行。

排查：首先用SignalTap II抓取该CPU的时钟和复位信号。确认时钟是否正常（有翻转），复位信号是否在上电后稳定释放（从低变高）。很多时候是复位同步电路没做好，导致CPU一直处于复位状态。
技巧：在设计中加入“心跳”信号。例如，让每个CPU在某个GPIO引脚上以1Hz的频率翻转电平，用示波器或逻辑分析仪一看便知CPU是否“活着”。

问题二：CPU能运行，但读写SDRAM数据错误。

排查：这是最复杂的情况。分层排查：
1. 先测控制器：编写一个FPGA内部的测试状态机，绕过CPU，直接对SDRAM控制器进行连续的“写-读-比较”测试。如果这个测试都失败，问题肯定在SDRAM控制器或PCB硬件上。
2. 再测总线：如果控制器自测通过，再用SignalTap II抓取CPU发起读写请求时，仲裁器、总线以及SDRAM控制器接口上的所有信号。检查地址、数据、控制信号在传输过程中是否有错位或延迟不匹配。
3. 检查时序约束：在Quartus中检查SDRAM时钟和相关IO的时序约束是否正确添加。不正确的约束会导致综合布线后的时序不满足，在高速下出现随机错误。

问题三：双核同时高强度访问共享资源时，系统卡死。

排查：可能是总线仲裁器逻辑有缺陷，在特定请求序列下进入了死锁状态。或者SDRAM控制器的刷新逻辑没有处理好，在刷新周期内没有正确响应仲裁器的请求释放。
技巧：在仲裁器和SDRAM控制器中增加超时机制。如果某个主设备占用总线超过一定时间（如1024个时钟周期），强制释放总线授权。同时，在SignalTap中设置触发条件，抓取系统卡死前一瞬间的总线状态和状态机，这是定位死锁问题的关键。

问题四：通过UART输出乱码。

排查：
1. 检查波特率生成器的分频系数计算是否正确。BAUD_DIVISOR = System_CLK / (Desired_BAUD * 16)。
2. 用示波器测量UART TX引脚的实际波形，测量一个位的时间宽度，反推实际波特率。
3. 检查FPGA工程中为UART模块和CPU模块分配的时钟是否同源且频率正确，跨时钟域的数据（如CPU要发送的数据）是否通过了FIFO或同步器正确处理。

个人体会：FPGA项目的调试，七分靠设计（预先考虑周全），三分靠工具（逻辑分析仪、示波器）。在编写每一段关键代码（如状态机、仲裁器、跨时钟域模块）时，就要同步思考“这部分我该如何观测和调试？”。提前在代码里埋设一些调试用的计数器或状态输出信号，会比出了问题再回头加要高效得多。对于这种多核系统，采用“分而治之，逐步集成”的策略至关重要：先确保每个CPU子系统独立工作，再集成共享总线和仲裁器，最后进行双核协同测试。

查看全文

http://www.jsqmd.com/news/868059/