基于MAX 10 FPGA的Z80与8051双核单板计算机设计与实现
1. 项目概述与核心价值
最近在整理工作室的旧物,翻出了一堆老古董——Z80和8051的芯片。看着这些曾经叱咤风云的处理器,一个念头冒了出来:能不能用现代的技术,把它们“复活”在一块板子上,做一个集成的单板计算机?这个想法听起来有点“复古朋克”,但背后的技术考量其实很实际。用FPGA来实现,意味着我们可以在一块芯片里,同时拥有两个完全独立的、可灵活配置的处理器系统,这对于学习计算机体系结构、嵌入式系统设计,甚至是做一些特定的控制或教学演示,都极具价值。
这个项目的核心,就是基于Intel(现在叫Altera)的MAX 10 FPGA,来构建一个同时包含Z80和8051 CPU的单板计算机。Z80,作为8位微处理器的经典,指令集丰富,在早期的CP/M系统和众多嵌入式设备中广泛应用;而8051,则是单片机领域的常青树,其架构简单、外设经典,是学习嵌入式入门的绝佳选择。用FPGA来实现它们,你得到的不是两个固定的芯片,而是两套可以随时修改、调整、甚至优化其内部微架构的“软核”。你可以调整总线宽度、外设映射、中断控制器,一切尽在掌握。这比单纯玩现成的开发板,理解要深入得多。
选择MAX 10 FPGA,是因为它在成本和易用性上找到了一个很好的平衡点。它内部集成了闪存配置芯片和模拟模块,对于这样一个中等复杂度的数字系统来说,资源足够,又不需要额外昂贵的配置芯片,非常适合爱好者和小批量项目。最终的目标,是设计出一块PCB,上面有MAX 10 FPGA、SDRAM、Flash、串口、按键、LED等基本外设,然后通过硬件描述语言(如Verilog或VHDL)编写Z80和8051的软核,并让它们共享或独立访问部分外设,形成一个真正的、可工作的“二合一”单板机。
2. 整体系统架构与设计思路
2.1 核心芯片选型:为什么是MAX 10?
市面上FPGA选择很多,从低端的Lattice到高端的Xilinx UltraScale+。但对于这个项目,Intel MAX 10系列几乎是量身定做。首先,它属于非易失性FPGA,配置比特流直接存储在芯片内部的闪存中。上电即运行,无需外部配置存储器(如EPCS)。这极大地简化了PCB设计和BOM成本,对于单板计算机的稳定性和可靠性是极大的加分项。
其次,MAX 10内部集成了双配置闪存和用户闪存(UFM)。这意味着,你不仅可以存储FPGA的配置文件,还可以利用UFM来存储Z80或8051需要执行的程序代码,比如8051的固件或者Z80的监控程序(Monitor),实现真正的“单芯片”解决方案。虽然容量不大(几十到几百Kb),但对于简单的演示程序绰绰有余。
再者,MAX 10部分型号还集成了ADC(模数转换器),这为未来扩展模拟传感器接口提供了可能,虽然本项目主要聚焦数字系统,但预留这个能力总是好的。最后,它的逻辑资源(LEs)和存储器资源(M9K)对于实现两个8位CPU软核及其必要的外设(如定时器、UART、GPIO控制器)来说,是足够且经济的。例如,一颗10M08SCE144C8G芯片,约有8000个逻辑单元,完成本项目核心功能后仍有富余。
2.2 双核系统架构设计
在一个FPGA内部实现两个CPU,并不是简单地把两个软核代码扔进去编译就行。核心挑战在于资源仲裁和系统互连。我们设计的是一种“松散耦合”的共享总线架构。
主系统总线(Avalon-MM或自定义总线):我们以FPGA内部构建一个主系统总线为中心。这个总线负责连接主要的共享资源,如SDRAM控制器、Flash控制器、以及连接外部物理芯片的接口。Z80软核和8051软核作为总线上的两个主设备(Master)。
独立外设与共享外设:一些外设可以设计为各自CPU独享,以简化逻辑。例如,每个CPU都可以拥有自己独立的UART(串口)控制器,这样它们可以同时通过不同的物理串口(如USB转双串口芯片CH340)与PC通信,互不干扰。而像SDRAM、Nor Flash这类大容量存储设备,则通过总线仲裁器共享。仲裁器可以采用简单的固定优先级或轮询策略,确保同一时刻只有一个CPU能访问共享资源,避免冲突。
中断与通信机制:两个CPU之间可能需要通信。我们可以设计一个简单的“邮箱”(Mailbox)模块,即一段双端口RAM(或利用FPGA的RAM块实现),配合中断产生电路。Z80可以向邮箱写入数据,然后触发一个8051的外部中断;反之亦然。这是多核系统间最简单的进程间通信(IPC)方式。
时钟与复位:两个软核可以运行在不同的时钟频率下,这得益于FPGA内部灵活的时钟网络。Z80可能运行在50MHz,而8051运行在24MHz。我们需要使用FPGA内部的PLL或时钟分频器来生成这些时钟,并为每个时钟域提供独立的复位同步电路,这是确保系统稳定性的关键。
注意:在FPGA中实现多时钟域设计需要格外小心跨时钟域信号的处理。对于“邮箱”这类需要跨域通信的信号,必须使用同步器(如两级触发器)来避免亚稳态,否则系统会表现出极不稳定的随机错误。
2.3 外设规划与板级设计
单板计算机要“有用”,外设必不可少。以下是我们规划的核心外设:
存储系统:
- SDRAM:选用一颗32Mbit(4MB)或64Mbit(8MB)的SDRAM芯片,如IS42S16400J。它为两个CPU提供运行程序和数据存储的空间。需要在FPGA内实现一个SDRAM控制器,这是整个项目的难点之一。
- Nor Flash:一颗16Mbit(2MB)或更大的SPI Nor Flash,如W25Q16JV。用于存储FPGA配置比特流(虽然MAX10内置闪存,但外部Flash可作为备用)以及Z80/8051的应用程序代码,实现“存储程序”的概念。
- MAX10 UFM:作为Boot ROM,存储8051或Z80的初级引导程序,用于从外部Flash加载更大规模的应用程序到SDRAM中运行。
通信接口:
- 双UART:使用一片CH340G或FT2232HL这类USB转多串口芯片,为两个CPU提供独立的、稳定的USB串口调试和通信通道。
- GPIO:引出足够多的FPGA IO到排针,用于连接LED、按键、数码管、LCD屏等,提供最基础的输入输出能力。
调试与配置接口:
- JTAG:用于FPGA的编程、调试和SignalTap II逻辑分析仪调试,这是开发阶段的“眼睛”。
- USB供电:采用Micro-USB或Type-C接口进行5V供电,并通过板载LDO稳压器转换为FPGA和芯片所需的3.3V、2.5V、1.2V等电压。
3. 核心模块的硬件描述语言实现
3.1 Z80软核的实现要点
Z80软核已经有大量成熟的开源实现,例如T80核心。我们不需要从零开始写一个Z80,但需要理解如何将它集成到我们的系统中。
核心实例化与接口:我们需要将Z80核心(T80模块)封装一层,形成我们自己的z80_system模块。这个封装层主要负责:
- 时钟生成:Z80原生的总线周期需要等待信号(
WAIT_n),我们需要根据总线仲裁和外围设备响应情况,正确产生这个信号。 - 地址译码:将Z80输出的16位地址线,映射到我们自定义的系统总线地址空间。例如,规定地址0x0000-0x7FFF映射到SDRAM,0x8000-0x80FF映射到本地的UART控制器等。
- 总线周期转换:Z80有自己的
MREQ_n、IORQ_n、RD_n、WR_n信号,我们需要将这些信号转换为Avalon-MM总线或我们自定义总线所需的read、write、address、writedata、readdata信号格式。
module z80_system ( input wire clk_50m, // 50MHz主时钟 input wire rst_n, // 全局复位,低有效 // 与系统总线的接口 output wire [31:0] bus_addr, output wire bus_read, output wire bus_write, input wire [31:0] bus_readdata, output wire [31:0] bus_writedata, input wire bus_waitrequest, // 独享外设接口,如UART output wire uart_tx, input wire uart_rx ); // 实例化T80核心 T80a cpu_core ( .RESET_n (rst_n), .CLK (clk_50m), .WAIT_n (~bus_waitrequest), // 将总线等待转换为Z80的WAIT_n .INT_n (1'b1), // 中断暂时悬空 .NMI_n (1'b1), .BUSRQ_n (1'b1), .M1_n (), .MREQ_n (mreq_n), .IORQ_n (iorq_n), .RD_n (rd_n), .WR_n (wr_n), .RFSH_n (), .HALT_n (), .BUSAK_n (), .A (z80_addr), .DI (z80_data_in), .DO (z80_data_out) ); // 总线接口转换逻辑(此处省略具体译码和状态机) // ... endmodule外设控制器:需要为Z80实现必要的外设IP,如:
- UART 16550兼容控制器:实现发送、接收、波特率生成、中断产生等功能。波特率发生器通常由系统时钟分频得到。
- 定时器/计数器:实现类似Z80 CTC(Counter/Timer Channel)的功能,用于产生精确的时间间隔或脉冲。
- GPIO控制器:简单的输入输出寄存器,用于控制LED和读取按键状态。
3.2 8051软核的实现与优化
8051软核的选择也很多,如MC8051或CPU51。8051是哈佛架构,程序存储器和数据存储器分开。在FPGA中,我们可以灵活配置这两块存储器的大小和位置。
存储器映射:典型的8051软核会有rom_addr/rom_data接口和ram_addr/ram_data接口。我们可以将内部ROM(rom_*)连接到MAX10的UFM,存放一小段Bootloader。将内部RAM(ram_*)用FPGA的LEs或M9K块RAM实现,通常是256字节的内部RAM。外部数据存储器(XDATA)空间则可以映射到我们自定义的系统总线上,从而让8051也能访问SDRAM和共享外设。
特殊功能寄存器(SFR)扩展:标准的8051 SFR(如P0, P1, TCON, SCON等)需要实现。此外,我们还可以自定义新的SFR,用于访问我们为8051独享或共享的外设。例如,地址0xA0可以映射到我们自定义的、连接LED的GPIO端口。
性能考量:一个时钟周期执行一条指令的8051软核(1T 8051)比传统的12时钟周期机器快得多。我们可以选择或修改软核,让其运行在更高的频率(如50MHz),并保持1T架构,这样其性能将远超传统的89C51芯片。
3.3 SDRAM控制器的设计与挑战
SDRAM控制器是连接FPGA逻辑世界和动态存储器的桥梁,也是整个系统稳定性的基石。SDRAM操作复杂,需要严格的时序控制:上电初始化、预充电、刷新、行列激活、读写 burst 操作等。
状态机设计:控制器核心是一个复杂的状态机。通常包含以下状态:INIT_POWER_ON、INIT_PRECHARGE、INIT_LOAD_MODE_REGISTER、IDLE、ACTIVE、READ、WRITE、PRECHARGE、AUTO_REFRESH。状态机的设计必须严格按照所选SDRAM芯片的数据手册中的时序参数(如tRCD,tRP,tRC,CL等)进行。
刷新管理:SDRAM需要定期刷新(例如每64ms刷新8192行)。控制器必须维护一个刷新计数器,在IDLE状态下定期插入AUTO_REFRESH命令。这可能会暂时阻塞CPU的访问,因此需要设计合理的仲裁,或者使用带缓冲的读写FIFO来隐藏刷新延迟。
与系统总线的接口:控制器面向系统总线的一端,应该提供一个简单的、类似SRAM的接口(地址、数据、读使能、写使能)。内部则负责将这个请求翻译成一系列的SDRAM命令,并管理数据路径。
实操心得:调试SDRAM控制器时,SignalTap II逻辑分析仪是你的最佳伙伴。你需要抓取SDRAM的命令线(CKE, CS_n, RAS_n, CAS_n, WE_n)、地址线、数据线以及内部状态机信号。对照数据手册的时序图,一个周期一个周期地核对,确保
tRCD、CL等参数满足要求。初次尝试,可以从较低频率(如50MHz)开始,稳定后再逐步提升。另外,PCB布局布线对SDRAM稳定性影响巨大,时钟线和数据线尽可能等长,并做好阻抗控制。
3.4 总线仲裁器与系统集成
当Z80和8051都要访问共享的SDRAM控制器或Flash控制器时,就需要仲裁。一个简单可靠的轮询仲裁器设计如下:
module round_robin_arbiter ( input wire clk, input wire rst_n, // 来自主设备0(如Z80)的请求 input wire req0, output reg gnt0, // 来自主设备1(如8051)的请求 input wire req1, output reg gnt1, // 共享总线接口(连接到从设备,如SDRAM控制器) output reg bus_read, output reg bus_write, output reg [31:0] bus_addr, output reg [31:0] bus_writedata, input wire [31:0] bus_readdata, input wire bus_waitrequest ); reg last_winner; // 记录上一次获得授权的主设备 always @(posedge clk or negedge rst_n) begin if (!rst_n) begin gnt0 <= 1'b0; gnt1 <= 1'b0; last_winner <= 1'b0; end else begin // 默认无授权 gnt0 <= 1'b0; gnt1 <= 1'b0; // 仲裁逻辑 if (req0 && req1) begin // 两者都请求,轮询 if (last_winner == 1'b0) begin gnt1 <= 1'b1; last_winner <= 1'b1; end else begin gnt0 <= 1'b1; last_winner <= 1'b0; end end else if (req0) begin gnt0 <= 1'b1; last_winner <= 1'b0; end else if (req1) begin gnt1 <= 1'b1; last_winner <= 1'b1; end end end // 根据授权信号,将当前获得授权的主设备信号切换到共享总线 always @(*) begin if (gnt0) begin // 将主设备0的信号连接到总线 bus_read = z80_bus_read; bus_write = z80_bus_write; bus_addr = z80_bus_addr; bus_writedata = z80_bus_writedata; // 将总线数据回传给主设备0 z80_bus_readdata = bus_readdata; z80_bus_waitrequest = bus_waitrequest; // 主设备1的信号置为无效或高阻 _51_bus_readdata = 32'bz; _51_bus_waitrequest = 1'b1; end else if (gnt1) begin // 将主设备1的信号连接到总线 bus_read = _51_bus_read; bus_write = _51_bus_write; bus_addr = _51_bus_addr; bus_writedata = _51_bus_writedata; // 将总线数据回传给主设备1 _51_bus_readdata = bus_readdata; _51_bus_waitrequest = bus_waitrequest; // 主设备0的信号置为无效或高阻 z80_bus_readdata = 32'bz; z80_bus_waitrequest = 1'b1; end else begin // 无授权,总线空闲 bus_read = 1'b0; bus_write = 1'b0; bus_addr = 32'b0; bus_writedata = 32'b0; z80_bus_readdata = 32'bz; z80_bus_waitrequest = 1'b1; _51_bus_readdata = 32'bz; _51_bus_waitrequest = 1'b1; end end endmodule这个仲裁器确保了公平性,避免了某个CPU长时间霸占总线导致另一个CPU“饿死”。在实际集成时,你需要将Z80系统模块和8051系统模块的顶层信号,连接到这个仲裁器的req0/gnt0和req1/gnt1端口。
4. 软件开发与系统调试
4.1 交叉编译工具链搭建
硬件是躯体,软件是灵魂。我们需要为Z80和8051分别搭建交叉编译环境。
对于Z80:
- 汇编器/链接器:
z80asm或sdcc(Small Device C Compiler,它支持Z80后端)。sdcc允许你用C语言为Z80编写程序,虽然代码效率可能不如手写汇编,但开发效率高。 - 二进制文件转换:编译链接后生成的文件通常是
ihx或hex格式,需要转换成纯二进制(bin)格式,以便写入Flash或通过Bootloader加载。 - 库与启动代码:需要编写或找到Z80的极简运行时库(
crt0.s),负责设置栈指针、初始化数据段(如果有)、然后跳转到main函数。
对于8051:
- 编译器:最经典的是
sdcc,它对8051的支持非常成熟。也可以使用Keil C51,但它是商业软件。 - 编程方式:8051的程序通常直接编译后写入其程序存储器(ROM)。在我们的系统中,8051的ROM在UFM中,我们可以利用Quartus的
In-System Memory Content Editor工具,在FPGA运行时,通过JTAG直接修改UFM内容,实现“软”编程,非常方便调试。
4.2 Bootloader设计与系统启动流程
一个优雅的系统需要一个Bootloader。我们的设计思路是:
- 上电:FPGA配置完成,Z80和8051软核开始运行。
- 8051 Bootloader:8051软核从其UFM中的ROM起始地址(0x0000)开始执行。这里的代码是一个简单的Bootloader,它通过SPI接口(或GPIO模拟SPI)读取外部Flash中指定扇区的8051应用程序代码,将其拷贝到SDRAM中为8051分配的地址空间(例如0x80000000),然后跳转到SDRAM中执行。
- Z80 Bootloader/Monitor:Z80软核从其复位向量(通常为0x0000)开始执行,这个地址映射到一块小的Boot ROM(也可以用UFM实现,但需与8051的Bootloader代码分区存放)。Z80的Bootloader可以更复杂,成为一个简单的监控程序(Monitor),它通过UART接收来自PC的命令,可以读写内存、加载程序到SDRAM、执行程序等。这样,Z80的应用程序就可以通过串口动态加载,无需每次修改都重新综合FPGA工程。
- 双核并行运行:当两个CPU的Bootloader都完成任务后,它们便分别运行在SDRAM中的应用程序里,共享着系统的其他资源。
4.3 调试技巧与问题排查实录
在这样一个软硬件协同的复杂系统中,调试是最大的挑战。以下是一些实录的技巧:
问题一:系统上电后,某个CPU完全不运行。
- 排查:首先用SignalTap II抓取该CPU的时钟和复位信号。确认时钟是否正常(有翻转),复位信号是否在上电后稳定释放(从低变高)。很多时候是复位同步电路没做好,导致CPU一直处于复位状态。
- 技巧:在设计中加入“心跳”信号。例如,让每个CPU在某个GPIO引脚上以1Hz的频率翻转电平,用示波器或逻辑分析仪一看便知CPU是否“活着”。
问题二:CPU能运行,但读写SDRAM数据错误。
- 排查:这是最复杂的情况。分层排查:
- 先测控制器:编写一个FPGA内部的测试状态机,绕过CPU,直接对SDRAM控制器进行连续的“写-读-比较”测试。如果这个测试都失败,问题肯定在SDRAM控制器或PCB硬件上。
- 再测总线:如果控制器自测通过,再用SignalTap II抓取CPU发起读写请求时,仲裁器、总线以及SDRAM控制器接口上的所有信号。检查地址、数据、控制信号在传输过程中是否有错位或延迟不匹配。
- 检查时序约束:在Quartus中检查SDRAM时钟和相关IO的时序约束是否正确添加。不正确的约束会导致综合布线后的时序不满足,在高速下出现随机错误。
问题三:双核同时高强度访问共享资源时,系统卡死。
- 排查:可能是总线仲裁器逻辑有缺陷,在特定请求序列下进入了死锁状态。或者SDRAM控制器的刷新逻辑没有处理好,在刷新周期内没有正确响应仲裁器的请求释放。
- 技巧:在仲裁器和SDRAM控制器中增加超时机制。如果某个主设备占用总线超过一定时间(如1024个时钟周期),强制释放总线授权。同时,在SignalTap中设置触发条件,抓取系统卡死前一瞬间的总线状态和状态机,这是定位死锁问题的关键。
问题四:通过UART输出乱码。
- 排查:
- 检查波特率生成器的分频系数计算是否正确。
BAUD_DIVISOR = System_CLK / (Desired_BAUD * 16)。 - 用示波器测量UART TX引脚的实际波形,测量一个位的时间宽度,反推实际波特率。
- 检查FPGA工程中为UART模块和CPU模块分配的时钟是否同源且频率正确,跨时钟域的数据(如CPU要发送的数据)是否通过了FIFO或同步器正确处理。
- 检查波特率生成器的分频系数计算是否正确。
个人体会:FPGA项目的调试,七分靠设计(预先考虑周全),三分靠工具(逻辑分析仪、示波器)。在编写每一段关键代码(如状态机、仲裁器、跨时钟域模块)时,就要同步思考“这部分我该如何观测和调试?”。提前在代码里埋设一些调试用的计数器或状态输出信号,会比出了问题再回头加要高效得多。对于这种多核系统,采用“分而治之,逐步集成”的策略至关重要:先确保每个CPU子系统独立工作,再集成共享总线和仲裁器,最后进行双核协同测试。
