韬定律:多层电子系统的时间缩放理论,以及3D芯体设想
摘要
六十年来,摩尔定律主导的几何尺寸缩放推动了半导体行业进步。如今这一行业共识已不再成立:单纯缩小尺寸的收益趋于平缓,先进芯片设计成本单颗超10亿美元,最先进工艺节点的单晶体管成本不再下降。本文提出新一代缩放原理——τ缩放,以时间而非晶体管面积作为核心进步指标,将单一特征时间常数τ作为全栈统一优化目标,覆盖从开关晶体管到数据中心业务的12个数量级时间跨度。文中展示两项量产级验证:在移动SoC上,逻辑折叠(LogicFolding)技术将数字、模拟与存储电路垂直分层堆叠,在固定工艺节点下实现晶体管密度跃升55%、能效提升41%;在AI系统中,由内存语义统一总线、近封装Hi-ONE光I/O与全栈3D折叠构成的协同设计方案,预计到2035年可实现硬件集成度提升超100倍。本文核心方法论主张:τ缩放是自德纳尔德缩放以来,首个为全计算栈确立统一优化目标的缩放原理。
引言
自20世纪60年代中期以来,半导体行业一直以纳米为单位衡量技术进步。每18个月,晶体管尺寸缩小、频率提升、单逻辑门成本下降。摩尔定律既是经验规律,也成为支撑整个计算栈的行业共识。如今这一共识已失效。7纳米以下工艺节点,几何尺寸缩放无法再带来历史级收益。光刻工艺逼近物理极限,极紫外光刻(EUV)折旧成本主导晶圆成本,单晶体管价格曲线趋于平缓,部分场景甚至回升。对于先进光刻设备获取受限的企业,这一约束更早显现且影响更显著。
行业核心问题已转变:不再是“晶体管还能缩多小”,而是**“应该缩放什么、以什么为目标?”**
过去六年,华为半导体团队基于手机SoC、AI加速器、系统互联与封装技术开展硅基验证研究。结论是:答案不在于新工艺节点或新晶体管架构,而在于核心优化目标的转变。本文提出,未来十年电子系统演进应遵循时间缩放而非几何尺寸缩放——在全栈各层级系统性降低单一特征时间常数τ,覆盖皮秒级晶体管开关到秒级数据中心业务响应的全时间尺度。
本文基于2020年5月至2026年5月间381款量产芯片的工程经验,系统阐述τ缩放的科学原理与产业路线图。
1. 几何时代的终结
半导体行业发展史上,核心任务长期只有一个:把晶体管做小。1965年戈登·摩尔提出晶体管密度约每两年翻倍的规律,十年后罗伯特·德纳尔德提出缩放理论,证明电压与尺寸等比例缩小可维持恒定电场。几何缩放与德纳尔德缩放结合,近五十年持续带来每瓦性能、每美元性能的指数级提升。
这一体系分两步瓦解:2005年前后,德纳尔德缩放率先失效,电压不再随特征尺寸等比例缩小,暗硅时代来临。几何缩放依托鳍式场效应晶体管(FinFET)、环绕栅极(GAA)晶体管架构延续更久。但7纳米以下,纯尺寸缩放收益大幅衰减。核心原因已被广泛证实:
- 速度饱和使本征延迟与沟道长度的依赖关系从二次变为线性;
- 局部互联寄生电阻、电容占标准单元延迟比例持续攀升;
- 掩模成本、EUV折旧、设计规则复杂度推高2纳米节点单芯片设计成本至10亿美元以上。
经济后果同样明确:先进工艺节点单晶体管成本趋平,前沿工艺成本甚至上升。支撑行业半个世纪的“每代更多晶体管、更低成本”共识已不复存在。
对华为半导体而言,这一转型叠加额外约束:先进光刻设备获取受限。依赖下一代工艺解决问题已不可行。六年前,几何路线图陷入停滞,倒逼行业直面一个根本性问题——如今全行业终将共同面对。
2. 时间而非空间:摩尔时代的真正核心
从终端用户体验看,摩尔定律本质从未关乎几何尺寸。更小晶体管提升性能,是因为开关更快;更密集互联提升性能,是因为信号传输距离更短;更高集成度提升性能,是因为数据跨域更少。每代技术本质上都在压缩时间:器件层从皮秒到纳秒,芯片层从纳秒到微秒,系统层从微秒到秒。空间缩放只是压缩时间的手段。
认清这一点后,清晰的重构路径浮现:将时间本身作为核心指标。在晶体管、电路、芯片、系统各层级定义特征时间常数τ,以τ降低作为全栈统一优化目标。几何缩放成为降低τ的技术手段之一,而非唯一手段。
这一原理被命名为τ缩放,作为摩尔几何缩放的继任者,引领半导体行业演进。
形式化定义:τ为分层结构,可分解为
[τ = f(τ_{晶体管}, τ_{电路}, τ_{芯片}, τ_{系统})]
其中(τ_{晶体管})、(τ_{电路})、(τ_{芯片})、(τ_{系统})分别代表晶体管、电路、芯片、系统层级的时间常数。每一层级τ由下层τ与本层组织、通信开销共同构成。τ的工作空间覆盖约12个时间数量级(皮秒到秒)与相当的空间跨度(纳米到千米)。各层级降低τ的核心路径:
- 晶体管:本征开关延迟,通过迁移率增强、应变工程、高κ/金属栅、GAA架构优化,更关键的是降低局部互联寄生电阻电容(当前已超本征渡越时间数倍)。
- 电路:信号路径RC传输延迟,通过低阻导体、低κ介质优化,最关键的是垂直集成缩短连线长度。
- 芯片:计算与访存延迟,通过架构选择、流水线深度、存储层级、片上互联优化。
- 系统:端到端消息与同步时间,通过互联拓扑、协议栈、互联架构设计优化。
分层公式推导出实用代际规则:
[τ_{n+1}=\frac{τ_n}{α}]
缩放因子α随应用场景变化,非通用常数。量产经验显示:
- 功耗受限移动设备:α≈1.3倍/年
- 安全关键自动驾驶系统:α≈1.5倍/年
- AI业务:吞吐量直接转化为经济价值,α最高达10倍/年
τ成为有效核心指标的关键:全栈统一度量。频率、延迟、带宽、吞吐量均由对应层级τ决定。工艺工程师、电路设计师、系统架构师可使用同一单位讨论同一指标。τ是实现全栈协同优化的通用语言——各层独立优化、时序作为残余结果的时代已结束。
3. 逻辑折叠:移动SoC验证案例
τ缩放的首个量产级验证在移动终端开展。智能手机SoC是单芯片构成完整系统的典型场景:无多插槽并行,无千节点集群掩盖低速链路,所有用户体验性能均来自单颗芯片,功耗仅数瓦,受手持形态热限制约束。
2020年后先进工艺获取受限,核心问题变为:固定工艺节点下,如何持续实现代际提升?
答案是:逻辑折叠(LogicFolding)。
定义
逻辑折叠是遵循时间缩放原理,将数字、模拟、存储电路垂直分层堆叠,协同优化性能、功耗、面积的设计方法。
数字电路分为组合逻辑(寄存器间布尔网络)与时序逻辑(锁存状态触发器)。数字系统性能上限由相邻触发器级间关键路径延迟决定,核心受路径上互联RC与门数量影响。传统优化将门电路平面布局,连线在上方金属层布线;连线越长,寄生RC越大,关键路径越慢。
逻辑折叠打破平面假设:将关键路径门电路分布到两层(未来更多层)垂直堆叠有源层,通过超细间距混合键合连接。对电路设计师而言,两层如同单一连续fabric,单元跨晶圆边界分布,等效于新增一层金属层。信号连线大幅缩短、寄生RC急剧下降、时钟偏斜收紧,同工艺节点下芯片可运行在更高主频。
为充分释放逻辑折叠收益,混合键合间距与顶层金属间距的传动比需控制在较低水平(实际约低于3),比值越低效果越好。当前顶层金属间距约720纳米,对应混合键合间距需低于2微米;理想传动比约1,键合接口的笼式布线开销基本消失。实现这一间距、叠加套准精度(<0.5微米)、TSV缩放(CD与KOZ小于1.5微米,间距小于6微米)、良率(智能冗余下接近100%),需要产业链多年协同工艺开发。
在麒麟2026芯片上实测成果明确:
- 晶体管密度单代从155跃升至238百万晶体管/平方毫米(按公式(\frac{2}{CPP×单元高度})计算,麒麟SoC设计面积利用率68%),提升幅度相当于过去三年几何缩放总和;
- SoC性能核能效提升41%,最高主频提升近13%;
- 跨上下层高速全局片上网络(NoC)数据通路使数据通路面积减少55%,供电稳定性提升;
- 硅后时钟偏斜调整方案独立贡献超5%的SoC性能;
- SRAM中,逻辑折叠缩短关键路径、降低单比特能耗,工作频率提升超40%;
- 典型处理核中,双层折叠架构使时钟缓冲器数量减少超50%、时钟偏斜降低25%、连线长度减少约30%。
所有提升均在固定工艺节点实现,不靠新工艺光刻,而是通过逻辑空间分布的三维拓扑重构达成。
麒麟2026搭载的逻辑折叠方案为保守设计:混合键合间距达1.5微米;TSV引出仅向下推进一层金属;折叠仅选择性应用于关键路径,而非全设计。即便如此,CPU性能核主频今年回归3.1GHz。
未来十年,逻辑折叠将从局部关键路径折叠演进为全栈多层折叠(单封装3层、4层及更多有源层),依托低温混合键合(放宽层间热预算)、TSV引出从顶层金属下移至M6层(释放超30%高层布线资源)实现。2026至2035年,晶体管密度预计突破400百万晶体管/平方毫米。同时,逻辑折叠助力麒麟CPU性能核主频持续攀升,迈向4GHz及以上(见表1)。该路线图技术可行、成本经济。
表1 麒麟CPU性能核工作频率趋势
| 年份 | SoC型号 | 架构 | 主频(GHz) | 状态 |
|---|---|---|---|---|
| 2023 | 麒麟9000S | 平面 | 2.6 | 量产 |
| 2024 | 麒麟9020 | 平面 | 2.65 | 量产 |
| 2025 | 麒麟9030 pro | 平面 | 2.75 | 量产 |
| 2026 | 麒麟2026 | 逻辑折叠 | 3.1 | 流片 |
| 2027 | 麒麟2027 | 逻辑折叠 | 3.39 | 流片 |
| 2028 | 麒麟2028 | 逻辑折叠 | 3.71 | 预流片 |
| 2029 | 麒麟2029 | 逻辑折叠 | 4 | 预流片 |
附注A:逻辑折叠核心指标
- 混合键合间距:低于2微米(麒麟2026为1.5微米;目标传动比≈1)
- 套准精度:低于0.5微米
- TSV CD/KOZ:低于1.5微米;间距低于6微米;失效率<100ppm;修复率99.9%
- 良率:智能冗余下接近100%
- 晶体管密度:155→238百万晶体管/平方毫米 单代跃升
- SoC性能核能效/主频增益:+41%/+13%
- SRAM工作频率:+40%以上
- 典型核时钟缓冲器数量/时钟偏斜/连线长度:-50%/-25%/-30%
4. 从皮秒到微秒:AI数据中心的τ缩放
自然疑问:毫瓦级手机场景的原理,能否适配吉瓦级AI训练与推理场景?AI业务处于τ尺度另一端:非单芯片,而是成百上千芯片协同工作,过去十年总计算量提升约六个数量级。答案是肯定的——只要将τ作为系统级目标,贯穿全链路而非仅单加速器内部。
AI侧τ缩放基于两个核心事实:
- AI系统持续扩容:从单芯片到数十、数百、乃至数万芯片;
- 现代AI系统的能耗与材料成本由数据主导而非计算。大型AI集群超80%能耗用于数据搬运,超70%系统成本用于数据存储。
直接结论:降低数据传输耗时(芯片间、机架间、封装内)与降低计算耗时同等重要。
τ缩放通过三层协同技术在AI规模落地:系统互联(统一总线)、近封装光引擎(Hi-ONE)、封装拓扑重构(3D折叠)。
4.1 统一总线:以τ为核心的系统互联
传统多节点、多加速器架构通过多层协议搬运数据:主机端PCIe、机箱内NVLink/私有互联、机箱间以太网/InfiniBand、上层软件栈远程访存。每层均需协议转换、额外串行化、DMA缓冲、握手交互。每次转换增加延迟、降低可靠性、提升成本。
统一总线(UB)用单一协议替代全栈,机箱内外统一运行:全对等点对点互联,原生暴露内存语义,覆盖全系统。数据搬运简化为无转换、点对点内存语义层传输,硬件管理一致性替代软件栈消息传递。
实测收益约两个数量级:端到端远程访存延迟从TCP/IP栈典型数十微秒降至约100纳秒,核心通信链路系统τ降低约500倍。机架级尺度下,系统逼近单一互联一致性机器,内部命名为片上化系统(System-as-One-Chip)。
4.2 Hi-ONE:封装级光I/O
通信延迟降低后,下一瓶颈显现。单机架芯片密度提升推高功耗密度与可靠性极限,电串行器/解串器(SerDes)也达瓶颈。单AI芯片400Gb/s速率下,铜缆成熟可靠;单芯片数太比特(Tb/s)速率下,铜缆物理不可行:SerDes传输距离缩短、线缆体积过大、面板安装困难、热与供电余量耗尽。
华为半导体研发高密度光互联节点引擎(Hi-ONE):近封装光引擎,单模块8Tb/s带宽,单条光链路匹配AI芯片统一总线带宽。将SerDes所需传输距离从约100厘米降至约5厘米,取消大体积线缆,传输距离从1米内扩展至100米,让吉瓦级分布式数据中心高密度互联物理可行。
Hi-ONE设计哲学本身遵循τ缩放:放弃高信号保真度的重型数字信号处理器(DSP),采用线性方案(模拟均衡增强驱动器与跨阻放大器),允许统一总线协议容忍适度放宽的误码率。协议层与物理层跨层权衡降低功耗、成本、集成复杂度,是τ优先方法论的典型体现。
4.3 N²与N的困境:3D折叠的必然性
AI加速器不局限于2.5D扇出的深层原因是几何特性,直接决定2030年后路线图,需明确阐述。
传统2.5D AI芯片中,逻辑裸芯位于封装中心,高带宽内存(HBM)与SerDes排布在边缘,稳压器环绕封装。所有内存信号、互联信号、供电电流必须穿过裸芯边缘到达内部计算资源。若裸芯边长为N:
- 计算能力随N²(面积)缩放;
- 内存带宽、互联、供电(均沿边缘2.5D扇出)仅随N(周长)缩放。
二次与线性曲线的持续背离构成扇出困境,导致2.5D缩放停滞,与底层逻辑工艺先进性无关。晶体管级改进无法弥补拓扑缺陷。
3D折叠破解困境:将边缘绑定资源迁移至垂直表面。供电(背面供电与集成稳压器)、高速内存(逻辑混合键合)、光I/O(近封装Hi-ONE)均从边缘迁移至垂直表面;部署在表面后,可按N²缩放,与计算二次增速匹配。封装不再是逻辑裸芯被内存与SerDes环绕的结构,而是逻辑、内存、互联、供电协同缩放的垂直集成栈。
路线图明确时间节点:
- 2030年前,昇腾SuperPoD系列(2025年昇腾910C、2026年昇腾950、后续昇腾990)采用成熟技术组合:小芯片、2.5D扇出、微凸块与标准间距混合键合3D堆叠;
- 2030年前后,昇腾990将逻辑折叠引入AI加速器品类,此后3D折叠成为2035年前α缩放核心载体。
沿此路径,到2035年硬件集成度预计提升超100倍,τ降低分布于全栈各层,而非集中在器件层。
附注B:AI系统级τ核心指标
- 统一总线远程访存延迟:数十微秒→约100纳秒(τ降低约500倍)
- Hi-ONE单模块带宽:8Tb/s(匹配单芯片统一总线带宽)
- Hi-ONE SerDes传输距离:约100厘米→约5厘米;面板间传输距离:<1米→100米
- 扇出困境:计算N²,边缘绑定带宽/I/O/供电∝N
- 3D折叠:将带宽、光I/O、供电从边缘迁移至表面,恢复N²匹配
- 2026→2035年硬件集成度预计增长:>100倍
5. 逻辑与内存:从解耦到再融合
τ缩放的一项影响需单独讨论,因其兼具技术与产业意义。
8086时代,行业通过标准化内存总线刻意解耦处理器与内存。这一解耦让两大产业独立缩放:处理器性能沿摩尔曲线快速提升,内存厂商同步发展出庞大独立市场。
AI时代正在逆转这一解耦。计算密度持续扩张,将内存带宽、延迟、功耗、封装推向极限。HBM、混合键合、3D堆叠SRAM均指向同一事实:对现代AI业务,数据搬运与计算同等重要,逻辑与内存再次走向紧密物理集成。二者融合过程中,供应链影响力向内存与封装厂商倾斜。
技术方向明确,但经济格局尚未定型。AI硬件时代的长期成功,属于能在技术上融合逻辑与内存、并建立长期共享收益经济合作模式的主体。这不仅是研发问题,更是行业未来十年需解决的结构性问题。τ缩放让每一次解耦的跨层成本清晰可见,问题无法再拖延。
6. 开放挑战
将τ缩放描述为完整体系并不客观。多项关键问题仍待解决,本文明确列出以展示在研方向并邀请产业协同。
工具链与方法论
现有电子设计自动化(EDA)工具面向面积、时序、功耗独立优化的时代,系统τ为残余结果。全规模逻辑折叠要求工具链将多层堆叠裸芯视为单一连续设计实体:以单元级而非模块级划分逻辑,在统一成本函数下全空间布局,跨裸芯路径时序收敛——垂直互联寄生、禁布区(KOZ)、晶圆间工艺偏差的交互是传统二维工具无法充分处理的。内部已开发初步工具并取得有效结果,方法论细节将在未来数月公布。原生τ工具链(开放、多物理场、三维原生)是未来十年最重要的支撑性投入。
晶圆间工艺偏差
逻辑折叠键合的晶圆可能来自不同批次,甚至不同工艺节点。晶圆间阈值电压、驱动电流、互联RC偏差显著大于片内偏差,对时钟分配与保持时间裕量影响最大。智能冗余、自适应补偿、τ感知签核流程是必要应对手段。
垂直互联开销
每次混合键合与TSV均带来有限电阻电容损耗,TSV禁布区挤占标准单元。逻辑折叠需逐层满足简单不等式验证合理性:
[τ_{收益(有效硅面积+连线长度缩减)} > τ_{损耗(垂直互联RC)}]
移动关键路径与内存场景已突破该阈值;阈值随业务场景变化,边界随键合间距缩小持续迁移。
能耗
τ是时间法则,非能量法则。超节点速度提升10倍但功耗增加10倍,不违反缩放原理,却超出电网承载能力。因此τ缩放需配套能耗方案:
- 消除栈开销的内存语义互联;
- 将每比特功耗降低数个数量级的近/共封装光学;
- 背面供电、存内/近存计算;
- 将τ余量转化为功耗余量的严谨实践(数据中心级动态电压频率调节——与手机续航技术同源)。
重要的是:τ余量本身可定向转化为能耗余量。
基准测试
行业现有性能基准(Linpack、MLPerf、SPEC)面向单标量度量业务的时代。τ缩放行业需要τ剖面基准:暴露系统各层主导τ与剩余余量的向量指标。主导τ层级即为下一阶段投入重点。
7. 六年实践,十年展望
2020年5月至2026年5月,华为半导体面向移动、AI、汽车、工业、基础设施市场,设计并量产381款芯片。全产品组合验证τ缩放理论成立:
- 器件与电路层:晶体管密度从155向2031年400+百万晶体管/平方毫米迈进;
- 芯片层:逻辑折叠在旗舰移动SoC上证明,固定工艺节点下关键路径主频、能效、密度可持续提升;
- 系统层:统一总线与Hi-ONE证明,数百微秒通信τ可压缩至数百纳秒,多机架AI集群可等效为单一一致性机器;
- 未来展望:2029年CPU性能核主频迈向4GHz及以上;典型场景下麒麟SoC能效三到五年预计翻倍;2035年AI硬件集成度预计增长超100倍。
超越单一产品的核心主张是方法论:τ缩放是自德纳尔德缩放以来,首个为全栈提供统一优化目标的缩放原理。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队明确:全行业正以同一单位优化同一指标,单一层级提升必须传导至系统τ才算有效。它也向行业战略与资本方指明:下一美元应投向τ而非工艺节点——竞争力不再依赖持续领跑光刻前沿,封装、内存带宽、互联设计已具备此前仅前沿逻辑工艺才有的战略权重。
对接受“摩尔定律即进步”教育的一代工程师而言,这是艰难转型。几何时代确已终结,否认并非可行策略。依靠微型化加速的时代,正让位于多层电子系统τ优化加速的时代。未来六到十年采纳τ作为核心目标的企业、研发机构与生态,将定义下一个十年的计算格局。
未来十年工作方向已明确,仍有大量开放问题待解,无单一机构可独立应对——工具链、标准、基准、器件物理、经济模型均需跨界协同。本文既是一线实践报告,也是产业合作邀请。
前路挑战艰巨,但方向清晰无疑。
作者
何庭波,华为半导体业务负责人。其带领团队2020至2026年面向移动、AI、汽车、基础设施市场设计并量产381款芯片,是τ缩放方法论与逻辑折叠、统一总线、Hi-ONE技术的提出与研发主体。
致谢
本文基于华为半导体及晶圆、设备、EDA、系统合作伙伴生态数千工程师六年工作成果。感谢客户的耐心支持,使本研究得以开展。
原文地址:https://chinaxiv.org/abs/202605.00224
3D芯体设想
传统摩尔定律时代的芯片,是典型的二维平面芯体。行业数十年的研发、设计、制造、封装体系,均建立在平面硅基工艺之上:晶体管、逻辑电路、存储单元、互联走线全部平铺于单晶硅片表层,芯片的性能上限、密度上限、延迟上限,始终被平面几何尺寸、边缘扇出距离、二维布线寄生参数牢牢束缚。无论FinFET、GAA等晶体管架构如何迭代,本质都是在平面空间内压缩器件尺寸,无法突破二维结构与生俱来的物理与拓扑瓶颈,这也是几何缩放逐步失效、先进工艺收益持续衰减的核心物理根源之一。
基于τ缩放全栈时间优化原理与逻辑折叠、3D垂直集成技术,未来取代平面芯片的下一代核心形态,是全立体3D芯体。3D芯体彻底打破传统芯片的平面设计范式,摒弃“二维平铺、边缘扇出、分层布线”的固有架构,以垂直堆叠为核心形态,将晶体管、逻辑电路、存储阵列、供电模块、光互联引擎、互联总线等全栈硬件资源,从平面延展转向立体纵深融合,构建起上下贯通、层间协同、全链路短路径的三维集成芯体结构,完美适配全层级τ值持续压缩的核心目标。
从外观形态来看,传统芯片是薄型平面薄片,长宽尺寸远大于厚度,核心算力、存储、互联资源全部集中于正面表层,背面仅作为承载基底,无有效功能布局;而3D芯体是规整立体集成结构体,厚度不再是可忽略的物理参数,而是核心算力扩容、延迟压缩、集成度提升的关键维度。芯体不再区分单一功能正面与空白背面,整体为多层有源硅基层垂直堆叠的一体化立体模块,外形规整、集成度均匀,彻底摆脱平面芯片“面积受限、边缘瓶颈、资源失衡”的形态缺陷。
从内部架构重构来看,3D芯体实现了四大核心资源的立体重构,彻底解决传统二维芯片的结构性短板。其一,逻辑-存储垂直融合,打破传统芯片逻辑区与存储区平面分区、长距离走线的模式,将数字逻辑、模拟电路、SRAM、高带宽存储逐层垂直堆叠,通过超细间距混合键合实现层间高速互联,大幅缩短计算与访存路径,极致压缩电路层、芯片层τ值,解决AI场景下数据搬运滞后的核心痛点。其二,算力资源立体扩容,不再依赖平面尺寸缩放提升晶体管密度,通过多层有源层堆叠实现单位体积内晶体管数量指数级增长,摆脱先进光刻工艺限制,在固定工艺节点下持续实现算力迭代升级,完美延续逻辑折叠技术的量产优势。
其三,供电与散热立体适配,针对三维堆叠带来的功耗与热管理问题,3D芯体集成背面供电、层间集成稳压器结构,将供电资源从传统平面边缘环绕布局,升级为立体全域供电,解决二维芯片供电随周长缩放的N级瓶颈,匹配算力N²级增长需求;同时依托垂直层间散热通道,优化高密度堆叠下的热扩散效率,解决立体集成的热约束难题,保障芯体高负载稳定运行。其四,互联系统立体全覆盖,将Hi-ONE近封装光I/O、统一总线架构嵌入芯体垂直表层与层间,摒弃传统边缘SerDes、线缆互联模式,实现芯体内部层间、芯片间、机架间的全链路高速低延迟传输,让单颗3D芯体成为全域一致性的微型计算集群,落地“片上化系统”的设计理念。
从τ缩放核心价值来看,3D芯体是时间优化的终极物理载体。传统平面芯片的所有优化,都是在二维空间内被动缩短路径、降低延迟,τ值压缩存在天然上限;而3D芯体通过立体拓扑重构,从物理底层缩短晶体管开关、电路传输、芯片访存、系统互联的全层级路径,实现皮秒到秒12个数量级时间尺度的全域τ值优化。移动终端场景下,3D芯体可进一步放大逻辑折叠的能效、主频、密度优势,持续推动麒麟系列SoC主频突破4GHz,实现能效逐年迭代升级;AI数据中心场景下,3D芯体彻底破解2.5D封装的扇出困境,让带宽、互联、供电资源与算力同步二次缩放,支撑2035年硬件集成度超100倍的跃升目标。
从未来演进路线来看,3D芯体将从当前局部双层逻辑折叠,逐步迭代为全栈多层一体化立体芯体。未来十年,通过低温混合键合、TSV深度缩放、三维EDA工具链适配、晶圆偏差自适应补偿等技术迭代,3D芯体将实现3层、4层乃至更多有源层的稳定堆叠,完成逻辑、存储、供电、光互联、散热的全维度立体融合。最终彻底终结依赖几何尺寸缩放的芯片迭代模式,形成以3D立体芯体为硬件核心、以τ缩放为统一优化准则的下一代半导体产业技术体系,成为后摩尔时代半导体与计算系统演进的核心形态。
目前芯片层数(豆包)
截至2026年5月,“芯片有多少层”要看是存储芯片(3D NAND)、高带宽内存(HBM)还是逻辑芯片(CPU/GPU),三者差别非常大:
一、3D NAND 闪存(最“多层”的芯片)
- SK海力士:321层(已发布,2026年上半年量产)
- 三星:290层(第9代V-NAND,已量产)
- 长江存储:294层(Xtacking双晶圆堆叠,等效294层,已量产)
- 美光:276层
- 铠侠(原东芝):218层
趋势:2025–2026年主流进入300层+,2030年目标1000层。
二、HBM 高带宽内存(AI 常用堆叠内存)
- HBM3E:12层(已量产,用于AI GPU)
- HBM4:16层(研发中,预计2026年底供货)
三、逻辑芯片(CPU/GPU,“层”概念不同)
这里的“层”不是垂直堆叠的存储层,而是金属互连层 + 晶体管层:
- 先进制程(3nm/2nm):10–15层金属互连+ 晶体管层(1–2层)
- 3D 堆叠逻辑(如华为“韬定律”、台积电SoIC):2–4层芯片堆叠(上下叠放)
一句话总结
- 存储芯片(3D NAND):200–321层(2026年量产)
- AI 内存(HBM):12–16层
- CPU/GPU:10–15层金属 + 1–4层堆叠
