当前位置: 首页 > news >正文

韬定律:多层电子系统的时间缩放理论,以及3D芯体设想

摘要

六十年来,摩尔定律主导的几何尺寸缩放推动了半导体行业进步。如今这一行业共识已不再成立:单纯缩小尺寸的收益趋于平缓,先进芯片设计成本单颗超10亿美元,最先进工艺节点的单晶体管成本不再下降。本文提出新一代缩放原理——τ缩放,以时间而非晶体管面积作为核心进步指标,将单一特征时间常数τ作为全栈统一优化目标,覆盖从开关晶体管到数据中心业务的12个数量级时间跨度。文中展示两项量产级验证:在移动SoC上,逻辑折叠(LogicFolding)技术将数字、模拟与存储电路垂直分层堆叠,在固定工艺节点下实现晶体管密度跃升55%、能效提升41%;在AI系统中,由内存语义统一总线、近封装Hi-ONE光I/O与全栈3D折叠构成的协同设计方案,预计到2035年可实现硬件集成度提升超100倍。本文核心方法论主张:τ缩放是自德纳尔德缩放以来,首个为全计算栈确立统一优化目标的缩放原理。

引言

自20世纪60年代中期以来,半导体行业一直以纳米为单位衡量技术进步。每18个月,晶体管尺寸缩小、频率提升、单逻辑门成本下降。摩尔定律既是经验规律,也成为支撑整个计算栈的行业共识。如今这一共识已失效。7纳米以下工艺节点,几何尺寸缩放无法再带来历史级收益。光刻工艺逼近物理极限,极紫外光刻(EUV)折旧成本主导晶圆成本,单晶体管价格曲线趋于平缓,部分场景甚至回升。对于先进光刻设备获取受限的企业,这一约束更早显现且影响更显著。

行业核心问题已转变:不再是“晶体管还能缩多小”,而是**“应该缩放什么、以什么为目标?”**

过去六年,华为半导体团队基于手机SoC、AI加速器、系统互联与封装技术开展硅基验证研究。结论是:答案不在于新工艺节点或新晶体管架构,而在于核心优化目标的转变。本文提出,未来十年电子系统演进应遵循时间缩放而非几何尺寸缩放——在全栈各层级系统性降低单一特征时间常数τ,覆盖皮秒级晶体管开关到秒级数据中心业务响应的全时间尺度。

本文基于2020年5月至2026年5月间381款量产芯片的工程经验,系统阐述τ缩放的科学原理与产业路线图。


1. 几何时代的终结

半导体行业发展史上,核心任务长期只有一个:把晶体管做小。1965年戈登·摩尔提出晶体管密度约每两年翻倍的规律,十年后罗伯特·德纳尔德提出缩放理论,证明电压与尺寸等比例缩小可维持恒定电场。几何缩放与德纳尔德缩放结合,近五十年持续带来每瓦性能、每美元性能的指数级提升。

这一体系分两步瓦解:2005年前后,德纳尔德缩放率先失效,电压不再随特征尺寸等比例缩小,暗硅时代来临。几何缩放依托鳍式场效应晶体管(FinFET)、环绕栅极(GAA)晶体管架构延续更久。但7纳米以下,纯尺寸缩放收益大幅衰减。核心原因已被广泛证实:

  • 速度饱和使本征延迟与沟道长度的依赖关系从二次变为线性;
  • 局部互联寄生电阻、电容占标准单元延迟比例持续攀升;
  • 掩模成本、EUV折旧、设计规则复杂度推高2纳米节点单芯片设计成本至10亿美元以上。

经济后果同样明确:先进工艺节点单晶体管成本趋平,前沿工艺成本甚至上升。支撑行业半个世纪的“每代更多晶体管、更低成本”共识已不复存在。

对华为半导体而言,这一转型叠加额外约束:先进光刻设备获取受限。依赖下一代工艺解决问题已不可行。六年前,几何路线图陷入停滞,倒逼行业直面一个根本性问题——如今全行业终将共同面对。


2. 时间而非空间:摩尔时代的真正核心

从终端用户体验看,摩尔定律本质从未关乎几何尺寸。更小晶体管提升性能,是因为开关更快;更密集互联提升性能,是因为信号传输距离更短;更高集成度提升性能,是因为数据跨域更少。每代技术本质上都在压缩时间:器件层从皮秒到纳秒,芯片层从纳秒到微秒,系统层从微秒到秒。空间缩放只是压缩时间的手段。

认清这一点后,清晰的重构路径浮现:将时间本身作为核心指标。在晶体管、电路、芯片、系统各层级定义特征时间常数τ,以τ降低作为全栈统一优化目标。几何缩放成为降低τ的技术手段之一,而非唯一手段。

这一原理被命名为τ缩放,作为摩尔几何缩放的继任者,引领半导体行业演进。
形式化定义:τ为分层结构,可分解为
[τ = f(τ_{晶体管}, τ_{电路}, τ_{芯片}, τ_{系统})]
其中(τ_{晶体管})、(τ_{电路})、(τ_{芯片})、(τ_{系统})分别代表晶体管、电路、芯片、系统层级的时间常数。每一层级τ由下层τ与本层组织、通信开销共同构成。τ的工作空间覆盖约12个时间数量级(皮秒到秒)与相当的空间跨度(纳米到千米)。各层级降低τ的核心路径:

  • 晶体管:本征开关延迟,通过迁移率增强、应变工程、高κ/金属栅、GAA架构优化,更关键的是降低局部互联寄生电阻电容(当前已超本征渡越时间数倍)。
  • 电路:信号路径RC传输延迟,通过低阻导体、低κ介质优化,最关键的是垂直集成缩短连线长度
  • 芯片:计算与访存延迟,通过架构选择、流水线深度、存储层级、片上互联优化。
  • 系统:端到端消息与同步时间,通过互联拓扑、协议栈、互联架构设计优化。

分层公式推导出实用代际规则:
[τ_{n+1}=\frac{τ_n}{α}]
缩放因子α随应用场景变化,非通用常数。量产经验显示:

  • 功耗受限移动设备:α≈1.3倍/年
  • 安全关键自动驾驶系统:α≈1.5倍/年
  • AI业务:吞吐量直接转化为经济价值,α最高达10倍/年

τ成为有效核心指标的关键:全栈统一度量。频率、延迟、带宽、吞吐量均由对应层级τ决定。工艺工程师、电路设计师、系统架构师可使用同一单位讨论同一指标。τ是实现全栈协同优化的通用语言——各层独立优化、时序作为残余结果的时代已结束。


3. 逻辑折叠:移动SoC验证案例

τ缩放的首个量产级验证在移动终端开展。智能手机SoC是单芯片构成完整系统的典型场景:无多插槽并行,无千节点集群掩盖低速链路,所有用户体验性能均来自单颗芯片,功耗仅数瓦,受手持形态热限制约束。

2020年后先进工艺获取受限,核心问题变为:固定工艺节点下,如何持续实现代际提升?

答案是:逻辑折叠(LogicFolding)

定义

逻辑折叠是遵循时间缩放原理,将数字、模拟、存储电路垂直分层堆叠,协同优化性能、功耗、面积的设计方法。

数字电路分为组合逻辑(寄存器间布尔网络)与时序逻辑(锁存状态触发器)。数字系统性能上限由相邻触发器级间关键路径延迟决定,核心受路径上互联RC与门数量影响。传统优化将门电路平面布局,连线在上方金属层布线;连线越长,寄生RC越大,关键路径越慢。

逻辑折叠打破平面假设:将关键路径门电路分布到两层(未来更多层)垂直堆叠有源层,通过超细间距混合键合连接。对电路设计师而言,两层如同单一连续fabric,单元跨晶圆边界分布,等效于新增一层金属层。信号连线大幅缩短、寄生RC急剧下降、时钟偏斜收紧,同工艺节点下芯片可运行在更高主频

为充分释放逻辑折叠收益,混合键合间距与顶层金属间距的传动比需控制在较低水平(实际约低于3),比值越低效果越好。当前顶层金属间距约720纳米,对应混合键合间距需低于2微米;理想传动比约1,键合接口的笼式布线开销基本消失。实现这一间距、叠加套准精度(<0.5微米)、TSV缩放(CD与KOZ小于1.5微米,间距小于6微米)、良率(智能冗余下接近100%),需要产业链多年协同工艺开发。

在麒麟2026芯片上实测成果明确:

  • 晶体管密度单代从155跃升至238百万晶体管/平方毫米(按公式(\frac{2}{CPP×单元高度})计算,麒麟SoC设计面积利用率68%),提升幅度相当于过去三年几何缩放总和;
  • SoC性能核能效提升41%,最高主频提升近13%
  • 跨上下层高速全局片上网络(NoC)数据通路使数据通路面积减少55%,供电稳定性提升;
  • 硅后时钟偏斜调整方案独立贡献超5%的SoC性能;
  • SRAM中,逻辑折叠缩短关键路径、降低单比特能耗,工作频率提升超40%
  • 典型处理核中,双层折叠架构使时钟缓冲器数量减少超50%、时钟偏斜降低25%、连线长度减少约30%。

所有提升均在固定工艺节点实现,不靠新工艺光刻,而是通过逻辑空间分布的三维拓扑重构达成。

麒麟2026搭载的逻辑折叠方案为保守设计:混合键合间距达1.5微米;TSV引出仅向下推进一层金属;折叠仅选择性应用于关键路径,而非全设计。即便如此,CPU性能核主频今年回归3.1GHz

未来十年,逻辑折叠将从局部关键路径折叠演进为全栈多层折叠(单封装3层、4层及更多有源层),依托低温混合键合(放宽层间热预算)、TSV引出从顶层金属下移至M6层(释放超30%高层布线资源)实现。2026至2035年,晶体管密度预计突破400百万晶体管/平方毫米。同时,逻辑折叠助力麒麟CPU性能核主频持续攀升,迈向4GHz及以上(见表1)。该路线图技术可行、成本经济。

表1 麒麟CPU性能核工作频率趋势

年份SoC型号架构主频(GHz)状态
2023麒麟9000S平面2.6量产
2024麒麟9020平面2.65量产
2025麒麟9030 pro平面2.75量产
2026麒麟2026逻辑折叠3.1流片
2027麒麟2027逻辑折叠3.39流片
2028麒麟2028逻辑折叠3.71预流片
2029麒麟2029逻辑折叠4预流片

附注A:逻辑折叠核心指标

  • 混合键合间距:低于2微米(麒麟2026为1.5微米;目标传动比≈1)
  • 套准精度:低于0.5微米
  • TSV CD/KOZ:低于1.5微米;间距低于6微米;失效率<100ppm;修复率99.9%
  • 良率:智能冗余下接近100%
  • 晶体管密度:155→238百万晶体管/平方毫米 单代跃升
  • SoC性能核能效/主频增益:+41%/+13%
  • SRAM工作频率:+40%以上
  • 典型核时钟缓冲器数量/时钟偏斜/连线长度:-50%/-25%/-30%

4. 从皮秒到微秒:AI数据中心的τ缩放

自然疑问:毫瓦级手机场景的原理,能否适配吉瓦级AI训练与推理场景?AI业务处于τ尺度另一端:非单芯片,而是成百上千芯片协同工作,过去十年总计算量提升约六个数量级。答案是肯定的——只要将τ作为系统级目标,贯穿全链路而非仅单加速器内部。

AI侧τ缩放基于两个核心事实:

  1. AI系统持续扩容:从单芯片到数十、数百、乃至数万芯片;
  2. 现代AI系统的能耗与材料成本由数据主导而非计算。大型AI集群超80%能耗用于数据搬运,超70%系统成本用于数据存储。

直接结论:降低数据传输耗时(芯片间、机架间、封装内)与降低计算耗时同等重要

τ缩放通过三层协同技术在AI规模落地:系统互联(统一总线)近封装光引擎(Hi-ONE)封装拓扑重构(3D折叠)

4.1 统一总线:以τ为核心的系统互联

传统多节点、多加速器架构通过多层协议搬运数据:主机端PCIe、机箱内NVLink/私有互联、机箱间以太网/InfiniBand、上层软件栈远程访存。每层均需协议转换、额外串行化、DMA缓冲、握手交互。每次转换增加延迟、降低可靠性、提升成本。

统一总线(UB)用单一协议替代全栈,机箱内外统一运行:全对等点对点互联,原生暴露内存语义,覆盖全系统。数据搬运简化为无转换、点对点内存语义层传输,硬件管理一致性替代软件栈消息传递。

实测收益约两个数量级:端到端远程访存延迟从TCP/IP栈典型数十微秒降至约100纳秒,核心通信链路系统τ降低约500倍。机架级尺度下,系统逼近单一互联一致性机器,内部命名为片上化系统(System-as-One-Chip)

4.2 Hi-ONE:封装级光I/O

通信延迟降低后,下一瓶颈显现。单机架芯片密度提升推高功耗密度与可靠性极限,电串行器/解串器(SerDes)也达瓶颈。单AI芯片400Gb/s速率下,铜缆成熟可靠;单芯片数太比特(Tb/s)速率下,铜缆物理不可行:SerDes传输距离缩短、线缆体积过大、面板安装困难、热与供电余量耗尽。

华为半导体研发高密度光互联节点引擎(Hi-ONE):近封装光引擎,单模块8Tb/s带宽,单条光链路匹配AI芯片统一总线带宽。将SerDes所需传输距离从约100厘米降至约5厘米,取消大体积线缆,传输距离从1米内扩展至100米,让吉瓦级分布式数据中心高密度互联物理可行。

Hi-ONE设计哲学本身遵循τ缩放:放弃高信号保真度的重型数字信号处理器(DSP),采用线性方案(模拟均衡增强驱动器与跨阻放大器),允许统一总线协议容忍适度放宽的误码率。协议层与物理层跨层权衡降低功耗、成本、集成复杂度,是τ优先方法论的典型体现。

4.3 N²与N的困境:3D折叠的必然性

AI加速器不局限于2.5D扇出的深层原因是几何特性,直接决定2030年后路线图,需明确阐述。

传统2.5D AI芯片中,逻辑裸芯位于封装中心,高带宽内存(HBM)与SerDes排布在边缘,稳压器环绕封装。所有内存信号、互联信号、供电电流必须穿过裸芯边缘到达内部计算资源。若裸芯边长为N:

  • 计算能力随N²(面积)缩放;
  • 内存带宽、互联、供电(均沿边缘2.5D扇出)仅随N(周长)缩放。

二次与线性曲线的持续背离构成扇出困境,导致2.5D缩放停滞,与底层逻辑工艺先进性无关。晶体管级改进无法弥补拓扑缺陷。

3D折叠破解困境:将边缘绑定资源迁移至垂直表面。供电(背面供电与集成稳压器)、高速内存(逻辑混合键合)、光I/O(近封装Hi-ONE)均从边缘迁移至垂直表面;部署在表面后,可按缩放,与计算二次增速匹配。封装不再是逻辑裸芯被内存与SerDes环绕的结构,而是逻辑、内存、互联、供电协同缩放的垂直集成栈。

路线图明确时间节点:

  • 2030年前,昇腾SuperPoD系列(2025年昇腾910C、2026年昇腾950、后续昇腾990)采用成熟技术组合:小芯片、2.5D扇出、微凸块与标准间距混合键合3D堆叠;
  • 2030年前后,昇腾990将逻辑折叠引入AI加速器品类,此后3D折叠成为2035年前α缩放核心载体。

沿此路径,到2035年硬件集成度预计提升超100倍,τ降低分布于全栈各层,而非集中在器件层。

附注B:AI系统级τ核心指标

  • 统一总线远程访存延迟:数十微秒→约100纳秒(τ降低约500倍)
  • Hi-ONE单模块带宽:8Tb/s(匹配单芯片统一总线带宽)
  • Hi-ONE SerDes传输距离:约100厘米→约5厘米;面板间传输距离:<1米→100米
  • 扇出困境:计算N²,边缘绑定带宽/I/O/供电∝N
  • 3D折叠:将带宽、光I/O、供电从边缘迁移至表面,恢复N²匹配
  • 2026→2035年硬件集成度预计增长:>100倍

5. 逻辑与内存:从解耦到再融合

τ缩放的一项影响需单独讨论,因其兼具技术与产业意义。

8086时代,行业通过标准化内存总线刻意解耦处理器与内存。这一解耦让两大产业独立缩放:处理器性能沿摩尔曲线快速提升,内存厂商同步发展出庞大独立市场。

AI时代正在逆转这一解耦。计算密度持续扩张,将内存带宽、延迟、功耗、封装推向极限。HBM、混合键合、3D堆叠SRAM均指向同一事实:对现代AI业务,数据搬运与计算同等重要,逻辑与内存再次走向紧密物理集成。二者融合过程中,供应链影响力向内存与封装厂商倾斜。

技术方向明确,但经济格局尚未定型。AI硬件时代的长期成功,属于能在技术上融合逻辑与内存、并建立长期共享收益经济合作模式的主体。这不仅是研发问题,更是行业未来十年需解决的结构性问题。τ缩放让每一次解耦的跨层成本清晰可见,问题无法再拖延。


6. 开放挑战

将τ缩放描述为完整体系并不客观。多项关键问题仍待解决,本文明确列出以展示在研方向并邀请产业协同。

工具链与方法论

现有电子设计自动化(EDA)工具面向面积、时序、功耗独立优化的时代,系统τ为残余结果。全规模逻辑折叠要求工具链将多层堆叠裸芯视为单一连续设计实体:以单元级而非模块级划分逻辑,在统一成本函数下全空间布局,跨裸芯路径时序收敛——垂直互联寄生、禁布区(KOZ)、晶圆间工艺偏差的交互是传统二维工具无法充分处理的。内部已开发初步工具并取得有效结果,方法论细节将在未来数月公布。原生τ工具链(开放、多物理场、三维原生)是未来十年最重要的支撑性投入。

晶圆间工艺偏差

逻辑折叠键合的晶圆可能来自不同批次,甚至不同工艺节点。晶圆间阈值电压、驱动电流、互联RC偏差显著大于片内偏差,对时钟分配与保持时间裕量影响最大。智能冗余、自适应补偿、τ感知签核流程是必要应对手段。

垂直互联开销

每次混合键合与TSV均带来有限电阻电容损耗,TSV禁布区挤占标准单元。逻辑折叠需逐层满足简单不等式验证合理性:
[τ_{收益(有效硅面积+连线长度缩减)} > τ_{损耗(垂直互联RC)}]
移动关键路径与内存场景已突破该阈值;阈值随业务场景变化,边界随键合间距缩小持续迁移。

能耗

τ是时间法则,非能量法则。超节点速度提升10倍但功耗增加10倍,不违反缩放原理,却超出电网承载能力。因此τ缩放需配套能耗方案:

  • 消除栈开销的内存语义互联;
  • 将每比特功耗降低数个数量级的近/共封装光学;
  • 背面供电、存内/近存计算;
  • 将τ余量转化为功耗余量的严谨实践(数据中心级动态电压频率调节——与手机续航技术同源)。

重要的是:τ余量本身可定向转化为能耗余量。

基准测试

行业现有性能基准(Linpack、MLPerf、SPEC)面向单标量度量业务的时代。τ缩放行业需要τ剖面基准:暴露系统各层主导τ与剩余余量的向量指标。主导τ层级即为下一阶段投入重点。


7. 六年实践,十年展望

2020年5月至2026年5月,华为半导体面向移动、AI、汽车、工业、基础设施市场,设计并量产381款芯片。全产品组合验证τ缩放理论成立:

  • 器件与电路层:晶体管密度从155向2031年400+百万晶体管/平方毫米迈进;
  • 芯片层:逻辑折叠在旗舰移动SoC上证明,固定工艺节点下关键路径主频、能效、密度可持续提升;
  • 系统层:统一总线与Hi-ONE证明,数百微秒通信τ可压缩至数百纳秒,多机架AI集群可等效为单一一致性机器;
  • 未来展望:2029年CPU性能核主频迈向4GHz及以上;典型场景下麒麟SoC能效三到五年预计翻倍;2035年AI硬件集成度预计增长超100倍。

超越单一产品的核心主张是方法论:τ缩放是自德纳尔德缩放以来,首个为全栈提供统一优化目标的缩放原理。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队明确:全行业正以同一单位优化同一指标,单一层级提升必须传导至系统τ才算有效。它也向行业战略与资本方指明:下一美元应投向τ而非工艺节点——竞争力不再依赖持续领跑光刻前沿,封装、内存带宽、互联设计已具备此前仅前沿逻辑工艺才有的战略权重。

对接受“摩尔定律即进步”教育的一代工程师而言,这是艰难转型。几何时代确已终结,否认并非可行策略。依靠微型化加速的时代,正让位于多层电子系统τ优化加速的时代。未来六到十年采纳τ作为核心目标的企业、研发机构与生态,将定义下一个十年的计算格局。

未来十年工作方向已明确,仍有大量开放问题待解,无单一机构可独立应对——工具链、标准、基准、器件物理、经济模型均需跨界协同。本文既是一线实践报告,也是产业合作邀请。

前路挑战艰巨,但方向清晰无疑。

作者

何庭波,华为半导体业务负责人。其带领团队2020至2026年面向移动、AI、汽车、基础设施市场设计并量产381款芯片,是τ缩放方法论与逻辑折叠、统一总线、Hi-ONE技术的提出与研发主体。

致谢

本文基于华为半导体及晶圆、设备、EDA、系统合作伙伴生态数千工程师六年工作成果。感谢客户的耐心支持,使本研究得以开展。

原文地址:https://chinaxiv.org/abs/202605.00224

3D芯体设想

传统摩尔定律时代的芯片,是典型的二维平面芯体。行业数十年的研发、设计、制造、封装体系,均建立在平面硅基工艺之上:晶体管、逻辑电路、存储单元、互联走线全部平铺于单晶硅片表层,芯片的性能上限、密度上限、延迟上限,始终被平面几何尺寸、边缘扇出距离、二维布线寄生参数牢牢束缚。无论FinFET、GAA等晶体管架构如何迭代,本质都是在平面空间内压缩器件尺寸,无法突破二维结构与生俱来的物理与拓扑瓶颈,这也是几何缩放逐步失效、先进工艺收益持续衰减的核心物理根源之一。

基于τ缩放全栈时间优化原理与逻辑折叠、3D垂直集成技术,未来取代平面芯片的下一代核心形态,是全立体3D芯体。3D芯体彻底打破传统芯片的平面设计范式,摒弃“二维平铺、边缘扇出、分层布线”的固有架构,以垂直堆叠为核心形态,将晶体管、逻辑电路、存储阵列、供电模块、光互联引擎、互联总线等全栈硬件资源,从平面延展转向立体纵深融合,构建起上下贯通、层间协同、全链路短路径的三维集成芯体结构,完美适配全层级τ值持续压缩的核心目标。

从外观形态来看,传统芯片是薄型平面薄片,长宽尺寸远大于厚度,核心算力、存储、互联资源全部集中于正面表层,背面仅作为承载基底,无有效功能布局;而3D芯体是规整立体集成结构体,厚度不再是可忽略的物理参数,而是核心算力扩容、延迟压缩、集成度提升的关键维度。芯体不再区分单一功能正面与空白背面,整体为多层有源硅基层垂直堆叠的一体化立体模块,外形规整、集成度均匀,彻底摆脱平面芯片“面积受限、边缘瓶颈、资源失衡”的形态缺陷。

从内部架构重构来看,3D芯体实现了四大核心资源的立体重构,彻底解决传统二维芯片的结构性短板。其一,逻辑-存储垂直融合,打破传统芯片逻辑区与存储区平面分区、长距离走线的模式,将数字逻辑、模拟电路、SRAM、高带宽存储逐层垂直堆叠,通过超细间距混合键合实现层间高速互联,大幅缩短计算与访存路径,极致压缩电路层、芯片层τ值,解决AI场景下数据搬运滞后的核心痛点。其二,算力资源立体扩容,不再依赖平面尺寸缩放提升晶体管密度,通过多层有源层堆叠实现单位体积内晶体管数量指数级增长,摆脱先进光刻工艺限制,在固定工艺节点下持续实现算力迭代升级,完美延续逻辑折叠技术的量产优势。

其三,供电与散热立体适配,针对三维堆叠带来的功耗与热管理问题,3D芯体集成背面供电、层间集成稳压器结构,将供电资源从传统平面边缘环绕布局,升级为立体全域供电,解决二维芯片供电随周长缩放的N级瓶颈,匹配算力N²级增长需求;同时依托垂直层间散热通道,优化高密度堆叠下的热扩散效率,解决立体集成的热约束难题,保障芯体高负载稳定运行。其四,互联系统立体全覆盖,将Hi-ONE近封装光I/O、统一总线架构嵌入芯体垂直表层与层间,摒弃传统边缘SerDes、线缆互联模式,实现芯体内部层间、芯片间、机架间的全链路高速低延迟传输,让单颗3D芯体成为全域一致性的微型计算集群,落地“片上化系统”的设计理念。

从τ缩放核心价值来看,3D芯体是时间优化的终极物理载体。传统平面芯片的所有优化,都是在二维空间内被动缩短路径、降低延迟,τ值压缩存在天然上限;而3D芯体通过立体拓扑重构,从物理底层缩短晶体管开关、电路传输、芯片访存、系统互联的全层级路径,实现皮秒到秒12个数量级时间尺度的全域τ值优化。移动终端场景下,3D芯体可进一步放大逻辑折叠的能效、主频、密度优势,持续推动麒麟系列SoC主频突破4GHz,实现能效逐年迭代升级;AI数据中心场景下,3D芯体彻底破解2.5D封装的扇出困境,让带宽、互联、供电资源与算力同步二次缩放,支撑2035年硬件集成度超100倍的跃升目标。

从未来演进路线来看,3D芯体将从当前局部双层逻辑折叠,逐步迭代为全栈多层一体化立体芯体。未来十年,通过低温混合键合、TSV深度缩放、三维EDA工具链适配、晶圆偏差自适应补偿等技术迭代,3D芯体将实现3层、4层乃至更多有源层的稳定堆叠,完成逻辑、存储、供电、光互联、散热的全维度立体融合。最终彻底终结依赖几何尺寸缩放的芯片迭代模式,形成以3D立体芯体为硬件核心、以τ缩放为统一优化准则的下一代半导体产业技术体系,成为后摩尔时代半导体与计算系统演进的核心形态。

目前芯片层数(豆包)

截至2026年5月,“芯片有多少层”要看是存储芯片(3D NAND)、高带宽内存(HBM)还是逻辑芯片(CPU/GPU),三者差别非常大:


一、3D NAND 闪存(最“多层”的芯片)

  • SK海力士:321层(已发布,2026年上半年量产)
  • 三星:290层(第9代V-NAND,已量产)
  • 长江存储:294层(Xtacking双晶圆堆叠,等效294层,已量产)
  • 美光:276层
  • 铠侠(原东芝):218层

趋势:2025–2026年主流进入300层+,2030年目标1000层


二、HBM 高带宽内存(AI 常用堆叠内存)

  • HBM3E:12层(已量产,用于AI GPU)
  • HBM4:16层(研发中,预计2026年底供货)

三、逻辑芯片(CPU/GPU,“层”概念不同)

这里的“层”不是垂直堆叠的存储层,而是金属互连层 + 晶体管层

  • 先进制程(3nm/2nm):10–15层金属互连+ 晶体管层(1–2层)
  • 3D 堆叠逻辑(如华为“韬定律”、台积电SoIC):2–4层芯片堆叠(上下叠放)

一句话总结

  • 存储芯片(3D NAND):200–321层(2026年量产)
  • AI 内存(HBM):12–16层
  • CPU/GPU:10–15层金属 + 1–4层堆叠
http://www.jsqmd.com/news/894099/

相关文章:

  • Kafka Connect实战指南
  • HALCON 22.11深度模型加密实操:保护你的AI训练成果与商业机密
  • 别再把 RAG 当向量库外挂:RAGFlow 的总体架构,给了一个更真实的答案
  • 从游戏物理到点云处理:深入浅出图解CSF布料模拟滤波原理
  • 别再死记硬背了!用这个‘水龙头’模型,5分钟彻底搞懂MOS管的三个工作区(截止、可变电阻、饱和)
  • 别再乱焊了!HC-SR501人体感应模块的光敏电阻,实测告诉你到底该用多大的(附电路图分析)
  • 从PyTorch到Android:手把手教你将YOLOv8模型转成TFLite并集成到App(附完整代码)
  • 文档级神经机器翻译:基于全局与局部嵌入的工程实践
  • 用Python+粒子群算法搞定物流配送路径规划:一个完整可运行的CVRP求解器
  • OpenClaw 离线包安装,无网络环境部署方法
  • 高光谱数据降维实战:鲁棒局部流形表示(RLMR)算法解析与应用
  • 在CentOS Stream 8上,用KVM嵌套虚拟化折腾华为FusionCompute 8.2.0(附完整避坑记录)
  • VMware vCenter磁盘空间管理的‘潜规则’:/storage下log、core、archive目录的日常维护与自动化清理方案
  • 手把手教你用C#实现ABB IRB 2600机器人正逆运动学(附完整代码)
  • Apache Superset认证绕过漏洞CVE-2023-27524深度解析
  • 别再乱用-ss和-t了!FFmpeg裁剪视频时顺序放错,小心时长对不上(附正确用法)
  • 2026年孤残儿童护理员等级划分及技能要求解析:周口保健按摩师、周口健康照护师、周口健康管理师、周口公共营养师选择指南 - 优质品牌商家
  • 告别品牌绑架!用Zigbee2MQTT+Home Assistant打造全屋智能的万能钥匙
  • AI Agent实战教程:用LangGraph构建Multi-Agent协作系统
  • Android埋点与统计技术深度解析:全埋点与可视化埋点设计
  • 从用户分群到商品推荐:K-Means和KNN在电商数据分析里的真实应用案例
  • 新手也能懂:PX4固定翼姿态控制器,从手动飞行到串级PID的保姆级拆解
  • Apache Superset CVE-2023-27524未授权访问漏洞深度解析
  • 从GitHub到Colab:我的病理图像分析项目复现踩坑实录与完整避坑指南
  • 从功放到调音台:手把手拆解电位器在音频电路里的6种经典玩法(附电路图)
  • 用PyCharm+TensorFlow给Webots小车做强化学习避障,保姆级环境配置与代码调试指南
  • 用HS0038红外接收头DIY万能遥控器:配合ESP8266和Home Assistant实现家电控制
  • 别再让程序跑飞了!手把手教你用SP706硬件看门狗给STM32上保险(附电路图与代码)
  • 为什么92%的企业AI项目将在2028年前失效?从Transformer到Neuromorphic AI的工具代际断层全解析
  • 别再只用Multi Query了!用LangChain + RAG Fusion提升你的检索质量(附完整代码)