高带宽内存左移测试策略助力AI芯片良率提升
高带宽内存(HBM)堆叠层数不断增加,硅通孔(TSV)间距持续收窄,这些变化正在对AI模组的最终良率产生深远影响。应对之策是将测试环节前移至制造流程的更早阶段,但这一转变也伴随着额外成本的挑战。
HBM已成为AI系统的核心组件。随着需要处理和存储的数据量持续攀升,AI系统对内存的需求近乎无止境。过去十年间,HBM芯片堆叠层数已从2层增长至12层,并即将突破16层。与此同时,AI数据中心多芯片封装中的HBM堆叠数量也从4个增加至8个。
如今,HBM芯片的成本几乎占AI芯片总成本的一半。因此,在最终测试阶段才发现存在缺陷的内存堆叠,将造成极高的损失。这正是业界越来越重视"已知良好堆叠"(KGS)的核心原因。然而,芯片堆叠本身是一项精密而复杂的制造工艺:TSV与微凸点的对准精度以微米为单位;晶圆减薄和划片过程中产生的机械应力,可能加剧已有的裂纹、滑移和划痕;热压键合则可能引发断路、短路以及"枕头效应"和高阻抗连接等问题。
更棘手的是,检测这些潜在缺陷本身就是一大难题。堆叠芯片测试需要在测试覆盖率与测试时间、机械处理、热管理以及供电之间寻求平衡。工程团队虽然可以通过可测性设计(DFT)和高并行多站点测试来降低测试成本,但堆叠芯片因堆叠高度大、功耗高,热管理问题相当棘手。而随着HBM4和HBM5的到来,这一切都将变得更加复杂。
新思科技(Synopsys)SLM产品管理总监Faisal Goriawalla表示:"来自超大规模数据中心的数据显示,HBM故障是数据中心GPU故障的首要原因。研究同样表明,由于其复杂的垂直堆叠结构,HBM比传统DRAM更容易出现故障,其中列故障(如TSV缺陷)尤为常见。从HBM3升级到HBM4,将需要在多芯片支持方面进一步演进。2048位内存接口要求显著增加穿越内存堆叠的TSV数量,这意味着随着微凸点总数大幅增加,外部凸点间距必须进一步缩小。此外,对16层高TSV堆叠的支持,为在不引入缺陷的前提下连接更多DRAM芯片带来了全新的复杂性。"
这一现状迫切要求在制造流程更早阶段开展更多测试,从而在封装之前将有缺陷的堆叠淘汰出局。目前,为了生产可交付的HBM堆叠芯片,测试流程在晶圆级和堆叠芯片级均包含多个测试插入点:HBM逻辑芯片和HBM DRAM芯片均需经过晶圆测试;每颗DRAM还需经历多次测试插入,包括晶圆级老化、高低温测试以及修复。之后,DRAM晶圆经过减薄、植球和划片,再将DRAM芯片堆叠至逻辑基底芯片晶圆上,并进行一系列测试。具体测试节点因封装厂的工艺不同而有所差异——可在每层DRAM堆叠后进行,也可在堆叠2层或4层后进行,最终完成堆叠晶圆划片。
从理论上讲,可以对已划片的HBM DRAM堆叠单独进行测试,但目前这一方案尚未投入实际应用。
泰瑞达(Teradyne)内存事业部产品营销经理Hanh Lai解释道:"左侧测试流程是当前的行业标准。它被认为是最具成本效益且风险最低的方案,因为无需对已划片的堆叠芯片这类特殊结构进行探针测试,尽管在晶圆上堆叠芯片确实存在平整度挑战。不过,业界对已划片堆叠芯片的测试兴趣正在增加,探针设备企业也在积极开发相应解决方案。其背后的驱动力在于,英伟达(Nvidia)、超威半导体(AMD)等系统集成商非常关注最终封装良率——在典型的GPU封装中,一颗GPU周围环绕着八个HBM堆叠,任何一个HBM堆叠出现缺陷,损失都极为高昂。"
随着单颗坏芯片或坏堆叠的成本不断攀升,测试左移的呼声也越来越高。
Aehr Test Systems销售与市场营销执行副总裁Vernon Rodgers表示:"归根结底,这是成本问题。降低报废率、提升良率、减少浪费,这些目标共同驱动着测试方案的选择。也许过去左移的代价过高,但如今良率成本曲线正在越来越强烈地推动测试向更早阶段迁移。以晶圆级老化测试为例,它能有效减少与早期失效相关的缺陷。随着堆叠层数增加、封装尺寸增大,这一点只会变得愈加重要。"
FormFactor高级产品营销总监Kevin Tran也持相同观点:"随着HBM器件的复杂度和成本不断提升,测试内容持续向流程前端迁移。这种左移有助于防止缺陷芯片进入成本高昂的堆叠工序,同时推动晶圆测试阶段对高速测试、更大并行度以及更严格热控制的需求。"
晶圆测试与老化
实现"已知良好堆叠"的起点,是确保每颗芯片为"已知良好芯片"(KGD)。对每颗DRAM及逻辑基底芯片进行全面的晶圆测试,需要覆盖内部电路、核心存储单元以及TSV。
DRAM测试需要数千种针对特定内存架构的测试图案。由于存储单元密度极高,冗余修复技术在测试过程中发挥着至关重要的作用——缺少它,晶圆级良率将大幅下降。测试图案由自动测试设备(ATE)提供,为降低测试成本,DRAM芯片通常以64至128个站点并行测试。
业界专家强调逻辑基底芯片测试的重要性,因为它是访问堆叠内存芯片的唯一通道,对堆叠芯片的最终良率影响举足轻重。Rodgers指出:"考虑一个堆叠结构——一颗逻辑基底芯片加上8到16颗HBM芯片。确保基底逻辑芯片的最高质量至关重要,因为一旦它存在缺陷,16颗芯片都将一并报废,这对良率曲线的影响是巨大的乘数效应。"
逻辑基底芯片的测试重点集中在DFT电路上,这些电路支撑着HBM DRAM在整个堆叠过程及产品全生命周期内的测试能力。测试通过JEDEC规范的直接访问接口或IEEE 1500标准,利用有限数量的焊盘或微凸点来实施。在逻辑晶圆测试阶段施加测试内容,可确保内部逻辑、IEEE 1500电路、直接访问总线、内存内建自测(MBiST)、TSV连通性以及PHY电路均无缺陷。
然而,随着HBM每一代产品的演进,晶圆探针测试的挑战也在不断加剧。
Tran表示:"在先进DRAM工艺节点(尤其是HBM所采用的节点)上,晶圆级测试已不再局限于接触和功能筛选,而是演变为涵盖机械性能、供电、信号完整性和吞吐量等多个维度的综合挑战。焊盘几何尺寸缩小的问题,可通过先进MEMS探针技术来应对——该技术能够提供更小的间距和更优的精度控制。HBM4和HBM5对速度与功耗提出了新要求,未来几代产品的数据传输速率将突破10 Gbps,每个HBM堆叠的功耗也将高达100瓦。MEMS探针具备更高的电流承载能力,与经过优化的探针卡级供电设计相结合,能够满足KGD测试的高功率、高速度需求。"
典型的DRAM测试流程包含晶圆级老化环节,通过加速激活潜在缺陷,以便后续标准测试能够有效检出。Rodgers解释说:"老化测试解决两个问题:第一,筛查薄弱器件,例如栅氧化层缺陷问题;第二,由于存储单元本质上是电容,需要对其数值进行稳定化处理。行业内一直存在争论——究竟应该在晶圆级、单颗芯片级还是封装级进行老化?但现在,当我们开始进行芯片堆叠时,目标是尽量前移,这正是推动晶圆级老化测试兴起的核心驱动力。"
晶圆级老化测试的接触方案需要应对探触测试访问焊盘/凸点时的机械挑战,可通过MEMS技术或微弹簧针(micro-pogo)来实现,适用于300mm晶圆。
将DFT与铝制测试焊盘上的探针测试相结合,有助于进一步降低测试成本。在规定HBM I/O微凸点布局时,JEDEC标准预留了添加牺牲测试焊盘的空间。Rodgers指出:"当你使用牺牲焊盘并适当拉开间距时,探针卡的成本会大幅下降,无需花费50万美元购置一张探针卡,最高可节省80%的探针卡成本。DFT不仅保障了测试质量,更重要的是,它带来了一种低成本的晶圆级老化测试方案——你可以选择微弹簧针而非MEMS。我可以在两个截然不同的成本区间提供技术方案,而DFT将决定你实际所处的成本层级。"
堆叠芯片测试
对堆叠芯片进行测试,能够有效降低AI产品最终测试阶段的良率风险。如前所述,当前标准的制造与测试流程是在晶圆形态下将HBM堆叠至基底芯片上,再由测试接口从晶圆背面进行探针测试,多站点并行测试已成为行业标配。但芯片堆叠在热管理、供电以及机械处理方面带来了严峻挑战,而随着测试插入次数的增加,控制测试成本也愈发困难。对于12层堆叠芯片而言,测试插入次数因封装厂的质量标准不同,可从3次到12次不等。
Tran指出:"DRAM芯片堆叠过程中可能引入新的错误,包括堆叠内部高速数据传输相关问题、更高堆叠对更大功率和电流的需求,以及由此带来的散热挑战。通过对堆叠芯片进行测试和分选,可以在早期剔除缺陷芯片,从而有效降低整体测试成本。堆叠芯片测试要求对准精度达到个位数微米级别,而HBM5要求最高16层堆叠,这使得对准精度的要求愈发严苛,必须充分考虑TSV和键合容差。"
也有观点强调了在封装过程中进行中间测试的重要性。
安靠(Amkor Technology)全球测试服务副总裁Omer Dossani表示:"随着HBM成本持续攀升,封装过程中的中间测试变得越来越关键。为此,业界正在开发新型接触机制,以实现在中间阶段的可靠测试。许多挑战在我们工厂进入大批量生产(HVM)阶段之前便已得到解决,但它们仍是重要的制造考量因素,需要在测试过程中对温度稳定性实施越来越严格的管控,并使用专用测试插座、专用清洁材料,以及在整个制造过程中加强数据监控。"
在测试方案的选择上,供电和热管理始终是核心考量,但随着堆叠高度增加,复杂程度也随之上升。Rodgers用了一个生动的比喻:"如果你看一栋16层的建筑,阳光照射外墙,中心部分几乎感受不到热量。而堆叠芯片恰恰相反——外层可以散热,但中心层的热量如何导出?在堆叠芯片老化或测试过程中,如何管理中间芯片层的温度至关重要。"
Teradyne的Lai也指出了这一问题:"难点在于如何管理这些器件产生的热量。探针设备公司需要为HBM堆叠提供有效散热方案。目前,我们的测试机可根据器件引脚数和功率需求,支持最高128个器件的并行测试。从HBM3到HBM4,功耗增幅预计超过两倍,这对探针设备和探针卡公司都提出了严峻的散热挑战。"
在2.5D集成封装之前对已划片的堆叠芯片进行测试,是一种颇具吸引力的左移测试方案,同时还支持主动热控制(相对于全晶圆测试所采用的被动热控制),能够在测试过程中实现更精确的温度管理。针对已划片堆叠芯片的测试方案涉及多项技术——堆叠芯片载板、上下料设备、堆叠芯片处理机以及主动热控制系统,均价格不菲,且都需要进一步开发成熟的HVM量产解决方案。
目前对堆叠芯片进行测试的主流方案,是在划片前从逻辑基底芯片背面的铝制焊盘进行探针测试,这些焊盘位于微凸点布局中预留的专用空间内。因此,ATE需要同时具备逻辑和内存测试能力,在多达128个测试站点并行测试时,供电需求极为可观。
将DRAM堆叠至基底芯片后,可利用逻辑基底芯片的MBiST(通常可编程)或直接访问总线对核心存储单元进行测试,并在每次测试插入时对有缺陷的TSV实施修复。
Goriawalla表示:"SoC设计者必须能够部署一套灵活的BiST引擎,支持在不同应用场景(制造测试、上电自测(POST)、系统内调试与诊断)下切换不同算法,以实现高覆盖率与测试时间之间的平衡。该引擎必须可编程,以适应不同DRAM厂商在延迟、地址范围及测试操作时序上的差异,还可能需要支持针对HBM DRAM的封装后修复(PPR),以推迟现场服务的介入时机。BiST引擎所执行的诊断必须精确到位,能够在检测到DRAM堆叠存在缺陷时,准确指出发生故障的Bank、行地址、列地址等信息。"
结语
尽管HBM DRAM厂商目前具有一定的溢价能力,但其核心关注点依然是降低成本。Teradyne的Lai指出:"内存厂商的思维模式是,测试方案必须经过优化且尽可能低成本——这一点比那些产品生命周期极短的SoC厂商更为突出。HBM厂商在这个竞争激烈的市场中深耕多年,历来利润空间有限。"
尽管如此,报废损失带来的经济压力正在推动HBM堆叠芯片厂商在流程更早阶段开展更多测试,这不可避免地增加了测试成本。但这一成本或许能通过在基底芯片上部署灵活的MBiST来部分抵消,后者允许对测试内容进行灵活权衡。然而,以高并行度对堆叠芯片进行测试,对ATE的供电和散热方案提出了更高要求。此外,对已划片堆叠芯片进行测试的方案仍有待验证,其经济影响尚存不确定性。
Q&A
Q1:为什么HBM测试需要向制造流程的更早阶段迁移?
A:随着HBM芯片堆叠层数增加(最高可达16层),单个坏芯片或坏堆叠的损失成本急剧攀升。HBM成本已接近AI芯片总成本的一半,如果缺陷堆叠到最终测试阶段才被发现,损失极为高昂。通过在制造流程更早阶段(如晶圆级老化测试)筛查出缺陷,可以避免缺陷芯片进入昂贵的后续堆叠工序,从而有效降低报废损失,提升整体良率。
Q2:HBM堆叠芯片测试在热管理方面面临哪些挑战?
A:堆叠芯片的散热问题与普通芯片完全不同。外层芯片可以正常散热,但中间层产生的热量难以有效导出。随着HBM从HBM3升级到HBM4,每个堆叠的功耗预计增加超过两倍,未来甚至可能达到100瓦。这对探针设备和探针卡公司提出了严峻挑战,需要通过主动热控制等手段,确保测试过程中各层芯片的温度均处于可控范围内。
Q3:DFT(可测性设计)在降低HBM测试成本方面具体能发挥哪些作用?
A:DFT在降低HBM测试成本方面作用显著。一方面,通过在微凸点布局中预留牺牲测试焊盘,可将探针卡成本降低高达80%,无需购置价格高达50万美元的高端探针卡;另一方面,基底芯片上可编程的MBiST引擎支持在制造测试、上电自测和系统内调试等不同场景下灵活切换测试算法,在测试覆盖率和测试时间之间实现最优平衡,从而在保证测试质量的同时有效控制成本。
