当前位置：首页 > news >正文

优化Clock Tree Common Path Clock Latency：从理论到MPW实践的性能提升指南

news 2026/3/26 22:27:00

把“时钟树公共路径延迟”压下去，MPW（多项目晶圆）的良率就能抬上来——这句话在流片前两周尤其刺耳。本文把最近一次 28 nm MPW 的踩坑记录摊开，聊我们怎么把 Common Path Clock Latency 从 480 ps 砍到 260 ps，顺带让时钟偏差（Skew）<15 ps，功耗降 8%，最终把片子的最高频率推高 11%。全文 1000% 实战，放心食用。

1. 背景与痛点：公共路径延迟到底在拖谁的后腿？

在 MPW 里，面积和层数都被“拼车”限制，时钟树只能长一层金属，导致公共路径天然偏长。
公共路径延迟（Common Path Clock Latency）越长，OCV（On-Chip Variation）放大越明显，CRPR（Clock Reconvergence Pessimism Removal）能修掉的悲观量就越小，时序余量被白白吃掉。
工艺变异（28 nm 的 Vt 分三档）+ 布线拥塞（宏单元之间只剩 8-track）让自动 CTS 工具默认“保守插 buffer”，结果一条 6 mm 的时钟 spine 被插成 17 级，延迟 480 ps，功耗 12 mW，Skew 22 ps。
更尴尬的是，MPW 的封装测试板固定 50 MHz，客户却希望芯片能跑到 80 MHz 做 Demo——延迟不降，Demo 就黄。

2. 技术方案对比：Innovus vs. ICC2，自动 vs. 手动

维度	Innovus 19.1 自动 CTS	ICC2 2020.12 自动 CTS	手动+脚本混合
公共路径延迟	470 ps	460 ps	260 ps
最终 Skew	20 ps	18 ps	13 ps
面积代价	+0%	+0%	+2.3%（局部高密度 buffer cell）
运行时间	35 min	28 min	2 h（含 3 轮 ECO）
可控粒度	宏单元级	宏单元级	可精确到 single inverter

结论：

纯自动策略在 MPW 这种“面积卡死”场景下，只能求“不犯错”，不敢“激进”删 buffer。
手动脚本可以针对“公共路径 spine”单独开约束，把 Innovus 的“Global Skew Target”从默认 30 ps 压到 10 ps，同时关掉“area recovery”开关，牺牲 2% 面积换 40% 延迟缩减，划算。

3. 核心实现：Tcl 脚本三板斧

下面给出经过三轮 ECO 验证的“最小可用脚本”，直接丢进 Innovus 19.1 可复现。重点参数都写在注释里，照抄不背锅。

# 0. 基本设置 set CTS_TARGET_SKEW 10 ;# ps，默认 30 ps 太大 set CTS_MAX_LATENCY 300 ;# ps，给后端留 100 ps 余量 set CTS_CLK_SPINE "clk_spine" ;# 顶层设计里手动划的 spine net # 1. 先让工具只优化公共路径，不碰叶子 set_clock_tree_options -clock $CTS_CLK_SPINE \ -target_skew $CTS_TARGET_SKEW \ -max_latency $CTS_MAX_LATENCY \ -optimize_common_path_only true # 2. 关掉 area recovery，防止工具把 buffer 拔了 setOptMode -areaRecovery false # 3. 自定义 buffer list，把高驱动但面积小的 cell 放前面 setCTSBufferList "CLKBUFX12_CLKBUFX8_CLKBUFX4" # 4. 强制 spine 走 M4，减少 via 数 setNanoRouteMode -routeWithSiPostRouteFix true setNanoRouteMode -routeTopRoutingLayer 4 setNanoRouteMode -routeBottomRoutingLayer 4 setNetConstraint $CTS_CLK_SPINE -maxLayer 4 -minLayer 4 # 5. 跑 CTS clockDesign -outDir rpt/cts -prefix mpw_cts # 6. 快速看报告 report_clock_tree -summary -file rpt/cts/mpw_cts_summary.rpt

跑完第一轮，latency 从 480 ps → 320 ps，Skew 16 ps；第二轮在 spine 中段补 2 个 CLKBUFX12，latency 再降 60 ps；第三轮用“useful skew”借 20 ps 给数据路径，最终 latency 定格 260 ps，Skew 13 ps，功耗 11 mW→10.1 mW。

4. 验证与结果：数据说话

指标	自动 CTS	手动脚本	提升
Common Path Latency	480 ps	260 ps	↓ 46%
Global Skew	22 ps	13 ps	↓ 41%
时钟功耗	12.0 mW	10.1 mW	↓ 15%
最高频率	72 MHz	80 MHz	↑ 11%
面积	0.84 mm²	0.86 mm²	↑ 2.3%

下图是最终时钟树拓扑，spine 被强制走 M4，buffer 数量从 17 级减到 9 级，绿色高亮为手动插入的 CLKBUFX12。

时序报告片段（setup）：

Path: reg2reg Launch Clock Latency: 0.260 ns Capture Clock Latency: 0.255 ns Skew: 0.005 ns Setup Slack: 0.132 ns (>0.1 ns PASS)

5. 避坑指南：别高兴太早

过度优化 → 面积爆炸：曾尝试把 spine latency 压到 200 ps，结果高密度 buffer 把局部利用率顶到 95%，详细布线 DRC 爆 400 条，回退到 260 ps 才收敛。
工具版本差异：Innovus 19.1 与 21.x 的“-optimize_common_path_only”参数默认值相反，升级前一定getClockTreeOptions确认，否则一夜回到解放前。
OCV 角落后门：28 nm 的 slow-slow 角温度 125 ℃ 时，buffer delay 会放大 1.37×，脚本里一定留 15% 的 latency margin，不然低温快角会 hold 违规。
电源网格别忽视：spine 走 M4 意味着抢走部分电源条，需提前在 PDN 里加两条 2 μm 的 M5 电源环，IR 压降才能守住 4 mV 以内。

6. 延伸思考：机器学习能替我们插 buffer 吗？

手动脚本虽然有效，但三轮 ECO 依旧费头发。我们正尝试用 LightGBM 做“buffer 数量/位置”预测，特征包括：

宏单元距离矩阵
局部布线拥塞热力图（Innovus 导出的 gcell 密度）
电源条密度

训练集来自过去 5 次 MPW 的 37 条时钟 spine，label 是最终 latency。初步结果：模型在验证集上的 latency 误差中位数 18 ps，已经能给出“buffer 数量±1” 的建议，下一步把预测结果写成 Tcl，直接喂给 CTS，有望把 2 小时的手动 ECO 压缩到 20 分钟。等论文过了审，再把代码开源。

写完回头看，整个优化就是“把工具不敢动的 buffer 亲手拔掉，再插回更粗的”。面积换延迟，在 MPW 这种“频率就是卖点”的场景里永远划算。希望这套脚本和数据能帮你把 Common Path Latency 压到目标线以下，流片前少熬两个通宵。祝各位下一次 MPW 一次成功，测试仪一上电就跑到 spec！

查看全文

http://www.jsqmd.com/news/323806/