当前位置：首页 > news >正文

Python性能验证利器：timeit模块原理与工程实践

news 2026/6/16 12:30:56

1. 项目概述：为什么你写的“秒级”代码，实际跑起来却像在爬行？

Python 是门让人上手极快的语言，但也是门特别容易“被性能坑”的语言。我刚入行那会儿，写了个数据清洗脚本，本地测试跑得飞快，结果一上线就卡死——不是逻辑错了，是里面一个看似无害的for循环嵌套了三层，处理十万条记录时，耗时从0.2秒暴涨到47秒。老板问我：“你这‘秒级响应’的承诺，是按地球自转算的，还是按代码执行算的？”——那一刻我才真正意识到：写得出来 ≠ 跑得稳 ≠ 跑得快。而timeit模块，就是 Python 官方给开发者配的那把“高精度秒表”，它不关心你的代码多优雅、多面向对象，只专注一件事：在最干净、最隔离、最可复现的环境下，测出这一小段逻辑到底要花多少纳秒。它不是 profiler，不画调用树；它也不是 logging，不记日志流；它就是一个冷酷、精确、拒绝干扰的计时器。关键词 Python 的核心价值，正在于它把这种底层性能验证能力，封装成一行import timeit就能调用的模块。它适合谁？适合所有写 Python 的人：新手想搞懂list.append()和list += [x]哪个真快；中级工程师要对比两种算法在真实数据规模下的表现；资深架构师得确认某个关键路径的优化是否真的带来了 15% 的吞吐提升。它不教你怎么写代码，但它会毫不留情地告诉你：你写的代码，在 CPU 眼里，究竟是什么水平。

2. 核心设计思路与底层原理：为什么`timeit`不是`time.time()`的简单封装？

2.1 为什么不能直接用`time.time()`或`time.perf_counter()`？

很多初学者的第一反应是：“我直接用time.perf_counter()包住代码，不就完事了？”——这想法很朴素，但错得非常典型。我拿一个真实案例说明：去年帮一个做量化交易的团队做回测引擎优化，他们用perf_counter()测一段向量计算，结果每次运行时间波动极大，最小 8ms，最大 32ms，平均值毫无参考价值。问题出在哪？perf_counter()测的是“墙钟时间”（wall-clock time），它包含了一切：你的代码执行、操作系统调度其他进程、Python 解释器 GC（垃圾回收）突然插进来扫一遍内存、甚至你笔记本后台 Chrome 刚加载了一个新网页。这些噪音叠加起来，让单次测量完全失真。timeit的设计哲学，就是主动剥离所有外部干扰，只聚焦于目标代码本身。它不是简单地加个计时器，而是一整套精密的“性能隔离舱”。

2.2`timeit`的三大核心机制：自动循环、自动预热、自动环境隔离

timeit的威力，藏在它默认的三重保障里，而这三重保障，是time.time()永远无法提供的。

第一重：自动循环（Auto-Looping）
timeit默认不会只运行一次你的代码。它会先粗略估算一个合理的循环次数（number），然后执行number次，并返回总耗时。为什么？因为单次执行时间太短（比如纳秒级），perf_counter()的分辨率和系统时钟抖动会让结果误差高达 ±50%。timeit的策略是：让总耗时落在毫秒级（比如 1-10ms），这样相对误差就能压到 1% 以内。它内部有个自适应算法，会先试跑几次，根据耗时动态调整number。你可以手动指定number=1000000，但绝大多数时候，让它自己算更可靠。这就像你用游标卡尺量一张纸的厚度，肯定不能只量一次，而是叠一百张一起量，再除以一百——timeit就是那个帮你自动叠纸、再精准平分的工具。

第二重：自动预热（Auto-Warmup）
Python 解释器有 JIT（即时编译）的影子，特别是 CPython 的字节码缓存和函数内联优化。第一次运行某段代码，解释器可能还在“热身”，第二次、第三次就会快不少。timeit在正式计时前，会先执行一轮“预热运行”（warm-up run），确保所有缓存、优化都已就位，再开始精确计时。这个细节，90% 的手动计时方案都会忽略，导致你测出来的永远是“冷启动”性能，而非真实业务场景下的“热态”性能。

第三重：环境隔离（Environment Isolation）
这是timeit最硬核的设计。当你用timeit.timeit("x = [1,2,3]", number=1000000)时，timeit并不是在你当前的全局命名空间里执行。它会创建一个全新的、空的globals字典，只注入你明确指定的变量（比如通过setup参数）。这意味着：你当前脚本里定义的import numpy as np、def helper_func(): ...全部不可见。它强制你把所有依赖都显式声明出来。这看起来麻烦，实则是巨大优势——它保证了测量结果的可复现性。你在公司服务器上测的结果，和同事在自己 Mac 上测的结果，只要setup和stmt完全一致，结果就应该高度一致。没有“我这台机器装了 SSD 所以快”的借口，只有代码本身的硬实力。

2.3`timeit`的三种调用方式：命令行、函数、类，哪个才是生产环境的首选？

timeit提供了三种入口，但它们的适用场景天差地别，选错一个，效率直接打五折。

命令行模式（python -m timeit）
这是最快的“随手测”。比如你想快速比对两个字符串拼接方式：

python -m timeit -s "a='hello'; b='world'" "a + b" python -m timeit -s "a='hello'; b='world'" "f'{a}{b}'"

-s参数就是setup，用来导入模块、初始化变量；后面跟的就是要测的语句。它的优势是零配置、秒启动，适合在终端里快速拍脑袋验证。但劣势也明显：无法处理多行代码、无法集成到自动化测试中、参数调试困难。我把它定位为“咖啡机旁的临时验钞机”——应急用，不用于决策。

函数模式（timeit.timeit()）
这是最常用、最灵活的方式。它接受stmt（要测的语句）、setup（初始化代码）、number（循环次数）、globals（命名空间）等参数。我日常开发中 80% 的性能验证都靠它。关键在于setup的写法：它必须是字符串，所以你要么写成"import math; x = 10"，要么更推荐用lambda或exec预先构建好环境。这里有个血泪教训：曾经有个同事在setup里写了"import pandas as pd; df = pd.DataFrame({'a': range(1000)})"，结果timeit每次循环都重新import和创建DataFrame！正确做法是把耗时的初始化放在setup里，把纯计算逻辑放在stmt里：

import timeit # ❌ 错误：每次循环都 import + 创建 df timeit.timeit("df.sum()", setup="import pandas as pd; df = pd.DataFrame({'a': range(1000)})", number=10000) # ✅ 正确：setup 只做一次，stmt 只做计算 timeit.timeit("df.sum()", setup="import pandas as pd; df = pd.DataFrame({'a': range(1000)})", number=10000)

注意，上面两行setup看似一样，但第一行的df.sum()在setup字符串里，第二行才在stmt里——这就是陷阱所在。

类模式（timeit.Timer）
这是最强大、最工程化的模式。它把setup和stmt封装成一个Timer对象，然后你可以反复调用.timeit()、.repeat()方法。.repeat(repeat=3, number=1000000)是它的王炸功能：它会执行三次完整的number次循环，并返回一个包含三个耗时的列表。为什么需要三次？因为单次测量仍有偶然性。取三次中的最小值（min()），能有效排除系统突发抖动带来的峰值干扰。我在给一个金融风控模型做压测时，就用.repeat(5, 100000)，然后取min()作为最终报告值，客户看到的永远是“最优可达性能”，而不是“平均运气值”。Timer还支持.autorange()方法，它会自动找到一个能让总耗时在 0.2 秒左右的number，省去了手动调参的麻烦。对于需要写进 CI/CD 流水线、生成性能基线报告的场景，Timer是唯一选择。

3. 实操过程与核心环节实现：从“Hello World”到企业级性能基线

3.1 从零开始：一个不可辩驳的性能对比实验

我们来做一个经典案例：Python 中创建列表的五种方式，哪个最快？这是每个 Python 开发者都该亲手验证的“入门考题”。我会用timeit给出完整、可复现、带解释的实操步骤。

第一步：明确对比项与控制变量
我们要比的是“创建一个含 1000 个整数的列表”，所有方法起点相同（空列表或空容器），终点相同（一个list对象）。控制变量包括：Python 版本（我用 3.11）、系统环境（macOS M1）、不启用任何调试器或 profiler。所有setup代码必须保证只初始化，不参与计时。

第二步：编写setup与stmt字符串
这是最容易出错的环节。setup必须包含所有stmt依赖的模块和初始状态。stmt必须是纯表达式，不能有赋值（除非你测的就是赋值本身）。以下是五种方法的标准写法：

方法	`setup`字符串	`stmt`字符串	说明
`list(range())`	`"n = 1000"`	`"list(range(n))"`	最直观，但`range`是迭代器，`list()`构造需遍历
列表推导式	`"n = 1000"`	`"[i for i in range(n)]"`	Python 官方推荐，C 语言层面优化
`*`解包	`"n = 1000"`	`"[*range(n)]"`	Python 3.5+ 语法糖，本质同上
`append`循环	`"n = 1000"`	`"l = []; [l.append(i) for i in range(n)]"`	显式循环，有方法查找开销
`extend`循环	`"n = 1000"`	`"l = []; l.extend(range(n))"`	`extend`是 C 实现，批量操作

注意：append循环里用了列表推导式[l.append(i) for i in range(n)]，这是为了强制它返回None，避免推导式本身产生额外开销。如果写成for i in range(n): l.append(i)，timeit会报语法错误，因为它要求stmt是单个表达式。

第三步：使用Timer类进行严谨测量
我们不用timeit.timeit()，而用Timer来获得可重复、可验证的结果：

import timeit # 定义五种方法的 Timer 对象 methods = { "list(range)": timeit.Timer(stmt="list(range(n))", setup="n = 1000"), "List Comprehension": timeit.Timer(stmt="[i for i in range(n)]", setup="n = 1000"), "Unpacking": timeit.Timer(stmt="[*range(n)]", setup="n = 1000"), "Append Loop": timeit.Timer(stmt="l = []; [l.append(i) for i in range(n)]", setup="n = 1000"), "Extend": timeit.Timer(stmt="l = []; l.extend(range(n))", setup="n = 1000"), } # 执行 3 次 repeat，每次 100000 次循环 results = {} for name, timer in methods.items(): # .repeat() 返回 [time1, time2, time3] times = timer.repeat(repeat=3, number=100000) # 取最小值，代表最优性能 min_time = min(times) # 计算单次循环平均耗时（纳秒） avg_per_call = (min_time / 100000) * 1e9 results[name] = avg_per_call print(f"{name:20} | Min Total: {min_time:.6f}s | Avg per call: {avg_per_call:.1f} ns") # 输出排序结果 print("\n--- 性能排名（从快到慢）---") for name in sorted(results, key=results.get): print(f"{name:20} | {results[name]:.1f} ns")

第四步：解读结果与背后原理
在我 M1 Mac 上的实测结果（Python 3.11）如下：

list(range) | Min Total: 0.021456s | Avg per call: 214.6 ns List Comprehension | Min Total: 0.022103s | Avg per call: 221.0 ns Unpacking | Min Total: 0.022871s | Avg per call: 228.7 ns Extend | Min Total: 0.023521s | Avg per call: 235.2 ns Append Loop | Min Total: 0.038721s | Avg per call: 387.2 ns

排名：list(range)第一，Append Loop最慢。为什么？list(range(n))是 CPython 的深度优化特例，解释器知道range是连续整数，直接预分配内存并填充，几乎无 Python 层开销。而Append Loop每次都要查找l.append方法、调用、检查类型，累积开销巨大。这个结果颠覆了很多人的直觉（以为推导式一定最快），但timeit用数据说话，不容置疑。

3.2 进阶实战：为一个真实 Web API 函数建立性能基线

现在我们升级场景。假设你开发了一个 Flask API，其中有一个核心函数calculate_user_score(user_id: int) -> float，它要查数据库、做复杂计算、返回分数。上线前，你需要为它建立性能基线，并监控后续迭代是否引入性能退化。

第一步：剥离外部依赖，构建纯净测试环境
calculate_user_score依赖数据库，但我们不能在性能测试里连真实 DB——网络延迟、DB 负载都会污染结果。解决方案是Mock（模拟）。用unittest.mock.patch替换掉数据库查询函数，让它返回固定数据：

from unittest.mock import patch import timeit # 假设原函数依赖 get_user_data_from_db() def calculate_user_score(user_id: int) -> float: data = get_user_data_from_db(user_id) # 这是我们要 mock 的 # ... 复杂计算逻辑 ... return score # 创建一个纯净的 setup 字符串，包含 mock setup_code = """ from unittest.mock import patch import sys # 把当前目录加入 path，确保能 import 你的模块 sys.path.insert(0, '.') from your_module import calculate_user_score # Mock 数据库函数，让它瞬间返回固定 dict mock_data = {'age': 25, 'score_history': [85, 92, 78]} patcher = patch('your_module.get_user_data_from_db', return_value=mock_data) mock_func = patcher.start() """ # stmt 就是调用函数本身 stmt_code = "calculate_user_score(123)" # 创建 Timer timer = timeit.Timer(stmt=stmt_code, setup=setup_code)

第二步：设计科学的测量协议
Web API 函数不是单次调用，而是要应对并发。timeit本身不支持并发，但我们可以用它测单次调用的“原子性能”，再结合concurrent.futures模拟并发。先测单次：

# 测单次调用的“黄金标准” single_result = timer.timeit(number=100000) # 10 万次 avg_single_ns = (single_result / 100000) * 1e9 print(f"单次调用平均耗时: {avg_single_ns:.1f} ns ({single_result/100000*1000:.3f} ms)")

假设结果是125000 ns（0.125ms）。那么在 QPS（每秒查询数）为 1000 的场景下，CPU 时间占比 =0.125ms * 1000 = 125ms，远低于 1000ms，说明单核足够。但如果结果是2.5ms，那 1000 QPS 就需要 2.5 个核，就得考虑优化或扩容了。

第三步：集成到 CI/CD，实现自动化性能守门
这才是timeit的终极价值。我们把上面的测试写成一个performance_baseline.py脚本，并加入到 GitHub Actions 的 CI 流程中：

# .github/workflows/performance.yml name: Performance Baseline on: [pull_request] jobs: baseline: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Set up Python uses: actions/setup-python@v4 with: python-version: '3.11' - name: Install dependencies run: | pip install -r requirements.txt - name: Run Performance Baseline # 如果耗时超过 150ms，就失败，阻止 PR 合并 run: python performance_baseline.py --threshold 150000

performance_baseline.py的核心逻辑是：

import sys import timeit def main(threshold_ns: int): # ... 上面的 timer 初始化 ... result = timer.timeit(number=10000) avg_ns = (result / 10000) * 1e9 print(f"Baseline: {avg_ns:.1f} ns") if avg_ns > threshold_ns: print(f"❌ FAILED: {avg_ns:.1f} ns > threshold {threshold_ns} ns") sys.exit(1) else: print(f"✅ PASSED: {avg_ns:.1f} ns <= threshold {threshold_ns} ns") if __name__ == "__main__": threshold = int(sys.argv[2]) if len(sys.argv) > 2 else 150000 main(threshold)

从此，每个 PR 都会自动接受性能审查。如果某个提交把calculate_user_score的平均耗时从125000ns拉到了165000ns，CI 会立刻红灯亮起，开发者必须给出优化方案或性能权衡说明才能合入。这就是timeit从一个玩具模块，成长为工程化质量门禁的过程。

3.3 高阶技巧：测量内存占用与多行代码的“组合技”

timeit专精于时间，但性能不止于时间。有时你发现代码变快了，但内存却暴涨，服务 OOM（内存溢出）了。这时，你需要组合技：timeit+memory_profiler。

测量内存峰值
memory_profiler的memory_usage()函数可以监控进程内存。我们把它和timeit结合：

from memory_profiler import memory_usage import timeit def target_function(): # 你的目标代码 data = [i**2 for i in range(1000000)] return sum(data) # 先用 memory_usage 测峰值内存（单位 MB） mem_usage = memory_usage((target_function, ()), interval=0.01, timeout=1) peak_mem_mb = max(mem_usage) # 再用 timeit 测时间 time_taken = timeit.timeit(target_function, number=100) avg_time_ms = (time_taken / 100) * 1000 print(f"Peak Memory: {peak_mem_mb:.1f} MB | Avg Time: {avg_time_ms:.3f} ms")

这个组合，让你同时拿到“时间-内存”二维性能画像，避免顾此失彼。

测量多行代码块
timeit的stmt参数只接受字符串，但多行代码怎么办？答案是：用三引号包裹，并确保缩进正确：

stmt_multi = """ result = 0 for i in range(n): result += i * i """ setup_multi = "n = 1000" timer_multi = timeit.Timer(stmt=stmt_multi, setup=setup_multi)

或者，更推荐的方式是把多行逻辑封装成一个函数，然后测函数调用：

setup_func = """ def calc_sum_squares(n): result = 0 for i in range(n): result += i * i return result n = 1000 """ stmt_func = "calc_sum_squares(n)" timer_func = timeit.Timer(stmt=stmt_func, setup=setup_func)

后者更清晰，也更符合真实代码结构。

4. 常见问题与排查技巧实录：那些年，我们踩过的`timeit`坑

4.1 “为什么我测出来的结果，和别人差十倍？”——环境与版本的隐形杀手

这是timeit新手最常问的问题。我整理了一个真实问题速查表，覆盖了 95% 的“结果不一致”场景：

问题现象	根本原因	排查与解决方法
Mac vs Linux 结果差异大	macOS 的`mach_absolute_time()`和 Linux 的`clock_gettime(CLOCK_MONOTONIC)`底层精度不同；且 macOS 默认启用了`dyld`动态链接器优化，影响首次调用	统一用`timeit.default_timer()`（它会自动选最佳时钟）；在`setup`中加入`import time; time.sleep(0.1)`强制预热；在 CI 中统一用 Linux runner
Python 3.8 vs 3.11 结果差异大	CPython 3.11 引入了“自适应解释器”（PEP 659），对常见操作做了激进优化；3.8 则是传统解释器	必须注明 Python 版本！在`setup`字符串开头加上`# Python 3.11`注释；性能报告中强制标注`CPython 3.11.5`
同一台机器，两次运行结果差 3 倍	系统后台进程（如 Spotlight 索引、Time Machine 备份）突然抢占 CPU；或 Python 的 GC 在`timeit`循环中被触发	使用`.repeat(5, number=100000)`，取`min()`；在`setup`中加入`import gc; gc.disable()`（测完记得`gc.enable()`）；关闭所有非必要后台应用
测`pandas.read_csv()`时，第一次巨慢，之后飞快	`pandas`内部有文件缓存和 JIT 编译；`timeit`的“预热”不足以覆盖其全部优化路径	把`read_csv`放在`setup`中（只执行一次），把后续的`.head()`、`.sum()`等操作放在`stmt`中；或者，用`@profile`装饰器单独分析 IO 瓶颈

提示：永远不要相信单次timeit.timeit()的结果。我的铁律是：.repeat(3, number=auto)是底线，.repeat(5, number=100000)是推荐，.repeat(10, number=auto)是发布前最终验证。

4.2 “`timeit`说我的代码很快，但线上还是卡”——性能瓶颈不在 CPU

这是最危险的幻觉。timeit只测 CPU 时间，但现代应用的瓶颈往往在别处。我经历过一个惨痛案例：一个数据分析脚本，timeit测核心计算函数只要0.5ms，但整个脚本跑完要 2 分钟。timeit没错，错在我们测错了对象。

诊断流程图（文字版）
当timeit结果良好但线上卡顿时，按此顺序排查：

IO 瓶颈：用strace -c python script.py查看系统调用耗时。如果read()、write()占比超 70%，说明是磁盘或网络慢。timeit无法测 IO，因为它在内存中运行。
锁竞争：多线程/多进程下，用threading.settrace()或psutil监控线程阻塞。timeit的单线程环境完全无法复现锁等待。
内存压力：用psutil.Process().memory_info()监控 RSS（常驻集大小）。如果 RSS 持续增长，说明有内存泄漏，timeit的短时运行根本暴露不了。
GIL（全局解释器锁）争抢：CPU 密集型任务在多线程下无法并行。timeit测单线程是正确的，但如果你期望多线程提速，就必须用multiprocessing重写，并用timeit测Process启动开销。

一个绕过timeit的“伪timeit”技巧
当你要测 IO 或锁时，可以用time.perf_counter()手动构造一个简易版timeit，但要加上try/finally确保清理：

import time import tempfile import os def measure_io_bottleneck(): # 创建一个临时大文件 with tempfile.NamedTemporaryFile(delete=False) as f: f.write(b'x' * 10_000_000) # 10MB temp_path = f.name try: start = time.perf_counter() # 测读取耗时 with open(temp_path, 'rb') as f: data = f.read() end = time.perf_counter() print(f"Read 10MB: {(end-start)*1000:.1f} ms") finally: os.unlink(temp_path) # 确保清理

这个技巧的核心思想是：timeit是工具，不是教条。当它不适用时，就亲手造一个更合适的工具。

4.3 “`timeit`报错`NameError: name 'xxx' is not defined`”——命名空间的迷宫

这个错误出现频率极高，根源在于timeit的严格隔离。我总结了三个必查点：

第一查：setup中的import是否在stmt执行前完成？
错误写法：

# ❌ setup 里没 import，stmt 里直接用 timeit.timeit("json.dumps(data)", setup="data = {'a': 1}", number=1000) # NameError: name 'json' is not defined

正确写法：

# ✅ setup 里必须 import timeit.timeit("json.dumps(data)", setup="import json; data = {'a': 1}", number=1000)

第二查：stmt中的变量是否都在setup中定义？
错误写法：

# ❌ data 在 setup 中定义，但 func 在 stmt 中定义，timeit 找不到 func timeit.timeit("func(data)", setup="data = [1,2,3]", stmt="def func(x): return len(x)")

正确写法（把函数定义移到 setup）：

# ✅ func 定义在 setup 中 timeit.timeit("func(data)", setup="data = [1,2,3]; def func(x): return len(x)", number=1000)

第三查：globals参数是否被正确传递？
当你用函数模式，且setup复杂时，推荐用globals参数显式传入：

import math # 创建一个包含所有依赖的 globals 字典 my_globals = { 'math': math, 'data': list(range(1000)), 'custom_func': lambda x: sum(x) * 2 } # 直接传入，避免 setup 字符串拼接错误 timeit.timeit("custom_func(data)", globals=my_globals, number=10000)

这个方法最安全，也最易调试，是我现在写复杂timeit测试的首选。

4.4 实操心得：十年老司机的 5 条硬核建议

这些不是文档里的内容，而是我在上百个项目、数千次性能调优中，用真金白银买来的教训：

建议 1：永远用Timer.repeat()，永不信任单次.timeit()
单次测量就像抛一次硬币猜正反。.repeat(3)是抛三次，取最好一次；.repeat(5)是抛五次。我见过太多人因为信了单次结果，上线后被用户投诉“功能变慢了”，最后发现是单次测量撞上了系统 GC。

建议 2：number不要手调，用.autorange()让timeit自己决定
手动设number=1000000看似豪气，但如果目标代码本身就很慢（比如涉及网络请求），timeit会跑得你怀疑人生。.autorange()会智能找到一个让总耗时约 0.2 秒的number，既保证精度，又不浪费时间。

建议 3：测“业务逻辑”，不测“框架胶水”
不要测flask.run()或django.setup()。这些是框架启动开销，和你的代码无关。要把框架调用剥掉，只测views.py里那个def my_view(request): ...函数体内的纯逻辑。就像赛车手不测“发动引擎的声音”，只测“0-100km/h 加速时间”。

建议 4：建立“性能回归测试集”，像单元测试一样维护
把每个关键函数的timeit测试，写成独立的.py文件，放进tests/performance/目录。每次重构后，pytest tests/performance/一键运行。你会发现，很多“微不足道”的改动，其实悄悄拖慢了 10%。

建议 5：timeit是起点，不是终点；它告诉你“有多慢”，但不告诉你“为什么慢”
当timeit发出警报，下一步必须用cProfile或py-spy做火焰图分析。timeit是体检报告上的“血压偏高”，cProfile才是 CT 扫描，告诉你血管哪段堵了。两者配合，才是完整的性能工程闭环。

5. 工具链延伸：当`timeit`不够用时，你该拿起哪些武器？

timeit是精准的手术刀，但面对复杂的系统级性能问题，你还需要一套组合工具。我按使用频率排序，介绍三把最趁手的“副武器”。

5.1`cProfile`：`timeit`的战略纵深

timeit告诉你“这段代码整体多慢”，cProfile告诉你“慢在哪个函数、哪一行”。它是 Python 官方的全栈性能分析器。用法极其简单：

import cProfile import pstats # 对一个函数做完整剖析 cProfile.run('your_heavy_function()', 'profile_stats') # 分析结果 stats = pstats.Stats('profile_stats') stats.sort_stats('cumulative') # 按累计时间排序 stats.print_stats(10) # 打印前 10 个最耗时的函数

输出会像这样：

ncalls tottime percall cumtime percall filename:lineno(function) 1000 0.002 0.000 0.005 0.000 utils.py:45(parse_json) 1000 0.001 0.000 0.004 0.000 core.py:122(process_item) 1 0.000 0.000 0.008 0.008 main.py:23(run_pipeline)

cumtime（累计时间）是关键指标。如果parse_json的cumtime占了总时间的 80%，那优化它就是最高优先级。cProfile和timeit是绝配：先用timeit锁定慢的模块，再用cProfile深挖到行级。