转载--Karpathy 怎么看 AI Agent(一):代码已死,权重是新的代码
原文:https://mp.weixin.qq.com/s/RdHxRSXCnmaYHPEAOxygVQ
写在前面:为什么是 Karpathy,为什么是 Agent
2026 年,AI Agent 已经不是概念了。
它在真实的公司里跑着真实的任务——写代码、做研究、处理邮件、管理日程、过夜跑实验。很多工程师的日常工作,已经从"写代码"变成了"监督 Agent 写代码"。
但大多数人对 Agent 的理解,还停留在"更强的 ChatGPT"这个层面。他们在用 Agent,却不理解 Agent 为什么会在某些任务上出人意料地聪明,又在另一些任务上出人意料地蠢。他们在调 Prompt,却不理解为什么同样的 Prompt 有时有效有时完全失控。
Andrej Karpathy 是少数几个把这件事想清楚了的人。
他是 OpenAI 的早期核心成员、GPT 系列的早期架构参与者、Tesla Autopilot 感知系统的负责人、Neural Networks: Zero to Hero的作者——那门课至今是全球最好的 LLM 入门课之一。他也是那个发明了"Vibe Coding"这个词的人,一条 2025 年初随手发的推特,精准命名了一整代人的编程方式。
但更重要的是:他是一个真正在用 Agent 工作的人,而不只是在谈论 Agent 的人。
他在 Eureka Labs 用 Agent 做机器学习研究,用 Agent 过夜跑实验,用 Agent 处理他以前自己写代码处理的事情。他的判断来自真实的工程经验,不是从理论推出来的。
这个系列写的是 Karpathy 的 Agent 思想体系。
本篇是起点。我们从 2017 年的一个判断开始——那个判断,在今天直接推导出了 Agent 的必然性。
一、那篇博客,和它被低估的含义
2017 年,Karpathy 在 Medium 上发了一篇文章,标题是《Software 2.0》。
不是论文,不是演讲,就是一篇博客。但接下来几年,它被引用的频率超过了大多数正式学术论文。
文章的核心判断是:
我们正在从"用代码表达逻辑"的时代,进入"用权重表达逻辑"的时代。
Software 1.0:程序员写代码,代码是显式指令,CPU 执行。
Software 2.0:程序员定义目标和数据,逻辑被"学"进权重里,GPU 执行。
这个判断在 2017 年听起来像是对机器学习趋势的描述。但回头看,它其实是一个预言——一个关于 Agent 必然出现的预言。
逻辑是这样的:
如果权重可以表达逻辑,而且可以表达人类写不出来的复杂逻辑(识别行人、理解语言、生成代码)——那么当这个"学出来的逻辑"足够强大,它就不只是一个函数,它可以成为一个决策者。
一个能理解任务、分解步骤、调用工具、处理结果、继续执行的决策者。
这就是 Agent。
Software 2.0 不是 Agent 时代的背景板,它是 Agent 时代的逻辑起点。
二、特斯拉给了他什么工程直觉
这个判断不是凭空来的。Karpathy 在特斯拉的经历,是它真正的来源。
2017 年,他加入特斯拉,负责 Autopilot 的感知系统。他要做的事是:把 AI 装进真实的汽车,让它在真实道路上开。
雨天、雪天、强逆光、施工路段、突然变道的卡车、路上的塑料袋——每一种情况都要处理。
用传统代码(Software 1.0)做这件事,是一条走不通的路。你需要为每一种边缘情况写规则,但边缘情况是无穷无尽的。规则越写越多,系统越来越脆,没有人能完整维护它。
但神经网络的方式完全不同:喂数据,让模型自己学。
更重要的是,他在特斯拉看到了一件改变他工程直觉的事:数据飞轮。
特斯拉的车队在路上跑,每天产生海量真实路况数据。这些数据喂回去,模型变好;模型变好,功能更可靠;功能更可靠,用户更愿意开启 Autopilot;更多使用产生更多数据——飞轮转起来了。
这个飞轮只有在 Software 2.0 的框架下才能转。代码不会因为被更多人用就自己变好,但权重会。
Karpathy 把这个工程直觉带出了特斯拉,带进了他对 LLM 和 Agent 的所有判断里。
三、从特斯拉到 LLM:他看到的那条线
2022 年,Karpathy 离开特斯拉,回到 OpenAI。
他回来的时候,GPT-4 的训练还没完成,ChatGPT 还没发布。但他能看到正在发生的事情,比公众早了将近一年。
他在这段时间里做的,是把 Software 2.0 的框架推到了逻辑终点:
如果权重是新的代码,那 LLM 就是新的操作系统。
这不是比喻。他在 2023 年的一次演讲里把这个框架说得很清楚:
LLM 是操作系统,管理资源(上下文窗口、工具调用、记忆)
Token 是 CPU 周期,是这个系统消耗的基本单位
Agent 是跑在这个操作系统上的进程,独立执行任务
在这个框架里,Agent 不是一个新奇的功能,不是 ChatGPT 的升级版——它是 Software 2.0 框架走到逻辑终点之后,必然出现的东西。
当一个 LLM 强大到能理解复杂指令、分解多步任务、调用外部工具、处理异常情况、持续执行——它就不再是一个问答系统,它是一个能自主工作的 Agent。
四、他自己的转变:停止写代码的那一天
理解 Karpathy 对 Agent 的判断,不能只看他说了什么,还要看他做了什么。
2025 年,他在推特上描述了自己的工作状态:他在做机器学习研究,但他自己写的代码比例越来越低。大量的工作变成了:给 Agent 描述任务、审查 Agent 生成的代码、判断结果是否可信、决定下一步方向。
到 2025 年底,他的一条推特在工程师圈子里引发了大量讨论:
他基本上停止亲手写代码了。
这条推特后来成了本系列第十六篇的核心——我们会详细拆解他停止写代码之后,他的工作时间花在了哪里,哪些技能变得更重要。
这里先说最关键的一点:
他停止写代码,不是因为 Agent 万能,而是因为他发现自己的比较优势不在写代码上了。
在 Karpathy 能做的事情里,亲手写代码这件事的价值,已经被 Agent 替代了。他的价值在别处:判断方向、设计实验、评估结果、决定哪里 Agent 可以放手做,哪里必须亲自把关。
这个转变,是他对 Agent 最深的判断的直接体现:
Agent 改变的不是"需不需要人",是"需要人做什么"。
五、"代码已死"——这句话的完整含义
现在可以回答这个问题了。
Karpathy 说"代码已死,权重是新的代码",他真正在说的是一条三段论:
第一段:在越来越多的任务领域,用权重表达逻辑比用代码更有效——这是 Software 2.0 的判断。
第二段:当权重强大到一定程度,它不只能"表达逻辑",还能"执行任务"——这是 LLM 作为操作系统的判断。
第三段:当 LLM 能自主执行任务,并且能把多个任务串联成一个工作流,人类的角色就从"执行者"变成了"监督者和判断者"——这是 Agent 时代的判断。
这三段是连贯的。"代码已死"是第一段,它必然推导出 Agent 的出现,也必然推导出人类工作方式的转变。
但这里有一个 Karpathy 从未回避的问题:
如果代码可以被生成,如果 Agent 可以执行任务,人类的价值在哪里?
他的答案贯穿了这个系列的后 29 篇。简短版本是:
人类的价值,在于判断。
不是判断代码怎么写,而是判断:任务方向是否正确、Agent 的输出是否可信、哪里必须亲自介入、什么是真正的问题而不是问题的表象。
这个判断能力不是从写代码里学来的——是从深度理解"这个系统在做什么、为什么这么做、会在哪里出错"里来的。
Software 2.0 改变的不是需不需要人,是需要人做什么。而"做什么"这个问题的答案,是这整个系列试图拼出来的地图。
六、2026 年:这个判断已经验证到什么程度
回到今天。
Karpathy 在 2017 年说"权重是新的代码",在 2023 年说"LLM 是操作系统",在 2025 年说"Agent 是跑在上面的进程"——这套框架,今天验证了多少?
已经验证的部分:
Agent 确实在真实场景里完成了真实工作。代码生成、文档处理、数据分析、研究综述——这些任务的 Agent 化已经不是概念验证,是大规模生产实践。
工程师的工作确实在发生 Karpathy 描述的那种转变:越来越多的人花更多时间在"审查 Agent 的输出"上,而不是"亲手写代码"上。
还在争议中的部分:
Agent 的可靠性边界在哪里——这个问题在 2026 年还没有定论。Karpathy 自己也承认,Agent 在某些任务上表现出令人惊讶的能力,在另一些任务上则出现让人难以理解的失败。
"人类的价值在判断"这个结论——在 Karpathy 这个级别的工程师那里是真实的,但对于大多数普通工程师是否同样成立,还是开放问题。
这个不确定性,本身就是这个系列存在的理由。
Karpathy 的框架是目前最清晰的理解 Agent 的思维工具,但它不是答案,是一张地图。地图告诉你地形,但你还是要自己走。
