当前位置: 首页 > news >正文

转载--Karpathy 怎么看 AI Agent(一):代码已死,权重是新的代码

原文:https://mp.weixin.qq.com/s/RdHxRSXCnmaYHPEAOxygVQ

写在前面:为什么是 Karpathy,为什么是 Agent

2026 年,AI Agent 已经不是概念了。

它在真实的公司里跑着真实的任务——写代码、做研究、处理邮件、管理日程、过夜跑实验。很多工程师的日常工作,已经从"写代码"变成了"监督 Agent 写代码"。

但大多数人对 Agent 的理解,还停留在"更强的 ChatGPT"这个层面。他们在用 Agent,却不理解 Agent 为什么会在某些任务上出人意料地聪明,又在另一些任务上出人意料地蠢。他们在调 Prompt,却不理解为什么同样的 Prompt 有时有效有时完全失控。

Andrej Karpathy 是少数几个把这件事想清楚了的人。

他是 OpenAI 的早期核心成员、GPT 系列的早期架构参与者、Tesla Autopilot 感知系统的负责人、Neural Networks: Zero to Hero的作者——那门课至今是全球最好的 LLM 入门课之一。他也是那个发明了"Vibe Coding"这个词的人,一条 2025 年初随手发的推特,精准命名了一整代人的编程方式。

但更重要的是:他是一个真正在用 Agent 工作的人,而不只是在谈论 Agent 的人。

他在 Eureka Labs 用 Agent 做机器学习研究,用 Agent 过夜跑实验,用 Agent 处理他以前自己写代码处理的事情。他的判断来自真实的工程经验,不是从理论推出来的。

这个系列写的是 Karpathy 的 Agent 思想体系。

本篇是起点。我们从 2017 年的一个判断开始——那个判断,在今天直接推导出了 Agent 的必然性。

一、那篇博客,和它被低估的含义

2017 年,Karpathy 在 Medium 上发了一篇文章,标题是《Software 2.0》

不是论文,不是演讲,就是一篇博客。但接下来几年,它被引用的频率超过了大多数正式学术论文。

文章的核心判断是:

我们正在从"用代码表达逻辑"的时代,进入"用权重表达逻辑"的时代。

Software 1.0:程序员写代码,代码是显式指令,CPU 执行。
Software 2.0:程序员定义目标和数据,逻辑被"学"进权重里,GPU 执行。

这个判断在 2017 年听起来像是对机器学习趋势的描述。但回头看,它其实是一个预言——一个关于 Agent 必然出现的预言。

逻辑是这样的:

如果权重可以表达逻辑,而且可以表达人类写不出来的复杂逻辑(识别行人、理解语言、生成代码)——那么当这个"学出来的逻辑"足够强大,它就不只是一个函数,它可以成为一个决策者

一个能理解任务、分解步骤、调用工具、处理结果、继续执行的决策者。

这就是 Agent。

Software 2.0 不是 Agent 时代的背景板,它是 Agent 时代的逻辑起点。

二、特斯拉给了他什么工程直觉

这个判断不是凭空来的。Karpathy 在特斯拉的经历,是它真正的来源。

2017 年,他加入特斯拉,负责 Autopilot 的感知系统。他要做的事是:把 AI 装进真实的汽车,让它在真实道路上开。

雨天、雪天、强逆光、施工路段、突然变道的卡车、路上的塑料袋——每一种情况都要处理。

用传统代码(Software 1.0)做这件事,是一条走不通的路。你需要为每一种边缘情况写规则,但边缘情况是无穷无尽的。规则越写越多,系统越来越脆,没有人能完整维护它。

但神经网络的方式完全不同:喂数据,让模型自己学。

更重要的是,他在特斯拉看到了一件改变他工程直觉的事:数据飞轮

特斯拉的车队在路上跑,每天产生海量真实路况数据。这些数据喂回去,模型变好;模型变好,功能更可靠;功能更可靠,用户更愿意开启 Autopilot;更多使用产生更多数据——飞轮转起来了。

这个飞轮只有在 Software 2.0 的框架下才能转。代码不会因为被更多人用就自己变好,但权重会。

Karpathy 把这个工程直觉带出了特斯拉,带进了他对 LLM 和 Agent 的所有判断里。

三、从特斯拉到 LLM:他看到的那条线

2022 年,Karpathy 离开特斯拉,回到 OpenAI。

他回来的时候,GPT-4 的训练还没完成,ChatGPT 还没发布。但他能看到正在发生的事情,比公众早了将近一年。

他在这段时间里做的,是把 Software 2.0 的框架推到了逻辑终点:

如果权重是新的代码,那 LLM 就是新的操作系统。

这不是比喻。他在 2023 年的一次演讲里把这个框架说得很清楚:

  • LLM 是操作系统,管理资源(上下文窗口、工具调用、记忆)

  • Token 是 CPU 周期,是这个系统消耗的基本单位

  • Agent 是跑在这个操作系统上的进程,独立执行任务

在这个框架里,Agent 不是一个新奇的功能,不是 ChatGPT 的升级版——它是 Software 2.0 框架走到逻辑终点之后,必然出现的东西

当一个 LLM 强大到能理解复杂指令、分解多步任务、调用外部工具、处理异常情况、持续执行——它就不再是一个问答系统,它是一个能自主工作的 Agent。

四、他自己的转变:停止写代码的那一天

理解 Karpathy 对 Agent 的判断,不能只看他说了什么,还要看他做了什么。

2025 年,他在推特上描述了自己的工作状态:他在做机器学习研究,但他自己写的代码比例越来越低。大量的工作变成了:给 Agent 描述任务、审查 Agent 生成的代码、判断结果是否可信、决定下一步方向。

到 2025 年底,他的一条推特在工程师圈子里引发了大量讨论:

他基本上停止亲手写代码了。

这条推特后来成了本系列第十六篇的核心——我们会详细拆解他停止写代码之后,他的工作时间花在了哪里,哪些技能变得更重要。

这里先说最关键的一点:

他停止写代码,不是因为 Agent 万能,而是因为他发现自己的比较优势不在写代码上了。

在 Karpathy 能做的事情里,亲手写代码这件事的价值,已经被 Agent 替代了。他的价值在别处:判断方向、设计实验、评估结果、决定哪里 Agent 可以放手做,哪里必须亲自把关。

这个转变,是他对 Agent 最深的判断的直接体现:

Agent 改变的不是"需不需要人",是"需要人做什么"。

五、"代码已死"——这句话的完整含义

现在可以回答这个问题了。

Karpathy 说"代码已死,权重是新的代码",他真正在说的是一条三段论:

第一段:在越来越多的任务领域,用权重表达逻辑比用代码更有效——这是 Software 2.0 的判断。

第二段:当权重强大到一定程度,它不只能"表达逻辑",还能"执行任务"——这是 LLM 作为操作系统的判断。

第三段:当 LLM 能自主执行任务,并且能把多个任务串联成一个工作流,人类的角色就从"执行者"变成了"监督者和判断者"——这是 Agent 时代的判断。

这三段是连贯的。"代码已死"是第一段,它必然推导出 Agent 的出现,也必然推导出人类工作方式的转变。

但这里有一个 Karpathy 从未回避的问题:

如果代码可以被生成,如果 Agent 可以执行任务,人类的价值在哪里?

他的答案贯穿了这个系列的后 29 篇。简短版本是:

人类的价值,在于判断。

不是判断代码怎么写,而是判断:任务方向是否正确、Agent 的输出是否可信、哪里必须亲自介入、什么是真正的问题而不是问题的表象。

这个判断能力不是从写代码里学来的——是从深度理解"这个系统在做什么、为什么这么做、会在哪里出错"里来的。

Software 2.0 改变的不是需不需要人,是需要人做什么。而"做什么"这个问题的答案,是这整个系列试图拼出来的地图。

六、2026 年:这个判断已经验证到什么程度

回到今天。

Karpathy 在 2017 年说"权重是新的代码",在 2023 年说"LLM 是操作系统",在 2025 年说"Agent 是跑在上面的进程"——这套框架,今天验证了多少?

已经验证的部分:

Agent 确实在真实场景里完成了真实工作。代码生成、文档处理、数据分析、研究综述——这些任务的 Agent 化已经不是概念验证,是大规模生产实践。

工程师的工作确实在发生 Karpathy 描述的那种转变:越来越多的人花更多时间在"审查 Agent 的输出"上,而不是"亲手写代码"上。

还在争议中的部分:

Agent 的可靠性边界在哪里——这个问题在 2026 年还没有定论。Karpathy 自己也承认,Agent 在某些任务上表现出令人惊讶的能力,在另一些任务上则出现让人难以理解的失败。

"人类的价值在判断"这个结论——在 Karpathy 这个级别的工程师那里是真实的,但对于大多数普通工程师是否同样成立,还是开放问题。

这个不确定性,本身就是这个系列存在的理由。

Karpathy 的框架是目前最清晰的理解 Agent 的思维工具,但它不是答案,是一张地图。地图告诉你地形,但你还是要自己走。

http://www.jsqmd.com/news/781336/

相关文章:

  • DeepSeek-R1-Distill-Qwen-1.5B部署避坑指南:常见问题与优化方案
  • 实战分享:用Qwen3-ASR-1.7B镜像快速搭建语音转文字服务
  • 东方博宜OJ 1019:求1!+2!+...+N! ← 嵌套for循环
  • Transformer加速器带宽优化与MatrixFlow架构解析
  • 构建个人技能学习系统:从知识碎片到技能图谱的实践指南
  • 竞技场学习优化深度学习模型:原理与实践
  • 2026年4月平口袋厂商口碑推荐,加厚平口袋/二层复合胶袋/食品自封袋/自封袋加厚,平口袋直销厂家口碑推荐 - 品牌推荐师
  • Automagik Forge:从氛围编程到结构化AI协作的工程化实践
  • PaddleOCR-VL-WEB教育场景:学生手写作业批改,识别潦草字迹
  • Arm DynamIQ CTI寄存器架构与调试技术详解
  • 手把手教你用Zynq7020+OV7725摄像头,在Vivado2019.1上跑通LeNet-5数字识别(附4套源码)
  • 基于多智能体架构的AI网文创作平台:Hermes Writer全栈开发实践
  • 从零构建开源机械爪:OpenClaw项目全流程解析与工程实践
  • 异构图神经网络在EDA布线拥塞预测中的应用与优化
  • Chain of Thought提示技术:提升AI复杂任务处理能力
  • AI音乐生成实战:从开源项目部署到高级应用全解析
  • 保姆级教程:Sambert语音合成镜像5分钟快速部署指南
  • 半导体分销行业慢增长下的并购整合与战略转型路径分析
  • 自动化开发环境搭建:lx脚本集合的设计原理与工程实践
  • 时差这个东西,熬的是命
  • Microchip全球技术支持网络架构与实战应用指南
  • Godot AI助手插件:本地LLM集成与代码辅助开发实战
  • SmallThinker-3B-Preview惊艳效果:QWQ-LONGCOT-500K数据集驱动的深度推理展示
  • 开发者必备:用coding-plan工具实现高效编码学习与项目管理
  • 从单周期到五段流水:在Vivado上一步步搭建MIPS模型机的踩坑实录
  • Linux服务器部署Qwen3-TTS声音克隆:解决多语言语音合成难题
  • GPT-5.5来了,AI编程Agent终于有了「概念清晰」
  • 小白闭眼装!OpenClaw 2.6.6 一键部署教程
  • 基于MCP协议实现Node.js生产环境实时调试:return0与Cursor IDE集成指南
  • 在Taotoken平台查看与导出详细账单数据的操作方法