当前位置：首页 > news >正文

转载--Karpathy 怎么看 AI Agent（一）：代码已死，权重是新的代码

news 2026/5/9 6:36:38

原文：https://mp.weixin.qq.com/s/RdHxRSXCnmaYHPEAOxygVQ

写在前面：为什么是 Karpathy，为什么是 Agent

2026 年，AI Agent 已经不是概念了。

它在真实的公司里跑着真实的任务——写代码、做研究、处理邮件、管理日程、过夜跑实验。很多工程师的日常工作，已经从"写代码"变成了"监督 Agent 写代码"。

但大多数人对 Agent 的理解，还停留在"更强的 ChatGPT"这个层面。他们在用 Agent，却不理解 Agent 为什么会在某些任务上出人意料地聪明，又在另一些任务上出人意料地蠢。他们在调 Prompt，却不理解为什么同样的 Prompt 有时有效有时完全失控。

Andrej Karpathy 是少数几个把这件事想清楚了的人。

他是 OpenAI 的早期核心成员、GPT 系列的早期架构参与者、Tesla Autopilot 感知系统的负责人、Neural Networks: Zero to Hero的作者——那门课至今是全球最好的 LLM 入门课之一。他也是那个发明了"Vibe Coding"这个词的人，一条 2025 年初随手发的推特，精准命名了一整代人的编程方式。

但更重要的是：他是一个真正在用 Agent 工作的人，而不只是在谈论 Agent 的人。

他在 Eureka Labs 用 Agent 做机器学习研究，用 Agent 过夜跑实验，用 Agent 处理他以前自己写代码处理的事情。他的判断来自真实的工程经验，不是从理论推出来的。

这个系列写的是 Karpathy 的 Agent 思想体系。

本篇是起点。我们从 2017 年的一个判断开始——那个判断，在今天直接推导出了 Agent 的必然性。

一、那篇博客，和它被低估的含义

2017 年，Karpathy 在 Medium 上发了一篇文章，标题是《Software 2.0》。

不是论文，不是演讲，就是一篇博客。但接下来几年，它被引用的频率超过了大多数正式学术论文。

文章的核心判断是：

我们正在从"用代码表达逻辑"的时代，进入"用权重表达逻辑"的时代。

Software 1.0：程序员写代码，代码是显式指令，CPU 执行。
Software 2.0：程序员定义目标和数据，逻辑被"学"进权重里，GPU 执行。

这个判断在 2017 年听起来像是对机器学习趋势的描述。但回头看，它其实是一个预言——一个关于 Agent 必然出现的预言。

逻辑是这样的：

如果权重可以表达逻辑，而且可以表达人类写不出来的复杂逻辑（识别行人、理解语言、生成代码）——那么当这个"学出来的逻辑"足够强大，它就不只是一个函数，它可以成为一个决策者。

一个能理解任务、分解步骤、调用工具、处理结果、继续执行的决策者。

这就是 Agent。

Software 2.0 不是 Agent 时代的背景板，它是 Agent 时代的逻辑起点。

二、特斯拉给了他什么工程直觉

这个判断不是凭空来的。Karpathy 在特斯拉的经历，是它真正的来源。

2017 年，他加入特斯拉，负责 Autopilot 的感知系统。他要做的事是：把 AI 装进真实的汽车，让它在真实道路上开。

雨天、雪天、强逆光、施工路段、突然变道的卡车、路上的塑料袋——每一种情况都要处理。

用传统代码（Software 1.0）做这件事，是一条走不通的路。你需要为每一种边缘情况写规则，但边缘情况是无穷无尽的。规则越写越多，系统越来越脆，没有人能完整维护它。

但神经网络的方式完全不同：喂数据，让模型自己学。

更重要的是，他在特斯拉看到了一件改变他工程直觉的事：数据飞轮。

特斯拉的车队在路上跑，每天产生海量真实路况数据。这些数据喂回去，模型变好；模型变好，功能更可靠；功能更可靠，用户更愿意开启 Autopilot；更多使用产生更多数据——飞轮转起来了。

这个飞轮只有在 Software 2.0 的框架下才能转。代码不会因为被更多人用就自己变好，但权重会。

Karpathy 把这个工程直觉带出了特斯拉，带进了他对 LLM 和 Agent 的所有判断里。

三、从特斯拉到 LLM：他看到的那条线

2022 年，Karpathy 离开特斯拉，回到 OpenAI。

他回来的时候，GPT-4 的训练还没完成，ChatGPT 还没发布。但他能看到正在发生的事情，比公众早了将近一年。

他在这段时间里做的，是把 Software 2.0 的框架推到了逻辑终点：

如果权重是新的代码，那 LLM 就是新的操作系统。

这不是比喻。他在 2023 年的一次演讲里把这个框架说得很清楚：

LLM 是操作系统，管理资源（上下文窗口、工具调用、记忆）
Token 是 CPU 周期，是这个系统消耗的基本单位
Agent 是跑在这个操作系统上的进程，独立执行任务

在这个框架里，Agent 不是一个新奇的功能，不是 ChatGPT 的升级版——它是 Software 2.0 框架走到逻辑终点之后，必然出现的东西。

当一个 LLM 强大到能理解复杂指令、分解多步任务、调用外部工具、处理异常情况、持续执行——它就不再是一个问答系统，它是一个能自主工作的 Agent。

四、他自己的转变：停止写代码的那一天

理解 Karpathy 对 Agent 的判断，不能只看他说了什么，还要看他做了什么。

2025 年，他在推特上描述了自己的工作状态：他在做机器学习研究，但他自己写的代码比例越来越低。大量的工作变成了：给 Agent 描述任务、审查 Agent 生成的代码、判断结果是否可信、决定下一步方向。

到 2025 年底，他的一条推特在工程师圈子里引发了大量讨论：

他基本上停止亲手写代码了。

这条推特后来成了本系列第十六篇的核心——我们会详细拆解他停止写代码之后，他的工作时间花在了哪里，哪些技能变得更重要。

这里先说最关键的一点：

他停止写代码，不是因为 Agent 万能，而是因为他发现自己的比较优势不在写代码上了。

在 Karpathy 能做的事情里，亲手写代码这件事的价值，已经被 Agent 替代了。他的价值在别处：判断方向、设计实验、评估结果、决定哪里 Agent 可以放手做，哪里必须亲自把关。

这个转变，是他对 Agent 最深的判断的直接体现：

Agent 改变的不是"需不需要人"，是"需要人做什么"。

五、"代码已死"——这句话的完整含义

现在可以回答这个问题了。

Karpathy 说"代码已死，权重是新的代码"，他真正在说的是一条三段论：

第一段：在越来越多的任务领域，用权重表达逻辑比用代码更有效——这是 Software 2.0 的判断。

第二段：当权重强大到一定程度，它不只能"表达逻辑"，还能"执行任务"——这是 LLM 作为操作系统的判断。

第三段：当 LLM 能自主执行任务，并且能把多个任务串联成一个工作流，人类的角色就从"执行者"变成了"监督者和判断者"——这是 Agent 时代的判断。

这三段是连贯的。"代码已死"是第一段，它必然推导出 Agent 的出现，也必然推导出人类工作方式的转变。

但这里有一个 Karpathy 从未回避的问题：

如果代码可以被生成，如果 Agent 可以执行任务，人类的价值在哪里？

他的答案贯穿了这个系列的后 29 篇。简短版本是：

人类的价值，在于判断。

不是判断代码怎么写，而是判断：任务方向是否正确、Agent 的输出是否可信、哪里必须亲自介入、什么是真正的问题而不是问题的表象。

这个判断能力不是从写代码里学来的——是从深度理解"这个系统在做什么、为什么这么做、会在哪里出错"里来的。

Software 2.0 改变的不是需不需要人，是需要人做什么。而"做什么"这个问题的答案，是这整个系列试图拼出来的地图。

六、2026 年：这个判断已经验证到什么程度

回到今天。

Karpathy 在 2017 年说"权重是新的代码"，在 2023 年说"LLM 是操作系统"，在 2025 年说"Agent 是跑在上面的进程"——这套框架，今天验证了多少？

已经验证的部分：

Agent 确实在真实场景里完成了真实工作。代码生成、文档处理、数据分析、研究综述——这些任务的 Agent 化已经不是概念验证，是大规模生产实践。

工程师的工作确实在发生 Karpathy 描述的那种转变：越来越多的人花更多时间在"审查 Agent 的输出"上，而不是"亲手写代码"上。

还在争议中的部分：

Agent 的可靠性边界在哪里——这个问题在 2026 年还没有定论。Karpathy 自己也承认，Agent 在某些任务上表现出令人惊讶的能力，在另一些任务上则出现让人难以理解的失败。

"人类的价值在判断"这个结论——在 Karpathy 这个级别的工程师那里是真实的，但对于大多数普通工程师是否同样成立，还是开放问题。

这个不确定性，本身就是这个系列存在的理由。

Karpathy 的框架是目前最清晰的理解 Agent 的思维工具，但它不是答案，是一张地图。地图告诉你地形，但你还是要自己走。

查看全文

http://www.jsqmd.com/news/781336/

DeepSeek-R1-Distill-Qwen-1.5B部署避坑指南：常见问题与优化方案

实战分享：用Qwen3-ASR-1.7B镜像快速搭建语音转文字服务

东方博宜OJ 1019：求1!+2!+...+N! ← 嵌套for循环

Transformer加速器带宽优化与MatrixFlow架构解析

构建个人技能学习系统：从知识碎片到技能图谱的实践指南

竞技场学习优化深度学习模型：原理与实践

Automagik Forge：从氛围编程到结构化AI协作的工程化实践

PaddleOCR-VL-WEB教育场景：学生手写作业批改，识别潦草字迹

Arm DynamIQ CTI寄存器架构与调试技术详解

手把手教你用Zynq7020+OV7725摄像头，在Vivado2019.1上跑通LeNet-5数字识别（附4套源码）

基于多智能体架构的AI网文创作平台：Hermes Writer全栈开发实践

从零构建开源机械爪：OpenClaw项目全流程解析与工程实践

异构图神经网络在EDA布线拥塞预测中的应用与优化

Chain of Thought提示技术：提升AI复杂任务处理能力

AI音乐生成实战：从开源项目部署到高级应用全解析

保姆级教程：Sambert语音合成镜像5分钟快速部署指南

半导体分销行业慢增长下的并购整合与战略转型路径分析

自动化开发环境搭建：lx脚本集合的设计原理与工程实践

时差这个东西，熬的是命

Microchip全球技术支持网络架构与实战应用指南

Godot AI助手插件：本地LLM集成与代码辅助开发实战

SmallThinker-3B-Preview惊艳效果：QWQ-LONGCOT-500K数据集驱动的深度推理展示

开发者必备：用coding-plan工具实现高效编码学习与项目管理

从单周期到五段流水：在Vivado上一步步搭建MIPS模型机的踩坑实录

Linux服务器部署Qwen3-TTS声音克隆：解决多语言语音合成难题

GPT-5.5来了，AI编程Agent终于有了「概念清晰」

小白闭眼装！OpenClaw 2.6.6 一键部署教程

基于MCP协议实现Node.js生产环境实时调试：return0与Cursor IDE集成指南

在Taotoken平台查看与导出详细账单数据的操作方法