当前位置：首页 > news >正文

Karpathy 主帖：从我的时间线来看，大家对 AI 能力的认知差距正在越来越大。

news 2026/7/22 10:35:59

第一部分：原文完整中文翻译

引用的原帖（@staysaasy）：
“你对 AI 的惊叹程度，与你使用 AI 来写代码的频率完全正相关。”

Karpathy 主帖完整翻译：

从我的时间线来看，大家对 AI 能力的认知差距正在越来越大。

我认为第一个问题是“使用时间”和“使用层级”的差异。很多人可能只在去年试过 ChatGPT 的免费版，就把那时的体验当成对 AI 的全部认知。这群人看到模型的各种奇怪 bug、幻觉，就忍不住发帖嘲笑。没错，我也刷到过 OpenAI 高级语音模式被病毒视频嘲笑的片段——比如“开车去洗车还是走路？”这种简单问题都答不好。但问题是，这些免费的、老旧的、甚至已经被弃用的模型，根本无法代表今年最新一轮前沿 agentic 模型（尤其是 OpenAI Codex 和 Claude Code）的真实能力。

但这就引出了第二个问题。即使你花 200 美元/月订阅了最顶尖的模型，它们的强大能力也相对“峰值化”，只在高度技术性的领域特别突出。日常的搜索、写作、咨询等普通查询，并不是能力进步最显著、最戏剧化的领域。这部分是因为强化学习（RL）需要可验证的奖励信号（verifiable rewards），而普通任务很难给出清晰的“是/否”反馈；另一部分则是因为这些普通用例对公司来说不是最赚钱的方向，资源分配自然就偏向能带来更多 $$$ 的领域。

所以就有了第二群人：同时满足两个条件——1）付费使用最新前沿 agentic 模型（OpenAI Codex / Claude Code）；2）在编程、数学、科研等专业技术领域专业化使用他们。这群人正在经历最高程度的“AI 精神错觉”（AI Psychosis），因为今年这些领域能力的跃升简直惊人。你把一个终端交给模型，就能亲眼看到它几分钟到几小时内解决原本需要几天甚至几周才能搞定的编程难题。

正是这第二群人，对 AI 的能力、进步速度以及各种网络安全影响，给予了远超常人的重视。

TLDR： 这两群人其实在各说各话。同时成立的事实是：OpenAI 免费版（可能已经被边缘化？）的“Advanced Voice Mode”会在 Instagram Reels 上闹出最蠢的笑话；与此同时，OpenAI 最高阶付费的 Codex 模型却能连续工作 1 小时，条理清晰地重构整个代码库，或者找出并利用计算机系统中的漏洞。这一部分是真的在飞速进步，原因有二：

这些领域有明确的、可验证的奖励函数（比如单元测试通过/失败），非常适合强化学习；
它们在 B2B 场景下商业价值极高，因此公司把最多资源砸在这里。

情况就是这样。

Karpathy 后续补充帖：
“最近有人跟我说，OpenClaw 时刻之所以这么轰动，是因为这是第一次让一大群非技术人员（他们之前只知道 AI 就是 ChatGPT 那个网站）真正体验到最新的 agentic 模型。”

第二部分：观点归纳总结

Karpathy 精准指出了当前 AI 认知的“理解鸿沟”（perception gap），并将其归因于两个核心维度：

使用层级差异：
- 第一群人（主流大众）：只用过免费/老旧模型（2024-2025 年的 ChatGPT），体验到幻觉、语音失误等“低能”表现 → 形成“AI 就是个爱胡说八道的聊天机器人”的刻板印象。
- 第二群人（专业前沿用户）：付费使用 2026 年最新 agentic 模型（Codex、Claude Code），在编程、数学、科研等技术硬核领域深度使用 → 亲眼见证“几天工作几小时搞定”的爆炸性进步，产生“AI 精神错觉”。
能力“峰值化”本质：
- AI 进步不是均匀的，而是高度集中在有可验证奖励（verifiable rewards）的领域（如代码能跑/跑不了、数学证明对/错）。
- 这些领域同时也是B2B 高价值场景，因此公司把最多算力、人才、RL 资源砸在这里，导致普通对话/写作/咨询等场景进步相对缓慢。
- 结果：同一时代、同一公司，免费语音模式能闹笑话，而顶级 Codex 却能自主重构代码库、找漏洞——两者同时存在，却让两群人“鸡同鸭讲”。