当前位置: 首页 > news >正文

Karpathy 主帖:从我的时间线来看,大家对 AI 能力的认知差距正在越来越大。

第一部分:原文完整中文翻译

引用的原帖(@staysaasy):
“你对 AI 的惊叹程度,与你使用 AI 来写代码的频率完全正相关。”

Karpathy 主帖完整翻译:

从我的时间线来看,大家对 AI 能力的认知差距正在越来越大。

我认为第一个问题是“使用时间”和“使用层级”的差异。很多人可能只在去年试过 ChatGPT 的免费版,就把那时的体验当成对 AI 的全部认知。这群人看到模型的各种奇怪 bug、幻觉,就忍不住发帖嘲笑。没错,我也刷到过 OpenAI 高级语音模式被病毒视频嘲笑的片段——比如“开车去洗车还是走路?”这种简单问题都答不好。但问题是,这些免费的、老旧的、甚至已经被弃用的模型,根本无法代表今年最新一轮前沿 agentic 模型(尤其是 OpenAI Codex 和 Claude Code)的真实能力。

但这就引出了第二个问题。即使你花 200 美元/月订阅了最顶尖的模型,它们的强大能力也相对“峰值化”,只在高度技术性的领域特别突出。日常的搜索、写作、咨询等普通查询,并不是能力进步最显著、最戏剧化的领域。这部分是因为强化学习(RL)需要可验证的奖励信号(verifiable rewards),而普通任务很难给出清晰的“是/否”反馈;另一部分则是因为这些普通用例对公司来说不是最赚钱的方向,资源分配自然就偏向能带来更多 $$$ 的领域。

所以就有了第二群人:同时满足两个条件——1)付费使用最新前沿 agentic 模型(OpenAI Codex / Claude Code);2)在编程、数学、科研等专业技术领域专业化使用他们。这群人正在经历最高程度的“AI 精神错觉”(AI Psychosis),因为今年这些领域能力的跃升简直惊人。你把一个终端交给模型,就能亲眼看到它几分钟到几小时内解决原本需要几天甚至几周才能搞定的编程难题。

正是这第二群人,对 AI 的能力、进步速度以及各种网络安全影响,给予了远超常人的重视。

TLDR: 这两群人其实在各说各话。同时成立的事实是:OpenAI 免费版(可能已经被边缘化?)的“Advanced Voice Mode”会在 Instagram Reels 上闹出最蠢的笑话;与此同时,OpenAI 最高阶付费的 Codex 模型却能连续工作 1 小时,条理清晰地重构整个代码库,或者找出并利用计算机系统中的漏洞。这一部分是真的在飞速进步,原因有二:

  1. 这些领域有明确的、可验证的奖励函数(比如单元测试通过/失败),非常适合强化学习;
  2. 它们在 B2B 场景下商业价值极高,因此公司把最多资源砸在这里。

情况就是这样。

Karpathy 后续补充帖:
“最近有人跟我说,OpenClaw 时刻之所以这么轰动,是因为这是第一次让一大群非技术人员(他们之前只知道 AI 就是 ChatGPT 那个网站)真正体验到最新的 agentic 模型。”


第二部分:观点归纳总结

Karpathy 精准指出了当前 AI 认知的“理解鸿沟”(perception gap),并将其归因于两个核心维度:

  1. 使用层级差异

    • 第一群人(主流大众):只用过免费/老旧模型(2024-2025 年的 ChatGPT),体验到幻觉、语音失误等“低能”表现 → 形成“AI 就是个爱胡说八道的聊天机器人”的刻板印象。
    • 第二群人(专业前沿用户):付费使用 2026 年最新 agentic 模型(Codex、Claude Code),在编程、数学、科研等技术硬核领域深度使用 → 亲眼见证“几天工作几小时搞定”的爆炸性进步,产生“AI 精神错觉”。
  2. 能力“峰值化”本质

    • AI 进步不是均匀的,而是高度集中在有可验证奖励(verifiable rewards)的领域(如代码能跑/跑不了、数学证明对/错)。
    • 这些领域同时也是B2B 高价值场景,因此公司把最多算力、人才、RL 资源砸在这里,导致普通对话/写作/咨询等场景进步相对缓慢。
    • 结果:同一时代、同一公司,免费语音模式能闹笑话,而顶级 Codex 却能自主重构代码库、找漏洞——两者同时存在,却让两群人“鸡同鸭讲”。

核心洞见:

  • AI 能力不是线性进步,而是沿着“可验证 + 高商业价值”的赛道狂奔。
  • 真正拉开差距的不是“用没用 AI”,而是用到了什么层级、在什么场景下用
  • 未来这种认知鸿沟只会继续扩大:不会用 agentic 模型的人,会越来越觉得 AI “不过如此”;而深度使用者则会越来越感受到“生产力核弹”。

http://www.jsqmd.com/news/619387/

相关文章:

  • 金蝶中间件AAS V9.0域模板全解析:从标准部署到集群配置
  • 3步解锁网盘高速下载:新一代直链解析工具完全指南
  • 别再手动分割了!用React19的useEffect和状态管理优雅处理逗号分隔的标签输入
  • 四款主流远程工具实测:安全与隐私表现对比
  • 工具-Jabba-管控切换JDK版本(JDK8/JDK21)
  • ALINX AX7015B FPGA开发板 带原包装盒,有小伙伴要么
  • 企业官网怎么制作?2026年深圳企业官网设计公司靠谱服务商十佳推荐 - 速递信息
  • 深度解析高级双平台移动应用开发:技术架构、性能优化与系统级实践
  • 二分查找力扣题(leetcode)搜
  • 海鸥派开发板(OpenEuler系统)实现YOLOv8模型ONNX推理全流程解析
  • 编写具备良好可访问性的 JavaScript 代码的实践指南
  • 【AI原生API设计生死线】:从OpenAPI 3.1到Semantic API Schema的4层校验体系(含微软/Anthropic联合测试基准)
  • 3个步骤彻底解决GitHub访问难题:开源加速插件的完整指南
  • 2026线性电机深度选型指南:如何为高端制造匹配最佳方案? - 速递信息
  • 别再踩坑了!UniApp H5项目读取本地Excel数据的保姆级教程(附完整代码)
  • 机器人二次开发特殊监管区域巡检?电量低自动返充
  • 终极指南:如何使用ECAPA-TDNN构建工业级说话人识别系统
  • nvitop深度解析:超越nvidia-smi的GPU监控革命方案
  • 从Kubernetes到KubeLLM:AI原生栈告警体系迁移实录(含TensorRT-LLM GPU显存泄漏自动定位脚本)
  • 聊一聊 C# 中的闭包陷阱:foreach 循环的坑你还记得吗?偎
  • 3种专业方案彻底解决TranslucentTB的Microsoft.VCLibs.140.00缺失错误
  • 2026年4月红河民宿/酒店/住人/住宿/集装箱厂家采购指南:如何精准筛选高信誉实力厂家 - 2026年企业推荐榜
  • AI 编程盛行的时代,为什么 “『DC- WFW』” 仍然具有必要性?潭
  • 某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析(WORD)
  • 告别轮询!用这个封装好的SSE_WX函数,5分钟为你的微信小程序接入服务端推送
  • SITS2026落地失败的12个隐性征兆,第9条90%的CTO至今未察觉——附自测诊断表(含3个关键阈值红线)
  • OPUS编解码器在audio DSP上的移植和应用屡
  • 产品页和解决方案页怎么分:官网信息架构怎么定 客户才不会看乱
  • Day0506
  • PSPICE高频开关电源仿真完全指南