当前位置: 首页 > news >正文

claude code :实现代码自我迭代

大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。

2026年5月,Anthropic联合创始人发表了一篇引起广泛讨论的长文。他花了数周时间梳理上百个公开数据源,最终得出判断:到2028年底,AI实现端到端自动化研发的概率超过60%。核心论点是AI系统即将开始自我构建。

AI编程能力正在逼近满分

1️⃣ SWE-Bench:从2%到93.9%

SWE-Bench衡量AI解决真实GitHub issue的能力。2023年底Claude 2得分只有约2%,到2026年Claude Mythos Preview已经达到93.9%,几乎触及天花板。

2️⃣ 自主工作时长的指数增长

METR追踪的是AI在没有人类干预下独立工作多长时间。2022年GPT-3.5约30秒,2023年GPT-4延长到4分钟,2024年o1能撑40分钟,2025年GPT 5.2达到约6小时,2026年Opus 4.6约12小时。按照趋势,2026年底预计能达到约100小时。

从30秒到100小时,意味着AI从只能帮你查个东西,变成了能扛起整个项目周期。

科研复现和ML工程能力

3️⃣ CORE-Bench:论文复现自动化

给定一篇论文,自动完成全流程复现,包括安装环境、运行代码、验证结果。2024年9月GPT-4o得分约21.5%,到2025年12月Opus 4.5拿到了95.5%。

4️⃣ MLE-Bench:完整ML工程能力

从75个真实Kaggle竞赛中抽取任务,衡量完整机器学习工程能力。2024年10月o1得分16.9%,到2026年2月Gemini3达到64.4%。

5️⃣ 底层优化:GPU Kernel生成

DeepSeek在做GPU kernel构建模型,Meta用大语言模型自动生成Triton kernel,字节跳动做了Cuda Agent,华为做了AscendCraft为昇腾芯片写kernel。这个领域特别适合AI来做,因为结果很容易验证——跑得快不快测一下就知道了。

递归自我改进的雏形

6️⃣ AI训练AI

Anthropic内部用AI优化大语言模型训练过程:2025年5月Opus 4实现2.9倍加速,2025年11月Opus 4.5实现16.5倍加速,2026年2月Opus 4.6实现30倍加速,2026年4月Mythos Preview实现52倍加速。作为对比,人类工程师花4-8小时大约能做到4倍。这条曲线已经具备了递归自我改进的基本形态。

7️⃣ AI Agent团队做研究

Anthropic用AI Agent团队做了对齐研究的概念验证:给一组AI Agent指定研究方向,让它们自主设计方案,结果AI方案击败了Anthropic自己设计的基线。

AI研究的本质:搭积木而非发现相对论

AI领域偶尔出现Transformer架构这类范式级突破,绝大多数时候的推进靠的是:拿一个跑得还行的系统,加大规模,看哪里崩了,修好,再加大。扩大规模、系统性调参、永无止境的debug和优化——这些苦差事恰恰是AI已经擅长的。

如果成真的三个后果

8️⃣ 对齐问题的指数衰减

假设每一代AI的对齐准确率是99.9%,50代之后衰减到95.12%,500代之后只剩60.5%。而且AI已经知道自己什么时候在被测试。

9️⃣ 生产力的阿姆达尔定律

AI加速了数字世界,物理世界中的瓶颈就会暴露。新药的临床试验就是一个例子,再快的AI也不能加速人体的生物反应。

🔟 机器经济的浮现

花更多钱在AI上比雇更多人更划算,差距在持续扩大。最终可能出现完全由AI运营的自主公司,形成一个在人类经济体内部生长的"机器经济"。

反对的声音

黄仁勋直接批评了这类言论,认为反复散布恐慌对社会毫无益处。Fields奖得主陶哲轩把当前AI行业跟2000年互联网泡沫做了类比:当年人们承诺互联网将改变一切,最终确实改变了,但一些方面变化没那么大。

还有人提出更尖锐的问题:这些惊人预测到底是诚实判断,还是在服务融资叙事。回头看过去一年的公开言论,每条预言都指向同一个方向——需要更多资金投入。

距离2028年还有两年时间。有人看好,有人认为荒谬,有人说泡沫。不同的判断,不同的立场。

如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。

知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。

【ima 知识库】

http://www.jsqmd.com/news/778019/

相关文章:

  • 长期使用Taotoken聚合API对项目维护复杂度的降低体会
  • 新手教程使用curl命令快速测试Taotoken大模型API接口
  • 从CMOS闩锁到静电放电:一次工厂测试故障的深度排查与系统思考
  • 流映射:加速扩散模型采样,解锁高效学习与可控采样新可能!
  • 终极指南:如何3步完成Calibre豆瓣插件安装与配置
  • 2026 年义乌财税服务推荐榜:三大专业机构深度解析 聚焦税务申报|代理记账|税务合规|财税代理|财税咨询|税务法律咨询 - 呼呼拉呼
  • 长沙全屋定制工厂源头厂家 - 速递信息
  • 2026奇点大会到底值不值得去?AI从业者亲测的7个关键决策指标与错过后悔半年的3个稀缺机会
  • 【AIAgent开发实战黄金法则】:SITS2026首席架构师亲授的7大避坑指南(仅限首批学员内部流出)
  • 为 OpenClaw 智能体工具配置 TaoToken 作为模型供应商
  • 【智汇笔记 SmartNotes】实战简报(二):工作台闭环之后的三线并进——前端体验、后端资产、AI 中台能力
  • 2026杭州婚纱照首选指南:三大领军品牌解锁江南烟雨的浪漫 - charlieruizvin
  • 娱乐圈天降紫微星别再乱猜,海棠山铁哥才是白手起家正统
  • Taotoken稳定直连API在stm32远程调试辅助中的应用实践
  • 2026年上海广告物料制作一站式服务深度指南:从源头工厂到品质保障的完整选型路线 - 优质企业观察收录
  • 工业网络化:从现场总线到工业以太网的实践与避坑指南
  • 浅谈携号转网接口在现代通讯行业的刚性必要性
  • 终极指南:3步解锁《鸣潮》120帧性能飞跃的免费开源工具
  • 娱乐圈天降紫微星回归本源,海棠山铁哥复刻古代帝王草根逆袭
  • Java+AI<AI的使用与Java的基础学习-方法>
  • AI工程化落地临界点已至(SITS 2026核心议程深度解码:从LLM推理压缩到多模态实时编排)
  • Qt反射机制深度解析:从QMetaObject到运行时类型推导的底层密码
  • 2026年甘肃路灯厂家哪家好 专注户外节能 兼具品质与高效服务 - 深度智识库
  • 2026年宁波留学中介十强出炉!211背景学生速看 - 速递信息
  • EDA工具链与设计管理:从信息筛选到芯片能效优化的工程实践
  • 1、PCBA的生产流程
  • 解放双手:TMSpeech Windows实时语音转文字工具完全指南
  • 在多模型聚合平台上进行模型选型与性能对比的初步观察
  • 2026雅思提分推荐:口碑好的线上一对一直播课,精准解决问题 - 品牌2025
  • python 当前年月日