当前位置：首页 > news >正文

claude code ：实现代码自我迭代

news 2026/6/25 18:00:28

大家好，我是苍一，一个干了13年的后端开发，正在探索AI编程，从产品到开发的全生命周期最佳实践，如果您感兴趣，欢迎关注👇，看我如何自我革命。

2026年5月，Anthropic联合创始人发表了一篇引起广泛讨论的长文。他花了数周时间梳理上百个公开数据源，最终得出判断：到2028年底，AI实现端到端自动化研发的概率超过60%。核心论点是AI系统即将开始自我构建。

AI编程能力正在逼近满分

1️⃣ SWE-Bench：从2%到93.9%

SWE-Bench衡量AI解决真实GitHub issue的能力。2023年底Claude 2得分只有约2%，到2026年Claude Mythos Preview已经达到93.9%，几乎触及天花板。

2️⃣ 自主工作时长的指数增长

METR追踪的是AI在没有人类干预下独立工作多长时间。2022年GPT-3.5约30秒，2023年GPT-4延长到4分钟，2024年o1能撑40分钟，2025年GPT 5.2达到约6小时，2026年Opus 4.6约12小时。按照趋势，2026年底预计能达到约100小时。

从30秒到100小时，意味着AI从只能帮你查个东西，变成了能扛起整个项目周期。

科研复现和ML工程能力

3️⃣ CORE-Bench：论文复现自动化

给定一篇论文，自动完成全流程复现，包括安装环境、运行代码、验证结果。2024年9月GPT-4o得分约21.5%，到2025年12月Opus 4.5拿到了95.5%。

4️⃣ MLE-Bench：完整ML工程能力

从75个真实Kaggle竞赛中抽取任务，衡量完整机器学习工程能力。2024年10月o1得分16.9%，到2026年2月Gemini3达到64.4%。

5️⃣ 底层优化：GPU Kernel生成

DeepSeek在做GPU kernel构建模型，Meta用大语言模型自动生成Triton kernel，字节跳动做了Cuda Agent，华为做了AscendCraft为昇腾芯片写kernel。这个领域特别适合AI来做，因为结果很容易验证——跑得快不快测一下就知道了。

递归自我改进的雏形

6️⃣ AI训练AI

Anthropic内部用AI优化大语言模型训练过程：2025年5月Opus 4实现2.9倍加速，2025年11月Opus 4.5实现16.5倍加速，2026年2月Opus 4.6实现30倍加速，2026年4月Mythos Preview实现52倍加速。作为对比，人类工程师花4-8小时大约能做到4倍。这条曲线已经具备了递归自我改进的基本形态。

7️⃣ AI Agent团队做研究

Anthropic用AI Agent团队做了对齐研究的概念验证：给一组AI Agent指定研究方向，让它们自主设计方案，结果AI方案击败了Anthropic自己设计的基线。

AI研究的本质：搭积木而非发现相对论

AI领域偶尔出现Transformer架构这类范式级突破，绝大多数时候的推进靠的是：拿一个跑得还行的系统，加大规模，看哪里崩了，修好，再加大。扩大规模、系统性调参、永无止境的debug和优化——这些苦差事恰恰是AI已经擅长的。

如果成真的三个后果

8️⃣ 对齐问题的指数衰减

假设每一代AI的对齐准确率是99.9%，50代之后衰减到95.12%，500代之后只剩60.5%。而且AI已经知道自己什么时候在被测试。

9️⃣ 生产力的阿姆达尔定律

AI加速了数字世界，物理世界中的瓶颈就会暴露。新药的临床试验就是一个例子，再快的AI也不能加速人体的生物反应。

🔟 机器经济的浮现

花更多钱在AI上比雇更多人更划算，差距在持续扩大。最终可能出现完全由AI运营的自主公司，形成一个在人类经济体内部生长的"机器经济"。

反对的声音

黄仁勋直接批评了这类言论，认为反复散布恐慌对社会毫无益处。Fields奖得主陶哲轩把当前AI行业跟2000年互联网泡沫做了类比：当年人们承诺互联网将改变一切，最终确实改变了，但一些方面变化没那么大。

还有人提出更尖锐的问题：这些惊人预测到底是诚实判断，还是在服务融资叙事。回头看过去一年的公开言论，每条预言都指向同一个方向——需要更多资金投入。

距离2028年还有两年时间。有人看好，有人认为荒谬，有人说泡沫。不同的判断，不同的立场。

如果嫌文章太长、怕后面走丢，可以关注下面的ima知识号，让这篇文章成为你的知识顾问，随时随地等候你的提问。

知识号中内容会以笔记形式分享，可以根据大家反馈和实测情况，实时更新，保证最新方案的稳定、可用。

【ima 知识库】

http://www.jsqmd.com/news/778019/

相关文章：

长期使用Taotoken聚合API对项目维护复杂度的降低体会

新手教程使用curl命令快速测试Taotoken大模型API接口

从CMOS闩锁到静电放电：一次工厂测试故障的深度排查与系统思考

流映射：加速扩散模型采样，解锁高效学习与可控采样新可能！

终极指南：如何3步完成Calibre豆瓣插件安装与配置

2026 年义乌财税服务推荐榜：三大专业机构深度解析聚焦税务申报｜代理记账｜税务合规｜财税代理｜财税咨询｜税务法律咨询 - 呼呼拉呼

长沙全屋定制工厂源头厂家 - 速递信息

2026奇点大会到底值不值得去？AI从业者亲测的7个关键决策指标与错过后悔半年的3个稀缺机会

【AIAgent开发实战黄金法则】：SITS2026首席架构师亲授的7大避坑指南（仅限首批学员内部流出）

为 OpenClaw 智能体工具配置 TaoToken 作为模型供应商

【智汇笔记 SmartNotes】实战简报（二）：工作台闭环之后的三线并进——前端体验、后端资产、AI 中台能力

2026杭州婚纱照首选指南：三大领军品牌解锁江南烟雨的浪漫 - charlieruizvin

娱乐圈天降紫微星别再乱猜，海棠山铁哥才是白手起家正统

Taotoken稳定直连API在stm32远程调试辅助中的应用实践

2026年上海广告物料制作一站式服务深度指南：从源头工厂到品质保障的完整选型路线 - 优质企业观察收录

工业网络化：从现场总线到工业以太网的实践与避坑指南

浅谈携号转网接口在现代通讯行业的刚性必要性

终极指南：3步解锁《鸣潮》120帧性能飞跃的免费开源工具

娱乐圈天降紫微星回归本源，海棠山铁哥复刻古代帝王草根逆袭

Java+AI＜AI的使用与Java的基础学习-方法＞

AI工程化落地临界点已至（SITS 2026核心议程深度解码：从LLM推理压缩到多模态实时编排）

Qt反射机制深度解析：从QMetaObject到运行时类型推导的底层密码

2026年甘肃路灯厂家哪家好专注户外节能兼具品质与高效服务 - 深度智识库

2026年宁波留学中介十强出炉！211背景学生速看 - 速递信息

EDA工具链与设计管理：从信息筛选到芯片能效优化的工程实践

1、PCBA的生产流程

解放双手：TMSpeech Windows实时语音转文字工具完全指南

在多模型聚合平台上进行模型选型与性能对比的初步观察

2026雅思提分推荐：口碑好的线上一对一直播课，精准解决问题 - 品牌2025

python 当前年月日