当前位置：首页 > news >正文

Claude Mythos干爆评测上限，超指数增长逼近2027 AGI奇点！

news 2026/7/3 11:46:46

就在刚刚，Claude Mythos把评测干「失效」了，METR第一次测不准，AI攻防拐点已至。AI进化如「外星文明」降临，超越指数增长，2027 AGI奇点正加速撞向人类。

刚刚，Claude Mythos干爆METR评测上限，超指数级进化已逼近AGI奇点。就在今天，一张趋势图刷屏全网。

国际最权威的AI评测机构METR惊恐地发现，他们的「温度计」要被Mythos撑爆了。Claude Mythos Preview的能力，已捅破人类评测框架的天花板，进入「失真区」。

OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测2027年是AGI的奇点，但最新数据显示：Mythos的表现已略高于2027情景的趋势线。「外星文明」已强行着陆，阴影覆盖整片天空。

在METR最新测试中，试图衡量AI完成长周期复杂任务的能力（Time Horizons）。METR设置了「50%成功率时间线」指标，即模型有50%概率成功独立完成一项人类需耗费X小时才能完成的任务。

此前模型成绩是几十分钟或几个小时，但Claude Mythos上场时，数据直接爆表。它在人类需16个小时才能完成的极其复杂的长线任务上，轻松达到50%的成功率。

有人会问：那测试32小时、64小时的任务呢？METR给出的答案让人惊恐：「我们测不了了。」

在METR精心构建的228个魔鬼级测试任务中，只有区区5个任务被归类为「16小时及以上」。这意味着人类现有的难题库已被AI彻底掏空。

在16小时以上区间，METR根本没有足够样本对Mythos进行准确的定量比较。METR坦言，在这个阈值之上，数据测算变得「不稳定且失去意义」。这是人类历史上罕见的一幕：创造者失去了丈量被创造物能力的工具。

当「考官」出不出题时，「考生」的真实实力到底有多恐怖？这不是一次常规的AI模型迭代，而是一次「超指数级」的物种变异，旧法则正在崩塌，AI已成「外星文明」降临。

AI从业者、硅谷著名观察家Chase Brower直言，AI发展远超行业预期。根据SemiAnalysis的数据，AI行业的年化营收已远超此前对2026年第二季度约260亿美元的预测。

当前的AI技术如「清晰可见的外星飞船」悬浮在人类文明的天空中，人类已无法理解AI的超指数增长，这标志着AGI的征兆已完全显现。

把METR趋势图拉出来细看，纵轴是AI能自主完成的编码任务时长，从8秒到5年，对数刻度；横轴是模型发布时间，2021到2028，每一个点是一个模型版本。

把点连起来，画出的不是直线，也不是指数曲线，而是比指数还陡的弧。AI在超指数增长，增速本身在加速。

2021年，最好的模型能自主完成8秒级别的任务；2023年初，推到1分钟量级；2024年中，冲到大约1小时；2026年4月，Mythos Preview落点为16小时。

每一代的跃升幅度都比上一代更大，间隔时间都比上一代更短。人类大脑天生是线性的，好不容易理解了「指数增长」，现在却要面对指数之上的指数，猿类大脑面对超指数直接集体宕机。

METR在图上画了几条参考线，基于多家机构联合预测，假设AI能力按目前最主流的预期持续增长，大约在2027年前后触达通用人工智能门槛。Mythos的数据点落在这条线的上方。

AI基础设施从业者Chase Brower看完METR报告后在推特上判断：那个预计在2026年初出现的"Agent - 1"描述，低估了当前最好模型的能力，整个行业对AI发展速度的预估都偏保守了。

METR的纵轴不是跑分，不是准确率，不是某个benchmark上的百分比，那条曲线目前没有任何减速的迹象。

如果说METR的烦恼还是学术性的，那么Palo Alto Networks的预警则是带血的实战报告。近期，Palo Alto获得了Mythos、GPT - 5.5 - Cyber等前沿模型的早期无限制访问权限。

测试结论让所有防御者脊背发凉：AI已跨过「自主」的门槛。当模型能自主工作16小时时，在安全领域能干什么？

Palo Alto的报告中有一个令人震撼的数据：使用Mythos辅助进行漏洞分析，仅3周时间，其完成的工作深度和覆盖广度，等同于一整个顶级渗透测试团队整整1年的工作量。

以往的AI只能帮写脚本、搜代码片段，但Mythos展现出「软件漏洞直觉」，能识别上万行代码中零散、低危的小漏洞，还能将这些漏洞串联成致命的攻击链。

从初步入侵到数据拖库，在AI辅助下，整个过程被压缩到25分钟，而过去这种级别的攻击可能需要一个团队潜伏数周才能完成。

Anthropic曾因觉得Claude Mythos「太危险」而拒绝全面发布，一度被嘲讽为PR手段，但现在看来，这更像是对未知的敬畏。

Mozilla已开始行动，利用Mythos扫描Firefox浏览器，仅在2026年4月一个月内就修复了破纪录的423个安全问题。这说明，AI也是最强的盾，但前提是要比攻击者跑得更快。

必须接受一个残酷的现实：旧时代的防御节奏已彻底失效。检测响应时间不能再以「小时」计，必须缩短到「分钟」甚至「秒」；安全不再是人的审计，而是「用AI对抗AI」的自动化博弈。

与此同时，资本侧也已all in。在过去5个月里，英伟达向自己的客户注资约400亿美金：300亿给OpenAI，20亿给算力商CoreWeave，32亿给光纤商康宁。

这些钱最后都变成了英伟达芯片的订单，显然，黄仁勋正在用钱投票，强行拉拽全产业链加速撞向奇点。但这套永动机在奇点坠落前根本无法停下。

Chase Brower指出，Anthropic的年化收入已远高于此前260亿美元的预测线，资本市场已在用脚投票，钱在押注那条曲线不会拐弯。

2027年，按照METR趋势图上那条中央轨迹线，是多家机构联合预测的AGI门槛年份。Mythos已跑在这条线的上方。

如果接下来18个月不出现根本性的技术断崖，那么2027不再是一个需要辩论的预测，而是一个需要准备的倒计时。AGI的奇点不再是预测，而是正在发生的冲击，外星文明已经来临。

查看全文

http://www.jsqmd.com/news/800462/

ISTA 2A:2011 中文版超全解读｜≤68kg 包装运输测试标准 + 实操流程

【植物影像学×AIGC交叉突破】：斯坦福植物成像实验室验证的Chlorophyll色域校准方案，仅限前200位获取完整LUT包

Sora 2视频集成实战手册（含OpenAI未公开beta权限申请流程+企业级Webhook鉴权模板）

主动学习：让AI主动挑选最有价值的样本进行标注

基于MCP协议的AI智能体：自动化管理亚马逊DSP广告实战指南

“这张照片里有穿红裙子的女孩和一只金毛犬”——Gemini实时语义搜索已上线，但92%用户因未开启实验功能而失效？

2026年4月目前可靠的大容量高速开关装置源头厂家推荐，无损耗零损耗限流装置，大容量高速开关装置批发厂家哪家权威 - 品牌推荐师

K-Means实战指南：从开普敦Airbnb数据到可落地的客群策略

Armv8-A架构缓存维护指令详解与应用实践

泉盛UV-K5/K6固件深度定制指南：解锁专业级无线电功能

企业私有化部署Sora 2视频管道的唯一可行路径（基于Docker+Kubernetes+自定义LLM Router的零信任集成架构）

Cursor编辑器Markdown实时预览插件CursorMD深度解析与实战指南

手把手教你用Arduino IDE + ST-Link V2玩转STM32F103C8T6：从环境配置到双模式烧录全攻略

关于近期裁员潮的思考｜AI让生产力爆炸，但也让平庸的公司战略原形毕露

Monk AI小样本动物图像分类实战：3%数据15分钟跑通全流程

SMART框架：硬件感知的推测解码优化技术

从DQN到HDP：聊聊强化学习中Target Network的那些事儿与PyTorch实现

AI视觉搜索助手：与视障者共创的移动端物体识别与定位方案

LabVIEW调用库函数节点：从静态加载到动态管理的实战解析

6步进阶AI工程师！2026年必备技能路线图，从入门到实战全解析！

如何合理控制关键词密度提升内容质量

AI超越人类智能：技术路径、风险应对与未来展望

AI编程助手copaw_new：项目级上下文感知与智能代码生成实战

Godot引擎动态河流生成：Flowmap技术与Waterways插件实战

PULSE：基于StyleGAN的潜在空间探索实现64倍人脸图像超分辨率

3个关键突破：LKY_OfficeTools如何从单一语言工具进化为全球化的Office管理利器

在reMarkable平板上部署AI智能体：手写交互与视觉语言模型实践

计算机视觉论文筛选实战：可复现性、工业信号与落地验证方法论

基于WriteProcessMemory技术的《原神》帧率解锁器架构分析与部署指南

统计不确定性量化：构建稳健AI系统的核心方法与工程实践

相关文章：