当前位置: 首页 > news >正文

Subquadratic稀疏注意力突破Transformer瓶颈与OpenAI有益特质训练研究


摘要

2026年6月19日,AI领域同时迎来两个根本性突破:迈阿密初创公司Subquadratic发布SubQ模型,宣称用动态稀疏注意力替代Transformer核心的稠密注意力机制,Appen独立评测证实56倍推理速度提升、12M Token上下文窗口、RULER 128基准成本$8 vs Anthropic Opus 4.6的$2600;同日OpenAI发布"有益特质训练"研究论文,证明仅需小剂量RL训练(真实性、认识谦逊、可修正性等特质),即可在44/53独立基准上跨领域提升AI安全性,且模型对有害微调产生"选择性持久"抵抗。两条路径分别挑战Transformer架构基础和AI对齐范式,意义深远。

核心结论:Transformer的稠密注意力瓶颈和AI对齐的宪法式方法,在同一天被分别挑战——Subquadratic用稀疏注意力宣告"几年内没人会用Transformer",OpenAI用行为特质RL证明"小剂量训练可跨领域泛化安全"。AI架构和安全的底层范式正在同时松动。


突破一:Subquadratic——稀疏注意力颠覆Transformer核心

什么是Transformer的二次复杂度瓶颈?

Transformer的核心机制是稠密注意力(Dense Attention):处理一段文本时,每个token需要与所有其他token进行乘法运算。

文本长度计算次数直观理解
10,000词~50,000,000次一篇短文
100,000词~5,000,000,000次一本书
1,000,000词~500,000,000,000次大型代码库

这就是"二次复杂度"(Quadratic Complexity)瓶颈——文本长度翻倍,计算量翻四倍。它使得LLM成为耗电大户,也限制了大上下文窗口的经济可行性。

“如果你想总结《了不起的盖茨比》,你必须看第一个词和最后一个词,然后看所有其他组合。”—— Justin Dangel, Subquadratic CEO(来源:MIT Tech Review, 2026-06-19)

SubQ的解决方案:动态稀疏注意力

Subquadratic的核心创新是动态稀疏注意力(Dynamic Sparse Attention)——不再让每个token与所有token相乘,而是智能选择哪些关系重要:

方法计算策略灵活性
稠密注意力(Transformer)每个token×所有token零灵活性
固定稀疏注意力(历史方法)固定模式(如第1词×第5词)极低灵活性
SubQ动态稀疏注意力实时计算哪些关系重要高灵活性

“稀疏注意力说不是所有关系都重要,因为它们确实不重要。如果你在读一本书,你不会看第一个词和第二个词、第一个词和第三个词——那太疯狂了。”—— Alex Whedon, Subquadratic CTO(来源:MIT Tech Review, 2026-06-19)

Subquadratic拒绝透露具体的动态选择算法——“这就是秘方所在”(“That’s kind of where the secret sauce is”)。

Appen独立评测结果

第三方评测公司Appen对SubQ进行了独立评测,结果如下:

评测项SubQ成绩对比
推理速度FlashAttention的56倍FlashAttention是目前最快的稀疏注意力技术
LiveCodeBench89.7%与顶级编程模型同级别
RULER 128(NVIDIA长上下文检索基准)运行成本**$8**Anthropic Opus 4.6运行成本**$2,600**(325倍差距)
Needle-in-Haystack(6M/12M上下文)98%“在极大规模上维持近乎完美的长上下文检索”
上下文窗口12M Token大多数顶级模型仅1M Token(12倍差距)

“这对我来说真的很令人兴奋,它验证了他们的架构。我当时想,‘哇,这可能是游戏规则改变者。’”—— Jeanine Sinanan-Singh, Appen生成式AI研究总监(来源:MIT Tech Review, 2026-06-19)

SubQ的关键特性

特性SubQ行业标准
上下文窗口12M Token1M Token(GPT-5.5/Gemini 3.5)
推理速度56× FlashAttentionFlashAttention为当前最快
RULER 128成本$8$2,600(Opus 4.6)
LiveCodeBench89.7%顶级模型级别
基础权重Qwen开源模型复用全新训练

质疑与争议

尽管Appen评测结果令人瞩目,但社区质疑声同样强烈:

质疑点详情
“AI Theranos”?Dan McAteer工程师:“SubQ要么是Transformer以来最大突破……要么是AI Theranos。”
权重复用问题SubQ复用了Qwen的权重进行bootstrapping,而非从零训练——这与"彻底重新发明LLM"的声明矛盾
尚未广泛可用仅极少数人获得访问权限,数万人仍在等待列表上
基准不等于真实能力特定条件下的基准测试不等同于广泛真实任务验证
公司规模限制Subquadratic是小公司,资源有限,无法同时服务大量用户

“他们可能构建了真实有用的东西。但公开证据尚不足以支撑更强硬的声明——他们已经解决了二次注意力瓶颈。”—— Will Depue, 独立AI研究者/前OpenAI员工(来源:MIT Tech Review, 2026-06-19)

Subquadratic的雄心

“我们希望正在开启效率的新时代。我们认为几年内没人会用Transformer构建模型。”—— Justin Dangel, Subquadratic CEO


突破二:OpenAI有益特质训练——小剂量RL跨领域增强AI安全

什么是"有益特质训练"?

OpenAI的研究团队提出了一种不同于Anthropic宪法AI的对齐方法:通过RL训练在真实对话场景中强化特定的行为特质:

有益特质定义
真实性(Truthfulness)提供准确信息,不编造事实
认识谦逊(Epistemic Humility)承认不确定,不过度自信
可修正性(Corrigibility)接受纠正和修改
推理透明(Transparency in Reasoning)展示推理过程
公平性(Fairness)不偏袒或歧视
人类福祉关注(Concern for Human Well-being)考虑对人的影响

训练场景覆盖医疗、教育、科学、法律、工程等多个领域。

核心发现:善行跨领域泛化

OpenAI的关键发现是:仅在少量有益特质数据上训练(混入常规RL后训练流水线),模型在44/53独立基准上取得改善:

改善领域基准数量详情
欺骗检测提升
诚实度提升
谄媚倾向降低
奖励黑客降低
健康场景提升
心理健康场景提升

跨领域泛化的惊人发现

训练数据改善领域
仅健康数据训练非健康基准(奖励黑客、欺骗检测)也改善
无健康/科学数据训练健康基准也改善

这说明RL训练强化的是基本行为模式(fundamental behavioral patterns),而非特定领域知识——善行可以跨领域泛化。

“选择性持久”:抵抗有害操控

研究团队还测试了有益特质训练在压力下的稳定性:

测试条件基线模型有益特质模型
对抗性提示大幅失稳影响显著降低
有害微调可侵蚀训练特质难以侵蚀
有用指令正常可操控正常可操控

这就是"选择性持久"(Selective Persistence)——模型抵抗有害操控,但不丧失有用的灵活性。

与Anthropic宪法AI的对比

维度OpenAI有益特质RLAnthropic宪法AI
核心方法可测量行为特质 + RL真实场景书面价值观文档 + 理解训练
验证方式44/53基准改善原则导向+理解为什么行为重要
泛化机制行为模式跨领域自然泛化价值观内化驱动行为
抗攻击机制选择性持久(抵抗有害操控)宪法理解使攻击难以生效
哲学差异经验主义(可测量+可验证)原则主义(理解为什么+内化)

两种方法尚未有直接对比评测。但OpenAI的论文提供了大量量化基准数据,Anthropic的方法更侧重定性原则理解。


两大突破的共同意义

维度Subquadratic突破OpenAI突破
挑战对象Transformer架构基础AI对齐宪法范式
核心主张稀疏注意力可替代稠密注意力行为特质RL可替代宪法训练
验证方式Appen独立评测44/53基准改善
争议程度高("AI Theranos"质疑)低(量化数据支撑)
如果成立LLM架构根本改变AI安全训练范式改变

两条路径共同指向一个方向:AI的底层范式正在松动——无论是架构层面还是安全层面,2026年6月正在成为范式转折的密集期。


FAQ

Q1:Subquadratic的SubQ模型真的能替代Transformer吗?
A1:目前证据不足以完全证实。Appen独立评测结果令人瞩目(56倍速度、12M上下文),但SubQ复用了Qwen权重而非从零训练,且尚未广泛可用。"几年内没人会用Transformer"的声明过于激进——需要更多独立验证和广泛可用性测试。

Q2:SubQ的12M Token上下文窗口意味着什么?
A2:意味着模型可以一次性处理约900万汉字(约400份文档),在RULER基准上以$8的成本完成Opus 4.6需要$2,600的任务。如果验证成立,长上下文任务的经济可行性将被彻底改写。

Q3:OpenAI有益特质训练与Anthropic宪法AI哪个更好?
A3:尚无直接对比评测。OpenAI的方法优势在于量化验证(44/53基准改善)和跨领域泛化;Anthropic的方法优势在于模型理解"为什么"某些行为重要,可能更具鲁棒性。两种方法可能互补而非互斥。

Q4:什么是"选择性持久"?
A4:指模型在有益特质训练后,抵抗有害操控(对抗性提示、有害微调)但不丧失有用灵活性(正常指令仍可操控)的特性。这是AI安全领域的重要发现——安全增强不必以牺牲有用性为代价。

Q5:这两大突破对AI Agent有何影响?
A5:SubQ的12M上下文+低成本可使Agent处理更复杂的长链路任务;有益特质训练的跨领域泛化可使Agent在更多场景下安全运行。两者结合将推动AI Agent从"短程+受限"向"长程+安全"演进。


参考资料

  1. MIT Technology Review (2026-06-19): “A startup claims it broke through a bottleneck that’s holding back LLMs”
  2. Subquadratic (2026-05): “Introducing SubQ” + SubQ-1-1-Small Model Card
  3. Appen (2026-06): “Subquadratic Preview Model Benchmark Evaluation” - 独立第三方评测报告
  4. OpenAI Alignment (2026-06-19): “Beneficial RL: Training AI Models on Desired Behavioral Traits” + 论文PDF
  5. The Decoder (2026-06-19): “OpenAI researchers show small doses of ‘beneficial trait’ training make AI models broadly safer”
  6. VentureBeat (2026-06-18): Dan McAteer评论: “SubQ is either biggest breakthrough since Transformer or AI Theranos”

http://www.jsqmd.com/news/1053335/

相关文章:

  • QQ音乐QMC格式转换终极指南:快速解密QMC3/QMC0/QMCFLAC文件
  • 黄金名表回收出品质哪家高?2026十大出品牌深度测评,所见即所得不踩雷 - myqiye
  • Gemini Enterprise 3.0 pro零基础开发指南:用自然语言造软件
  • Minecraft启动器HMCL深度解析:跨平台游戏管理的终极方案
  • SCF5250总线操作与中断控制实战:从三时钟周期到双中断架构
  • DeepSeek V4 与 Claude Code 协同工作流实战指南
  • 百考通智能化AI,赋能答辩PPT,让学术展示更高效从容
  • 2026龙井茶行业格局解读,综合实力厂家优选价格透明口碑推荐 - 工业品牌热点
  • 嵌入式GUI多语言支持:从UTF-8编码到BIDI算法的实战指南
  • 2026矿业权纠纷律师服务实力之选 行业前五品牌深度解析 避免隐形消费 - myqiye
  • Windows虚拟显示器驱动:Rust技术驱动的多屏扩展革命
  • LPC3180引脚复用配置:从原理到实战的嵌入式设计指南
  • QKeyMapper:Windows平台终极按键映射工具,5步实现键盘鼠标手柄自由转换
  • 从微软官网下载Win10正式版ISO镜像的技巧
  • 2026十大网红玩具定制按需定制厂家综合口碑榜单,价格透明不交智商税 - myqiye
  • 【三国志 App 实战系列 18】HarmonyOS ArkTS 地图全屏交互实战:触摸缩放、横屏适配与边界控制
  • Pinwheel调度NP完全性证明:从理论到工程实践的复杂性启示
  • [论文学习]大规模线上去匿名化: LLM 驱动的隐私挑战与自动化攻击框架
  • FinBERT领域微调实战:从通用模型到芬兰语NLP专用利器
  • CentOS 6 部署 SMF 的系统兼容性实战指南
  • TWR-KL46Z48M开发板从入门到精通:ARM Cortex-M0+实战指南
  • 2026重庆两江新区机器人编程机构实测盘点:合规资质与教学品质5机构横向对比 - 互联网科技品牌测评
  • 嵌入式GUI开发:emWin多缓冲与虚拟屏幕技术实战解析
  • CircuitJS1桌面版:打造你的个人电子实验室
  • 信号时序逻辑与韧性量化:从理论到自动驾驶与工业物联网的工程实践
  • 2.4GHz Wi-Fi功率放大器SST12CP11:从核心参数到PCB布局的射频设计实战
  • 2026柏兮租车项目对接用车口碑推荐强势出炉,零套路不踩坑,租车看这篇就够 - mypinpai
  • 嵌入式GUI开发实战:从emWin配置到硬件加速优化
  • 网盘直链下载助手实用指南:九大网盘高速下载完全教程
  • CPGRec框架:平衡游戏推荐中的个性化与多样性