Subquadratic稀疏注意力突破Transformer瓶颈与OpenAI有益特质训练研究
摘要
2026年6月19日,AI领域同时迎来两个根本性突破:迈阿密初创公司Subquadratic发布SubQ模型,宣称用动态稀疏注意力替代Transformer核心的稠密注意力机制,Appen独立评测证实56倍推理速度提升、12M Token上下文窗口、RULER 128基准成本$8 vs Anthropic Opus 4.6的$2600;同日OpenAI发布"有益特质训练"研究论文,证明仅需小剂量RL训练(真实性、认识谦逊、可修正性等特质),即可在44/53独立基准上跨领域提升AI安全性,且模型对有害微调产生"选择性持久"抵抗。两条路径分别挑战Transformer架构基础和AI对齐范式,意义深远。
核心结论:Transformer的稠密注意力瓶颈和AI对齐的宪法式方法,在同一天被分别挑战——Subquadratic用稀疏注意力宣告"几年内没人会用Transformer",OpenAI用行为特质RL证明"小剂量训练可跨领域泛化安全"。AI架构和安全的底层范式正在同时松动。
突破一:Subquadratic——稀疏注意力颠覆Transformer核心
什么是Transformer的二次复杂度瓶颈?
Transformer的核心机制是稠密注意力(Dense Attention):处理一段文本时,每个token需要与所有其他token进行乘法运算。
| 文本长度 | 计算次数 | 直观理解 |
|---|---|---|
| 10,000词 | ~50,000,000次 | 一篇短文 |
| 100,000词 | ~5,000,000,000次 | 一本书 |
| 1,000,000词 | ~500,000,000,000次 | 大型代码库 |
这就是"二次复杂度"(Quadratic Complexity)瓶颈——文本长度翻倍,计算量翻四倍。它使得LLM成为耗电大户,也限制了大上下文窗口的经济可行性。
“如果你想总结《了不起的盖茨比》,你必须看第一个词和最后一个词,然后看所有其他组合。”—— Justin Dangel, Subquadratic CEO(来源:MIT Tech Review, 2026-06-19)
SubQ的解决方案:动态稀疏注意力
Subquadratic的核心创新是动态稀疏注意力(Dynamic Sparse Attention)——不再让每个token与所有token相乘,而是智能选择哪些关系重要:
| 方法 | 计算策略 | 灵活性 |
|---|---|---|
| 稠密注意力(Transformer) | 每个token×所有token | 零灵活性 |
| 固定稀疏注意力(历史方法) | 固定模式(如第1词×第5词) | 极低灵活性 |
| SubQ动态稀疏注意力 | 实时计算哪些关系重要 | 高灵活性 |
“稀疏注意力说不是所有关系都重要,因为它们确实不重要。如果你在读一本书,你不会看第一个词和第二个词、第一个词和第三个词——那太疯狂了。”—— Alex Whedon, Subquadratic CTO(来源:MIT Tech Review, 2026-06-19)
Subquadratic拒绝透露具体的动态选择算法——“这就是秘方所在”(“That’s kind of where the secret sauce is”)。
Appen独立评测结果
第三方评测公司Appen对SubQ进行了独立评测,结果如下:
| 评测项 | SubQ成绩 | 对比 |
|---|---|---|
| 推理速度 | FlashAttention的56倍 | FlashAttention是目前最快的稀疏注意力技术 |
| LiveCodeBench | 89.7% | 与顶级编程模型同级别 |
| RULER 128(NVIDIA长上下文检索基准) | 运行成本**$8** | Anthropic Opus 4.6运行成本**$2,600**(325倍差距) |
| Needle-in-Haystack(6M/12M上下文) | 98% | “在极大规模上维持近乎完美的长上下文检索” |
| 上下文窗口 | 12M Token | 大多数顶级模型仅1M Token(12倍差距) |
“这对我来说真的很令人兴奋,它验证了他们的架构。我当时想,‘哇,这可能是游戏规则改变者。’”—— Jeanine Sinanan-Singh, Appen生成式AI研究总监(来源:MIT Tech Review, 2026-06-19)
SubQ的关键特性
| 特性 | SubQ | 行业标准 |
|---|---|---|
| 上下文窗口 | 12M Token | 1M Token(GPT-5.5/Gemini 3.5) |
| 推理速度 | 56× FlashAttention | FlashAttention为当前最快 |
| RULER 128成本 | $8 | $2,600(Opus 4.6) |
| LiveCodeBench | 89.7% | 顶级模型级别 |
| 基础权重 | Qwen开源模型复用 | 全新训练 |
质疑与争议
尽管Appen评测结果令人瞩目,但社区质疑声同样强烈:
| 质疑点 | 详情 |
|---|---|
| “AI Theranos”? | Dan McAteer工程师:“SubQ要么是Transformer以来最大突破……要么是AI Theranos。” |
| 权重复用问题 | SubQ复用了Qwen的权重进行bootstrapping,而非从零训练——这与"彻底重新发明LLM"的声明矛盾 |
| 尚未广泛可用 | 仅极少数人获得访问权限,数万人仍在等待列表上 |
| 基准不等于真实能力 | 特定条件下的基准测试不等同于广泛真实任务验证 |
| 公司规模限制 | Subquadratic是小公司,资源有限,无法同时服务大量用户 |
“他们可能构建了真实有用的东西。但公开证据尚不足以支撑更强硬的声明——他们已经解决了二次注意力瓶颈。”—— Will Depue, 独立AI研究者/前OpenAI员工(来源:MIT Tech Review, 2026-06-19)
Subquadratic的雄心
“我们希望正在开启效率的新时代。我们认为几年内没人会用Transformer构建模型。”—— Justin Dangel, Subquadratic CEO
突破二:OpenAI有益特质训练——小剂量RL跨领域增强AI安全
什么是"有益特质训练"?
OpenAI的研究团队提出了一种不同于Anthropic宪法AI的对齐方法:通过RL训练在真实对话场景中强化特定的行为特质:
| 有益特质 | 定义 |
|---|---|
| 真实性(Truthfulness) | 提供准确信息,不编造事实 |
| 认识谦逊(Epistemic Humility) | 承认不确定,不过度自信 |
| 可修正性(Corrigibility) | 接受纠正和修改 |
| 推理透明(Transparency in Reasoning) | 展示推理过程 |
| 公平性(Fairness) | 不偏袒或歧视 |
| 人类福祉关注(Concern for Human Well-being) | 考虑对人的影响 |
训练场景覆盖医疗、教育、科学、法律、工程等多个领域。
核心发现:善行跨领域泛化
OpenAI的关键发现是:仅在少量有益特质数据上训练(混入常规RL后训练流水线),模型在44/53独立基准上取得改善:
| 改善领域 | 基准数量 | 详情 |
|---|---|---|
| 欺骗检测 | 提升 | — |
| 诚实度 | 提升 | — |
| 谄媚倾向 | 降低 | — |
| 奖励黑客 | 降低 | — |
| 健康场景 | 提升 | — |
| 心理健康场景 | 提升 | — |
跨领域泛化的惊人发现:
| 训练数据 | 改善领域 |
|---|---|
| 仅健康数据训练 | 非健康基准(奖励黑客、欺骗检测)也改善 |
| 无健康/科学数据训练 | 健康基准也改善 |
这说明RL训练强化的是基本行为模式(fundamental behavioral patterns),而非特定领域知识——善行可以跨领域泛化。
“选择性持久”:抵抗有害操控
研究团队还测试了有益特质训练在压力下的稳定性:
| 测试条件 | 基线模型 | 有益特质模型 |
|---|---|---|
| 对抗性提示 | 大幅失稳 | 影响显著降低 |
| 有害微调 | 可侵蚀训练特质 | 难以侵蚀 |
| 有用指令 | 正常可操控 | 正常可操控 |
这就是"选择性持久"(Selective Persistence)——模型抵抗有害操控,但不丧失有用的灵活性。
与Anthropic宪法AI的对比
| 维度 | OpenAI有益特质RL | Anthropic宪法AI |
|---|---|---|
| 核心方法 | 可测量行为特质 + RL真实场景 | 书面价值观文档 + 理解训练 |
| 验证方式 | 44/53基准改善 | 原则导向+理解为什么行为重要 |
| 泛化机制 | 行为模式跨领域自然泛化 | 价值观内化驱动行为 |
| 抗攻击机制 | 选择性持久(抵抗有害操控) | 宪法理解使攻击难以生效 |
| 哲学差异 | 经验主义(可测量+可验证) | 原则主义(理解为什么+内化) |
两种方法尚未有直接对比评测。但OpenAI的论文提供了大量量化基准数据,Anthropic的方法更侧重定性原则理解。
两大突破的共同意义
| 维度 | Subquadratic突破 | OpenAI突破 |
|---|---|---|
| 挑战对象 | Transformer架构基础 | AI对齐宪法范式 |
| 核心主张 | 稀疏注意力可替代稠密注意力 | 行为特质RL可替代宪法训练 |
| 验证方式 | Appen独立评测 | 44/53基准改善 |
| 争议程度 | 高("AI Theranos"质疑) | 低(量化数据支撑) |
| 如果成立 | LLM架构根本改变 | AI安全训练范式改变 |
两条路径共同指向一个方向:AI的底层范式正在松动——无论是架构层面还是安全层面,2026年6月正在成为范式转折的密集期。
FAQ
Q1:Subquadratic的SubQ模型真的能替代Transformer吗?
A1:目前证据不足以完全证实。Appen独立评测结果令人瞩目(56倍速度、12M上下文),但SubQ复用了Qwen权重而非从零训练,且尚未广泛可用。"几年内没人会用Transformer"的声明过于激进——需要更多独立验证和广泛可用性测试。
Q2:SubQ的12M Token上下文窗口意味着什么?
A2:意味着模型可以一次性处理约900万汉字(约400份文档),在RULER基准上以$8的成本完成Opus 4.6需要$2,600的任务。如果验证成立,长上下文任务的经济可行性将被彻底改写。
Q3:OpenAI有益特质训练与Anthropic宪法AI哪个更好?
A3:尚无直接对比评测。OpenAI的方法优势在于量化验证(44/53基准改善)和跨领域泛化;Anthropic的方法优势在于模型理解"为什么"某些行为重要,可能更具鲁棒性。两种方法可能互补而非互斥。
Q4:什么是"选择性持久"?
A4:指模型在有益特质训练后,抵抗有害操控(对抗性提示、有害微调)但不丧失有用灵活性(正常指令仍可操控)的特性。这是AI安全领域的重要发现——安全增强不必以牺牲有用性为代价。
Q5:这两大突破对AI Agent有何影响?
A5:SubQ的12M上下文+低成本可使Agent处理更复杂的长链路任务;有益特质训练的跨领域泛化可使Agent在更多场景下安全运行。两者结合将推动AI Agent从"短程+受限"向"长程+安全"演进。
参考资料
- MIT Technology Review (2026-06-19): “A startup claims it broke through a bottleneck that’s holding back LLMs”
- Subquadratic (2026-05): “Introducing SubQ” + SubQ-1-1-Small Model Card
- Appen (2026-06): “Subquadratic Preview Model Benchmark Evaluation” - 独立第三方评测报告
- OpenAI Alignment (2026-06-19): “Beneficial RL: Training AI Models on Desired Behavioral Traits” + 论文PDF
- The Decoder (2026-06-19): “OpenAI researchers show small doses of ‘beneficial trait’ training make AI models broadly safer”
- VentureBeat (2026-06-18): Dan McAteer评论: “SubQ is either biggest breakthrough since Transformer or AI Theranos”
