当前位置：首页 > news >正文

Subquadratic稀疏注意力突破Transformer瓶颈与OpenAI有益特质训练研究

news 2026/6/21 7:10:47

摘要

2026年6月19日，AI领域同时迎来两个根本性突破：迈阿密初创公司Subquadratic发布SubQ模型，宣称用动态稀疏注意力替代Transformer核心的稠密注意力机制，Appen独立评测证实56倍推理速度提升、12M Token上下文窗口、RULER 128基准成本$8 vs Anthropic Opus 4.6的$2600；同日OpenAI发布"有益特质训练"研究论文，证明仅需小剂量RL训练（真实性、认识谦逊、可修正性等特质），即可在44/53独立基准上跨领域提升AI安全性，且模型对有害微调产生"选择性持久"抵抗。两条路径分别挑战Transformer架构基础和AI对齐范式，意义深远。

核心结论：Transformer的稠密注意力瓶颈和AI对齐的宪法式方法，在同一天被分别挑战——Subquadratic用稀疏注意力宣告"几年内没人会用Transformer"，OpenAI用行为特质RL证明"小剂量训练可跨领域泛化安全"。AI架构和安全的底层范式正在同时松动。

突破一：Subquadratic——稀疏注意力颠覆Transformer核心

什么是Transformer的二次复杂度瓶颈？

Transformer的核心机制是稠密注意力（Dense Attention）：处理一段文本时，每个token需要与所有其他token进行乘法运算。

文本长度	计算次数	直观理解
10,000词	~50,000,000次	一篇短文
100,000词	~5,000,000,000次	一本书
1,000,000词	~500,000,000,000次	大型代码库

这就是"二次复杂度"（Quadratic Complexity）瓶颈——文本长度翻倍，计算量翻四倍。它使得LLM成为耗电大户，也限制了大上下文窗口的经济可行性。

“如果你想总结《了不起的盖茨比》，你必须看第一个词和最后一个词，然后看所有其他组合。”—— Justin Dangel, Subquadratic CEO（来源：MIT Tech Review, 2026-06-19）

SubQ的解决方案：动态稀疏注意力

Subquadratic的核心创新是动态稀疏注意力（Dynamic Sparse Attention）——不再让每个token与所有token相乘，而是智能选择哪些关系重要：

方法	计算策略	灵活性
稠密注意力（Transformer）	每个token×所有token	零灵活性
固定稀疏注意力（历史方法）	固定模式（如第1词×第5词）	极低灵活性
SubQ动态稀疏注意力	实时计算哪些关系重要	高灵活性

“稀疏注意力说不是所有关系都重要，因为它们确实不重要。如果你在读一本书，你不会看第一个词和第二个词、第一个词和第三个词——那太疯狂了。”—— Alex Whedon, Subquadratic CTO（来源：MIT Tech Review, 2026-06-19）

Subquadratic拒绝透露具体的动态选择算法——“这就是秘方所在”（“That’s kind of where the secret sauce is”）。

Appen独立评测结果

第三方评测公司Appen对SubQ进行了独立评测，结果如下：

评测项	SubQ成绩	对比
推理速度	FlashAttention的56倍	FlashAttention是目前最快的稀疏注意力技术
LiveCodeBench	89.7%	与顶级编程模型同级别
RULER 128（NVIDIA长上下文检索基准）	运行成本$8	Anthropic Opus 4.6运行成本$2,600（325倍差距）
Needle-in-Haystack（6M/12M上下文）	98%	“在极大规模上维持近乎完美的长上下文检索”
上下文窗口	12M Token	大多数顶级模型仅1M Token（12倍差距）

“这对我来说真的很令人兴奋，它验证了他们的架构。我当时想，‘哇，这可能是游戏规则改变者。’”—— Jeanine Sinanan-Singh, Appen生成式AI研究总监（来源：MIT Tech Review, 2026-06-19）

SubQ的关键特性

特性	SubQ	行业标准
上下文窗口	12M Token	1M Token（GPT-5.5/Gemini 3.5）
推理速度	56× FlashAttention	FlashAttention为当前最快
RULER 128成本	$8	$2,600（Opus 4.6）
LiveCodeBench	89.7%	顶级模型级别
基础权重	Qwen开源模型复用	全新训练

质疑与争议

尽管Appen评测结果令人瞩目，但社区质疑声同样强烈：

质疑点	详情
“AI Theranos”？	Dan McAteer工程师：“SubQ要么是Transformer以来最大突破……要么是AI Theranos。”
权重复用问题	SubQ复用了Qwen的权重进行bootstrapping，而非从零训练——这与"彻底重新发明LLM"的声明矛盾
尚未广泛可用	仅极少数人获得访问权限，数万人仍在等待列表上
基准不等于真实能力	特定条件下的基准测试不等同于广泛真实任务验证
公司规模限制	Subquadratic是小公司，资源有限，无法同时服务大量用户

“他们可能构建了真实有用的东西。但公开证据尚不足以支撑更强硬的声明——他们已经解决了二次注意力瓶颈。”—— Will Depue, 独立AI研究者/前OpenAI员工（来源：MIT Tech Review, 2026-06-19）

Subquadratic的雄心

“我们希望正在开启效率的新时代。我们认为几年内没人会用Transformer构建模型。”—— Justin Dangel, Subquadratic CEO

突破二：OpenAI有益特质训练——小剂量RL跨领域增强AI安全

什么是"有益特质训练"？

OpenAI的研究团队提出了一种不同于Anthropic宪法AI的对齐方法：通过RL训练在真实对话场景中强化特定的行为特质：

有益特质	定义
真实性（Truthfulness）	提供准确信息，不编造事实
认识谦逊（Epistemic Humility）	承认不确定，不过度自信
可修正性（Corrigibility）	接受纠正和修改
推理透明（Transparency in Reasoning）	展示推理过程
公平性（Fairness）	不偏袒或歧视
人类福祉关注（Concern for Human Well-being）	考虑对人的影响

训练场景覆盖医疗、教育、科学、法律、工程等多个领域。

核心发现：善行跨领域泛化

OpenAI的关键发现是：仅在少量有益特质数据上训练（混入常规RL后训练流水线），模型在44/53独立基准上取得改善：

改善领域	基准数量	详情
欺骗检测	提升	—
诚实度	提升	—
谄媚倾向	降低	—
奖励黑客	降低	—
健康场景	提升	—
心理健康场景	提升	—

跨领域泛化的惊人发现：

训练数据	改善领域
仅健康数据训练	非健康基准（奖励黑客、欺骗检测）也改善
无健康/科学数据训练	健康基准也改善

这说明RL训练强化的是基本行为模式（fundamental behavioral patterns），而非特定领域知识——善行可以跨领域泛化。

“选择性持久”：抵抗有害操控

研究团队还测试了有益特质训练在压力下的稳定性：

测试条件	基线模型	有益特质模型
对抗性提示	大幅失稳	影响显著降低
有害微调	可侵蚀训练特质	难以侵蚀
有用指令	正常可操控	正常可操控

这就是"选择性持久"（Selective Persistence）——模型抵抗有害操控，但不丧失有用的灵活性。

与Anthropic宪法AI的对比

维度	OpenAI有益特质RL	Anthropic宪法AI
核心方法	可测量行为特质 + RL真实场景	书面价值观文档 + 理解训练
验证方式	44/53基准改善	原则导向+理解为什么行为重要
泛化机制	行为模式跨领域自然泛化	价值观内化驱动行为
抗攻击机制	选择性持久（抵抗有害操控）	宪法理解使攻击难以生效
哲学差异	经验主义（可测量+可验证）	原则主义（理解为什么+内化）

两种方法尚未有直接对比评测。但OpenAI的论文提供了大量量化基准数据，Anthropic的方法更侧重定性原则理解。

两大突破的共同意义

维度	Subquadratic突破	OpenAI突破
挑战对象	Transformer架构基础	AI对齐宪法范式
核心主张	稀疏注意力可替代稠密注意力	行为特质RL可替代宪法训练
验证方式	Appen独立评测	44/53基准改善
争议程度	高（"AI Theranos"质疑）	低（量化数据支撑）
如果成立	LLM架构根本改变	AI安全训练范式改变

两条路径共同指向一个方向：AI的底层范式正在松动——无论是架构层面还是安全层面，2026年6月正在成为范式转折的密集期。

FAQ

Q1：Subquadratic的SubQ模型真的能替代Transformer吗？
A1：目前证据不足以完全证实。Appen独立评测结果令人瞩目（56倍速度、12M上下文），但SubQ复用了Qwen权重而非从零训练，且尚未广泛可用。"几年内没人会用Transformer"的声明过于激进——需要更多独立验证和广泛可用性测试。

Q2：SubQ的12M Token上下文窗口意味着什么？
A2：意味着模型可以一次性处理约900万汉字（约400份文档），在RULER基准上以$8的成本完成Opus 4.6需要$2,600的任务。如果验证成立，长上下文任务的经济可行性将被彻底改写。

Q3：OpenAI有益特质训练与Anthropic宪法AI哪个更好？
A3：尚无直接对比评测。OpenAI的方法优势在于量化验证（44/53基准改善）和跨领域泛化；Anthropic的方法优势在于模型理解"为什么"某些行为重要，可能更具鲁棒性。两种方法可能互补而非互斥。

Q4：什么是"选择性持久"？
A4：指模型在有益特质训练后，抵抗有害操控（对抗性提示、有害微调）但不丧失有用灵活性（正常指令仍可操控）的特性。这是AI安全领域的重要发现——安全增强不必以牺牲有用性为代价。

Q5：这两大突破对AI Agent有何影响？
A5：SubQ的12M上下文+低成本可使Agent处理更复杂的长链路任务；有益特质训练的跨领域泛化可使Agent在更多场景下安全运行。两者结合将推动AI Agent从"短程+受限"向"长程+安全"演进。

参考资料

MIT Technology Review (2026-06-19): “A startup claims it broke through a bottleneck that’s holding back LLMs”
Subquadratic (2026-05): “Introducing SubQ” + SubQ-1-1-Small Model Card
Appen (2026-06): “Subquadratic Preview Model Benchmark Evaluation” - 独立第三方评测报告
OpenAI Alignment (2026-06-19): “Beneficial RL: Training AI Models on Desired Behavioral Traits” + 论文PDF
The Decoder (2026-06-19): “OpenAI researchers show small doses of ‘beneficial trait’ training make AI models broadly safer”
VentureBeat (2026-06-18): Dan McAteer评论: “SubQ is either biggest breakthrough since Transformer or AI Theranos”

查看全文

http://www.jsqmd.com/news/1053335/