小钢炮MiniCPM-SALA 混合注意力架构与低成本训练范式
一. 引言:长文本时代的“计算”与“记忆”悖论
随着大语言模型(LLM)向 Repository 级代码分析、超长文档理解以及长周期 Agent 任务演进,Context Length(上下文长度)已成为衡量模型能力的核心指标之一。然而,基于 Transformer 的主流架构面临着严峻的O(N2)O(N^2)O(N
随着大语言模型(LLM)向 Repository 级代码分析、超长文档理解以及长周期 Agent 任务演进,Context Length(上下文长度)已成为衡量模型能力的核心指标之一。然而,基于 Transformer 的主流架构面临着严峻的O(N2)O(N^2)O(N