当前位置：首页 > news >正文

CALM自编码器：用连续向量替代离散token，生成效率提升4倍

news 2026/7/2 15:36:59

过去这些年语言模型的效率优化基本围绕着两条主线展开：参数规模和注意力机制的复杂度。但有个更根本的问题一直被忽视，那就是自回归生成本身的代价。这种逐token生成的模式让模型具备了强大的通用性，同时也带来了难以回避的计算开销。

现在有一种思路值得关注：不去替换现有的优化手段，而是在上层加一个潜在空间的映射层，直接削减前向传播的次数。

每次让GPT-5写封邮件模型都得一个token一个token地往外蹦字。每个token意味着一次完整的前向计算，要把数十亿参数全过一遍。生成1000个token的回复那就是1000次前向传播，整个神经网络要走1000遍，计算资源和延迟就这样一点点累积起来。自回归架构就是这么设计的现在这个机制正变成AI系统效率的最大瓶颈。

找到比token更高层次的表示形式，对降低延迟、提升吞吐量都有直接作用。换句话说，用更少的资源干同样的活儿。

token本身已经是词汇表规模和表达能力之间比较精妙的平衡了，想在这个基础上再优化并不简单。

词汇表示的粒度选择

主流语言模型的词汇表通常在3万到25万个token之间。每个token对应一个学习出来的嵌入向量，存在查找表里，和transformer的层一起训练。模型就是靠拼接这些子词片段来还原文本。

看看其他方案就知道为什么这个设计能胜出了。

如果往上走用完整的词或短语来表示，词汇表会膨胀到无法控制。词级分词得为每种语言的每个词形都建条目，短语级更不用说，光是两个词的组合就能把查找表撑爆。

往下走又会碰到另一个极端，字符级模型处理英文ASCII只要95个条目左右，内存占用看起来很好。但问题是要把所有语言知识塞进这么小的嵌入空间（这事儿本身就够呛），更要命的是生成变成了逐字符进行。本来就贵的自回归循环直接翻4到5倍。

子词token正好卡在中间这个位置。语义信息足够丰富，词汇表又不会大到装不下。transformer普及这么多年，分词方式基本没变过，原因就在这儿。

得换个角度，不是去替换token，而是在token之上再搭一层。

Continuous Autoregressive Language Models（CALM）做的就是这个思路。整个框架包含好几个模块，这篇文章先聚焦基础部分：把token序列压缩成密集向量的自编码器。

自编码器的作用

在讲CALM架构之前，得先理解自编码器为什么重要，最直观的例子是图像生成。

https://avoid.overfit.cn/post/0c9c3766205f44e5bc74fcf9328468ec

http://www.jsqmd.com/news/150430/

相关文章：

使用TensorRT进行模型压缩的正确姿势

LeetCode 458 - 可怜的小猪

06. 图像的几何变换

BO-CNN-LSTM贝叶斯优化卷积长短期记忆神经网络多输入多输出预测，MATLAB代码

NVIDIA TensorRT对稀疏模型的支持进展

如何使用『页脚HTML代码』-实现自推广 -『AI实现的小程序小游戏』

如何在 SwiftUI 中对 CoreImage 滤镜做实时预览

大模型Token成本太高？用TensorRT降低推理开销

如何在博客园『个人博客』中实现自推广 -『AI实现的小程序小游戏』

如何评估TensorRT对模型推理的提升幅度？

视觉Transformer模型的TensorRT优化之路

大数据诊断性分析中的数据可视化技巧

【计算机毕业设计案例】基于Java SpringBoot的乐器推荐系统设计基于springboot的音乐周边产品乐器售卖系统设计与实现(程序+文档+讲解+定制)

springboot_ssm超市在线配送管理系统java论文

实验进展总结

碳排放计算器：量化每次推理调用的绿色指数

2025年尘埃在线监测系统优质销售商排行榜单，粒子计数器/尘埃粒子计数器/台式粒子计数器尘埃在线监测系统销售厂家哪家靠谱 - 品牌推荐师

2025年度总结：十五年研发路的转身：从技术专家到COE的蜕变之年

NVIDIA TensorRT自动调优机制背后的黑科技

大模型推理成本居高不下？试试TensorRT量化方案

学长亲荐10个AI论文工具，研究生论文写作不再难！

DELL——DELL: Generating reactions and explanations for LLM-based misinformation detection

NVIDIA TensorRT对Hugging Face模型的支持现状

License服务器搭建：企业级授权管理体系设计

springboot_ssm民宿推荐系统_2k78b--论文

如何选择适合你的TensorRT优化级别？

1.1 永磁材料、电机结构与运行原理

东京节点上线公告：服务日本地区高频交易客户

为什么大模型推理必须使用TensorRT？