当前位置: 首页 > news >正文

CALM自编码器:用连续向量替代离散token,生成效率提升4倍

过去这些年语言模型的效率优化基本围绕着两条主线展开:参数规模和注意力机制的复杂度。但有个更根本的问题一直被忽视,那就是自回归生成本身的代价。这种逐token生成的模式让模型具备了强大的通用性,同时也带来了难以回避的计算开销。

现在有一种思路值得关注:不去替换现有的优化手段,而是在上层加一个潜在空间的映射层,直接削减前向传播的次数。

每次让GPT-5写封邮件模型都得一个token一个token地往外蹦字。每个token意味着一次完整的前向计算,要把数十亿参数全过一遍。生成1000个token的回复那就是1000次前向传播,整个神经网络要走1000遍,计算资源和延迟就这样一点点累积起来。自回归架构就是这么设计的现在这个机制正变成AI系统效率的最大瓶颈。

找到比token更高层次的表示形式,对降低延迟、提升吞吐量都有直接作用。换句话说,用更少的资源干同样的活儿。

token本身已经是词汇表规模和表达能力之间比较精妙的平衡了,想在这个基础上再优化并不简单。

词汇表示的粒度选择

主流语言模型的词汇表通常在3万到25万个token之间。每个token对应一个学习出来的嵌入向量,存在查找表里,和transformer的层一起训练。模型就是靠拼接这些子词片段来还原文本。

看看其他方案就知道为什么这个设计能胜出了。

如果往上走用完整的词或短语来表示,词汇表会膨胀到无法控制。 词级分词得为每种语言的每个词形都建条目,短语级更不用说,光是两个词的组合就能把查找表撑爆。

往下走又会碰到另一个极端,字符级模型处理英文ASCII只要95个条目左右,内存占用看起来很好。 但问题是要把所有语言知识塞进这么小的嵌入空间(这事儿本身就够呛),更要命的是生成变成了逐字符进行。本来就贵的自回归循环直接翻4到5倍。

子词token正好卡在中间这个位置。语义信息足够丰富,词汇表又不会大到装不下。transformer普及这么多年,分词方式基本没变过,原因就在这儿。

得换个角度,不是去替换token,而是在token之上再搭一层。

Continuous Autoregressive Language Models(CALM)做的就是这个思路。整个框架包含好几个模块,这篇文章先聚焦基础部分:把token序列压缩成密集向量的自编码器。

自编码器的作用

在讲CALM架构之前,得先理解自编码器为什么重要,最直观的例子是图像生成。

 

https://avoid.overfit.cn/post/0c9c3766205f44e5bc74fcf9328468ec

http://www.jsqmd.com/news/150430/

相关文章:

  • 使用TensorRT进行模型压缩的正确姿势
  • 巴拉巴拉
  • LeetCode 458 - 可怜的小猪
  • 06. 图像的几何变换
  • BO-CNN-LSTM贝叶斯优化卷积长短期记忆神经网络多输入多输出预测,MATLAB代码
  • NVIDIA TensorRT对稀疏模型的支持进展
  • 如何使用『页脚HTML代码』-实现自推广 -『AI实现的小程序小游戏』
  • 如何在 SwiftUI 中对 CoreImage 滤镜做实时预览
  • 大模型Token成本太高?用TensorRT降低推理开销
  • 如何在博客园『个人博客』中实现自推广 -『AI实现的小程序小游戏』
  • 如何评估TensorRT对模型推理的提升幅度?
  • 视觉Transformer模型的TensorRT优化之路
  • 大数据诊断性分析中的数据可视化技巧
  • 【计算机毕业设计案例】基于Java SpringBoot的乐器推荐系统设计基于springboot的音乐周边产品乐器售卖系统设计与实现(程序+文档+讲解+定制)
  • springboot_ssm超市在线配送管理系统java论文
  • 实验进展总结
  • 碳排放计算器:量化每次推理调用的绿色指数
  • 2025年尘埃在线监测系统优质销售商排行榜单,粒子计数器/尘埃粒子计数器/台式粒子计数器尘埃在线监测系统销售厂家哪家靠谱 - 品牌推荐师
  • 2025年度总结:十五年研发路的转身:从技术专家到COE的蜕变之年
  • NVIDIA TensorRT自动调优机制背后的黑科技
  • 大模型推理成本居高不下?试试TensorRT量化方案
  • 学长亲荐10个AI论文工具,研究生论文写作不再难!
  • DELL——DELL: Generating reactions and explanations for LLM-based misinformation detection
  • NVIDIA TensorRT对Hugging Face模型的支持现状
  • License服务器搭建:企业级授权管理体系设计
  • springboot_ssm民宿推荐系统_2k78b--论文
  • 如何选择适合你的TensorRT优化级别?
  • 1.1 永磁材料、电机结构与运行原理
  • 东京节点上线公告:服务日本地区高频交易客户
  • 为什么大模型推理必须使用TensorRT?