当前位置: 首页 > news >正文

当几何打败数学:TurboQuant与一次来自中学课本的逆袭

LLM 推理的内存瓶颈,困扰了行业整整十年。

KV cache——模型处理长文本时用来存储「已经看过内容」的高速缓存——会随着上下文长度线性增长。一篇 10 万字的文章,KV cache 可以吃掉几十 GB 显存。所有人都知道这是瓶颈,所有人都在想办法压缩它,但十年下来,主流方案始终绕不开一个根本矛盾:压缩率越高,精度损失越严重。

Google Research 上周发表的 TurboQuant 论文,在解决这个问题之前,先把问题的根子翻了出来。

答案让他们自己都有点意外:问题出在坐标系的选取上。


教科书没教的那一步

传统的向量量化,用的是最直觉的坐标系:笛卡尔坐标。X 轴、Y 轴、Z 轴,每个维度记录一个数值,每个数值都需要单独存储量化常数。

这在几何学里叫做「标准正交基」——三个轴两两垂直,单位长度是 1。直观,好理解、符合直觉。

但这个「直觉」是有代价的。每一个维度都需要自己的量化常数(quantization constant)来保证精度,而这些常数本身也要占内存。结果就是:本来想省空间,省下来的空间被量化常数吃掉了一大半。

这是整个问题的盲区:大家都在研究怎么压缩,但没有人问——为什么压缩必须付出精度代价?

TurboQuant 的论文把这个问题重新审视了一遍,然后发现:答案不在压缩算法里,而在坐标系的选择里。


极坐标:换一个角度看问题

PolarQuant 是 TurboQuant 的第一级压缩。它的核心洞察是:与其用「沿每个轴走了多远」来描述一个向量,不如用「走了多远」加上「朝向哪个方向」来描述。

这就是极坐标的本质。

「往东走 3 米,往北走 4 米」——这是笛卡尔坐标。
「往东北方向走 5 米,角度是 53°」——这是极坐标。

两种描述数学上是等价的,但它们的量化特性完全不同

在笛卡尔坐标系里,一个向量的各个分量之间没有固定关系,数值分布是「方」的——每个维度有自己独立的边界,需要独立的量化常数来管理精度。

在极坐标系里,情况变了。向量的方向(角度)是可以被约束的——当我们对向量做随机旋转后,角度的分布会高度集中,形成一个固定的、可预测的模式。这意味着角度不再需要被单独存储,它的值可以通过统计规律推断出来。

半径(向量的「强度」)则包含了数据的主要信息,用标准量化器单独处理。

这个「几何简化」把问题的结构彻底改变了:原来需要为每个维度单独存储的量化常数,现在只需要一组全局参数就够了。内存开销从 O(d) 降到了 O(1),其中 d 是向量维度。


QJL:只花 1 bit 的纠错

PolarQuant 处理了主要信息,但压缩本身会引入误差。如果只做到这里,精度损失虽然比传统方法小,但仍然不可忽视。

TurboQuant 在这之后加了第二级:用 QJL(Quantized Johnson-Lindenstrauss)对残差进行纠错

这级的设计非常精巧:它只使用 1 bit 来编码误差,而且不需要存储任何额外参数。QJL 利用了 Johnson-Lindenstrauss 引理——一个关于「高维投影后距离保持」的数学定理——来把这 1 bit 的信息效率最大化。

PolarQuant 把「主要能量」压缩走了,QJL 把「剩下的那点误差」用最少的 bit 精确消除。两级分工,各司其职,没有浪费。


为什么这不是一个局部优化

看懂了这个设计之后,你会意识到这不是在原有框架上打补丁,而是把问题重新定义之后得出的解

传统量化的思路是:给定一个坐标系,优化压缩算法。
TurboQuant 的思路是:问一个问题——为什么非要用这个坐标系?

这个「换坐标系」的操作,在物理学里有大量先例。傅里叶变换把时域信号转到频域,很多在时域里复杂的运算在频域里变得异常简单。拉普拉斯变换、对数变换……每次坐标系更换,都伴随着问题复杂度的下降。

AI 里的向量量化,十年没人动坐标系这个根子。TurboQuant 动了,然后发现答案在中学几何里。


「零损失」这三个字的分量

「3-bit 压缩,零精度损失,无需重新训练。」

这三个条件放在一起,在 LLM 领域里几乎是矛盾的。

INT8 量化有损失,需要 QAT(量化感知训练)来弥补。INT4 量化损失更严重,需要 LoRA 微调来恢复。压缩率每提升一个台阶,精度恢复的成本就增加一分。这是过去几年行业的基本认知。

TurboQuant 打破了这个定式。它的 3-bit KV cache 压缩,在标准基准测试(LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval)上实现了与全精度模型相当的性能——没有微调,没有蒸馏,没有任何形式的二次训练

3-bit 意味着每个向量元素只需要 3 个 bit 来存储。相比 FP32 的 32 bit,压缩率是10.7x;相比 INT8 的 8 bit,压缩率也有2.7x

实际部署中,由于 KV cache 通常占推理显存 60-80%,10x 的压缩率意味着:同样一块 H100,可以支撑 10 倍的并发请求,或者把上下文窗口扩展 10 倍。

这笔账算下来,成本下降不是百分比的问题,是数量级的问题。


training-free 的真正价值

TurboQuant 做到了「无需 retraining 或 fine-tuning」,但这个「training-free」的实际意义比字面上还要大。

LLM 的量化适配,传统上需要在目标模型上做额外训练。这意味着:每一个新版本模型、每一个新微调变体、每一个新尺寸的模型,都需要重新跑一遍量化流程。

TurboQuant 的 training-free 特性,让量化变成了一层与模型无关的后处理。无论模型怎么变,只要 KV cache 的数据结构不变,TurboQuant 的压缩流程就直接可用。

这对部署架构的影响是深远的:量化不再是一个「需要为每个模型单独做」的工程,而是一个「一次性集成,随时可用」的模块。


为什么它能通用于所有模型

TurboQuant 在七个模型上全部做了测试:Gemma、Mistral,以及其他主流开源模型。每一家都实现了接近零损失的压缩效果。

这不是某家公司的算法优势,而是 PolarQuant 和 QJL 的数学原理决定的——它们不依赖模型的架构细节,只依赖向量在高维空间里的几何性质。任何遵循 Transformer 架构的模型,这个性质都成立。

这是基础研究突破的标志:一个数学上的洞察,同时解决了所有模型上的同一个问题。


参考文献

  • TurboQuant: Redefining AI efficiency with extreme compression (Google Research Blog)
  • TurboQuant arXiv
  • PolarQuant arXiv
  • Quantized Johnson-Lindenstrauss (AAAI 2026)
  • Google’s TurboQuant compresses LLM KV caches to 3 bits (Tom’s Hardware)
http://www.jsqmd.com/news/605337/

相关文章:

  • 从零开始:手把手教你用UML绘制状态图(附实战案例)
  • 弱网下游戏盾掉线重连失败?链路保活与超时参数优化
  • BFS模板
  • 泰勒图 Matlab代码 案例详细提供2套泰勒图画法:原始数据的泰勒图与对数据标准化后的泰勒图
  • 如何备份和恢复RAC数据库_配置多个通道连接不同节点实现并行备份
  • Java Web 核心进阶:会话跟踪与Servlet配置实战
  • MacBook高效办公:OpenClaw+Phi-3-vision-128k-instruct自动化实践
  • 星图GPU云体验OpenClaw:免安装调试Phi-3-mini-128k-instruct镜像
  • 电子python模拟出的一个完美风暴
  • OpenClaw+百川量化模型:个人公众号自动化排版发布实战
  • 2026年静音跑步机专业排行:微云跑步机/静音跑步机/家用跑步机/小型跑步机/减震跑步机/跑步机/选择指南 - 优质品牌商家
  • ZeroTermux中的Mysql
  • 从IMX290光谱曲线到红绿灯变色:聊聊监控摄像头ISP里那个神奇的CCM矩阵
  • 2026年mpa培训好不好:mpa笔试培训/mpa辅导/在职考研管综初试培训/在职考研管综初试辅导/选择指南 - 优质品牌商家
  • FPGA图像处理避坑指南:实现CLAHE时,你的直方图统计与插值模块可能踩的这些雷
  • CSS如何处理绝对定位引起的遮挡问题_调整z-index与层级管理
  • SQL窗口函数完整指南:5大高频场景详细代码注释(面试必备)
  • H-PPO: Advancing Hybrid Reinforcement Learning in Parameterized Action Spaces with Proximal Policy O
  • 别再瞎调参了!HuggingFace Trainer微调BERT/ViT的保姆级避坑指南(附ArcFace实战代码)
  • 工业质检新利器:手把手搭建M3DM环境(含CUDA KNN、PointNet2避坑指南)
  • OpenClaw技能市场探秘:Qwen3.5-9B-AWQ-4bit十佳实用技能推荐
  • LoRaWAN网关能传多远
  • 解决Deformable-DETR报错:ms_deformable_im2col_cuda找不到kernel image的终极指南(附CUDA路径配置技巧)
  • 别只盯着0x10发请求:深入理解UDS 10服务背后的会话管理机制与安全设计
  • 2026四川单招短期冲刺集训机构深度评测 - 优质品牌商家
  • 清风输入法(
  • 5分钟搞定FPGA原理图库:从XILINX官方文档到AD软件的全流程解析
  • 树莓派5硬件PWM驱动舵机实战:从设备树编译到精准角度控制
  • 蓝卓总裁陈玉龙:从数据底座到智能大脑,拆解supOS平台进化三部曲
  • OpenClaw+千问3.5-27B创作助手:从大纲到公众号全自动