当前位置：首页 > news >正文

当几何打败数学：TurboQuant与一次来自中学课本的逆袭

news 2026/6/9 21:40:53

LLM 推理的内存瓶颈，困扰了行业整整十年。

KV cache——模型处理长文本时用来存储「已经看过内容」的高速缓存——会随着上下文长度线性增长。一篇 10 万字的文章，KV cache 可以吃掉几十 GB 显存。所有人都知道这是瓶颈，所有人都在想办法压缩它，但十年下来，主流方案始终绕不开一个根本矛盾：压缩率越高，精度损失越严重。

Google Research 上周发表的 TurboQuant 论文，在解决这个问题之前，先把问题的根子翻了出来。

答案让他们自己都有点意外：问题出在坐标系的选取上。

教科书没教的那一步

传统的向量量化，用的是最直觉的坐标系：笛卡尔坐标。X 轴、Y 轴、Z 轴，每个维度记录一个数值，每个数值都需要单独存储量化常数。

这在几何学里叫做「标准正交基」——三个轴两两垂直，单位长度是 1。直观，好理解、符合直觉。

但这个「直觉」是有代价的。每一个维度都需要自己的量化常数（quantization constant）来保证精度，而这些常数本身也要占内存。结果就是：本来想省空间，省下来的空间被量化常数吃掉了一大半。

这是整个问题的盲区：大家都在研究怎么压缩，但没有人问——为什么压缩必须付出精度代价？

TurboQuant 的论文把这个问题重新审视了一遍，然后发现：答案不在压缩算法里，而在坐标系的选择里。

极坐标：换一个角度看问题

PolarQuant 是 TurboQuant 的第一级压缩。它的核心洞察是：与其用「沿每个轴走了多远」来描述一个向量，不如用「走了多远」加上「朝向哪个方向」来描述。

这就是极坐标的本质。

「往东走 3 米，往北走 4 米」——这是笛卡尔坐标。
「往东北方向走 5 米，角度是 53°」——这是极坐标。

两种描述数学上是等价的，但它们的量化特性完全不同。

在笛卡尔坐标系里，一个向量的各个分量之间没有固定关系，数值分布是「方」的——每个维度有自己独立的边界，需要独立的量化常数来管理精度。

在极坐标系里，情况变了。向量的方向（角度）是可以被约束的——当我们对向量做随机旋转后，角度的分布会高度集中，形成一个固定的、可预测的模式。这意味着角度不再需要被单独存储，它的值可以通过统计规律推断出来。

半径（向量的「强度」）则包含了数据的主要信息，用标准量化器单独处理。

这个「几何简化」把问题的结构彻底改变了：原来需要为每个维度单独存储的量化常数，现在只需要一组全局参数就够了。内存开销从 O(d) 降到了 O(1)，其中 d 是向量维度。

QJL：只花 1 bit 的纠错

PolarQuant 处理了主要信息，但压缩本身会引入误差。如果只做到这里，精度损失虽然比传统方法小，但仍然不可忽视。

TurboQuant 在这之后加了第二级：用 QJL（Quantized Johnson-Lindenstrauss）对残差进行纠错。

这级的设计非常精巧：它只使用 1 bit 来编码误差，而且不需要存储任何额外参数。QJL 利用了 Johnson-Lindenstrauss 引理——一个关于「高维投影后距离保持」的数学定理——来把这 1 bit 的信息效率最大化。

PolarQuant 把「主要能量」压缩走了，QJL 把「剩下的那点误差」用最少的 bit 精确消除。两级分工，各司其职，没有浪费。

为什么这不是一个局部优化

看懂了这个设计之后，你会意识到这不是在原有框架上打补丁，而是把问题重新定义之后得出的解。

传统量化的思路是：给定一个坐标系，优化压缩算法。
TurboQuant 的思路是：问一个问题——为什么非要用这个坐标系？

这个「换坐标系」的操作，在物理学里有大量先例。傅里叶变换把时域信号转到频域，很多在时域里复杂的运算在频域里变得异常简单。拉普拉斯变换、对数变换……每次坐标系更换，都伴随着问题复杂度的下降。

AI 里的向量量化，十年没人动坐标系这个根子。TurboQuant 动了，然后发现答案在中学几何里。

「零损失」这三个字的分量

「3-bit 压缩，零精度损失，无需重新训练。」

这三个条件放在一起，在 LLM 领域里几乎是矛盾的。

INT8 量化有损失，需要 QAT（量化感知训练）来弥补。INT4 量化损失更严重，需要 LoRA 微调来恢复。压缩率每提升一个台阶，精度恢复的成本就增加一分。这是过去几年行业的基本认知。

TurboQuant 打破了这个定式。它的 3-bit KV cache 压缩，在标准基准测试（LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval）上实现了与全精度模型相当的性能——没有微调，没有蒸馏，没有任何形式的二次训练。

3-bit 意味着每个向量元素只需要 3 个 bit 来存储。相比 FP32 的 32 bit，压缩率是10.7x；相比 INT8 的 8 bit，压缩率也有2.7x。

实际部署中，由于 KV cache 通常占推理显存 60-80%，10x 的压缩率意味着：同样一块 H100，可以支撑 10 倍的并发请求，或者把上下文窗口扩展 10 倍。

这笔账算下来，成本下降不是百分比的问题，是数量级的问题。

training-free 的真正价值

TurboQuant 做到了「无需 retraining 或 fine-tuning」，但这个「training-free」的实际意义比字面上还要大。

LLM 的量化适配，传统上需要在目标模型上做额外训练。这意味着：每一个新版本模型、每一个新微调变体、每一个新尺寸的模型，都需要重新跑一遍量化流程。

TurboQuant 的 training-free 特性，让量化变成了一层与模型无关的后处理。无论模型怎么变，只要 KV cache 的数据结构不变，TurboQuant 的压缩流程就直接可用。

这对部署架构的影响是深远的：量化不再是一个「需要为每个模型单独做」的工程，而是一个「一次性集成，随时可用」的模块。

为什么它能通用于所有模型

TurboQuant 在七个模型上全部做了测试：Gemma、Mistral，以及其他主流开源模型。每一家都实现了接近零损失的压缩效果。

这不是某家公司的算法优势，而是 PolarQuant 和 QJL 的数学原理决定的——它们不依赖模型的架构细节，只依赖向量在高维空间里的几何性质。任何遵循 Transformer 架构的模型，这个性质都成立。

这是基础研究突破的标志：一个数学上的洞察，同时解决了所有模型上的同一个问题。

参考文献

TurboQuant: Redefining AI efficiency with extreme compression (Google Research Blog)
TurboQuant arXiv
PolarQuant arXiv
Quantized Johnson-Lindenstrauss (AAAI 2026)
Google’s TurboQuant compresses LLM KV caches to 3 bits (Tom’s Hardware)

查看全文

http://www.jsqmd.com/news/605337/

从零开始：手把手教你用UML绘制状态图（附实战案例）

弱网下游戏盾掉线重连失败？链路保活与超时参数优化

BFS模板

泰勒图 Matlab代码案例详细提供2套泰勒图画法：原始数据的泰勒图与对数据标准化后的泰勒图

如何备份和恢复RAC数据库_配置多个通道连接不同节点实现并行备份

Java Web 核心进阶：会话跟踪与Servlet配置实战

MacBook高效办公：OpenClaw+Phi-3-vision-128k-instruct自动化实践

星图GPU云体验OpenClaw：免安装调试Phi-3-mini-128k-instruct镜像

电子python模拟出的一个完美风暴

OpenClaw+百川量化模型：个人公众号自动化排版发布实战

ZeroTermux中的Mysql

从IMX290光谱曲线到红绿灯变色：聊聊监控摄像头ISP里那个神奇的CCM矩阵

2026年mpa培训好不好：mpa笔试培训/mpa辅导/在职考研管综初试培训/在职考研管综初试辅导/选择指南 - 优质品牌商家

FPGA图像处理避坑指南：实现CLAHE时，你的直方图统计与插值模块可能踩的这些雷

CSS如何处理绝对定位引起的遮挡问题_调整z-index与层级管理

SQL窗口函数完整指南：5大高频场景详细代码注释（面试必备）

H-PPO: Advancing Hybrid Reinforcement Learning in Parameterized Action Spaces with Proximal Policy O

别再瞎调参了！HuggingFace Trainer微调BERT/ViT的保姆级避坑指南（附ArcFace实战代码）

工业质检新利器：手把手搭建M3DM环境（含CUDA KNN、PointNet2避坑指南）

OpenClaw技能市场探秘：Qwen3.5-9B-AWQ-4bit十佳实用技能推荐

LoRaWAN网关能传多远

解决Deformable-DETR报错：ms_deformable_im2col_cuda找不到kernel image的终极指南（附CUDA路径配置技巧）

别只盯着0x10发请求：深入理解UDS 10服务背后的会话管理机制与安全设计

2026四川单招短期冲刺集训机构深度评测 - 优质品牌商家

清风输入法(

5分钟搞定FPGA原理图库：从XILINX官方文档到AD软件的全流程解析

树莓派5硬件PWM驱动舵机实战：从设备树编译到精准角度控制

蓝卓总裁陈玉龙：从数据底座到智能大脑，拆解supOS平台进化三部曲

OpenClaw+千问3.5-27B创作助手：从大纲到公众号全自动