当前位置: 首页 > news >正文

SliderQuant: Accurate Post-Training Quantization for LLMs

论文日报 2026-03-27


🏆 今日精选论文

SliderQuant: Accurate Post-Training Quantization for LLMs

🏅 收录会议:ICLR 2026(已接受)

属性 详情
论文标题 SliderQuant: Accurate Post-Training Quantization for LLMs
作者 Shigeng Wang, Chao Li, Yangyuxuan Kang, Jiawei Fan, Zhonghong Ou, Anbang Yao
机构 Intel Labs(中国)
arXiv ID 2603.25284
代码地址 https://github.com/deep-optimization/SliderQuant
提交日期 2026-03-26

📌 研究背景与动机

大语言模型(LLMs)规模庞大,直接部署面临极高的计算成本与显存压力。后训练量化(PTQ) 是一种无需重新训练即可压缩模型的有效方式,但现有主流方法(如 GPTQ、AWQ)对所有层采用相同的量化策略,而忽视了不同层对量化误差的敏感度差异。

作者的关键发现:

  • 浅层(前若干层)和深层(后若干层)对量化更敏感,而中间层相对鲁棒;
  • 浅层中的第一层和深层中的最后一层量化误差尤为突出,往往成为精度瓶颈;
  • 一刀切的量化策略在低比特(3-4bit)下精度损失显著,需要分层差异化处理。

🔬 核心方法:SliderQuant 框架

SliderQuant 的核心思想是滑动窗口式的分层自适应量化,包含两大核心组件:

1️⃣ 层间滑动量化(Inter-Layer Sliding Quantization)

针对模型不同深度位置的层,设计三种滑动窗口策略

浅层(Shallow)  →  精细量化(更多校准资源,减小误差)
中间层(Middle) →  标准量化(正常策略,节省资源)
深层(Deep)     →  精细量化(重点保护末尾关键层)

通过可学习参数动态调整各层的量化阈值(缩放因子 scale、零点 zero-point)。

2️⃣ 层内滑动量化(Intra-Layer Sliding Quantization)

对单层内部的权重矩阵进行增量式逐窗口量化

  • 将权重矩阵划分为多个子窗口;
  • 按顺序依次量化,避免全局误差累积;
  • 相邻窗口之间进行校准反馈,形成"滑动"效果。

整体框架特点:

  • 仅需少量可学习参数(轻量级),无需重新训练;
  • 仅需少量校准数据(128~2048 个校准样本);
  • 与主流量化格式兼容(W4A16、W4A4、W3A3 等);
  • 支持仅权重量化和权重-激活联合量化两种模式。

📊 实验结果

评测模型族:

  • Llama / Llama2 / Llama3 系列
  • Qwen2.5 系列(7B ~ 72B)
  • DeepSeek-R1 蒸馏模型
  • 大型混合专家模型(MoE)

评测任务:

  • 基础语言生成(困惑度 PPL)
  • 零样本常识推理(Hellaswag、Winogrande、ARC、PIQA 等)
  • 数学推理(GSM8K、MATH)
  • 代码生成(HumanEval、MBPP)

主要结论:

量化设置 对比方法 SliderQuant 提升
W4A16(4bit 权重量化) GPTQ、AWQ PPL 降低,推理准确率显著提升
W4A4(4bit 权重+激活量化) Rotated Quantization(最新SOTA) 数学、代码任务精度大幅提升
W3A16(超低比特权重量化) 所有现有 PTQ 方法 精度差距最为显著,尤其 DeepSeek 模型

核心结论:对首尾层的特殊处理是保持精度的关键,SliderQuant 在极低比特设置下优势最为明显。


💡 研究创新点总结

  1. 新视角:首次系统实验揭示 LLM 层间量化敏感度的"U型分布"规律(浅层和深层比中间层更敏感);
  2. 新方法:提出层间 + 层内双层次的滑动量化机制,自适应分配量化精度资源;
  3. 强泛化性:支持 Llama、Qwen2.5、DeepSeek、MoE 等主流 LLM 架构,覆盖多种量化格式;
  4. 实用性强:无需重训练,校准成本低,可直接集成到现有 PTQ 流程;
  5. 开源可复现:代码已公开,便于实际部署和后续研究。

🤔 研究启示与未来展望

为什么这篇论文值得关注?

随着 Llama3 70B、DeepSeek-R1、Qwen2.5-72B 等超大模型的普及,如何在消费级 GPU(甚至单卡 24GB VRAM)上实现高精度量化部署是工业界的迫切需求。SliderQuant 的"分层差异化"思路非常直观,且有扎实的实验支撑,对以下场景有直接指导意义:

  • 模型本地化部署:使用 W4A16 在单卡 RTX 4090 上运行 70B 级模型;
  • 边缘推理:W3A16/W4A4 进一步压缩,适用于低功耗设备;
  • 自研 PTQ 工具链优化:层敏感度分析思路可直接移植到 LLM 压缩管线。

可探索的后续研究方向:

  • 能否将滑动窗口策略与 KV Cache 量化结合,实现推理全链路压缩?
  • 是否可以基于层敏感度自动搜索量化配置(AutoQ with sensitivity signal)?
  • 在多模态大模型(ViT + LLM)中,视觉编码器是否有类似的层敏感度规律?

📚 扩展阅读(今日其他值得关注的论文)

编号 标题 方向 链接
1 Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes LLM后训练/知识蒸馏 2603.25562
2 R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning 多模态推理/强化学习 cs.AI列表
3 EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents 绿色AI推理/自适应框架 cs.AI列表
4 A Unified Memory Perspective for Probabilistic Trustworthy AI AI硬件内存架构 2603.25692
5 ReLoPE: KL-Regularized LoRA Probes for Multimodal LLM Routing MoE路由/多模态 cs.AI列表

📝 今日速评

今日 arXiv 整体质量较高,SliderQuant 以 ICLR 2026 已接受的身份登顶,技术扎实、实用性强。量化技术正在进入"分层差异化"的精细化阶段,从"一刀切"走向"因层制宜",这是 LLM 部署优化的重要趋势。

另外今日还有多篇值得关注的工作:多模态推理强化学习(R-C2)、绿色自适应推理(EcoThink)、以及 AI 内存架构的概率计算视角(Unified Memory Perspective),可根据兴趣选择性深入阅读。


http://www.jsqmd.com/news/610346/

相关文章:

  • OpenClaw自动化创作:Phi-3-vision-128k-instruct实现图文内容一键生成
  • 嵌入式轻量级RPC实现:裸机与RTOS下的远程过程调用
  • 别再死记硬背AXI时序了!用Vivado Block Design搭个玩具,看波形秒懂握手协议
  • 告别ArcGIS!用GEE+QGIS搞定流域DEM下载与地形分析(附完整代码)
  • Windows下3DGS环境搭建避坑实录:从CUDA版本冲突到子模块安装,我的4070Ti踩坑全记录
  • 坐标系工艺参数的设定
  • 论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents
  • 无公网IP解决方案:OpenClaw内网穿透对接千问3.5-9B
  • 代码审计 | Log4j2 —— CVE-2021-44228 JNDI 注入与递归解析的完整链路分析
  • 2026年地坪修补厂家权威名录:防火地坪漆/厂房高强度空鼓灌浆料/固化地坪染色剂/固化地坪龟裂纹修复剂/选择指南 - 优质品牌商家
  • 使用Alpine配置WSL ssh门户内
  • 2026年MBA辅导值不值得报:笔试EMBA培训、笔试EMBA辅导、笔试MEM培训、笔试MEM辅导、管理类联考培训选择指南 - 优质品牌商家
  • Figma+Cursor联动实战:5分钟搞定AI设计稿生成(含最新manifest导入避坑指南)
  • FreakStudio捎
  • 第7章 序列凸近似(SCA)与迭代优化
  • 智能农业四情监测系统
  • 张量并行(Tensor Parallelism)全面深度解析
  • .NET 9容器化避坑清单,12个导致K8s滚动更新失败的隐藏陷阱及修复代码
  • OpenClaw跨平台同步:Qwen3-14b_int4_awq实现多设备任务接力
  • 打开PCCAD(AutoCAD2013-2017版本)即死机;AutoCAD2018含以上版本,则PCCAD打开正常
  • 开源项目 Agentic OS 实战指南:手把手教你从 ANOLISA 源码安装
  • JAVA多线程并发编程:并发容器与线程协作实战
  • 【实战 03】本地小模型真的能跑 Text2SQL 吗?Qwen2.5-7B 这种“平替”方案的实际表现
  • Windows下OpenClaw安装详解:Qwen3-14b_int4_awq模型接入与调试
  • 融合 PSO 的改进鲸鱼优化算法(PSO‑ImWOA)无人机三维航迹规划研究(Python代码实现)
  • 别再被CVX报错劝退了!手把手教你用inv_pos和rel_entr函数搞定MATLAB凸优化
  • 为什么你的C# 13主构造函数反而变慢了?揭秘字段初始化顺序、属性注入与依赖解析的致命时序冲突
  • ARM与x86架构差异及32/64位开发实践
  • Servlet 服务器 HTTP 响应
  • OpenClaw隐私保护技巧:Qwen3.5-9B-AWQ-4bit本地处理敏感证件照