当前位置：首页 > news >正文

SliderQuant: Accurate Post-Training Quantization for LLMs

news 2026/6/6 10:28:04

论文日报 2026-03-27

🏆 今日精选论文

SliderQuant: Accurate Post-Training Quantization for LLMs

🏅 收录会议：ICLR 2026（已接受）

属性	详情
论文标题	SliderQuant: Accurate Post-Training Quantization for LLMs
作者	Shigeng Wang, Chao Li, Yangyuxuan Kang, Jiawei Fan, Zhonghong Ou, Anbang Yao
机构	Intel Labs（中国）
arXiv ID	2603.25284
代码地址	https://github.com/deep-optimization/SliderQuant
提交日期	2026-03-26

📌 研究背景与动机

大语言模型（LLMs）规模庞大，直接部署面临极高的计算成本与显存压力。后训练量化（PTQ） 是一种无需重新训练即可压缩模型的有效方式，但现有主流方法（如 GPTQ、AWQ）对所有层采用相同的量化策略，而忽视了不同层对量化误差的敏感度差异。

作者的关键发现：

浅层（前若干层）和深层（后若干层）对量化更敏感，而中间层相对鲁棒；
浅层中的第一层和深层中的最后一层量化误差尤为突出，往往成为精度瓶颈；
一刀切的量化策略在低比特（3-4bit）下精度损失显著，需要分层差异化处理。

🔬 核心方法：SliderQuant 框架

SliderQuant 的核心思想是滑动窗口式的分层自适应量化，包含两大核心组件：

1️⃣ 层间滑动量化（Inter-Layer Sliding Quantization）

针对模型不同深度位置的层，设计三种滑动窗口策略：

浅层（Shallow）  →  精细量化（更多校准资源，减小误差）
中间层（Middle） →  标准量化（正常策略，节省资源）
深层（Deep）     →  精细量化（重点保护末尾关键层）

通过可学习参数动态调整各层的量化阈值（缩放因子 scale、零点 zero-point）。

2️⃣ 层内滑动量化（Intra-Layer Sliding Quantization）

对单层内部的权重矩阵进行增量式逐窗口量化：

将权重矩阵划分为多个子窗口；
按顺序依次量化，避免全局误差累积；
相邻窗口之间进行校准反馈，形成"滑动"效果。

整体框架特点：

仅需少量可学习参数（轻量级），无需重新训练；
仅需少量校准数据（128~2048 个校准样本）；
与主流量化格式兼容（W4A16、W4A4、W3A3 等）；
支持仅权重量化和权重-激活联合量化两种模式。

📊 实验结果

评测模型族：

Llama / Llama2 / Llama3 系列
Qwen2.5 系列（7B ~ 72B）
DeepSeek-R1 蒸馏模型
大型混合专家模型（MoE）

评测任务：

基础语言生成（困惑度 PPL）
零样本常识推理（Hellaswag、Winogrande、ARC、PIQA 等）
数学推理（GSM8K、MATH）
代码生成（HumanEval、MBPP）

主要结论：

量化设置	对比方法	SliderQuant 提升
W4A16（4bit 权重量化）	GPTQ、AWQ	PPL 降低，推理准确率显著提升
W4A4（4bit 权重+激活量化）	Rotated Quantization（最新SOTA）	数学、代码任务精度大幅提升
W3A16（超低比特权重量化）	所有现有 PTQ 方法	精度差距最为显著，尤其 DeepSeek 模型

核心结论：对首尾层的特殊处理是保持精度的关键，SliderQuant 在极低比特设置下优势最为明显。

💡 研究创新点总结

新视角：首次系统实验揭示 LLM 层间量化敏感度的"U型分布"规律（浅层和深层比中间层更敏感）；
新方法：提出层间 + 层内双层次的滑动量化机制，自适应分配量化精度资源；
强泛化性：支持 Llama、Qwen2.5、DeepSeek、MoE 等主流 LLM 架构，覆盖多种量化格式；
实用性强：无需重训练，校准成本低，可直接集成到现有 PTQ 流程；
开源可复现：代码已公开，便于实际部署和后续研究。

🤔 研究启示与未来展望

为什么这篇论文值得关注？

随着 Llama3 70B、DeepSeek-R1、Qwen2.5-72B 等超大模型的普及，如何在消费级 GPU（甚至单卡 24GB VRAM）上实现高精度量化部署是工业界的迫切需求。SliderQuant 的"分层差异化"思路非常直观，且有扎实的实验支撑，对以下场景有直接指导意义：

模型本地化部署：使用 W4A16 在单卡 RTX 4090 上运行 70B 级模型；
边缘推理：W3A16/W4A4 进一步压缩，适用于低功耗设备；
自研 PTQ 工具链优化：层敏感度分析思路可直接移植到 LLM 压缩管线。

可探索的后续研究方向：

能否将滑动窗口策略与 KV Cache 量化结合，实现推理全链路压缩？
是否可以基于层敏感度自动搜索量化配置（AutoQ with sensitivity signal）？
在多模态大模型（ViT + LLM）中，视觉编码器是否有类似的层敏感度规律？

📚 扩展阅读（今日其他值得关注的论文）

编号	标题	方向	链接
1	Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes	LLM后训练/知识蒸馏	2603.25562
2	R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning	多模态推理/强化学习	cs.AI列表
3	EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents	绿色AI推理/自适应框架	cs.AI列表
4	A Unified Memory Perspective for Probabilistic Trustworthy AI	AI硬件内存架构	2603.25692
5	ReLoPE: KL-Regularized LoRA Probes for Multimodal LLM Routing	MoE路由/多模态	cs.AI列表

📝 今日速评

今日 arXiv 整体质量较高，SliderQuant 以 ICLR 2026 已接受的身份登顶，技术扎实、实用性强。量化技术正在进入"分层差异化"的精细化阶段，从"一刀切"走向"因层制宜"，这是 LLM 部署优化的重要趋势。

另外今日还有多篇值得关注的工作：多模态推理强化学习（R-C2）、绿色自适应推理（EcoThink）、以及 AI 内存架构的概率计算视角（Unified Memory Perspective），可根据兴趣选择性深入阅读。

http://www.jsqmd.com/news/610346/

相关文章：

OpenClaw自动化创作：Phi-3-vision-128k-instruct实现图文内容一键生成

嵌入式轻量级RPC实现：裸机与RTOS下的远程过程调用

别再死记硬背AXI时序了！用Vivado Block Design搭个玩具，看波形秒懂握手协议

告别ArcGIS！用GEE+QGIS搞定流域DEM下载与地形分析（附完整代码）

Windows下3DGS环境搭建避坑实录：从CUDA版本冲突到子模块安装，我的4070Ti踩坑全记录

坐标系工艺参数的设定

论文阅读：arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents

无公网IP解决方案：OpenClaw内网穿透对接千问3.5-9B

代码审计 | Log4j2 —— CVE-2021-44228 JNDI 注入与递归解析的完整链路分析

2026年地坪修补厂家权威名录：防火地坪漆/厂房高强度空鼓灌浆料/固化地坪染色剂/固化地坪龟裂纹修复剂/选择指南 - 优质品牌商家

使用Alpine配置WSL ssh门户内

2026年MBA辅导值不值得报：笔试EMBA培训、笔试EMBA辅导、笔试MEM培训、笔试MEM辅导、管理类联考培训选择指南 - 优质品牌商家

Figma+Cursor联动实战：5分钟搞定AI设计稿生成（含最新manifest导入避坑指南）

第7章序列凸近似（SCA）与迭代优化

智能农业四情监测系统

张量并行（Tensor Parallelism）全面深度解析

.NET 9容器化避坑清单，12个导致K8s滚动更新失败的隐藏陷阱及修复代码

OpenClaw跨平台同步：Qwen3-14b_int4_awq实现多设备任务接力

打开PCCAD（AutoCAD2013-2017版本）即死机；AutoCAD2018含以上版本，则PCCAD打开正常

开源项目 Agentic OS 实战指南：手把手教你从 ANOLISA 源码安装

JAVA多线程并发编程：并发容器与线程协作实战

【实战 03】本地小模型真的能跑 Text2SQL 吗？Qwen2.5-7B 这种“平替”方案的实际表现

Windows下OpenClaw安装详解：Qwen3-14b_int4_awq模型接入与调试

融合 PSO 的改进鲸鱼优化算法（PSO‑ImWOA）无人机三维航迹规划研究（Python代码实现）

别再被CVX报错劝退了！手把手教你用inv_pos和rel_entr函数搞定MATLAB凸优化

为什么你的C# 13主构造函数反而变慢了？揭秘字段初始化顺序、属性注入与依赖解析的致命时序冲突

ARM与x86架构差异及32/64位开发实践

Servlet 服务器 HTTP 响应

OpenClaw隐私保护技巧：Qwen3.5-9B-AWQ-4bit本地处理敏感证件照