当前位置: 首页 > news >正文

速度与准确性的结合:量化感知 LLM 预训练 “QAP“

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。

本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。

具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。

因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。特别是,事实证明,与 FP16 精度模型相比,4 位量化模型的精度几乎没有下降,从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差,为将来应用量化做准备的方法。与传统的训练后量化(post-training quantisation)不同,QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说,最容易受到量化影响的线性变换层(尤其是注意力和 MLP)是以 4 位或 6 位精度模拟的,这一点反映在损失函数中。此外,预训练期间使用的数据和超参数与现有的高精度模型基本相同,因此实施 QAP 的额外成本可以忽略不计。
此外,所提出的方法还为量化敏感权重和激活添加了软正则化,从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中,具有很强的实用性,将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性,作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM,并对其准确性和推理速度进行了评估。

基准测试使用了多种任务,包括 MMLU、GSM8K 和 HumanEval,并对每个模型的性能进行了比较。

结果显示,与不支持的基本模型相比,在相同位宽下,QAP 实现的模型的准确率提高了 6.3 个百分点。

特别是在推理速度方面,该模型比基于 FP16 的模型快达 2.5 倍,同时运行精度几乎没有损失。

对不同量化方案(如 SmoothQuant、AWQ、GPTQ)的鲁棒性也进行了验证,结果表明,QAP’ed 模型能保持稳定的性能,与量化方案无关。
此外,培训成本的增加也非常小,这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明,QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。

http://www.jsqmd.com/news/92329/

相关文章:

  • Playwright MCP在UI自动化测试中的定位与思考
  • 快速上手React代码差异可视化组件
  • vue基于Spring Boot框架蜜蜂养殖场管理系统的设计与实现_dtjw8eus
  • ChromaDB向量数据库实战指南:从基础配置到性能提升的最佳实践
  • NextStep-1:连续令牌技术引领AI图像生成范式革命
  • 25、大数据分析:挑战、算法与加速策略
  • 纳西东巴画系统管理平台--毕设附源码68202
  • 2、AR与VR在供应链中的应用:宏观视角分析
  • IO流与多线程
  • 快速生成vue模板代码,零基础入门到精通,收藏这篇就够了
  • 8、印度通过增强现实(AR)和虚拟现实(VR)实现包容性教育
  • 前端场景题,零基础入门到精通,收藏这篇就够了
  • 9、探索元宇宙中利用摄影测量和其他3D重建工具的增强现实实际用例
  • 2025视频生成效率革命:Wan2.2如何让消费级显卡实现电影级创作
  • Holo1.5开源:7B模型实现GPT-4级界面操作,成本骤降80%重塑智能代理生态
  • 采用Flask框架的不动产租赁业务管理系统--毕设附源码68285
  • WebGL渲染引擎图层合成技术终极指南:从深度冲突到完美融合的完整解析
  • 13、OpenStack网络构建与实例连接全解析
  • 值得收藏I财务大数据分析师职业技术证书报考条件全解析
  • 大模型备案,到底卡在哪?
  • 部署到服务器调用麦克风没有ssl证书的情况下的临时使用方式
  • 1.59倍推理加速!T-pro-it-2.0-eagle轻量化模型改写大模型部署规则
  • 14、OpenStack 实例网络连接与安全组管理指南
  • 2025年靠谱的六角不锈钢螺栓用户口碑最好的厂家榜 - 品牌宣传支持者
  • 数据库死锁问题重现:测试场景构建与排查指南
  • 2025年智能检索工具五大服务商推荐:实力强的智能检索平台有 - myqiye
  • 15、OpenStack 安全组管理全攻略
  • 2025靠谱的Ai搜索团队TOP5:信誉佳的智能搜索与性价比 - 工业推荐榜
  • 17、使用 Neutron 创建独立路由器指南
  • DBeaver数据库管理终极入门指南:从零开始掌握高效数据管理的10个技巧