当前位置: 首页 > news >正文

NEFTune:加入噪声的嵌入提升指令微调效果

摘要

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。即使是如 LLaMA-2-Chat 这类经过 RLHF 进一步优化的强大模型,也能从 NEFTune 的进一步训练中受益。

1 引言

大型语言模型(LLM)遵循详细指令的能力,是其实用性的核心。生成式语言模型通常在原始网页数据上预训练,随后在一小部分经过精心筛选的指令数据上进行微调。指令微调是驯服 LLM 能力的关键,而模型的实用性在很大程度上取决于我们如何最大化地利用这些有限的指令数据集。

本文提出,在微调的前向传播过程中,向训练数据的嵌入向量添加随机噪声。我们展示了这一简单技巧能够显著提升指令微调的效果,且无需额外计算或数据成本。Noisy Embedding Instruction Fine Tuning(NEFTune)虽然方法简单,但对下游对话质量有着显著影响。当一个原始 LLM(如 LLaMA-2-7B)在带噪嵌入下进行微调,其在 AlpacaEval 上的表现从 29.8% 提升至 64.7%(见图 1)——实现了约 35 个百分点的惊人提升(Touvron et al., 2023b;Dubois et al.,

http://www.jsqmd.com/news/209658/

相关文章:

  • 跨语言识别方案:中文+多语种支持的快速实现
  • 开题报告写到崩溃?百考通AI开题助手3分钟生成逻辑严密、导师认可的高质量框架
  • 航天任务指令生成:Qwen3Guard-Gen-8B确保术语绝对精确
  • Qwen3Guard-Gen-8B模型部署教程:一键推理.sh脚本使用详解
  • 谷歌亮剑“Darcula”:一场针对安卓钓鱼黑产的法律与技术双重围剿
  • CGPO:完美融合—用评审混合机制重塑RLHF
  • 秒级失守!谷歌账户钓鱼进入“自动化收割”时代,你的Gmail还安全吗?
  • ollydbg下载及安装系统学习:配套工具推荐
  • AI识别自动化:无需编码的工作流搭建教程
  • 高校教学推荐:Proteus下载与多学科仿真应用
  • 退休返聘合同:Qwen3Guard-Gen-8B区分劳务与劳动关系
  • Proteus元件对照表图解说明:初学者必备认知工具
  • 保险精算报告生成:Qwen3Guard-Gen-8B遵循行业统计标准
  • STM32CubeMX使用教程:一文说清RCC时钟配置核心要点
  • 为什么顶尖工程师都在用VSCode做多模型调试?真相令人震惊
  • Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱
  • 动漫交流与推荐平台系统
  • 万物识别模型压缩:在有限资源下的高效部署方案
  • ISTA2A vs ASTM D4169 DC13:医药包装运输测试核心差异解析
  • 使用Fritzing制作Arduino电路的深度剖析
  • 共享单车停放指引:Qwen3Guard-Gen-8B倡导文明用车行为
  • NX定时器抽象层编写:新手教程与调试技巧
  • Keil5安装包下载后如何配置ARM Cortex-M编译环境
  • 爆火免费AI论文神器限时公开!9款告别论文恐惧写作无压力
  • 嵌入式容错设计:结合hardfault_handler的看门狗协同机制
  • ms-swift是否支持Mathtype公式转图像训练?技术可行性分析
  • ms-swift支持MyBatisPlus风格的数据集配置方式,简化训练准备流程
  • 你还在忍受VSCode行内聊天延迟?,这4个优化策略必须掌握
  • ESP32项目ADC采样电路:分压网络设计通俗解释
  • Qwen3Guard-Gen-8B支持Token粒度风险预警吗?答案在这里