当前位置: 首页 > news >正文

大模型学习笔记 · 第六篇 · SFT 实战与调参

监督微调 SFT 是用「问题—标准答案」教模型怎么说话,是做定制对话模型最该先掌握的一步。调参的优先级是:先数据,再 epoch,再学习率,最后才是 cutoff_len 等细节。不要只看 loss,要用固定业务问题集人工对比训前训后。推荐小步快跑:先用两三百条核心数据快速训一版,根据 bad case 补数据,再全量训。


一、SFT 在整条链路里扮演什么角色

监督微调,Supervised Fine-Tuning,听起来学术,做的事却很具体:你给模型看大量「用户怎么问、理想情况下该怎么答」的样本,让它学会按这种方式回应。yaml 里 stage: sft 和 do_train: true 就是在声明这一步。

在 LLaMA Factory 的典型工作流里,SFT 是主菜。偏好对齐、多卡分布式、多模态,都是 SFT 跑通之后的延伸。跳过 SFT 直接追求「高级对齐」,往往事倍功半。


二、从官方 yaml 改成你的生产配置

最实用的做法,是复制 examples/train_lora/qwen3_lora_sft.yaml,另存为新文件,然后改几处关键字段。

model_name_or_path 换成你的基座模型。dataset 换成你在 dataset_info.json 里注册的名字。template 必须和模型匹配。output_dir 指到你自己的 saves 路径。learning_rate、num_train_epochs、cutoff_len 按数据和显卡调整。

改完后执行 llamafactory-cli train 你的配置.yaml。第一次用自有数据,建议加 max_samples 或先训一个 epoch,快速看方向对不对,再开全量长跑。


三、调参的真正顺序

效果不对,第一反应不要是「学习率是不是错了」,而应该是「数据是不是有问题

http://www.jsqmd.com/news/1116057/

相关文章:

  • STM32与DC-DC转换器的智能电源管理系统设计
  • 前后端数据交互实战:从基础到安全优化
  • GameAssist AI游戏助手深度解析:基于计算机视觉的智能游戏辅助技术架构
  • Cloudflare Pages实战:JAMstack与边缘函数的现代前端部署
  • Windows平台Python+Appium微信自动化:环境配置与实战指南
  • 2026年热门阅读APP横评,一篇说清楚
  • DDE社区贡献指南:如何参与openEuler桌面环境开发
  • eclipse-2026导入cdt lsp插件实现语法服务
  • Java反序列化漏洞深度剖析:CommonsCollections利用链原理与防御实战
  • 植物大战僵尸宽屏补丁:告别黑边,拥抱全屏沉浸体验
  • PIC18LF47K42与IS31FL3731 LED驱动方案详解
  • macOS逆向工程实践:通过运行时Hook技术学习客户端行为修改原理
  • 如何快速上手PilotGo-plugins:5步完成插件安装与配置
  • isula-transform 未来路线图:容器生态系统的演进与展望
  • witty质量评估体系详解:如何从5个维度自动打分优化AI经验库内容
  • Java实现跨境支付加密全流程:AES+RSA+数字签名实战解析
  • 安卓项目提交Gitee并建立新的测试分支
  • 科视 Christie Jazz 系列投影机助力苏州科技馆“消失的动物园”沉浸式展示
  • 免费开源替代方案:微G服务(GmsCore)完整使用指南
  • MC74HC165A移位寄存器在IO扩展中的高效应用
  • Kiran-panel国际化与本地化实践:多语言支持的完整实现方案
  • 上海中小企业GEO优化服务:技术自研、本地化与定制能力评估
  • 如何用witty大规模并行审计功能:AI替代人工核查海量经验库的终极指南
  • ICM-42688-P与TM4C129EKCPDT在机器人控制与工业监测中的应用
  • MAX9744与PIC18F85K90构建高效D类音频放大系统
  • 基于STM32单片机甲醛浓度检测 温湿度 有害气体 空气质量系统2(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)
  • 策略模式精讲+实战
  • 当你的AI助手学会“暗语”:Claude Code 隐写标记事件深度解析
  • AD74413R与STM32F722VE的SPI通信与同步控制实现
  • 2026年10款精选论文降AI率软件实测:规范定稿实战对比实用指南