当前位置: 首页 > news >正文

大模型---模型的后训练

目录

1.继续训练

2.SFT

3.对齐训练


这篇文章会讲三种不同的后训练方式:继续训练,SFT,对齐训练,这里先总体说一下。Don't Stop Pretraining把继续训练定义为多阶段自适应预训练,并证明在目标领域语料和任务相关无标注语料上继续预训练,通常能提升下游表现;SFT在对齐训练之前,即让模型先学会按指令做答;对齐训练则是进一步把偏好对齐写成更直接的偏好优化目标。

1.继续训练

继续训练解决的问题是模型不熟这个行业的术语,模型不熟这类文档的表达方式,模型面对目标领域语料时理解不够自然,或者下游任务的文本分布和通用预训练差异太大。

参考论文:[2004.10964] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

Don't Stop Pretraining这篇论文,讲到两个,一是DAPT(Domain-Adaptive Pretraining),二是TAPT(Task-Adaptive Pretraining)。DAPT是在一个更大的、同领域语料库上继续预训练。比如医学、法律、金融、科研论文;TAPT是在与你最终任务更贴近的无标注语料上继续预训练。比如某个分类任务对应的数据集文本本身。

http://www.jsqmd.com/news/638356/

相关文章:

  • Hermes Agent 工具-周红伟
  • 星穹铁道自动化工具终极指南:5分钟解放每日游戏时间
  • Holistic Tracking镜像实战案例:如何用一张照片驱动虚拟数字人?
  • Qwen3-14B API服务教程:Postman调用+JSON Schema参数校验示例
  • 研究生必看!7款AI论文神器,知网查重一把过不留AIGC痕迹 - 麟书学长
  • PETRV2-BEV GPU算力优化教程:batch_size=2下显存占用与训练效率分析
  • Qwen3.5-9B惊艳案例:古籍扫描图上传→OCR文字识别→繁体转简体→语义注释
  • 2026年MySQL安装教程(超详细)
  • Windows安卓子系统终极指南:从零到精通完整教程
  • BLDC驱动电路设计要点解析
  • Qwen3.5-9B-AWQ-4bit保姆级教程:Web界面响应延迟优化与前端体验提升技巧
  • 告别识别率焦虑:视频 AI 工程化实战 —— 检测→判定→聚合→治理全链路拆解
  • Z-Image-GGUF入门必看:中英文提示词编写技巧+负向过滤避坑指南
  • RexUniNLU效果惊艳展示:中文短视频脚本生成前的多任务语义分析
  • 高效智能的B站会员购抢票神器:让二次元门票不再难求
  • RVC开源贡献指南:如何为RVC WebUI新增语言/功能模块
  • Windows安卓子系统(WSA)实用指南:3步快速部署与5大优化技巧
  • 如何高效下载B站视频:5个DownKyi实用技巧完全指南
  • Pixel Mind Decoder 环境部署详解:Ubuntu系统下Docker快速安装
  • Linux第二节课
  • 用KeyShot工具渲染PCB图过程
  • Go语言的sync.RWMutex内存屏障
  • 【每天认识一种网柄菌】——似克拉肯简基菌
  • NaViL-9B医疗影像初筛:X光片描述生成+异常区域提示案例
  • UniApp实战:Android原生插件实现动态时间水印踩坑全记录(附完整代码)
  • Qwen3智能字幕对齐系统与Dify平台集成实践
  • Qwen-Image-2512-Pixel-Art-LoRA 安全加固:防范针对图像生成API的网络安全攻击
  • PowerShell文件切割避坑指南:如何正确处理含中文的CSV大文件
  • 用Python和CCXT库从零搭建一个数字货币量化交易机器人(附完整代码)
  • 哔哩下载姬完全指南:5步掌握B站视频下载终极方法