当前位置：首页 > news >正文

大模型---模型的后训练

news 2026/4/14 7:53:56

目录

1.继续训练

2.SFT

3.对齐训练

这篇文章会讲三种不同的后训练方式：继续训练，SFT，对齐训练，这里先总体说一下。Don't Stop Pretraining把继续训练定义为多阶段自适应预训练，并证明在目标领域语料和任务相关无标注语料上继续预训练，通常能提升下游表现；SFT在对齐训练之前，即让模型先学会按指令做答；对齐训练则是进一步把偏好对齐写成更直接的偏好优化目标。

1.继续训练

继续训练解决的问题是模型不熟这个行业的术语，模型不熟这类文档的表达方式，模型面对目标领域语料时理解不够自然，或者下游任务的文本分布和通用预训练差异太大。

参考论文：[2004.10964] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

Don't Stop Pretraining这篇论文，讲到两个，一是DAPT（Domain-Adaptive Pretraining），二是TAPT（Task-Adaptive Pretraining）。DAPT是在一个更大的、同领域语料库上继续预训练。比如医学、法律、金融、科研论文；TAPT是在与你最终任务更贴近的无标注语料上继续预训练。比如某个分类任务对应的数据集文本本身。

继

http://www.jsqmd.com/news/638356/

相关文章：

Hermes Agent 工具-周红伟

星穹铁道自动化工具终极指南：5分钟解放每日游戏时间

Holistic Tracking镜像实战案例：如何用一张照片驱动虚拟数字人？

Qwen3-14B API服务教程：Postman调用+JSON Schema参数校验示例

研究生必看！7款AI论文神器，知网查重一把过不留AIGC痕迹 - 麟书学长

PETRV2-BEV GPU算力优化教程：batch_size=2下显存占用与训练效率分析

Qwen3.5-9B惊艳案例：古籍扫描图上传→OCR文字识别→繁体转简体→语义注释

2026年MySQL安装教程（超详细）

Windows安卓子系统终极指南：从零到精通完整教程

BLDC驱动电路设计要点解析

Qwen3.5-9B-AWQ-4bit保姆级教程：Web界面响应延迟优化与前端体验提升技巧

告别识别率焦虑：视频 AI 工程化实战 —— 检测→判定→聚合→治理全链路拆解

Z-Image-GGUF入门必看：中英文提示词编写技巧+负向过滤避坑指南

RexUniNLU效果惊艳展示：中文短视频脚本生成前的多任务语义分析

高效智能的B站会员购抢票神器：让二次元门票不再难求

RVC开源贡献指南：如何为RVC WebUI新增语言/功能模块

Windows安卓子系统(WSA)实用指南：3步快速部署与5大优化技巧

如何高效下载B站视频：5个DownKyi实用技巧完全指南

Pixel Mind Decoder 环境部署详解：Ubuntu系统下Docker快速安装

Linux第二节课

用KeyShot工具渲染PCB图过程

Go语言的sync.RWMutex内存屏障

【每天认识一种网柄菌】——似克拉肯简基菌

NaViL-9B医疗影像初筛：X光片描述生成+异常区域提示案例

UniApp实战：Android原生插件实现动态时间水印踩坑全记录（附完整代码）

Qwen3智能字幕对齐系统与Dify平台集成实践

Qwen-Image-2512-Pixel-Art-LoRA 安全加固：防范针对图像生成API的网络安全攻击

PowerShell文件切割避坑指南：如何正确处理含中文的CSV大文件

用Python和CCXT库从零搭建一个数字货币量化交易机器人（附完整代码）

哔哩下载姬完全指南：5步掌握B站视频下载终极方法