当前位置: 首页 > news >正文

Continue Pretrain

一、Continue Pretrain 的核心目标

Continue Pretrain(增量预训练)的目的:

不损害通用能力的前提下,增强某个领域能力

常见场景:

  • 行业知识增强(医疗 / 法律 / 金融)
  • 新语言能力(如 LLaMA → 中文)
  • 长上下文能力(long context)

本质作用很多时候不是增加知识,而是:

重新调整模型的 attention,使其更关注某类信息。


二、Continue Pretrain 的标准训练流程

整体流程可以简化为3 步

1、 选择是否扩展词表

只有在领域词汇与原词表差异很大时才考虑扩词表。

否则:

优先使用原词表。


2、 Domain Continue Pretrain(核心阶段)

训练时必须同时使用:

domain data + general data

原因:

避免灾难性遗忘(Catastrophic Forgetting)

推荐比例:

general : domain ≈ 1:1 ~ 3:1

三、最重要的 5 个工程经验

1、 必须使用 Replay 数据

训练数据必须混入原始通用语料

否则会出现:

  • 通用能力下降
  • reasoning 退化
  • 英文能力下降

2、 Learning Rate 不要太小

Continue Pretrain 推荐:

learning rate ≈ 1e-4

如果太小:

  • 学习非常慢
  • 领域知识学不进去

3、 Domain 数据比例要逐渐增加

不要突然切换数据比例。

错误:

100% general → 100% domain

正确:

4:1 → 2:1 → 1:1

这样训练更稳定。


4、 Continue Pretrain 本质是 Attention 调整

很多 continue pretrain 并不是学习新知识,而是:

改变 attention 分布

让模型:

  • 更关注某些术语
  • 更关注某些结构

因此:

任务难度
领域知识容易
新语言中等
长上下文最难

5、 使用 Scaling Law 预测训练规模

不要盲目决定训练 token 数。

方法:

  1. 先做小规模实验
  2. 观察 loss 曲线
  3. 拟合 scaling law

公式:

loss = aN^-b + c

可以预测:

  • 需要多少 token
  • 最终 loss 能降到多少

四、工程实践中的关键经验

实际训练中常见经验:

数据质量比数据规模更重要

经验:

10B 高质量数据 > 100B 低质量数据

五、最终结论(最核心 6 条)

可以把 Continue Pretrain 的原则总结为:

1 目标:增强领域能力但保持通用能力 2 训练必须混入原始数据(replay) 3 learning rate ≈ 1e-4 4 domain 数据比例逐步增加 5 本质是 attention 调整 6 用 scaling law 预测训练规模
http://www.jsqmd.com/news/470403/

相关文章:

  • 全球人形机器人产业发展情况
  • RAG几种技术组合 向量检索 GraphRAG PageIndex ES
  • 计算机毕业设计源码:Python得物平台鞋类数据可视化分析与推荐系统 Django框架 协同过滤算法 可视化 数据分析 推荐系统 大数据 大模型 agent(建议收藏)✅
  • 【模板】树状数组 2(洛谷-P3368)
  • 智慧医疗磁共振成像MRI自闭症检测数据集VOC+YOLO格式999张2类别
  • 生活简单就好
  • 发那科(FANUC)机器人配置麦格米特焊机全流程详解(附实操步骤+故障排查)
  • 为什么建议业务员使用数字化工具管理应收账款
  • 天然气压缩机2026专业选型标准与全生命周期技术评估
  • 第5篇:二阶系统性能指标分析
  • 丙午年正月廿三零时无眠
  • 2019-2025年我国区县逐月新房房价数据(Excel/Shp格式)
  • 深入Spring核心:工厂类、Bean生命周期与注解配置详解
  • 计算机毕业设计springboot基于和Vue的学生管理系统 基于SpringBoot与Vue框架的高校教务信息管理平台设计与实现 采用前后端分离架构的校园学生综合服务系统开发
  • 谢谢你好的啊
  • 3.12打卡
  • OpenClaw安全风险排查:高危漏洞与紧急修复
  • 02计算机组成原理-存储器技术(下)
  • 洛谷P1016——旅行家的预算
  • 2026年中国大模型发展趋势与AGI范式探索:分化、自主学习与Agent战略
  • 2026.3.10Linux
  • [工具] 影子生成器 批量影子生成器 自动修改原偏移坐标文件
  • 太原哪里卖葡萄糖
  • SpringBoot使用AOP优雅的实现系统操作日志的持久化!
  • 动态规划算法的剪枝条件与判定准则的技术6
  • 30 分钟上手 OpenClaw!Windows 搭建跨平台 AI 助手,打破智能生活的边界
  • 短语解析:Oh my!
  • 工业可解释性分析
  • 智慧AI人员行为识别 人员跌倒监测 行人跌倒识别 老人跌倒监控识别 人员躺站识别数据集第10539期
  • 【垃圾箱包装问题-Matlab】【使用遗传算法(GA)解决垃圾箱包装问题Matlab代码】