当前位置：首页 > news >正文

Continue Pretrain

news 2026/7/5 5:38:24

一、Continue Pretrain 的核心目标

Continue Pretrain（增量预训练）的目的：

在不损害通用能力的前提下，增强某个领域能力。

常见场景：

行业知识增强（医疗 / 法律 / 金融）
新语言能力（如 LLaMA → 中文）
长上下文能力（long context）

本质作用很多时候不是增加知识，而是：

重新调整模型的 attention，使其更关注某类信息。

二、Continue Pretrain 的标准训练流程

整体流程可以简化为3 步：

1、选择是否扩展词表

只有在领域词汇与原词表差异很大时才考虑扩词表。

否则：

优先使用原词表。

2、 Domain Continue Pretrain（核心阶段）

训练时必须同时使用：

domain data + general data

原因：

避免灾难性遗忘（Catastrophic Forgetting）。

推荐比例：

general : domain ≈ 1:1 ~ 3:1

三、最重要的 5 个工程经验

1、必须使用 Replay 数据

训练数据必须混入原始通用语料。

否则会出现：

通用能力下降
reasoning 退化
英文能力下降

2、 Learning Rate 不要太小

Continue Pretrain 推荐：

learning rate ≈ 1e-4

如果太小：

学习非常慢
领域知识学不进去

3、 Domain 数据比例要逐渐增加

不要突然切换数据比例。

错误：

100% general → 100% domain

正确：

4:1 → 2:1 → 1:1

这样训练更稳定。

4、 Continue Pretrain 本质是 Attention 调整

很多 continue pretrain 并不是学习新知识，而是：

改变 attention 分布

让模型：

更关注某些术语
更关注某些结构

因此：

任务	难度
领域知识	容易
新语言	中等
长上下文	最难

5、使用 Scaling Law 预测训练规模

不要盲目决定训练 token 数。

方法：

先做小规模实验
观察 loss 曲线
拟合 scaling law

公式：

loss = aN^-b + c

可以预测：

需要多少 token
最终 loss 能降到多少

四、工程实践中的关键经验

实际训练中常见经验：

数据质量比数据规模更重要

经验：

10B 高质量数据 > 100B 低质量数据

五、最终结论（最核心 6 条）

可以把 Continue Pretrain 的原则总结为：

1 目标：增强领域能力但保持通用能力 2 训练必须混入原始数据（replay） 3 learning rate ≈ 1e-4 4 domain 数据比例逐步增加 5 本质是 attention 调整 6 用 scaling law 预测训练规模

查看全文

http://www.jsqmd.com/news/470403/

全球人形机器人产业发展情况

RAG几种技术组合向量检索 GraphRAG PageIndex ES

计算机毕业设计源码：Python得物平台鞋类数据可视化分析与推荐系统 Django框架协同过滤算法可视化数据分析推荐系统大数据大模型 agent（建议收藏）✅

【模板】树状数组 2（洛谷-P3368）

智慧医疗磁共振成像MRI自闭症检测数据集VOC+YOLO格式999张2类别

生活简单就好

发那科（FANUC）机器人配置麦格米特焊机全流程详解（附实操步骤+故障排查）

为什么建议业务员使用数字化工具管理应收账款

天然气压缩机2026专业选型标准与全生命周期技术评估

第5篇：二阶系统性能指标分析

丙午年正月廿三零时无眠

2019-2025年我国区县逐月新房房价数据（Excel/Shp格式）

深入Spring核心：工厂类、Bean生命周期与注解配置详解

计算机毕业设计springboot基于和Vue的学生管理系统基于SpringBoot与Vue框架的高校教务信息管理平台设计与实现采用前后端分离架构的校园学生综合服务系统开发

谢谢你好的啊

3.12打卡

OpenClaw安全风险排查：高危漏洞与紧急修复

02计算机组成原理-存储器技术（下）

洛谷P1016——旅行家的预算

2026年中国大模型发展趋势与AGI范式探索：分化、自主学习与Agent战略

2026.3.10Linux

[工具] 影子生成器批量影子生成器自动修改原偏移坐标文件

太原哪里卖葡萄糖

SpringBoot使用AOP优雅的实现系统操作日志的持久化！

动态规划算法的剪枝条件与判定准则的技术6

30 分钟上手 OpenClaw！Windows 搭建跨平台 AI 助手，打破智能生活的边界

短语解析：Oh my!

工业可解释性分析

智慧AI人员行为识别人员跌倒监测行人跌倒识别老人跌倒监控识别人员躺站识别数据集第10539期

【垃圾箱包装问题-Matlab】【使用遗传算法（GA）解决垃圾箱包装问题Matlab代码】