当前位置: 首页 > news >正文

2 模型预训练、微调、强化学习的格式

1 训练预料的大小

训练阶段数据量级数据来源用途
预训练100亿+ tokens通用语料+行业语料构建基础语言能力
继续预训练(CPT)10亿+ tokens行业专业文档注入领域知识
监督微调(SFT)1万-10万条指令-响应对任务对齐
偏好优化(DPO)5千-5万条偏好对比数据价值观对齐
模型规模预训练数据SFT数据DPO数据
7B以下100亿 tokens5千-1万条2千-5千条
7B-13B500亿 tokens1万-5万条5千-1万条
13B以上1000亿+ tokens5万-10万条1万-5万条
工具用途链接
LLaMA Factory微调数据预处理GitHub开源
Data-Juicer数据清洗处理阿里开源
Dataprep数据准备流水线Google开源
Label Studio数据标注平台开源/企业版

2 数据格式详解

2.1 预训练数据格式

C4 数据集的主要格式特点

  • 文件格式‌:.json.gz(压缩的 JSON Lines 文件)
  • 每行一个 JSON 对象‌,对应一个文本样本

适用场景:基础模型训练、继续预训练

# 格式:JSONL (JSON Lines),一行一个JSON对象

{"text": "这是第一段预训练文本内容..."} {"text": "这是第二段预训练文本内容..."}

{"text": "这是第三段预训练文本内容..."}

要求:

  • ✅ 纯文本,无特殊标记
  • ✅ 每行独立JSON对象
  • ✅ UTF-8编码
  • ✅ 单条文本建议 512-4096 tokens

2.2 指令微调(SFT)数据格式

2.2.1 Alpaca 格式(单轮对话)

适用场景:问答、文本生成、分类等单轮任务

{"instruction": "请总结以下会议记录的核心内容", "input": "2026年3月10日产品例会:1.新版本上线时间确定为3月25日 2.用户反馈问题优先级调整 3.下季度OKR目标讨论...", "output": "会议核心内容:1.新版本3月25日上线 2.调整用户反馈问题优先级 3.讨论下季度OKR目标"}

{"instruction": "根据客户需求生成产品推荐方案", "input": "客户行业:制造业;规模:500人;预算:50万;需求:生产管理系统", "output": "推荐方案:针对500人规模的制造企业,建议选择XX生产管理系统,包含生产计划、质量管理、设备维护模块,预估实施周期3个月..."}

{"instruction": "将以下技术文档翻译成英文", "input": "系统支持高并发访问,采用负载均衡技术确保服务稳定性。", "output": "The system supports high-concurrency access and uses load balancing technology to ensure service stability."}

2.2.2 ShareGPT 格式(多轮对话)

适用场景:客服对话、多轮问答、助手类应用

{ "conversations": [ {"role": "user", "content": "你好,我想查询订单状态"},

{"role": "assistant", "content": "您好,请提供您的订单号,我帮您查询。"},

{"role": "user", "content": "订单号是 ORD20260314001"},

{"role": "assistant", "content": "已为您查询到订单 ORD20260314001,当前状态:已发货,预计3月16日送达。"} ] }

2.2.3 通用对话格式(推荐)

适用场景:大多数微调框架支持(LLaMA Factory、Axolotl等)

{ "id": "sample_001",

"messages": [ {"role": "system", "content": "你是企业知识库助手"}, {"role": "user", "content": "公司年假政策是什么?"}, {"role": "assistant", "content": "根据公司规定,员工年假政策如下:1.入职满1年享有5天年假 2.满3年享有10天 3.满5年享有15天..."} ],

"metadata": { "source": "hr_policy_doc", "category": "人力资源", "difficulty": "easy" } }

2.3 偏好优化(DPO)数据格式

适用场景:RLHF替代方案,价值观对齐

{ "prompt": "如何优化公司成本控制?", "chosen": "建议从三个方面优化:1.采购成本:建立供应商评估体系,定期比价 2.运营成本:推行数字化办公,减少纸质流程 3.人力成本:优化组织结构,提升人效...", "rejected": "可以裁员降薪来降低成本。", "metadata": { "reason": "chosen回答更专业且符合企业价值观" } }

http://www.jsqmd.com/news/483537/

相关文章:

  • C语言学习-2.编程基础篇
  • 2026年黑龙江基坑支护实力企业综合评估与选购指南 - 2026年企业推荐榜
  • 【黑马点评二刷日记】优惠券秒杀下单
  • 第八章 第一性原理:人生决策与自我管理的底层公理
  • MATLAB代码:拉丁超立方采样技术在风光场景生成与削减中的应用
  • 2026年Q1武汉租车连锁店综合实力深度评测 - 2026年企业推荐榜
  • 复试第十四天
  • 2026年专业寻猫服务价格解析与品牌推荐 - 2026年企业推荐榜
  • 为什么DataGrip进软件的时候连接超时:connect timed out X Check region settings......如何解决?
  • 光伏PCS:储能双向功率换流器-包含双向DC/DC、3 Level逆变器、仿真与源码、原理图P...
  • 2026.3.13+14 CAD学习六--【第二张图】椭圆EL、等轴测圆EL-i、多边形POL
  • 感应电机MPTC实战手记:从代码里看磁场舞蹈
  • Linux 的 base32 命令
  • 2026年3月14日GESP五级现场直击
  • Flutter 三方库 translations_code_gen 鸿蒙适配指南 - 实现强类型国际化资产自动化编译、在 OpenHarmony 上打造编译时安全的多语言工作流实战
  • Simulink中的Boost电路模块搭建与多种闭环控制策略:传递函数验证、参数整定与伯德图分析
  • 探索 M00292:多算法雷达一维恒虚警检测 CFAR 可视化系统
  • 57c1-2四轮轮毂电机驱动汽车的DYC直接横摆力矩稳定性控制,上层控制器DYC产生横摆力矩Mz
  • Qwen2.5-72B-GPTQ-Int4效果惊艳:128K长文档关键信息定位与问答
  • 亚像素以及实现原理、方法
  • PMSM传统滑模观测器+PLL仿真模型,加上了相位补偿观测波形与实际波形基本重合。 以下图一为...
  • Flutter 三方库 aws_sqs_api 鸿蒙适配指南 - 实现分布式消息异步解耦、在 OpenHarmony 上打造高可用云端队列控制中枢实战
  • 【AOP】Spring Framework核心:AOP:静态代理 vs 动态代理(JDK动态代理 vs CGLIB)、AOP核心概念、应用场景
  • 探索 FPGA 电机控制源码:Verilog + Nios II 架构的奇妙之旅
  • REX-UniNLU网络安全应用:恶意文本智能检测系统
  • 从对象头到内存屏障,搞懂Java锁的底层原理
  • 直流调速系统Simulink仿真:包含参数设置代码、Simulink仿真模型及撰写文档
  • RP2040+CircuitPython打造可交互惊喜盒子硬件平台
  • Factory Io超大型仿真场景:全方位模拟工业生产流程
  • AIGlasses OS Pro辅助C语言学习:通过视觉分析理解指针与内存操作