LLM数据集汇总(不断更新)
文章目录
- 1、预训练
- IndustryCorpus2 30类行业分类的高质量预训练数据集
- 2、微调
- Infinity Instruct
- 3、偏好数据
- Infinity-Preference
1、预训练
IndustryCorpus2 30类行业分类的高质量预训练数据集
https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2
经过全流程处理后,各行业数据的磁盘大小如下
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 11.0 | 新闻 | 51.0 |
| 生物医学 | 61.7 | 石油化工 | 40.2 |
| 医疗健康-心理学和中医 | 271.7 | 航空航天 | 38.6 |
| 旅游与地理 | 64.0 | 采矿 | 8.9 |
| 法律与司法 | 238.5 | 金融与经济 | 145.8 |
| 数学-统计 | 156.7 | 文学与情感 | 105.5 |
| 其他信息服务-信息安全 | 1.8 | 交通运输 | 40.5 |
| 消防安全-食品安全 | 4.3 | 科技-科学研究 | 101.6 |
| 汽车 | 39.3 | 水利-海洋 | 20.2 |
| 住宿-餐饮-酒店 | 29.6 | 计算机-通信 | 157.8 |
| 影视娱乐 | 209.4 | 学科教育 | 340.9 |
| 房地产-建筑 | 105.2 | 人工智能-机器学习 | 7.7 |
| 电力与能源 | 68.7 | 当前事务-政府事务-行政 | 271.5 |
| 农业、林业、畜牧业和渔业 | 111.9 | 体育 | 262.5 |
| 游戏 | 37.6 | 其他制造业 | 47.2 |
| 其他 | 188.6 | ||
| 总计 (GB) | 3276G |
2、微调
Infinity Instruct
北京智源人工智能研究院 (BAAI)
[**论文]**[代码][🤗]
指令数据的质量和规模对于模型性能至关重要。最近,开源模型越来越依赖包含数百万实例的微调数据集,这既需要高质量也需要大规模。然而,长期以来,高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力,从而限制了相关研究和应用。为了解决这一问题,我们推出了Infinity Instruct项目,旨在开发一个大规模、高质量的指令数据集。
新闻
🔥🔥🔥[2025/12/04] 我们发布了Infinity Instruct主题的[论文](已被AAAI 2026接受)。 🔥🔥🔥[2025/05/13] 我们发布了7M基础数据集的核心版本,7M Core!它仅用1.4M条指令就达到了完整7M指令的95.7%性能。 🔥🔥🔥[2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。3、偏好数据
Infinity-Preference
人类的偏好因任务而异。因此,Infinity-Preference 试图根据(Infinity Instruct 的)能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。
🔥🔥🔥[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本,Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。