当前位置：首页 > news >正文

LLM数据集汇总（不断更新）

news 2026/7/14 20:43:20

文章目录

1、预训练
- IndustryCorpus2 30类行业分类的高质量预训练数据集
2、微调
- Infinity Instruct
3、偏好数据
- Infinity-Preference

1、预训练

IndustryCorpus2 30类行业分类的高质量预训练数据集

https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2

经过全流程处理后，各行业数据的磁盘大小如下

行业类别	数据大小 (GB)	行业类别	数据大小 (GB)
编程	11.0	新闻	51.0
生物医学	61.7	石油化工	40.2
医疗健康-心理学和中医	271.7	航空航天	38.6
旅游与地理	64.0	采矿	8.9
法律与司法	238.5	金融与经济	145.8
数学-统计	156.7	文学与情感	105.5
其他信息服务-信息安全	1.8	交通运输	40.5
消防安全-食品安全	4.3	科技-科学研究	101.6
汽车	39.3	水利-海洋	20.2
住宿-餐饮-酒店	29.6	计算机-通信	157.8
影视娱乐	209.4	学科教育	340.9
房地产-建筑	105.2	人工智能-机器学习	7.7
电力与能源	68.7	当前事务-政府事务-行政	271.5
农业、林业、畜牧业和渔业	111.9	体育	262.5
游戏	37.6	其他制造业	47.2
其他	188.6
总计 (GB)	3276G

2、微调

Infinity Instruct

北京智源人工智能研究院 (BAAI)
[**论文]**[代码][🤗]

指令数据的质量和规模对于模型性能至关重要。最近，开源模型越来越依赖包含数百万实例的微调数据集，这既需要高质量也需要大规模。然而，长期以来，高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力，从而限制了相关研究和应用。为了解决这一问题，我们推出了Infinity Instruct项目，旨在开发一个大规模、高质量的指令数据集。
新闻

🔥🔥🔥[2025/12/04] 我们发布了Infinity Instruct主题的[论文]（已被AAAI 2026接受）。 🔥🔥🔥[2025/05/13] 我们发布了7M基础数据集的核心版本，7M Core！它仅用1.4M条指令就达到了完整7M指令的95.7%性能。 🔥🔥🔥[2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。

3、偏好数据

Infinity-Preference

人类的偏好因任务而异。因此，Infinity-Preference 试图根据（Infinity Instruct 的）能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。

🔥🔥🔥[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本，Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。

查看全文

http://www.jsqmd.com/news/885653/

劳力士售后焕新季｜2026 年 5 月新网点启用服务效率与标准双提升 - 资讯快报

2026年性能测试平台报告生成：专业可视化与合规适配指南

2026年全国青少年信息素养大赛初赛真题（算法应用主题赛C++初中组初赛真题2：文末附答案和解析）

Python-for-Android 技术深度解析：跨平台移动应用架构实践

外卖霸王餐接口对接开发，支持美团/饿了么/京东

034、高速信号布局要点

SC9017S 座充充电器 IC

新工作新气象

2026年第二季度日式搬家选型参考 - 资讯快报

Multisim 14.2 噪声分析实战：手把手教你搞定运放电路噪声谱，别再只看仿真结果了

守护交通大动脉的“网络医生”：GN-W10A网络综合测试仪

拯救混乱的组学图表：手把手教你用ComplexHeatmap拼接多组热图与注释

TC5091B 高精度内置 MOSFET 锂电池保护电路

传统收纳追求极致整齐，编写松弛感收纳管理程序，保留生活烟火痕迹，拒绝刻板极致整洁。

大模型电力科研项目查重方案：知识图谱驱动的项目立项风控

中山南岸声学：23 年技术深耕重新定义汽车音响改装行业四大绝对标杆 - 汽车音响改装

2026 海南公司注册：从零到一全流程实操指南，附海南本土五家专业财税公司真实测评 - GrowthUME

sniffglue：5分钟搞定HTTPS/TLS解密与HTTP2/gRPC结构化抓包

BurpSuite集成SqlMap插件实战：5分钟完成可复现SQL注入验证

Equalizer APO深度解析：如何实现专业级房间声学校准与系统级音频均衡

2026 年5月新疆高端纯玩小团定制服务商，2-6 人定制包团行业测评，认准新疆佳途行迹国际旅行社 - 2026年企业推荐榜

纪检涉案情节分析，为什么需要大模型、知识图谱和图数据库结合？

OpenCore Legacy Patcher终极指南：如何让旧款Mac焕发新生，安装最新macOS系统？

BTT v6.521 For Mac：触控板与鼠标手势增强工具

CANN-昇腾NPU-前缀缓存-PrefixCaching怎么让相同prompt零计算

NanaZip完全指南：现代化Windows压缩工具入门教程

在Node.js后端服务中集成Taotoken实现AI对话功能的完整指南

Midjourney提示词工程：AI如何重塑产品概念设计流程

学习日志（三）【php语法学习，iscc校赛wp】

TC5097B 高精度内置 MOSFET 锂电池保护电路