当前位置: 首页 > news >正文

如何科学地“设计”SFT 数据?一次关于 ODA 的完整平台级验证

在大模型后训练阶段,SFT(监督微调)数据的构建至关重要。然而,长期以来,这一过程业界的通行做法往往依赖“直觉”或“试错”,即多收一点、再筛一轮、训一次模型、看下效果,然后再调整。这个过程不仅成本高昂,而且很难回答一个根本性问题——哪些数据是真的“有用”的,为什么?

为了摆脱“盲盒式”微调,急需建立一套科学的数据效能评估方法,用以成为数据生产的“指南针”。

日前,上海人工智能实验室 OpenDataLab 团队发布最新技术报告 《Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets》(arXiv: https://arxiv.org/pdf/2601.09733)。基于 OpenDataArena 项目所提供的数据多维价值分析,团队提出了一种全新的范式:利用 OpenDataArena (简称“ODA”) 的评测反馈,将数据集构建从“随机艺术”转变为“确定性的工程” 。

1. 从“评测看结果”到“评测参与生产”

传统的 SFT 流程,本质上是一个开环系统:数据收集 → 模型训练 → 评测分析。评测往往只发生在最后,用来“看效果好不好”,却很少反向影响数据本身的构造逻辑。这也是为什么数据调优经常变成“黑盒试错”。

ODA 的核心设计目标,是把这条链路真正闭合起来。在这篇报告中,OpenDataLab团队将 ODA 的工作流完整跑通为一个闭环过程:评测 → 排名 → 数据工程 → 再评测。

这里的关键变化在于:评测不再只是一个分数,而是被明确用作数据筛选与配比的决策信号;排行榜不再只是模型展示,而是用于衡量不同数据源在特定能力上的真实贡献。这一步,使得数据构造第一次具备了工程意义上的“可解释性”和“可复现性”。

2. 一次平台级验证:ODA 能不能真的“指导造数据”?

为了避免引入额外假设,团队在实验中严格遵循一个原则来构造数据:数据构造过程尽可能只依赖 ODA 提供的评测与工具信号。

(一)数学推理场景:ODA-Math-460k

在数学推理任务中,我们完全通过 ODA 跑通了一条工程化的数据构造路径。

首先是数据源选择。不再凭经验判断“哪些数学数据集可能有用”,而是直接利用 ODA 的跨模型评测结果,对现有数学数据集进行横向比较,从中筛选出在数学能力上真实有效的数据源,将表现最佳的20个数学数据集快速聚合成一个包含1140 万样本的初始数学问题池。

接下来是数据筛选与压缩。ODA-Tool 提供了极其丰富的多维评估器,能够从复杂度、多样性、语义分布、奖励模型评分等多个维度对数据价值进行深度剖析。我们系统比较了不同筛选信号在数学场景下的效果,实验发现,相比传统的复杂度或启发式指标,基于模型表现的 pass-rate 信号更能反映模型的“学习前沿”,也更有利于预测训练收益。

在这一标准的指导下,团队剔除了模型已经熟练掌握的简单样本,同时避免引入不可解或噪声数据,最终将数据池从千万级工程化压缩到46 万条高信息密度样本。尽管规模缩小了 25 倍,但每一条留存数据都处于模型的“黄金学习区”,具有极高的信息增量。

整个过程不是一次性调参,而是严格遵循 ODA 的评测反馈再评测的闭环完成的。

(二)通用混合全域场景:ODA-Mixture 的构造逻辑

在通用能力场景中,ODA 的作用更接近一个“数据调度系统”。面对海量候选数据,ODA 提供了一个关键视角:

用数据效率(Data Efficiency)衡量单位样本带来的模型收益。

基于 ODA 的总榜单,我们发现一些体量极小的数据集,比如 LIMO,在多个模型上的单位增益显著高于常规大规模数据。这类数据自然成为混合集的“锚点底座”

同时,而针对锚点可能覆盖不足的能力维度,我们不再盲目扩充数据规模,而是直接通过 ODA 的子领域榜单,定位到对应能力最有效的数据来源,进行定向补充。具体来说,预算受限时,调度“难度优先采样”策略。利用 ODA-Tool 进行聚类后,在每个簇内优先抽取长思维链样本,通过重尾分布强行拉升模型的逻辑深度;而当目标是刷新 ODA 榜单天花板时,切换为“多样性感知采样”。ODA-Tool 此时的任务是确保语义空间的全覆盖,通过平衡采样消除特定分布带来的偏见 。

数据“加什么、不加什么、加多少”,都由评测信号直接驱动,而非经验判断。整个过程采用的“锚点+补丁”策略,思想极为简单,而且实现也非常方便,为数据构造提供了轻量化的一条路径。

3. 结果并非终点,评估驱动的闭环才是持续进化的关键

通过ODA 闭环工程化流程的引入,为 SFT 数据构建带来了实质性的效率飞跃。比如ODA-Math-460k仅用不到一半的数据量,便超越了 1.2M 规模的 OpenThoughts-3,并在 AIME、HMMT 等高难度基准上取得了非常领先的结果。ODA-Mixture-100k/500k 更是在18+ 综合评测中取得了显著的优势,超过现有 SOTA 结果 5 个点以上,实现了“数据全能王”的特性。特征聚类分析显示,ODA 引导的采样策略比传统的启发式筛选拥有更均衡、更广阔的语义覆盖面 。这些结果非常好的证明了 ODA 平台能够带来的数据评估、数据构造的优势。

但这篇报告更重要的结论并不在于模型取得的具体 SOTA 结果,而在于验证了 ODA 作为一个平台,确实可以稳定地支撑引导高质量 SFT 数据的生产。这意味着,SFT 数据构造不必再完全依赖经验和反复试错;数据规模不再是唯一变量;评测可以成为数据工程中的“控制信号”。

写在最后

相比于发布数据本身,跑通标准化且可复用的数据工程链路才是报告所展示的研究意义所在。OpenDataLab团队希望通过 ODA 助力社区跨越“经验式收集”阶段,步入“精准化设计”时代,将 SFT 数据构建转化为一项逻辑透明、效能可控的科学工程任务

资源下载:

  • 技术报告:https://arxiv.org/pdf/2601.09733

  • ODA-Tool 自动化工具箱:https://github.com/OpenDataArena/OpenDataArena-Tool

  • 开源数据集(ODA-Math/Mixture):https://huggingface.co/datasets/OpenDataArena

http://www.jsqmd.com/news/336474/

相关文章:

  • 2026年口碑好的污泥压滤机/压滤机厂家推荐及采购参考 - 品牌宣传支持者
  • 机器学习输入层:从基础到前沿,解锁模型性能第一关
  • 2026 最新道路救援服务商 / 厂家 TOP5 评测!全国覆盖+24小时响应权威榜单发布,节假日/异地/长途/跨省救援首选品牌推荐 - 品牌推荐2026
  • Vue与Web Components的集成:技术原理、实践方案与生态协同
  • 书匠策AI:学术征途的「全维智囊」,让论文写作从“孤军奋战”到“智领未来”
  • 2026年适合送礼的高端瓶装水哪个牌子好:五大礼赠优选品牌测评 - 速递信息
  • 磷脂酰丝氨酸PS+DHA+神经酸脑活素品牌十大排名推荐:提高记忆助力脑活力 - 博客万
  • 深入隐藏层:解锁机器学习模型性能的核心奥秘
  • Text2DSL——自然语言转 Elasticsearch / Easysearch DSL 神器
  • 2026年评价高的轻型堆垛机/环形轨道堆垛机厂家推荐及选购指南 - 品牌宣传支持者
  • 强烈安利10个降AI率平台,千笔·专业降AI率智能体帮你解决AIGC检测难题
  • GitHub项目上传、删除与协议设置:新手到高手的完整指南
  • 2026年全国青石板厂家权威推荐榜 生态耐用适配多场景 全景解析选型方向 - 深度智识库
  • Qt学习全攻略:从核心原理到本地项目实战
  • 2026年麻将机品牌推荐:基于商业运营长期测试评价,针对管理效率与成本痛点指南 - 品牌推荐
  • 【C++基础与提高】第六章:函数——代码复用的艺术 - 教程
  • 2026年知名的3寸脚轮/5寸脚轮厂家推荐及选购指南 - 品牌宣传支持者
  • 2026年包装封箱机厂家权威推荐:自动化/智能/物流封箱机及全自动封箱设备实力厂家精选 - 品牌推荐官
  • 【流程思维】五、重要根源: 穿透表象,重塑系统
  • IE浏览器未过时,https://iebrowser-cn.com一键获取适配
  • Cyclin D1抗体在肺癌放疗抵抗研究中揭示何种机制?
  • 2026年性价比高的欧美空运小包货代有哪些 - 工业品牌热点
  • 丝氨酸/苏氨酸磷酸化抗体在蛋白质合成研究中发挥何种作用?
  • EpCAM抗体在肿瘤诊疗中有何关键应用价值?
  • 2026年靠谱的四向车立体库/贯通式货架立体库厂家选购指南与推荐 - 品牌宣传支持者
  • Excel日期函数全解析:从基础拆解到实战计算,一文搞定日期处理
  • 论文投出去好几个月都没动静,可以催稿吗?【附模板】
  • 2026年麻将机品牌推荐:智能家居趋势评测,涵盖家用与棋牌室场景静音痛点 - 品牌推荐
  • 智科毕业设计新颖的选题指导
  • SGMICRO圣邦微 SGM2217-ADJXTEL8G/TR TDFN-4×4-8L 线性稳压器(LDO)