当前位置: 首页 > news >正文

阿里Qwen也来卷Skill,大模型起飞

给大模型打分,很多人第一反应是:把 rubric、参考答案、checklist、工具说明全塞进 prompt,让 Judge 自己看。

但 Qwen 团队这篇Skill-RM论文给了一个很有意思的反例:直接给 Judge 加资料,结果可能反而变差。

这篇论文最值得写,不是因为它又提出了一个 reward model,而是因为它把一个更大的问题摆到台前:奖励模型要变强,关键不只是模型本身,而是能否把异构评估标准组织成可执行、可复用、可校验的评估技能。

Skill-RM 总览

Skill-RM 新在哪里:把评估流程写成一个 Skill

Skill-RM的核心组件叫Reward-Evaluation Skill

你可以把它理解成一份给 Judge 用的“评估操作手册”,但它不只是提示词。它同时包含五件东西:

  1. procedural specification:评估时应该按什么步骤走;
  2. resource bank:rubric、reference、checklist、verifier、tool、calibration rules 等资源放在哪里;
  3. invocation protocol:什么时候列出资源、检查资源、调用工具;
  4. evidence schema:每条判断要绑定什么证据;
  5. output contract:最后必须输出成什么格式。

这就把 Judge 从“看完所有材料直接拍分”,变成了一个更结构化的过程:先识别评估目标,再激活相关 criteria,然后检索或执行资源,填写带证据的 judgment,最后用 deterministic readout 映射成 pointwise score、pairwise preference 或 best-of-N 选择。

换成人话说:Skill-RM 不只是让模型更会打分,而是让模型更会按流程评估。

这也是它和“给 Judge 加工具”最大的区别。工具本身不是答案,怎么选工具、什么时候用工具、工具结果如何进入判断,才是真正影响质量的部分。

最关键的一张表:资料更多,不等于评估更好

论文里最有传播价值的证据,是 Table 4 的 resource-use ablation。

Table 4:资源使用消融

最反直觉的地方是:直接 append resources 不但没提升,还从 83.9 掉到 81.0。

这说明问题不在“资料够不够多”,而在“评估过程有没有组织能力”。

如果资源只是平铺给模型,它可能变成噪声;如果资源被纳入Reward-Evaluation Skill,成为可选择、可调用、可记录证据、可读出结果的流程,才会真正变成判断能力的一部分。

主结果也支持这个判断。在 Qwen3.5-27B matched setting 下,baseline judge 在 RewardBench2、RM-Bench、JudgeBench 三个 benchmark 上平均83.9Skill-RM提升到86.2

加上 sample-specific resources 后,平均分进一步到89.1。但这里也有一个边界:论文的 multi-backbone 结果显示,9B 模型从60.8提升到66.2,但再加 sample-specific resources 反而到65.7。也就是说,小模型未必处理得了更多证据

它不只用于 benchmark,也能接到选择和 RL 里

Skill-RM 的另一个价值是统一性。

同一套 skill-mediated evaluation,不只可以输出 pointwise score,也可以做 pairwise preference,还可以做 best-of-N response selection。

在 Best-of-10 场景里,论文用固定候选池评估 GSM8K、IFEval、HumanEval+ 和 BigCodeBench。GSM8K 几乎饱和,Skill-RM 达到 97.8,接近Oracle@10 的 97.9;IFEval 和 HumanEval+ 上收益更明显;BigCodeBench 仍然困难,说明代码复杂任务里距离 oracle 还有空间。

Best-of-10 结果

在 IF-RewardBench 上,Skill-RM 平均 Kendall correlation 为 0.524,高于 Gemini-3-Flash 的0.513和 Qwen3.5-27B 的0.411。不过它也不是全赢:在 System-Prompt 子集上,Gemini-3-Flash 更强。

下游 instruction-following RL 里,Skill-RM 平均 45.9,高于 Tulu 3 的45.1和 VerIF 的44.7。这个提升不算夸张,但它说明 Skill-RM 不是只能做离线评测,也可以作为 reward signal 接进训练流程。

对做 post-training 的人,这篇论文真正提示了什么

如果你在做 RLHF、RLAIF、reward model、AI 评测或 agent 系统,这篇论文的启发不是“以后都要用 Skill-RM”。更准确地说,它提醒我们:评估质量可能来自流程编排,而不只是换一个更大的 Judge。

过去很多改进路线是:更强模型、更长 prompt、更多参考资料、更多工具。

Skill-RM 的价值,就在于把这些松散材料变成一套可执行的评估工作流。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/996921/

相关文章:

  • 2026年6月河南公办专科学校推荐:五所专业评测就业前景选择指南 - 品牌推荐
  • 2026年南京优质的小邻湖渔头村南京菜玄武湖店综合实力推荐 - myqiye
  • 美团三面被问:你说了那么多的Agent如何记忆,那该如何遗忘呢?我好像真的没仔细想过这个问题,没答上来
  • MLOps实战:模型封装、服务化与监控三位一体生产落地
  • 科学数据处理系统的三层架构与智能代理实现
  • 2026年6月四川中外合作办学学校推荐:TOP5选择指南统招优势评测专业案例 - 品牌推荐
  • CEVA-BX2 DSP深度评测:它的VLIW+SIMD混合架构,真能搞定智能音频和工业视觉?
  • 【Springboot毕设全套源码+文档】基于springboot博物馆综合服务管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • 大棚智能管理系统好用吗 - 工业品牌热点
  • OpenCV图像处理:从cv2.imencode的quality参数,聊聊JPEG和PNG压缩那些‘坑’
  • 运输成本空间与L1-失真理论在度量几何中的应用
  • QIIME2实战:双端vs单端序列,DADA2与Deblur去噪插件到底该怎么选?
  • 别再心疼 Token 了:我用千问 API 跑了一天 Agent,账单为0!
  • OS-SART算法详解:如何通过‘分块’策略,将CT图像重建速度提升数倍?
  • WPF原生DataGrid行选择控制:带复选框的全选/多选功能实现
  • 从经济学‘影子价格’到程序并行化:线性规划对偶理论的两个硬核应用实例
  • 云计算入门三要素:计算、存储、网络实战解析
  • Aurix Tricore开发避坑指南:从零理解Trap机制,手把手教你调试内存保护错误
  • GR3-Fourier V9.5 绝密工业底层裸密档 海量源码+原生参数无删减
  • 北欧路线老年旅行团哪家好?住宿条件好的北欧路线旅行社推荐 - 品牌2026
  • 2026年四川写字楼消防维保公司哪家靠谱?多维度横向对比与真实案例解析 - 优质品牌商家
  • tracking-with-Extended-Kalman-Filter项目详解:激光雷达与雷达数据融合的完整教程
  • 2026年聚合广告平台行业观察:素材质量与变现效率如何影响APP商业化路径? - 优质品牌商家
  • 如何用DyberPet开源框架打造你的专属桌面虚拟伙伴?完整指南
  • Python 高手编程系列三千四百零一:使用线程池
  • Kafka 灾难回放机制:基于事件事实流的计数全量恢复方案
  • LangGraph图模型实战:构建可调试、可扩展的AI智能体
  • Tabula终极指南:3分钟快速掌握PDF表格数据提取技巧
  • 如何利用SUSI Firefox Bot提升浏览器智能助手体验?
  • Pandas生产级数据处理17条不可协商铁律