阿里Qwen也来卷Skill,大模型起飞
给大模型打分,很多人第一反应是:把 rubric、参考答案、checklist、工具说明全塞进 prompt,让 Judge 自己看。
但 Qwen 团队这篇Skill-RM论文给了一个很有意思的反例:直接给 Judge 加资料,结果可能反而变差。
这篇论文最值得写,不是因为它又提出了一个 reward model,而是因为它把一个更大的问题摆到台前:奖励模型要变强,关键不只是模型本身,而是能否把异构评估标准组织成可执行、可复用、可校验的评估技能。
Skill-RM 总览
Skill-RM 新在哪里:把评估流程写成一个 Skill
Skill-RM的核心组件叫Reward-Evaluation Skill。
你可以把它理解成一份给 Judge 用的“评估操作手册”,但它不只是提示词。它同时包含五件东西:
- procedural specification:评估时应该按什么步骤走;
- resource bank:rubric、reference、checklist、verifier、tool、calibration rules 等资源放在哪里;
- invocation protocol:什么时候列出资源、检查资源、调用工具;
- evidence schema:每条判断要绑定什么证据;
- output contract:最后必须输出成什么格式。
这就把 Judge 从“看完所有材料直接拍分”,变成了一个更结构化的过程:先识别评估目标,再激活相关 criteria,然后检索或执行资源,填写带证据的 judgment,最后用 deterministic readout 映射成 pointwise score、pairwise preference 或 best-of-N 选择。
换成人话说:Skill-RM 不只是让模型更会打分,而是让模型更会按流程评估。
这也是它和“给 Judge 加工具”最大的区别。工具本身不是答案,怎么选工具、什么时候用工具、工具结果如何进入判断,才是真正影响质量的部分。
最关键的一张表:资料更多,不等于评估更好
论文里最有传播价值的证据,是 Table 4 的 resource-use ablation。
Table 4:资源使用消融
最反直觉的地方是:直接 append resources 不但没提升,还从 83.9 掉到 81.0。
这说明问题不在“资料够不够多”,而在“评估过程有没有组织能力”。
如果资源只是平铺给模型,它可能变成噪声;如果资源被纳入Reward-Evaluation Skill,成为可选择、可调用、可记录证据、可读出结果的流程,才会真正变成判断能力的一部分。
主结果也支持这个判断。在 Qwen3.5-27B matched setting 下,baseline judge 在 RewardBench2、RM-Bench、JudgeBench 三个 benchmark 上平均83.9,Skill-RM提升到86.2。
加上 sample-specific resources 后,平均分进一步到89.1。但这里也有一个边界:论文的 multi-backbone 结果显示,9B 模型从60.8提升到66.2,但再加 sample-specific resources 反而到65.7。也就是说,小模型未必处理得了更多证据。
它不只用于 benchmark,也能接到选择和 RL 里
Skill-RM 的另一个价值是统一性。
同一套 skill-mediated evaluation,不只可以输出 pointwise score,也可以做 pairwise preference,还可以做 best-of-N response selection。
在 Best-of-10 场景里,论文用固定候选池评估 GSM8K、IFEval、HumanEval+ 和 BigCodeBench。GSM8K 几乎饱和,Skill-RM 达到 97.8,接近Oracle@10 的 97.9;IFEval 和 HumanEval+ 上收益更明显;BigCodeBench 仍然困难,说明代码复杂任务里距离 oracle 还有空间。
Best-of-10 结果
在 IF-RewardBench 上,Skill-RM 平均 Kendall correlation 为 0.524,高于 Gemini-3-Flash 的0.513和 Qwen3.5-27B 的0.411。不过它也不是全赢:在 System-Prompt 子集上,Gemini-3-Flash 更强。
下游 instruction-following RL 里,Skill-RM 平均 45.9,高于 Tulu 3 的45.1和 VerIF 的44.7。这个提升不算夸张,但它说明 Skill-RM 不是只能做离线评测,也可以作为 reward signal 接进训练流程。
对做 post-training 的人,这篇论文真正提示了什么
如果你在做 RLHF、RLAIF、reward model、AI 评测或 agent 系统,这篇论文的启发不是“以后都要用 Skill-RM”。更准确地说,它提醒我们:评估质量可能来自流程编排,而不只是换一个更大的 Judge。
过去很多改进路线是:更强模型、更长 prompt、更多参考资料、更多工具。
Skill-RM 的价值,就在于把这些松散材料变成一套可执行的评估工作流。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
