当前位置：首页 > news >正文

阿里Qwen也来卷Skill，大模型起飞

news 2026/6/12 6:05:54

给大模型打分，很多人第一反应是：把 rubric、参考答案、checklist、工具说明全塞进 prompt，让 Judge 自己看。

但 Qwen 团队这篇Skill-RM论文给了一个很有意思的反例：直接给 Judge 加资料，结果可能反而变差。

这篇论文最值得写，不是因为它又提出了一个 reward model，而是因为它把一个更大的问题摆到台前：奖励模型要变强，关键不只是模型本身，而是能否把异构评估标准组织成可执行、可复用、可校验的评估技能。

Skill-RM 总览

Skill-RM 新在哪里：把评估流程写成一个 Skill

Skill-RM的核心组件叫Reward-Evaluation Skill。

你可以把它理解成一份给 Judge 用的“评估操作手册”，但它不只是提示词。它同时包含五件东西：

procedural specification：评估时应该按什么步骤走；
resource bank：rubric、reference、checklist、verifier、tool、calibration rules 等资源放在哪里；
invocation protocol：什么时候列出资源、检查资源、调用工具；
evidence schema：每条判断要绑定什么证据；
output contract：最后必须输出成什么格式。

这就把 Judge 从“看完所有材料直接拍分”，变成了一个更结构化的过程：先识别评估目标，再激活相关 criteria，然后检索或执行资源，填写带证据的 judgment，最后用 deterministic readout 映射成 pointwise score、pairwise preference 或 best-of-N 选择。

换成人话说：Skill-RM 不只是让模型更会打分，而是让模型更会按流程评估。

这也是它和“给 Judge 加工具”最大的区别。工具本身不是答案，怎么选工具、什么时候用工具、工具结果如何进入判断，才是真正影响质量的部分。

最关键的一张表：资料更多，不等于评估更好

论文里最有传播价值的证据，是 Table 4 的 resource-use ablation。

Table 4：资源使用消融

最反直觉的地方是：直接 append resources 不但没提升，还从 83.9 掉到 81.0。

这说明问题不在“资料够不够多”，而在“评估过程有没有组织能力”。

如果资源只是平铺给模型，它可能变成噪声；如果资源被纳入Reward-Evaluation Skill，成为可选择、可调用、可记录证据、可读出结果的流程，才会真正变成判断能力的一部分。

主结果也支持这个判断。在 Qwen3.5-27B matched setting 下，baseline judge 在 RewardBench2、RM-Bench、JudgeBench 三个 benchmark 上平均83.9，Skill-RM提升到86.2。

加上 sample-specific resources 后，平均分进一步到89.1。但这里也有一个边界：论文的 multi-backbone 结果显示，9B 模型从60.8提升到66.2，但再加 sample-specific resources 反而到65.7。也就是说，小模型未必处理得了更多证据。

它不只用于 benchmark，也能接到选择和 RL 里

Skill-RM 的另一个价值是统一性。

同一套 skill-mediated evaluation，不只可以输出 pointwise score，也可以做 pairwise preference，还可以做 best-of-N response selection。

在 Best-of-10 场景里，论文用固定候选池评估 GSM8K、IFEval、HumanEval+ 和 BigCodeBench。GSM8K 几乎饱和，Skill-RM 达到 97.8，接近Oracle@10 的 97.9；IFEval 和 HumanEval+ 上收益更明显；BigCodeBench 仍然困难，说明代码复杂任务里距离 oracle 还有空间。

Best-of-10 结果

在 IF-RewardBench 上，Skill-RM 平均 Kendall correlation 为 0.524，高于 Gemini-3-Flash 的0.513和 Qwen3.5-27B 的0.411。不过它也不是全赢：在 System-Prompt 子集上，Gemini-3-Flash 更强。

下游 instruction-following RL 里，Skill-RM 平均 45.9，高于 Tulu 3 的45.1和 VerIF 的44.7。这个提升不算夸张，但它说明 Skill-RM 不是只能做离线评测，也可以作为 reward signal 接进训练流程。

对做 post-training 的人，这篇论文真正提示了什么

如果你在做 RLHF、RLAIF、reward model、AI 评测或 agent 系统，这篇论文的启发不是“以后都要用 Skill-RM”。更准确地说，它提醒我们：评估质量可能来自流程编排，而不只是换一个更大的 Judge。

过去很多改进路线是：更强模型、更长 prompt、更多参考资料、更多工具。

Skill-RM 的价值，就在于把这些松散材料变成一套可执行的评估工作流。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～