当前位置：首页 > news >正文

2025_NIPS_SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

news 2026/7/5 5:34:42

文章核心总结与翻译

一、主要内容

本文提出了SWE-RL，这是首个基于强化学习（RL）的方法，专门用于提升大型语言模型（LLMs）在软件工程（SE）任务中的推理能力。该方法利用开源软件演化数据（如GitHub的拉取请求PRs）和轻量级规则化奖励，在Llama 3.3-70B-Instruct基础上训练出模型Llama3-SWE-RL-70B。

核心成果

任务性能：在SWE-bench Verified（含500个人工验证的真实GitHub问题）上实现41.0%的解决率，创下中等规模模型（<100B参数）的最佳记录，性能比肩GPT-4o等主流专有模型。
泛化能力：仅通过软件工程任务训练，却在5个跨领域任务中表现提升，包括函数编码、库使用、代码推理、数学运算和通用语言理解，而监督微调（SFT）基线模型在这些任务中平均性能下降。
技术细节：
- 数据集：从GitHub筛选27.3万高质量PRs构建RL种子数据集，包含问题描述、代码上下文和标准答案补丁；
- 奖励机制：基于预测补丁与标准答案的序列相似度（0-1分），格式错误则扣1分；
- 优化算法：采用Group Relative Policy Optimization（GRPO）进行策略优化；
- 推理框架：开发Agentless Mini简化流水线

http://www.jsqmd.com/news/484763/

相关文章：

Python爬虫实战：构建高可用静态网页爬虫 - 以 Quotes 网站数据采集为例！

【AI游戏】Unity ChatGPT对话集成

如何通过正规平台高效完成沃尔玛购物卡回收和变现？ - 团团收购物卡回收

企业 AI 智能体：从 Demo 到规模化落地的技术架构与工程实践

Python爬虫实战：基于 Python 的多版本文档差异自动化追踪系统！

2026无锡AI优化公司/抖音运营推荐榜精准触达核心人群 - 资讯焦点

【LLM进阶-Agent】5. Plan Execute Agent 介绍

2026年敦煌口碑好的旅行社排名，天佑国际旅行社旅游服务靠谱吗 - mypinpai

C#常用类库-详解JetBrains.Annotations

Go 提案解读：heap/v2 —— 泛型堆终于来了！

华南诚信物流劳务派遣分包机构推荐榜 - 优质品牌商家

2026无锡GEO优化/ai优化服务商推荐榜精准触达工业客群 - 资讯焦点

C++面对对象

【即梦AI提示词】生图提示词推荐

探讨标远精工加工中心详细介绍，其价格多少钱合适 - 工业推荐榜

SecGPT-14B开源可部署：云起无垠发布首个专注网络安全的14B大模型

OpenClaw橙皮书

2026特殊场合轻奢高跟鞋优质品牌推荐 - 资讯焦点

ZooKeeper集群搭建

AC2100 OpenWrt 多账号单线多拨实战指南

2026铝镁锰屋面板图纸深化设计机构推荐，看哪家口碑好？ - 工业设备

鸿蒙开发实战：5分钟搞定系统级位置模拟器（附完整代码）

机器学习和深度学习基础

【紧急预警】MCP v2.8.1+本地连接器存在未公开的Connection Pool饥饿漏洞（CVE-2024-MCP-003已确认，补丁将于72小时后失效）

不想花冤枉钱？选降AI工具看这一篇就够了 - 我要发一区

fail2ban实战：从服务器被黑到构建主动防御体系

通义千问3-Reranker-0.6B实战案例：直播带货话术与商品信息匹配

如何用Dify在24小时内完成传统需2周的人工评估闭环？——金融客服场景下LLM-as-a-judge SLO达标实践白皮书

AI赋能智能车竞赛：使用快马平台大模型优化车辆决策算法

哈尔滨考研实力机构靠谱吗，深度剖析各机构优势 - 工业品牌热点