当前位置: 首页 > news >正文

DeNovoSWE数据集发布:显著提升Code Agent长程任务能力,助力仓库级代码生成

长程任务评测与Code Agent角色转变

随着LLM Code Agent能力的不断提升,越来越多研究者意识到应迈向下一阶段更接近真实场景需求的长程任务。于是,涌现出一些长程任务评测的Benchmark,如NL2RepoBench以及BeyondSWE等。Code Agent预期承担的角色逐渐从仓库维护者变成架构师,能够做规划完成整个仓库代码的长程任务。

DeNovoSWE数据集发布及成果

近日,中国人民大学高瓴人工智能学院完成相关研究,发布DeNovoSWE数据集,专注于长程软件工程任务,尤其是仓库级别代码从零生成任务。该数据集通过Divide & Conquer与Critic & Repair机制构造高质量数据集,成功实现长程SWE任务的Scaling,构建起包含4,818真实数据的开源高质量长程SWE任务数据集,为Code Agent长程能力训练提供大规模数据,大幅提升其长程任务能力。论文中还提供根据题目难度打分过滤的手段,有效缓解困难题目比例与轨迹质量的权衡问题。

实验显示长程数据提升效果

实验显示,基于DeNovoSWE训练的Qwen3 - 30B - A3B - Instruct在BeyondSWE - Doc2Repo上从5.8%提升到47.2%,在NL2RepoBench上从4.3%提升到23.0%,展示了长程数据对仓库级代码生成能力的显著提升。

长程软件工程能力的关键问题

过去一年,随着像Scale - SWE等工作的大规模SWE数据的scaling,代码智能体在SWE - bench这类真实软件工程任务上快速进步。但当模型越来越擅长「修一个issue」「改几行bug」之后,一个更关键的问题浮现:智能体真的具备长程软件工程能力了吗?从BeyondSWE - Doc2Repo以及NL2RepoBench前沿模型的效果来看,并不理想。真实世界的软件开发,往往需要理解需求、规划架构、创建文件、设计API、处理依赖、打通模块,并最终让整个仓库在测试中跑通,即困难的是long - horizon repository - level generation,这正是DeNovoSWE想要解决的问题。

高质量「从头生成仓库」任务文档标准

在document - to - repository generation中,文档是智能体重建整个仓库的唯一任务入口。一份高质量的任务文档,至少需满足两个核心标准。第一,它必须是well - organized的,应先给出清晰的仓库总览,再按能力或工作流拆分章节,让每部分对应明确的功能边界。第二,它必须从可靠evaluation的角度出发,既不能太少,否则任务变成欠定义问题,可能使模型靠漫无边际猜才能通过evaluation;也不能太多,否则直接泄漏实现细节,让任务失去挑战。真正高质量的文档应描述evaluation所依赖的关键行为,也描述出大致需要完成的功能,要足以让智能体复现可测试行为,但不能变成实现代码的拷贝。这也是DeNovoSWE的核心思想。

DeNovoSWE方法解析

DeNovoSWE将「从文档生成完整仓库」构造成一个大规模、可验证的长程软件工程任务,通过sandboxed multi - agent workflow自动构建高质量实例,方法可概括为Divide和Conquer两步。在Divide阶段,系统分析目标仓库,将其拆解为多个repository capabilities,同时运行原始单元测试并收集执行trace,识别影响evaluation的组件。在Conquer阶段,使用Draft - Critic - Repair机制逐能力生成文档,循环迭代直到每个能力章节足够清晰、完整、与evaluation对齐,最终合并成完整任务文档。

DeNovoSWE任务难度及处理方式

DeNovoSWE的任务难度来自根本变化,它不再是issue - level fixing,而是whole - repository generation。智能体需在清理后的环境中依赖文档重建整个仓库,任何偏差都可能导致测试失败,错误还会累积。为处理不同仓库难度差异,DeNovoSWE提出difficulty - aware trajectory filtering,根据结构复杂度和LLM难度判断,为不同难度区间设置不同过滤阈值,在质量和多样性之间取得平衡。

实验结果验证DeNovoSWE效果

DeNovoSWE最终构建了4818个高质量document - to - repository任务实例,是可执行、可评估、可训练的长程软件工程环境。实验结果显示,DeNovoSWE对模型的长程仓库生成能力带来显著提升。在Qwen3 - 30B - A3B - Instruct上,使用DeNovoSWE训练后性能进一步提升;在更强的Qwen3.5 - 35B - A3B backbone上,DeNovoSWE同样带来稳定收益,说明其收益来自高质量长程数据本身。

结语:长程代码智能体的门槛

代码智能体的下一阶段,是能够理解文档、规划架构、组织模块、实现接口,并最终生成完整可运行的软件仓库。DeNovoSWE将这个目标系统化地构造成可训练、可验证、可扩展的数据集,回答了什么样的数据能真正训练出具备长程软件工程能力的智能体的问题。从一份文档开始,重建整个repository,是长程代码智能体需要跨越的门槛。那么,长程代码智能体何时能真正跨越这道门槛呢?

http://www.jsqmd.com/news/1079300/

相关文章:

  • 软件交互式查询中的响应时间优化
  • 奥雅借AI重构设计商业模式:从改图到审美平权,开启空间智能新时代!
  • 西安全免费安装维保停车系统对比:富平图科选购指南
  • Java集合框架源码分析与性能比较
  • 冰壶运动检测数据集VOC+YOLO格式2339张5类别
  • 宝塔面板 Docker 安装 RabbitMQ 失败排查与解决
  • 从单机到集群:openyuanrong分布式计算引擎架构、部署与调优实战
  • 接口测试实战:从Postman基础到分层用例设计方法论
  • CentOS安装KVM两种方案:系统自带组件与yum一键安装
  • 基于51单片机的智能香薰灯:从PID温控到WS2812B灯效的嵌入式开发实践
  • A2A 协议落地 —— 从“前瞻设计“到“标准化接入“
  • 连续折腾两周 AI 项目后,我发现真正影响开发效率的,从来不只是模型能力 —— 一次使用蓝耘 MaaS 的真实记录
  • 人类全部知识·全域数学统一学习总纲-(Ω-终版·2026.06.28·全覆盖UNESCO 5260门人类学科)
  • HAMAMATSU C8779K-01扫描单元
  • 软件中介者管理化的对象间协调
  • 企业级分布式搜索引擎Transwarp Scope助力企业打造自主可控高性能搜索平台
  • HarmonyOS技术精讲-UI开发调试调优:渲染流水线与硬件加速
  • 终极AI视频插帧指南:用Flowframes轻松提升视频流畅度的完整教程
  • 铰刀异常损耗频发?被忽视的刀柄同轴度问题值得重新审视
  • Go 新手入门:一篇文章讲清楚 go.mod 文件
  • Fable 5有望曲线回归!订阅模式重构,云端接口实锤,6月26日成关键节点
  • STM32-S256-儿童锁+水温度检测+出水量+液位+防干烧+保温沸腾常温+自动+手动+加热+出水+OLED屏+声光提醒+(无线方式选择)-34(设计源文件+万字报告+讲解)(支持资料、图片参考_相
  • crypto-js AES ECB模式跨语言加解密避坑指南
  • DRV8313电机驱动开发实战:从硬件设计到软件调试全解析
  • 2026年数字沙盘行业洞察:从“好看”到“好用”,谁在重新定义空间展示的决策价值?
  • 开源 AI Agent 框架的轻量化设计:从 Ollama 到本地推理的极简之路
  • Rust的匹配中的模式覆盖
  • SQPCC算法:处理互补约束优化问题的序列二次规划方法
  • Spring 异步与事务混用的踩坑与原理分析
  • 告别命令行恐惧:3分钟上手图形化M3U8下载工具