当前位置: 首页 > news >正文

昆仑万维发布Skywork-SWE代码智能体基座模型,32B规模刷新仓库级修复能力纪录

6月20日,昆仑万维正式推出自主研发的软件工程(Software Engineering, SWE)代码智能体基座模型Skywork-SWE。该模型在320亿参数规模下实现了开源领域仓库级代码修复的突破性进展,其核心技术创新包括构建超万例可验证任务的训练数据集,以及验证数据规模扩展对软件工程任务的增益效应。在权威基准测试SWE-bench Verified中,Skywork-SWE-32B模型以38.0%的pass@1准确率刷新开源模型纪录,引入测试时扩展技术后性能进一步提升至47.0%,不仅超越同参数规模竞品,更显著缩小了与闭源模型的差距。

【免费下载链接】SWE-Dev-32B项目地址: https://ai.gitcode.com/zai-org/SWE-Dev-32B

随着2025年智能体(Agent)模型新阶段的临近,具备"超长上下文理解"与"自主任务闭环"能力的AI系统正成为技术突破焦点。在众多应用场景中,软件工程领域的SWE任务因其贴近真实开发流程的特性,正成为检验智能体综合能力的试金石。与传统代码生成任务不同,SWE任务要求模型完成从缺陷定位、代码修改到验证修复的完整流程,这类源自GitHub真实项目的复杂场景,需要模型具备跨文件依赖分析、工具调用集成和持续迭代修复的能力,全面考验智能体的工程化实践水平。

当前主流SWE任务数据集存在三大核心瓶颈制约技术发展:首先是验证机制缺失,多数开源数据缺乏可执行环境和单元测试,导致修复效果无法有效验证;其次是高质量样本稀缺,现有数据集虽数量庞大但缺乏严格校验,导致开源模型性能长期落后于闭源系统;最后是数据规模法则不明确,现有数据体量难以验证"数据越多性能越强"的扩展定律在SWE任务中的适用性。这些问题共同导致开源社区在构建实用化代码智能体时面临数据困境。

为突破这一局面,昆仑万维团队设计了三阶段九步骤的自动化数据构建流程,通过严格的质量筛选机制,从15万条候选仓库元数据中精选出1万例高质量任务实例,形成包含8千条多轮交互轨迹的Skywork-SWE数据集。该数据集不仅规模超越SWE-Gym Lite等同类产品,更覆盖Pydantic、SQLGlot等主流开源项目及大量中小型仓库,构建起贴近真实开发生态的任务分布体系。

如上图所示,该流程涵盖原始数据采集、环境标准化配置、多轮验证迭代等关键环节。这一系统化构建方法确保了数据集的真实性与可复现性,为训练高性能代码智能体提供了坚实基础。

在数据构建过程中,团队实施了多维度质量控制策略,包括仓库活跃度筛选、测试覆盖率评估和修复有效性验证。通过三级过滤机制,最终从初始候选集中精选出10,237条有效任务实例,构建出当前规模最大的可验证SWE训练数据集。这种严苛的数据治理流程,使得模型能够学习到真实开发场景中的复杂逻辑和工程实践模式。

图表清晰展示了从15万候选样本到1万高质量实例的筛选过程,其中单元测试通过率和代码复杂度是关键过滤指标。这种精细化的数据处理策略,为模型注入了贴近工程实践的问题解决能力。

秉持"Less artifact, more intelligence"的开发理念,团队选择OpenHands框架作为模型交互基座,最大限度保留智能体的自主决策空间。基于高质量数据集训练的Skywork-SWE-32B模型,在SWE-bench Verified基准测试中展现出卓越性能:38.0%的pass@1准确率超越Qwen2.5-Coder-32B系列最佳成绩,验证了数据规模扩展对软件工程任务的显著增益。更值得关注的是,通过引入测试时扩展技术(Test-Time Scaling),模型性能提升至47.0%,这一指标不仅领先同参数规模模型8-15个百分点,更超越GPT-4.1-mini(23.86%)、Claude 3.5 HaiKu(40.6%)等闭源模型,仅略低于GPT-4 Turbo的51.2%。

作为昆仑万维天工超级智能体生态的重要组成,Skywork-SWE-32B的开源发布标志着公司在代码智能体领域的战略布局取得关键进展。该模型的技术突破验证了三个核心结论:高质量可验证数据是突破SWE任务性能瓶颈的关键;系统化数据扩展策略能有效提升模型工程实践能力;开源模型通过精准优化可逼近闭源系统性能。这些发现为社区提供了重要的技术参考,也为构建实用化代码智能体指明了发展方向。

展望未来,昆仑万维团队计划从三个维度推进技术迭代:首先扩展多编程语言支持,覆盖C++、Java等企业级开发场景;其次引入运行时反馈强化学习机制,实现修复效果的动态优化;最后构建多智能体协作系统,模拟真实开发团队的分工协作模式。随着这些技术的落地,Skywork-SWE系列模型有望逐步具备从需求分析到系统部署的全流程软件开发能力,为下一代智能开发工具链奠定基础。

目前,Skywork-SWE-32B模型已通过Gitcode平台开源(仓库地址:https://gitcode.com/zai-org/SWE-Dev-32B),团队同步开放了数据集构建工具和评估脚本,助力学术界和产业界共同推进代码智能体技术发展。这一开源行动不仅体现了昆仑万维推动AI技术普惠的承诺,也为智能体在软件工程领域的标准化和产业化提供了重要实践参考。在AI重塑软件开发流程的浪潮中,Skywork-SWE系列模型的持续进化,或将加速"人机协同开发"时代的到来。

【免费下载链接】SWE-Dev-32B项目地址: https://ai.gitcode.com/zai-org/SWE-Dev-32B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/79779/

相关文章:

  • 万象EXCEL应用(二十) Excel收入支出日记账台帐报表——东方仙盟炼气期
  • 重磅发布:Qwen3-VL-8B-Instruct-FP8模型震撼登场,开启多模态AI应用新纪元
  • 12、Linux 网络中的 BPF 应用与数据包过滤
  • 30亿参数打破性能桎梏:SmolLM3开放模型如何重塑轻量级AI应用生态
  • ollama v0.13.3 最新发布:新增模型与功能优化详细解读
  • 2.5亿参数破局多模态困境:ModernVBERT重塑视觉文档检索技术边界
  • GLM-4.5-Air横空出世:混合推理技术开启开源大模型商用新纪元
  • 论文阅读:AAAI 2026 Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision
  • Unsloth Dynamic 2.0量化技术:重新定义大模型部署效率与精度边界
  • OpenAI发布Whisper Turbo模型:本地语音处理效率提升5.4倍,多语言翻译能力再突破
  • 智谱AI大模型全面免费开放:AI普惠时代正式开启
  • 终极百度网盘加速指南:免费实现快速下载的完整教程
  • 38、互联网邮件安全与Web服务器安全综合指南
  • Ring-1T重磅发布:万亿参数思维模型开启开源推理新纪元
  • 百度开源再放大招:ERNIE-4.5-VL-28B-A3B-Thinking颠覆多模态AI认知边界
  • 40、网站内容与安全全解析
  • 机器学习进阶<11>基于集成学习的多源数据融合的电商用户购买行为预测系统
  • 42、保障 Web 服务器安全:数据库访问、认证与访问控制全解析
  • 终极百度网盘下载解析工具:简单三步实现高速下载
  • 43、保障Web与文件服务安全:技术、挑战与应对策略
  • Windows右键菜单终极优化指南:5个技巧让系统飞起来
  • C++--哈希封装my_unordered_set和my_unordered_map
  • 44、FTP安全指南与服务器配置解析
  • 一个卷积后就做池化还是多个卷积后做池化?
  • 47、安全文件服务配置指南
  • 智谱AI开源GLM-4-9B-Chat-1M:突破200万中文字符上下文壁垒,多模态能力引领行业新标杆
  • 48、高效安全的文件传输:rsync 全方位指南(上)
  • League Akari 智能助手:重新定义英雄联盟自动化体验
  • 49、Linux文件共享与日志管理全解析
  • 不止于论文写作:虎贲等考 AI 解锁期刊级学术研究与深度阅读新范式