当前位置: 首页 > news >正文

SWE benchmark 安装全过程

在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。

# 下载 Miniconda 安装脚本 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
# 运行安装 bash miniconda.sh -b -p $HOME/miniconda3 # 初始化 conda $HOME/miniconda3/bin/conda init bash # 重新加载 shell source ~/.bashrc
conda create -n swe-bench python=3.10 -y conda activate swe-bench pip install datasets # 3. 克隆并安装 SWE-bench git clone https://github.com/princeton-nlp/SWE-bench.git cd SWE-bench pip install -e .

现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。

python -m swebench.harness.run_evaluation \ --predictions_path gold \ --max_workers 1 \ --instance_ids sympy__sympy-20590 \ --run_id validate-gold

跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。

有三种Patch可以选择,开始一个个测试。

1. mini-swe-agent

到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)

git clone https://github.com/SWE-agent/mini-swe-agent.git cd mini-swe-agent pip install -e .

在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。

DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

mini-extra swebench-single \ --subset lite \ --split test \ --model deepseek/deepseek-chat \ -i sympy__sympy-20590

2. SWE-agent

暂无

3. Live-SWE-agent

暂无

http://www.jsqmd.com/news/340123/

相关文章:

  • 安全工具篇魔改二开CheckSum8算法Beacon密钥Stager流量生成机制
  • Clawdbot之父:我从不读自己的代码
  • CentOS 7.6 TCP连接奇慢故障排查:中文注释引发的sysctl配置异常
  • Mamba与Conda
  • 老旧CentOS7服务器JVM加载Jar缓慢排查:竟与NTP服务器有关
  • idae使用var或者ctrl+alt+v补全代码时,左侧补全的不是对象类型而是莫名其妙的变成var了,怎么解决
  • 优化 Selenium 使用文本挖掘在分析留言数据中提供了多种应用 如情感分析、主题建模、关键词提取和文本分类
  • Selenium常用于网页爬取 为了提高爬取效率,可以采取以下优化措施:合理使用无头模式
  • 网络爬虫已成为获取互联网数据的重要手段。Selenium 作为一种强大的自动化测试工具,
  • 双极膜设备哪家好?2026精选优质双极膜厂家推荐盘点 - 栗子测评
  • 制氮机哪家好?制氮机公司推荐哪家?2026年靠谱的制氮机厂家榜!高纯制氮机工厂以及制氮机生产厂家甄选 - 栗子测评
  • A2A协议和MCP协议的区别
  • 2026年高性价比电地暖批发商甄选指南(附联系方式) - 2026年企业推荐榜
  • 2026pvc隔热条厂家怎么选?车辆轮船设备密封条厂家+尼龙(PA)隔热条厂家精选 - 栗子测评
  • 2026年热门的柬埔寨老拗至东莞国际物流专线行业推荐榜单 - 行业平台推荐
  • 常见问题 --- IDA报错 6AC: got SIGSEGV signal (Segmentation violation) (exc.code b, tid 9557)
  • 2026年知名的威海合同律师事务所/威海法律咨询律师事务所最新推荐 - 行业平台推荐
  • 研发环境:SSL证书快速部署
  • IntelliJ IDEA:无法读取**.properties
  • Tiez 贴汁 高效的剪贴工具
  • AAAI 2026 Oral | 主动注入标签噪声,为何成为模型泛化的“密钥”?两层线性网络的动力学分析
  • 2026年比较好的威海法律咨询律师事务所行业口碑汇总 - 行业平台推荐
  • Git-RSCLIP企业级应用:国土调查外业核查前的自动化地物预判
  • AI摩尔定律下的行业奇点:程序员职业自动化演进与人类护城河重构研究报告(V2.0)
  • Qwen3-ASR-0.6B实战:一键将音频转文字,隐私安全无忧
  • ChatGLM3-6B-128K应用场景:电商产品描述批量生成实践
  • 一篇 1948 年的论文,为什么至今仍在塑造我们的通信世界?
  • DeepSeek-R1-Distill-Qwen-1.5B快速部署:ARM64服务器(如鲲鹏920)兼容性验证
  • 2026年武汉石材装饰定制服务商综合实力盘点 - 2026年企业推荐榜
  • 2026年Q1:一站式婚礼堂主题酒店诚信服务与综合实力深度解析 - 2026年企业推荐榜