slimshetty/swebench-verified:专为 SWE-Bench Verified 基准提供的预配置 Docker 环境,由 R2E-Gym 项目核心贡献者发布;封装基准数据集与测试工具,支持 AI 编程助手性能验证、基准工具开发与实验复现,避免手动搭建依赖,确保可复现性。
下载次数: 1039185
类型:

slimshetty/swebench-verifiedslimshetty/swebench-verified 镜像由 Slim Shetty(AI 编程助手 R2E-Gym 项目核心参与者)发布,专为 SWE-Bench Verified 基准提供预配置的容器环境。该镜像封装了基准数据集、测试工具与适配的运行时环境,旨在避免手动搭建依赖,确保 AI 编程助手性能验证实验的可复现性。
| 项目 | 要求 |
|---|---|
| 操作系统 | Linux(Ubuntu 20.04+ 推荐)、Windows 10/11(需 WSL2)、macOS |
| 容器工具 | Docker 19.03+ 或 Podman 3.0+ |
| 存储空间 | 建议预留 ≥10GB(用于数据集与模型文件) |
| GPU | 可选(如使用 R2EGym-32B 等大型模型,建议 ≥16GB 显存) |
bashdocker pull xuanyuan.cloud/r/slimshetty/swebench-verified:latest
bashdocker run -d \ --name swebench-verified \ -p 8888:8888 \ -v /宿主机/数据路径:/app/data \ -v /宿主机/结果路径:/app/results \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
参数说明:
-p 8888:8888:映射容器端口(如提供 Web 界面或 API 服务)-v:挂载数据与结果目录到宿主机,避免数据丢失如需运行大型模型,启用 GPU 支持:
bashdocker run -d \ --name swebench-verified-gpu \ --gpus all \ -p 8888:8888 \ -v /宿主机/数据路径:/app/data \ -v /宿主机/结果路径:/app/results \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
bash# 查看容器运行状态 docker ps | grep swebench-verified # 查看日志 docker logs -f swebench-verified # 进入容器进行交互操作 docker exec -it swebench-verified /bin/bash
容器启动后,进入容器加载 SWE-Bench Verified 数据集:
bashdocker exec -it swebench-verified /bin/bash # 数据集加载示例(实际命令需参考项目文档) python load_dataset.py --dataset swebench-verified --output /app/data
使用内置的基准评估工具运行测试:
bash# 运行完整基准评估 python run_benchmark.py --model your_model --dataset /app/data/swebench-verified # 运行单个任务测试 python run_task.py --task task_name --output /app/results
bash# 生成性能报告 python evaluate.py --results /app/results --output /app/results/report.json # 对比性能指标 python compare_models.py --baseline r2egym --results /app/results
若需测试自研模型,将模型文件挂载到容器:
bashdocker run -d \ --name swebench-custom \ --gpus all \ -v /宿主机/模型路径:/app/models \ -v /宿主机/数据路径:/app/data \ xuanyuan.cloud/r/slimshetty/swebench-verified:latest
容器内运行测试:
bashpython run_benchmark.py --model /app/models/your_model --dataset /app/data/swebench-verified
可编写脚本批量运行不同配置的实验:
python# batch_experiment.py import subprocess import json # 实验配置列表 configs = [ {"model": "r2egym-32b", "temperature": 0.0}, {"model": "r2egym-32b", "temperature": 0.5}, ] # 批量运行 for config in configs: cmd = [ "python", "run_benchmark.py", "--model", config["model"], "--temperature", str(config["temperature"]), "--output", f"/app/results/{config['model']}_t{config['temperature']}" ] subprocess.run(cmd) print("批量实验完成!")
部分场景可能提供 API 服务,启动后访问:
bash# API 服务地址(如适用) http://localhost:8888/api/docs
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 数据集下载失败 | 网络连接问题或资源链接变更 | 检查网络;手动下载数据集后挂载到容器 |
| GPU 不可用 | 未安装 nvidia-docker2 或驱动不兼容 | 安装 nvidia-docker2;验证 GPU 驱动 |
| 显存不足 | 模型规模过大或 batch-size 设置过高 | 降低 batch-size;使用 CPU 模式或较小模型 |
| 评估结果不一致 | 随机种子或配置差异 | 设置固定随机种子;核对配置参数 |
| 容器启动失败 | 端口冲突或挂载路径不存在 | 修改端口映射;创建挂载目录 |
基于 SWE-Bench Verified 基准的性能指标(参考 R2E-Gym 项目):
实际性能取决于模型规模、超参数设置与硬件配置,建议根据自身需求调整配置。
注意:具体的使用命令与配置需参考项目的官方文档与 README 文件。建议先查看镜像的入口脚本或文档,了解实际提供的功能与接口。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。






manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务