Skip to content

[chore][P2] Adopt SWE-bench evaluation framework — measure anet 真实 SWE 能力 baseline #128

@s2agi

Description

@s2agi

背景

anet 现在没有 standard evaluation framework 来 measure agents 在 software engineering 任务上的真实能力。所有判断("agent 能解决问题")都是观察性 + 主观印象,缺乏可比的客观指标。

触发点:通信工程马 #127 SWE-agent preview 调研发现 SWE-bench 是该领域的事实标准 benchmark:

  • SWE-bench Verified(500 题 OpenAI 验证过的 GitHub PRs)
  • SWE-bench Lite(300 简化题)
  • 各 agent 在上面跑出 resolved rate(mini-swe-agent v2: 74%+ verified / Anthropic 内部数据 / etc.)
  • 共同 measure 让不同 agent 架构能客观对比

需求

Adopt SWE-bench evaluation framework 让 anet 有 baseline:

  1. 跑现状:anet 当前 default toolset([bug][P0] 书生/intern 节点 (claude-agent-sdk runtime) 报「网络限制」无法访问外部 API/网络 #101 Option B Claude Code preset)在 SWE-bench Lite 上能解决多少题
  2. 配置 variants:跑 1) minimal mode(如果 anet 后续加 minimal toolset 借鉴 mini-swe-agent)2) 默认 toolset 3) 多 agent commhub 协作(anet 差异化优势是否 measurable)
  3. 持续 measure:把 SWE-bench 跑通成 CI / 周期性 measure(每个 preview promote latest 前跑一次),版本间能看到 regression / improvement
  4. 公开 numbers:跑出的 resolved rate 公开(README badge / docs-site),作为 anet 客观能力背书

#127 SWE-agent 调研关系

工程马 在 #127 preview 阶段 catch 了「SWE-agent 团队自己 pivot 到 mini-swe-agent」+「SWE-bench 是 eval framework」两个 insight。本 issue 跟 #127 配套:

建议 #127 + 本 issue 同一 owner 同期做(通信工程马),fold-in 进 deep dive 5-7h 计划。

优先级 / Owner

P2(不阻塞 v0.9.0 promote,但是中长期 measurement infra)· Owner: 通信工程马(跟 #127 同期做)

期望产出

  1. SWE-bench 跑通的 reproducible Docker / scripts(不污染生产)
  2. 一份 baseline measurement report:anet default toolset 现状 resolved rate
  3. 简短文档「如何为 anet 跑 SWE-bench eval」(docs-site)
  4. (可选)CI integration 让每 promote latest 前自动跑

Related


Reporter: 通信龙 per 工程马 #127 preview D3 decision · GO 后跟 #127 一起做

Metadata

Metadata

Assignees

No one assigned

    Labels

    P2Normal — 常规 enhancement / 非阻塞 bug

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions