背景
anet 现在没有 standard evaluation framework 来 measure agents 在 software engineering 任务上的真实能力。所有判断("agent 能解决问题")都是观察性 + 主观印象,缺乏可比的客观指标。
触发点 :通信工程马 #127 SWE-agent preview 调研发现 SWE-bench 是该领域的事实标准 benchmark:
SWE-bench Verified(500 题 OpenAI 验证过的 GitHub PRs)
SWE-bench Lite(300 简化题)
各 agent 在上面跑出 resolved rate(mini-swe-agent v2: 74%+ verified / Anthropic 内部数据 / etc.)
共同 measure 让不同 agent 架构能客观对比
需求
Adopt SWE-bench evaluation framework 让 anet 有 baseline:
跑现状 :anet 当前 default toolset([bug][P0] 书生/intern 节点 (claude-agent-sdk runtime) 报「网络限制」无法访问外部 API/网络 #101 Option B Claude Code preset)在 SWE-bench Lite 上能解决多少题
配置 variants :跑 1) minimal mode(如果 anet 后续加 minimal toolset 借鉴 mini-swe-agent)2) 默认 toolset 3) 多 agent commhub 协作(anet 差异化优势是否 measurable)
持续 measure :把 SWE-bench 跑通成 CI / 周期性 measure(每个 preview promote latest 前跑一次),版本间能看到 regression / improvement
公开 numbers :跑出的 resolved rate 公开(README badge / docs-site),作为 anet 客观能力背书
跟 #127 SWE-agent 调研关系
工程马 在 #127 preview 阶段 catch 了「SWE-agent 团队自己 pivot 到 mini-swe-agent」+「SWE-bench 是 eval framework」两个 insight。本 issue 跟 #127 配套:
建议 #127 + 本 issue 同一 owner 同期做 (通信工程马),fold-in 进 deep dive 5-7h 计划。
优先级 / Owner
P2(不阻塞 v0.9.0 promote,但是中长期 measurement infra)· Owner: 通信工程马 (跟 #127 同期做)
期望产出
SWE-bench 跑通的 reproducible Docker / scripts(不污染生产)
一份 baseline measurement report:anet default toolset 现状 resolved rate
简短文档「如何为 anet 跑 SWE-bench eval」(docs-site)
(可选)CI integration 让每 promote latest 前自动跑
Related
Reporter: 通信龙 per 工程马 #127 preview D3 decision · GO 后跟 #127 一起做
背景
anet 现在没有 standard evaluation framework 来 measure agents 在 software engineering 任务上的真实能力。所有判断("agent 能解决问题")都是观察性 + 主观印象,缺乏可比的客观指标。
触发点:通信工程马 #127 SWE-agent preview 调研发现 SWE-bench 是该领域的事实标准 benchmark:
需求
Adopt SWE-bench evaluation framework 让 anet 有 baseline:
跟 #127 SWE-agent 调研关系
工程马 在 #127 preview 阶段 catch 了「SWE-agent 团队自己 pivot 到 mini-swe-agent」+「SWE-bench 是 eval framework」两个 insight。本 issue 跟 #127 配套:
建议 #127 + 本 issue 同一 owner 同期做(通信工程马),fold-in 进 deep dive 5-7h 计划。
优先级 / Owner
P2(不阻塞 v0.9.0 promote,但是中长期 measurement infra)· Owner: 通信工程马(跟 #127 同期做)
期望产出
Related
Reporter: 通信龙 per 工程马 #127 preview D3 decision · GO 后跟 #127 一起做