[chore][P2] Adopt SWE-bench evaluation framework — measure anet 真实 SWE 能力 baseline

## 背景

anet 现在没有 **standard evaluation framework** 来 measure agents 在 software engineering 任务上的真实能力。所有判断（"agent 能解决问题"）都是观察性 + 主观印象，缺乏可比的客观指标。

**触发点**：通信工程马 #127 SWE-agent preview 调研发现 **SWE-bench** 是该领域的事实标准 benchmark：
- SWE-bench Verified（500 题 OpenAI 验证过的 GitHub PRs）
- SWE-bench Lite（300 简化题）
- 各 agent 在上面跑出 resolved rate（mini-swe-agent v2: 74%+ verified / Anthropic 内部数据 / etc.）
- 共同 measure 让不同 agent 架构能客观对比

## 需求

**Adopt SWE-bench evaluation framework** 让 anet 有 baseline：

1. **跑现状**：anet 当前 default toolset（#101 Option B Claude Code preset）在 SWE-bench Lite 上能解决多少题
2. **配置 variants**：跑 1) minimal mode（如果 anet 后续加 minimal toolset 借鉴 mini-swe-agent）2) 默认 toolset 3) 多 agent commhub 协作（anet 差异化优势是否 measurable）
3. **持续 measure**：把 SWE-bench 跑通成 CI / 周期性 measure（每个 preview promote latest 前跑一次），版本间能看到 regression / improvement
4. **公开 numbers**：跑出的 resolved rate 公开（README badge / docs-site），作为 anet 客观能力背书

## 跟 #127 SWE-agent 调研关系

工程马 在 #127 preview 阶段 catch 了「SWE-agent 团队自己 pivot 到 mini-swe-agent」+「SWE-bench 是 eval framework」两个 insight。本 issue 跟 #127 配套：
- #127 = 借鉴 SWE-agent / mini-swe-agent 设计 patterns
- #126 (this) = 借用 SWE-bench eval 测量 anet 真实能力

**建议 #127 + 本 issue 同一 owner 同期做**（通信工程马），fold-in 进 deep dive 5-7h 计划。

## 优先级 / Owner

P2（不阻塞 v0.9.0 promote，但是中长期 measurement infra）· Owner: **通信工程马**（跟 #127 同期做）

## 期望产出

1. SWE-bench 跑通的 reproducible Docker / scripts（不污染生产）
2. 一份 baseline measurement report：anet default toolset 现状 resolved rate
3. 简短文档「如何为 anet 跑 SWE-bench eval」（docs-site）
4. （可选）CI integration 让每 promote latest 前自动跑

## Related

- #127 SWE-agent + mini-swe-agent 调研
- #101 default toolset (#101 Option B = Claude Code preset，本 issue measure 其真实效果)
- 未来 anet "minimal mode" 候选（mini-swe-agent 启发）
- 商业模式开源 + 卖课 — 公开 SWE-bench 数据是 thought leadership 关键 element（per A站运营马 launch blog 建议 + Vincent 自营运策略）

---
*Reporter: 通信龙 per 工程马 #127 preview D3 decision · GO 后跟 #127 一起做*


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[chore][P2] Adopt SWE-bench evaluation framework — measure anet 真实 SWE 能力 baseline #128

背景

需求

跟 #127 SWE-agent 调研关系

优先级 / Owner

期望产出

Related

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[chore][P2] Adopt SWE-bench evaluation framework — measure anet 真实 SWE 能力 baseline #128

Description

背景

需求

跟 #127 SWE-agent 调研关系

优先级 / Owner

期望产出

Related

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions