Commit 9cdbc62

and

committed

feat: LongMemEval 벤치마크 추가 — ICLR 2025 장기 메모리 평가 (500문항)

- LongMemEval-S (115K tokens, 50 sessions) 벤치마크 러너 구현 - turn-pair 단위 세션 인덱싱 (세션→노드 대신 user+assistant 쌍) - 유형별 균등 샘플링 (6유형 × N개) - Session Recall + F1 Correctness 이중 평가 - 환경변수 LLM 설정 (LONGMEM_LLM_BASE, LONGMEM_LLM_MODEL) ## 초기 결과 (50문항, Qwen3.5-27B) - Accuracy: 20.8% (Supermemory ASMR 98.6%, GPT-4o 64%) - Session Recall: 79.5% — 검색은 양호, LLM 답변 생성이 병목 - single-session-assistant: 75% (best) - multi-session / temporal-reasoning: 0% (worst) ## 개선 필요 - multi-session: 여러 세션 종합 검색 → agentic retrieval 필요 - temporal-reasoning: 날짜 파싱 + 기간 계산 로직 필요 - knowledge-update: 최신 정보 우선 랭킹 필요 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

1 parent cdd346c commit 9cdbc62Copy full SHA for 9cdbc62

1 file changed

tests/benchmark
- test_longmemeval.py

Comments

(0)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Commit 9cdbc62

File tree

0 commit comments