Commit 9cdbc62
feat: LongMemEval 벤치마크 추가 — ICLR 2025 장기 메모리 평가 (500문항)
- LongMemEval-S (115K tokens, 50 sessions) 벤치마크 러너 구현
- turn-pair 단위 세션 인덱싱 (세션→노드 대신 user+assistant 쌍)
- 유형별 균등 샘플링 (6유형 × N개)
- Session Recall + F1 Correctness 이중 평가
- 환경변수 LLM 설정 (LONGMEM_LLM_BASE, LONGMEM_LLM_MODEL)
## 초기 결과 (50문항, Qwen3.5-27B)
- Accuracy: 20.8% (Supermemory ASMR 98.6%, GPT-4o 64%)
- Session Recall: 79.5% — 검색은 양호, LLM 답변 생성이 병목
- single-session-assistant: 75% (best)
- multi-session / temporal-reasoning: 0% (worst)
## 개선 필요
- multi-session: 여러 세션 종합 검색 → agentic retrieval 필요
- temporal-reasoning: 날짜 파싱 + 기간 계산 로직 필요
- knowledge-update: 최신 정보 우선 랭킹 필요
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>1 parent cdd346c commit 9cdbc62
1 file changed
Lines changed: 450 additions & 0 deletions
0 commit comments