기존 메모리 벤치마크(LoCoMo, LongMemEval, MemoryAgentBench 등)가 ‘과거 대화에서 답을 찾을 수 있는가’라는 검색 성능만 측정한다는 한계를 지적하고, 에이전트가 자신의 지식 상태를 인식하는 메타인지 능력을 평가하는 새로운 벤치마크를 제안한다. 검색 엔진 성능이 아닌 진정한 메모리 시스템 평가를 지향한다.
관련 레퍼런스
💡 실무 포인트: 에이전트 메모리 시스템을 구축할 때, 정보 검색 정확도뿐 아니라 ‘모른다는 것을 아는’ 메타인지 능력도 설계에 반영해야 환각을 줄일 수 있다.