기존 AI 메모리 벤치마크(LoCoMo, LongMemEval 등)가 ‘과거 대화에서 답을 찾을 수 있는가’만 테스트하는 한계를 지적하며, 에이전트의 메타인지(자신이 무엇을 알고 있는지 아는 능력)를 측정하는 새로운 벤치마크를 제안한다. 검색 엔진 성능이 아닌 진정한 메모리 시스템 능력을 평가하는 것이 목표다.
💡 실무 포인트: AI 에이전트의 메모리 시스템을 구축할 때, 단순 검색 정확도뿐 아니라 ‘모르는 것을 모른다고 인식하는’ 메타인지 능력까지 평가 기준에 포함해야 한다.