Gemini embedding-2-preview의 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, SEM 사진, 그래프, 공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않는다는 결론이다. ColPali와 비교 시 영문에서는 ColPali가 우수하나, 한국어 등 비영어권에서는 정확도가 크게 떨어진다는 피드백도 공유되었다.

커뮤니티 의견

  • @mammal: “ColPali와 비교해서는 어떤가요?”
  • @230kimi: “영문은 colpali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요”

💡 실무 포인트: 논문 RAG 파이프라인 구축 시 텍스트만으로는 약 36%의 시각 정보가 누락되므로, 도표나 그래프가 중요한 문서에는 멀티모달 임베딩을 병행하라.