Gemini embedding-2-preview 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, SEM 사진·그래프 곡선·공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않는 것으로 나타났다. 18개 쿼리 테스트에서 이미지 임베딩이 텍스트 대비 유의미한 검색 성능 차이를 보였다. ColPali와의 비교에서는 영문에서 ColPali가 우세하지만 한국어 등 비영어권에서는 정확도가 크게 하락한다는 피드백이 있었다.

커뮤니티 의견

  • @mammal: “ColPali와 비교해서는 어떤가요?”
  • @230kimi: “영문은 ColPali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요”

💡 실무 포인트: PDF 기반 RAG 파이프라인 구축 시 텍스트 임베딩만으로는 시각 정보의 36%를 놓칠 수 있다. 도표·그래프가 중요한 문서는 멀티모달 임베딩 또는 이미지 임베딩 병행을 검토하라.