TREX - Rust로 만든 PDF 테이블 추출 엔진 (딥러닝으로 정확도 개선)

원문: github.com | 토론: GeekNews · 댓글 0개

핵심 요약 PDF 테이블 추출을 위한 Rust 기반 오픈소스 엔진이다. 기존 파이썬 도구(Camelot, Tabula, pdfplumber)가 OpenCV, Ghostscript, Java 등 무거운 런타임 의존성을 필요로 하는 반면, TREX는 단일 바이너리로 외부 의존성 없이 동작하며 메모리 약 30MB로 Cloud Run/Lambda 같은 서버리스 환경에서 운영 가능하다. 딥러닝 기반 정확도 개선이 포함되어 있다.

💡 실무 포인트: 서버리스 환경에서 PDF 문서 파이프라인(RAG 전처리 등)을 구축할 때 TREX를 도입하면 메모리 제약을 극복하고 테이블 추출 정확도를 높일 수 있다.