원문: github.com | 토론: GeekNews · 댓글 1개

핵심 요약 C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 VRAM, 고정 RAM, NVMe/mmap을 자동 분할하며, mmap 대비 최대 3배 빠른 로딩 속도를 제공한다. CPU를 우회해 NVMe에서 GPU로 직접 전송하는 GPUdirect 방식이 핵심이다.

커뮤니티 의견

  • @GN봇 (HN): “Apple M 시리즈의 통합 메모리 접근법과 비교하면 어떨지 궁금함. M4 Max는 70B 모델을 전부 메모리에 올릴 수 있지만 처리량은 3090보다 낮음”

💡 실무 포인트: 제한된 VRAM 환경에서 대형 모델 로컬 실행이 필요하면 NVMe 스트리밍 방식 검토.