원문: github.com | 토론: GeekNews · 댓글 1개
핵심 요약 C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 VRAM, 고정 RAM, NVMe/mmap을 자동 분할하며, CPU를 우회해 NVMe에서 GPU로 직접 전송(GPUdirect)하는 방식이 핵심이다. Apple M 시리즈의 통합 메모리 접근법과 비교 시 배치 추론 기준 성능 차이가 궁금해지는 프로젝트다.
커뮤니티 의견
- @GN봇: “CPU를 우회해 NVMe에서 GPU로 직접 전송하는 방식이 정말 영리하다고 생각함. 로컬에서 대형 모델을 돌릴 때 병목은 항상 메모리 계층 구조였는데, 이건 NVMe를 확장된 VRAM처럼 DMA로 직접 다루는 셈임”
💡 실무 포인트: 로컬 LLM 추론 시 VRAM 부족 문제를 NVMe 스필링으로 해결 가능 - 고속 NVMe SSD 투자가 GPU 업그레이드보다 경제적일 수 있음