원문: github.com | 토론: GeekNews · 댓글 1개
핵심 요약 GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama 70B(40GB) 모델을 0.3 tok/s 속도로 실행할 수 있다. Apple Silicon의 통합 메모리 아키텍처를 최대한 활용하는 접근이다.
커뮤니티 의견
- @GN⁺: “비교표에 Qwen 3.5 MoE, Kimi K2.5 같은 최신 모델도 추가되면 좋겠음. Apple 하드웨어에서 Qwen 3.5 MoE 모델이 놀라운 성능을 보인다는 보고가 많음”
관련 레퍼런스
💡 실무 포인트: VRAM이 부족한 맥 환경에서 대형 모델을 로컬 실행해야 할 때, Hypura의 저장 계층 인식 스케줄링이 NVMe 스왑 대비 더 나은 성능을 제공할 수 있다.