원문: twitter.com | 토론: GeekNews · 댓글 1개
핵심 요약 iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, 4bit 양자화를 적용했다. SSD에서 GPU로 직접 스트리밍하는 방식으로, Apple의 2023년 논문 “LLM in a Flash"에 기반한 접근이다.
커뮤니티 의견
- @GN⁺: “iPhone Pro는 RAM이 12GB로 제한되어 있어서 모델의 활성 부분을 담기엔 부족하며, 몇 초 만에 과열되고 쓰로틀링이 걸린다는 지적도 있다.”
관련 레퍼런스
💡 실무 포인트: 온디바이스 LLM 배포 시 MoE + 4bit 양자화 + SSD 스트리밍 조합을 검토하라. 다만 발열/쓰로틀링 제약을 고려한 추론 예산 관리가 필수다.