Caltech 출신 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개했다. 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서 실용적 AI 추론이 가능하다. 임베딩, 어텐션, MLP, LM 헤드까지 예외 없이 1비트로 구성한 것이 특징이며, 128개 그룹당 공유 16비트 스케일을 사용하는 1.125비트 프레이밍이 기술적으로 정직하다는 평가를 받았다.
💡 실무 포인트: 엣지 디바이스나 온프레미스 환경에서 LLM 추론이 필요한 경우, 1비트 양자화 모델이 메모리와 비용 제약을 극복하는 실용적 대안이 될 수 있다.