원문: github.com | 토론: GeekNews · 댓글 1개

핵심 요약 모든 처리를 온디바이스에서 수행하는 실시간 음성 인식 프레임워크이다. 스트리밍 기반 모델 구조로 Whisper Large v3보다 낮은 WER 6.65%를 달성했다. 다만 OpenASR Leaderboard에서 Parakeet V2/V3가 더 우수하며, 모델 크기 대비 성능 비교가 필요하다는 의견이 있다.

커뮤니티 의견

  • @GN⁺: “Parakeet V3는 Moonshine Medium(245M)보다 두 배 이상 많은 파라미터 수(600M)를 가짐. 단순 비교는 어렵다고 생각함”

관련 레퍼런스

💡 실무 포인트: 엣지 디바이스 음성 인식이 필요하다면 모델 크기 대비 성능을 비교하여 Moonshine(245M) vs Parakeet(600M) 중 선택하라.