원문: anuragk.com | 토론: GeekNews · 댓글 2개

핵심 요약 Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능을 주장한다. 8B개의 계수가 53B개의 트랜지스터에 패킹되어 계수당 약 6.5개의 트랜지스터가 사용되며, 블록 양자화를 활용한 것으로 추정된다.

커뮤니티 의견

  • @parkindani: “칩 신규 설계와 개발 속도가 AI 덕분에 가속화된다면 이게 진짜 미래일 수도 있겠네요.”

💡 실무 포인트: 대량 추론이 필요한 서비스에서 ASIC 기반 추론 하드웨어 동향 주시.