Mercury 2: 확산 기반 초고속 추론 LLM

원문: inceptionlabs.ai | 토론: GeekNews · 댓글 1개

핵심 요약 확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델이다. 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로 5배 이상 빠른 응답 속도를 달성했다. “초당 지능(metric)“이라는 새로운 평가 기준을 제시하며, 토큰당 지능과 초당 토큰 수를 함께 고려하는 방식이다.

커뮤니티 의견
@GN⁺(HN 의견): “속도 자체가 품질의 한 축이라고 생각함. Cerebras나 Groq 같은 하드웨어로 API를 개발하면 반복 속도와 비용이 완전히 다른 수준”

💡 실무 포인트: 실시간 응답이 중요한 서비스에서 확산 기반 LLM 도입 검토, 벤치마크 비교 필요