원문: blog.ivan.digital | 토론: GeekNews · 댓글 1개

핵심 요약 Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모델로 통합해, 텍스트 변환 없이 오디오 입출력을 직접 처리한다.

커뮤니티 의견

  • @GN⁺: “full-duplex 구조는 정확도나 성능 면에서 아직 어렵고 학습도 까다로움. ASR→LLM→TTS 구조는 모듈형이라 로컬과 API를 자유롭게 섞을 수 있는 유연성이 있음”

관련 레퍼런스

💡 실무 포인트: 로컬 환경에서 실시간 음성 AI를 구현하려면 MLX 프레임워크와 PersonaPlex 모델 조합을 평가해볼 수 있다.