TTS | 가십데일리

고급 정비소의 전화 응답 부재로 인한 매출 손실을 해결하기 위해, RAG 기반 AI 리셉셔니스트 ‘Axle’을 개발한 사례다. 웹사이트에서 수집한 실제 서비스·가격 정보를 근거로 정확한 견적을 안내한다. 다만 커뮤 …

ONNX 기반 경량 TTS 라이브러리로, CPU만으로 고품질 음성 합성을 수행한다. 모델 크기 15M80M 파라미터(2580MB), GPU 없이 효율적 실행 가능하며 8가지 내장 음성을 제공한다. 💡 실무 포인트: …

ONNX 기반의 경량 TTS 라이브러리로, CPU만으로 고품질 음성 합성을 수행한다. 모델 크기 15M80M 파라미터(2580MB), 8가지 내장 음성과 속도 조절을 지원한다. GPU 없이도 효율적 실행이 가능하며 …

음성 복제·TTS·문서 낭독·오디오북 제작 기능을 통합 제공하는 macOS 네이티브 앱이다. MLX 기반 Metal 가속을 활용하며, 3초 샘플로 음성 복제가 가능한 Qwen3-TTS와 Chatterbox 모델을 …

개인 음악 파일을 노래방 형태로 변환해주는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 음성 분리, WhisperX로 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. AI 음성 …

음성 복제·TTS·문서 낭독·오디오북 제작을 통합 제공하는 macOS 네이티브 오픈소스 도구다. MLX 기반 Metal 가속을 활용해 로컬에서 네이티브 성능으로 실행되며, 3초 샘플만으로 음성 복제가 가능한 …

개인 음악 파일을 노래방 형태로 변환하는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 AI 음성 분리, WhisperX를 활용한 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. …

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 …

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성 …

5달러짜리 ESP32-S3 칩에 USB 0.5W 전력만으로 OpenClaw 기반 AI 어시스턴트를 구동하는 프로젝트. OS 없이 순수 C 코드로 작성되어 저가형 임베디드 환경에서 AI 비서를 구현. 다만 실제 비용 …

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

다양한 언어와 플랫폼의 오디오·비디오 콘텐츠를 정확한 텍스트로 변환하는 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 별도로 사용해야 했던 과정을 단일 플랫폼으로 통합했다. 100개 이상의 언어를 지원 …

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 응답 지연시간을 달성한 음성 에이전트 구축 사례다. Vapi 등 기존 상용 플랫폼보다 2배 빠른 응답 속도를 구현했으며, Deepgram …

오디오·비디오 콘텐츠를 100개 이상 언어로 전사(transcription)하고 번역까지 한 번에 처리하는 서비스다. 기존에 다운로드·전사·번역 도구를 각각 사용해야 했던 번거로움을 통합 파이프라인으로 해결한다. …

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 지연시간을 달성한 음성 에이전트 개발 사례다. Deepgram Flux로 발화 감지를 최적화하고, 기존 상용 플랫폼(Vapi 등)보다 2배 …

오디오/비디오를 100개 이상의 언어로 전사(transcription)하고 번역하는 올인원 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 따로 사용해야 했던 번거로움을 하나의 파이프라인으로 해결한다. …

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 기존 AI 노트테이커들과 달리 녹음 → 전사 → 요약 → DB 저장 → 슬랙/노션 공유까지 버튼 하나로 처리하는 워크플로우 자동화에 집중 …

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, …