가십데일리
  • 전체 글
  • 검색
  • 아카이브
  • 태그
  • 소개
Home » Tags

TTS

AI 3월 26일

럭셔리 자동차 정비소를 위한 AI 리셉셔니스트 구축기 - Part 1

고급 정비소의 전화 응답 부재로 인한 매출 손실을 해결하기 위해, RAG 기반 AI 리셉셔니스트 ‘Axle’을 개발한 사례다. 웹사이트에서 수집한 실제 서비스·가격 정보를 근거로 정확한 견적을 안내한다. 다만 커뮤 …

AI GeekNews RAG 원문↗ 토론↗
AI 3월 22일

KittenTTS — 25MB 이하의 SOTA 음성 합성(TTS) 모델

ONNX 기반 경량 TTS 라이브러리로, CPU만으로 고품질 음성 합성을 수행한다. 모델 크기 15M80M 파라미터(2580MB), GPU 없이 효율적 실행 가능하며 8가지 내장 음성을 제공한다. 💡 실무 포인트: …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 21일

GitHub - KittenML/KittenTTS: 25MB 이하의 최신 TTS 모델

ONNX 기반의 경량 TTS 라이브러리로, CPU만으로 고품질 음성 합성을 수행한다. 모델 크기 15M80M 파라미터(2580MB), 8가지 내장 음성과 속도 조절을 지원한다. GPU 없이도 효율적 실행이 가능하며 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 21일

MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스

음성 복제·TTS·문서 낭독·오디오북 제작 기능을 통합 제공하는 macOS 네이티브 앱이다. MLX 기반 Metal 가속을 활용하며, 3초 샘플로 음성 복제가 가능한 Qwen3-TTS와 Chatterbox 모델을 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 21일

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

개인 음악 파일을 노래방 형태로 변환해주는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 음성 분리, WhisperX로 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. AI 음성 …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 20일

MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스

음성 복제·TTS·문서 낭독·오디오북 제작을 통합 제공하는 macOS 네이티브 오픈소스 도구다. MLX 기반 Metal 가속을 활용해 로컬에서 네이티브 성능으로 실행되며, 3초 샘플만으로 음성 복제가 가능한 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 20일

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

개인 음악 파일을 노래방 형태로 변환하는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 AI 음성 분리, WhisperX를 활용한 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 20일

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 19일

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 15일

MimiClaw - 5달러 칩에서 OpenClaw 실행하기

5달러짜리 ESP32-S3 칩에 USB 0.5W 전력만으로 OpenClaw 기반 AI 어시스턴트를 구동하는 프로젝트. OS 없이 순수 C 코드로 작성되어 저가형 임베디드 환경에서 AI 비서를 구현. 다만 실제 비용 …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 8일

Nvidia PersonaPlex 7B on Apple Silicon

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 6일

Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

다양한 언어와 플랫폼의 오디오·비디오 콘텐츠를 정확한 텍스트로 변환하는 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 별도로 사용해야 했던 과정을 단일 플랫폼으로 통합했다. 100개 이상의 언어를 지원 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 5일

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 방법

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 응답 지연시간을 달성한 음성 에이전트 구축 사례다. Vapi 등 기존 상용 플랫폼보다 2배 빠른 응답 속도를 구현했으며, Deepgram …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 5일

Vocova — AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

오디오·비디오 콘텐츠를 100개 이상 언어로 전사(transcription)하고 번역까지 한 번에 처리하는 서비스다. 기존에 다운로드·전사·번역 도구를 각각 사용해야 했던 번거로움을 통합 파이프라인으로 해결한다. …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 4일

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 과정

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 지연시간을 달성한 음성 에이전트 개발 사례다. Deepgram Flux로 발화 감지를 최적화하고, 기존 상용 플랫폼(Vapi 등)보다 2배 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 4일

Show GN: Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

오디오/비디오를 100개 이상의 언어로 전사(transcription)하고 번역하는 올인원 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 따로 사용해야 했던 번거로움을 하나의 파이프라인으로 해결한다. …

AI GeekNews 음성인식 원문↗ 토론↗
AI 2월 24일

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 기존 AI 노트테이커들과 달리 녹음 → 전사 → 요약 → DB 저장 → 슬랙/노션 공유까지 버튼 하나로 처리하는 워크플로우 자동화에 집중 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 2월 23일

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, …

AI GeekNews 음성인식 원문↗ 토론↗
© 2026 가십데일리 · Powered by Hugo & PaperMod