가십데일리
  • 전체 글
  • 검색
  • 아카이브
  • 태그
  • 소개
Home » Tags

음성인식

AI 4월 5일

Show GN: Whispree - 한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱

한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱이다. 기존 Superwhisper 등이 한국어 전용이 아니어서 ‘GitHub’을 ‘깃펍’으로 전사하는 등의 문제를 해결하기 위해 개발됐다. …

AI GeekNews 음성인식 원문↗ 토론↗
AI 4월 4일

Whispree - 한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱

한국어 개발자를 위한 macOS 음성 입력 앱으로, STT(음성→텍스트)에 LLM 교정을 결합했다. 기존 Superwhisper 등 범용 STT에서 ‘GitHub’를 ‘깃펍’으로 인식하는 등 한국어+개발 용어 혼합 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 28일

Show GN: Ghostmeet - 셀프호스팅 AI 미팅 비서 (실시간 자막 + 요약, Chrome 확장)

미팅 중 실시간 자막과 AI 요약을 제공하는 셀프호스팅 Chrome 확장이다. Google Meet, Zoom, Teams 등 브라우저 기반 미팅에서 사이드 패널로 동작하며, 다른 참가자에게 보이지 않는다. 오디오 …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 24일

vvrite — 오픈소스 macOS 온디바이스 AI 음성 타이핑 앱

기존 음성 타이핑 도구(superwhisper, spokenly)의 네트워크 레이턴시 문제를 해결하기 위해 만들어진 macOS 전용 로컬 음성 인식 앱이다. Qwen3-ASR 모델을 채택해 온디바이스에서 빠른 속도 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 23일

Show GN: vvrite — 오픈소스 macOS 온디바이스 AI 음성 타이핑 앱

Qwen3-ASR 모델을 기반으로 macOS에서 완전 로컬로 동작하는 오픈소스 음성 타이핑 앱이다. 기존 superwhisper, spokenly 등의 네트워크 레이턴시 문제를 해결하기 위해 개발되었으며, 특히 한 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 21일

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

개인 음악 파일을 노래방 형태로 변환해주는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 음성 분리, WhisperX로 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. AI 음성 …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 20일

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

개인 음악 파일을 노래방 형태로 변환하는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 AI 음성 분리, WhisperX를 활용한 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. …

AI GeekNews 오픈소스 원문↗ 토론↗
AI 3월 20일

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 19일

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 8일

Nvidia PersonaPlex 7B on Apple Silicon

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 6일

Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

다양한 언어와 플랫폼의 오디오·비디오 콘텐츠를 정확한 텍스트로 변환하는 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 별도로 사용해야 했던 과정을 단일 플랫폼으로 통합했다. 100개 이상의 언어를 지원 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 5일

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 방법

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 응답 지연시간을 달성한 음성 에이전트 구축 사례다. Vapi 등 기존 상용 플랫폼보다 2배 빠른 응답 속도를 구현했으며, Deepgram …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 5일

Vocova — AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

오디오·비디오 콘텐츠를 100개 이상 언어로 전사(transcription)하고 번역까지 한 번에 처리하는 서비스다. 기존에 다운로드·전사·번역 도구를 각각 사용해야 했던 번거로움을 통합 파이프라인으로 해결한다. …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 4일

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 과정

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 지연시간을 달성한 음성 에이전트 개발 사례다. Deepgram Flux로 발화 감지를 최적화하고, 기존 상용 플랫폼(Vapi 등)보다 2배 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 4일

Show GN: Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

오디오/비디오를 100개 이상의 언어로 전사(transcription)하고 번역하는 올인원 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 따로 사용해야 했던 번거로움을 하나의 파이프라인으로 해결한다. …

AI GeekNews 음성인식 원문↗ 토론↗
AI 3월 3일

Moonshine - 엣지 디바이스용 고속·고정확도 음성 인식 오픈소스

모든 처리를 온디바이스에서 수행하는 실시간 음성 인식 프레임워크이다. 스트리밍 기반 모델 구조로 Whisper Large v3보다 낮은 WER 6.65%를 달성했다. 다만 OpenASR Leaderboard에서 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 2월 24일

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 기존 AI 노트테이커들과 달리 녹음 → 전사 → 요약 → DB 저장 → 슬랙/노션 공유까지 버튼 하나로 처리하는 워크플로우 자동화에 집중 …

AI GeekNews 음성인식 원문↗ 토론↗
AI 2월 23일

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, …

AI GeekNews 음성인식 원문↗ 토론↗
© 2026 가십데일리 · Powered by Hugo & PaperMod