음성인식 | 가십데일리

한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱이다. 기존 Superwhisper 등이 한국어 전용이 아니어서 ‘GitHub’을 ‘깃펍’으로 전사하는 등의 문제를 해결하기 위해 개발됐다. …

한국어 개발자를 위한 macOS 음성 입력 앱으로, STT(음성→텍스트)에 LLM 교정을 결합했다. 기존 Superwhisper 등 범용 STT에서 ‘GitHub’를 ‘깃펍’으로 인식하는 등 한국어+개발 용어 혼합 …

미팅 중 실시간 자막과 AI 요약을 제공하는 셀프호스팅 Chrome 확장이다. Google Meet, Zoom, Teams 등 브라우저 기반 미팅에서 사이드 패널로 동작하며, 다른 참가자에게 보이지 않는다. 오디오 …

기존 음성 타이핑 도구(superwhisper, spokenly)의 네트워크 레이턴시 문제를 해결하기 위해 만들어진 macOS 전용 로컬 음성 인식 앱이다. Qwen3-ASR 모델을 채택해 온디바이스에서 빠른 속도 …

Qwen3-ASR 모델을 기반으로 macOS에서 완전 로컬로 동작하는 오픈소스 음성 타이핑 앱이다. 기존 superwhisper, spokenly 등의 네트워크 레이턴시 문제를 해결하기 위해 개발되었으며, 특히 한 …

개인 음악 파일을 노래방 형태로 변환해주는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 음성 분리, WhisperX로 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. AI 음성 …

개인 음악 파일을 노래방 형태로 변환하는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 AI 음성 분리, WhisperX를 활용한 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. …

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 …

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성 …

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

다양한 언어와 플랫폼의 오디오·비디오 콘텐츠를 정확한 텍스트로 변환하는 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 별도로 사용해야 했던 과정을 단일 플랫폼으로 통합했다. 100개 이상의 언어를 지원 …

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 응답 지연시간을 달성한 음성 에이전트 구축 사례다. Vapi 등 기존 상용 플랫폼보다 2배 빠른 응답 속도를 구현했으며, Deepgram …

오디오·비디오 콘텐츠를 100개 이상 언어로 전사(transcription)하고 번역까지 한 번에 처리하는 서비스다. 기존에 다운로드·전사·번역 도구를 각각 사용해야 했던 번거로움을 통합 파이프라인으로 해결한다. …

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 지연시간을 달성한 음성 에이전트 개발 사례다. Deepgram Flux로 발화 감지를 최적화하고, 기존 상용 플랫폼(Vapi 등)보다 2배 …

오디오/비디오를 100개 이상의 언어로 전사(transcription)하고 번역하는 올인원 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 따로 사용해야 했던 번거로움을 하나의 파이프라인으로 해결한다. …

모든 처리를 온디바이스에서 수행하는 실시간 음성 인식 프레임워크이다. 스트리밍 기반 모델 구조로 Whisper Large v3보다 낮은 WER 6.65%를 달성했다. 다만 OpenASR Leaderboard에서 …

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 기존 AI 노트테이커들과 달리 녹음 → 전사 → 요약 → DB 저장 → 슬랙/노션 공유까지 버튼 하나로 처리하는 워크플로우 자동화에 집중 …

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, …