음성인식 on 가십데일리

Show GN: Whispree - 한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱

Sun, 05 Apr 2026 00:00:00 +0000

한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱이다. 기존 Superwhisper 등이 한국어 전용이 아니어서 ‘GitHub’을 ‘깃펍’으로 전사하는 등의 문제를 해결하기 위해 개발됐다. STT 결과를 LLM이 교정하는 파이프라인으로, 개발 용어가 포함된 한국어 음성 입력 정확도를 크게 높였다. 기존 Handy 앱에서 느낀 아쉬움을 해결해준다는 긍정적 반응이 있었다.

커뮤니티 의견

@bskim: “Handy를 쓰면서 아쉬운 점이 있었는데 좋네요. 당분간 바꿔서 써보겠습니다”

💡 실무 포인트: AI 프롬프트 작성 시 타이핑이 병목이라면 STT + LLM 교정 파이프라인 도입을 고려할 것. 한국어 개발 용어 인식이 중요하다면 Whispree를 검토해볼 만하다.

Whispree - 한국어 개발자를 위한 STT + LLM 교정 음성 입력 macOS 앱

Sat, 04 Apr 2026 00:00:00 +0000

한국어 개발자를 위한 macOS 음성 입력 앱으로, STT(음성→텍스트)에 LLM 교정을 결합했다. 기존 Superwhisper 등 범용 STT에서 ‘GitHub’를 ‘깃펍’으로 인식하는 등 한국어+개발 용어 혼합 환경의 한계를 해결하기 위해 개발되었다. AI에게 프롬프트를 음성으로 전달할 때 타이핑 병목을 해소하는 것이 핵심 목표이다.

커뮤니티 의견

@vkehfdl1: “좋네요:) 응원합니다”

💡 실무 포인트: AI 코딩 어시스턴트에 긴 프롬프트를 입력할 때 음성 입력을 활용하면 생산성을 높일 수 있다. 한국어+영어 혼합 인식이 필요한 개발 환경에서 참고할 만한 프로젝트이다.

Show GN: Ghostmeet - 셀프호스팅 AI 미팅 비서 (실시간 자막 + 요약, Chrome 확장)

Sat, 28 Mar 2026 00:00:00 +0000

미팅 중 실시간 자막과 AI 요약을 제공하는 셀프호스팅 Chrome 확장이다. Google Meet, Zoom, Teams 등 브라우저 기반 미팅에서 사이드 패널로 동작하며, 다른 참가자에게 보이지 않는다. 오디오 데이터를 외부 서버로 보내지 않아 프라이버시를 보장하는 것이 핵심 차별점이다.

관련 레퍼런스

Ghostmeet GitHub 저장소

💡 실무 포인트: 미팅 녹취·요약 도구 도입 시 데이터 프라이버시가 우려된다면, 셀프호스팅 방식의 오픈소스 대안을 검토할 수 있다.

vvrite — 오픈소스 macOS 온디바이스 AI 음성 타이핑 앱

Tue, 24 Mar 2026 00:00:00 +0000

기존 음성 타이핑 도구(superwhisper, spokenly)의 네트워크 레이턴시 문제를 해결하기 위해 만들어진 macOS 전용 로컬 음성 인식 앱이다. Qwen3-ASR 모델을 채택해 온디바이스에서 빠른 속도와 높은 한국어 인식률을 달성했다. 네트워크 의존 없이 완전 로컬에서 동작하며, 8bitdo micro 게임패드와 연결해 핸즈프리 입력이 가능하다. 개발자가 아닌 사용자가 만든 프로젝트라는 점에서 AI 도구의 접근성 확대를 보여주는 사례이며, 커뮤니티에서 활발한 커스터마이징과 기여가 이루어지고 있다. Whisper large v3 turbo 대비 Qwen3-ASR의 성능 우위에 대한 논의도 진행 중이다.

Show GN: vvrite — 오픈소스 macOS 온디바이스 AI 음성 타이핑 앱

Mon, 23 Mar 2026 00:00:00 +0000

Qwen3-ASR 모델을 기반으로 macOS에서 완전 로컬로 동작하는 오픈소스 음성 타이핑 앱이다. 기존 superwhisper, spokenly 등의 네트워크 레이턴시 문제를 해결하기 위해 개발되었으며, 특히 한국어 인식 성능에서 Whisper 대비 확실한 우위를 보인다. 8bitdo micro 게임패드와 연동한 음성 입력 워크플로우도 지원한다. 영어 전용이라면 parakeet 모델로 충분하지만, 한국어 지원은 Qwen3-ASR이 현재 최선의 선택이라는 것이 개발자의 평가다.

커뮤니티 의견

@rayinclay: “한국어 기준으로 Whisper보다는 확실히 좋아요! Moonshine은 parakeet이랑 크게 차이 없었어요.”

@rayinclay: “한국어 지원은 경험상 Qwen3-ASR이 제일 좋은 옵션으로 다가왔습니다. 근데 지원하는 곳이 없어서 직접 만들었어요.”

@jhk0530: “멋진 툴이네요. 개인적으로는 사용 설명서(매뉴얼)를 다시 볼 수 있는 UI가 추가되면 더 좋을 것 같습니다.”

💡 실무 포인트: 한국어 음성 입력이 필요한 개발 환경이라면 Qwen3-ASR 기반 vvrite를 로컬에 설치해 네트워크 의존 없는 음성 타이핑 환경을 구축할 수 있다.

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

Sat, 21 Mar 2026 00:00:00 +0000

개인 음악 파일을 노래방 형태로 변환해주는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 음성 분리, WhisperX로 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. AI 음성 분리·음성 인식 기술의 소비자 응용 사례로 주목할 만하다.

Nightingale – 컴퓨터의 모든 노래를 사용할 수 있는 오픈소스 노래방 앱

Fri, 20 Mar 2026 00:00:00 +0000

개인 음악 파일을 노래방 형태로 변환하는 오픈소스 앱으로, UVR Karaoke 모델이나 Demucs를 이용한 AI 음성 분리, WhisperX를 활용한 단어 단위 가사 자동 동기화, 실시간 점수 기능을 제공한다. 다만 앱이 설치 시 인터넷에서 바이너리를 다운로드하거나, 빌드에 Docker가 필요한 점 등 배포 방식에 대한 비판이 있다.

커뮤니티 의견

@GN⁺: “처음 실행하자마자 인터넷에서 바이너리 다운로드를 시작해서 놀랐음. 빌드 스크립트를 실행하니 Docker 컨테이너를 설치하려고 해서 당황”

💡 실무 포인트: Demucs·WhisperX 등 AI 음성 처리 모델의 실전 적용 사례로 참고할 수 있다.

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Fri, 20 Mar 2026 00:00:00 +0000

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성했으며, 다양한 GPU·모델·STT·TTS 조합을 실험한 결과를 공유한다.

💡 실무 포인트: 로컬 LLM + STT + TTS 스택으로 프라이버시 중심의 음성 인터페이스를 구축하려는 경우 참고할 수 있는 실전 가이드다.

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Thu, 19 Mar 2026 00:00:00 +0000

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성했다. 다양한 GPU·모델·STT·TTS 조합의 실전 비교를 포함한다.

💡 실무 포인트: 프라이버시가 중요한 스마트홈 환경에서 llama.cpp 기반 로컬 음성 비서 구축을 참고하라.

Nvidia PersonaPlex 7B on Apple Silicon

Sun, 08 Mar 2026 00:00:00 +0000

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모델로 통합해, 텍스트 변환 없이 오디오 입출력을 직접 처리한다.

커뮤니티 의견

@GN⁺: “full-duplex 구조는 정확도나 성능 면에서 아직 어렵고 학습도 까다로움. ASR→LLM→TTS 구조는 모듈형이라 로컬과 API를 자유롭게 섞을 수 있는 유연성이 있음”

관련 레퍼런스

ova

💡 실무 포인트: 로컬 환경에서 실시간 음성 AI를 구현하려면 MLX 프레임워크와 PersonaPlex 모델 조합을 평가해볼 수 있다.

Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

Fri, 06 Mar 2026 00:00:00 +0000

다양한 언어와 플랫폼의 오디오·비디오 콘텐츠를 정확한 텍스트로 변환하는 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 별도로 사용해야 했던 과정을 단일 플랫폼으로 통합했다. 100개 이상의 언어를 지원하며 무료로 시작할 수 있다.

커뮤니티 의견

@jmcraft: “직접 사용해 보실 수 있습니다. 무료로 시작할 수 있습니다.”

💡 실무 포인트: 다국어 미팅 녹취록이나 콘텐츠 현지화 작업에서 전사+번역 통합 도구를 활용하면 파이프라인 복잡도를 줄일 수 있다.

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 방법

Thu, 05 Mar 2026 00:00:00 +0000

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 응답 지연시간을 달성한 음성 에이전트 구축 사례다. Vapi 등 기존 상용 플랫폼보다 2배 빠른 응답 속도를 구현했으며, Deepgram Flux로 발화 감지를 최적화했다. 대화 중 사람 간 평균 지연이 0ms라는 연구 결과를 고려하면, 500ms 이하는 사용자가 자연스럽게 느끼는 임계값에 해당한다.

커뮤니티 의견

@GN⁺(HN 의견): “예전에 Amazon Alexa 팀에서 이 문제를 연구했고 관련 특허도 있음. 대화 중 사람 간 평균 지연은 0ms, 즉 상대가 말을 끝내기 전에 이미 다음 사람이 말을 시작함”

💡 실무 포인트: 음성 AI 에이전트 구축 시 STT→LLM→TTS 파이프라인의 각 단계별 지연을 측정하고, Deepgram Flux 같은 스트리밍 STT와 엣지 컴퓨팅 조합으로 500ms 이하를 목표로 설계할 것.

Vocova — AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

Thu, 05 Mar 2026 00:00:00 +0000

오디오·비디오 콘텐츠를 100개 이상 언어로 전사(transcription)하고 번역까지 한 번에 처리하는 서비스다. 기존에 다운로드·전사·번역 도구를 각각 사용해야 했던 번거로움을 통합 파이프라인으로 해결한다. 무료 티어로 시작 가능하다.

커뮤니티 의견

@jmcraft: “직접 사용해 보실 수 있습니다. 무료로 시작할 수 있습니다”

💡 실무 포인트: 다국어 콘텐츠 전사·번역 파이프라인이 필요하다면 Vocova 같은 통합 도구로 워크플로우를 단순화할 수 있다.

500ms 이하 지연시간의 음성 에이전트를 직접 구축한 과정

Wed, 04 Mar 2026 00:00:00 +0000

STT, LLM, TTS를 실시간 파이프라인으로 연결해 400ms 수준의 지연시간을 달성한 음성 에이전트 개발 사례다. Deepgram Flux로 발화 감지를 최적화하고, 기존 상용 플랫폼(Vapi 등)보다 2배 빠른 응답 속도를 구현했다. 커뮤니티에서는 대화 중 사람 간 평균 지연이 0ms라는 점을 지적하며, semantic end-of-turn 감지가 진정한 핵심 과제라는 의견이 나왔다. 지리적 근접 처리(엣지 컴퓨팅)가 큰 전환점이 될 수 있다는 분석도 주목할 만하다.

커뮤니티 의견

@GN⁺: “진짜 핵심은 semantic end-of-turn임. 지리적 근접 처리(엣지 컴퓨팅)가 큰 전환점이었음”

💡 실무 포인트: 음성 AI 서비스 구축 시 각 파이프라인 단계(STT→LLM→TTS)의 지연을 개별 측정하고, Deepgram Flux 같은 저지연 STT 솔루션을 우선 검토하라.

Show GN: Vocova - AI로 100개 이상의 언어로 오디오/비디오를 텍스트로 변환

Wed, 04 Mar 2026 00:00:00 +0000

오디오/비디오를 100개 이상의 언어로 전사(transcription)하고 번역하는 올인원 서비스다. 기존에 다운로드 도구, 전사 도구, 번역 도구를 따로 사용해야 했던 번거로움을 하나의 파이프라인으로 해결한다. 무료 시작이 가능하다.

커뮤니티 의견

@jmcraft: “직접 사용해 보실 수 있습니다. 무료로 시작할 수 있습니다.”

💡 실무 포인트: 다국어 콘텐츠 전사·번역 워크플로가 필요하면 Whisper 자체 구축 대신 Vocova 같은 통합 서비스를 비용 대비 효율로 비교하라.

Moonshine - 엣지 디바이스용 고속·고정확도 음성 인식 오픈소스

Tue, 03 Mar 2026 00:00:00 +0000

모든 처리를 온디바이스에서 수행하는 실시간 음성 인식 프레임워크이다. 스트리밍 기반 모델 구조로 Whisper Large v3보다 낮은 WER 6.65%를 달성했다. 다만 OpenASR Leaderboard에서 Parakeet V2/V3가 더 우수하며, 모델 크기 대비 성능 비교가 필요하다는 의견이 있다.

커뮤니티 의견

@GN⁺: “Parakeet V3는 Moonshine Medium(245M)보다 두 배 이상 많은 파라미터 수(600M)를 가짐. 단순 비교는 어렵다고 생각함”

관련 레퍼런스

OpenASR Leaderboard

💡 실무 포인트: 엣지 디바이스 음성 인식이 필요하다면 모델 크기 대비 성능을 비교하여 Moonshine(245M) vs Parakeet(600M) 중 선택하라.

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

Tue, 24 Feb 2026 00:00:00 +0000

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 기존 AI 노트테이커들과 달리 녹음 → 전사 → 요약 → DB 저장 → 슬랙/노션 공유까지 버튼 하나로 처리하는 워크플로우 자동화에 집중했다. 대기업 서비스들이 사용자 커스터마이즈 형식으로 제공하다보니 비개발자에게 불편한 점을 공략한 것이다. 다만 기술적 해자가 낮다는 지적과 함께, 차별화를 위한 핵심 락인 요소가 필요하다는 피드백이 있다.

커뮤니티 의견

@bsh998: “설명과 마감, 프론트엔드가 딸깍으로 만드셨다는 것이 느껴집니다. 기술적 해자가 지나치게 낮은 프로그램이라는 것인데요… 당장 저도 만들 수 있을 것 같다는 생각이 듭니다.”

@minsuchae: “대기업들은 사용자가 커스터마이즈 하는 형식으로 제공하다보니깐 오히려 개발자가 아니면 쓰기 어려운 부분들이 꽤 많이 발생합니다.”

💡 실무 포인트: B2B SaaS에서 ‘워크플로우 단순화’는 기술적 해자가 낮지만 실무자 니즈는 명확 - 차별화를 위해 특정 도메인 락인 필요

Show GN: 버튼 하나 딸깍으로 전사/요약/저장/공유 다 해주는 AI 노트테이커

Mon, 23 Feb 2026 00:00:00 +0000

원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, 기술적 해자가 낮은 시장에서 차별화된 워크플로우 자동화 경험을 목표로 한다. 커뮤니티에서는 기술적 해자 부족과 지속가능성에 대한 우려가 제기되었다.

커뮤니티 의견

@bsh998: “기술적 해자가 지나치게 낮은 프로그램이라는 것인데요… 지금 당장 가치가 있더라도 곧 의미가 없어질 것 같아요.”

@minsuchae: “대기업들은 사용자가 커스터마이즈하는 형식으로 제공하다 보니 오히려 개발자가 아니면 쓰기 어려운 부분들이 많이 발생합니다.”

💡 실무 포인트: 미팅 기록 자동화 도구 도입 시 기존 워크플로우(노션, 슬랙) 연동 용이성 검토.