한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

완전 오프라인 음성-텍스트 변환 앱 'Handy' 오픈소스로 공개...클라우드 없이 프라이버시 보장

발행일
읽는 시간1분 30초

무료 오픈소스 음성인식 앱 'Handy'가 공개되어 사용자 음성을 클라우드로 전송하지 않고 로컬에서 텍스트로 변환할 수 있게 됐다.

[한국정보기술신문] 개발자 cjpais가 무료 오픈소스 음성-텍스트 변환 애플리케이션 'Handy'를 GitHub에 공개했다. Handy는 완전히 오프라인으로 작동하며 사용자의 음성 데이터를 외부 클라우드로 전송하지 않는 것이 특징이다.

Handy는 Tauri 프레임워크를 기반으로 Rust와 React/TypeScript를 결합해 개발된 크로스 플랫폼 데스크톱 애플리케이션이다. 사용자는 단축키를 눌러 음성을 녹음하고, 말을 하면 OpenAI의 Whisper 모델을 사용해 텍스트로 변환된다. 변환된 텍스트는 현재 사용 중인 텍스트 필드에 자동으로 붙여넣기 된다.

프라이버시와 접근성 중심의 설계

개발자는 Handy를 '가장 포크하기 좋은 음성-텍스트 앱'으로 만드는 것을 목표로 했다고 밝혔다. 공식 웹사이트에 따르면 Handy는 무료, 오픈소스, 프라이버시 보호, 단순성이라는 네 가지 핵심 가치를 지향한다. 접근성 도구는 모든 사람이 사용할 수 있어야 하며 유료 결제 뒤에 숨겨져서는 안 된다는 철학을 담고 있다.

음성 처리 과정은 전적으로 로컬에서 이루어진다. Silero VAD 모델을 사용해 침묵을 필터링하고, GPU 가속을 지원하는 Whisper Small 모델로 음성을 텍스트로 변환한다. Windows, macOS, Linux 세 가지 플랫폼을 모두 지원한다.

다양한 Whisper 모델 지원

최근 업데이트에서 Handy는 동적 모델 다운로드 및 전환 기능을 추가했다. 사용자는 앱 설정에서 Small, Medium, Turbo, Large 등 네 가지 Whisper 모델 중 선택할 수 있다. Small 모델은 빠르고 대부분의 사용 사례에 적합하며, Large 모델은 가장 높은 정확도를 제공하지만 처리 속도가 느리다. 모델은 앱에 번들로 포함되지 않아 초기 다운로드 크기가 줄어들었다.

오픈소스 커뮤니티 기여 환영

Handy는 현재 적극적으로 개발 중이며 일부 알려진 이슈가 있다. macOS에서 붙여넣기 기능이 가끔 전체 텍스트 대신 'v'만 입력되는 문제, VAD 필터가 음성 인식 끝에 "thank you"를 포함하는 문제 등이 보고됐다. 개발팀은 Windows와 Linux 호환성 개선, 코드 품질 향상, 버그 수정, 성능 최적화 등의 영역에서 기여자를 찾고 있다.

향후 계획으로는 마이크 선택 옵션 추가, Whisper 외 다양한 STT 모델 지원, 모디파이어 전용 키 바인딩, VAD 설정 강화 등이 예정돼 있다. 프로젝트는 MIT 라이선스로 배포되며, GitHub 저장소와 공식 웹사이트 handy.computer에서 다운로드할 수 있다.

한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org