[IT 알아보기]/IT 소식

[IT 소식] 마이쉘, 음성 복제 AI ‘오픈보이스’ 오픈 소스로 공개

이호스트ICT 2024. 1. 4. 10:48

(사진=마이쉘)

뛰어난 성능의 오픈 소스 음성 복제 인공지능(AI)이 등장했다. 기존 상용 모델을 위협할 만큼 성능이 뛰어나다는 설명이다.

벤처비트는 2일(현지시간) 캐나다 AI 스타트업 마이쉘이 오픈 소스 AI 음성 복제 모델인 '오픈보이스(OpenVoice)'를 출시했다고 보도했다.

이에 따르면 오픈보이스는 MIT, 칭화대, 마이쉘 공동 연구진이 개발한 모델이다.

무엇보다 1초 만에 사용자의 목소리를 완벽하게 복제할 수 있으며, 다른 모델처럼 샘플 문장을 입력하는 대신 아주 작은 자유로운 샘플 입력만으로도 목소리를 완벽하게 복제할 수 있는 것을 특징으로 꼽았다.

훈련 데이터셋에 포함되지 않은 언어에 대해서도 음성 복제 및 생성이 가능한 '제로샷' 학습 기술을 적용했다. 이 모델은 ▲텍스트-음성 변환(TTS) 모델 ▲톤 변환기 두가지로 구성된다.

TTS 모델은 사용자의 목소리와 톤을 학습, 텍스트를 해당 톤으로 읽어주는 역할을 한다. 3만여개의 음성 샘플을 학습했다. 각 샘플은 영어, 중국어, 일본어로 된 음성으로, 감정, 억양, 리듬, 쉼표 등을 포함하고 있다.

또 톤 변환기는 사용자의 목소리에 감정, 억양, 리듬 등을 조절하는 역할을 한다.

이를 통해 다양한 국가 언어로 변환하는 것도 가능하다. 예를 들어 영국 어린이가 활기차게 말하는 목소리 파일을 예시로 입력하면, 이를 한국어를 포함한 다양한 국가의 언어로 변환할 수 있다. '성대모사'를 하는 AI라고 생각하면 쉽다.

오픈보이스 프레임워크(사진=마이쉘)

마이셀은 오픈보이스가 기존 AI 음성 복제 모델에 비해 훨씬 적은 컴퓨팅 자원을 사용하여 음성을 복제할 수 있다고전했다. 또 사용자 목소리를 1초 만에 복제할 수 있어, 실시간 음성 합성에도 유용하다는 설명이다. 

이를 허깅페이스 등에 오픈 소스로 무료 공개했다. 다만 이를 통해 수익을 창출하려면 월 구독료를 내야 한다.

오픈보이스는 원래 마이쉘이 내부 기술 개발을 위해 활용하던 알고리즘이다. 마이쉘은 “이번에는 ‘모두를 위한 AI’라는 핵심 정신을 담아 오픈 소스로 공개했다”라고 밝혔다.

또 “오픈보이스는 계산 효율성이 뛰어나, 성능이 떨어지는 다른 상용 API보다 수십 배나 저렴할 것”이라고 강조했다.

마이쉘은 2023년 설립된 캐나다 스타트업으로, 'AI의 민주화'를 실현한다는 모토를 내세우고 있다. 특히 크리에이터나 챗봇 관련 수요를 공략한 AI 서비스에 집중하고 있다. 지금까지 560만달러(약 73억원) 규모의 투자를 유치했으며, 사용자수는 40만명이 넘는다.

박찬 기자 cpark@aitimes.com

원문: https://www.aitimes.com/news/articleView.html?idxno=156273