뛰어난 성능의 오픈 소스 음성 복제 인공지능(AI)이 등장했다. 기존 상용 모델을 위협할 만큼 성능이 뛰어나다는 설명이다.
벤처비트는 2일(현지시간) 캐나다 AI 스타트업 마이쉘이 오픈 소스 AI 음성 복제 모델인 '오픈보이스(OpenVoice)'를 출시했다고 보도했다.
이에 따르면 오픈보이스는 MIT, 칭화대, 마이쉘 공동 연구진이 개발한 모델이다.
무엇보다 1초 만에 사용자의 목소리를 완벽하게 복제할 수 있으며, 다른 모델처럼 샘플 문장을 입력하는 대신 아주 작은 자유로운 샘플 입력만으로도 목소리를 완벽하게 복제할 수 있는 것을 특징으로 꼽았다.
훈련 데이터셋에 포함되지 않은 언어에 대해서도 음성 복제 및 생성이 가능한 '제로샷' 학습 기술을 적용했다. 이 모델은 ▲텍스트-음성 변환(TTS) 모델 ▲톤 변환기 두가지로 구성된다.
TTS 모델은 사용자의 목소리와 톤을 학습, 텍스트를 해당 톤으로 읽어주는 역할을 한다. 3만여개의 음성 샘플을 학습했다. 각 샘플은 영어, 중국어, 일본어로 된 음성으로, 감정, 억양, 리듬, 쉼표 등을 포함하고 있다.
또 톤 변환기는 사용자의 목소리에 감정, 억양, 리듬 등을 조절하는 역할을 한다.
이를 통해 다양한 국가 언어로 변환하는 것도 가능하다. 예를 들어 영국 어린이가 활기차게 말하는 목소리 파일을 예시로 입력하면, 이를 한국어를 포함한 다양한 국가의 언어로 변환할 수 있다. '성대모사'를 하는 AI라고 생각하면 쉽다.
마이셀은 오픈보이스가 기존 AI 음성 복제 모델에 비해 훨씬 적은 컴퓨팅 자원을 사용하여 음성을 복제할 수 있다고전했다. 또 사용자 목소리를 1초 만에 복제할 수 있어, 실시간 음성 합성에도 유용하다는 설명이다.
이를 허깅페이스 등에 오픈 소스로 무료 공개했다. 다만 이를 통해 수익을 창출하려면 월 구독료를 내야 한다.
오픈보이스는 원래 마이쉘이 내부 기술 개발을 위해 활용하던 알고리즘이다. 마이쉘은 “이번에는 ‘모두를 위한 AI’라는 핵심 정신을 담아 오픈 소스로 공개했다”라고 밝혔다.
또 “오픈보이스는 계산 효율성이 뛰어나, 성능이 떨어지는 다른 상용 API보다 수십 배나 저렴할 것”이라고 강조했다.
마이쉘은 2023년 설립된 캐나다 스타트업으로, 'AI의 민주화'를 실현한다는 모토를 내세우고 있다. 특히 크리에이터나 챗봇 관련 수요를 공략한 AI 서비스에 집중하고 있다. 지금까지 560만달러(약 73억원) 규모의 투자를 유치했으며, 사용자수는 40만명이 넘는다.
박찬 기자 cpark@aitimes.com
원문: https://www.aitimes.com/news/articleView.html?idxno=156273
'[IT 알아보기] > IT 소식' 카테고리의 다른 글
[IT 소식] 롤 승률 87% 정확도로 예측한 AI…“‘국제대회에서도 큰 호응” (0) | 2024.01.08 |
---|---|
[IT 소식] 올해 출시될 프론티어급 LLM 10여개..."라마 3, GPT-4 능가할 수도" (0) | 2024.01.05 |
[IT 소식] "단백질 생성 AI의 작동 메커니즘 발견"...블랙박스 해결 실마리 될까 (0) | 2024.01.03 |
[IT 소식] 생성 AI 글로벌 시장, 4년 뒤 196조에 달해..."현재 10배 이상 급성장" (0) | 2024.01.02 |
[IT 소식] 올해 가장 많이 사용한 AI 도구는 챗GPT...전체 중 60% 차지 (0) | 2023.12.30 |