[IT 알아보기]/IT 소식

[IT 소식] 누가 진짜 인간? 가상인간이 일상 속으로

이호스트ICT 2022. 9. 29. 21:01

 

누가 진짜 인간? 가상인간이 일상 속으로

한국의 인공지능 스타트업 클레온이 개발한 앱 ‘카멜로’는 인물 사진 한 장과 30초 분량의 음성 데이터만 있으면 10분 안에 외모, 체형이 닮은 것은 물론 자신의 목소리로 외국어를 구사하는 가상인물을 구현해 낸다. photo 클레온


인간보다 더 인간 같은 가상인간 시대가 다가오고 있다. 광고계의 블루칩을 넘어 인간 고유영역으로 여겨졌던 아나운서, 기상캐스터, 은행원 등 곳곳에서 가상인간이 활약 중이다. 최근엔 단 한 장의 사진만으로 나를 닮은 가상인간까지 탄생시키는 기술이 등장해 주목을 끌고 있다. 점점 일상화되어 가는 가상인간, 어떤 기술이 어떻게 만들어내는 것일까.

‘가상인간(Virtual Human)’은 컴퓨터그래픽(CG)으로 만든 인간 형상에 인공지능(AI) 알고리즘, 빅데이터 분석, 자연어 처리 등의 기술을 입혀 만든 존재다. 가상의 존재임으로 ‘버추얼 빙(Virtual Being)’이라 부르기도 하고, 디지털 기술이 만들어낸 인간이라고 해서 ‘디지털 휴먼(Digital Human)’이라고도 한다.

가상인간 제작 기술력은 이미 인간과 분간하기 힘들 만큼 정교한 단계에 이르렀다. 실제로 영국과 미국의 연구진이 315명을 대상으로 가상인간과 실제 인간의 사진 400쌍을 놓고 어느 쪽이 진짜 사람으로 보이는지 설문조사를 실시한 결과 구분 적중률이 48.2%로 나타났다. 가상인간의 얼굴과 목소리는 실재 인물에게서 빌릴 수도 있고 완전히 새로 만들 수도 있다. 여러 사람의 얼굴을 합성해 가상의 얼굴을 만들기도 하고, 감정 표현을 담는 일도 가능하다.

지난 9월 2~6일 독일 베를린에서 열린 유럽 가전전시회 ‘IFA2022’에서는 인물 사진 한 장과 30초 분량의 음성 데이터만 있으면 10분 안에 외모, 체형은 물론 목소리까지 실제 인물과 똑같은 가상인간을 만들어내는 기술이 시선을 끌었다. 딥 휴먼(Deep Human) 기술을 기반으로 한 ‘카멜로’가 그것이다. 카멜로(KAMELO)는 ‘카멜레온(Chameleon)’과 ‘히어로(hero)’를 결합한 이름으로, 한국의 인공지능(AI) 스타트업 클레온이 개발한 영상 제작 솔루션(앱)이다.

작년 1월 ‘CES 2021’에서 LG전자가 선보인 가상인간 '래아'. photo 뉴시스


사진 1장+30초 분량 음성이면 가능

딥 휴먼은 AI 딥러닝(Deep Learning)을 효과적으로 적용해 실제로 사용 가능한 소프트웨어 환경을 구현한다. 딥러닝이란 사물이나 데이터를 분류하거나 군집하는 데 사용하는 기술을 말한다. 사람의 뇌가 사물을 구분하는 것처럼 컴퓨터가 사물을 분류하도록 훈련시키는 기계학습(Machine Learning)의 일종이다. 딥 휴먼은 딥러닝을 통해 수많은 사람의 얼굴을 여러 번 그리도록 해 얼굴을 인식하도록 학습한다. 반복된 학습으로 정면 얼굴 사진만 봐도 그 사람의 옆모습이 어떻게 생겼는지까지 예측해낸다.

이미 많이 알려진 딥페이크(deepfake·특정 인물의 얼굴을 특정 영상에 합성) 기술로 새로운 영상과 목소리를 만들려면 최소 10만장 이상의 사진이 필요하다. 하지만 딥 휴먼의 영상 생성 기술 핵심은 ‘경량화’다. 한 장의 사진과 30초의 음성이라는 적은 데이터와 실시간에 가까운 속도로 해당 기술들을 구현한다. 따라서 가상인간을 만드는 비용이 크게 저렴하고, 제작 시간도 훨씬 짧아졌다.

영상 속 인물은 나와 똑같은 사람을 만들어내는 것은 물론 영상의 주인공을 쉽게 바꿀 수 있다. 성별, 음역, 배경 등을 자유롭게 선택할 수 있고, 체형 생성 기술을 통해 간단한 몸짓 표현도 가능하다. 또 자동 영상 더빙 앱 ‘클링(Klling)’으로 영상 속 인물의 목소리에 따라 입술 움직임도 동기화할 수 있다. 목소리를 입히면 영상 속 인물이 목소리에 맞춰 입 모양을 바꾸는 것이 가능하다는 얘기다. 예를 들어 “오늘은 비가 내릴 예정입니다”라는 원하는 문장을 입력하면 음성과 함께 문장에 맞는 입 모양을 실제로 연출한다.

우리말로 녹음한 목소리를 탑재해도 자체 개발한 음성통역(STS) 기술로 영어, 중국어, 일본어, 스페인어로 변환할 수 있다. 특히 각 언어별 발음에 맞게 입 모양까지 합성해 어색함을 덜어준다. AI가 인물의 말투와 억양, 빠르기, 발음, 음성의 높낮이 등을 분석하고 배우기 때문이다. 최종적으로 학습된 인물의 목소리 특성이 다른 언어로 어떻게 표현될지 다듬으면 하나의 언어 모델이 만들어지는 방식이다.

클링 덕분에 번역·더빙이 가능한 전문 인력을 찾아 외주 맡기는 복잡한 과정 없이도 다국어 콘텐츠를 제작할 수 있다. 게임, 영화, 소셜미디어, 뉴스 등 많은 분야에서 콘텐츠 번역이 가능하다. 목소리와 감성을 반영한 영상 2시간 분량을 더빙하는 데 걸리는 시간은 3일 정도. 이스라엘 스타트업 ‘딥덥(Deepdub)’의 더빙 기술에 비해 간단하고 매우 신속하다. 딥덥의 솔루션은 분 단위의 목소리 데이터가 필요하고 2시간 영화 더빙에 4주 이상 걸린다.

가상인간은 미국(릴 미켈라), 일본(이마), 중국(화즈빙), 태국(아일린) 등에서도 열풍이다. CGI(컴퓨터 생성 이미지) 기술을 활용한 가상인간이 등장한 건 이미 오래된 일이지만, 기술 고도화와 함께 이제는 문화산업 전 분야에서 가상과 실제를 혼동하게 할 정도로 경계를 넘나들며 활약하고 있다. 가상인간이 가장 많이 활용되는 분야는 광고·마케팅이다. 기업이 원하는 이미지에 정확히 부합하는 모델을 만들 수 있는 데다 실제의 인간과 달리 시공간 제약 없이 동시다발적 활동이 가능해 마케팅 효과가 크기 때문이다.

기업들이 가상인간을 모델로 발탁하는 가장 큰 이유는 뭘까. 위험부담이 적다는 것이다. 사람과 달리 가상인간은 아프지도 늙지도 않고, 학교폭력(폭력)이나 음주운전, 열애설 등 각종 구설에 휘말려 광고가 중단될 일이 없다. 또 기존처럼 연예인 등 인간 모델을 광고에 기용할 때보다 노동력이나 소요 시간 등이 적게 드는 것도 장점으로 꼽힌다.

특히 디지털 문화에 익숙한 젊은층 사이에서 가상 인플루언서들이 인기를 끌다 보니, 젊은층 고객을 확보하려는 은행이나 보험사 등도 가상인간을 모델로 기용하고 싶어 한다. 한국의 가상인간 로지(Rozy)가 대표적이다. ‘영원히 늙지 않는 22살’이라는 수식어가 붙는 로지는 MZ세대가 가장 선호하는 얼굴을 모아 제작했다. 그야말로 흠잡을 데 없는 모델이다.

지금 가상인간 업계는 전 세계적으로 태동기다. 하지만 가상인간의 활용은 무궁무진할 것이라는 전망이다. 가수, 쇼호스트 등 엔터테인먼트 영역을 넓히는 것은 물론 해외에 물건을 납품하는 기업의 경우 해외 바이어를 여러 언어로 동시에 상대하는 것이 가능해진다. 딥 휴먼 기술이 빈부격차와 언어 장벽을 없애는 역할을 해줄 것이기 때문이다. 더 똑똑한 가상인간을 만들어 반복적 일들을 대체하는 전문 직업군으로 확장해나가는 것도 딥 휴먼 기술의 또 하나의 목표다. 수많은 가상인간들이 열어갈 세상에서는 어떤 미래가 펼쳐질지, 사회적·경제적 파급 효과는 얼마나 클지 매우 궁금하다. 

원문 : http://weekly.chosun.com/news/articleView.html?idxno=22235