[IT 알아보기]/IT 소식

[IT 소식] 인공지능 생태계 활짝…AI기업 'API 공개' 이어진다

이호스트ICT 2022. 9. 22. 21:20

인공지능 생태계 활짝…AI기업 'API 공개' 이어진다

[서울=뉴시스] 인공지능 관련 이미지. (사진=픽사베이) 2022.09.22. photo@newsis.com


[서울=뉴시스]권안나 기자 = 국내 대표 인공지능(AI) 기업들이 자체 개발한 최신 기술을 오픈 응용프로그램인터페이스(API)로 공개하고 있어 눈길을 끈다.

한국어 음성 데이터를 문자로 변환해주는 기술부터 혐오 표현 탐지, 가상 인간(버추얼 휴먼) 제작 등 다양한 최신 기술을 누구나 활용할 수 있도록 공개해 AI 생태계 활성화에 적극 나서고 있다.

22일 관련 업계에 따르면 국내 AI 기술 기업들의 오픈 API 제공 사례가 이어지고 있다.

AI 음성전환 애플리케이션(앱) 비토 운영사 리턴제로는 자사의 음성인식 문자변환(STT) 기술을 비토 개발자 웹사이트에 오픈 API로 공개했다.

리턴제로가 공개한 비토 스피치 서비스는 통화 음성을 텍스트로 바꿔주는 STT 기술 기반의 소머즈 엔진이 적용됐다. 소머즈 엔진은 한국어 특성상 정확히 인식하기 어려운 구어체와 자유 발화 등에 특화됐다. 소음에 노출된 통화 환경에서도 빠르고 정확하게 텍스트를 변환하며 별도의 학습 없이도 정확도가 높은 것이 특징이다.

비토 스피치에는 자동음성안내(ARS) 인식, 욕설·간투문(감탄사를 쓴 단어 문장) 필터링 등 다양한 기능이 제공된다. AI 음성인식 서비스에 관심이 높은 개발자와 영업인력이 많은 기업, 고객서비스(CS)센터 보유 기업 등에서 유용하게 쓸 수 있다. 리턴제로는 연내 기업 고객 전용 유료 상품도 출시한다.

자연어 처리 스타트업 튜닙도 최근 윤리성 판별, 비식별화 등 11가지 API 서비스를 공개했다.

튜닙이 공개한 서비스는 자체 개발한 자연어처리(NLP) 엔진 기반의 한국어·영어 API 서비스다. 별도의 추가 코딩이나 배경지식 없이도 사용자가 원하는 단어나 문장을 입력하면 AI가 자동으로 인식해 적합한 결과를 제공한다.

튜닙의 API 중 가장 주목받는 것은 윤리성 판별 API다. 사용자가 텍스트를 입력하면 튜닙의 딥러닝 모델이 문맥을 분석해 혐오 표현을 자동 탐지한다. 모욕·욕설·폭력·위협·범죄 조장 등 11가지 항목으로 분류된 혐오 표현의 심각성을 주의·명백·심각 등의 3단계로 구분하고 순화된 표현으로 대체해 결과를 보여준다.

튜닙 API는 이 밖에 ▲텍스트 분석 ▲이미지 분석 ▲영상 분석 ▲방언 번역 ▲어린아이 목소리 합성 ▲감정 분류 ▲정치 성향 예측 ▲N행시 ▲단어 그래프 등 다양한 서비스에 적용할 수 있다.

플립션은 기업 간 거래(B2B)용 AI 버추얼 휴먼 소프트웨어 서비스 API를 제공해 기업이나 브랜드에서 원하는 이미지의 버추얼 휴먼을 직접 개발할 수 있도록 했다.

플립션은 AI 학습을 위해 긴 시간이 소요되고 대량의 데이터가 필요한 기존 얼굴 변환 기술의 한계를 보완해 AI 모델을 자체 개발했다. 1장의 사진만으로도 원하는 가상 얼굴로 변환할 수 있는 기술력을 갖췄다. 단시간에 얼굴 전환이 가능하고 정면·측면·상하단까지 자연스럽게 합성할 수 있다.

카카오의 AI 자회사 카카오브레인은 이미지 생성 AI 모델인 '알큐 트랜스포머'를 오픈소스 커뮤니티 깃허브에 공개했다.

알큐 트랜스포머는 텍스트를 입력하면 그에 맞는 이미지를 출력해주는 기술이다. 3000만쌍의 텍스트·이미지를 학습했으며 39억개의 매개변수(파라미터)로 구성됐다.

알큐 트랜스포머는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습해 기존 기술 대비 이미지 압축으로 인한 손실이 적다. 기존 이미지 생성 모델보다 적은 계산 비용으로 이미지 생성 속도·이미지 품질을 대폭 향상시켰다.

권안나 기자 mymmnr@newsis.com

원문 : https://www.newsis.com/view/?id=NISX20220921_0002021683