[IT 알아보기]/IT 기본학습

[IT 기본학습] 대형언어모델(LLM)과 대형멀티모달모델(LMM)의 정의, 그리고 GPT-4V

이호스트ICT 2023. 10. 23. 17:41

안녕하세요. 이호스트ICT입니다.

GPT가 출시되며 현재 전세계는 AI 붐입니다. AI관련 기사를 보면 LLM이라는 용어를 심심찮게 볼 수 있는데요, 오늘은 이 대형언어모델(LLM)이라고 불리는 거대 언어 모델의 정의와 더 나아가 최근 새롭게 떠오르고 있는 대형멀티모달모델(LMM)의 정의, LMM이 적용된 GPT-4V의 새로운 기능에 대해 알아보겠습니다.


대형언어모델 LM (Large Language Model) 이란?

LLM을 사용하는 기업의 도식화 ⓒ thedatahunt

대형언어모델 LLM을 이해하려면 우선 NLP를 이해해야 합니다. NLP(Natural Language Processing_자연어 처리)는 인간의 언어를 이해하고 처리하는 데 초점을 맞춘 인공지능 분야입니다.

인간의 언어는 모호하고 복잡하기 때문에 이러한 인간의 언어를 정확히 파악하는 소프트웨어를 만들려면 수 년간의 데이터 학습이 필요합니다. NLP는 이 학습 과정에서 컴퓨터가 인간의 언어를 텍스트 및 음성 형태로 이해할 수 있도록 도와줍니다.

예를 들어, 'I can make a paper plane'(저는 종이 비행기를 만들 수 있습니다)에서 'make'를 동사로, 'What make of car do you own?'(어느 제조사의 자동차를 소유하고 계십니까?)에서는 'make'를 명사로 식별합니다.

이처럼 NLP은 구조화되지 않은 데이터를 가져와 구조화된 데이터 형식으로 변환하는 방식으로 작동합니다. NLP는 컴퓨터가 자연어 텍스트를 이해하고 분석하는 기술을 개발하는 것을 목표로 하며, 문장 구문 분석, 텍스트 분류, 기계 번역, 질의 응답 시스템, 감정 분석 등과 같은 다양한 작업에 활용됩니다.

사진=셔터스톡

대형언어모델 LLM은 NLP의 한 부분으로, 방대한 양의 언어 데이터를 바탕으로 NLP작업을 수행하도록 훈련된 일종의 인공지능 모델입니다. LLM은 대량의 텍스트 데이터를 학습하고, 언어 이해와 언어 생성 능력을 향상시킨 결과물입니다. LLM은 딥 러닝 기술과 통계 모델링을 활용하여 자연어 처리 작업을 수행 할 수 있습니다.

LLM이 중요한 이유

뉴스나 신문기사에서 LLM이 중요하다고 강조하는 이유는 LLM을 활용할 수 있는 분야가 무궁무진하기 때문입니다. LLM의 대표적인 활용 분야는 생성AI 챗봇으로, 챗GPT와 바드 등의 AI챗봇은 LLM모델 중 하나인 팜(PaLM)을 기반으로 작동합니다.

또한 검색이나 오피스SW에도 LLM을 활요할 수 있습니다. 대표적인 오피스SW회사인 마이크로소프트는 생성AI기능을 대거 사용한 ‘마이크로소프트365코파일럿’을 출시할 계획입니다.

이밖에 개발자의 소프트웨어 코드 작성, 의료진의 의료 기록 데이터 전산화, 마케터의 고객 범주 세분화, 자동번역, 블로그 포스트 등 다양한 분야에서 LLM이 활용될 수 있습니다. 이처럼 LLM은 미래유망기술에 빼놓을 수 없는 중요한 인공지능 모델입니다.

LLM의 작동 원리

LLM의 작동원리 ⓒthedatahunt

그렇다면 LLM은 어떻게 작동하는 걸까요? LLM은 언어를 학습하는 과정에서 트랜스포머(Transformer)라는 신경망 아키텍처 모델을 사용합니다. 트랜스포머란 문장의 순차 데이터 관계를 추적해 맥락과 의미를 학습하는 신경망 모델로, 길이가 다른 시퀀스를 처리하는 능력이 탁월합니다.

LLM은 이 트랜스포머와 같은 모델들을 활용하여 가장 자연스러운 문장을 찾아내는 딥 러닝 모델입니다. LLM이 언어 데이터를 학습할 때, 문장 사이에 빈 단어를 예측하는 방식으로 데이터 수집을 진행합니다. LLM은 딥 러닝 기술을 활용하여 문장에서 구문과 단어를 인식하고, 연관시켜 빈 칸의 답을 알아냄으로써 언어적 의미를 파악할 수 있습니다.

LLM의 한계와 LMM의 등장

하지만 LLM에도 치명적인 단점이 존재합니다. 바로 할루시네이션 (Hallucination · 환각)입니다. 할루시네이션이란, 정확하지 않은 정보를 사실인 양 내놓는 현상을 말합니다. 사실관계가 파악되지 않는 정보를 무분별하게 학습했기 때문에 나타나는 LLM만의 고질적인 문제입니다.

그 밖에 LLM은 보안 문제도 해결해야 합니다. LLM을 사용하거나 학습 과정에 쓰인 데이터가 유출될 수 있기 때문에 보안적인 부분의 개선이 필수입니다. 또한 LLM기반의 챗봇을 활용하여 해킹 소스코드를 만들어내는 등 악용할 여지가 있습니다.

사진=셔터스톡

최근 이 LLM을 넘어, 이미지까지 학습한 모델인 LMM(Large Multimodal Models_대형멀티모달모델)이 떠오르고 있습니다. LLM이란 최근 공개된 GPT-4V에도 사용된 대규모 멀티모달 인공지능 모델입니다. LMM은 기존의 LLM을 넘어 텍스트뿐만 아니라 이미지와 음성까지도 활용할 수 있습니다.

LMM과 GPT-4V

피사체의 원근감을 구분하는 GPT-4V ⓒtext.cortex

LMM은 시각적 입력으로 주어진 쿼리에 대한 출력을 생성하도록 설계된 대형멀티모달 모델입니다. LMM은 기존의 LLM과 비전 인코더(이미지를 텍스트로 변환시켜주는 모델)를 연결하는 비전 언어 교차 모델 커넥터(vision-language cross-modal connector) 등의 아키텍쳐를 활용합니다.

새로 출시된 GPT-4V는 이 LMM활용한 대형 멀티모달 모델 챗봇입니다. GPT-4V는 이미지를 분석 및 사용할 수 있으며 이미지의 수학문제를 풀 수 있습니다. 또한 차트를 이해할 수 있고, 인간의 표정에서 감정을 읽어낼 수 있습니다.

업계 관계자들은 “텍스트를 기반으로 했던 기존의 LLM과 달리 이미지 입력과 같은 추가 기능을 대형언어모델에 통합하는 것은 인공지능 산업 연구와 개발의 핵심분야로 분석된다”며 “멀티모달모델은 새로운 인터페이스와 기능을 통해 언어 전용 시스템의 영향력을 확대할 수 있다”고 전망했습니다.


LLM이 활용된 챗GPT가 출시되었을 당시만 해도 온 세간이 떠들썩했습니다. 이후로도 기술은 계속 발전하여 LMM이 개발되었고, 텍스트로만 이루어진 LLM을 활용한 챗GPT를 넘어 LMM이 활용된 GPT-4V가 새로운 시대를 열었습니다. LMM을 넘을 또다른 기술이 개발된다면 LMM또한 LLM과 같이 구닥다리 취급을 받을지도 모릅니다. 다음은 또 어떤 기술이 개발될지 상상해보며 오늘은 이만 여기서 마치도록 하겠습니다.

감사합니다.