[소프트웨어 솔루션]/빅뱅클라우드

GPUaaS 개념과 기능, [빅뱅클라우드]와 함께 AI시대를 맞이하세요!

이호스트ICT 2024. 2. 2. 14:00

 

GPUaaS 개념과 기능, [빅뱅클라우드]와 함께 AI시대를 맞이하세요!

안녕하세요, 이호스트ICT입니다. 
GPU(Graphical Processing Unit)는 그래픽 처리를 위해 개발된 하드웨어입니다. GPU는 그래픽 작업뿐만 아니라 과학, 엔지니어링, 인공지능 등 다양한 분야에서 대규모 데이터 처리와 병렬 계산에 적합한 성능을 제공합니다. 특히 딥 러닝과 같은 인공지능 분야에서는 대량의 계산이 필요하므로 GPU의 중요성이 더욱 커지고 있습니다.
그러나 수요가 늘어나며 가격 또한 고공행진하며 관계된 기업이나 소규모 스타트업, 개인 등에게는 꼭 필요하지만 부담스러운 존재가 되어가고 있습니다. 

이러한 현재, GPUaaS는 GPU를 효율적으로 활용하고 비용을 절감할 수 있는 솔루션으로 주목받고 있는데요. 오늘 포스팅에서는 GPUaaS 개념과 기능에 대해 알아보도록 하겠습니다. 

※이 포스팅은 이호스트ICT 사내 스터디 자료로, R&D 연구소에 제작한 원본을 토대로 작성되었습니다. 



[1] [GPUaaS : GPU As a Service]

GPU는 그래픽 처리에 특화된 하드웨어로, 데이터 과학, 인공지능, 머신러닝 등의 작업에서 많이 사용됩니다. GPU는 현대에는 대용량 데이터 처리와 병렬 처리 작업이 중요한 딥 러닝 및 과학 연구 분야에서 핵심적으로 활용되고 있습니다. 
그러나 GPU 인프라를 온프레미스로 설정하는 것은 까다로우며 최적의 사용을 위해 GPU 인프라 수요를 예측하는 것 또한 매우 어렵습니다. 이에따라 사용자가 자체적으로 GPU를 구매하거나 유지 관리 할 필요 없는 GPU 클라우드 플랫폼에 대한 관심도가 증가되고 있습니다.





"GPUaaS"는 "GPU as a Service"의 줄임말로, 클라우드 컴퓨팅 환경에서 GPU 리소스를 제공하는 서비스를 의미합니다. 

GPUaaS는 사용자가 자신의 애플리케이션 또는 작업에 필요한 GPU 리소스를 필요한 만큼 사용할 수 있도록 하는 서비스입니다. 이를 통해 사용자는 소유하지 않고도 GPU를 활용할 수 있으며, 필요한 시간 동안에만 GPU 리소스를 사용할 수 있습니다. 이는 비용 효율적이고 유연한 방식으로 GPU를 이용할 수 있는 장점을 제공합니다. GPUaaS를 사용하면 자신의 서버나 컴퓨터에 GPU를 추가로 설치하거나 업그레이드할 필요 없이 필요한 만큼의 GPU 리소스를 사용할 수 있습니다. 또한, 클라우드 환경에서는 확장성과 유연성이 높아 다양한 규모의 작업에 대응할 수도 있습니다.
GPU As A Service의 글로벌 시장 규모는 2035년까지 300억 달러에 도달할 것으로 예상되는데요. GAGR 30% 가량으로 폭발적인 성장 속도를 보일 것으로 수많은 전문가들은 분석하고 있습니다. 

▶ GPUaaS의 성장 동인 
-게임에 대한 수요 증가 : PC나 노트북뿐 아니라 모바일 게임이 성능의 한계를 뛰어넘으면서 칩셋의 핵심 구성요소인 GPU의 성능이 점점 더 중요해지고 있습니다. 
-스마트 시티 개발 : 2020년 인도에서는 '스마트시티 사명'을 위해 총 약 270억 달러가 투자되었습니다. 이에 따라 약 5,330개의 프로젝트가 입찰된 바 있습니다. 
-자율주행 차량의 GPU 활용 증가 : 자율주행 필요성이 강조되고 수요가 늘어나며 엔비디아 등 기업에서는 안전한 자율주행을 위한 차세대 슈퍼칩을 지속적으로 개발하고 있습니다.

▶ GPUaaS가 제공하는 주요 기능 
①GPU 리소스 제공
GPUaaS는 클라우드 환경에서 GPU 리소스를 제공합니다. 이를 통해 사용자는 필요한 만큼의 GPU 성능을 활용할 수 있습니다. GPU는 데이터 과학, 인공지능, 머신러닝 등의 작업에서 많이 사용되며, GPUaaS를 통해 이러한 작업을 빠르고 효율적으로 수행할 수 있습니다.
②가상화된 GPU 인스턴스
GPUaaS는 가상화된 GPU 인스턴스를 제공합니다. 사용자는 필요한 GPU 인스턴스를 생성하고 설정하여 사용할 수 있습니다. 이를 통해 사용자는 자신의 애플리케이션에 필요한 GPU 성능을 유연하게 조정할 수 있습니다.
③확장성과 유연성
클라우드 환경에서 GPUaaS를 사용하면 확장성과 유연성이 높습니다. 사용자는 필요한 만큼의 GPU 리소스를 신속하게 확장하거나 축소할 수 있으며, 필요한 시간 동안에만 GPU 리소스를 사용할 수 있어 비용을 절감할 수 있습니다.
④관리 및 모니터링 기능
GPUaaS는 GPU 인스턴스의 관리 및 모니터링 기능을 제공합니다. GPU 인스턴스의 성능, 상태, 사용량 등을 모니터링 가능하므로 GPU 리소스를 효율적으로 관리하고 최적화할 수 있습니다.
⑤다양한 GPU 옵션
다양한 GPU 옵션은 다양한 성능과 가격을 제공하므로 사용자는 자신의 요구사항에 맞는 최적의 GPU를 선택할 수 있습니다.




[2] [빅뱅클라우드(BigbangCloud)]

이어서 GPU 클라우드 플랫폼 중 하나인 빅뱅 클라우드의 소개와 빅뱅 클라우드에서 사용 가능한 GPU의 특징 및 성능 차이 테스트 결과에 대해 간단히 설명드리려고 합니다.

빅뱅클라우드는 쿠버네티스 기반의 GPU 인프라 종량제 서비스로, 인공지능 프로젝트를 인프라 구축 및 운영 비용 지출 없이 손쉽게 사용 가능한 GPU 클라우드 플랫폼입니다.
편리한 개발환경을 구성 및 활용이 가능하게끔 code server와 jupyter notebook, jupyter lab 등을 지원하고, 현재 RTX 2060, RTX 3060, V100 등의 GPU를 클라우드 환경에서 사용할 수 있도록 지원하고 있습니다. 





▶ GPU 클라우드 플랫폼 [빅뱅클라우드]
-인공지능 딥러닝에 사용되는 GPU 리소스 지원
-인스턴스 생성 후에도 유연하게 스펙 설정 가능
-종량제 정책으로 비용 부담 최소화
-신규고객 무료 체험 기간 및 포인트 지급

▶ 빅뱅클라우드에 대해 더 알아보고 싶다면?
https://blog.naver.com/ehostidc2004/223290439581
내선 문의 : 이호스트ICT ☎1566-8757





빅뱅 클라우드의 GPU에 대해 설명드리기 전에 자주 언급될 쿠다코어와 텐서코어에 대해 설명드리겠습니다.

쿠다코어는 범용적으로 사용되는 GPU 코어로, 전통적인 그래픽 및 병렬 컴퓨팅 작업을 수행에 주로 활용됩니다. 텐서코어는 딥 러닝 연산을 가속화하기 위해 특별히 설계된 코어인데요. 행렬곱셈을 빠르게 수행할 수 있어 딥 러닝 모델의 학습과 추론 작업에서 유용하게 사용되므로 텐서코어의 개념이 점점 더 중요해지고 있습니다.



RTX 2060은 엔비디아의 튜링 아키텍처 기반의 GPU입니다. 특징으로는 시각적 품질을 향상시키는 레이 트레이싱과 딥 러닝 기능을 향상시키는데 중점을 두는 2세대의 텐서 코어가 도입되어 AI 기반 작업에 탁월한 성능을 제공한다는 점을 들 수 있습니다. GDDR6 그래픽 메모리를 사용하였고, 약 1920개의 쿠다코어를 갖추고 있습니다.




RTX 3060은 엔비디아의 암페어 아키텍처를 기반으로, RTX 2060 대비 더 많은 쿠다코어와 3세대의 텐서코어로 그래픽 작업과 딥러닝 및 AI 작업을 가속화하게 됩니다. 메모리는 GDDR6 그래픽 메모리를 사용하며, 쿠다 코어의 수는 약 3584 개 의 성능을 제공합니다.




마지막으로 V100에 대해 설명드리도록 하겠습니다.

V100은 NVIDIA의 볼타 아키텍처를 기반으로 640개의 텐서코어를 갖추었고 딥 러닝 성능에서 100 테라플롭스를 넘어선 최초의 GPU입니다. V100은 NVIDIA가 개발한 고속의 GPU 간 통신 기술인 NVLink가 적용되었으며, 높은 대역폭의 메모리를 뜻하는 HBM2를 사용하여 대규모의 데이터셋 및 병렬 처리 작업을 효율적으로 대응이 가능합니다. V100은 약 5120개의 쿠다코어를 갖추고 있습니다.



그렇다면, 빅뱅 클라우드를 사용하여 진행한 테스트 결과를 확인해보겠습니다.

4 core의 CPU, 메모리 8GB 스펙의 텐서플로우 기반 컨테이너에, 앞서 설명드린 GPU를 탑재한 각각의 컨테이너 3개와 CPU만을 사용하는 컨테이너 한 개를 생성했습니다. 이 후 각 컨테이너의 주피터 노트북을 활용하여 간단한 신경망 구조의 모델을 생성하고, 학습한 시간을 측정하여 시각화하는 테스트를 진행했습니다.
결과적으로 CPU는 12.17초, RTX 2060는 5.19초, RTX 3060이 4.97초, v100은 3.38초로 v100이 가장 우수한 성능을 보여주고 있습니다. 다만, 테스트에 사용된 모델이 단순하고 단시간 내에 학습이 이루어진 코드로 인해 1~ 2초 정도의 차이밖에 나지않지만, 실제 사용되는 모델의 복잡도 및 학습 시간이 증가할 수록 각 GPU 간의 성능 차이가 더 크게 나타날 것으로 예상됩니다.




[3][마무리]
NVIDIA, AMD 등과 같은 저명한 GPU 글로벌 플레이어로 인해 고도로 집중된 시장에서 GPU는 새로운 아키텍처와 기술의 도입으로 더욱 빠르고 효과적인 연산이 가능해질 것입니다. 이는 인공지능 및 딥러닝 분야에서의 수요 증가로 머신러닝 모델 훈련 및 추론에서 GPU 사용이 더욱 보편화될 것으로 예상되며, 원격 위치에서 GPU 기능에 대한 액세스를 제공하는 GPU Cloud의 수요가 증가할 것이라 전망됩니다. 이호스트ICT의 GPU 클라우드 플랫폼 [빅뱅클라우드] 또한 딥러닝 인프라 시장에서 더욱 빛나기를 기대합니다. 

오늘 자료를 더 자세하게 확인하고자 하시는 분께서는 아래 PDF 첨부파일을 다운로드 해보세요. 감사합니다. 

GPUaaS 개념과 빅뱅클라우드.pdf
1.15MB



▶ 빅뱅클라우드 이메일/유선 문의
이메일 문의 : kjy@ehostidc.co.kr
유선 문의(직통) : 010-8973-1332

http://www.bigbangcloud.co.kr