[이호스트ICT]

이호스트iDC, 하둡이 뭔가요? 간단한 하둡의 정의~!!

이호스트ICT 2014. 2. 19. 16:07

- 한줄 광고 -
서버호스팅 금액이 부담스러우셨던 분들!!
고성능 쿼드코어*2 CPU / 24G 램 / 1TB
1G Dedicated Line
무약정으로 이용할 수 있는 기회!
이벤트 기간내 / 월130,000원!
이호스트IDC 바로가기☞
http://www.ehostidc.co.kr/

 

 

 

 

하둡을 이해하기 위해선 Big data에 대한 이해가 필요합니다.
Big Data란 기존에 스토리지나 서버에서

저장,관리,처리,분석하기 어려울 정도로 큰 규모의 데이터를 말합니다.

 

음..
간단한 예를 들면
미국 증권거래소에서 발생하는 하루 거래 데이터는 약 1TB
국내 통신사의 통화 데이터는 하루 약 240GB 정도 된다고합니다.


엄청난 양이지요.

규모 면에서 봤을때 Big Data는 일반적 데이터베이스 SW가

 저장,관리,처리,분석할 수 있는 범위를 넘어선 크기의 데이터 라고 보시면 됩니다.


마케팅적인 관점에서 본다면
대규모 데이터에서 가치있는 데이터를

선별하고 분석할 수 있도록 고안된 기술 정도로 보시면 될것 같습니다.

 

Big Data는 엄청난 크기의 데이터를 말하기도 하지만

더불어 데이터를 분석하고 관리하는 도구,분석기법까지

포함한 개념이 된다고 할 수 있습니다.

 

그럼 이렇게 큰 데이터를 처리할 수 있는 기법이 무엇이 있을까요?


여기서 주목받는 것이 하둡(Hadoop)입니다.

 

 

만약 Big Data를 기존 방식의 제원으로

 분석,처리한다고 했을땐 엄청난 비용과 고성능 서버 그리고 시간이 투자될 것입니다.


그러나 하둡을 통해 비용과 시간을 단축하고 원하는 데이터 산출물을 얻을 수 있게 된것이죠.

 

하둡의 방식을 이해하려면 HDFS(Hadoop Distributed File System)을 이해하셔야 합니다.

 

정말 간단하게 예를 들자면,
당근이 있습니다.

당근을 하나의 이미지 데이터라고 가정해보죠.
당근을 잘게 잘게 채를 썹니다.

이미지 데이터를 잘게 분산시킨다는 거죠.


물리적으로 잘게 채를 썬 당근을 붙이기는 어렵지만

논리적으로 존재하는 데이터는 분산되어 저장된 패킷을 불러모아

하나의 이미지 데이터로 형상화해 사용자에게 보여줄 수 있는것이지요.
차~암 쉽습니다.

 

그래서 기존 업체에서는

하둡에 데이터를 저장하여 활용하는 예가 점점 늘어나고 있습니다.
분산되어 저장된 데이터를 하둡을 이용해 쉽고 빠르게 분석해 결과물을 얻을 수 있게된 것이지요.


그래서 하둡은
분산된 서버에 파일을 저장하는 분산파일 시스템과
저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해

쉽고 빠르게 분석할 수 있는 맵리듀스로 나누어 볼 수 있겠습니다.

 

 

 

- 한줄 광고 -
서버호스팅 금액이 부담스러우셨던 분들!!
고성능 쿼드코어*2 CPU / 24G 램 / 1TB
1G Dedicated Line
무약정으로 이용할 수 있는 기회!
이벤트 기간내 / 월130,000원!
이호스트IDC 바로가기☞
http://www.ehostidc.co.kr/