본문 바로가기

Hadoop

하둡(Hadoop) 시스템 구성

하둡 1.0 기준의 책을 참고했기때문에

3.0까지 나온 현재 하둡과는 많이 다를 수 있음



하둡 프로젝트


하둡은 다수 프로젝트의 집합.

주요 프로젝트는

HDFS(분산 파일 시스템)와

MapReduce(병렬 분산 처리 프레임워크)가 있다.


HDFS

높은 처리량/신뢰성을 동시에 추구하는 분산파일 시스템 

MapReduce

병렬 분산 처리를 수행하기 위한 프레임워크 

Hive 

Hadoop 조작을 쉽게 하기 위한 SQL 형식의 데이터베이스

Pig 

Hadoop 데이터 흐름을 기술하기 위한 스크립트 언어 방식 인터페이스 

Sqoop 

DBMS와 Hadoop 사이의 데이터 이동을 구현하는 커넥터 

HBase 

대용량 테이블을 관리하기 위해서 확장성을 추구한 Key-value 방식 저장소 

ZooKeeper 

분산 클러스터 환경에서 동작하는 애플리케이션을 관리하기 위한 제품 




하둡의 물리적 구성


(Hadoop 마스터 서버)

JobTracker , NameNode

l

l

                          ㅏ----------클라이언트

l

L3스위치

l

(Hadoop 슬레이브 서버들)

L2스위치  L2스위치  L2스위치  L2스위치

랙           랙           랙           랙


서버간 네트워크 접속에는 특별한 하드웨어는 필요하지 않다.

랙 내부에서는 L2 스위치를

랙 간 접속에서는 L3 스위치를 배치하는 것이 일반적

마스터 서버는 보다 고성능의 장비를 사용하는 것이 일반적이다.


분산 처리를 이용해 효율적인 스루풋을 구현하기 위해서는 최소 10대~수천대의 구성이 필요하다고 함.

(10대 이내에선 분산의 전처리과정에 의한 overhead 발생)


HDFS의 NameNode와 MapReduce는 따로 구성할 수 있지만

슬레이브 서버의 경우 하나의 물리적 서버에 DataNode와 TaskTracker가 같이 구성된다.


참고:빅데이터 시대의 하둡 완벽 입문, 김완섭, 제이펍





'Hadoop' 카테고리의 다른 글

MapReduce(맵리듀스) - Combiner  (0) 2017.03.06
MapReduce(맵리듀스) - Shuffle&Sort  (0) 2017.02.16
MapReduce(맵리듀스)  (0) 2017.02.15
HDFS(Hadoop Distributed File System), 하둡 분산 파일 시스템  (0) 2017.02.14
하둡(hadoop)이란  (0) 2017.02.06