하둡(Hadoop) 시스템 구성

하둡 1.0 기준의 책을 참고했기때문에

3.0까지 나온 현재 하둡과는 많이 다를 수 있음

하둡 프로젝트

하둡은 다수 프로젝트의 집합.

주요 프로젝트는

HDFS(분산 파일 시스템)와

MapReduce(병렬 분산 처리 프레임워크)가 있다.

HDFS	높은 처리량/신뢰성을 동시에 추구하는 분산파일 시스템
MapReduce	병렬 분산 처리를 수행하기 위한 프레임워크
Hive	Hadoop 조작을 쉽게 하기 위한 SQL 형식의 데이터베이스
Pig	Hadoop 데이터 흐름을 기술하기 위한 스크립트 언어 방식 인터페이스
Sqoop	DBMS와 Hadoop 사이의 데이터 이동을 구현하는 커넥터
HBase	대용량 테이블을 관리하기 위해서 확장성을 추구한 Key-value 방식 저장소
ZooKeeper	분산 클러스터 환경에서 동작하는 애플리케이션을 관리하기 위한 제품

하둡의 물리적 구성

(Hadoop 마스터 서버)

JobTracker , NameNode

ㅏ----------클라이언트

L3스위치

(Hadoop 슬레이브 서버들)

L2스위치 L2스위치 L2스위치 L2스위치

랙 랙 랙 랙

서버간 네트워크 접속에는 특별한 하드웨어는 필요하지 않다.

랙 내부에서는 L2 스위치를

랙 간 접속에서는 L3 스위치를 배치하는 것이 일반적

마스터 서버는 보다 고성능의 장비를 사용하는 것이 일반적이다.

분산 처리를 이용해 효율적인 스루풋을 구현하기 위해서는 최소 10대~수천대의 구성이 필요하다고 함.

(10대 이내에선 분산의 전처리과정에 의한 overhead 발생)

HDFS의 NameNode와 MapReduce는 따로 구성할 수 있지만

슬레이브 서버의 경우 하나의 물리적 서버에 DataNode와 TaskTracker가 같이 구성된다.

참고:빅데이터 시대의 하둡 완벽 입문, 김완섭, 제이펍

MapReduce(맵리듀스) - Combiner (0)	2017.03.06
MapReduce(맵리듀스) - Shuffle&Sort (0)	2017.02.16
MapReduce(맵리듀스) (0)	2017.02.15
HDFS(Hadoop Distributed File System), 하둡 분산 파일 시스템 (0)	2017.02.14
하둡(hadoop)이란 (0)	2017.02.06

fver1004