하둡 1.0 기준의 책을 참고했기때문에
3.0까지 나온 현재 하둡과는 많이 다를 수 있음
하둡 프로젝트
하둡은 다수 프로젝트의 집합.
주요 프로젝트는
HDFS(분산 파일 시스템)와
MapReduce(병렬 분산 처리 프레임워크)가 있다.
HDFS |
높은 처리량/신뢰성을 동시에 추구하는 분산파일 시스템 |
MapReduce |
병렬 분산 처리를 수행하기 위한 프레임워크 |
Hive |
Hadoop 조작을 쉽게 하기 위한 SQL 형식의 데이터베이스 |
Pig |
Hadoop 데이터 흐름을 기술하기 위한 스크립트 언어 방식 인터페이스 |
Sqoop |
DBMS와 Hadoop 사이의 데이터 이동을 구현하는 커넥터 |
HBase |
대용량 테이블을 관리하기 위해서 확장성을 추구한 Key-value 방식 저장소 |
ZooKeeper |
분산 클러스터 환경에서 동작하는 애플리케이션을 관리하기 위한 제품 |
하둡의 물리적 구성
(Hadoop 마스터 서버)
JobTracker , NameNode
l
l
ㅏ----------클라이언트
l
L3스위치
l
(Hadoop 슬레이브 서버들)
L2스위치 L2스위치 L2스위치 L2스위치
랙 랙 랙 랙
서버간 네트워크 접속에는 특별한 하드웨어는 필요하지 않다.
랙 내부에서는 L2 스위치를
랙 간 접속에서는 L3 스위치를 배치하는 것이 일반적
마스터 서버는 보다 고성능의 장비를 사용하는 것이 일반적이다.
분산 처리를 이용해 효율적인 스루풋을 구현하기 위해서는 최소 10대~수천대의 구성이 필요하다고 함.
(10대 이내에선 분산의 전처리과정에 의한 overhead 발생)
HDFS의 NameNode와 MapReduce는 따로 구성할 수 있지만
슬레이브 서버의 경우 하나의 물리적 서버에 DataNode와 TaskTracker가 같이 구성된다.
참고:빅데이터 시대의 하둡 완벽 입문, 김완섭, 제이펍
'Hadoop' 카테고리의 다른 글
MapReduce(맵리듀스) - Combiner (0) | 2017.03.06 |
---|---|
MapReduce(맵리듀스) - Shuffle&Sort (0) | 2017.02.16 |
MapReduce(맵리듀스) (0) | 2017.02.15 |
HDFS(Hadoop Distributed File System), 하둡 분산 파일 시스템 (0) | 2017.02.14 |
하둡(hadoop)이란 (0) | 2017.02.06 |