검색
색인
하둡, High-availability distributed object-oriented platform, Hadoop
대용량 데이터 분산 처리 플랫폼의 약자로 다수의 범용 컴퓨터를 연결하여 하나의 시스템처럼 작동하도록 묶어 대용량의 다양한 데이터들을 분산 처리하는 오픈소스 프레임워크(소프트웨어 패키지).

하둡(hadoop)은 2005년 더그 커팅(Doug Cutting)과 마이크 케퍼렐라(Mike Cafarella)가 오픈소스 검색 엔진인 아파치 너치(Apache Nutch)를 분산 처리하기 위하여 개발하였다. 하둡이라는 이름은 개발자인 더그(Doug)의 아들이 갖고 있던 노란 코끼리 장난감의 이름을 따서 지었다. 이후 개발한 하둡 에코시스템(ecosystem) 프로그램들은 하이브(hive, 데이터 모델링 솔루션), 피그(pig, 빅데이터 분석을 위한 플랫폼)처럼 모두 동물 이름을 갖게 되었다.

하둡의 핵심 구성요소는 다음과 같다.
- 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System): 대용량의 데이터를 분산시키고 저장·관리하는 시스템
- 맵리듀스(MapReduce): 대용량 데이터의 처리를 위한 분산 프로그래밍 모델로 흩어져 있는 데이터들을 연관성 있는 데이터로 분류하는 맵(Map)과 분류한 데이터에서 중복된 데이터를 제거하고 원하는 데이터를 추출하는 리듀스(Reduce)라는 두 개의 메소드로 구성
- 하둡 공통 요소(Hadoop common): 다른 하둡 모듈을 지원하는 공통 유틸리티 및 라이브러리 모음
- 하둡 얀(Hadoop YARN): 하둡 분산 파일 시스템 위에서 작동하는 빅데이터용 응용들을 실행하는 분산 운영체제자원 관리자, 노드 관리자, 응용 마스터, 컨테이너로 구성
- 하둡 오존(Hadoop Ozone): 하둡용 확장성 있는 중복된 분산 객체 저장소

하둡은 스케일 아웃(scale out)으로 컴퓨터 노드(node)를 추가하여 컴퓨팅 성능을 확장할 수 있다. 또한 데이터 복제로 장애 발생에 탄력적으로 대처할 수 있다. 오픈소스 소프트웨어 라이선스(open source software license)로 비용 부담이 적어 소셜 미디어(social media), 사물인터넷(IoT) 등에서 생성되는 많은 양의 데이터를 저장하고 처리하는 데 주로 사용된다.
그러나 HDFS에 저장된 데이터는 변경하는 것이 불가능하며, 배치 처리 엔진을 사용하기 때문에 실시간 스트리밍 데이터 처리에는 비효율적이고 스토리지 및 네트워크에서의 암호화를 지원하지 않는 보안 문제가 있다.