- 하둡(Hadoop)은 HDFS(Hadoop Distributed FileSystem)이라는 분산 데이터 저장과 빅데이터 처리 방식인 MapReduce 방식으로 이루어져 있다. 하둡은 HDFS을 파일 시스템으로 두고 MapReduce이 연산 엔진이며 Yarn으로 리소스를 관리한다. - 맵리듀스(MapReduce)는 여러 노드에 task를 분배하는 방법으로 각 프로세스 데이터는 가능한 경우 해당 노드에 저장된다. 맵리듀스는 맵(Map)과 리듀스(Reduce)로 구성된다. Map은 분할, Reduce는 병합이라고 생각하면 된다. 예를 들어 Map은 큰 작업을 64MB단위 블럭으로 분할하여 각 블럭에 대한 연산을 한다. 이후 Map을 수행한 각각의 블럭의 결과 정보를 합치는 작업이 Reduce이다. - HD..