Hadoop Ecosystem 정리 #1

Hadoop

Hadoop Ecosystem 정리 #1

PON_Z 2022. 12. 20. 15:57

- 하둡(Hadoop)은 HDFS(Hadoop Distributed FileSystem)이라는 분산 데이터 저장과 빅데이터 처리 방식인 MapReduce 방식으로 이루어져 있다. 하둡은 HDFS을 파일 시스템으로 두고 MapReduce이 연산 엔진이며 Yarn으로 리소스를 관리한다.

- 맵리듀스(MapReduce)는 여러 노드에 task를 분배하는 방법으로 각 프로세스 데이터는 가능한 경우 해당 노드에 저장된다. 맵리듀스는 맵(Map)과 리듀스(Reduce)로 구성된다. Map은 분할, Reduce는 병합이라고 생각하면 된다.

예를 들어 Map은 큰 작업을 64MB단위 블럭으로 분할하여 각 블럭에 대한 연산을 한다. 이후 Map을 수행한 각각의 블럭의 결과 정보를 합치는 작업이 Reduce이다.

- HDFS에서 수행되는 MapReduce 작업이 끝나면 HDFS에 파일이 write되고, MapReduce 작업이 시작될 때는 HDFS로 부터 파일을 가져오는 작업이 수행된다.

- 하둡의 MapReduce는 스파크(Spark)와 자주 비교된다. 둘의 가장 큰 차이는 하둡은 디스크로부터 map/reduce할 데이터를 불러오고 처리 결과를 디스크에 쓰며, 스파크는 메모리로부터 map/reduce할 데이터를 불러오고 처리 결과를 메모리에 쓴다. 스파크는 메모리가 커버 가능한 만큼의 데이터라면 하둡 MapReduce 보다 최대 100배 빠르다.

- 하둡을 단점을 수정하여 이용하는 여러 서브 프로젝트들의 모임을 하둡 에코시스템 이라고 한다.

ref)

https://12bme.tistory.com/154

https://dodonam.tistory.com/390

728x90

'Hadoop' 카테고리의 다른 글

Spark Dataframe Tips (1)	2023.03.23
Hadoop Ecosystem 정리 #2 (Spark) (0)	2023.01.10
Apache Spark 환경 설정 (0)	2022.12.26

현재글Hadoop Ecosystem 정리 #1

지나가던 컴공생

안녕하세요 지나가던 컴공생입니다. 계속 지나가겠습니다 (_ _)

server, PYTHON, CS, 이더리움, spark, k8s, 환경설치, HADOOP, 프로그래머스, elasticsearchelasticsearch, blockchain, AWS, kubenetes, web, dapp, Docker, programmers, 블록체인, Ethereum, NFT,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

지나가던 컴공생