- 하둡 에코시스템 중 MapReduce에 해당하는 기능을 대체할 수 있는 것이 Spark라고 했었다. 스파크가 빠른 이유는 빅데이터의 In-Memory 연산이 가능하기 때문이다. - 다음은 스파크 클러스터의 구조이다. SparkContext가 있는 Driver Program, Cluster Manager, Work Node의 3가지로 나눌 수 있다. Driver Program은 사용하는 컴퓨터를 말하고 python 같은 스크립트로 task를 정의한다. 정의된 task는 Cluster Manager로 넘어가서 분배가 되는데, 하둡이라면 Yarn을, AWS의 경우는 Elastic MapReduce 가 Cluster Manager 역할을 한다. Work Node에서는 CPU 코어 1개당 1개의 Node를 배..