Hadoop

Apache Spark 환경 설정

PON_Z 2022. 12. 26. 15:54

1. Anaconda (Python + Jupyter Notebook)

 

2. Java (19.0.1)

 

3. Spark (spark-3.2.3-bin-hadoop2.7)

 

=> 다운로드 후 로컬디스크 C에서 Spark 폴더를 만든 후 압축 해제

pip install pyspark==3.2.3

4. Hadoop

=> 2.7.7 다운 후 bin 폴더를 복사해 로컬디스크 C에 Hadoop 폴더를 만든 후 붙여넣기

 

5. PySpark

Anaconda Prompt에서pip install pyspark==3.2.3

 

6. 환경변수 편집 (java, hadoop, spark)

=> PYSPARK_PYTHON은 anaconda 창에서 where pip 후 나오는 경로 입력

 

 

 

728x90

'Hadoop' 카테고리의 다른 글

Spark Dataframe Tips  (0) 2023.03.23
Hadoop Ecosystem 정리 #2 (Spark)  (0) 2023.01.10
Hadoop Ecosystem 정리 #1  (0) 2022.12.20