Spark Dataframe Tips

Hadoop

Spark Dataframe Tips

PON_Z 2023. 3. 23. 14:54

1. pandas_df를 "spark_df = spark.createDataFrame(pandas_df)"를 사용해 spark_df로 변환할 때 만약 pandas_df에 date 타입이 있다면, timestamp 타입으로 오토캐스팅되므로 반드시 cast를 통해 컬럼을 다시 date 타입으로 바꿔줘야한다.

spark_df = spark_df.withColumn("date", col("date").cast(DateType()))

2. 만약 spark_df에 존재하는 "year" 컬럼을 기준으로 파티셔닝을 하여 hdfs에 저장하고 싶다면 해당 컬럼을 spark_df의 맨 마지막으로 보낸 뒤 partitionBy("year")를 하면 "year"를 기준으로 GROUP을 지어 파티셔닝이 되고 "year"컬럼을 제거한 형태로 write가 된다. 만약 "a" 컬럼을 제거하고싶지 않다면 마지막에 두지 않으면 된다.

spark_df.write.partitionBy("year").parquet(f"hdfs://path/")

# It shows like
# -- hdfs://path/2010
# -- hdfs://path/2011 
# -- hdfs://path/2012 ...

728x90

'Hadoop' 카테고리의 다른 글

Hadoop Ecosystem 정리 #2 (Spark) (0)	2023.01.10
Apache Spark 환경 설정 (0)	2022.12.26
Hadoop Ecosystem 정리 #1 (0)	2022.12.20

현재글Spark Dataframe Tips

지나가던 컴공생

안녕하세요 지나가던 컴공생입니다. 계속 지나가겠습니다 (_ _)

블록체인, NFT, web, k8s, programmers, elasticsearchelasticsearch, dapp, 이더리움, HADOOP, PYTHON, Ethereum, AWS, blockchain, CS, kubenetes, Docker, 프로그래머스, spark, server, 환경설치,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지나가던 컴공생