df.cache() 를 언제 써야하나?

728x90

한 줄 답

👉 같은 DataFrame을 “여러 번 다시 쓸 때”만 cache 한다.

왜 cache가 필요하냐면

Spark는 lazy evaluation이라서

DataFrame을 쓸 때마다 처음부터 다시 계산해.

CSV → filter → join → groupBy

이걸

count()
show()
write()

처럼 여러 번 호출하면

👉 매번 다시 CSV부터 읽음 😱

그래서 중간 결과를 메모리에 저장하는 게 cache().

✅ cache 써야 하는 경우

1️⃣ 같은 df를 여러 액션에서 사용

df2 = df.filter(...)

df2.count()
df2.write.parquet(...)

👉 df2.cache() 👍

2️⃣ 비싼 연산 뒤의 중간 결과

큰 join
aggregation
UDF 적용 후

👉 다시 계산하기 싫을 때

3️⃣ 반복 작업 / 탐색 분석

EDA
디버깅
여러 통계값 확인

❌ cache 쓰면 안 되는 경우

1️⃣ 한 번만 쓰는 df

df.filter(...).write.parquet(...)

👉 cache ❌ (의미 없음)

2️⃣ df가 너무 큼

메모리 부족 → spill → 오히려 느림

3️⃣ 바로 write만 하는 경우

write는 어차피 한 번 액션

cache vs persist 차이

cache() = 메모리 기본
persist() = 저장 방식 선택

df.persist(StorageLevel.MEMORY_AND_DISK)

👉 메모리 부족 대비할 때

실무에서 자주 쓰는 패턴

df_clean = (
    df_raw
    .filter(...)
    .join(...)
)

df_clean.cache()

df_clean.count()
df_clean.write.parquet(...)

그리고 끝나면 👇

df_clean.unpersist()

Spark UI로 확인하는 법

Storage 탭
Cached RDDs / DataFrames
메모리 사용량 확인

👉 cache 했으면 꼭 확인

면접용 한 문장

“Spark에서 df.cache()는

동일한 DataFrame을 여러 액션에서 재사용할 때

중복 계산을 피하기 위해 사용하며,

한 번만 사용하는 경우에는 사용하지 않습니다.”

마지막 핵심 문장

👉 cache는 ‘재사용할 때만’ 써라.

한 줄 답

👉 같은 DataFrame을 “여러 번 다시 쓸 때”만 cache 한다.

왜 cache가 필요하냐면

Spark는 lazy evaluation이라서

DataFrame을 쓸 때마다 처음부터 다시 계산해.

CSV → filter → join → groupBy

이걸

count()
show()
write()

처럼 여러 번 호출하면

👉 매번 다시 CSV부터 읽음 😱

그래서 중간 결과를 메모리에 저장하는 게 cache().

✅ cache 써야 하는 경우

1️⃣ 같은 df를 여러 액션에서 사용

df2 = df.filter(...)

df2.count()
df2.write.parquet(...)

👉 df2.cache() 👍

2️⃣ 비싼 연산 뒤의 중간 결과

큰 join
aggregation
UDF 적용 후

👉 다시 계산하기 싫을 때

3️⃣ 반복 작업 / 탐색 분석

EDA
디버깅
여러 통계값 확인

❌ cache 쓰면 안 되는 경우

1️⃣ 한 번만 쓰는 df

df.filter(...).write.parquet(...)

👉 cache ❌ (의미 없음)

2️⃣ df가 너무 큼

메모리 부족 → spill → 오히려 느림

3️⃣ 바로 write만 하는 경우

write는 어차피 한 번 액션

cache vs persist 차이

cache() = 메모리 기본
persist() = 저장 방식 선택

df.persist(StorageLevel.MEMORY_AND_DISK)

👉 메모리 부족 대비할 때

실무에서 자주 쓰는 패턴

df_clean = (
    df_raw
    .filter(...)
    .join(...)
)

df_clean.cache()

df_clean.count()
df_clean.write.parquet(...)

그리고 끝나면 👇

df_clean.unpersist()

Spark UI로 확인하는 법

Storage 탭
Cached RDDs / DataFrames
메모리 사용량 확인

👉 cache 했으면 꼭 확인

면접용 한 문장

“Spark에서 df.cache()는

동일한 DataFrame을 여러 액션에서 재사용할 때

중복 계산을 피하기 위해 사용하며,

한 번만 사용하는 경우에는 사용하지 않습니다.”

마지막 핵심 문장

👉 cache는 ‘재사용할 때만’ 써라.

728x90

'DataEngineering > Spark' 카테고리의 다른 글

Spark 최적화 체크리스트 (0)	2026.01.30
Suffle이란? (1)	2026.01.30
Dataframe 이란? (0)	2026.01.30
Lazy Evaluation 이란? (0)	2026.01.30
Spark 란? (0)	2026.01.30

한 줄 답

왜 cache가 필요하냐면

✅ cache 써야 하는 경우

1️⃣ 같은 df를 여러 액션에서 사용

2️⃣ 비싼 연산 뒤의 중간 결과

3️⃣ 반복 작업 / 탐색 분석

❌ cache 쓰면 안 되는 경우

1️⃣ 한 번만 쓰는 df

2️⃣ df가 너무 큼

3️⃣ 바로 write만 하는 경우

cache vs persist 차이

실무에서 자주 쓰는 패턴

Spark UI로 확인하는 법

면접용 한 문장

마지막 핵심 문장

한 줄 답

왜 cache가 필요하냐면

✅ cache 써야 하는 경우

1️⃣ 같은 df를 여러 액션에서 사용

2️⃣ 비싼 연산 뒤의 중간 결과

3️⃣ 반복 작업 / 탐색 분석

❌ cache 쓰면 안 되는 경우

1️⃣ 한 번만 쓰는 df

2️⃣ df가 너무 큼

3️⃣ 바로 write만 하는 경우

cache vs persist 차이

실무에서 자주 쓰는 패턴

Spark UI로 확인하는 법

면접용 한 문장

마지막 핵심 문장

'DataEngineering > Spark' 카테고리의 다른 글

티스토리툴바