Spark 최적화 체크리스트

728x90

1️⃣ 데이터 읽기 최적화

👉 읽는 양을 줄이는 게 1순위

2️⃣ Shuffle 최소화

👉 Spark 느려지는 가장 큰 이유

3️⃣ Partition 전략

👉 병렬 처리의 기본

4️⃣ Join 최적화

👉 대부분 성능 이슈의 원인

5️⃣ 캐시 / 메모리

👉 필요할 때만

6️⃣ Action 관리

👉 Action = Spark Job

7️⃣ 파일 출력 최적화

👉 나중 쿼리 속도 영향 큼

8️⃣ 데이터 스큐 대응 (중급)

👉 한 Task만 오래 걸릴 때

9️⃣ Spark UI 분석

👉 감 말고 증거

🔟 설정(Tuning) (고급)

👉 마지막 단계

🎯 한 줄 요약

Spark 최적화는읽기 → shuffle → 파티션 → join → 캐시 → UI이 순서로 본다

📌 이것만 외워도 충분

728x90

1️⃣ 데이터 읽기 최적화

2️⃣ Shuffle 최소화

3️⃣ Partition 전략

4️⃣ Join 최적화

5️⃣ 캐시 / 메모리

6️⃣ Action 관리

7️⃣ 파일 출력 최적화

8️⃣ 데이터 스큐 대응 (중급)

9️⃣ Spark UI 분석

🔟 설정(Tuning) (고급)

🎯 한 줄 요약

📌 이것만 외워도 충분

티스토리툴바