Spark 란?

728x90

한 줄 정의

👉 **Spark는 “대용량 데이터를 빠르게 처리하기 위한 분산 데이터 처리 엔진”**이야.

조금 풀어서 말하면

한 대 컴퓨터로는 느린 작업을
여러 대 컴퓨터(CPU, 메모리)를 동시에 써서
한 번에 처리해주는 시스템

👉 그게 바로 Apache Spark

Spark는 뭘 잘하냐?

✔️ 잘하는 것

대용량 데이터 처리 (GB~TB~PB)
로그 분석
ETL 파이프라인
집계 / 통계
머신러닝 전처리

❌ 안 맞는 것

소량 데이터
실시간 초저지연 트랜잭션 (OLTP)

Spark vs 단일 서버 (차이 감각)

❌ 일반 Python

한 줄로 한 줄 처리
CPU 1개
메모리 한계

✅ Spark

데이터를 쪼개서
여러 CPU / 여러 서버에서
동시에 처리

Spark의 핵심 특징 4가지

1️⃣ 분산 처리

데이터를 여러 조각(partition)으로 나눔
동시에 처리 → 빠름

2️⃣ 메모리 기반 처리

디스크보다 메모리 위주
Hadoop MapReduce보다 훨씬 빠름

3️⃣ Lazy Evaluation (지연 실행)

코드 쓴다고 바로 실행 ❌
show(), count(), write() 같은 action에서 실행

👉 최적화할 시간을 Spark가 가짐

4️⃣ 다양한 API 제공

DataFrame / SQL
Python, Scala, SQL 지원

Spark에서 우리가 주로 쓰는 것

📊 DataFrame

df.select().filter().groupBy()

👉 SQL 테이블처럼 쓰는 구조

Spark 구성요소 (아주 간단히)

Driver   : 전체 작업 지휘
Executor : 실제 연산 수행

Driver가 계획 세움
Executor들이 실제 계산

Spark는 어디서 쓰이나?

AWS EMR
GCP Dataproc
Databricks
온프레미스 클러스터

👉 데이터 엔지니어 필수 도구

한 문장 요약 (면접용 ✨)

“Spark는 대용량 데이터를 분산 환경에서 메모리 기반으로 빠르게 처리하는 데이터 처리 엔진입니다.”

진짜 핵심만 다시

Spark = 분산 처리
빠른 이유 = 병렬 + 메모리
핵심 API = DataFrame
느릴 때 원인 = Shuffle

728x90

'DataEngineering > Spark' 카테고리의 다른 글

Spark 최적화 체크리스트 (0)	2026.01.30
Suffle이란? (1)	2026.01.30
df.cache() 를 언제 써야하나? (0)	2026.01.30
Dataframe 이란? (0)	2026.01.30
Lazy Evaluation 이란? (0)	2026.01.30

한 줄 정의

조금 풀어서 말하면

Spark는 뭘 잘하냐?

✔️ 잘하는 것

❌ 안 맞는 것

Spark vs 단일 서버 (차이 감각)

❌ 일반 Python

✅ Spark

Spark의 핵심 특징 4가지

1️⃣ 분산 처리

2️⃣ 메모리 기반 처리

3️⃣ Lazy Evaluation (지연 실행)

4️⃣ 다양한 API 제공

Spark에서 우리가 주로 쓰는 것

📊 DataFrame

Spark 구성요소 (아주 간단히)

Spark는 어디서 쓰이나?

한 문장 요약 (면접용 ✨)

진짜 핵심만 다시

'DataEngineering > Spark' 카테고리의 다른 글

티스토리툴바