DataEngineering/Architecture

    📦 Partition & 🧲 Clustering 정리

    📦 Partition & 🧲 Clustering 정리한 줄 요약Partition 👉 데이터를 “큰 덩어리”로 나눔Clustering 👉 그 안에서 “비슷한 값끼리” 모아둠1️⃣ Partition (파티션)개념👉 테이블을 날짜/범위 기준으로 물리적으로 쪼갬orders 테이블 ├─ 2024-01-01 ├─ 2024-01-02 ├─ 2024-01-03왜 쓰냐?필요한 파티션만 읽음쿼리 비용 ↓속도 ↑언제 쓰냐?날짜 조건이 거의 항상 있음WHERE order_date >= '2024-01-01'👉 로그, 주문, 이벤트 데이터 = 무조건 파티션실무 규칙 (이거 중요)✅ 시간 컬럼 (date / timestamp)❌ user_id, category 같은 고유값 X하루 단위가 기본2️⃣ Clustering ..

    Medallion Architecture 정리

    Image🥉🥈🥇 Medallion Architecture 정리한 줄 정의👉 데이터를 품질 단계별로 나눠 관리하는 아키텍처 패턴(원본 → 정제 → 분석용)왜 나왔냐면?Data Lake에 데이터만 쌓아두니뭐가 믿을 수 있는 데이터인지 모르겠고다시 처리하기도 힘들고팀 커질수록 혼란그래서 Databricks 쪽에서👉 “단계별로 책임을 나누자” 하고 정리한 개념전체 구조 (핵심)🥉 Bronze → 🥈 Silver → 🥇 Gold원본 정제 분석/비즈니스🥉 Bronze (Raw / 원본)역할데이터 있는 그대로 보관재처리(backfill) 대비특징CSV / JSON / 로그중복, null 있어도 OKappend-only한 줄 요약👉 “손대지 않은 원본 금고”🥈 S..

    DW / DM 구축 체크리스트

    0️⃣ 목적 정의 (제일 중요)[ ] 이 DW/DM으로 누가 무엇을 보나?분석가 / PM / 임원?[ ] 주 용도는?대시보드 / 리포트 / ML 피처?[ ] 질문 형태가 뭐냐?“일별 매출”, “유저 리텐션”, “지역별 추이”👉 이게 없으면 구조가 흔들림1️⃣ 데이터 소스 정리 (Ingest)[ ] 데이터 출처 목록화CSV / API / DB / 로그[ ] 주기배치 / 준실시간[ ] 스키마 변동 가능성 있음?👉 소스 단위로 책임 분리2️⃣ Raw (Bronze) 체크리스트원본 보존 영역[ ] 원본 그대로 저장했는가?[ ] 재처리(backfill) 가능?[ ] append-only 구조?[ ] 포맷CSV → Parquet 변환?[ ] 저장 위치 명확?raw/yyyymmdd/👉 Raw에서는 비즈니스 로직..