DataEngineering/Data Quality
GE 실제 코드 예시
📌 목차GE 코드 전체 흐름기본 세팅 (가장 단순한 방식)실무에서 가장 많이 쓰는 Expectation 예시Validation 실행 & 실패 처리DE 실무 팁1️⃣ GE 코드 전체 흐름 (이거 기억하면 끝)데이터 로드 ↓Expectation 정의 ↓Validation 실행 ↓결과 확인 (PASS / FAIL)GE는 테스트 코드 쓰듯이 DQ를 작성한다고 생각하면 돼.2️⃣ 기본 세팅 (Pandas 기준, 제일 쉬움)DB / Spark도 거의 동일한 구조라개념 익히기엔 Pandas가 최고pip install great-expectationsimport great_expectations as geimport pandas as pd# 데이터 로드df = pd.read_csv("users.csv")#..
GE(Great Expectations) 이란?
📌 목차GE(Great Expectations)란?GE를 왜 쓰나? (DE 관점)GE 핵심 개념GE 기본 사용 흐름DE 실무에서 GE 쓰는 패턴언제 GE가 잘 맞고, 안 맞나1️⃣ GE(Great Expectations)란?GE = Great Expectations는👉 데이터 품질(Data Quality)을 코드처럼 정의하고 자동 검증하는 오픈소스 툴이야.한 줄 요약하면,“데이터에 대한 기대 조건(Expectation)을 정의하고실제 데이터가 그 기대를 만족하는지 자동으로 검사”📌 예:row 수가 너무 줄지 않았는가?NULL 이 있으면 안 되는 컬럼에 NULL 이 있는가?값이 허용 범위를 벗어나지 않았는가?이걸 사람이 눈으로 안 보고, 자동으로 검사해줌.2️⃣ GE를 왜 쓰나? (DE 관점)❌ GE..
DQ Tools
📌 목차DQ 툴 한눈에 보는 지도오픈소스 DQ 툴클라우드 / 상용 DQ 툴파이프라인 내장형 DQ어떤 툴을 선택해야 하나? (추천 조합)1️⃣ DQ 툴 한눈에 보는 지도구분목적오픈소스룰 기반 DQ, 테스트 자동화클라우드관리형 DQ, 대규모 모니터링파이프라인ETL 중 실시간 차단관측(Observability)이상 탐지·대시보드2️⃣ 오픈소스 DQ 툴 (DE가 가장 많이 씀)🔹 Great Expectations가장 대표적인 DQ 툴SQL / Spark / Pandas 지원row count, null, range, uniquenessAirflow 연동 쉬움테스트 코드처럼 DQ 작성📌 언제 쓰나?데이터 웨어하우스 + 배치 파이프라인🔹 Soda모니터링 중심 DQYAML 기반 룰 정의이상 탐지(anomaly ..
Data Quality 검증은 어떻게 하는가?
📌 목차DQ를 “한다”는 것의 의미DE에서 DQ 전체 흐름단계별 DQ 수행 방법 (실무)DQ 룰 예시 모음처음 DQ 시작할 때 추천 방식1️⃣ DQ를 “한다”는 것의 의미DE에서 DQ를 한다는 건 단순히 체크 한 번이 아니라,데이터 파이프라인 안에자동으로 품질 검사를 넣고이상 시 감지·알림·차단까지 하는 것을 말해.✔ 자동화✔ 반복 가능✔ 실패 시 액션 존재이 3개가 없으면 “DQ를 한다”라고 보기 힘들어.2️⃣ DE에서 DQ 전체 흐름🧭 큰 그림데이터 수집 ↓[1차 DQ] 양 / 누락 체크 ↓데이터 가공 ↓[2차 DQ] 값 / 룰 검증 ↓데이터 저장 ↓[3차 DQ] 스키마 / PK / 최신성 ↓알림 · 차단 · 로그3️⃣ 단계별 DQ 수행 방법 (실무)📥 1. 수집 단계 DQ..
DQ(Data Quality)란?
📌 목차DE에서 DQ란 무엇인가DE에서 관리하는 DQ 항목 전체 맵수집 → 처리 → 저장 단계별 DQ 체크 항목실무에서 자주 쓰는 DQ 체크 예시1️⃣ DE에서 DQ란?**DE에서의 DQ(Data Quality)**는👉 *“데이터 파이프라인이 안정적으로, 신뢰 가능한 데이터를 만들어내는가”*를 의미해요.분석가/ML이 쓰기 전에엔지니어 단계에서 걸러야 할 품질 기준이 바로 DE의 DQ입니다.2️⃣ DE에서 관리하는 DQ 항목 전체 맵DE에서는 DQ를 기술적 관점 + 데이터 관점 둘 다 봅니다.🔹 핵심 DQ 분류 (DE 기준)구분DQ 항목설명데이터 값정확성 (Accuracy)값이 비정상적이지 않은가데이터 값완전성 (Completeness)NULL / 누락 데이터데이터 값유효성 (Validity)타입·포..