๋ฐ˜์‘ํ˜•
kkh1902
Steadily
kkh1902
์ „์ฒด ๋ฐฉ๋ฌธ์ž
์˜ค๋Š˜
์–ด์ œ
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (178) N
    • DataEngineering (20) N
      • Spark (7) N
      • Airflow (2) N
      • DBT (2) N
      • Architecture (3) N
      • Data Quality (5) N
      • Infra (1) N
    • ๐Ÿค– AI (12) N
      • ML (7)
      • DL (0)
      • LLM (5) N
    • ๐Ÿ“š Study (74)
      • DataEngineering (0)
      • Spring (9)
      • Java (2)
      • Html, css (10)
      • JS, JQuery (29)
      • DB (5)
      • DevOps (13)
      • roadmap (2)
      • Architecture (1)
      • Flutter (2)
    • ๐Ÿ’ป Computer Science (28)
      • Datastructure (0)
      • Algorithm (2)
      • Design pattern (0)
      • Network (1)
      • DB (13)
      • Operating System (0)
      • Software Engineering (4)
      • CS interview (5)
      • topcit (3)
    • โš’๏ธ Etc (6)
      • Error (3)
      • Trouble_Shooting (2)
      • Dev_environment (1)
    • ๐Ÿ“ฐ News (24)
      • daily (7)
      • think (17)
    • ๐Ÿ“˜ Hobby (13)
      • English (13)

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ๐Ÿ“‹ ์ด๋ ฅ์„œ
  • โšก๏ธ ๊นƒํ—ˆ๋ธŒ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

๊ณต์ง€์‚ฌํ•ญ

์ธ๊ธฐ ๊ธ€

ํƒœ๊ทธ

  • db
  • think #bootstrap์„ ์จ์•ผํ•˜๋Š” ์ด์œ 
  • SpringBootTest
  • sourcetreee
  • junit5
  • React JS # 2 The Basic of React
  • React JS #์ž์Šต์„œ
  • Linear Regression
  • ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ #project๋งŒ๋“ค๋•Œ ์ค‘์š”
  • Qr_payment project # CSS ํ•ด์„ # Basic ๋งจ์œ„ ํ•ด์„
  • Flutter
  • ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ # chapter1
  • React JS # ์ž์Šต์„œ # Component์™€ Props
  • testcode
  • Wonder # word
  • gitaction
  • git
  • React๋ฅผ ๋ฐฐ์›Œ์•ผํ•˜๋Š” ์ด์œ 
  • git stash
  • React # JSX

์ตœ๊ทผ ๋Œ“๊ธ€

์ตœ๊ทผ ๊ธ€

ํ‹ฐ์Šคํ† ๋ฆฌ

250x250
hELLO ยท Designed By ์ •์ƒ์šฐ.
๊ธ€์“ฐ๊ธฐ / ๊ด€๋ฆฌ์ž
kkh1902

Steadily

DataEngineering/Data Quality

DQ Tools

2026. 2. 1. 21:27
728x90
๋ฐ˜์‘ํ˜•

 

๐Ÿ“Œ ๋ชฉ์ฐจ

  1. DQ ํˆด ํ•œ๋ˆˆ์— ๋ณด๋Š” ์ง€๋„
  2. ์˜คํ”ˆ์†Œ์Šค DQ ํˆด
  3. ํด๋ผ์šฐ๋“œ / ์ƒ์šฉ DQ ํˆด
  4. ํŒŒ์ดํ”„๋ผ์ธ ๋‚ด์žฅํ˜• DQ
  5. ์–ด๋–ค ํˆด์„ ์„ ํƒํ•ด์•ผ ํ•˜๋‚˜? (์ถ”์ฒœ ์กฐํ•ฉ)

1๏ธโƒฃ DQ ํˆด ํ•œ๋ˆˆ์— ๋ณด๋Š” ์ง€๋„

๊ตฌ๋ถ„๋ชฉ์ 

์˜คํ”ˆ์†Œ์Šค ๋ฃฐ ๊ธฐ๋ฐ˜ DQ, ํ…Œ์ŠคํŠธ ์ž๋™ํ™”
ํด๋ผ์šฐ๋“œ ๊ด€๋ฆฌํ˜• DQ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋‹ˆํ„ฐ๋ง
ํŒŒ์ดํ”„๋ผ์ธ ETL ์ค‘ ์‹ค์‹œ๊ฐ„ ์ฐจ๋‹จ
๊ด€์ธก(Observability) ์ด์ƒ ํƒ์ง€·๋Œ€์‹œ๋ณด๋“œ


2๏ธโƒฃ ์˜คํ”ˆ์†Œ์Šค DQ ํˆด (DE๊ฐ€ ๊ฐ€์žฅ ๋งŽ์ด ์”€)

๐Ÿ”น Great Expectations

๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ DQ ํˆด

  • SQL / Spark / Pandas ์ง€์›
  • row count, null, range, uniqueness
  • Airflow ์—ฐ๋™ ์‰ฌ์›€
  • ํ…Œ์ŠคํŠธ ์ฝ”๋“œ์ฒ˜๋Ÿผ DQ ์ž‘์„ฑ

๐Ÿ“Œ ์–ธ์ œ ์“ฐ๋‚˜?

๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค + ๋ฐฐ์น˜ ํŒŒ์ดํ”„๋ผ์ธ


๐Ÿ”น Soda

๋ชจ๋‹ˆํ„ฐ๋ง ์ค‘์‹ฌ DQ

  • YAML ๊ธฐ๋ฐ˜ ๋ฃฐ ์ •์˜
  • ์ด์ƒ ํƒ์ง€(anomaly detection)
  • Slack ์•Œ๋ฆผ ๊ฐ•๋ ฅ

๐Ÿ“Œ ์–ธ์ œ ์“ฐ๋‚˜?

์ง€์†์  ๋ชจ๋‹ˆํ„ฐ๋ง, ์šด์˜ ํ™˜๊ฒฝ


๐Ÿ”น Apache Deequ

๋Œ€์šฉ๋Ÿ‰ Spark DQ ์ตœ๊ฐ•์ž

  • Amazon ๊ฐœ๋ฐœ
  • ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ DQ
  • ์ˆ˜์‹ญ์–ต row ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

๐Ÿ“Œ ์–ธ์ œ ์“ฐ๋‚˜?

Spark / EMR / Glue ํ™˜๊ฒฝ


3๏ธโƒฃ ํด๋ผ์šฐ๋“œ / ์ƒ์šฉ DQ ํˆด

๐Ÿ”น Monte Carlo

“๋ฐ์ดํ„ฐ ์ด์ƒ ์•Œ๋ฆผ ๋ํŒ์™•”

  • row count, freshness, schema ๋ณ€๊ฒฝ ์ž๋™ ๊ฐ์ง€
  • SQL ์—†์–ด๋„ ์ด์ƒ ํƒ์ง€
  • ๊ฐ€๊ฒฉ ๋น„์Œˆ ๐Ÿ’ธ

๐Ÿ“Œ ์–ธ์ œ ์“ฐ๋‚˜?

๋Œ€๊ธฐ์—… / ์ „์‚ฌ ๋ฐ์ดํ„ฐ ๋ชจ๋‹ˆํ„ฐ๋ง


๐Ÿ”น BigQuery

  • INFORMATION_SCHEMA ๊ธฐ๋ฐ˜ DQ
  • row count / freshness ์ฒดํฌ
  • Google Cloud ํ™˜๊ฒฝ์— ์ตœ์ 

๐Ÿ”น AWS Glue Data Quality

  • Glue ETL์— ๋‚ด์žฅ
  • ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ
  • S3 + Glue ์‚ฌ์šฉ์ž์—๊ฒŒ ํŽธํ•จ


4๏ธโƒฃ ํŒŒ์ดํ”„๋ผ์ธ ๋‚ด์žฅํ˜• DQ

๐Ÿ”น Apache Airflow

  • DQ๋ฅผ Task๋กœ ๋ถ„๋ฆฌ
  • ์‹คํŒจ ์‹œ downstream ์ฐจ๋‹จ
  • Slack / Email ์•Œ๋ฆผ

๐Ÿ”น dbt

๋ถ„์„ ์ชฝ DQ ํ‘œ์ค€

  • not_null / unique / accepted_values
  • ํ…Œ์ŠคํŠธ = DQ
  • ๋ฌธ์„œํ™” ์ž๋™

๐Ÿ“Œ ๋‹จ์ :

๋Œ€์šฉ๋Ÿ‰·์‹ค์‹œ๊ฐ„ DQ๋Š” ํ•œ๊ณ„


5๏ธโƒฃ ์–ด๋–ค ํˆด์„ ์„ ํƒํ•ด์•ผ ํ•˜๋‚˜? โญ

โœ… ๊ฐ€์žฅ ํ”ํ•œ ์‹ค๋ฌด ์กฐํ•ฉ

๐ŸŸข ์Šคํƒ€ํŠธ์—… / ์†Œ๊ทœ๋ชจ

  • dbt + SQL
  • Great Expectations

๐ŸŸก ์ค‘๊ฒฌ / ์„ฑ์žฅ ๋‹จ๊ณ„

  • Airflow + Great Expectations
  • Soda (๋ชจ๋‹ˆํ„ฐ๋ง)

๐Ÿ”ต ๋Œ€๊ทœ๋ชจ / ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ

  • Spark + Deequ
  • Monte Carlo

๐ŸŽฏ ํ•ต์‹ฌ ์š”์•ฝ

DQ ํˆด์€ “๊ฒ€์ฆ” + “๊ฐ์ง€” + “์ฐจ๋‹จ”์„ ์–ด๋””๊นŒ์ง€ ํ•  ๊ฑฐ๋ƒ์˜ ์„ ํƒ

  • ๋ฃฐ ๊ธฐ๋ฐ˜ → Great Expectations
  • ๋ชจ๋‹ˆํ„ฐ๋ง → Soda / Monte Carlo
  • ๋Œ€์šฉ๋Ÿ‰ → Deequ
  • ๋ถ„์„ ์ค‘์‹ฌ → dbt

 

728x90
๋ฐ˜์‘ํ˜•

'DataEngineering > Data Quality' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

GE ์‹ค์ œ ์ฝ”๋“œ ์˜ˆ์‹œ  (0) 2026.02.01
GE(Great Expectations) ์ด๋ž€?  (0) 2026.02.01
Data Quality ๊ฒ€์ฆ์€ ์–ด๋–ป๊ฒŒ ํ•˜๋Š”๊ฐ€?  (0) 2026.02.01
DQ(Data Quality)๋ž€?  (0) 2026.02.01
    'DataEngineering/Data Quality' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
    • GE ์‹ค์ œ ์ฝ”๋“œ ์˜ˆ์‹œ
    • GE(Great Expectations) ์ด๋ž€?
    • Data Quality ๊ฒ€์ฆ์€ ์–ด๋–ป๊ฒŒ ํ•˜๋Š”๊ฐ€?
    • DQ(Data Quality)๋ž€?
    kkh1902
    kkh1902
    1Day 1 Commit ๋ชฉํ‘œ ๊ณต๋ถ€ํ•œ๊ฒƒ๋“ค ๋งค์ผ ๊ธฐ๋กํ•˜๊ธฐ

    ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”