๋ฐ˜์‘ํ˜•
kkh1902
Steadily
kkh1902
์ „์ฒด ๋ฐฉ๋ฌธ์ž
์˜ค๋Š˜
์–ด์ œ
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (178) N
    • DataEngineering (20) N
      • Spark (7) N
      • Airflow (2) N
      • DBT (2) N
      • Architecture (3) N
      • Data Quality (5) N
      • Infra (1) N
    • ๐Ÿค– AI (12) N
      • ML (7)
      • DL (0)
      • LLM (5) N
    • ๐Ÿ“š Study (74)
      • DataEngineering (0)
      • Spring (9)
      • Java (2)
      • Html, css (10)
      • JS, JQuery (29)
      • DB (5)
      • DevOps (13)
      • roadmap (2)
      • Architecture (1)
      • Flutter (2)
    • ๐Ÿ’ป Computer Science (28)
      • Datastructure (0)
      • Algorithm (2)
      • Design pattern (0)
      • Network (1)
      • DB (13)
      • Operating System (0)
      • Software Engineering (4)
      • CS interview (5)
      • topcit (3)
    • โš’๏ธ Etc (6)
      • Error (3)
      • Trouble_Shooting (2)
      • Dev_environment (1)
    • ๐Ÿ“ฐ News (24)
      • daily (7)
      • think (17)
    • ๐Ÿ“˜ Hobby (13)
      • English (13)

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ๐Ÿ“‹ ์ด๋ ฅ์„œ
  • โšก๏ธ ๊นƒํ—ˆ๋ธŒ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

๊ณต์ง€์‚ฌํ•ญ

์ธ๊ธฐ ๊ธ€

ํƒœ๊ทธ

  • SpringBootTest
  • React JS # ์ž์Šต์„œ # Component์™€ Props
  • Flutter
  • sourcetreee
  • ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ # chapter1
  • React JS # 2 The Basic of React
  • db
  • React JS #์ž์Šต์„œ
  • ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ #project๋งŒ๋“ค๋•Œ ์ค‘์š”
  • think #bootstrap์„ ์จ์•ผํ•˜๋Š” ์ด์œ 
  • React # JSX
  • git
  • React๋ฅผ ๋ฐฐ์›Œ์•ผํ•˜๋Š” ์ด์œ 
  • Qr_payment project # CSS ํ•ด์„ # Basic ๋งจ์œ„ ํ•ด์„
  • git stash
  • junit5
  • Wonder # word
  • gitaction
  • Linear Regression
  • testcode

์ตœ๊ทผ ๋Œ“๊ธ€

์ตœ๊ทผ ๊ธ€

ํ‹ฐ์Šคํ† ๋ฆฌ

250x250
hELLO ยท Designed By ์ •์ƒ์šฐ.
๊ธ€์“ฐ๊ธฐ / ๊ด€๋ฆฌ์ž
kkh1902

Steadily

DataEngineering/Data Quality

DQ(Data Quality)๋ž€?

2026. 2. 1. 21:22
728x90
๋ฐ˜์‘ํ˜•

 

๐Ÿ“Œ ๋ชฉ์ฐจ

  1. DE์—์„œ DQ๋ž€ ๋ฌด์—‡์ธ๊ฐ€
  2. DE์—์„œ ๊ด€๋ฆฌํ•˜๋Š” DQ ํ•ญ๋ชฉ ์ „์ฒด ๋งต
  3. ์ˆ˜์ง‘ → ์ฒ˜๋ฆฌ → ์ €์žฅ ๋‹จ๊ณ„๋ณ„ DQ ์ฒดํฌ ํ•ญ๋ชฉ
  4. ์‹ค๋ฌด์—์„œ ์ž์ฃผ ์“ฐ๋Š” DQ ์ฒดํฌ ์˜ˆ์‹œ

1๏ธโƒฃ DE์—์„œ DQ๋ž€?

**DE์—์„œ์˜ DQ(Data Quality)**๋Š”
๐Ÿ‘‰ *“๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์ด ์•ˆ์ •์ ์œผ๋กœ, ์‹ ๋ขฐ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š”๊ฐ€”*๋ฅผ ์˜๋ฏธํ•ด์š”.

๋ถ„์„๊ฐ€/ML์ด ์“ฐ๊ธฐ ์ „์—
์—”์ง€๋‹ˆ์–ด ๋‹จ๊ณ„์—์„œ ๊ฑธ๋Ÿฌ์•ผ ํ•  ํ’ˆ์งˆ ๊ธฐ์ค€์ด ๋ฐ”๋กœ DE์˜ DQ์ž…๋‹ˆ๋‹ค.


2๏ธโƒฃ DE์—์„œ ๊ด€๋ฆฌํ•˜๋Š” DQ ํ•ญ๋ชฉ ์ „์ฒด ๋งต

DE์—์„œ๋Š” DQ๋ฅผ ๊ธฐ์ˆ ์  ๊ด€์  + ๋ฐ์ดํ„ฐ ๊ด€์  ๋‘˜ ๋‹ค ๋ด…๋‹ˆ๋‹ค.

๐Ÿ”น ํ•ต์‹ฌ DQ ๋ถ„๋ฅ˜ (DE ๊ธฐ์ค€)

๊ตฌ๋ถ„DQ ํ•ญ๋ชฉ์„ค๋ช…

๋ฐ์ดํ„ฐ ๊ฐ’ ์ •ํ™•์„ฑ (Accuracy) ๊ฐ’์ด ๋น„์ •์ƒ์ ์ด์ง€ ์•Š์€๊ฐ€
๋ฐ์ดํ„ฐ ๊ฐ’ ์™„์ „์„ฑ (Completeness) NULL / ๋ˆ„๋ฝ ๋ฐ์ดํ„ฐ
๋ฐ์ดํ„ฐ ๊ฐ’ ์œ ํšจ์„ฑ (Validity) ํƒ€์ž…·ํฌ๋งท·๋ฒ”์œ„
๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ์Šคํ‚ค๋งˆ ์ผ๊ด€์„ฑ ์ปฌ๋Ÿผ ๋ณ€๊ฒฝ, ํƒ€์ž… ๋ณ€๊ฒฝ
๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ์œ ์ผ์„ฑ (Uniqueness) PK ์ค‘๋ณต
๋ฐ์ดํ„ฐ ํ๋ฆ„ ์ ์‹œ์„ฑ (Timeliness) ๋ฐ์ดํ„ฐ ์ง€์—ฐ
๋ฐ์ดํ„ฐ ํ๋ฆ„ ์ •ํ•ฉ์„ฑ (Consistency) ์‹œ์Šคํ…œ ๊ฐ„ ๊ฐ’ ๋ถˆ์ผ์น˜
ํŒŒ์ดํ”„๋ผ์ธ ์žฌํ˜„์„ฑ ์žฌ์ฒ˜๋ฆฌ ์‹œ ๊ฒฐ๊ณผ ๋™์ผ
ํŒŒ์ดํ”„๋ผ์ธ ์•ˆ์ •์„ฑ ์‹คํŒจ, ๋ˆ„๋ฝ ์—†๋Š”๊ฐ€

3๏ธโƒฃ ๋‹จ๊ณ„๋ณ„ DE DQ ์ฒดํฌ ํ•ญ๋ชฉ

๐Ÿ“ฅ 1. ์ˆ˜์ง‘(Ingestion) ๋‹จ๊ณ„ DQ

“๋ฐ์ดํ„ฐ๊ฐ€ ์ œ๋Œ€๋กœ ๋“ค์–ด์™”๋Š”๊ฐ€?”

  • ๊ฑด์ˆ˜ ์ฒดํฌ (row count)
  • ์ˆ˜์ง‘ ์‹คํŒจ ์—ฌ๋ถ€
  • ์ค‘๋ณต ์ˆ˜์ง‘ ์—ฌ๋ถ€
  • ์†Œ์Šค๋ณ„ ์ง€์—ฐ ์‹œ๊ฐ„
  • ํŒŒ์ผ/๋ฐฐ์น˜ ๋ˆ„๋ฝ

๐Ÿ“Œ ์˜ˆ:

์–ด์ œ 10๋งŒ ๊ฑด → ์˜ค๋Š˜ 2์ฒœ ๊ฑด โŒ

โš™๏ธ 2. ์ฒ˜๋ฆฌ(Transformation) ๋‹จ๊ณ„ DQ

“๊ฐ€๊ณตํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ง๊ฐ€์ง€์ง€ ์•Š์•˜๋Š”๊ฐ€?”

  • NULL ์ฆ๊ฐ€ ์—ฌ๋ถ€
  • ๊ฐ’ ๋ฒ”์œ„ ์ด์ƒ์น˜
  • ์กฐ์ธ ํ›„ ๋ฐ์ดํ„ฐ ๊ฐ์†Œ/ํญ์ฆ
  • ๋น„์ฆˆ๋‹ˆ์Šค ๋ฃฐ ์œ„๋ฐ˜
  • ํƒ€์ž… ์บ์ŠคํŒ… ์˜ค๋ฅ˜

๐Ÿ“Œ ์˜ˆ:

๊ธˆ์•ก < 0
๋‚˜์ด > 120

๐Ÿ—„๏ธ 3. ์ €์žฅ(Storage / Serving) ๋‹จ๊ณ„ DQ

“์‚ฌ์šฉ์ž๊ฐ€ ๋ฏฟ๊ณ  ์“ธ ์ˆ˜ ์žˆ๋Š” ์ƒํƒœ์ธ๊ฐ€?”

  • PK ์ค‘๋ณต
  • ์Šคํ‚ค๋งˆ ๋ณ€๊ฒฝ ๊ฐ์ง€
  • ํŒŒํ‹ฐ์…˜ ๋ˆ„๋ฝ
  • ์ตœ์‹  ๋ฐ์ดํ„ฐ ์กด์žฌ ์—ฌ๋ถ€
  • ์กฐํšŒ ์„ฑ๋Šฅ ์ €ํ•˜

4๏ธโƒฃ ์‹ค๋ฌด์—์„œ ์ž์ฃผ ์“ฐ๋Š” DQ ์ฒดํฌ ์˜ˆ์‹œ

โœ” ๊ฐ€์žฅ ํ”ํ•œ DQ ์ฒดํฌ Top 10 (DE ์‹ค๋ฌด)

  1. row count ์ „์ผ ๋Œ€๋น„ ±X% ์ดˆ๊ณผ
  2. PK ์ค‘๋ณต ์กด์žฌ ์—ฌ๋ถ€
  3. NOT NULL ์ปฌ๋Ÿผ NULL ๋ฐœ์ƒ
  4. ๋‚ ์งœ ํฌ๋งท ์˜ค๋ฅ˜
  5. ๊ฐ’ ๋ฒ”์œ„ ์ดˆ๊ณผ (age, price ๋“ฑ)
  6. ์Šคํ‚ค๋งˆ ๋ณ€๊ฒฝ ๊ฐ์ง€
  7. ํŒŒํ‹ฐ์…˜ ๋ˆ„๋ฝ
  8. ๋ฐ์ดํ„ฐ ์ง€์—ฐ SLA ์ดˆ๊ณผ
  9. ์กฐ์ธ ํ›„ ๋ฐ์ดํ„ฐ ๊ธ‰๊ฐ
  10. ์žฌ์ฒ˜๋ฆฌ ๊ฒฐ๊ณผ ๋ถˆ์ผ์น˜

๐Ÿ” DE ๊ด€์  ํ•ต์‹ฌ ์š”์•ฝ

DE์—์„œ DQ๋Š” “๋ถ„์„ ์ด์ „์— ๋ฐ์ดํ„ฐ ์‚ฌ๊ณ ๋ฅผ ๋ง‰๋Š” ๋ฐฉ์–ด์„ ”์ด๋‹ค

  • ๋ถ„์„ DQ โŒ → ๊ฒฐ๊ณผ ์‹ ๋ขฐ๋„ ๋ฌธ์ œ
  • DE DQ โŒ → ๋ฐ์ดํ„ฐ ์ž์ฒด๊ฐ€ ๋ง๊ฐ€์ง

 

728x90
๋ฐ˜์‘ํ˜•

'DataEngineering > Data Quality' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

GE ์‹ค์ œ ์ฝ”๋“œ ์˜ˆ์‹œ  (0) 2026.02.01
GE(Great Expectations) ์ด๋ž€?  (0) 2026.02.01
DQ Tools  (0) 2026.02.01
Data Quality ๊ฒ€์ฆ์€ ์–ด๋–ป๊ฒŒ ํ•˜๋Š”๊ฐ€?  (0) 2026.02.01
    'DataEngineering/Data Quality' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
    • GE ์‹ค์ œ ์ฝ”๋“œ ์˜ˆ์‹œ
    • GE(Great Expectations) ์ด๋ž€?
    • DQ Tools
    • Data Quality ๊ฒ€์ฆ์€ ์–ด๋–ป๊ฒŒ ํ•˜๋Š”๊ฐ€?
    kkh1902
    kkh1902
    1Day 1 Commit ๋ชฉํ‘œ ๊ณต๋ถ€ํ•œ๊ฒƒ๋“ค ๋งค์ผ ๊ธฐ๋กํ•˜๊ธฐ

    ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”