ADsP

ADsP 2๊ณผ๋ชฉ 1-2 ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก  | ์ •๋ฆฌ๐Ÿ“

studyrooom 2024. 9. 4. 17:45
SMALL

๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก : ์ ˆ์ฐจ, ๋ฐฉ๋ฒ•, ๋„๊ตฌ์™€ ๊ธฐ๋ฒ•, ํ…œํ”Œ๋ฆฟ๊ณผ ์‚ฐ์ถœ๋ฌผ๋กœ ๊ตฌ์„ฑ๋จ

 

๋ถ„์„ ๋งˆ์Šคํ„ฐํ”Œ๋žœ์˜ ์„ธ๋ถ€ ์ดํ–‰๊ณ„ํš ์ˆ˜๋ฆฝ ์‹œ ๊ณ ๋ ค์‚ฌํ•ญ

  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ฒด๊ณ„(๋ถ„์„ ๋ฐฉ๋ฒ•๋ก )์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์„ธ๋ถ€์ ์ธ ์ผ์ • ๊ณ„ํš์„ ์ˆ˜๋ฆฝํ•ด์•ผํ•จ

 

๋ถ„์„ ๋งˆ์Šคํ„ฐํ”Œ๋žœ ์ˆ˜๋ฆฝ ์‹œ ์ ์šฉ ๋ฒ”์œ„ ๋ฐ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊ณ ๋ ค ์š”์†Œ

  • ์—…๋ฌด ๋‚ด์žฌํ™” ์ ์šฉ ์ˆ˜์ค€
  • ๋ถ„์„๋ฐ์ดํ„ฐ ์ ์šฉ ์ˆ˜์ค€
  • ๊ธฐ์ˆ  ์ ์šฉ ์ˆ˜์ค€

 

๊ธฐ์—…์—์„œ ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•œ ์˜์‚ฌ๊ฒฐ์ •์„ ๋ฐฉํ•ดํ•˜๋Š” ์š”์†Œ

  • ํ”„๋ ˆ์ด๋ฐ ํšจ๊ณผ: ๋™์ผํ•œ ์‚ฌ๊ฑด์ด๋‚˜ ์ƒํ™ฉ์„ ๋‘๊ณ ๋„ ๊ฐœ์ธ์˜ ํŒ๋‹จ์ด๋‚˜ ์„ ํƒ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋Š” ํ˜„์ƒ
    ๋ฌผ์ด ๋ฐ˜๋ฐ–์— ์—†๊ตฐ VS ๋ฌผ์ด ๋ฐ˜์ด๋‚˜ ์žˆ๊ตฐ
  • ๊ณ ์ •๊ด€๋…
  • ํŽธํ–ฅ๋œ ์ƒ๊ฐ

 

๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์ด ์ ์šฉ๋˜๋Š” ์—…๋ฌด ํŠน์„ฑ์— ๋”ฐ๋ฅธ ๋ชจ๋ธ

  • ํญํฌ์ˆ˜(Waterfull) ๋ชจ๋ธ
    ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ์ˆœ์ฐจ์ ์œผ๋กœ ์ง„ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•
    ํ˜„์žฌ ๋‹จ๊ณ„๊ฐ€ ์™„๋ฃŒ๋˜์–ด์•ผ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋  ์ˆ˜ ์žˆ๋Š” ํ•˜ํ–ฅ์‹ ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰
    ๋ฌธ์ œ๋‚˜ ๊ฐœ์„  ์‚ฌํ•ญ์ด ๋ฐœ๊ฒฌ๋  ๊ฒฝ์šฐ ํ”ผ๋“œ๋ฐฑ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ
  • ํ”„๋กœํ† ํƒ€์ž…((Prototype) ๋ชจ๋ธ
    ์ง„ํ™”์  ํ”„๋กœ์„ธ์Šค ๋ชจ๋ธ์˜ ํ•˜๋‚˜๋กœ ์ผ๋ถ€๋ถ„ ๋จผ์ € ๊ฐœ๋ฐœํ•˜์—ฌ ์ œ๊ณตํ•œ ํ›„ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ๊ฐœ์„ ํ•˜๋Š” ๋ชจ๋ธ
  • ๋‚˜์„ ํ˜•(Spiral) ๋ชจ๋ธ: ๋ฐ˜๋ณต์„ ํ†ตํ•ด ์ ์ง„์ ์œผ๋กœ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ์„œ, ์ฒ˜์Œ ์‹œ๋„ํ•˜๋Š” ํ”„๋กœ์ ํŠธ์— ์ ์šฉ์ด ์šฉ์ดํ•˜์ง€๋งŒ ๊ด€๋ฆฌ ์ฒด๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฐ–์ถ”์ง€ ๋ชปํ•œ ๊ฒฝ์šฐ ๋ณต์žก๋„๊ฐ€ ์ƒ์Šนํ•˜์—ฌ ํ”„๋กœ์ ํŠธ ์ง„ํ–‰์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Œ
  • ์• ์ž์ผ(Agile) ๋ชจ๋ธ

 

๋ฐฉ๋ฒ•๋ก ์˜ ๊ตฌ์„ฑ

  • ๊ณ„์ธตํ˜• ํ”„๋กœ์„ธ์Šค ๋ชจ๋ธ
    ์ผ๋ฐ˜์ ์œผ๋กœ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์€ ๊ณ„์ธตํ˜• ํ”„๋กœ์„ธ์Šค ๋ชจ๋ธ ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋จ
    ๊ณ„์ธต์  ํ”„๋กœ์„ธ์Šค ๋ชจ๋ธ์€ ์ตœ์ƒ์˜ ๊ณ„์ธต์ธ ๋ช‡ ๊ฐœ์˜ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ  ํ•˜๋‚˜์˜ ๋‹จ๊ณ„๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜๊ณ  ํ•˜๋‚˜์˜ ํƒœ์Šคํฌ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์Šคํ…์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ
    ์Šคํ…์€ WBS(Work Breakdown Structure)์˜ ์›ŒํฌํŒจํ‚ค์ง€์— ํ•ด๋‹นํ•˜๋ฉฐ,
    โ€™์ž…๋ ฅ(Input) โ€” ์ฒ˜๋ฆฌ ๋ฐ ๋„๊ตฌ(Process & Tool) โ€” ์ถœ๋ ฅ(Output)โ€™์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋‹จ์œ„ ํ”„๋กœ์„ธ์Šค์ž„

 

KDD ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก  ํ”„๋กœ์„ธ์Šค

  1. ๋ฐ์ดํ„ฐ์…‹ ์„ ํƒ(Selection)
    ๋น„์ฆˆ๋‹ˆ์Šค ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์ดํ•ด์™€ ํ”„๋กœ์ ํŠธ ๋ชฉํ‘œ ์„ค์ •์ด ํ•„์ˆ˜
    ๋ถ„์„์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ โ†’ ํƒ€๊นƒ ๋ฐ์ดํ„ฐ(target data) ์ƒ์„ฑ
  2. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Processing)
    ์žก์Œ, ์ด์ƒ์น˜, ๊ฒฐ์ธก์น˜๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ์˜๋ฏธ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋กœ ์žฌ๊ฐ€๊ณต
    ์ถ”๊ฐ€๋กœ ์š”๊ตฌ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹์ด ์žˆ๋‹ค๋ฉด ๋ฐ์ดํ„ฐ ์„ ํƒ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋‹ค์‹œ ์‹คํ–‰
  3. ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜(Transformation)
    ๋ถ„์„ ๋ชฉ์ ์— ๋งž๋Š” ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑ/์„ ํƒํ•˜๊ณ  ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œ
    ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ(training data set)์™€ ๊ฒ€์ฆ์šฉ ๋ฐ์ดํ„ฐ(test data set)๋ฅผ ๋ถ„๋ฆฌ
  4. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(Data Mining)
    ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ถ„์„ ๋ชฉ์ ์— ๋งž๋Š” ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ธฐ๋ฒ•์„ ์„ ํƒํ•˜๊ณ  ์ ์ ˆํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉ
    ํ•„์š”์— ๋”ฐ๋ผ ์ „์ฒ˜๋ฆฌ์™€ ๋ณ€ํ™˜ ํ”„๋กœ์„ธ์Šค๋„ ์ถ”๊ฐ€
  5. ํ•ด์„๊ณผ ํ‰๊ฐ€
    ๋ถ„์„ ๋ชฉ์ ๊ณผ์˜ ์ผ์น˜์„ฑ์„ ํ™•์ธํ•˜๊ณ  ํ‰๊ฐ€
    ๋ฐœ๊ฒฌํ•œ ์ง€์‹์„ ์—…๋ฌด์— ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ์•ˆ ๋งˆ๋ จ

 

CRISP-DM(Cross-Industry Standard Process for Data Mining) ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก  ํ”„๋กœ์„ธ์Šค
1996๋…„ ์œ ๋Ÿฝ ์—ฐํ•ฉ์˜ ESPRIT์—์„œ ์žˆ๋˜ ํ”„๋กœ์ ํŠธ์—์„œ ์‹œ์ž‘๋˜์–ด SPSS, NCR, Daimler, Chrysler ๋“ฑ์ด ์ฐธ์—ฌํ•จ

  • ํญํฌ์ˆ˜ ๋ชจ๋ธ์ฒ˜๋Ÿผ ์ผ๋ฐฉํ–ฅ์ด ์•„๋‹Œ, ๋‹จ๊ณ„ ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋‹จ๊ณ„๋ณ„ ์™„์„ฑ๋„๋ฅผ ๋†’์ธ ๋ชจ๋ธ
  • ๊ณ„์ธตํ˜• ํ”„๋กœ์„ธ์Šค ๋ชจ๋ธ๋กœ์จ 4๋ ˆ๋ฒจ, 6๊ฐœ์˜ ํ”„๋กœ์„ธ์Šค๋กœ ๊ตฌ์„ฑ๋จ

 

  1. ์—…๋ฌด ์ดํ•ด(Business Understanding)
    ์—…๋ฌด ๋ชฉ์  ํŒŒ์•…, ์ƒํ™ฉ ํŒŒ์•…, ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ชฉํ‘œ ์„ค์ •, ํ”„๋กœ์ ํŠธ ๊ณ„ํš ์ˆ˜๋ฆฝ
  2. ๋ฐ์ดํ„ฐ ์ดํ•ด(Data Understanding)
    ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ๋ฐ์ดํ„ฐ ๊ธฐ์ˆ  ๋ถ„์„, ๋ฐ์ดํ„ฐ ํƒ์ƒ‰, ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํ™•์ธ
  3. ๋ฐ์ดํ„ฐ ์ค€๋น„
    ๋ถ„์„์šฉ ๋ฐ์ดํ„ฐ์…‹ ์„ ํƒ, ๋ฐ์ดํ„ฐ ์ •์ œ, ๋ถ„์„์šฉ ๋ฐ์ดํ„ฐ์…‹ ํŽธ์„ฑ, ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ, ๋ฐ์ดํ„ฐ ํฌ๋งคํŒ…
  4. ๋ชจ๋ธ๋ง
    ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ• ์„ ํƒ, ๋ชจ๋ธ ํ…Œ์ŠคํŠธ ๊ณ„ํš ์„ค๊ณ„, ๋ชจ๋ธ ์ž‘์„ฑ, ๋ชจ๋ธ ํ‰๊ฐ€
    • ๋ฐ์ดํ„ฐ์…‹์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ์ค€๋น„ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐ˜๋ณต ์ˆ˜ํ–‰ํ•จ
    • ํ…Œ์ŠคํŠธ์šฉ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๋ฅผ ํ™•์ธํ•จ
  5. ํ‰๊ฐ€
    ๋ถ„์„ ๊ฒฐ๊ณผ ํ‰๊ฐ€, ๋ชจ๋ธ๋ง ๊ณผ์ • ํ‰๊ฐ€, ๋ชจ๋ธ ์ ์šฉ์„ฑ ํ‰๊ฐ€
  6. ์ „๊ฐœ
    ์ „๊ฐœ ๊ณ„ํš ์ˆ˜๋ฆฝ, ๋ชจ๋‹ˆํ„ฐ๋ง๊ณผ ์œ ์ง€๋ณด์ˆ˜ ๊ณ„ํš ์ˆ˜๋ฆฝ, ํ”„๋กœ์ ํŠธ ์ข…๋ฃŒ ๋ณด๊ณ ์„œ ์ž‘์„ฑ, ํ”„๋กœ์ ํŠธ ๋ฆฌ๋ทฐ

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก 

๋‹จ๊ณ„(Phase) โ†’ ํ…Œ์Šคํฌ(Task) โ†’ ์Šคํ…(Step)

 

[๋ถ„์„ ๊ธฐํš]
๋ถ„์„ ๋ชฉํ‘œ ์„ค์ •์ด ๊ฐ€์žฅ ์ค‘์š”ํ•จ

  • ๋น„์ฆˆ๋‹ˆ์Šค ์ดํ•ด ๋ฐ ๋ฒ”์œ„ ์„ค์ •
    ๊ด€๋ จ ๋ฐ์ดํ„ฐ ํŒŒ์•…: ๋ถ„์„์˜ ๊ธฐ๋ณธ์ด ๋˜๋Š” ๊ฐ€์šฉ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ณ ๋ ค๊ฐ€ ํ•„์š”ํ•จ
    • ํ”„๋กœ์ ํŠธ ๋ฒ”์œ„ ์ •์˜์„œ(SOW; Statement of Works): ํ”„๋กœ์ ํŠธ ๊ด€๋ฆฌ ๋ถ„์•ผ์—์„œ ์„œ๋น„์Šค๋ฅผ ํ†ตํ•ด ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•œ ํ™œ๋™, ์‚ฐ์ถœ๋ฌผ, ์ž‘์—…์‹œ๊ฐ„ ๋“ฑ์„ ํฌํ•จํ•˜๋Š” ๊ธฐ์ˆ ์„œ ๋น„์ฆˆ๋‹ˆ์Šค ์ดํ•ด ๋ฐ ๋ฒ”์œ„ ์„ค์ • ํ…Œ์Šคํฌ์˜ ์‚ฐ์ถœ๋ฌผ
  • ๋น„์ฆˆ๋‹ˆ์Šค ์ผ€์ด์Šค ํ™•๋ณด
    ๋ถ„์„์„ ํ†ตํ•ด ๊ฐ€์น˜๊ฐ€ ์ฐฝ์ถœ๋  ์ˆ˜ ์žˆ๋Š” ์ ์ ˆํ•œ ํ™œ์šฉ๋ฐฉ์•ˆ๊ณผ ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ ์œ ์ฆˆ์ผ€์ด์Šค ํƒ์ƒ‰์ด ํ•„์š”ํ•จ
  • ์ดํ–‰ ์ €ํ•ด ์š”์†Œ ๊ด€๋ฆฌ
    ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ๋ฐœ์ƒํ•˜๋Š” ์žฅ์•  ์š”์†Œ๋“ค์— ๋Œ€ํ•œ ์‚ฌ์ „ ๊ณ„ํš ์ˆ˜๋ฆฝ์ด ํ•„์š”ํ•จ
    • 4๊ฐ€์ง€๋กœ ๊ตฌ๋ถ„ํ•ด ์œ„ํ—˜ ๊ด€๋ฆฌ ๊ณ„ํš์„œ๋ฅผ ์ž‘์„ฑํ•จ
      ํšŒํ”ผ(Avoid), ์ „์ด(Transfer), ์™„ํ™”(Mitigate), ์ˆ˜์šฉ(Accept)

 

[๋ฐ์ดํ„ฐ ์ค€๋น„]

  • ํ•„์š” ๋ฐ์ดํ„ฐ ์ •์˜
  • ๋ฐ์ดํ„ฐ ์Šคํ† ์–ด ์„ค๊ณ„
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ •ํ•ฉ์„ฑ ๊ฒ€์ •

 

[ํ”ผ๋“œ๋ฐฑ]
๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ •์—์„œ ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ํ™•๋ณด๊ฐ€ ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ์ค€๋น„ ๋‹จ๊ณ„์— ํ”ผ๋“œ๋ฐฑ์„ ๋ณด๋ƒ„

 

[์‹œ์Šคํ…œ ๊ตฌํ˜„]

  • ์„ค๊ณ„ ๋ฐ ๊ตฌํ˜„: ์‹œ์Šคํ…œ ์„ค๊ณ„ ๋ฐ ๊ตฌํ˜„, ํ…Œ์ŠคํŠธ ๋ฐ ์šด์˜์ด ์ฃผ์š” ๊ณ ๋ ค์‚ฌํ•ญ
    • ์‹œ์Šคํ…œ ์„ค๊ณ„์„œ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ BI ํŒจํ‚ค์ง€๋ฅผ ํ™œ์šฉํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กญ๊ฒŒ ํ”„๋กœ๊ทธ๋žจ ์ฝ”๋”ฉ์„ ํ†ตํ•ด ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•จ
๋ฐ˜์‘ํ˜•
LIST