ADsP

ADsP 3๊ณผ๋ชฉ 5-1 ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์˜ ๊ฐœ์š” | ์ •๋ฆฌ๐Ÿ“

studyrooom 2024. 9. 25. 17:31
SMALL

์ œ๊ฐ€ ๋ณธ 40ํšŒ ์‹œํ—˜ ๋•Œ๋Š” ๊ณ„์‚ฐ ๋ฌธ์ œ๊ฐ€ ์ ์—ˆ์–ด์š”
๊ทธ๋ž˜๋„ ๊ณ„์‚ฐ ๋ฌธ์ œ๋Š” ํ‹€๋ฆฌ๋ฉด ์•„๊นŒ์šฐ๋‹ˆ๊นŒ ํ™•์‹คํžˆ ๊ณต๋ถ€ํ•˜๊ณ  ๊ฐ€๋Š” ๊ฒŒ ์ข‹์„ ๊ฒƒ ๊ฐ™์•„์š”

 

5. ์ •ํ˜• ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹

1. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์˜ ๊ฐœ์š”

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(Data Mining)
๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ฐ€์น˜ ์žˆ๋Š” ๊ด€๊ณ„๋ฅผ ์ฐพ์•„๋‚ด ์˜์‚ฌ๊ฒฐ์ •์— ํ™œ์šฉํ•˜๋Š” ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•๋ก 

  • ๋ฏธ๋ž˜์— ๋Œ€ํ•œ ์˜ˆ์ธก, ์ˆจ๊ฒจ์ง„ ๊ด€๊ณ„์„ฑ ์‹๋ณ„ ๋“ฑ
  • ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์˜๋ฏธ ์žˆ๋Š” ์ธ์‚ฌ์ดํŠธ, ์ง€์‹์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ
  • ์ „ํ†ต์ ์ธ ํ†ต๊ณ„๋ถ„์„์— ๋น„ํ•ด ์ปดํ“จํ„ฐ ์˜์กด๋„๊ฐ€ ๋†’์Œ
  • ์ธ๊ณต์ง€๋Šฅ์ด ๋ฐœ๋‹ฌํ•จ์— ๋”ฐ๋ผ ๋จธ์‹ ๋Ÿฌ๋‹์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ”ํƒ•์ž„
  • ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด, KNN, SVM, Bagging, etc

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ์˜ˆ์‹œ

  • ๋งˆ์ผ€ํŒ…: ๊ณ ๊ฐ์ด ์‚ด ๋ฒ•ํ•œ ์ œํ’ˆ์„ ์ง์ ‘ ๋ฉ”์ผ๋ง
  • ์‚ฌ๊ธฐ ๊ฐ์ง€: ์‹ ์šฉ ์นด๋“œ ๊ฑฐ๋ž˜ ๋‚ด์—ญ์—์„œ ์‚ฌ๊ธฐ์ผ ๋ฒ•ํ•œ ๊ฑฐ๋ž˜ ๊ฐ์ง€
  • ๊ณ ๊ฐ ์ดํƒˆ ๊ฐ์ง€: ๊ฒฝ์Ÿ์‚ฌ๋กœ ์ดํƒˆํ•  ๋ฒ•ํ•œ ๊ณ ๊ฐ ์‚ฌ์ „ ํฌ์ฐฉ
  • ๋ณ‘์›: ๋ฐœ๋ณ‘ ์˜ˆ์ธก
  • Shelf Management: ๊ฐ™์ด ์‚ด๋ฒ•ํ•œ ๋ฌผ๊ฑด์„ ๊ฐ™์ด ์ง„์—ด

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ฅธ ๋ถ„๋ฅ˜

  • ์ง€๋„ํ•™์Šต
  • ๋น„์ง€๋„ ํ•™์Šต

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ถ„์„ ๋ชฉ์ ์— ๋”ฐ๋ฅธ ๋ถ„๋ฅ˜

  • ๋ถ„๋ฅ˜(classification) ๋ถ„์„: ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋А ๊ทธ๋ฃน์— ์†ํ•˜๋Š”์ง€ ํŒ๋ณ„ (๋ฒ”์ฃผํ˜•)
    ๋ฐ์ดํ„ฐ ์ดํ•ด๋ฅผ ๋” ์‰ฝ๊ฒŒํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํŠน์ • ๊ธฐ์ค€์œผ๋กœ ๋ถ„๋ฅ˜ ๋ฐ ๋ฒ”์ฃผํ™”ํ•˜๊ณ  ๋“ฑ๊ธ‰ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ๊ตฐ์ง‘(Clustering) ๋ถ„์„: ์œ ์‚ฌ์„ฑ์ด ๋†’์€ ๊ฐ์ฒด๋ผ๋ฆฌ ๋ฌถ๋Š” ๋ถ„์„ (์ด์งˆ์ ์ธ ๋ชจ์ง‘๋‹จ ์„ธ๋ถ„ํ™” ๊ธฐ๋Šฅ)
  • ์—ฐ๊ด€(Association) ๋ถ„์„: ์žฅ๋ฐ”๊ตฌ๋‹ˆ ๋ถ„์„

 

์ง€๋„ํ•™์Šต๊ณผ ๋น„์ง€๋„ ํ•™์Šต

์ง€๋„ํ•™์Šต   ๋น„์ง€๋„ํ•™์Šต  
ํšŒ๊ท€(์—ฐ์†ํ˜•) ์„ ํ˜•ํšŒ๊ท€๋ถ„์„
์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(ํšŒ๊ท€ํŠธ๋ฆฌ๋ชจํ˜•)
SVR(Support Vector Regressio)
์‹ ๊ฒฝ๋ง ๋ชจํ˜•
๋ฆฟ์ง€
๋ผ์˜
๊ตฐ์ง‘ K-means
SOM
DBSCAN(๋ฐ€๋„ ๊ธฐ๋ฐ˜ ๊ตฐ์ง‘)
๋ณ‘ํ•ฉ ๊ตฐ์ง‘
๊ณ„์ธต ๊ตฐ์ง‘
    ์—ฐ๊ด€ Apriori
๋ถ„๋ฅ˜(๋ฒ”์ฃผํ˜•) ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„
์‹ ๊ฒฝ๋ง ๋ชจํ˜•
์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(๋ถ„๋ฅ˜ํŠธ๋ฆฌ๋ชจํ˜•)
k-NN(k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜)
์•™์ƒ๋ธ” ๋ชจํ˜•
SVM(Support Vector Machine)
๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜
์ฐจ์› ์ถ•์†Œ PCA(์ฃผ์„ฑ๋ถ„ ๋ถ„์„)
LDA(์„ ํ˜•ํŒ๋ณ„๋ถ„์„)
SVD(ํŠน์ž‡๊ฐ’ ๋ถ„ํ•ด)
MDS(๋‹ค์ฐจ์› ์ฒ™๋„๋ฒ•)


๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜: ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ง€๋„ํ•™์Šต ๋ชจ๋ธ
ex) ์ŠคํŒธ ๋ฉ”์ผ ํ•„ํ„ฐ๋ง, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋“ฑ

 

K-Nearest Neighbor: ์ฃผ๋ณ€ K๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ค‘ ๊ฐ€์žฅ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ ๋Œ€์น˜ํ•˜๋Š” ๋ฐฉ๋ฒ•

  • ์ˆ˜์น˜ํ˜• ๋ฐ์ดํ„ฐ๋Š” ์ธ์ฝ”๋”ฉ ๋“ฑ์„ ํ†ตํ•ด ๊ฑฐ๋ฆฌ์ธก์ • ๊ฐ€๋Šฅํ•จ
  • ์ฐจ์›์˜ ํฌ๊ธฐ๊ฐ€ ํฌ๋ฉด ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ์•„์ง
  • K๊ฐ’์ด ์ž‘์„์ˆ˜๋ก ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•จ
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ๋ฏธ๋ฆฌ ๋ชจํ˜•์„ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ  ์ƒˆ๋กœ์šด ์ž๋ฃŒ์— ๋Œ€ํ•œ ์˜ˆ์ธก ๋ฐ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•  ๋•Œ ๋ชจํ˜•์„ ๊ตฌ์„ฑํ•˜๋Š” lazy learning ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•จ
  • ๊ทธ๋ฃน์„ ๋ชจ๋ฅด๋Š” ๋ฐ์ดํ„ฐ p์— ๋Œ€ํ•ด ์ด๋ฏธ ๊ทธ๋ฃน์ด ์•Œ๋ ค์ง„ ๋ฐ์ดํ„ฐ ์ค‘ p์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์ด ์žˆ๋Š” k๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๊ทธ๋ฃน์„ ์ƒ์„ฑํ•จ

DBSCAN(๋ฐ€๋„ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง)์€ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๊ฐ€ ์˜ค๋ชฉํ•˜๊ฑฐ๋‚˜ ๋‹ค๋ฅธ ์ž„์˜์˜ ๋ชจ์–‘์ผ ๋•Œ k-means ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์ข‹์Œ

 

์ง€๋„ํ•™์Šต(๊ต์‚ฌํ•™์Šต)

  • ์˜ˆ์ธก(์ถ”๋ก )์„ ์œ„ํ•œ ๋ถ„์„
  • ํ•™์Šต ๊ณผ์ •์„ ๊ฐ€์ด๋“œ ํ•ด์ฃผ๋Š” ๋ชฉํ‘œ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌ
  • ํŠน์„ฑ ์ˆ˜์น˜๋‚˜ ๋ฒ”์ฃผ๋ฅผ ์˜ˆ์ธกํ•จ

์ง€๋„ํ•™์Šต ์˜ˆ์‹œ

  • ํšŒ๊ท€๋ชจํ˜•
    ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ชจํ˜•์„ ํ†ตํ•ด, ํŠน์ • ์ด๋ ฅ(์ •๋ณด)์„ ๊ฐ€์ง„ ๊ณ ๊ฐ์ด ํŠน์ • ๋ฌผ๊ฑด์„ ๊ตฌ๋งคํ• ์ง€ ์˜ˆ์ธก
  • ์ผ๋ฐ˜ํ™” ์„ ํ˜• ๋ชจํ˜•
  • ์ธ๊ณต์‹ ๊ฒฝ๋ง
  • ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด
  • ๋ฐฐ๊น…, ๋ถ€์ŠคํŒ…, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ
  • ์‚ฌ๋ก€ ๊ธฐ๋ฐ˜ ์ถ”๋ก 
  • Support Vector Machines

 

๋น„์ง€๋„ ํ•™์Šต

  • ๊ธฐ์ˆ ์ (descriptive) ๋ถ„์„
  • ์ข…์† ๋ณ€์ˆ˜ ์—†์Œ
  • ๋ฐ์ดํ„ฐ ๋‚ด Valuable, Unexpected ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•จ
  • ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ๋ฌ˜์‚ฌํ•˜๊ธฐ ์œ„ํ•จ

๋น„์ง€๋„ ํ•™์Šต ์˜ˆ์‹œ

  • ์—ฐ๊ด€๊ทœ์น™ ๋ถ„์„(Association Rule, Association Analysis): ๊ณ ๊ฐ์ด ๊ฐ™์ด ์‚ด ๋ฒ•ํ•œ ๋ฌผ๊ฑด์˜ ์Œ์„ ์‹๋ณ„
  • ๊ตฐ์ง‘๋ถ„์„(K-means Clustering): ๊ตฐ์ง‘์˜ ๊ฐœ์ˆ˜๋‚˜ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๊ฐ€์ •์—†์ด ๋ฐ์ดํ„ฐ๋“ค ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ตฐ์ง‘ํ™”๋ฅผ ์œ ๋„ํ•จ
    ex) KOSPI ์ƒ์žฅ ๊ธฐ์—…์˜ ์ˆ˜์ต๋ฅ  ๊ตฐ์ง‘ํ™”๋ฅผ ํ†ตํ•ด ๋น„์Šทํ•œ ํŒจํ„ด์˜ ์ฃผ๊ฐ€ ์›€์ง์ž„์„ ๋ณด์ด๋Š” ๊ธฐ์—… ์‹๋ณ„
    • Self-Organizing Maps (SOM; ์ž๊ธฐ์กฐ์งํ™”์ง€๋„): ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šด ์ €์ฐจ์›์˜ ๋‰ด๋Ÿฐ์œผ๋กœ ์ •๋ ฌํ•ด ์ง€๋„ํ˜•ํƒœ๋กœ ํ˜•์ƒํ™” ํ•˜๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋ฐฉ๋ฒ•
    • Hierarchical Clustering
    • OLAP

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ํ”„๋กœ์„ธ์Šค

  • 1๋‹จ๊ณ„: ๋ชฉ์  ์„ค์ •
    ๋ชจ๋ธ/๋ฐ์ดํ„ฐ ์ •์˜
  • 2๋‹จ๊ณ„: ๋ฐ์ดํ„ฐ ์ค€๋น„
    ๋ฐ์ดํ„ฐ ์ •์ œ ๋ฐ ํ™•๋ณด
  • 3๋‹จ๊ณ„: ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต
    (์ง€๋„ํ•™์Šต์ด๋ผ๋ฉด) ๋ชฉํ‘œ ๋ณ€์ˆ˜(target variable) ์ •์˜
    • ๋ชจ๋ธ์— ๋งž๊ฒŒ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต
    • ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ์†Œํ”„ํŠธ์›จ์–ด์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ค€๋น„ํ•˜๋Š” ๋‹จ๊ณ„
  • 4๋‹จ๊ณ„: ๊ธฐ๋ฒ• ์ ์šฉ (๋ชจ๋ธ๋ง)
    ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง์ด ์•„๋‹ˆ๋ฏ€๋กœ ์ง€๋‚˜์น˜๊ฒŒ ํ†ต๊ณ„์  ๊ฐ€์„ค์ด๋‚˜ ์œ ์˜์„ฑ์— ์ง‘์ฐฉ X
    ์ถฉ๋ถ„ํ•œ ์‹œ๊ฐ„์ด ์žˆ๋‹ค๋ฉด ๋‹ค์–‘ํ•œ ์˜ต์…˜์„ ์‹œ๋„ํ•˜๊ณ , ์ผ์ • ์„ฑ๊ณผ๊ฐ€ ๋‚˜์˜ค๋ฉด ํ•ด์„ · ํ™œ์šฉ ๋‹จ๊ณ„๋ฅผ ์ง„ํ–‰ํ•จ
    (์„ฑ๋Šฅ์— ์ง‘์ฐฉํ•˜๋ฉด ๋ถ„์„ ๋ชจ๋ธ๋ง์˜ ์ฃผ๋ชฉ์ ์ธ ์‹ค๋ฌด ์ ์šฉ์— ๋ฐ˜ํ•˜์—ฌ ์‹œ๊ฐ„ ๋‚ญ๋น„์ด๋ฏ€๋กœ ํฐ ํŽธ์ฐจ๊ฐ€ ์—†๊ณ  ์˜ˆ์ƒ ์„ฑ๋Šฅ์„ ๋งŒ์กฑํ•˜๋ฉด ์ค‘๋‹จํ•จ)
  • 5๋‹จ๊ณ„: ๊ฒ€์ฆ
    • ์ตœ์ ์˜ ๋ชจ๋ธ ์„ ํƒ
    • ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ํ†ตํ•ด ์ถ”์ถœํ•œ ์ •๋ณด์— ๋Œ€ํ•œ ๊ฒ€์ฆ
    • ์ •์„ฑ์  ๋ถ„์„ (ํ™œ์šฉ ๋ฐฉ์•ˆ, ๊ธฐ๋Œ€ํšจ๊ณผ ๋“ฑ)

๋ฐ์ดํ„ฐ ๋ถ„ํ•  - ์˜ˆ์ธก๋ ฅ ๋†’์ด๊ธฐ
๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ธฐ๋ฒ•์„ ์ ์šฉ ์ „ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ์šฉ(50%), ๊ฒ€์ •์šฉ(30%), ํ‰๊ฐ€์šฉ(20%) ์„ธ ๊ฐ€์ง€๋กœ ๋ถ„ํ• ํ•จ
๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ๋•Œ๋Š” ํ›ˆ๋ จ์šฉ, ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ๋งŒ ๊ตฌ๋ถ„ํ•จ
ํ•„์š”์— ๋”ฐ๋ผ์„œ๋Š” ํ›ˆ๋ จ์šฉ, ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ์‚ฌ์šฉํ•˜๋Š” ๊ต์ฐจํ™•์ธ์„ ํ†ตํ•ด ๋ชจํ˜•์„ ํ‰๊ฐ€ํ•จ

  • ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ (Train Data)
    • ๋ชจํ˜•์˜ ๋ชจ์ˆ˜(ํŒŒ๋ผ๋ฏธํ„ฐ) ์ถ”์ •, ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ
    • ๋ชจ๋ธ๋ง์— ์ง์ ‘ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ
    • ๋ณดํ†ต ์ „์ฒด ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์˜ 50~60% ์‚ฌ์šฉ
  • ๊ฒ€์ •์šฉ ๋ฐ์ดํ„ฐ (Validation Data)
    • ํ•™์Šต๋œ ๋ชจํ˜•์˜ ๊ณผ๋Œ€/๊ณผ์†Œ ์ ํ•ฉ์„ ์กฐ์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ
  • ์‹œํ—˜์šฉ ๋ฐ์ดํ„ฐ (Test Data)
    • ๋ชจํ˜•์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆ
    • ํ•™์Šต ๊ณผ์ •์— ์ ˆ๋Œ€ ๊ฐœ์ž…ํ•ด์„œ๋Š” ์•ˆ ๋จ
    • ๋ณดํ†ต ์ „์ฒด ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์˜ 20~30% ์‚ฌ์šฉ

 

๊ณผ๋Œ€์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ™œ์šฉ๋˜๋Š” ์ž๋ฃŒ ์ถ”์ถœ ๋ฐฉ๋ฒ•

๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ - ๋ฐ์ดํ„ฐ ๋ถ„ํ• ์„ ํ†ตํ•œ ๊ฒ€์ฆ

  • ํ™€๋“œ์•„์›ƒ (hold-out)
    ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ํ•™์Šต/์‹œํ—˜ ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋ˆˆ ํ›„, ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์‹œ ํ•™์Šต/๊ฒ€์ • ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐฉ์‹
    • ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ์ž…๋ ฅ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์„ค๋ช…์ด ์ถฉ๋ถ„ํ•œ ๊ฒฝ์šฐ ์‚ฌ์šฉ
  • K-fold ๊ต์ฐจ๋ถ„์„ (cross-validation)
    ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ K๊ฐœ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ํ•™์Šต/๊ฒ€์ • ๋ฐ์ดํ„ฐ๋ฅผ ๊ต์ฐจํ•˜์—ฌ K๋ฒˆ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก 
    • ๊ฒ€์ฆ์šฉ ์…‹(validation set) ํ•˜๋‚˜, ํ›ˆ๋ จ์šฉ ์…‹(train set) K-1๊ฐœ๋กœ ์‚ฌ์šฉํ•ด K๋ฒˆ ๋ฐ˜๋ณต ์ธก์ •ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท  ๋‚ธ ๊ฐ’์„ ์ตœ์ข… ํ‰๊ฐ€๋กœ ์‚ฌ์šฉํ•จ
    • LOOCV(Leave-One-Out Cross-Validation): K = ์ „์ฒด ๊ด€์ธก์น˜(n)์ธ ๊ฒฝ์šฐ
    • ๊ฐ€์žฅ ๋ณดํŽธ์ ์œผ๋กœ ์‚ฌ์šฉ
    • ๊ณผ์ ํ•ฉ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ฐ€๋Šฅ
    ex) 3-fold ๊ต์ฐจ๋ถ„์„
    A. ๋ฐ์ดํ„ฐ์…‹ 3๋ถ„ํ• 
    B. 1๋ฒˆ ๋ถ„ํ• ์…‹์„ ๊ฒ€์ • ๋ฐ์ดํ„ฐ๋กœ ์ง€์ • / 2, 3๋ฒˆ ๋ถ„ํ• ์…‹์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์ง€์ •
    C. ๋ชจํ˜• ํ•™์Šต ๋ฐ ์„ฑ๋Šฅ ํ‰๊ฐ€
         ์–ด๋–ค ์…‹์ด ๋ชจํ˜• ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์„์ง€ ๋ชจ๋ฆ„ 
         ํ•™์Šต๊ณผ ํ‰๊ฐ€๋ฅผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์— ์ง„ํ–‰ํ•˜๋ฉด ๊ณผ์ ํ•ฉ ๋  ์ˆ˜ ์žˆ์Œ 
    D. B~C๋ฒˆ์„ ๊ฒ€์ • ๋ฐ์ดํ„ฐ ๋ถ„ํ• ์…‹์„ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ๋ฐ˜๋ณต
  • ๋ถ“์ŠคํŠธ๋žฉ(Bootstrap)
    • ๋ณต์›์ถ”์ถœ๋ฒ•์— ๊ธฐ๋ฐ˜ํ•จ
      *๋ณต์›์ถ”์ถœ๋ฒ•: ๊ด€์ธก์น˜๋ฅผ ํ•œ๋ฒˆ ์ด์ƒ ํ›ˆ๋ จ ์ž๋ฃŒ๋กœ ์‚ฌ์šฉํ•จ
      ํ‘œ๋ณธ์„ ๋ฝ‘์€ ๋‹ค์Œ, ๋ฝ‘ํžŒ ํ‘œ๋ณธ์„ ๋‹ค์Œ ํ‘œ๋ณธ ์ถ”์ถœ ๋Œ€์ƒ์— ํฌํ•จ์‹œ์ผœ ๋‹ค์‹œ ๋ฝ‘๋Š” ๋ฐฉ๋ฒ•
      ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์„ ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉํ•จ
    • d๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๊ณ  ๊ฐ€์ •ํ•  ๋•Œ, ํ›ˆ๋ จ์šฉ ์ง‘ํ•ฉ์œผ๋กœ ์„ ์ •๋˜์ง€ ์•Š์•„ ๊ฒ€์ฆ์šฉ ์ž๋ฃŒ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ด€์ธก์น˜์˜ ๋น„์œจ
      = $\frac {1}{e}$ → 36.8%
      *ํ›ˆ๋ จ์šฉ ์ง‘ํ•ฉ์œผ๋กœ ์„ ์ •๋˜์ง€ ์•Š์„ ํ™•๋ฅ  = $1-\frac {1}{d}$
  • ๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ ๊ฒ€์ฆ(Stratified k-fold cross validation)

 

 

์„ฑ๊ณผ ๋ถ„์„ - <์˜ค๋ถ„๋ฅ˜ํ‘œ(Confusion Matrix)> - ๋ชจ๋ธ๋ง ์„ฑ๋Šฅ ํ‰๊ฐ€

  • Accuracy (์ •๋ถ„๋ฅ˜์œจ, ์ •ํ™•๋„): ์–‘์„ฑ์ด๋“  ์Œ์„ฑ์ด๋“  ์ •ํ™•ํžˆ ์ง„๋‹จํ•œ ๋น„์œจ
    $= \frac{TP + TN}{TP + TN + FP + FN}$
  • Error Rate (์˜ค๋ถ„๋ฅ˜์œจ)
    $=1-\frac{TP + TN}{TP + TN + FP + FN}$
  • Specificity (ํŠน์ด๋„): ์‹ค์ œ๋กœ ์Œ์„ฑ์ธ ์‚ฌ๋žŒ ์ค‘์—์„œ ์Œ์„ฑ์œผ๋กœ ์ง„๋‹จํ•œ ๋น„์œจ
    $= \frac{TN}{TN + FP}$
  • Sensitivity = Recall (๋ฏผ๊ฐ๋„ = ์žฌํ˜„์œจ): ์‹ค์ œ๋กœ ์–‘์„ฑ์ธ ์‚ฌ๋žŒ ์ค‘์—์„œ ์–‘์„ฑ์œผ๋กœ ์ง„๋‹จํ•œ ๋น„์œจ
    $= \frac{TP}{TP + FN}$
    • ๋ชจํ˜•์˜ ์™„์ •์„ฑ(completeness)์„ ํ‰๊ฐ€ํ•จ
  • Precision (์ •๋ฐ€๋„): ์˜ˆ์–‘์–‘ ์–‘์„ฑ์œผ๋กœ ์ง„๋‹จํ•œ ์‚ฌ๋žŒ ์ค‘์—์„œ ์‹ค์ œ๋กœ ์–‘์„ฑ์ธ ๋น„์œจ
    $= \frac{TP}{TP + FP}$
  • F1-Score $=2\frac{(Precision) (Sensitivity)}{Precision + Sensitivity}$
  • ROC Curve (Receiver Operating Characteristic Curve)
    • $x$์ถ•: False Positive Rate (= 1-specificity) (1-ํŠน์ด๋„)
    • $y$์ถ•: True Positive Rate (= sensitivity = recall) (๋ฏผ๊ฐ๋„)
    • ์‹ ํ˜ธํƒ์ง€์ด๋ก ์—์„œ ์ ์ค‘ํ™•๋ฅ  ๋Œ€ ์˜ค๊ฒฝ๋ณดํ™•๋ฅ ์˜ ๊ทธ๋ž˜ํ”„์ž„
    • ์ด์ง„ ๋ถ„๋ฅ˜ ๋ชจํ˜•์˜ ์„ฑ๋Šฅ์„ ์ธก์ •
    • ROC ๊ณก์„  ์•„๋ž˜์˜ ๋ฉด์ ์ธ AUROC๊ฐ€ 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ข‹์Œ 0.5 ์ดํ•˜๋ฉด ๋žœ๋ค์— ๊ฐ€๊นŒ์šด ์„ฑ๋Šฅ์ด๋ผ๊ณ  ๋ด„
  • ๋ฆฌํ”„ํŠธ ์ฐจํŠธ(lift chart, ํ–ฅ์ƒ๋„ ๊ณก์„ , ์ด์ต๋„ํ‘œ, gain chart)
    : ๋ถ„๋ฅ˜ ๋ถ„์„๋ชจํ˜•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜๋œ ๊ด€์ธก์น˜๊ฐ€ ๋“ฑ๊ธ‰(๋ถ„์œ„)๋ณ„๋กœ ์–ผ๋งˆ๋‚˜ ํฌํ•จ๋˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋„ํ‘œ
    • ๊ธฐ์ € ๋ฆฌํ”„ํŠธ(baseline lift) : ์ „์ฒด ๋ฐ˜์‘ ๋ฐ์ดํ„ฐ ์ˆ˜ ÷ ์ „์ฒด ๋ฐ์ดํ„ฐ ์ˆ˜
    • ๋ฐ˜์‘๊ฒ€์ถœ๋ฅ (% captured response) : ๋“ฑ๊ธ‰ ๋‚ด ๋ฐ˜์‘ ๋ฐ์ดํ„ฐ ์ˆ˜ ÷ ์ „์ฒด ๋ฐ˜์‘ ๋ฐ์ดํ„ฐ ์ˆ˜
      • ํ•ด๋‹น ์ง‘๋‹จ์„ ๋ถ„๋ฆฌํ•ด๋‚ด๋Š” ๋น„์œจ = $\frac {ํ•ด๋‹น์ง‘๋‹จ์—์„œ\ ๋ชฉํ‘œ๋ณ€์ˆ˜์˜\ ํŠน์ •๋ฒ”์ฃผ์˜\ ๋นˆ๋„ }{ ์ „์ฒด\ ๋ชฉํ‘œ๋ณ€์ˆ˜์˜\ ํŠน์ •๋ฒ”์ฃผ์˜\ ๋นˆ๋„} \times 100$
    • ๋ฐ˜์‘๋ฅ (% response) : ๋“ฑ๊ธ‰ ๋‚ด ๋ฐ˜์‘ ๋ฐ์ดํ„ฐ ์ˆ˜ ÷ (์ „์ฒด ๋ฐ์ดํ„ฐ ์ˆ˜ ÷ ๋“ฑ๊ธ‰ ๊ฐœ์ˆ˜)
    • ๋ฆฌํ”„ํŠธ: ๋“ฑ๊ธ‰๋ณ„ ๋ฐ˜์‘๋ฅ  ÷ ๊ธฐ์ € ๋ฆฌํ”„ํŠธ๊ฐ’
    • ์ผ๋ฐ˜์ ์œผ๋กœ 0.5์—์„œ cut-off, 1.0์ด ๊ฐ€์žฅ ๋†’์€ ๊ธฐ์ค€
  • ๋‹ฌ์„ฑ๋ฅ (Detect Rate; ๋””ํ…ํŠธ ๋ ˆ์ดํŠธ)

 

 

๊ณผ๋Œ€์ ํ•ฉ๊ณผ ๊ณผ์†Œ์ ํ•ฉ

  • ๊ณผ๋Œ€์ ํ•ฉ(overfitting): ๋ชจํ˜•์ด ํ•™์Šต/๊ฒ€์ • ๋ฐ์ดํ„ฐ์— ๊ณผํ•˜๊ฒŒ ํ•™์Šต๋˜์–ด, ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ๊ณผ ์ ์ค‘๋ฅ ์ด ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ
    • ์•„์ง ํ•™์Šตํ•˜์ง€ ์•Š์€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์€ ๋‚ฎ๊ฒŒ ๋‚˜์˜ด
    • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์ตœ์ ํ™” ๋˜์–ด์žˆ์–ด ์ž‘์€ ๋ณ€ํ™”์— ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•จ
    • ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ์ถฉ๋ถ„ํžˆ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•  ๋•Œ, ๋ณ€์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„ ๋ชจํ˜•์ด ๋ณต์žกํ•  ๋•Œ ์ž์ฃผ ๋ฐœ์ƒํ•จ
    • ๊ณผ๋Œ€์ ํ•ฉ ๋ฐœ์ƒ์ด ์˜ˆ์ƒ๋˜๋ฉด ํ•™์Šต์ข…๋ฃŒ, ์—…๋ฐ์ดํŠธ ๋ฐ˜๋ณต์œผ๋กœ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์Œ
  • ๊ณผ์†Œ์ ํ•ฉ: ๊ณผ๋Œ€์ ํ•ฉ์˜ ๋ฐ˜๋Œ€ - ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด ๋ฐ์ดํ„ฐ์กฐ์ฐจ ์ œ๋Œ€๋กœ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ

 

ํŽธํ–ฅ-๋ถ„์‚ฐ Trade-Off
์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์Šต ๋ชจํ˜•์˜ ์œ ์—ฐ์„ฑ์ด ํด์ˆ˜๋ก ๋ถ„์‚ฐ์ด ํฌ๊ณ , ํŽธํ–ฅ์ด ๊ฐ์†Œํ•จ
๋†’์€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์œ„ํ•ด์„œ๋Š” Low Bias, Low Variance๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•ด์•ผ ํ•จ

  • ๊ณผ๋Œ€์ ํ•ฉ: ๋ณต์žกํ•œ ๋ชจ๋ธ(high variance) → ํŽธํ–ฅ ๊ฐ์†Œ(low bias)
  • ๊ณผ์†Œ์ ํ•ฉ: ๋‹จ์ˆœํ•œ ๋ชจ๋ธ(low variance) → ํŽธํ–ฅ ์ฆ๊ฐ€(high bias)
๋ฐ˜์‘ํ˜•
LIST