์ ๊ฐ ๋ณธ 40ํ ์ํ ๋๋ ๊ณ์ฐ ๋ฌธ์ ๊ฐ ์ ์์ด์
๊ทธ๋๋ ๊ณ์ฐ ๋ฌธ์ ๋ ํ๋ฆฌ๋ฉด ์๊น์ฐ๋๊น ํ์คํ ๊ณต๋ถํ๊ณ ๊ฐ๋ ๊ฒ ์ข์ ๊ฒ ๊ฐ์์
5. ์ ํ ๋ฐ์ดํฐ ๋ง์ด๋
1. ๋ฐ์ดํฐ ๋ง์ด๋์ ๊ฐ์
๋ฐ์ดํฐ ๋ง์ด๋(Data Mining)
๋๋์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ์น ์๋ ๊ด๊ณ๋ฅผ ์ฐพ์๋ด ์์ฌ๊ฒฐ์ ์ ํ์ฉํ๋ ํต๊ณ์ ๋ฐฉ๋ฒ๋ก
- ๋ฏธ๋์ ๋ํ ์์ธก, ์จ๊ฒจ์ง ๊ด๊ณ์ฑ ์๋ณ ๋ฑ
- ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ฏธ ์๋ ์ธ์ฌ์ดํธ, ์ง์์ ์ฐพ์๋ด๋ ๊ฒ
- ์ ํต์ ์ธ ํต๊ณ๋ถ์์ ๋นํด ์ปดํจํฐ ์์กด๋๊ฐ ๋์
- ์ธ๊ณต์ง๋ฅ์ด ๋ฐ๋ฌํจ์ ๋ฐ๋ผ ๋จธ์ ๋ฌ๋์ ๊ตฌํํ๊ธฐ ์ํ ๋ฐํ์
- ์์ฌ๊ฒฐ์ ๋๋ฌด, KNN, SVM, Bagging, etc
๋ฐ์ดํฐ ๋ง์ด๋ ์์
- ๋ง์ผํ : ๊ณ ๊ฐ์ด ์ด ๋ฒํ ์ ํ์ ์ง์ ๋ฉ์ผ๋ง
- ์ฌ๊ธฐ ๊ฐ์ง: ์ ์ฉ ์นด๋ ๊ฑฐ๋ ๋ด์ญ์์ ์ฌ๊ธฐ์ผ ๋ฒํ ๊ฑฐ๋ ๊ฐ์ง
- ๊ณ ๊ฐ ์ดํ ๊ฐ์ง: ๊ฒฝ์์ฌ๋ก ์ดํํ ๋ฒํ ๊ณ ๊ฐ ์ฌ์ ํฌ์ฐฉ
- ๋ณ์: ๋ฐ๋ณ ์์ธก
- Shelf Management: ๊ฐ์ด ์ด๋ฒํ ๋ฌผ๊ฑด์ ๊ฐ์ด ์ง์ด
๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐฉ๋ฒ์ ๋ฐ๋ฅธ ๋ถ๋ฅ
- ์ง๋ํ์ต
- ๋น์ง๋ ํ์ต
๋ฐ์ดํฐ ๋ง์ด๋ ๋ถ์ ๋ชฉ์ ์ ๋ฐ๋ฅธ ๋ถ๋ฅ
- ๋ถ๋ฅ(classification) ๋ถ์: ๋ฐ์ดํฐ๊ฐ ์ด๋ ๊ทธ๋ฃน์ ์ํ๋์ง ํ๋ณ (๋ฒ์ฃผํ)
๋ฐ์ดํฐ ์ดํด๋ฅผ ๋ ์ฝ๊ฒํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ํน์ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ ๋ฐ ๋ฒ์ฃผํํ๊ณ ๋ฑ๊ธํํ๋ ๋ฐฉ๋ฒ - ๊ตฐ์ง(Clustering) ๋ถ์: ์ ์ฌ์ฑ์ด ๋์ ๊ฐ์ฒด๋ผ๋ฆฌ ๋ฌถ๋ ๋ถ์ (์ด์ง์ ์ธ ๋ชจ์ง๋จ ์ธ๋ถํ ๊ธฐ๋ฅ)
- ์ฐ๊ด(Association) ๋ถ์: ์ฅ๋ฐ๊ตฌ๋ ๋ถ์
์ง๋ํ์ต๊ณผ ๋น์ง๋ ํ์ต
์ง๋ํ์ต | ๋น์ง๋ํ์ต | ||
ํ๊ท(์ฐ์ํ) | ์ ํํ๊ท๋ถ์ ์์ฌ๊ฒฐ์ ๋๋ฌด(ํ๊ทํธ๋ฆฌ๋ชจํ) SVR(Support Vector Regressio) ์ ๊ฒฝ๋ง ๋ชจํ ๋ฆฟ์ง ๋ผ์ |
๊ตฐ์ง | K-means SOM DBSCAN(๋ฐ๋ ๊ธฐ๋ฐ ๊ตฐ์ง) ๋ณํฉ ๊ตฐ์ง ๊ณ์ธต ๊ตฐ์ง |
์ฐ๊ด | Apriori | ||
๋ถ๋ฅ(๋ฒ์ฃผํ) | ๋ก์ง์คํฑ ํ๊ท๋ถ์ ์ ๊ฒฝ๋ง ๋ชจํ ์์ฌ๊ฒฐ์ ๋๋ฌด(๋ถ๋ฅํธ๋ฆฌ๋ชจํ) k-NN(k-์ต๊ทผ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ) ์์๋ธ ๋ชจํ SVM(Support Vector Machine) ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ |
์ฐจ์ ์ถ์ | PCA(์ฃผ์ฑ๋ถ ๋ถ์) LDA(์ ํํ๋ณ๋ถ์) SVD(ํน์๊ฐ ๋ถํด) MDS(๋ค์ฐจ์ ์ฒ๋๋ฒ) |
๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ: ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ง๋ํ์ต ๋ชจ๋ธ
ex) ์คํธ ๋ฉ์ผ ํํฐ๋ง, ํ
์คํธ ๋ถ๋ฅ ๋ฑ
K-Nearest Neighbor: ์ฃผ๋ณ K๊ฐ์ ๋ฐ์ดํฐ ์ค ๊ฐ์ฅ ๋ง์ ๋ฐ์ดํฐ๋ก ๋์นํ๋ ๋ฐฉ๋ฒ
- ์์นํ ๋ฐ์ดํฐ๋ ์ธ์ฝ๋ฉ ๋ฑ์ ํตํด ๊ฑฐ๋ฆฌ์ธก์ ๊ฐ๋ฅํจ
- ์ฐจ์์ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ๊ณ์ฐ๋์ด ๋ง์์ง
- K๊ฐ์ด ์์์๋ก ๊ณผ์ ํฉ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ
- ํ๋ จ ๋ฐ์ดํฐ์์ ๋ฏธ๋ฆฌ ๋ชจํ์ ํ์ตํ์ง ์๊ณ ์๋ก์ด ์๋ฃ์ ๋ํ ์์ธก ๋ฐ ๋ถ๋ฅ๋ฅผ ์ํํ ๋ ๋ชจํ์ ๊ตฌ์ฑํ๋ lazy learning ๊ธฐ๋ฒ์ ์ฌ์ฉํจ
- ๊ทธ๋ฃน์ ๋ชจ๋ฅด๋ ๋ฐ์ดํฐ p์ ๋ํด ์ด๋ฏธ ๊ทธ๋ฃน์ด ์๋ ค์ง ๋ฐ์ดํฐ ์ค p์ ๊ฐ์ฅ ๊ฐ๊น์ด ์๋ k๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๊ทธ๋ฃน์ ์์ฑํจ
DBSCAN(๋ฐ๋ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง)์ ๋ฐ์ดํฐ ํํ๊ฐ ์ค๋ชฉํ๊ฑฐ๋ ๋ค๋ฅธ ์์์ ๋ชจ์์ผ ๋ k-means ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์
์ง๋ํ์ต(๊ต์ฌํ์ต)
- ์์ธก(์ถ๋ก )์ ์ํ ๋ถ์
- ํ์ต ๊ณผ์ ์ ๊ฐ์ด๋ ํด์ฃผ๋ ๋ชฉํ ๋ณ์๊ฐ ์กด์ฌ
- ํน์ฑ ์์น๋ ๋ฒ์ฃผ๋ฅผ ์์ธกํจ
์ง๋ํ์ต ์์
- ํ๊ท๋ชจํ
๋ก์ง์คํฑ ํ๊ท๋ชจํ์ ํตํด, ํน์ ์ด๋ ฅ(์ ๋ณด)์ ๊ฐ์ง ๊ณ ๊ฐ์ด ํน์ ๋ฌผ๊ฑด์ ๊ตฌ๋งคํ ์ง ์์ธก - ์ผ๋ฐํ ์ ํ ๋ชจํ
- ์ธ๊ณต์ ๊ฒฝ๋ง
- ์์ฌ๊ฒฐ์ ๋๋ฌด
- ๋ฐฐ๊น , ๋ถ์คํ , ๋๋คํฌ๋ ์คํธ
- ์ฌ๋ก ๊ธฐ๋ฐ ์ถ๋ก
- Support Vector Machines
๋น์ง๋ ํ์ต
- ๊ธฐ์ ์ (descriptive) ๋ถ์
- ์ข ์ ๋ณ์ ์์
- ๋ฐ์ดํฐ ๋ด Valuable, Unexpected ํจํด์ ํฌ์ฐฉํ๊ธฐ ์ํจ
- ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋ฌ์ฌํ๊ธฐ ์ํจ
๋น์ง๋ ํ์ต ์์
- ์ฐ๊ด๊ท์น ๋ถ์(Association Rule, Association Analysis): ๊ณ ๊ฐ์ด ๊ฐ์ด ์ด ๋ฒํ ๋ฌผ๊ฑด์ ์์ ์๋ณ
- ๊ตฐ์ง๋ถ์(K-means Clustering): ๊ตฐ์ง์ ๊ฐ์๋ ๊ตฌ์กฐ์ ๋ํ ๊ฐ์ ์์ด ๋ฐ์ดํฐ๋ค ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ตฐ์งํ๋ฅผ ์ ๋ํจ
ex) KOSPI ์์ฅ ๊ธฐ์ ์ ์์ต๋ฅ ๊ตฐ์งํ๋ฅผ ํตํด ๋น์ทํ ํจํด์ ์ฃผ๊ฐ ์์ง์์ ๋ณด์ด๋ ๊ธฐ์ ์๋ณ- Self-Organizing Maps (SOM; ์๊ธฐ์กฐ์งํ์ง๋): ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ธฐ ์ฌ์ด ์ ์ฐจ์์ ๋ด๋ฐ์ผ๋ก ์ ๋ ฌํด ์ง๋ํํ๋ก ํ์ํ ํ๋ ํด๋ฌ์คํฐ๋ง ๋ฐฉ๋ฒ
- Hierarchical Clustering
- OLAP
๋ฐ์ดํฐ ๋ง์ด๋ ํ๋ก์ธ์ค
- 1๋จ๊ณ: ๋ชฉ์ ์ค์
๋ชจ๋ธ/๋ฐ์ดํฐ ์ ์ - 2๋จ๊ณ: ๋ฐ์ดํฐ ์ค๋น
๋ฐ์ดํฐ ์ ์ ๋ฐ ํ๋ณด - 3๋จ๊ณ: ๋ฐ์ดํฐ ๊ฐ๊ณต
(์ง๋ํ์ต์ด๋ผ๋ฉด) ๋ชฉํ ๋ณ์(target variable) ์ ์- ๋ชจ๋ธ์ ๋ง๊ฒ ๋ฐ์ดํฐ ๊ฐ๊ณต
- ๋ฐ์ดํฐ ๋ง์ด๋ ์ํํธ์จ์ด์ ์ ์ฉ ๊ฐ๋ฅํ๊ฒ ์ค๋นํ๋ ๋จ๊ณ
- 4๋จ๊ณ: ๊ธฐ๋ฒ ์ ์ฉ (๋ชจ๋ธ๋ง)
ํต๊ณ์ ๋ชจ๋ธ๋ง์ด ์๋๋ฏ๋ก ์ง๋์น๊ฒ ํต๊ณ์ ๊ฐ์ค์ด๋ ์ ์์ฑ์ ์ง์ฐฉ X
์ถฉ๋ถํ ์๊ฐ์ด ์๋ค๋ฉด ๋ค์ํ ์ต์ ์ ์๋ํ๊ณ , ์ผ์ ์ฑ๊ณผ๊ฐ ๋์ค๋ฉด ํด์ · ํ์ฉ ๋จ๊ณ๋ฅผ ์งํํจ
(์ฑ๋ฅ์ ์ง์ฐฉํ๋ฉด ๋ถ์ ๋ชจ๋ธ๋ง์ ์ฃผ๋ชฉ์ ์ธ ์ค๋ฌด ์ ์ฉ์ ๋ฐํ์ฌ ์๊ฐ ๋ญ๋น์ด๋ฏ๋ก ํฐ ํธ์ฐจ๊ฐ ์๊ณ ์์ ์ฑ๋ฅ์ ๋ง์กฑํ๋ฉด ์ค๋จํจ) - 5๋จ๊ณ: ๊ฒ์ฆ
- ์ต์ ์ ๋ชจ๋ธ ์ ํ
- ๋ฐ์ดํฐ ๋ง์ด๋์ ํตํด ์ถ์ถํ ์ ๋ณด์ ๋ํ ๊ฒ์ฆ
- ์ ์ฑ์ ๋ถ์ (ํ์ฉ ๋ฐฉ์, ๊ธฐ๋ํจ๊ณผ ๋ฑ)
๋ฐ์ดํฐ ๋ถํ - ์์ธก๋ ฅ ๋์ด๊ธฐ
๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ ์ ์ฉ ์ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ์ฉ(50%), ๊ฒ์ ์ฉ(30%), ํ๊ฐ์ฉ(20%) ์ธ ๊ฐ์ง๋ก ๋ถํ ํจ
๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ๋๋ ํ๋ จ์ฉ, ํ๊ฐ์ฉ ๋ฐ์ดํฐ๋ง ๊ตฌ๋ถํจ
ํ์์ ๋ฐ๋ผ์๋ ํ๋ จ์ฉ, ํ๊ฐ์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ฒ๊ฐ์๊ฐ๋ฉฐ ์ฌ์ฉํ๋ ๊ต์ฐจํ์ธ์ ํตํด ๋ชจํ์ ํ๊ฐํจ
- ํ์ต์ฉ ๋ฐ์ดํฐ (Train Data)
- ๋ชจํ์ ๋ชจ์(ํ๋ผ๋ฏธํฐ) ์ถ์ , ํ์ต์ฉ ๋ฐ์ดํฐ
- ๋ชจ๋ธ๋ง์ ์ง์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
- ๋ณดํต ์ ์ฒด ๋ฐ์ดํฐ ํฌ๊ธฐ์ 50~60% ์ฌ์ฉ
- ๊ฒ์ ์ฉ ๋ฐ์ดํฐ (Validation Data)
- ํ์ต๋ ๋ชจํ์ ๊ณผ๋/๊ณผ์ ์ ํฉ์ ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉ
- ์ํ์ฉ ๋ฐ์ดํฐ (Test Data)
- ๋ชจํ์ ์ฑ๋ฅ์ ๊ฒ์ฆ
- ํ์ต ๊ณผ์ ์ ์ ๋ ๊ฐ์ ํด์๋ ์ ๋จ
- ๋ณดํต ์ ์ฒด ๋ฐ์ดํฐ ํฌ๊ธฐ์ 20~30% ์ฌ์ฉ
๊ณผ๋์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ํ์ฉ๋๋ ์๋ฃ ์ถ์ถ ๋ฐฉ๋ฒ
๋ฐ์ดํฐ์ ์์ด ์ถฉ๋ถํ์ง ์์ ๊ฒฝ์ฐ - ๋ฐ์ดํฐ ๋ถํ ์ ํตํ ๊ฒ์ฆ
- ํ๋์์ (hold-out)
์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋๋คํ๊ฒ ํ์ต/์ํ ๋ฐ์ดํฐ๋ก ๋๋ ํ, ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ค์ ํ์ต/๊ฒ์ ๋ฐ์ดํฐ๋ก ๋๋๋ ๋ฐฉ์- ๋ฐ์ดํฐ์ ์์ด ์ถฉ๋ถํ์ง ์๊ฑฐ๋ ์ ๋ ฅ๋ณ์์ ๋ํ ์ค๋ช ์ด ์ถฉ๋ถํ ๊ฒฝ์ฐ ์ฌ์ฉ
- K-fold ๊ต์ฐจ๋ถ์ (cross-validation)
์ ์ฒด ๋ฐ์ดํฐ๋ฅผ K๊ฐ๋ก ๋ถํ ํ๊ณ , ํ์ต/๊ฒ์ ๋ฐ์ดํฐ๋ฅผ ๊ต์ฐจํ์ฌ K๋ฒ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ก- ๊ฒ์ฆ์ฉ ์ (validation set) ํ๋, ํ๋ จ์ฉ ์ (train set) K-1๊ฐ๋ก ์ฌ์ฉํด K๋ฒ ๋ฐ๋ณต ์ธก์ ํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ธ ๊ฐ์ ์ต์ข ํ๊ฐ๋ก ์ฌ์ฉํจ
- LOOCV(Leave-One-Out Cross-Validation): K = ์ ์ฒด ๊ด์ธก์น(n)์ธ ๊ฒฝ์ฐ
- ๊ฐ์ฅ ๋ณดํธ์ ์ผ๋ก ์ฌ์ฉ
- ๊ณผ์ ํฉ ๋ฌธ์ ํด๊ฒฐ ๊ฐ๋ฅ
A. ๋ฐ์ดํฐ์ 3๋ถํ
B. 1๋ฒ ๋ถํ ์ ์ ๊ฒ์ ๋ฐ์ดํฐ๋ก ์ง์ / 2, 3๋ฒ ๋ถํ ์ ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ง์
C. ๋ชจํ ํ์ต ๋ฐ ์ฑ๋ฅ ํ๊ฐ
์ด๋ค ์ ์ด ๋ชจํ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ์ข์์ง ๋ชจ๋ฆ
ํ์ต๊ณผ ํ๊ฐ๋ฅผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ์งํํ๋ฉด ๊ณผ์ ํฉ ๋ ์ ์์
D. B~C๋ฒ์ ๊ฒ์ ๋ฐ์ดํฐ ๋ถํ ์ ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ ๋ฐ๋ณต - ๋ถ์คํธ๋ฉ(Bootstrap)
- ๋ณต์์ถ์ถ๋ฒ์ ๊ธฐ๋ฐํจ
*๋ณต์์ถ์ถ๋ฒ: ๊ด์ธก์น๋ฅผ ํ๋ฒ ์ด์ ํ๋ จ ์๋ฃ๋ก ์ฌ์ฉํจ
ํ๋ณธ์ ๋ฝ์ ๋ค์, ๋ฝํ ํ๋ณธ์ ๋ค์ ํ๋ณธ ์ถ์ถ ๋์์ ํฌํจ์์ผ ๋ค์ ๋ฝ๋ ๋ฐฉ๋ฒ
๋ชจ์ง๋จ์ ํฌ๊ธฐ๊ฐ ์์ ๋ ์ฃผ๋ก ์ฌ์ฉํจ - d๊ฐ ์ถฉ๋ถํ ํฌ๋ค๊ณ ๊ฐ์ ํ ๋, ํ๋ จ์ฉ ์งํฉ์ผ๋ก ์ ์ ๋์ง ์์ ๊ฒ์ฆ์ฉ ์๋ฃ๋ก ์ฌ์ฉ๋๋ ๊ด์ธก์น์ ๋น์จ
= $\frac {1}{e}$ → 36.8%
*ํ๋ จ์ฉ ์งํฉ์ผ๋ก ์ ์ ๋์ง ์์ ํ๋ฅ = $1-\frac {1}{d}$
- ๋ณต์์ถ์ถ๋ฒ์ ๊ธฐ๋ฐํจ
- ๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ ๊ฒ์ฆ(Stratified k-fold cross validation)
์ฑ๊ณผ ๋ถ์ - <์ค๋ถ๋ฅํ(Confusion Matrix)> - ๋ชจ๋ธ๋ง ์ฑ๋ฅ ํ๊ฐ
- Accuracy (์ ๋ถ๋ฅ์จ, ์ ํ๋): ์์ฑ์ด๋ ์์ฑ์ด๋ ์ ํํ ์ง๋จํ ๋น์จ
$= \frac{TP + TN}{TP + TN + FP + FN}$ - Error Rate (์ค๋ถ๋ฅ์จ)
$=1-\frac{TP + TN}{TP + TN + FP + FN}$ - Specificity (ํน์ด๋): ์ค์ ๋ก ์์ฑ์ธ ์ฌ๋ ์ค์์ ์์ฑ์ผ๋ก ์ง๋จํ ๋น์จ
$= \frac{TN}{TN + FP}$ - Sensitivity = Recall (๋ฏผ๊ฐ๋ = ์ฌํ์จ): ์ค์ ๋ก ์์ฑ์ธ ์ฌ๋ ์ค์์ ์์ฑ์ผ๋ก ์ง๋จํ ๋น์จ
$= \frac{TP}{TP + FN}$- ๋ชจํ์ ์์ ์ฑ(completeness)์ ํ๊ฐํจ
- Precision (์ ๋ฐ๋): ์์์ ์์ฑ์ผ๋ก ์ง๋จํ ์ฌ๋ ์ค์์ ์ค์ ๋ก ์์ฑ์ธ ๋น์จ
$= \frac{TP}{TP + FP}$ - F1-Score $=2\frac{(Precision) (Sensitivity)}{Precision + Sensitivity}$
- ROC Curve (Receiver Operating Characteristic Curve)
- $x$์ถ: False Positive Rate (= 1-specificity) (1-ํน์ด๋)
- $y$์ถ: True Positive Rate (= sensitivity = recall) (๋ฏผ๊ฐ๋)
- ์ ํธํ์ง์ด๋ก ์์ ์ ์คํ๋ฅ ๋ ์ค๊ฒฝ๋ณดํ๋ฅ ์ ๊ทธ๋ํ์
- ์ด์ง ๋ถ๋ฅ ๋ชจํ์ ์ฑ๋ฅ์ ์ธก์
- ROC ๊ณก์ ์๋์ ๋ฉด์ ์ธ AUROC๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ์ข์ 0.5 ์ดํ๋ฉด ๋๋ค์ ๊ฐ๊น์ด ์ฑ๋ฅ์ด๋ผ๊ณ ๋ด
- ๋ฆฌํํธ ์ฐจํธ(lift chart, ํฅ์๋ ๊ณก์ , ์ด์ต๋ํ, gain chart)
: ๋ถ๋ฅ ๋ถ์๋ชจํ์ ์ฌ์ฉํ์ฌ ๋ถ๋ฅ๋ ๊ด์ธก์น๊ฐ ๋ฑ๊ธ(๋ถ์)๋ณ๋ก ์ผ๋ง๋ ํฌํจ๋๋์ง๋ฅผ ๋ํ๋ด๋ ๋ํ- ๊ธฐ์ ๋ฆฌํํธ(baseline lift) : ์ ์ฒด ๋ฐ์ ๋ฐ์ดํฐ ์ ÷ ์ ์ฒด ๋ฐ์ดํฐ ์
- ๋ฐ์๊ฒ์ถ๋ฅ (% captured response) : ๋ฑ๊ธ ๋ด ๋ฐ์ ๋ฐ์ดํฐ ์ ÷ ์ ์ฒด ๋ฐ์ ๋ฐ์ดํฐ ์
- ํด๋น ์ง๋จ์ ๋ถ๋ฆฌํด๋ด๋ ๋น์จ = $\frac {ํด๋น์ง๋จ์์\ ๋ชฉํ๋ณ์์\ ํน์ ๋ฒ์ฃผ์\ ๋น๋ }{ ์ ์ฒด\ ๋ชฉํ๋ณ์์\ ํน์ ๋ฒ์ฃผ์\ ๋น๋} \times 100$
- ๋ฐ์๋ฅ (% response) : ๋ฑ๊ธ ๋ด ๋ฐ์ ๋ฐ์ดํฐ ์ ÷ (์ ์ฒด ๋ฐ์ดํฐ ์ ÷ ๋ฑ๊ธ ๊ฐ์)
- ๋ฆฌํํธ: ๋ฑ๊ธ๋ณ ๋ฐ์๋ฅ ÷ ๊ธฐ์ ๋ฆฌํํธ๊ฐ
- ์ผ๋ฐ์ ์ผ๋ก 0.5์์ cut-off, 1.0์ด ๊ฐ์ฅ ๋์ ๊ธฐ์ค
- ๋ฌ์ฑ๋ฅ (Detect Rate; ๋ํ ํธ ๋ ์ดํธ)
๊ณผ๋์ ํฉ๊ณผ ๊ณผ์์ ํฉ
- ๊ณผ๋์ ํฉ(overfitting): ๋ชจํ์ด ํ์ต/๊ฒ์ ๋ฐ์ดํฐ์ ๊ณผํ๊ฒ ํ์ต๋์ด, ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ์ ์ค๋ฅ ์ด ์ ํ๋๋ ํ์
- ์์ง ํ์ตํ์ง ์์ ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ ๋ฎ๊ฒ ๋์ด
- ํ๋ จ ๋ฐ์ดํฐ์ ์ต์ ํ ๋์ด์์ด ์์ ๋ณํ์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํจ
- ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ชจ์ง๋จ์ ํน์ฑ์ ์ถฉ๋ถํ ์ค๋ช ํ์ง ๋ชปํ ๋, ๋ณ์๊ฐ ๋๋ฌด ๋ง์ ๋ชจํ์ด ๋ณต์กํ ๋ ์์ฃผ ๋ฐ์ํจ
- ๊ณผ๋์ ํฉ ๋ฐ์์ด ์์๋๋ฉด ํ์ต์ข ๋ฃ, ์ ๋ฐ์ดํธ ๋ฐ๋ณต์ผ๋ก ๋ฐฉ์งํ ์ ์์
- ๊ณผ์์ ํฉ: ๊ณผ๋์ ํฉ์ ๋ฐ๋ - ๋ชจ๋ธ์ด ๋๋ฌด ๋จ์ํด ๋ฐ์ดํฐ์กฐ์ฐจ ์ ๋๋ก ์์ธกํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ
ํธํฅ-๋ถ์ฐ Trade-Off
์ผ๋ฐ์ ์ผ๋ก ํ์ต ๋ชจํ์ ์ ์ฐ์ฑ์ด ํด์๋ก ๋ถ์ฐ์ด ํฌ๊ณ , ํธํฅ์ด ๊ฐ์ํจ
๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ํด์๋ Low Bias, Low Variance๋ฅผ ๋์์ ๋ฌ์ฑํด์ผ ํจ
- ๊ณผ๋์ ํฉ: ๋ณต์กํ ๋ชจ๋ธ(high variance) → ํธํฅ ๊ฐ์(low bias)
- ๊ณผ์์ ํฉ: ๋จ์ํ ๋ชจ๋ธ(low variance) → ํธํฅ ์ฆ๊ฐ(high bias)
'ADsP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
ADsP 3๊ณผ๋ชฉ 5-3 ์์๋ธ ๋ถ์ | ์ ๋ฆฌ๐ (1) | 2024.09.27 |
---|---|
ADsP 3๊ณผ๋ชฉ 5-2 ๋ถ๋ฅ๋ถ์ | ์ ๋ฆฌ๐ (2) | 2024.09.26 |
ADsP 3๊ณผ๋ชฉ 4-6 ์ฃผ์ฑ๋ถ ๋ถ์ | ์ ๋ฆฌ๐ (1) | 2024.09.24 |
ADsP 3๊ณผ๋ชฉ 4-5 ๋ค์ฐจ์ ์ฒ๋๋ฒ | ์ ๋ฆฌ๐ (0) | 2024.09.23 |
ADsP 3๊ณผ๋ชฉ 4-4 ์๊ณ์ด ๋ถ์ | ์ ๋ฆฌ๐ (2) | 2024.09.20 |