๋ฐ์ดํฐ๊ฐ ์ด๋ค ๊ทธ๋ฃน(๋ฒ์ฃผ)์ ์ํ๋์ง ์์ธกํ๋ ๊ธฐ๋ฒ
ex) ํ์์ ๊ณต๋ถ ์๊ฐ, ๊ตฌ๋งคํ ์ฑ
๊ฐ์๋ฅผ ํตํด ๋ด์ ๋ฑ๊ธ ์์ธก
- ๊ตฐ์งํ(ํด๋ฌ์คํฐ๋ง)์์ ์ฐจ์ด์
๋ถ๋ฅ: ์ง๋ํ์ต(supervised)์ผ๋ก์ ๋ชฉํ๋ณ์์ธ ๊ทธ๋ฃน(๋ฒ์ฃผ)์ด ์ฌ์ ์ ์ ์๋จ
๊ตฐ์งํ: ๋น์ง๋ ํ์ต(unsupervised)์ผ๋ก์ ๋ชฉํ๋ณ์๊ฐ ์์
์์ธก ๋ถ์ (ํ๊ท ๋ฌธ์ )
๋ฐ์ดํฐ๊ฐ ์ด๋ค (์ฐ์ํ) ๊ฐ์ ๊ฐ์ง์ง ์์ธกํ๋ ๊ธฐ๋ฒ
ex) ํ์์ ๊ณต๋ถ ์๊ฐ, ๊ตฌ๋งคํ ์ฑ
๊ฐ์๋ฅผ ํตํด ๋ด์ ์ ์ ์์ธก
๋ถ๋ฅ ๊ธฐ๋ฒ
- ๋ก์ง์คํฑ ํ๊ท๋ถ์
- ์์ฌ๊ฒฐ์ ๋๋ฌด
- ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ
- ์ธ๊ณต์ ๊ฒฝ๋ง
- ์ํฌํธ ๋ฒกํฐ ๋จธ์ (SVM)
- K ์ต๊ทผ์ ์ด์
- ๊ท์น๊ธฐ๋ฐ์ ๋ถ๋ฅ์ ์ฌ๋ก๊ธฐ๋ฐ ์ถ๋ก (Case-Based Reasoning)
๋ก์ง์คํฑ ํ๊ท๋ถ์
์ง๋ํ์ต
๋
๋ฆฝ๋ณ์์ ์ ํ ๊ฒฐํฉ์ ์ด์ฉํด ์ฌ๊ฑด์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํต๊ณ๊ธฐ๋ฒ
- ์ข
์๋ณ์($y$)๊ฐ ์ด์ง·๋ฒ์ฃผํ ๋ณ์์ธ ํ๊ท๋ถ์ ๋ชจํ
- R ์ฝ๋: glm( … , family = binomical, … )
- ์์ธก ๋ชจ๋ธ์ ์์ฑํ๋ค๋ ์ ์์ ์ ํํ๊ท ๋ถ์ ๋ฐฉ๋ฒ๊ณผ ๋์ผ
- ์ ํํ๊ท ๋ชจํ ์ ์ฉ์ด ๊ฐ๋ฅํ๊ธด ํ๋, ์์ธก๊ฐ์ด [0, 1]์ ๋ฒ์ด๋๊ณ ์ด๋ฅผ ํ๋ฅ ๊ฐ์ผ๋ก ์ง์ ํด์ ๋ถ๊ฐํจ
- ํด๋์ค๊ฐ ์๋ ค์ง ๋ฐ์ดํฐ์ ์ค๋ช
๋ณ์๋ค ๊ด์ ์์ ๊ฐ ํด๋์ค ๋ด์ ๊ด์ธก์น๋ค์ ์ ์ฌ์ฑ์ ์ฐพ๋ ๋ฐ ์ฌ์ฉํจ
$y = logit[π(x)] = log(\frac{π(x)}{1-π(x)}) = β_0+β_1x$
$y$๊ฐ์ ๋ฒ์๋ฅผ $[0,1]$๋ก ์กฐ์ ํ๊ธฐ ์ํด $logit$ ํจ์๋ฅผ ์ฌ์ฉํจ
์ค์ฆ์ ๋ก๊ทธํจ์๋ฅผ ์์ด ๊ฒ
0๋ถํฐ 1๊น์ง ํฌ๊ธฐ๋ฅผ ๊ฐ์ง - ์ค์ฆ๋น (odds ratio): ์ฑ๊ณตํ ํ๋ฅ ์ด ์คํจํ ํ๋ฅ ์ ๋ช ๋ฐฐ์ธ์ง ๋ํ๋ด๋ ๊ฐ
์ค์ฆ๋ฅผ ์ฌ์ฉํด ๊ฐ ๋ฒ์ฃผ(์ง๋จ)์ ๋ถ๋ฅ๋ ํ๋ฅ ๊ฐ์ ์ถ์ ํจ
$odds = \frac{π(x)}{1-π(x)}$
$z = logit(odds) = log(\frac{π(x)}{1-π(x)})$- ๋ก์ง์คํฑ ํจ์ = ๋ก์ง ํจ์์ ์ญํจ์
$π(x) =\frac{exp(β_0+β_1x)}{1+exp(β_0+β_1x)}$
- ๋ก์ง์คํฑ ํจ์ = ๋ก์ง ํจ์์ ์ญํจ์
- $exp(βโ)$ : $x$๊ฐ ํ ๋จ์ ์ฆ๊ฐํ ๋ ์ฑ๊ณต์ ์ค์ฆ๊ฐ ๋ช ๋ฐฐ ์ฆ๊ฐํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ
์ ํํ๊ท๋ถ์ ๋ก์ง์คํฑ ํ๊ท๋ถ์ ์ข ์๋ณ์ ์ฐ์ํ ๋ณ์ ๋ฒ์ฃผํ ๋ณ์ (0 or 1) ๋ชจ์ ์ถ์ ์ต์์ ๊ณฑ๋ฒ
์ต๋์ฐ๋ ์ถ์ ๋ฒ์ต๋์ฐ๋ ์ถ์ ๋ฒ(MLE) ๋ชจํ ๊ฒ์ t-๊ฒ์ , F-๊ฒ์ ์นด์ด์ ๊ณฑ ๊ฒ์
์ผ๋ฐํ ์ ํํ๊ท
- ๋ก์ง์คํฑ ํ๊ท
- ํฌ์์ก ํ๊ท
์์ฌ๊ฒฐ์ ๋๋ฌด
- ๋ถ๋ฅ(๋ถ๋ฅ ๋๋ฌด) ๋ฐ ํ๊ท(ํ๊ท ๋๋ฌด) ๋ฌธ์ ์๋ ์ฌ์ฉํ ์ ์์ (์์น/๋ฒ์ฃผํ ๋ชจ๋ ๊ฐ๋ฅ)
- ๋ถ๋ฅ ๋๋ฌด: ์ข ์๋ณ์ ์ด์ฐํ
- ํ๊ท ๋๋ฌด: ์ข ์๋ณ์ ์ฐ์ํ
- ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํตํด, ์ข ์๋ณ์์ ๊ฐ์ด ๋ ๋ฆฝ๋ณ์ ๊ฐ์ ์กฐํฉ์ผ๋ก ์ด๋ป๊ฒ ์์ธก๋๋์ง๋ฅผ ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค
- ๋น๋ชจ์์ ๋ชจ๋ธ (ํ๋ฅ ๋ถํฌ ๊ฐ์ ์์)
- ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํตํด, ์ข ์๋ณ์ ์์ธก์ ์ํ ๋ ๋ฆฝ๋ณ์ ๋ด์ ๊ณ์ธต์ ์ด๊ณ sequentialํ ๊ท์น์ ๋ณด์ฌ์ค
- ์์ ๋ ธ๋์์ ํ์ ๋ ธ๋๋ก ๊ฐ์๋ก ์ง๋จ ๋ด์์๋ ๋์ง์ฑ, ์ง๋จ ๊ฐ์๋ ์ด์ง์ฑ์ด ์ปค์ ธ์ผ ํจ
- ํํฅ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๊ฐ ๋จ๊ณ์์ ๊ฐ์ฅ ์ ํฉํ ๋ณ์๊ฐ์ ์ ํํด ๋ถํ ํจ
๊ฐ ๋ง๋์์์ ์ต์ ๋ถ๋ฆฌ๊ท์น์ ๋ถ๋ฆฌ๋ณ์์ ์ ํ๊ณผ ๋ถ๋ฆฌ๊ธฐ์ค์ ์ํด ๊ฒฐ์ ๋จ
์์ชฝ์ ์ฌ์ฉํ ๋ณ์์ผ์๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๋ถ๋ฆฌํจ - ๋ฟ๋ฆฌ๋ง๋์์ ์๋๋ก ๋ด๋ ค๊ฐ์๋ก ๊ฐ ๋ง๋์ ๋ถ์๋๋ ์ ์ฐจ ๊ฐ์ํจ (์์๋ ์ฆ๊ฐ)
- ๋ถ๋ฆฌ๋ณ์์ P์ฐจ์ ๊ณต๊ฐ์ ๋ํ ํ์ฌ ๋ถํ ์ ์ด์ ๋ถํ ์ ์ํฅ์ ๋ฐ์
- ํน์ ๋ณ์์ ๋งค์ฐ ์๊ด์ฑ์ด ๋์ ๋ค๋ฅธ ๋ถํ์ํ ๋ณ์๊ฐ ์๋๋ผ๋ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ง ์์
- ์ด์ต๋ํ๋ ๊ฒ์ ์ฉ ์๋ฃ์ ์ํ ๊ต์ฐจํ๋น์ฑ ๋ฑ์ ์ด์ฉํด ํ๊ฐํจ
ex) ๋์ถ์ ์ฉํ๊ฐ, ํ์์ฆ์์ ๋ฌด, ์ฑ๋ฌด๋ถ์ดํ ๊ฐ๋ฅ์ฑ ์์ธก
์์ฌ๊ฒฐ์ ๋๋ฌด ํ๋ก์ธ์ค
- ํ๋์ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ ํํ๊ณ ํน์ ๋ฐฉ๋ฒ๋ก ์ ์ํด ํด๋น ๋ณ์์ ๋ํ ๊ธฐ์ค๊ฐ์ ์ ํจ (=๋ถ๋ฅ ๊ท์น)
- ์ ์ฒด ๋ฐ์ดํฐ์ ์ ์๊ธฐ ๊ธฐ์ค๊ฐ๋ณด๋ค ์์ ์งํฉ๊ณผ ๊ธฐ์ค๊ฐ๋ณด๋ค ํฐ ์งํฉ์ผ๋ก ๋๋
- ๋๋ ์ง ์งํฉ์ ๋ค์ 1, 2 ๊ณผ์ ์ ๋ฐ๋ณตํจ
์ฅ์
- ์ง๊ด์ , ํด์์ด ์ฌ์
- ๊ฒฐ์ธก๊ฐ ๋์ฒ ๊ฐ๋ฅ
- ๋น๋ชจ์ ๋ชจํ & ๋น๊ต์ ๋ชจํ์ ๊ฐ์ ์ด ๊น๋ค๋กญ์ง ์์
- ๋ชจํ ์ ํ๋๋ฅผ ์ค์ํจ
- ์์นํ, ๋ฒ์ฃผํ ๊ฐ๋ฆฌ์ง ์๊ณ ๋ชจ๋ ์ฌ์ฉ ๊ฐ๋ฅ
- ๋์ฉ๋ ๋ฐ์ดํฐ๋ ๋น ๋ฅด๊ฒ ์งํ ๊ฐ๋ฅ
- ์ ๊ทํ ๋ฐ ๋จ์ ๋ณํ ํ์ ์์ (์ ์ฒ๋ฆฌ ๊ณผ์ ์ฌ์)
- ์ด์๊ฐ์ ๋ฏผ๊ฐํ์ง ์์
๋จ์
- ๊ณ์ฐ ๋น์ฉ์ด ํผ
- ๊ณผ๋ ์ ํฉ ๋ฐ์ ์ฌ์ (๋ถ์ฐ์ด ํผ)
- ๋ ๋ฆฝ๋ณ์ ๊ฐ์ ์ค์๋ ํ๋จ์ด ์ด๋ ค์
- ๋ถ๋ฅ ๊ฒฝ๊ณ์ ๊ทผ์ฒ์ ์๋ฃ์ ๋ํด ์ค์ฐจ ํผ
์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋ถ์ ๊ณผ์
์ฑ์ฅ, ๊ฐ์ง์น๊ธฐ, ํ๋น์ฑ ํ๊ฐ, ํด์ ๋ฐ ์์ธก ๋จ๊ณ
๊ฐ์ง์น๊ธฐ(pruning): ๋ถ๋ฅ ์ค๋ฅ๋ฅผ ํฌ๊ฒ ํ ์ํ์ด ๋๊ฑฐ๋ ๋ถ์ ์ ํ ๊ท์น์ ๊ฐ์ง ๊ฐ์ง๋ฅผ ์ ๊ฑฐํ๋ ์์ → ๊ณผ์ ํฉ ๋ฌธ์ ํด๊ฒฐ
๋ถ๋ฅ ๊ท์น ๊ธฐ์ค
- ์๋ ๊ธฐ์ค ์ค ํ๋๋ฅผ ์ ํํ๊ณ , ํด๋น ๊ฐ์ ๊ฐ์ฅ ๋ง์ด ๊ฐ์์์ผ ์ฃผ๋ ๊ธฐ์ค๊ฐ์ ์ ํ
- ์นด์ด์ ๊ณฑ ํต๊ณ๋
- ์ง๋ ์ง์(Gini Index): ๋ฐ์ดํฐ์ ํต๊ณ์ ๋ถ์ฐ ์ ๋๋ฅผ ์ ๋ํ ํด ํํํ ๊ฐ์ผ๋ก ๋ถํ์ค์ฑ์ ์๋ฏธํจ
๊ฐ์ ํน์ฑ์ ๊ฐ์ฒด๋ผ๋ฆฌ ์ ๋ชจ์ฌ์๋์ง ํ๋จํจ
๋ถ์๋๋ฅผ ์ธก์ ํ๋ ์งํ๋ก ๋ ธ๋์ ๋ถ์๋๋ฅผ ๋ํ๋ด๋ ๊ฐ → ํด์๋ก ์ด์ง์ ์ด๊ณ ์์๋ ๋ฎ์
$G(X)=1-\displaystyle\sum_{i=1}(p_i)^2$ - ์ํธ๋กํผ(Entropy): ์ฌ๋ฌ ์์์ ์ฌ๊ฑด์ด ๋ชจ์ฌ์๋ ์งํฉ์ ์์์ฑ(purity) ๋๋ ๋จ์ผ์ฑ(homogeneity) ๊ด์ ์ ํน์ฑ์ ์ ๋ํ ํด ํํํ ๊ฒ์ผ๋ก ๋ถ์๋ ์ฒ๋๋ฅผ ์๋ฏธํจ
๋ถํ์ค์ฑ์ ์ธก์ ํ๋ ์ฒ๋
$H(X)=-\displaystyle\sum_{i=1}p_ilog_2p_i$ * $p_i$ : ํน์ ๋ฒ์ฃผ
- ์ข ์๋ณ์๊ฐ ์ฐ์ํ(์์นํ)์ธ ๊ฒฝ์ฐ ๋ถ์ฐ์ ๊ฐ์๋์ ์ฌ์ฉ
์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ณ ๋ฆฌ์ฆ
- CART : ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ๋ชจ๋์ ์ ์ฉํ ์ ์๋ ์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ณ ๋ฆฌ์ฆ
- ์ข ์๋ณ์๊ฐ ๋ฒ์ฃผํ: ์ง๋ ์ง์ ์ฌ์ฉ
- ์ข ์๋ณ์๊ฐ ์์นํ: ๋ถ์ฐ์ ๊ฐ์๋ ์ฌ์ฉ
- C4.5 (C5.0)
- ๋ชฉํ๋ณ์ ๋ฐ๋์ ๋ฒ์ฃผํ
- ์ํธ๋กํผ ์ฌ์ฉ
- ์ ๋ณด ์ด๋(Information Gain)์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต
- CART์ ๋ค๋ฅด๊ฒ ๊ฐ node์์ ๋ค์ง๋ถ๋ฆฌ ๊ฐ๋ฅ
- CHAID
- ์ ๋ ฅ๋ณ์๊ฐ ๋ฐ๋์ ๋ฒ์ฃผํ์ด์ด์ผ ํจ
- ์ข ์๋ณ์๊ฐ ๋ฒ์ฃผํ: ์นด์ด์ ๊ณฑ ํต๊ณ๋ ์ฌ์ฉ
- ์ข
์๋ณ์๊ฐ ์์นํ: F-ํต๊ณ๋ ์ฌ์ฉ
์ข ์๋ณ์ ๋ถ๋ฅ ๊ธฐ์ค ์๊ณ ๋ฆฌ์ฆ ์ด์ฐํ ์ง๋ ์ง์ CART ์ํธ๋กํผ ์ง์ C4.5 ์นด์ด์ ๊ณฑ ํต๊ณ๋ CHAID ์ฐ์ํ ๋ถ์ฐ ๊ฐ์๋
'ADsP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
ADsP 3๊ณผ๋ชฉ 5-4 ์ธ๊ณต์ ๊ฒฝ๋ง ๋ถ์ | ์ ๋ฆฌ๐ (3) | 2024.09.30 |
---|---|
ADsP 3๊ณผ๋ชฉ 5-3 ์์๋ธ ๋ถ์ | ์ ๋ฆฌ๐ (0) | 2024.09.27 |
ADsP 3๊ณผ๋ชฉ 5-1 ๋ฐ์ดํฐ ๋ง์ด๋์ ๊ฐ์ | ์ ๋ฆฌ๐ (1) | 2024.09.25 |
ADsP 3๊ณผ๋ชฉ 4-6 ์ฃผ์ฑ๋ถ ๋ถ์ | ์ ๋ฆฌ๐ (1) | 2024.09.24 |
ADsP 3๊ณผ๋ชฉ 4-5 ๋ค์ฐจ์ ์ฒ๋๋ฒ | ์ ๋ฆฌ๐ (0) | 2024.09.23 |