ADsP 3κ³Όλͺ© 4-3 νκ·λΆμ | μ 리π
νκ·λΆμ: νλ μ΄μμ λ 립λ³μμ μ’ μλ³μμ κ΄λ ¨μ±μ μ€λͺ νλ ν΅κ³μ λͺ¨νμ μ€μ νκ³ , λ°μ΄ν°μ μ ν©ν νκ·μμ κ³μ°νμ¬ μ΄λ₯Ό ν΅ν΄ ν΅κ³μ μΆλ‘ /λΆμμ νλ κΈ°λ²
- λ 립λ³μ(μ€λͺ λ³μ, μμΈ‘λ³μ): λ€λ₯Έ λ³μμ μν₯μ μ£Όλ λ³μ
- λ°μλ³μ(μ’ μλ³μ): μν₯μ λ°λ λ³μ
- λ 립λ³μμ κ°μμ λ°λΌ λ¨μ(1κ°)/λ€μ€ μ ννκ·λΆμμΌλ‘ λλ¨
ex) KOSPI λ΄ κ°λ³ κΈ°μ
μ μκ°μ΄μ‘κ³Ό μμ΅λ₯ κ° κ΄λ ¨μ± μ°κ΅¬
κ³ κ°μ μ μ©λ, λμ΄, μ§μ
λ±μ λ³μλ₯Ό μ¬μ©νμ¬ μΉ΄λ μκ° μ¬μ©μ‘ μμΈ‘
νκ·λΆμμ νΉμ§/λͺ©μ
- λ μ’ λ₯μ λ³μ μ¬μ΄μ μΈκ³Όκ΄κ³κ° μ±λ¦½
- κ³Όκ±° λ°μ΄ν°μ μμ‘΄
- κ³Όκ±°/λ―Έλλ₯Ό μμΈ‘
- λ 립λ³μμ μ’ μλ³μ μ¬μ΄μ κ΄κ³ μμ½
- κ°λ³ λ 립λ³μμ μ€μμ± νκ°
- μ’ μλ³μμ κ° μμΈ‘
νκ·λΆμ μ μ°¨
- λ¬Έμ μ μ
- μ°μ λ 그리기
μ νμ± κ²ν / μ΄μμΉ νμ / μκ΄κ³μλ₯Ό ν΅ν΄ μ€λͺ λ ₯ νμΈ λ± - νκ·λΆμ
- νκ·μ λμΆ / ν΄μ€ (= λͺ¨μ μΆμ )
- μ΅μμ κ³±λ²: μμ°¨μ μ κ³±ν©μ΄ μ΅μκ° λλ νκ·μ μ ν
μ΄λ₯Ό ν΅ν΄ νλΌλ―Έν°λ₯Ό μΆμ νκ³ μΆμΈμ μ κ·Έλ € κ°μ μμΈ‘νλ κ²μ΄ κΈ°λ³Έμ
- μμ°¨λΆμ: λͺ¨λΈμ κ°μ μ νμΈνκ³ μ΄μμΉμ μν₯λ ₯ μλ κ΄μΈ‘μΉλ₯Ό μλ³νλ λ° μ°μ
λͺ¨νμ΄ λ°μ΄ν°λ₯Ό μ μ ν©νλμ§ νμΈνκΈ° μν΄ μμ°¨ κ·Έλνλ₯Ό κ·Έλ¦¬κ³ νκ·μ§λ¨μ ν¨- μ κ·μ± / λ±λΆμ°μ± / λ λ¦½μ± κ²ν (λ³μλ€ μ¬μ΄μ μ μν κ΄κ³μμ)
- κ²°λ‘
νκ·λΆμμ μ’ λ₯
- λ
립λ³μκ° ν κ°: λ¨μ μ ννκ·λͺ¨ν(λͺ¨ν(λͺ¨μ)μ hat μμ)
$y_i = β_0 + β_1x_i + ε_i$
μ€μ°¨λ μ κ·λΆν¬ $N(0, σ²)$μ λ°λ¦
μ€μ°¨νμ λΆμ°μ λΆνΈμΆμ λ = μμ°¨μ νκ· μ κ³±- μΆμ ν λ¨μνκ·μ
$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i$
- μΆμ ν λ¨μνκ·μ
- λ€μ€ μ ννκ·λͺ¨ν: μ€μν λ
립λ³μμ μΆμ κ³μκ° ν΄μλ‘ μ’
μλ³μμ μν₯μ΄ νΌ
$β_0$κ° μλ νμ€ν μΆμ μμ λ§λ€κ² λλ©΄ κ° κ³μμ ν¬κΈ°λ₯Ό λμ± μ νν μ μ μμ- F-κ²μ¦, t-κ²μ¦, R² κ²μ¦μ ν΅ν΄ κ²°κ³Ό κ²μ¦ μ€ν
- μ’ μλ³μκ° 2κ° μ΄μ: λ€λ³λ νκ·λͺ¨ν
- μ’ μλ³μκ° λ²μ£Όν(0 or 1): λ‘μ§μ€ν± νκ·λͺ¨ν
νκ·λΆμμ κ°μ
- μ νμ±: λ 립/μ’ μ λ³μ κ° μ νμ κ΄κ³
- λ
립μ±: λ
립λ³μμ μ€μ°¨ κ° κ°μ΄ μλ‘ λ
립
- λ€μ€νκ·λΆμμ κ²½μ° λ
립λ³μ κ°μ μκ΄μ±μ΄ μμ΄μΌ ν¨ ↔ λ€μ€κ³΅μ μ±
$H_0$: λ 립λ³μμ κΈ°μΈκΈ°(νκ·κ³μ)κ° 0
- λ€μ€νκ·λΆμμ κ²½μ° λ
립λ³μ κ°μ μκ΄μ±μ΄ μμ΄μΌ ν¨ ↔ λ€μ€κ³΅μ μ±
- λ±λΆμ°μ±: μμ°¨μ λΆμ°μ΄ λ
립λ³μμ μκ΄μμ΄ μΌμ (μμ°¨λ€μ΄ κ³ λ₯΄κ² λΆν¬)
- μ κ·μ±(μ μμ±): μμ°¨νμ λΆν¬λ μ κ·λΆν¬ (νκ· = 0)
- μμ°¨λΆμμ μ€μ°¨ μ κ·μ± κ²μ
νμ€ν κ·Έλ¨, μ λν, Q-Q plot, Shapiro-Wilk Test, Anderson-Darling test λ±- μ κ·νλ₯ κ·Έλ¦Ό(Q-Q plot): μ κ·μ±μ νκ°νλ λκ΅¬μΌ λΏ μ λμ μΈ κΈ°μ€μ μλ
- μμ°¨κ° μΌλ°μ μΌλ‘ μ κ·μ±μ λ§μ‘±νμ§ μμ κ²½μ°, logλ rootλ₯Ό μ·¨ν΄ μ κ·λΆν¬λ₯Ό μ·¨νλλ‘ ν¨
- νκ·λΆμμ΄ μ λμλ€λ©΄ μμ°¨λ λ μ΄μ λ 립λ³μμ μκ΄κ΄κ³ X
- νκ· μ΄ μΌμ ν¨
- μμ°¨λΆμμ μ€μ°¨ μ κ·μ± κ²μ
- λΉμκ΄μ±: μ€μ°¨ κ° λ λ¦½μ± - μ ννκ·λΆμ
*μ€μ°¨: λͺ¨μ§λ¨μ λ°μ΄ν°λ₯Ό νμ©νμ¬ νκ·μμ ꡬν κ²½μ° μμΈ‘κ°κ³Ό μ€μ κ°μ μ°¨μ΄
*μμ°¨: λͺ¨μ§λ¨μ νΉμ ν μ μλ νλ³Έμ§λ¨μΌλ‘ νκ·μμ μΆμ ν λ, νκ·μμ μμΈ‘κ°κ³Ό μ€μ κ°μ μ°¨μ΄
νκ·λΆμμ κ²μ
μ ννκ·λΆμμ κ²μ : F-κ²μ , t-κ²μ
- νκ·μμ λν κ²μ : F-κ²μ
- νκ· λͺ¨νμ ν΅κ³μ μ μμ± νμΈ
- λΆμ°μ μ°¨μ΄κ° ν¬λ€λ κ²μ νκ·κ³μκ° ν¬λ€λ μλ―Έ
- λ νλ³Έμ λΆμ°μ΄ λμΌνμ§ λΉκ΅νλ λΆμ°λΉ κ²μ μ μ¬μ©ν¨
- νκ·κ³μμ λν μ μμ± κ²μ : t-κ²μ
t-ν΅κ³λ: νκ·κ³μ ÷ νμ€μ€μ°¨ - κ²°μ κ³μ(R-squared): λͺ¨νμ μ€λͺ
λ ₯μ λνλ΄λ κ°
κ°μ΄ ν΄μλ‘ νκ·μ μΌλ‘ μ€μ κ΄μ°°μΉλ₯Ό μμΈ‘νλ λ° μ νμ±μ΄ λμ
νκ·μμ κΈ°μΈκΈ°μ κ΄κ³ X- νκ·μ κ³±ν©(SSR) + μ€μ°¨ μ κ³±ν©(SSE) = μ 체 μ κ³±ν©(SST)
μ΄ μ κ³±ν© μ€ μ€λͺ λ μ κ³±ν©μ λΉμ¨
$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$ - λ¨μ μ ννκ·λͺ¨νμ κ²°μ κ³μλ μκ΄κ³μμ μ κ³±κ³Ό κ°μ
- λ
립λ³μκ° λ§μμ§λ©΄ μν₯μ΄ μ λλΌλ κ²°μ κ³μλ λμμ§
λ 립λ³μμ μ’ μλ³μ κ°μ νλ³Έμκ΄κ³μ rμ μ κ³±κ°κ³Ό κ°μ - μμ κ²°μ κ³μ(Adjusted R-squared): λ€μ€νκ·λΆμμμ μ΅μ λͺ¨ν μ μ κΈ°μ€μΌλ‘ μ¬μ©ν¨
μ μνμ§ μμ λ 립λ³μλ€μ΄ νκ·μμ ν¬ν¨λμμ λ κ°μ΄ κ°μν¨
- νκ·μ κ³±ν©(SSR) + μ€μ°¨ μ κ³±ν©(SSE) = μ 체 μ κ³±ν©(SST)
- μμ°¨ μ κ·μ± κ²μ : Shapiro-Wilk Test ($H_0$: μ κ·λΆν¬)
- μμ°¨ μκΈ° μκ΄μ± κ²μ : λλΉ μμ¨ κ²μ (Durbin-Watson Test) ($H_0$: μκΈ° μκ΄μ± X)
νκ·λΆμμμ μ€μ°¨νμ΄ μλ‘ μ°κ΄μ±μ΄ μμ΄μΌ ν¨
μκΈ° μκ΄μ±μ΄ μλ€λ©΄ μκ³μ΄ λΆμ λ± λ€λ₯Έ λ°©λ²μ μνν΄μΌ ν¨- μ€μ°¨νμ΄ μκ΄κ΄κ³λ₯Ό κ°λ κ²½μ°(μκ³μ΄ λ°μ΄ν°μ κ²½μ°)
ex) 겨μΈμ ν¨λ©μ΄ μ νλ¦Ό, μ£Όμ
- μ€μ°¨νμ΄ μκ΄κ΄κ³λ₯Ό κ°λ κ²½μ°(μκ³μ΄ λ°μ΄ν°μ κ²½μ°)
μ€μ¦(Odds) = μ±κ³΅νλ₯ ÷ μ€ν¨νλ₯
λ€μ€κ³΅μ μ±(Multicollinearity)
μ€λͺ
λ³μλ€ μ¬μ΄μ κ°ν μκ΄κ΄κ³κ° μ‘΄μ¬νλ νμ
- λΆμ°νλμΈμ(VIF; Variance Inflation Factor)λ₯Ό μ΄μ©ν΄ νμΈ
VIFκ° 10λ³΄λ€ ν° κ²½μ° μ λ’°λ κ°μ
νλ³Έμκ° μ¦κ°ν΄λ VIFμμ μΌλ°κ²°μ κ³μλ ν¬κ² λ³νμ§ μμ - νκ·κ³μ μΆμ μ λ¬Έμ κ° μκΈ°κ³ λͺ¨νμ ν΄μ/μμΈ‘μ΄ μ΄λ €μμ§
- νκ·κ³μ μΆμ μΉμ λΆμ°μ΄ μ¦κ°νμ¬ μ λ’°λ κ°μ
- νκ·κ³μμ λΆνΈκ° λ°λλ‘ λμ¬ μ μμ
- λ 립λ³μμ μ’ μλ³μ κ° κ΄κ³μ± νμ μ΄ μ΄λ €μμ§
- λμ μκ΄κ΄κ³μ μλ μ€λͺ λ³μμ λν κ³μλ νλ³Έμ ν¬κΈ°κ° λ¬λΌμ§λ©΄ λ³ν μ μμ
- λμ μκ΄κ΄κ³κ° μλ λ³μλ₯Ό μ κ±°νλ©΄ λ€λ₯Έ λ³μμ μΆμ κ³μμ μν₯μ λ―ΈμΉ¨
λ€μ€κ³΅μ μ± ν΄κ²° λ°©λ²
- λ³μ μ κ±°: μκ΄κ΄κ³κ° λμ λ³μ μ€ νλλ₯Ό μ κ±°
- λ³μ λ³ν: λ³μ κ° μ‘°ν©μΌλ‘ μλ‘μ΄ λ³μλ₯Ό μμ±/λ³ν
- Rμμ μ€ν¬λ¦¬ μ°μ λ(Scree plot)λ₯Ό μ¬μ©ν΄ μ£Όμ±λΆ κ°μ μ ν
- λ³μμ μ°¨μ μΆμ(λ΄μ¬μ μμ±μ 보쑴νλ©° λ°μ΄ν° μΆμ)
- μ£Όμ±λΆ λΆμ(PCA)
- μ ννλ³λΆμ(LDA)
- t-λΆν¬ νλ₯ μ μλ² λ©(t-SNE)
- νΉμκ° λΆν΄(SVD): PCAμ λ¬λ¦¬ μ΄λ€ νλ ¬μλ μ μ©ν μ μμ
- ꡬ쑰μ λ€μ€κ³΅μ μ±μ λ¬Έμ κ° μλ κ²½μ°, λ°μ΄ν°μ νκ· μ€μ¬μ λ°κΏ
μ΅μ μ νκ· μ ν©μ
κ°λ₯ν λͺ¨λ λ
립λ³μ μ‘°ν©μ νκ· λΆμμ μ€μν¨
κ°λ₯ν μ μ μμ μ€λͺ
λ³μλ₯Ό ν¬ν¨μν΄
- λ¨κ³μ λ³μ μ ν
- μ μ§ μ νλ²(Forward Selection): μμ λͺ¨νλΆν° μ€λͺ
λ³μλ₯Ό νλμ© μ°¨λ‘λ‘ μΆκ°νμ¬ μ ν©
μ κ³±ν©μ κΈ°μ€μΌλ‘ κ°μ₯ μ€λͺ μ μνλ λ³μλ₯Ό κ³ λ €νμ¬ κ·Έ λ³μκ° μ μνλ©΄ μΆκ°ν¨- λ³μκ° μΆκ°λλ©΄ κΈ°μ‘΄ λ³μλ€μ μ€μλμ μν₯μ λ°κ² λ¨
λ³μλ₯Ό μΆκ°νλλ° μ΄λ―Έ μ νλ λ³μμ μ μμμ€μ΄ λμμ§λ©΄ μΆκ°ν λ³μλ₯Ό νμ©νμ§ λͺ»νκ² λ¨
- λ³μκ° μΆκ°λλ©΄ κΈ°μ‘΄ λ³μλ€μ μ€μλμ μν₯μ λ°κ² λ¨
- νμ§ μ κ±°λ²(Backward Elimination): λͺ¨λ λ
립λ³μλΆν° μμνμ¬ κ°μ₯ μν₯μ΄ μ μ λ
립λ³μλ₯Ό νλμ© μ κ±°νλ©΄μ λ μ΄μ μ κ±°ν λ³μκ° μμ λμ λͺ¨νμ μ νν¨
step(model, direction = “backward”) - λ¨κ³ μ νλ²(Stepwise Method): μ μ§ μ νλ²μΌλ‘ μΆλ°νλ μ¬μ μ μ μν κΈ°μ€μ μν΄ μ μνμ§ μμ λ³μλ μ κ±°νκ³ λ€λ₯Έ λ³μλ₯Ό μΆκ°ν¨
κΈ°μ‘΄ λͺ¨νμμ μμΈ‘ λ³μλ₯Ό μΆκ° · μ κ±°λ₯Ό λ°λ³΅ν΄ μ΅μ μ λͺ¨νμ μ°Ύλ λ°©λ²
- μ μ§ μ νλ²(Forward Selection): μμ λͺ¨νλΆν° μ€λͺ
λ³μλ₯Ό νλμ© μ°¨λ‘λ‘ μΆκ°νμ¬ μ ν©
- λ³μ μ ν κΈ°μ€
Kλ λ 립λ³μμ κ°μ, μμμλ‘ μ’μ- AIC: $-2logL + 2K$
start AIC λ³΄λ€ μμ κ° μ€μ κ°μ₯ μμ λ³μλ₯Ό μ κ±°νκ³ λ¨μ μ€λͺ λ³μλ‘ λ€μ λ¨κ³ μ§ν - BIC: $-2logL + Klogn$
- λ©λ‘μ° Cp
- AIC: $-2logL + 2K$
μ κ·ν μ ννκ·
λΌμ(Lasso)μ λ¦Ώμ§(Ridge)λ μ ννκ· λͺ¨λΈμμ κ³Όμ ν©μ μ€μ΄κΈ° μν μ κ·ν κΈ°λ²
λͺ¨λΈμ 볡μ‘μ±μ μ‘°μ νκ³ λ³μμ κ³μλ₯Ό μΆμνμ¬ μΌλ°ν μ±λ₯ ν₯μ
- Lasso: λͺ¨νμ ν¬ν¨λ νκ·κ³μμ μ λκ°μ΄ ν΄μλ‘ ν¨λν°λ₯Ό λΆμ¬νλ λ°©μ
- νκ·κ³μλ€μ μ λκ°μ ν¬κΈ°κ° ν΄μλ‘ penaltyλ₯Ό λΆμ¬ν¨
λͺ¨μ Lambda κ°μΌλ‘ penalty μ λλ₯Ό μ‘°μ ν¨
L1-Loss (=L1-Penalty) - νΉμ λ³μμ νκ·κ³μλ₯Ό 0μΌλ‘ μΆμνλ ν¨κ³Ό (μλμ λ³μ μ ν)
- νκ·κ³μλ€μ μ λκ°μ ν¬κΈ°κ° ν΄μλ‘ penaltyλ₯Ό λΆμ¬ν¨
- Ridge
- νκ·κ³μλ€μ μ κ³±ν©μ μ΅μμ κ³±λ²μ penaltyλ‘ μ¬μ©
L2-Loss (=L2-Penalty) - λͺ¨λ λ³μμ νκ·κ³μλ₯Ό μ‘°κΈμ© μΆμνλ κ²½ν₯
- νκ·κ³μλ€μ μ κ³±ν©μ μ΅μμ κ³±λ²μ penaltyλ‘ μ¬μ©
- μλΌμ€ν±λ·: λ¦Ώμ§μ λΌμλ₯Ό κ²°ν©ν λͺ¨λΈ