ADsP

ADsP 3κ³Όλͺ© 4-3 νšŒκ·€λΆ„μ„ | μ •λ¦¬πŸ“

studyrooom 2024. 9. 19. 17:35
SMALL

νšŒκ·€λΆ„μ„: ν•˜λ‚˜ μ΄μƒμ˜ λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜μ˜ 관련성을 μ„€λͺ…ν•˜λŠ” 톡계적 λͺ¨ν˜•을 μ„€μ •ν•˜κ³ , 데이터에 μ ν•©ν•œ νšŒκ·€μ‹μ„ κ³„μ‚°ν•˜μ—¬ 이λ₯Ό 톡해 톡계적 μΆ”λ‘ /뢄석을 ν•˜λŠ” 기법

  • λ…λ¦½λ³€μˆ˜(μ„€λͺ…λ³€μˆ˜, μ˜ˆμΈ‘λ³€μˆ˜): λ‹€λ₯Έ λ³€μˆ˜μ— 영ν–₯을 μ£ΌλŠ” λ³€μˆ˜
  • λ°˜μ‘λ³€μˆ˜(μ’…μ†λ³€μˆ˜): 영ν–₯을 λ°›λŠ” λ³€μˆ˜
  • λ…λ¦½λ³€μˆ˜μ˜ κ°œμˆ˜μ— 따라 λ‹¨μˆœ(1개)/닀쀑 μ„ ν˜•νšŒκ·€λΆ„μ„μœΌλ‘œ λ‚˜λ‰¨

ex) KOSPI λ‚΄ κ°œλ³„ κΈ°μ—…μ˜ μ‹œκ°€μ΄μ•‘κ³Ό 수읡λ₯  κ°„ κ΄€λ ¨μ„± 연ꡬ
고객의 μ‹ μš©λ„, λ‚˜μ΄, 직업 λ“±μ˜ λ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ μΉ΄λ“œ μ›”κ°„ μ‚¬μš©μ•‘ 예츑

 

νšŒκ·€λΆ„μ„μ˜ νŠΉμ§•/λͺ©μ 

  • 두 μ’…λ₯˜μ˜ λ³€μˆ˜ 사이에 인과관계가 성립
  • κ³Όκ±° 데이터에 의쑴
  • κ³Όκ±°/미래λ₯Ό 예츑
  • λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜ μ‚¬μ΄μ˜ 관계 μš”μ•½
  • κ°œλ³„ λ…λ¦½λ³€μˆ˜μ˜ μ€‘μš”μ„± 평가
  • μ’…μ†λ³€μˆ˜μ˜ κ°’ 예츑

 

νšŒκ·€λΆ„μ„ 절차

  1. 문제 μ •μ˜
  2. 산점도 그리기
    μ„ ν˜•μ„± κ²€ν†  / μ΄μƒμΉ˜ 탐색 / μƒκ΄€κ³„μˆ˜λ₯Ό 톡해 μ„€λͺ…λ ₯ 확인 λ“±
  3. νšŒκ·€λΆ„μ„
    • νšŒκ·€μ‹ λ„μΆœ / ν•΄μ„€ (= λͺ¨μˆ˜ μΆ”μ •)
    • μ΅œμ†Œμ œκ³±λ²•: μž”μ°¨μ˜ μ œκ³±ν•©μ΄ μ΅œμ†Œκ°€ λ˜λŠ” νšŒκ·€μ‹ 선택
      이λ₯Ό 톡해 νŒŒλΌλ―Έν„°λ₯Ό μΆ”μ •ν•˜κ³  좔세선을 κ·Έλ € 값을 μ˜ˆμΈ‘ν•˜λŠ” 것이 κΈ°λ³Έμž„
    μž”μ°¨: μ‹€μ œ κ΄€μΈ‘μΉ˜μ™€ μΆ”μ„Έμ‹μœΌλ‘œ μ˜ˆμΈ‘ν•œ 점 사이 거리λ₯Ό μ œκ³±ν•΄ λ”ν•œ κ°’

  4. μž”μ°¨λΆ„μ„: λͺ¨λΈμ˜ 가정을 ν™•μΈν•˜κ³  μ΄μƒμΉ˜μ™€ 영ν–₯λ ₯ μžˆλŠ” κ΄€μΈ‘μΉ˜λ₯Ό μ‹λ³„ν•˜λŠ” 데 μ“°μž„
    λͺ¨ν˜•이 데이터λ₯Ό 잘 μ ν•©ν•˜λŠ”μ§€ ν™•μΈν•˜κΈ° μœ„ν•΄ μž”μ°¨ κ·Έλž˜ν”„λ₯Ό 그리고 νšŒκ·€μ§„λ‹¨μ„ 함
    • μ •κ·œμ„± / λ“±λΆ„μ‚°μ„± / 독립성 κ²€ν† (λ³€μˆ˜λ“€ 사이에 μœ μ˜ν•œ κ΄€κ³„μ—†μŒ)
  5. κ²°λ‘ 

 

νšŒκ·€λΆ„μ„μ˜ μ’…λ₯˜

  • λ…λ¦½λ³€μˆ˜κ°€ ν•œ 개: λ‹¨μˆœ μ„ ν˜•νšŒκ·€λͺ¨ν˜•(λͺ¨ν˜•(λͺ¨μˆ˜)은 hat μ—†μŒ)
    $y_i = β_0 + β_1x_i + ε_i$
    μ˜€μ°¨λŠ” μ •κ·œλΆ„ν¬ $N(0, σ²)$을 λ”°λ¦„ 
    μ˜€μ°¨ν•­μ˜ λΆ„μ‚°μ˜ λΆˆνŽΈμΆ”μ •λŸ‰ = μž”μ°¨μ˜ ν‰κ· μ œκ³±
    • μΆ”μ •ν•œ λ‹¨μˆœνšŒκ·€μ‹
      $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i$
  • 닀쀑 μ„ ν˜•νšŒκ·€λͺ¨ν˜•: μ€‘μš”ν•œ λ…λ¦½λ³€μˆ˜μ˜ μΆ”μ • κ³„μˆ˜κ°€ 클수둝 μ’…μ†λ³€μˆ˜μ— 영ν–₯이 큼
    $β_0$κ°€ μ—†λŠ” ν‘œμ€€ν™” 좔정식을 λ§Œλ“€κ²Œ 되면 각 κ³„μˆ˜μ˜ 크기λ₯Ό λ”μš± μ •ν™•νžˆ μ•Œ 수 있음
    • F-검증, t-검증, R² 검증을 톡해 κ²°κ³Ό 검증 μ‹€ν–‰
  • μ’…μ†λ³€μˆ˜κ°€ 2개 이상: λ‹€λ³€λŸ‰ νšŒκ·€λͺ¨ν˜•
  • μ’…μ†λ³€μˆ˜κ°€ λ²”μ£Όν˜•(0 or 1): λ‘œμ§€μŠ€ν‹± νšŒκ·€λͺ¨ν˜•

 

 

νšŒκ·€λΆ„μ„μ˜ κ°€μ •

  • μ„ ν˜•μ„±: 독립/쒅속 λ³€μˆ˜ κ°„ μ„ ν˜•μ  관계
  • 독립성: λ…λ¦½λ³€μˆ˜μ™€ 였차 κ°„ 값이 μ„œλ‘œ 독립
    • λ‹€μ€‘νšŒκ·€λΆ„μ„μ˜ 경우 λ…λ¦½λ³€μˆ˜ 간에 상관성이 μ—†μ–΄μ•Ό 함 ↔ 닀쀑곡선성
      $H_0$: λ…λ¦½λ³€μˆ˜μ˜ 기울기(νšŒκ·€κ³„μˆ˜)κ°€ 0
  • λ“±λΆ„μ‚°μ„±: μž”μ°¨μ˜ 뢄산이 λ…λ¦½λ³€μˆ˜μ™€ 상관없이 일정(μž”μ°¨λ“€μ΄ κ³ λ₯΄κ²Œ 뢄포)
  • μ •κ·œμ„±(정상성): μž”μ°¨ν•­μ˜ λΆ„ν¬λŠ” μ •κ·œλΆ„ν¬ (평균 = 0)
    • μž”μ°¨λΆ„μ„μ˜ 였차 μ •κ·œμ„± κ²€μ •
      νžˆμŠ€ν† κ·Έλž¨, μ λ„ν‘œ, Q-Q plot, Shapiro-Wilk Test, Anderson-Darling test λ“±
      • μ •κ·œν™•λ₯ κ·Έλ¦Ό(Q-Q plot): μ •κ·œμ„±μ„ ν‰κ°€ν•˜λŠ” 도ꡬ일 뿐 μ ˆλŒ€μ μΈ 기쀀은 μ•„λ‹˜
    • μž”μ°¨κ°€ 일반적으둜 μ •κ·œμ„±μ„ λ§Œμ‘±ν•˜μ§€ μ•Šμ„ 경우, logλ‚˜ rootλ₯Ό μ·¨ν•΄ μ •κ·œλΆ„ν¬λ₯Ό μ·¨ν•˜λ„λ‘ 함
    • νšŒκ·€λΆ„μ„μ΄ 잘 λ˜μ—ˆλ‹€λ©΄ μž”μ°¨λŠ” 더 이상 λ…λ¦½λ³€μˆ˜μ™€ 상관관계 X
    • 평균이 일정함
  • 비상관성: 였차 κ°„ 독립성 - μ„ ν˜•νšŒκ·€λΆ„μ„

 

*였차: λͺ¨μ§‘λ‹¨μ˜ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ νšŒκ·€μ‹μ„ κ΅¬ν•œ 경우 μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œ κ°’μ˜ 차이

*μž”μ°¨: λͺ¨μ§‘단을 νŠΉμ •ν•  수 μ—†λŠ” ν‘œλ³Έμ§‘λ‹¨μœΌλ‘œ νšŒκ·€μ‹μ„ μΆ”μ •ν•  λ•Œ, νšŒκ·€μ‹μ˜ μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œ κ°’μ˜ 차이

 

 

νšŒκ·€λΆ„μ„μ˜ κ²€μ •
μ„ ν˜•νšŒκ·€λΆ„μ„μ˜ κ²€μ •: F-κ²€μ •, t-κ²€μ •

  • νšŒκ·€μ‹μ— λŒ€ν•œ κ²€μ •: F-κ²€μ •
    • νšŒκ·€ λͺ¨ν˜•μ˜ 톡계적 μœ μ˜μ„± 확인
    • λΆ„μ‚°μ˜ 차이가 ν¬λ‹€λŠ” 것은 νšŒκ·€κ³„μˆ˜κ°€ ν¬λ‹€λŠ” 의미
    • 두 ν‘œλ³Έμ˜ 뢄산이 λ™μΌν•œμ§€ λΉ„κ΅ν•˜λŠ” λΆ„μ‚°λΉ„ 검정에 μ‚¬μš©ν•¨
  • νšŒκ·€κ³„μˆ˜μ— λŒ€ν•œ μœ μ˜μ„± κ²€μ •: t-κ²€μ •
    t-ν†΅κ³„λŸ‰: νšŒκ·€κ³„μˆ˜ ÷ ν‘œμ€€μ˜€μ°¨
  • κ²°μ •κ³„μˆ˜(R-squared): λͺ¨ν˜•μ˜ μ„€λͺ…λ ₯을 λ‚˜νƒ€λ‚΄λŠ” κ°’
    값이 클수둝 νšŒκ·€μ„ μœΌλ‘œ μ‹€μ œ κ΄€μ°°μΉ˜λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 데 정확성이 λ†’μŒ
    νšŒκ·€μ‹μ˜ κΈ°μšΈκΈ°μ™€ 관계 X
    • νšŒκ·€μ œκ³±ν•©(SSR) + 였차 μ œκ³±ν•©(SSE) = 전체 μ œκ³±ν•©(SST)
      총 μ œκ³±ν•© 쀑 μ„€λͺ…λœ μ œκ³±ν•©μ˜ λΉ„μœ¨
      $R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
    • λ‹¨μˆœ μ„ ν˜•νšŒκ·€λͺ¨ν˜•μ˜ κ²°μ •κ³„μˆ˜λŠ” μƒκ΄€κ³„μˆ˜μ˜ 제곱과 κ°™μŒ
    • λ…λ¦½λ³€μˆ˜κ°€ λ§Žμ•„μ§€λ©΄ 영ν–₯이 적더라도 κ²°μ •κ³„μˆ˜λŠ” 높아짐
      λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜ κ°„μ˜ ν‘œλ³Έμƒκ΄€κ³„μˆ˜ r의 μ œκ³±κ°’κ³Ό κ°™μŒ
    • μˆ˜μ • κ²°μ •κ³„μˆ˜(Adjusted R-squared): λ‹€μ€‘νšŒκ·€λΆ„μ„μ—μ„œ 졜적 λͺ¨ν˜• μ„ μ •κΈ°μ€€μœΌλ‘œ μ‚¬μš©ν•¨
      μœ μ˜ν•˜μ§€ μ•Šμ€ λ…λ¦½λ³€μˆ˜λ“€μ΄ νšŒκ·€μ‹μ— ν¬ν•¨λ˜μ—ˆμ„ λ•Œ 값이 κ°μ†Œν•¨
  • μž”μ°¨ μ •κ·œμ„± κ²€μ •: Shapiro-Wilk Test ($H_0$: μ •κ·œλΆ„ν¬)
  • μž”μ°¨ 자기 상관성 κ²€μ •: λ”λΉˆ μ™“μŠ¨ κ²€μ •(Durbin-Watson Test) ($H_0$: 자기 상관성 X)
    νšŒκ·€λΆ„μ„μ—μ„  μ˜€μ°¨ν•­μ΄ μ„œλ‘œ 연관성이 μ—†μ–΄μ•Ό 함
    자기 상관성이 μžˆλ‹€λ©΄ μ‹œκ³„μ—΄ 뢄석 λ“± λ‹€λ₯Έ 방법을 μˆ˜ν–‰ν•΄μ•Ό 함
    • μ˜€μ°¨ν•­μ΄ 상관관계λ₯Ό κ°–λŠ” 경우(μ‹œκ³„μ—΄ λ°μ΄ν„°μ˜ 경우)
      ex) κ²¨μšΈμ— νŒ¨λ”©μ΄ 잘 νŒ”λ¦Ό, 주식

였즈(Odds) = 성곡확λ₯  ÷ μ‹€νŒ¨ν™•λ₯ 

 

 

닀쀑곡선성(Multicollinearity)
μ„€λͺ… λ³€μˆ˜λ“€ 사이에 κ°•ν•œ 상관관계가 μ‘΄μž¬ν•˜λŠ” ν˜„μƒ

  • λΆ„μ‚°ν™•λŒ€μΈμž(VIF; Variance Inflation Factor)λ₯Ό μ΄μš©ν•΄ 확인
    VIFκ°€ 10보닀 큰 경우 신뒰도 κ°μ†Œ
    ν‘œλ³Έμˆ˜κ°€ 증가해도 VIFμ—μ„œ μΌλ°˜κ²°μ •κ³„μˆ˜λŠ” 크게 λ³€ν•˜μ§€ μ•ŠμŒ
  • νšŒκ·€κ³„μˆ˜ 좔정에 λ¬Έμ œκ°€ 생기고 λͺ¨ν˜•μ˜ 해석/예츑이 μ–΄λ €μ›Œμ§
  • νšŒκ·€κ³„μˆ˜ μΆ”μ •μΉ˜μ˜ 뢄산이 μ¦κ°€ν•˜μ—¬ 신뒰도 κ°μ†Œ
  • νšŒκ·€κ³„μˆ˜μ˜ λΆ€ν˜Έκ°€ λ°˜λŒ€λ‘œ λ‚˜μ˜¬ 수 있음
  • λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜ κ°„ 관계성 νŒŒμ•…μ΄ μ–΄λ €μ›Œμ§
  • 높은 상관관계에 μžˆλŠ” μ„€λͺ…λ³€μˆ˜μ— λŒ€ν•œ κ³„μˆ˜λŠ” ν‘œλ³Έμ˜ 크기가 달라지면 λ³€ν•  수 있음
  • 높은 상관관계가 μžˆλŠ” λ³€μˆ˜λ₯Ό μ œκ±°ν•˜λ©΄ λ‹€λ₯Έ λ³€μˆ˜μ˜ μΆ”μ • κ³„μˆ˜μ— 영ν–₯을 λ―ΈμΉ¨

닀쀑곡선성 ν•΄κ²° 방법

  • λ³€μˆ˜ 제거: 상관관계가 높은 λ³€μˆ˜ 쀑 ν•˜λ‚˜λ₯Ό 제거
  • λ³€μˆ˜ λ³€ν™˜: λ³€μˆ˜ κ°„ μ‘°ν•©μœΌλ‘œ μƒˆλ‘œμš΄ λ³€μˆ˜λ₯Ό 생성/λ³€ν™˜
  • Rμ—μ„œ 슀크리 산점도(Scree plot)λ₯Ό μ‚¬μš©ν•΄ μ£Όμ„±λΆ„ 개수 선택
  • λ³€μˆ˜μ˜ 차원 μΆ•μ†Œ(λ‚΄μž¬μ  속성을 λ³΄μ‘΄ν•˜λ©° 데이터 μΆ•μ†Œ)
    • μ£Όμ„±λΆ„ 뢄석(PCA)
    • μ„ ν˜•νŒλ³„λΆ„μ„(LDA)
    • t-뢄포 ν™•λ₯ μ  μž„λ² λ”©(t-SNE)
    • νŠΉμž‡κ°’ λΆ„ν•΄(SVD): PCA와 달리 μ–΄λ–€ 행렬에도 μ μš©ν•  수 있음
  • ꡬ쑰적 λ‹€μ€‘κ³΅μ„ μ„±μ˜ λ¬Έμ œκ°€ μžˆλŠ” 경우, λ°μ΄ν„°μ˜ 평균 쀑심을 λ°”κΏˆ

 

졜적의 νšŒκ·€ 적합식
κ°€λŠ₯ν•œ λͺ¨λ“  λ…λ¦½λ³€μˆ˜ μ‘°ν•©μ˜ νšŒκ·€ 뢄석을 μ‹€μ‹œν•¨
κ°€λŠ₯ν•œ 적은 수의 μ„€λͺ…λ³€μˆ˜λ₯Ό ν¬ν•¨μ‹œν‚΄

  • 단계적 λ³€μˆ˜ 선택
    • μ „μ§„ 선택법(Forward Selection): μƒμˆ˜ λͺ¨ν˜•λΆ€ν„° μ„€λͺ…λ³€μˆ˜λ₯Ό ν•˜λ‚˜μ”© μ°¨λ‘€λ‘œ μΆ”κ°€ν•˜μ—¬ 적합
      μ œκ³±ν•©μ˜ κΈ°μ€€μœΌλ‘œ κ°€μž₯ μ„€λͺ…을 μž˜ν•˜λŠ” λ³€μˆ˜λ₯Ό κ³ λ €ν•˜μ—¬ κ·Έ λ³€μˆ˜κ°€ μœ μ˜ν•˜λ©΄ 좔가함
      • λ³€μˆ˜κ°€ μΆ”κ°€λ˜λ©΄ κΈ°μ‘΄ λ³€μˆ˜λ“€μ˜ μ€‘μš”λ„μ— 영ν–₯을 λ°›κ²Œ 됨
        λ³€μˆ˜λ₯Ό μΆ”κ°€ν–ˆλŠ”λ° 이미 μ„ νƒλœ λ³€μˆ˜μ˜ μœ μ˜μˆ˜μ€€μ΄ λ†’μ•„μ§€λ©΄ μΆ”κ°€ν•œ λ³€μˆ˜λ₯Ό ν™œμš©ν•˜μ§€ λͺ»ν•˜κ²Œ 됨
    • ν›„μ§„ μ œκ±°λ²•(Backward Elimination): λͺ¨λ“  λ…λ¦½λ³€μˆ˜λΆ€ν„° μ‹œμž‘ν•˜μ—¬ κ°€μž₯ 영ν–₯이 적은 λ…λ¦½λ³€μˆ˜λ₯Ό ν•˜λ‚˜μ”© μ œκ±°ν•˜λ©΄μ„œ 더 이상 μ œκ±°ν•  λ³€μˆ˜κ°€ 없을 λ•Œμ˜ λͺ¨ν˜•을 선택함
      step(model, direction = “backward”)
    • 단계 선택법(Stepwise Method): μ „μ§„ μ„ νƒλ²•μœΌλ‘œ μΆœλ°œν•˜λ‚˜ 사전에 μ •μ˜ν•œ 기쀀에 μ˜ν•΄ μœ μ˜ν•˜μ§€ μ•Šμ€ λ³€μˆ˜λŠ” μ œκ±°ν•˜κ³  λ‹€λ₯Έ λ³€μˆ˜λ₯Ό 좔가함
      κΈ°μ‘΄ λͺ¨ν˜•μ—μ„œ 예츑 λ³€μˆ˜λ₯Ό μΆ”κ°€ · 제거λ₯Ό λ°˜λ³΅ν•΄ 졜적의 λͺ¨ν˜•을 μ°ΎλŠ” 방법
  • λ³€μˆ˜ 선택 κΈ°μ€€
    KλŠ” λ…λ¦½λ³€μˆ˜μ˜ 개수, μž‘μ„μˆ˜λ‘ μ’‹μŒ
    • AIC: $-2logL + 2K$
      start AIC 보닀 μž‘μ€ κ°’ 쀑에 κ°€μž₯ μž‘μ€ λ³€μˆ˜λ₯Ό μ œκ±°ν•˜κ³  남은 μ„€λͺ…λ³€μˆ˜λ‘œ λ‹€μŒ 단계 μ§„ν–‰
    • BIC: $-2logL + Klogn$
    • 멜둜우 Cp

 

μ •κ·œν™” μ„ ν˜•νšŒκ·€
라쏘(Lasso)와 λ¦Ώμ§€(Ridge)λŠ” μ„ ν˜•νšŒκ·€ λͺ¨λΈμ—μ„œ 과적합을 쀄이기 μœ„ν•œ μ •κ·œν™” 기법
λͺ¨λΈμ˜ λ³΅μž‘μ„±μ„ μ‘°μ ˆν•˜κ³  λ³€μˆ˜μ˜ κ³„μˆ˜λ₯Ό μΆ•μ†Œν•˜μ—¬ μΌλ°˜ν™” μ„±λŠ₯ ν–₯상

  • Lasso: λͺ¨ν˜•에 ν¬ν•¨λœ νšŒκ·€κ³„μˆ˜μ˜ μ ˆλŒ“κ°’μ΄ 클수둝 νŒ¨λ„ν‹°λ₯Ό λΆ€μ—¬ν•˜λŠ” 방식
    • νšŒκ·€κ³„μˆ˜λ“€μ˜ μ ˆλŒ“κ°’μ˜ 크기가 클수둝 penaltyλ₯Ό 뢀여함
      λͺ¨μˆ˜ Lambda κ°’μœΌλ‘œ penalty 정도λ₯Ό 쑰정함
      L1-Loss (=L1-Penalty)
    • νŠΉμ • λ³€μˆ˜μ˜ νšŒκ·€κ³„μˆ˜λ₯Ό 0으둜 μΆ•μ†Œν•˜λŠ” 효과 (μžλ™μ  λ³€μˆ˜ 선택)
  • Ridge
    • νšŒκ·€κ³„μˆ˜λ“€μ˜ μ œκ³±ν•©μ„ μ΅œμ†Œμ œκ³±λ²•μ— penalty둜 μ‚¬μš©
      L2-Loss (=L2-Penalty)
    • λͺ¨λ“  λ³€μˆ˜μ˜ νšŒκ·€κ³„μˆ˜λ₯Ό μ‘°κΈˆμ”© μΆ•μ†Œν•˜λŠ” κ²½ν–₯
  • μ—˜λΌμŠ€ν‹±λ„·: 릿지와 라쏘λ₯Ό κ²°ν•©ν•œ λͺ¨λΈ
λ°˜μ‘ν˜•
LIST