ADsP 3과목 4-3 회귀분석

ADsP

ADsP 3과목 4-3 회귀분석 | 정리📝

studyrooom 2024. 9. 19. 17:35

SMALL

회귀분석: 하나 이상의 독립변수와 종속변수의 관련성을 설명하는 통계적 모형을 설정하고, 데이터에 적합한 회귀식을 계산하여 이를 통해 통계적 추론/분석을 하는 기법

독립변수(설명변수, 예측변수): 다른 변수에 영향을 주는 변수
반응변수(종속변수): 영향을 받는 변수
독립변수의 개수에 따라 단순(1개)/다중 선형회귀분석으로 나뉨

ex) KOSPI 내 개별 기업의 시가총액과 수익률 간 관련성 연구
고객의 신용도, 나이, 직업 등의 변수를 사용하여 카드 월간 사용액 예측

회귀분석의 특징/목적

두 종류의 변수 사이에 인과관계가 성립
과거 데이터에 의존
과거/미래를 예측
독립변수와 종속변수 사이의 관계 요약
개별 독립변수의 중요성 평가
종속변수의 값 예측

회귀분석 절차

문제 정의
산점도 그리기
선형성 검토 / 이상치 탐색 / 상관계수를 통해 설명력 확인 등
회귀분석
- 회귀식 도출 / 해설 (= 모수 추정)
- 최소제곱법: 잔차의 제곱합이 최소가 되는 회귀식 선택
  이를 통해 파라미터를 추정하고 추세선을 그려 값을 예측하는 것이 기본임
잔차: 실제 관측치와 추세식으로 예측한 점 사이 거리를 제곱해 더한 값
잔차분석: 모델의 가정을 확인하고 이상치와 영향력 있는 관측치를 식별하는 데 쓰임
모형이 데이터를 잘 적합하는지 확인하기 위해 잔차 그래프를 그리고 회귀진단을 함
- 정규성 / 등분산성 / 독립성 검토(변수들 사이에 유의한 관계없음)
결론

회귀분석의 종류

독립변수가 한 개: 단순 선형회귀모형(모형(모수)은 hat 없음)
$y_i = β_0 + β_1x_i + ε_i$
오차는 정규분포 $N(0, σ²)$을 따름
오차항의 분산의 불편추정량 = 잔차의 평균제곱
- 추정한 단순회귀식
  $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i$
다중 선형회귀모형: 중요한 독립변수의 추정 계수가 클수록 종속변수에 영향이 큼
$β_0$가 없는 표준화 추정식을 만들게 되면 각 계수의 크기를 더욱 정확히 알 수 있음
- F-검증, t-검증, R² 검증을 통해 결과 검증 실행
종속변수가 2개 이상: 다변량 회귀모형
종속변수가 범주형(0 or 1): 로지스틱 회귀모형

회귀분석의 가정

선형성: 독립/종속 변수 간 선형적 관계
독립성: 독립변수와 오차 간 값이 서로 독립
- 다중회귀분석의 경우 독립변수 간에 상관성이 없어야 함 ↔ 다중공선성
  $H_0$: 독립변수의 기울기(회귀계수)가 0
등분산성: 잔차의 분산이 독립변수와 상관없이 일정(잔차들이 고르게 분포)
정규성(정상성): 잔차항의 분포는 정규분포 (평균 = 0)
- 잔차분석의 오차 정규성 검정
  히스토그램, 점도표, Q-Q plot, Shapiro-Wilk Test, Anderson-Darling test 등
  - 정규확률그림(Q-Q plot): 정규성을 평가하는 도구일 뿐 절대적인 기준은 아님
- 잔차가 일반적으로 정규성을 만족하지 않을 경우, log나 root를 취해 정규분포를 취하도록 함
- 회귀분석이 잘 되었다면 잔차는 더 이상 독립변수와 상관관계 X
- 평균이 일정함
비상관성: 오차 간 독립성 - 선형회귀분석

*오차: 모집단의 데이터를 활용하여 회귀식을 구한 경우 예측값과 실제 값의 차이

*잔차: 모집단을 특정할 수 없는 표본집단으로 회귀식을 추정할 때, 회귀식의 예측값과 실제 값의 차이

회귀분석의 검정
선형회귀분석의 검정: F-검정, t-검정

회귀식에 대한 검정: F-검정
- 회귀 모형의 통계적 유의성 확인
- 분산의 차이가 크다는 것은 회귀계수가 크다는 의미
- 두 표본의 분산이 동일한지 비교하는 분산비 검정에 사용함
회귀계수에 대한 유의성 검정: t-검정
t-통계량: 회귀계수 ÷ 표준오차
결정계수(R-squared): 모형의 설명력을 나타내는 값
값이 클수록 회귀선으로 실제 관찰치를 예측하는 데 정확성이 높음
회귀식의 기울기와 관계 X
- 회귀제곱합(SSR) + 오차 제곱합(SSE) = 전체 제곱합(SST)
  총 제곱합 중 설명된 제곱합의 비율
  $R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
- 단순 선형회귀모형의 결정계수는 상관계수의 제곱과 같음
- 독립변수가 많아지면 영향이 적더라도 결정계수는 높아짐
  독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같음
- 수정 결정계수(Adjusted R-squared): 다중회귀분석에서 최적 모형 선정기준으로 사용함
  유의하지 않은 독립변수들이 회귀식에 포함되었을 때 값이 감소함
잔차 정규성 검정: Shapiro-Wilk Test ($H_0$: 정규분포)
잔차 자기 상관성 검정: 더빈 왓슨 검정(Durbin-Watson Test) ($H_0$: 자기 상관성 X)
회귀분석에선 오차항이 서로 연관성이 없어야 함
자기 상관성이 있다면 시계열 분석 등 다른 방법을 수행해야 함
- 오차항이 상관관계를 갖는 경우(시계열 데이터의 경우)
  ex) 겨울에 패딩이 잘 팔림, 주식

오즈(Odds) = 성공확률 ÷ 실패확률

다중공선성(Multicollinearity)
설명 변수들 사이에 강한 상관관계가 존재하는 현상

분산확대인자(VIF; Variance Inflation Factor)를 이용해 확인
VIF가 10보다 큰 경우 신뢰도 감소
표본수가 증가해도 VIF에서 일반결정계수는 크게 변하지 않음
회귀계수 추정에 문제가 생기고 모형의 해석/예측이 어려워짐
회귀계수 추정치의 분산이 증가하여 신뢰도 감소
회귀계수의 부호가 반대로 나올 수 있음
독립변수와 종속변수 간 관계성 파악이 어려워짐
높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기가 달라지면 변할 수 있음
높은 상관관계가 있는 변수를 제거하면 다른 변수의 추정 계수에 영향을 미침

다중공선성 해결 방법

변수 제거: 상관관계가 높은 변수 중 하나를 제거
변수 변환: 변수 간 조합으로 새로운 변수를 생성/변환
R에서 스크리 산점도(Scree plot)를 사용해 주성분 개수 선택
변수의 차원 축소(내재적 속성을 보존하며 데이터 축소)
- 주성분 분석(PCA)
- 선형판별분석(LDA)
- t-분포 확률적 임베딩(t-SNE)
- 특잇값 분해(SVD): PCA와 달리 어떤 행렬에도 적용할 수 있음
구조적 다중공선성의 문제가 있는 경우, 데이터의 평균 중심을 바꿈

최적의 회귀 적합식
가능한 모든 독립변수 조합의 회귀 분석을 실시함
가능한 적은 수의 설명변수를 포함시킴

단계적 변수 선택
- 전진 선택법(Forward Selection): 상수 모형부터 설명변수를 하나씩 차례로 추가하여 적합
  제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가함
  - 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 됨
    변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수를 활용하지 못하게 됨
- 후진 제거법(Backward Elimination): 모든 독립변수부터 시작하여 가장 영향이 적은 독립변수를 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택함
  step(model, direction = “backward”)
- 단계 선택법(Stepwise Method): 전진 선택법으로 출발하나 사전에 정의한 기준에 의해 유의하지 않은 변수는 제거하고 다른 변수를 추가함
  기존 모형에서 예측 변수를 추가 · 제거를 반복해 최적의 모형을 찾는 방법
변수 선택 기준
K는 독립변수의 개수, 작을수록 좋음
- AIC: $-2logL + 2K$
  start AIC 보다 작은 값 중에 가장 작은 변수를 제거하고 남은 설명변수로 다음 단계 진행
- BIC: $-2logL + Klogn$
- 멜로우 Cp

정규화 선형회귀
라쏘(Lasso)와 릿지(Ridge)는 선형회귀 모델에서 과적합을 줄이기 위한 정규화 기법
모델의 복잡성을 조절하고 변수의 계수를 축소하여 일반화 성능 향상

Lasso: 모형에 포함된 회귀계수의 절댓값이 클수록 패널티를 부여하는 방식
- 회귀계수들의 절댓값의 크기가 클수록 penalty를 부여함
  모수 Lambda 값으로 penalty 정도를 조정함
  L1-Loss (=L1-Penalty)
- 특정 변수의 회귀계수를 0으로 축소하는 효과 (자동적 변수 선택)
Ridge
- 회귀계수들의 제곱합을 최소제곱법에 penalty로 사용
  L2-Loss (=L2-Penalty)
- 모든 변수의 회귀계수를 조금씩 축소하는 경향
엘라스틱넷: 릿지와 라쏘를 결합한 모델

LIST