0%

[ADsP] 회귀분석

해당 시리즈는 데이터분석 준전문가(ADsP) 자격증 공부 내용을 정리합니다.

회귀분석

  • 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계기법.
  • 기본적으로 연속형 변수일 때 사용하며, 범주형 변수일 경우 파생변수로 변환하여 사용.
  • 종속변수가 범주형일 경우 로지스틱 회귀분석방법을 사용.
  • 회귀계수: 독립변수가 종속변수에 미치는 영향의 정도. 회귀함수의 기울기를 의미.
  • 회귀결정계수: 0-1 사이의 수로 인과관계의 정도를 나타내는 수.

회귀분석 기본가정

회귀분석의 결과가 유의미하기 위해서는 아래의 조건들이 요구된다.

  • 선형성: 독립변수와 종속변수는 선형적이어야 한다.(다항회귀분석은 예외)
  • 독립성: 독립변수들 간에 상관성 없어야 한다.
  • 등분산성: 분산이 같으며, 잔차들이 고르게 분포되어 있어야 한다. 등분산성을 만족하지 못하면 회귀선은 어떤 추세를 띠지 못하고 덩어리 모양을 하게 된다.
  • 정규성: 잔차항이 정규분포 형태를 보여야 한다.

회귀분석 분산분석표

용어 설명
SST(총제곱합) 회귀식과 실제값의 차이를 제곱한 값,모형이 설명해야 하는 전체 부분(SSR+SSE)
SSR(회귀제곱합) 회귀식과 평균값의 차이,모형이 설명하는 부분
SSE(오차제곱합) 편차의 제곱합, 모형이 설명하지 못하는 부분
  • 회귀분석 결과를 분산분석을 통해 검증하고, 이로부터 도출된 결정계수 $R^2$로 모형의 설명력을 판단한다.
  • 다중회귀분석에서는 수정된 결정계수를 사용한다.

회귀분석 유의성 검증

1-1) 회귀모형 검증: F-검정

  • 모형의 통계적 유의성은 F-검정을 통해 확인.
  • 분산의 차이를 나타내는 F-통계량 값이 크다는 것은 회귀계수가 크다는 의미이고, 이는 변수간의 유의미한 인과관계가 있음을 나타냄.
  • F값이 크면 F값이 0에 가까울 확률 값인 P값은 상대적으로 작아짐. 인과관계가 있을 확률이 높아짐.

1-2) 회귀계수 검증: t-검정

  • t-통계량은 회귀계수를 표준오차로 나눈 값이기에 t값이 크다는 것은 표준오차가 상대적으로 작다는 의미이다.
  • t-통계량이 커지면 회귀계수도 크다는 의미이므로 인과관계가 존재한다고 판단할 수 있다.

NOTE. P값 정리표

내용 p<0.05 p>0.05
F값 크다(분산차이 크다) 작다(분산차이 작다)
회귀추세선 가파르다 완만하다
기각역 기각역 안에 있다.(대립가설채택) 기각역 밖에 있다.(귀무가설채택)
독립변수 독립변수는 종속변수에 영향 O 독립변수는 종속변수에 영향 X
우연 확률 우연히 발생 X 우연히 발생 O
인과관계 유의미한 관계 O 유의미한 관계 X

회귀분석 종류

  • 단순회귀: 1개의 독립변수와 반응변수가 직선(선형) 관계
  • 다중회귀: k개의 독립변수와 반응변수가 선형 관계
  • 다항회귀: k개의 독립변수와 반응변수가 2차함수 이상의 관계
  • 비선형회귀: 회귀식이 미지의 모수들과 선형관게가 아닌 경우(지수함수, 로그함수, 삼각함수 등)

단순선형회귀분석

  • 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 방법
  • 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾는다.

다중선형회귀분석

  • 독립변수가 2개 이상이고 종속변수가 하나일 때 사용 가능한 분석방법
  • 단순회귀분석이 확장된 형태로 회귀계수 및 통계적 유의성은 동일하다.
  • 독립변수가 여러 개이므로 회귀계수도 여러 개이다.

다중공선성 개념

  • 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제
  • 다중공선성은 회귀분석의 기본가정인 독립성에 위배된다.

다중공선성 진단

  • 결정계수($R^2$)값이 커서 설명력은 높지만 P값도 커서 개별 인자가 유의하지 않은 경우에 의심
    -> 독립변수 간의 상관계수를 구해본다.
    -> 분산팽창요인(VIF)를 구해 이 값이 10을 넘는다면 다중공선성이 있다고 판단할 수 있다.

다중공선성 해결방법

  • 문제가 발생하는 변수를 제거한다.
  • 주성분분석(PCA)를 통해 변수 차원을 축소한다.
  • 선형판별분석(LDA)로 차원을 축소한다.
  • 특잇값분해(SVD)로 차원을 축소한다.

최적 회귀방정식

  • 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 찾는 방법
  • 보통 모델의 성능을 향상시키기 위해 사용한다.

부분집합법

가능한 모든 모델을 고려하여 가장 좋은 모델을 선정하는 방법

변수선택법

일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 방정식을 도출하는 방법

  • 전진선택법
  • 후진제거법
  • 단계별 방법