해당 시리즈는 데이터분석 준전문가(ADsP) 자격증 공부 내용을 정리합니다.
회귀분석
- 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계기법.
- 기본적으로 연속형 변수일 때 사용하며, 범주형 변수일 경우 파생변수로 변환하여 사용.
- 종속변수가 범주형일 경우 로지스틱 회귀분석방법을 사용.
- 회귀계수: 독립변수가 종속변수에 미치는 영향의 정도. 회귀함수의 기울기를 의미.
- 회귀결정계수: 0-1 사이의 수로 인과관계의 정도를 나타내는 수.
회귀분석 기본가정
회귀분석의 결과가 유의미하기 위해서는 아래의 조건들이 요구된다.
- 선형성: 독립변수와 종속변수는 선형적이어야 한다.(다항회귀분석은 예외)
- 독립성: 독립변수들 간에 상관성 없어야 한다.
- 등분산성: 분산이 같으며, 잔차들이 고르게 분포되어 있어야 한다. 등분산성을 만족하지 못하면 회귀선은 어떤 추세를 띠지 못하고 덩어리 모양을 하게 된다.
- 정규성: 잔차항이 정규분포 형태를 보여야 한다.
회귀분석 분산분석표
용어 | 설명 |
---|---|
SST(총제곱합) | 회귀식과 실제값의 차이를 제곱한 값,모형이 설명해야 하는 전체 부분(SSR+SSE) |
SSR(회귀제곱합) | 회귀식과 평균값의 차이,모형이 설명하는 부분 |
SSE(오차제곱합) | 편차의 제곱합, 모형이 설명하지 못하는 부분 |
- 회귀분석 결과를 분산분석을 통해 검증하고, 이로부터 도출된 결정계수 $R^2$로 모형의 설명력을 판단한다.
- 다중회귀분석에서는
수정된 결정계수
를 사용한다.
회귀분석 유의성 검증
1-1) 회귀모형 검증: F-검정
- 모형의 통계적 유의성은 F-검정을 통해 확인.
- 분산의 차이를 나타내는 F-통계량 값이 크다는 것은 회귀계수가 크다는 의미이고, 이는 변수간의 유의미한 인과관계가 있음을 나타냄.
- F값이 크면 F값이 0에 가까울 확률 값인 P값은 상대적으로 작아짐. 인과관계가 있을 확률이 높아짐.
1-2) 회귀계수 검증: t-검정
- t-통계량은 회귀계수를 표준오차로 나눈 값이기에 t값이 크다는 것은 표준오차가 상대적으로 작다는 의미이다.
- t-통계량이 커지면 회귀계수도 크다는 의미이므로 인과관계가 존재한다고 판단할 수 있다.
NOTE. P값 정리표
내용 | p<0.05 | p>0.05 |
---|---|---|
F값 | 크다(분산차이 크다) | 작다(분산차이 작다) |
회귀추세선 | 가파르다 | 완만하다 |
기각역 | 기각역 안에 있다.(대립가설채택) | 기각역 밖에 있다.(귀무가설채택) |
독립변수 | 독립변수는 종속변수에 영향 O | 독립변수는 종속변수에 영향 X |
우연 확률 | 우연히 발생 X | 우연히 발생 O |
인과관계 | 유의미한 관계 O | 유의미한 관계 X |
회귀분석 종류
- 단순회귀: 1개의 독립변수와 반응변수가 직선(선형) 관계
- 다중회귀: k개의 독립변수와 반응변수가 선형 관계
- 다항회귀: k개의 독립변수와 반응변수가 2차함수 이상의 관계
- 비선형회귀: 회귀식이 미지의 모수들과 선형관게가 아닌 경우(지수함수, 로그함수, 삼각함수 등)
단순선형회귀분석
- 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 방법
- 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾는다.
다중선형회귀분석
- 독립변수가 2개 이상이고 종속변수가 하나일 때 사용 가능한 분석방법
- 단순회귀분석이 확장된 형태로 회귀계수 및 통계적 유의성은 동일하다.
- 독립변수가 여러 개이므로 회귀계수도 여러 개이다.
다중공선성 개념
- 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제
- 다중공선성은 회귀분석의 기본가정인 독립성에 위배된다.
다중공선성 진단
- 결정계수($R^2$)값이 커서 설명력은 높지만 P값도 커서 개별 인자가 유의하지 않은 경우에 의심
-> 독립변수 간의 상관계수를 구해본다.
-> 분산팽창요인(VIF)를 구해 이 값이 10을 넘는다면 다중공선성이 있다고 판단할 수 있다.
다중공선성 해결방법
- 문제가 발생하는 변수를 제거한다.
- 주성분분석(PCA)를 통해 변수 차원을 축소한다.
- 선형판별분석(LDA)로 차원을 축소한다.
- 특잇값분해(SVD)로 차원을 축소한다.
최적 회귀방정식
- 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 찾는 방법
- 보통 모델의 성능을 향상시키기 위해 사용한다.
부분집합법
가능한 모든 모델을 고려하여 가장 좋은 모델을 선정하는 방법
변수선택법
일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 방정식을 도출하는 방법
- 전진선택법
- 후진제거법
- 단계별 방법