해당 시리즈는 데이터분석 준전문가(ADsP) 자격증 공부 내용을 정리합니다.
t-검정
(단)일 표본 t-검정
- 가설검정의 일종으로 하나의 모집단의 평균값을 특정 값과 비교할 때 사용하는 통계적 분석 방법이다.
종류 |
설명 |
일 표본 단측 t-검정 |
모수값이 크다/작다와 같이 한쪽으로의 방향성을 갖는 경우 사용 |
일 표본 양측 t-검정 |
모수값이 크다/작다와 같이 한쪽으로의 방향성을 갖지 않는 경우 사용 |
독립(이) 표본 t-검정
- 가설검정의 일종으로 서로 독립적인 두 개의 집단에 대하여 모수의 값이 같은 값을 가지는지 검정하는 방법이다.
- 두 모집단의 분산이 같음을 의미하는 등분산성을 만족하는 경우에 검정을 진행하기에 F 검정을 먼저 수행한 후 진행한다.
종류 |
설명 |
이 표본 단측 t-검정 |
두 집단 사이의 대소가 있는 경우 사용 |
이 표본 양측 t-검정 |
두 집단 사이의 대소 없는 경우 사용 |
대응 표본 t-검정
- 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용
- 주로 실험 전과 후를 비교하기 위해 사용한다.
분산분석(ANOVA)
- 분산분석은 세 개 이상의 모집단이 있을 경우 여러 집단 사이의 평균을 비교하는 검정 방법이다.
- 분산분석의 귀무가설은 항상 “집단 간 평균의 차이는 같다”이다.
- 분산분석의 단점으로는 귀무가설이 기각될 경우 각 집단들의 차이를 정확하게 알려주지 않는다는 것이다.
- 분산분석에는
집단 간 분산/집단 내 분산
인 F-value가 사용된다.
- 분산분석은 독립변수: 범주형 데이터, 종속변수: 연속형 데이터 만을 취급한다.
종류 |
설명 |
일원분산분석 |
독립변수와 종속변수가 모두 한 개인 경우 사용 |
이원분산분석 |
독립변수가 두 개 이상일 때 사용 |
다변량분산분석 |
종속변수가 두 개 이상일 때 사용 |
교차분석
- 범주형 자료(명목, 서열)간의 관계를 알아보고자 할 때 사용되는 분석 방법.
- 카이제곱($x^2$)검정 통계량을 이용.
- 적합도 검정, 독립성 검정, 동질성 검정에 사용.
- 교차분석표를 통해 분석.
적합도 검정
- 실험결과 얻어진 관측값이 예상값과 일치하는지 여부를 검정하는 방법
- 모집단 분포에 대한 가정(기대도수)이 옳게 되었는지 관측값(관측도수)과 비교하여 검정한다.
독립성 검정
- 모집단이 두 개의 변수에 의해 범주화됐을 때 그 두 변수들 사이의 관계가 독립적인지 여부를 검정하는 방법
- 변수들 사이의 관계가 독립적이라면 유의한 관계가 없다고 판단한다.
- 해당 검정은 관계여부만을 보여줄 뿐 관계 강도를 보여주지 않는다.(관계 강도는 상관분석)
동질성 검정
- 관측값들이 정해진 범주 내에서 비슷하게 나타나고 있는지 검정하는 방법
- 모집단에서 보이는 속성을 추출한 표본집단에서도 동일하게 보이고 있는지를 확인한다.
상관분석
- 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법
- 상관계수(-1과 1사이의 값)를 사용하여 상관관계를 표현한다.
- 상관관계가 있다고 해도 인과관계는 없을 수 있다.
- 산점도 행렬을 사용하여 여러 변수를 조합한 산점도와 상관계술를 한 화면에서 확인할 수 있다.
피어슨 상관분석(선형적 상관관계)
- 피어슨 상관계수는 모수적 방법의 하나로 두 변수가 모두 정규분포를 따른다는 가정이 필요하다.
- 모수검정: 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법(표본의 정규성 전제되어야 함)
스피어만 상관분석(비선형적 상관관계)
- 측정된 두 변수들이 서열척도일 때 사용하는 상관계수이다.
- 비모수검정: 표본이 정규분포를 따른다고 가정할 수 없는 경우에 사용하는 통계방법