[ADsP] 통계의 이해

해당 시리즈는 데이터분석 준전문가(ADsP) 자격증 공부 내용을 정리합니다.

통계 개요

통계란 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집, 정리, 표현, 분석하는 이론과 연구를 하는 학문이다.
통계분석이란 특정 집단을 대상으로 자료를 수집하여 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정을 하는 과정을 말한다.

표본조사

자료를 수집함에 있어 모집단으로부터 표본집단을 선출하는 조사 방식. 표본집단은 모집단을 대표할 수 있어야 한다는 표본의 대표성을 가져야 한다.

오차범위: 가설에서 오차로 설정될 수 있는 범위
신뢰수준: 100번을 선발했을 때 가설이 맞을 확률

표본추출방법

방법	설명
단순 랜덤 추출법	모집단에서 필요한 개수의 데이터를 무작위로 추출
계통 추출법	모집단에 번호를 붙이고 일정한 간격으로 추출
군집(집락) 추출법	각 군집은 동질적, 군집 내 데이터는 이질적으로 묶은 뒤, 랜덤 추출법으로 군집을 선택
층화 추출법	각 군집은 이질적, 군집 내 데이터는 동질적으로 묶은 뒤, 각 군집에서 원하는 개수만큼 추출

비례 층화 추출법: 모집단 데이터 분포에 맞도록 추출할 개수를 선택
불비례 층화 추출법: 모집단 데이터 분포와 상관없이 추출할 개수를 선택

측정과 척도

측정: 실험단위로부터 적합하게 관측된 데이터를 그대로 자료화하는 것
척도: 관측 대상의 속성을 측정하여 이를 숫자로 나타내도록 일정한 규칙을 통해 바꾸는 도구

1-1) 질적 척도

구분	특징	예시
명목척도	측정대상이 어느 집단에 속하는지 나타내는 자료	성별, 지역 등
순서(서열)척도	측정 대상이 명목척도이면서 서열을 같는 자료	선호도, 신용도, 학년 등

1-2) 양적 척도

구분	특징	예시
구간(등간)척도	측정대상 속성이 두 구간 사이에 의미가 있는 자료	온도, 지수 등
비율척도	측정대상 속성이 구간척도이면서 절대적 기준 0이 존재하는 자료	신장, 무게, 점수, 가격 등

기술통계와 추리통계

기술통계: 표본 자체의 속성이나 특징을 파악하기 위한 통계기법. 모집단의 특성을 유추하는 데 사용.
추리통계: 수집한 데이터를 바탕으로 추론 및 예측하는 통계기법. 모집단의 특성 파악, 가설 검증, 확률적 가능성 파악 등에 사용.

NOTE. 통계기초상식
통계를 이해하기 위해서는 기본적으로 3가지 개념을 알고 있어야 한다.

편차(difference): 데이터의 평균으로부터 떨어져 있는 정도
분산(variance): 데이터 편차를 나타내는 분포. 편차 제곱 합의 평균. 보통 산점도(scatter)로 표현.
표준편차(standard deviation): 분산의 단위 오류를 해결. 분산에 루트를 씌워 값 도출.

확률과 확률분포

개념 정리

확률: 모든 사건들의 집합 표본에서 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값. 총 확률의 합은 항상 1이다. $P(A)$
조건부 확률: 특정 사건 A가 발생했다는 전제 하에 특정 사건 B가 발생할 확률을 나타내는 값. 0과 1사이의 값을 갖는다. $P(B|A) = \frac{P(B\cap A)}{P(A)}$
독립사건: 서로에게 영향을 주지 않는 두 개의 사건. $P(B\cap A) = P(B)P(A)$ $P(B|A) = P(B)$
배반사건: 두 사건의 교집합이 없는 경우. 즉, 동시에 일어날 수 없는 사건.
$B\cap A = \phi$
확률변수: 무작위 실험 시 특정 확률로 발생하는 각각의 결과를 값으로 표현하는 변수.
확률분포: 확률변수의 모든 값과 그에 대응하고 있는 확률의 분포.

변수	분포	함수
이산확률변수	이산확률분포	확률질량함수
연속확률변수	연속확률분포	확률밀도함수

이산확률

이산확률변수: 셀 수 있는 변수. 서로 배반인 사건들의 합집합의 확률은 1이다.
$0\le p(X) \le 1$ $\sum p(X) = 1$
이산확률분포: 이산확률변수의 모든 값과 그에 대응하고 있는 확률의 분포.
- 베르누이 분포$B(1,p)$: 확률이 2가지이며 확률변수가 0,1 또는 1,-1인 분포 $p(x)=p^x(1-p)^{(1-x)}$
- 이항 분포$B(n,p)$: $n$번의 베르누이 시행에서 $x$번 성공할 확률의 분포 $p(x)=\dbinom{n}{x}p^x(1-p)^{(N-x)}$
- 기하 분포$Geo(p)$: 성공확률이 $p$인 베르누이 실행에서 처음으로 성공이 나올 때까지 $x$번 실패할 확률의 분포 $p(x)=p(1-p)^x$
- 다항 분포$M(n,p_1,p_2,…)$: $n$의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 분포 $p(x_1,x_2...)=\frac{n!}{x_1!+x_2!,...}p_1^{x_1}p_2^{x_2}...$
- 포아송 분포$Pois(\lambda)$: 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률 분포 $p(x)=\frac{e^{-\lambda} \cdot \lambda^x}{x!}$
이산확률변수 기댓값
$E(X)=\sum xf(x)$
이산확률변수 분산
$Var(X)=E[(X-E(X))^2]=E(X^2)-E(X)^2$
이산확률변수 표준편차
$sd(X)=\sqrt{Var(X)}$

연속확률

연속확률변수: 해당하는 실수 값이 어떤 특정 구간에 해당하여 그 수를 셀 수 없는 변수. 확률밀도함수의 아래 면적이 확률을 의미한다.
$p(a \le x \le b) = \int_{a}^{b} xf(x)dx$
연속확률분포: 연속확률변수의 모든 값과 그에 대응하고 있는 확률의 분포.

종류	설명
균일 분포	연속확률변수 X가 취할 수 있는 모든 값에 대하여 같은 확률을 가진 분포
정규 분포	평균이 $\mu$이고 표준편차가 $\alpha$인 분포 ($X \sim N(\mu, \alpha^2)$)
t-분포	자유도가 $n$인 분포. 자유도가 커질수록 표준정규분포애 가까워진다.
카이제곱 분포	$n$의 독립적인 표준졍규분포의 제곱의 합으로 얻을 수 있는 분포로 모집단의 구성을 파악하기 위한 동질성검정에 사용된다.
F 분포	정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율을 나타내며, 등분산검정, 분산분석에 활용된다.

연속확률변수 기댓값
$E(X)=\int xf(x)dx$
연속확률변수 분산
$Var(X)=\int (x-E(X))^2xf(x)dx=\int x^2f(x)dx - \int xf(x)dx^2$
연속확률변수 표준편차
$sd(X)=\sqrt{Var(X)}$

통계 개념 정리

기댓값($E(X)$): 특정 사건이 시행되었을 때 확률변수가 취할 수 있는 값의 평균. 확률변수와 그 사건이 발생할 확률의 곱들의 합으로 구할 수 있다.
분산($Var(X)$): 데이터들이 중심에서 얼마나 떨어져이는지 알아보기 위한 측도. 값이 크면 확률 값이 기댓값에서 멀리 떨어져 있다고 해석한다.
첨도($k$): 확률분포의 뾰족한 정도를 나타내는 측도로서 값이 3에 가까울수록 정규분포 모양을 갖는다.
왜도($\gamma$): 호가률분포의 비대칭 정도를 나타내는 측도로서 왜도 값이 0인 경우 정규분포와 유사한 모습을 가지며 평균, 중앙값, 최빈값이 모두 같다.
공분산($Cov(X,Y$): 두 확률변수 X,Y의 상관 정도를 나타내는 값. 상관 정도는 공분산이 0이면 서로 독립적이며 공분산이 0보다 작으면 반비례, 크면 비례한다.
상관계수(Correlation): 공분산을 보다 명확히 파악하기 위해 사용하는 값. 공분산을 -1과 1 사이의 값으로 나타내기 위해 표준편차의 곱으로 나눈 값이다.

추정과 가설검정

추정

모수 추정: 모집단의 확률분포 및 특성을 모수라고 하는데, 이를 도출하는 것은 어렵기에 표본조사를 통해 모수를 추정한다.
점 추정: 모수 중 특히 모평균을 하나의 특정한 값으로 추정하는 것. 보통 불편추정량을 사용한다. 불편(unbiased)추정량은 모수 추정값과 실제 모수값 차이의 기댓값이 0으로 어느 한쪽에도 편향되지 않아 이상적인 값을 의미한다.
구간추정: 모수가 특정한 구간 안에 존재할 것이라고 예상하는 것. 구간추정은 모수가 특정 구간에 포함될 확률인 신뢰도를 필요로 한다.

가설검정

통계적 가설검정: 통계적 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
통계적 가설: 모집단의 특정에 대한 주장 또는 가설

종류	설명
귀무가설($H_0$)	증명하고자 하는 가설이 의미가 없다고 주장하는 가설. 귀무가설을 기각시킴으로 주장을 입증할 수 있다.
대립가설($H_1$)	귀무가설의 반대 가설로 귀무가설이 틀렸다고 판단될 경우 채택된다.

제 1종 오류: 귀무가설이 사실임에도 불구하고 틀렸다고 결정하는 오류
제 2종 오류: 귀무가설이 틀렸음에도 불구하고 사실이라고 결정하는 오류

실제 결과	$H_0$ 채택($H_1$기각)	$H_0$ 기각($H_1$ 채택)
$H_0$ 사실	올바른 결정	제1종 오류
$H_0$ 거짓	제2종 오류	올바른 결정

검정통계량: 귀무가설의 채택 여부를 판단하기 위해 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값. 즉, 귀무가설의 옳고 그름을 판단할 수 있는 값이다.
기각역: 귀무가설을 기각하게 될 검정통계량의 영역. 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다.
유의수준($\alpha$): 귀무가설이 참임에도 이를 잘못 기각하는 오류(제1종 오류)를 범할 확률의 최대 허용 한계. 1%(0.01), 5%(0.05)를 보통 사용.
유의확률(p-value): 귀무가설을 지지하는 정도를 나타낸 확률. 유의확률 < 유의수준이면 귀무가설을 기각할 수 있다.
가설검정 절차

단계	설명
1. 가설 설정	귀무가설, 대립가설
2. 검정의 유의수준 결정	0.01, 0.05, 0.1 등
3. 검정방법 결정	-
4. 검정통계량 산출	p-value 산출
5. 기각역 판단	유의확률 < 유의수준 인가 확인
6. 결론	귀무가설 수용 혹은 대립가설 채택

모수검정: 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법(표본의 정규성 전제되어야 함)
비모수검정: 표본이 정규분포를 따른다고 가정할 수 없는 경우에 사용하는 통계방법

모수검정	비모수검정
등간척도,비율척도	명목척도, 서열척도
평균	중앙값
피어슨상관계수	스피어만 순위상관계수