Inferential Statistics

1. 서론

본 문서는 추론통계의 개념을 정성적으로 서술하는 것을 목적으로 한다.

2. 추론통계

2.1. 배경

우리는 어떤 모집단의 통계량을 알고 싶다. 그러나 모집단의 모든 대상을 전부 조사할 수 없고, 조사 해서도 안된다. (조사에 의한 부작용으로 인해.)

그러므로 우리는 모집단을 대표할 수 있도록 '표본'을 뽑아내어, 모집단의 특성을 추론해야 한다. 이때 이 표본을 뽑는 과정을 표집(Sampling, 샘플링)이라 하며, 산출된 표본은 다음과 같은 특징을 갖는다.

표본의 크기가 너무 작으면 편포 될 수 있다.
표본의 분포가 꼭 정규분포를 따르는 것은 아니다.
표본의 특성이 꼭 모집단의 특성을 대표하는 것은 아니다.

위와 같은 이유로 표본 분포(Sample Distribution)를 통해 바로 모집단의 특성을 추론하기는 어렵다. 이러한 배경에서 추론통계가 등장한다.

2.2. 의미

추론통계란 표본을 통해 모집단의 특성을 추측하는 통계학의 한 분야이다.

최종 목적은 두 가지이다.

추정(Estimation): 모수가 얼마일까? (항목 3에서 다룬다.)
가설검정(Hypothesis Testing): 집단 간에 차이가 있을까? (항목 4에서 다룬다.)

이때 추정을 통해 해결할 수 있는 질문은 다음과 같다.

"한국 성인의 평균 키는 얼마일까?" (모집단의 평균을 추정한다.)
"이 신약의 효과는 어느 정도일까?" (모집단의 효과 크기를 추정한다.)
"이 설문조사의 응답 비율은 얼마일까?" (모집단의 비율을 추정한다.)

검정을 통해 해결할 수 있는 질문은 다음과 같다.

"남성과 여성의 평균 키에 차이가 있을까?" (두 모집단의 평균을 비교한다.)
"이 신약이 기존 약보다 효과가 더 좋을까?" (두 모집단의 효과를 비교한다.)
"이 설문조사의 응답 비율이 특정 값과 다를까?" (모집단의 비율을 특정 값과 비교한다.)

2.3. 표집분포

앞서 표본을 통해 모집단의 특성을 바로 추론하기 어렵다고 하였다. 이를 해결하기 위해 표본통계량의 분포인 표집분포(Sampling Distribution)를 이용한다.

표집분포란 n 크기의 표본을 무한하게 반복추출하여 얻은 표본들의 평균으로 그린 분포를 의미한다. 이는 이론적으로만 존재하며, 현실적으로 구할 수 없는 분포이다. 이때 중심극한정리가 등장한다. 중심극한정리는 다음과 같다.

모집단의 분포가 어떠하든지 간에, 표본의 크기 n이 충분히 크면(일반적으로 n≥30), 표본평균의 분포는 정규분포에 근사한다.

이를 통해 우리는 모집단의 분포가 정규분포가 아니더라도, 충분히 큰 표본을 통해 표본평균의 분포가 정규분포에 근사함을 알 수 있다. 이를 통해 모집단의 특성을 추론할 수 있는 기반이 마련된다.

참고

표집오차(Sampling Error): 표본에서 얻은 통계량과, 모집단의 통계량 간의 차이. (표본에서 얻은 통계량 - 모집단의 통계량)

표준오차(Standard Error): 표집오차의 표준편차. 표본통계량이 모집단통계량을 얼마나 잘 추정하는지를 나타내는 지표.

중심극한정리(Central Limit Theorem): 충분히 큰 표본 크기에서 표본평균의 분포가 정규분포에 근사함을 나타내는 통계학의 정리.

3. 추정과 신뢰구간

추정이란 표본통계량(Sample Statistic)을 이용하여 모집단통계량(Population Parameter)을 추정하는 과정이다. 추정에는 두 가지 방법이 있다.

점추정(Point Estimation): 표본통계량을 이용하여 모집단통계량의 단일 값을 추정하는 방법이다. 예를 들어, 표본평균을 이용하여 모집단평균을 추정하는 것이 점추정에 해당한다.
구간추정(Interval Estimation): 표본통계량을 이용하여 모집단통계량이 포함될 것으로 예상되는 구간을 추정하는 방법이다.

점추정의 단점은 표본오차(Sampling Error)로 인해 추정값이 실제 모집단통계량과 다를 수 있다는 점이다. 이를 보완하기 위해 구간추정을 사용한다. 구간추정에서는 신뢰구간(Confidence Interval)을 설정하여, 모집단통계량이 해당 구간에 포함될 확률을 나타낸다.

말이 어렵지만 핵심은 간단하다. 결국 표본을 통해 모집단의 '정확한 통계량'을 알기 어렵다는 것이다. 예를 들어, "한국 성인의 평균 키"를 알고 싶을 때, 표본을 통해 얻은 표본평균이, 실제 모집단의 평균과 일치할 확률은 거의 제로에 가깝다. (표본오차가 존재하므로.) 그러므로 우리는 모평균이 속할 범위를 확률적으로 제시한다. 예를 들면, "한국 성인의 평균 키가 170~174cm 사이에 있을 확률이 95%이다."와 같이 표현하는 것이다. 이것이 신뢰구간이다.

신뢰구간은 정규분포의 특성을 이용하여 계산한다.

정규분포의 특성상 1표준편차 이내에 약 68.27%, 2표준편차 이내에 약 95.45%, 3표준편차 이내에 약 99.73%의 데이터가 포함된다. 우리는 표본통계량만을 갖고 있기에 표준정규분포의 신뢰구간을 바로 적용할 수 없다. 그러므로 중심극한정리에 기대어 표본평균의 분포가 정규분포에 근사한다고 가정하고, 표준오차(Standard Error)를 이용하여 신뢰구간을 계산한다.

4. 가설검정

우리는 표본과 표집분포를 통해 모집단의 특성을 추론할 수 있다. 이를 바탕으로 우리는 가설검정(Hypothesis Testing)을 수행할 수 있다. (우리의 표본평균이 표집분포에서 어떤 범위에 속하는지를 확인할 수 있으므로, 가설의 검증이 가능해진다는 뜻.)

가설검정이란 모집단에 대한 가설을 세우고, 표본을 통해 이 가설이 옳은지 그른지를 판단하는 통계적 방법이다. 결국 우리가 궁금한 것은, "집단 간의 차이 또는 관계가 존재하는지?"에 대한 정보이므로, 가설검정은 "집단 간의 비교"를 통해 달성된다. 구체적으로는 다음과 같은 절차를 따른다.

가설 설정: 귀무가설(H0)과 대립가설(H1)을 설정한다.
유의수준(α) 설정: 귀무가설을 기각하는 기준이 되는 유의수준을 설정한다.
검정통계량 계산: 표본을 통해 검정통계량을 계산한다.
p-값 계산: 검정통계량을 통해 p-값을 계산한다.
가설 검정: p-값과 유의수준을 비교하여 귀무가설을 기각할지 여부를 결정한다.

참고

가설(Hypothesis): 모집단에 대한 잠정적인 주장 또는 가정.

귀무가설(Null Hypothesis, 영가설, H0): 검정하고자 하는 기본 가설. 일반적으로 '차이가 없다' 또는 '효과가 없다'는 내용을 담고 있다. (기각되기를 바라는 바.)

대립가설(Alternative Hypothesis, H1): 귀무가설과 반대되는 가설. 일반적으로 '차이가 있다' 또는 '효과가 있다'는 내용을 담고 있다. (주장하고자 하는 바.)

유의수준(Significance Level, α): 귀무가설을 기각하는 기준이 되는 확률값. 일반적으로 0.05(5%)나 0.01(1%)이 사용된다. (학문 분야마다, 데이터의 종류마다 천차만별로 다른 값을 사용할 수 있다.)

p-값(p-value): 귀무가설이 참이라고 가정했을 때, 우연히 현재와 같은 결과가 나올 확률. 값이 작을수록 우연일 확률이 낮은 것. (값이 작을 수록 현재와 같은 결과가 우연히 나올 확률이 낮으므로, 귀무가설이 틀릴 가능성이 높아진다. 즉, p-값이 작다는 것은, 귀무가설이 참일 가능성이 낮다는 뜻.)

가설검정의 핵심은 p-값이다. p-값이 유의수준(α)보다 작으면, 우리는 귀무가설을 기각하고 대립가설을 채택한다. 반대로 p-값이 유의수준보다 크면, 우리는 귀무가설을 기각하지 못한다. 이는 귀무가설이 참일 가능성을 배제할 수 없다는 뜻이다. (귀무가설이 참이라고 단정하는 것은 아니다.)

4.1. 검정 방법론

항목 4에서, 가설검정의 절차 중 3단계(검정통계량 계산)를 보라. 가볍게 계산한다고만 언급했지만, 실제로는 여러 방법이 존재한다. 대표적인 방법론은 다음과 같다.

Z-test: 모집단의 분산을 알고 있을 때, 두 집단의 평균을 비교할 때 사용한다.
t-test: 두 집단의 평균을 비교할 때 사용한다. (모집단의 분산을 모를 때 주로 사용.)
ANOVA(Analysis of Variance): 세 개 이상의 집단의 평균을 비교할 때 사용한다.
카이제곱 검정(Chi-Square Test): 범주형 변수 간의 독립성을 검정할 때 사용한다.
회귀분석(Regression Analysis): 독립변수와 종속변수 간의 관계를 분석할 때 사용한다.

각 방법론을 적용할 수 있는 상황이 서로 다르므로, 목적과 데이터의 특성에 맞추어 방법을 선택해야 한다.

4.2. t-test

t-test는 다음과 같은 경우에 사용한다.

모집단의 분산이나 표준편차를 모를 때.
집단 간 평균을 비교하고자 할 때.

이때, 모집단의 표준편차를 모르기에 어쩔 수 없이 표본표준편차를 사용한다. 그러나 어떻게 표본표준편차를 사용함에도 두 집단을 정규분포에 근사시켜 비교할 수 있는 것일까? (표본표준편차는 표본 크기에 따라 변동하므로, 두 집단의 정규화된 비교가 불가능할 것 같다.) 이를 해결하기 위해 등장한 것이 t-분포이다.

William Sealy Gosset이 개발(? 혹은 발견..?)한 t-분포는, 표집분포의 형태가 자유도에 따라 어떻게 변하는지를 나타낸다. 그는 표본의 자유도가 낮을 수록 분포의 꼬리가 두꺼워지며, 자유도가 높아질수록 정규분포에 가까워진다는 것을 밝혀내었고, 자유도에 따른 표집분포의 형상들이 '가족분포(family distribution)'를 이룬다는 것 또한 밝혔다. 이를 통해 우리는 표본표준편차를 사용함에도 두 집단을 비교할 수 있게 되었다!

t-test의 종류는 다음과 같다.

독립표본 t-test(Independent Samples t-test): 두 독립된 집단의 평균을 비교할 때 사용한다. 예를 들어, 남성과 여성의 평균 키를 비교할 때 사용된다.
대응표본 t-test(Paired Samples t-test): 동일한 집단에서 두 시점의 평균을 비교할 때 사용한다. 예를 들어, 다이어트 전후의 평균 체중을 비교할 때 사용된다.
단일표본 t-test(One-Sample t-test): 모집단의 평균이 특정 값과 다른지 비교할 때 사용한다. 예를 들어, 특정 약물의 효과가 0과 다른지 검정할 때 사용된다.

참고

자유도(Degrees of Freedom, df): 통계량을 계산할 때 사용되는 독립적인 정보의 수. 혹은, 통계량을 산출한 이후에도 여전히 다른 값으로 변동될 수 있는 자유로운 변수의 개수. 일반적으로 표본 크기에서 1을 뺀 값으로 계산된다. (예: n-1 <= 마지막 하나의 값은 나머지 값들에 의해 결정되므로. <= 제약조건에 의해서 그렇다.)

t-분포(t-Distribution): 모집단의 분산을 모를 때, 표본평균의 분포를 나타내는 확률분포. 자유도에 따라 형태가 달라지며, 자유도가 높아질수록 정규분포에 가까워진다.

t-test의 기본 가정은 다음과 같다.

정규성(Normality): 각 집단의 데이터가 정규분포를 따른다. (표본 크기를 30 이상으로 충분히 크게 잡으면, 중심극한정리에 의해 모집단의 분포가 정규분포에 근사한다고 가정할 수 있다.)
등분산성(Homogeneity of Variance): 두 집단의 분산이 동일하다. (독립표본 t-test의 경우.)
독립성(Independence): 각 관측치가 서로 독립적이다. (두 표본은 서로에게 영향을 주지 않는다.)

t-test를 수행할 때, 이러한 가정들이 충족되는지 확인하는 것이 중요하다. 만약 가정이 충족되지 않는다면, 비모수 검정(Non-parametric Tests)과 같은 대체 방법을 고려해야 한다.

t-test의 수행 과정은 다음과 같다.

가설 설정: 귀무가설(H0)과 대립가설(H1)을 설정한다.
유의수준(α) 설정: 일반적으로 0.05(5%)를 사용한다.
검정통계량 계산: t-통계량을 계산한다.
p-값 계산: t-분포를 이용하여 p-값을 계산한다.
가설 검정: p-값과 유의수준을 비교하여 귀무가설을 기각할지 여부를 결정한다.
- p-값 < α: 귀무가설 기각, 대립가설 채택.
- p-값 ≥ α: 귀무가설 기각 불가.

t-test의 해석 방법과 예시는 다음과 같다.

예시: 한 연구자가 새로운 교육 프로그램이 학생들의 시험 성적에 미치는 영향을 평가하고자 한다. 그는 30명의 학생을 무작위로 두 그룹으로 나누어, 한 그룹은 새로운 교육 프로그램을 받고, 다른 그룹은 기존 교육 프로그램을 받도록 한다. 시험 후, 두 그룹의 평균 시험 성적을 비교하기 위해 독립표본 t-test를 수행한다.
1. 가설 설정:
  - 귀무가설(H0): 두 그룹의 평균 시험 성적에 차이가 없다. (μ1 = μ2)
  - 대립가설(H1): 두 그룹의 평균 시험 성적에 차이가 있다. (μ1 ≠ μ2)
2. 유의수준(α) 설정: 0.05
3. 검정통계량 계산: t-통계량을 계산하여 t = 2.5를 얻었다고 가정한다.
4. p-값 계산: t-분포를 이용하여 p-값을 계산한 결과, p = 0.015를 얻었다고 가정한다.
5. 가설 검정: p-값(0.015) < 유의수준(0.05)이므로, 귀무가설을 기각하고 대립가설을 채택한다. 즉, 새로운 교육 프로그램이 학생들의 시험 성적에 유의미한 영향을 미친다고 결론지을 수 있다.

이때 p-값이 유의수준 미만일 때 귀무가설이 기각되는 이유는, 귀무가설이 두 집단의 차이가 없음을 가정하므로, 낮은 p-값은 두 집단이 차이가 없을 확률이 유의수준 이하라는 것을 의미하기 때문이다.

굉장히 헷갈릴 수 있지만, 핵심은 간단하다. p-값은 곧 귀무가설이 참일 때 현재 데이터의 관측 확률을 나타낸다.

따라서 p-값이 유의수준(α)보다 작다는 것은, 귀무가설이 참일 때 현재와 같은 결과가 나올 확률이 매우 낮다는 뜻이다. 즉, 귀무가설이 틀릴 가능성이 높아진다. 그러므로 우리는 귀무가설을 기각하고 대립가설을 채택하는 것이다.

4.3. ANOVA

ANOVA(Analysis of Variance, 분산분석)는 세 개 이상의 집단 간 평균을 비교할 때 사용되는 통계적 방법이다. t-test가 두 집단 간의 평균을 비교하는 데 사용되는 반면, ANOVA는 세 개 이상의 집단 간의 평균 차이를 검정하는 데 적합하다. (F-test라고도 불린다.)

그런데 왜 ANOVA가 필요할까? t-test를 여러 번 수행하지 않는 이유가 무엇일까? 그 이유는 비교 횟수의 증가에 따라 제1종 오류의 발생 확률이 누적하여 증가하기 때문이다. (t-test의 정판률이 .95라고 가정하면, 세 집단간 비교를 위해, t-test를 3회 수행했을 때 정판률은 .95^3 = .857375가 된다. 즉, 제1종 오류의 확률이 14.26%로 증가한다는 뜻이다.)

위와 같은 이유로 ANOVA가 등장하였다. ANOVA는 한 번의 검정으로 세 개 이상의 집단 간 평균 차이를 검정할 수 있으므로, 제1종 오류의 누적 발생 확률을 억제할 수 있다.

한편, ANOVA의 이해를 위해서는, F-통계치에 대한 이해가 필요하다. F-통계치는 집단 간 변동과 집단 내 변동의 비율을 나타낸다. 구체적으로는 다음과 같이 계산된다.

F = (집단 간 분산) / (집단 내 분산)

이때 F값이 F분포에 의한 임계값보다 크면, 우리는 귀무가설을 기각하고 대립가설을 채택한다. 즉, 세 개 이상의 집단 간에 유의미한 평균 차이가 있다고 결론지을 수 있다. (각 집단이 평균에 가깝게 모여있고(뾰족하고), 집단 간 평균의 위치 차이가 클수록 F값이 커진다. 즉, 집단 간 차이가 크고, 집단 내 변동이 작을수록 F값이 커진다.)

한편 F-분포는... 설명을 생략하겠다. 이 또한 자유도에 따라 형태가 달라지는 가족분포를 이룬다. 이 역시 자유도가 낮을수록 꼬리가 두꺼워지고, 자유도가 높아질수록 정규분포에 가까워진다.

ANOVA의 기본 가정은 다음과 같다. (Z-test나 t-test와 동일하다.)

정규성(Normality): 각 집단의 데이터가 정규분포를 따른다.
등분산성(Homogeneity of Variance): 모든 집단의 분산이 동일하다.
독립성(Independence): 각 관측치가 서로 독립적이다.

ANOVA의 수행 과정은 다음과 같다.

가설 설정: 귀무가설(H0)과 대립가설(H1)을 설정한다.
유의수준(α) 설정: 일반적으로 0.05(5%)를 사용한다.
검정통계량 계산: F-통계량을 계산한다.
p-값 계산: F-분포를 이용하여 p-값을 계산한다.
가설 검정: p-값과 유의수준을 비교하여 귀무가설을 기각할지 여부를 결정한다.
- p-값 < α: 귀무가설 기각, 대립가설 채택.
- p-값 ≥ α: 귀무가설 기각 불가.

ANOVA의 해석 방법과 예시는 다음과 같다.

예시: 한 연구자가 세 가지 다른 교육 방법이 학생들의 시험 성적에 미치는 영향을 평가하고자 한다. 그는 45명의 학생을 무작위로 세 그룹으로 나누어, 각 그룹에 서로 다른 교육 방법을 적용한다. 시험 후, 세 그룹의 평균 시험 성적을 비교하기 위해 일원분산분석(One-Way ANOVA)을 수행한다.
1. 가설 설정:
  - 귀무가설(H0): 세 그룹의 평균 시험 성적에 차이가 없다. (μ1 = μ2 = μ3)
  - 대립가설(H1): 적어도 한 그룹의 평균 시험 성적이 다르다.
2. 유의수준(α) 설정: 0.05
3. 검정통계량 계산: F-통계량을 계산하여 F = 4.2를 얻었다고 가정한다.
4. p-값 계산: F-분포를 이용하여 p-값을 계산한 결과, p = 0.018를 얻었다고 가정한다.
5. 가설 검정: p-값(0.018) < 유의수준(0.05)이므로, 귀무가설을 기각하고 대립가설을 채택한다. 즉, 적어도 한 그룹의 평균 시험 성적이 다르다고 결론지을 수 있다.

이때 p-값이 유의수준 미만일 때 귀무가설이 기각되는 이유는, 귀무가설이 세 집단의 차이가 없음을 가정하므로, 낮은 p-값은 세 집단이 차이가 없을 확률이 유의수준 이하라는 것을 의미하기 때문이다.

결국 t-test와 마찬가지의 과정을 거친다. (p-값은 곧 귀무가설이 참일 때 현재 데이터의 관측 확률을 나타낸다.)

4.4. 카이제곱 검정

지금까지 언급한 t-test, ANOVA는 모두 모수통계의 방법론이다. 즉, 데이터가 특정 분포(주로 정규분포)를 따른다는 가정 하에 수행되는 통계적 검정 방법론이라는 말이다. 그러나 모든 데이터가 정규분포를 따르는 것은 아니다. 명목자료 또는 서열자료, 등간자료 등은 정규분포를 따르지 않는다. 이러한 경우에 사용되는 방법론이 바로 카이제곱 검정(Chi-Square Test)이다.

여기서부터는 나중에 작성할께요.... 피곤해...