통계 분석이란 한 집단에 대한 수치에 대하여, 그 수치에 대한 특정 가설을 설정한 후, 그 가설에 기반했을 때 예상되는 수치의 분포와 실제로 관측된 수치를 비교하여 가설을 채택하거나 채택하지 않는 절차를 의미한다. 수치로 표현되는 특성에 대하여, 한 집단의 특징을 대표하는 수치 중 가장 널리 사용되는 것은 '평균'으로, 평균은 수학적으로 적절한 많은 특징을 갖고 있다. 따라서 일반적으로 두 집단이 동일한 것인지 아닌지를 비교할 때 주로 평균이 얼마나 비슷한 것인가를 검사하게 된다.
또한 생물학 실험을 예로 들자면, 특정한 처리 A를 한 것이 효과가 없다는 것은 처리를 한 집단과 하지 않은 집단이 '평균'으로 대표되는 수치가 다르다고 할 수 없다면 A는 효과가 없다는 결론을 낸다는 의미이다. 이 때, 흔히 다음과 같은 상황을 머리 속으로 떠올리게 된다.
즉, 처리를 하지 않은 집단에서의 특성값의 분포가, 약품 A를 처리했을 때 변화할 것인가 아닌가? 하는 문제. 그러나 통계적 검증이 밝히고자 하는 것은 위와 같은 상황이 아니라 다음과 같이 좀 더 복잡한 상황이다.
즉, 전체 집단을 전부 확인할 수 없기 때문에 일부의 표본을 추출(sampling)하여 그 표본이 얼마나 다른지를 확인한다. 그 후 가설검증이라는 것은 결국 '관찰'한 표본의 차이가 원래의 모집단, 즉 우리가 확인할 수 없는 모집단이 서로 다른 것이었다면 얼마나 잘 관측될 것인지를 확인하는 작업이다. 즉, 위의 그림이 우리가 실제로 한 작업이고, 가설 검증은 다음과 같은 논리를 따르는 것이다.
즉, 우리는 단지 '표본추출'된 표본만을 관측할 수 있다. 이렇게 추출된 표본의 분포의 차이로부터, 모집단의 분포의 차이를 유추하는 것이 가설 검증, 특히 '평균의 비교'에 해당하는 작업이다.
그렇다면 왜 p-value 가 필요하고, 이 p-value는 가설 검정과 어떤 관계가 있을까? p-value에 대한 글에서 설명했듯이, 그리고 위의 그림에서도 표현하였듯이, 전체 집단에서 무작위로 표본을 선정하더라도 표본이 항상 모집단을 '정확히' 반영할 수는 없다. 위의 그림은 모집단은 서로 다른 것 같은데, 표본으로 추출된 집단은 그리 달라 보이지 않는다. 무작위 추출을 하더라도 위와 같은 상황이 발생할 수 있는 것이다.
그렇다면, 다음과 같은 상황을 생각해 볼 수 있다.
1. 두 모집단이 같다 : 이 경우 각 모집단에서 무작위로 추출된 표본이 다를 확률은 0 은 아니더라도 높지는 않을 것이다.
2. 두 모집단이 다르다 : 이 경우 각 모집단에서 무작위로 추출된 표본이 서로 다를 확률이 어느 정도 클 것이다. 적어도 1 번 보다는 클 것이다.
이것은, 다시 말해, 두 모집단의 평균의 차이가 크면 클수록, 그 두 모집단에서 추출된 표본의 평균의 차이도 커질 확률이 높다는 것을 의미한다. 일반적으로 두 모집단의 평균이 같다는 것을 귀무가설(null hypothesis)로 놓게 되는데, 귀무가설 하에서 표본의 평균의 차이가 다음과 같다고 해보자.
즉, 두 모집단의 평균이 같아도, 각 모집단에서 추출한 표본의 평균 m1과 m2 의 차이 m1 - m2 는 위처럼 0 을 중심으로 해서 옆으로 퍼지게 된다. 이 상황에서 내가 지금 실험으로 관측한 값이 다음과 같은 위치에 속한다고 해보자.
만약 관측된 평균의 차이가 k1 이라면, 이런 일은 원래의 모집단이 같았을 때를 기준으로 보면 일어나기 매우 어려운 일로 보인다. k2도 마찬가지이다. 그런데, k3의 경우, 모집단이 같다는 가정 하에서는 자주 일어나는 일로 보인다. 이런 상황 하에서, k1이나 k2 가 관측되었다면, '확률적으로 일어나기 매우 어려운 일이 지금 일어나서 내가 그것을 관찰했다' 라고 하기보다는 원래의 모집단이 틀렸고, 그래서 귀무가설 하에서의 표본 평균의 차이에 대한 그래프인 그림 4 자체가 틀렸다고 가정하는 것이다. 즉, 귀무가설이 틀렸고, 따라서 원래의 두 모집단의 평균이 같지 않았다고 생각하는 것이다. 그런데 k3과 같았다면, 그냥 잘 일어나는 일이 일어난 것일 뿐이므로 귀무가설이 맞는다고 간주한다.
p-value란 귀무가설 하에서 관측된 통계수치보다 큰 값이 관측될 확률로 정의되는데, 우리는 두 모집단이 다르다면 '차이'가 클 것으로 예상하고, 따라서 m1 - m2 의 절대값이 클 것을 예상하므로, 위의 경우 k1 의 경우 k1 보다 왼쪽, -k1 보다 오른쪽 영역의 적분값이 곧 |k1|보다 더 큰 값이 관측될 확률, 곧 관측된 k1에 대한 p-value가 된다. 이 값은 매우 작겠고, 따라서 우리는 귀무가설을 기각하고자 한다. 곧, 두 모집단은 달랐을 것으로 간주하는 것이다.
요약하자면 이렇다. 통계적 검증, 이란, 일단 가설 하나가 필요하다. 그 가설이 맞다는 전제 하에서 일정한 통계수치값, 가령 평균의 분포를 계산해 본다. 그리고 실제로 실험을 해서 통계치를 구한다. 구해진 통계치가, 가설이 맞다는 전제 하에서 구한 통계수치의 분포에서 보니 분포의 양 끝에 위치하고 있다면, 그 통계치 이상이 관측될 확률이 매우 적게 된다. 그런데 그렇게 적은 확률의 사건이 실제로 일어나서 내가 관찰한 것이 아니라, 사실은 애초에 가졌던 가설이 틀렸다고 결론을 내리자는 얘기이다. 원래는 내가 실험으로 구한 통계치가 관측되기 그리 어려운 일은 아니었어야 하는데, 처음에 가설을 잘못 설정했기 때문에 그 가설 하에서 나온 분포에 의하면 내가 구한 통계수치가 매우 희귀한 값이 되어버렸던 것이다. 라고, 간주한다는 의미이지, 이렇게 하는 것이 맞다는 얘기는 아니다. 실제로는 그렇게 간주하는 것이 틀리는 경우도 있다. 즉, 통계적으로는 희박한 일이더라도 실제로는 일어나기도 하니까. 만약 이렇게, 원래 가졌던 가설이 맞았고, 내가 지금 관측한 것이 매우 희귀하게 일어나는 일이 실제로 발생한 것인데 위와 같은 논리에 따라 원래 가졌던 가설이 틀렸다고 결론 내리는 오류가 바로 type I 오류인 것이다.
또한 생물학 실험을 예로 들자면, 특정한 처리 A를 한 것이 효과가 없다는 것은 처리를 한 집단과 하지 않은 집단이 '평균'으로 대표되는 수치가 다르다고 할 수 없다면 A는 효과가 없다는 결론을 낸다는 의미이다. 이 때, 흔히 다음과 같은 상황을 머리 속으로 떠올리게 된다.
즉, 처리를 하지 않은 집단에서의 특성값의 분포가, 약품 A를 처리했을 때 변화할 것인가 아닌가? 하는 문제. 그러나 통계적 검증이 밝히고자 하는 것은 위와 같은 상황이 아니라 다음과 같이 좀 더 복잡한 상황이다.
즉, 전체 집단을 전부 확인할 수 없기 때문에 일부의 표본을 추출(sampling)하여 그 표본이 얼마나 다른지를 확인한다. 그 후 가설검증이라는 것은 결국 '관찰'한 표본의 차이가 원래의 모집단, 즉 우리가 확인할 수 없는 모집단이 서로 다른 것이었다면 얼마나 잘 관측될 것인지를 확인하는 작업이다. 즉, 위의 그림이 우리가 실제로 한 작업이고, 가설 검증은 다음과 같은 논리를 따르는 것이다.
즉, 우리는 단지 '표본추출'된 표본만을 관측할 수 있다. 이렇게 추출된 표본의 분포의 차이로부터, 모집단의 분포의 차이를 유추하는 것이 가설 검증, 특히 '평균의 비교'에 해당하는 작업이다.
그렇다면 왜 p-value 가 필요하고, 이 p-value는 가설 검정과 어떤 관계가 있을까? p-value에 대한 글에서 설명했듯이, 그리고 위의 그림에서도 표현하였듯이, 전체 집단에서 무작위로 표본을 선정하더라도 표본이 항상 모집단을 '정확히' 반영할 수는 없다. 위의 그림은 모집단은 서로 다른 것 같은데, 표본으로 추출된 집단은 그리 달라 보이지 않는다. 무작위 추출을 하더라도 위와 같은 상황이 발생할 수 있는 것이다.
그렇다면, 다음과 같은 상황을 생각해 볼 수 있다.
1. 두 모집단이 같다 : 이 경우 각 모집단에서 무작위로 추출된 표본이 다를 확률은 0 은 아니더라도 높지는 않을 것이다.
2. 두 모집단이 다르다 : 이 경우 각 모집단에서 무작위로 추출된 표본이 서로 다를 확률이 어느 정도 클 것이다. 적어도 1 번 보다는 클 것이다.
이것은, 다시 말해, 두 모집단의 평균의 차이가 크면 클수록, 그 두 모집단에서 추출된 표본의 평균의 차이도 커질 확률이 높다는 것을 의미한다. 일반적으로 두 모집단의 평균이 같다는 것을 귀무가설(null hypothesis)로 놓게 되는데, 귀무가설 하에서 표본의 평균의 차이가 다음과 같다고 해보자.
그림4. 귀무가설 하에서의 표본평균의 차이에 대한 확률밀도함수.
즉, 두 모집단의 평균이 같아도, 각 모집단에서 추출한 표본의 평균 m1과 m2 의 차이 m1 - m2 는 위처럼 0 을 중심으로 해서 옆으로 퍼지게 된다. 이 상황에서 내가 지금 실험으로 관측한 값이 다음과 같은 위치에 속한다고 해보자.
만약 관측된 평균의 차이가 k1 이라면, 이런 일은 원래의 모집단이 같았을 때를 기준으로 보면 일어나기 매우 어려운 일로 보인다. k2도 마찬가지이다. 그런데, k3의 경우, 모집단이 같다는 가정 하에서는 자주 일어나는 일로 보인다. 이런 상황 하에서, k1이나 k2 가 관측되었다면, '확률적으로 일어나기 매우 어려운 일이 지금 일어나서 내가 그것을 관찰했다' 라고 하기보다는 원래의 모집단이 틀렸고, 그래서 귀무가설 하에서의 표본 평균의 차이에 대한 그래프인 그림 4 자체가 틀렸다고 가정하는 것이다. 즉, 귀무가설이 틀렸고, 따라서 원래의 두 모집단의 평균이 같지 않았다고 생각하는 것이다. 그런데 k3과 같았다면, 그냥 잘 일어나는 일이 일어난 것일 뿐이므로 귀무가설이 맞는다고 간주한다.
p-value란 귀무가설 하에서 관측된 통계수치보다 큰 값이 관측될 확률로 정의되는데, 우리는 두 모집단이 다르다면 '차이'가 클 것으로 예상하고, 따라서 m1 - m2 의 절대값이 클 것을 예상하므로, 위의 경우 k1 의 경우 k1 보다 왼쪽, -k1 보다 오른쪽 영역의 적분값이 곧 |k1|보다 더 큰 값이 관측될 확률, 곧 관측된 k1에 대한 p-value가 된다. 이 값은 매우 작겠고, 따라서 우리는 귀무가설을 기각하고자 한다. 곧, 두 모집단은 달랐을 것으로 간주하는 것이다.
요약하자면 이렇다. 통계적 검증, 이란, 일단 가설 하나가 필요하다. 그 가설이 맞다는 전제 하에서 일정한 통계수치값, 가령 평균의 분포를 계산해 본다. 그리고 실제로 실험을 해서 통계치를 구한다. 구해진 통계치가, 가설이 맞다는 전제 하에서 구한 통계수치의 분포에서 보니 분포의 양 끝에 위치하고 있다면, 그 통계치 이상이 관측될 확률이 매우 적게 된다. 그런데 그렇게 적은 확률의 사건이 실제로 일어나서 내가 관찰한 것이 아니라, 사실은 애초에 가졌던 가설이 틀렸다고 결론을 내리자는 얘기이다. 원래는 내가 실험으로 구한 통계치가 관측되기 그리 어려운 일은 아니었어야 하는데, 처음에 가설을 잘못 설정했기 때문에 그 가설 하에서 나온 분포에 의하면 내가 구한 통계수치가 매우 희귀한 값이 되어버렸던 것이다. 라고, 간주한다는 의미이지, 이렇게 하는 것이 맞다는 얘기는 아니다. 실제로는 그렇게 간주하는 것이 틀리는 경우도 있다. 즉, 통계적으로는 희박한 일이더라도 실제로는 일어나기도 하니까. 만약 이렇게, 원래 가졌던 가설이 맞았고, 내가 지금 관측한 것이 매우 희귀하게 일어나는 일이 실제로 발생한 것인데 위와 같은 논리에 따라 원래 가졌던 가설이 틀렸다고 결론 내리는 오류가 바로 type I 오류인 것이다.
'컴퓨터 > 수학이랑' 카테고리의 다른 글
Fisher's linear discriminant 구현 (4) | 2010.12.03 |
---|---|
Fisher's linear discriminant 원리 (17) | 2010.11.30 |
엑셀에서 z-score로 p-value 계산하기 (1) | 2010.10.12 |
알고리즘 관련 글의 병목 현상에 대하여 (0) | 2010.08.29 |
p-value란 무엇인가 (87) | 2010.08.02 |