p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)[각주:1]이 실제로 관측된 값 이상일 확률을 의미한다.

일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가, 를 의미한다고 할 수 있다. p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게 되는데, 다음과 같은 경우를 살펴 보자.

다음과 같이 모분포가 10,000 개의 값으로 되어 있다고 하자.

그림 1. 평균 100.3023 을 갖는 모분포의 도수분포표.


위 모분포의 평균은 100.3023 이다. 가설 검증이라는 것은 모분포를 전부 검증할 수 없기 때문에 모분포에서 일부만 추출하여(그렇게 추출된 것을 sample이라 하자) 검사한 후, sample로부터 모분포의 특성을 추정하는 절차이다. 위의 10,000 개가 전체인 모분포에서 100 개만을 sampling 한다고 해보자. 실제 통계검사라는 것이 그렇다. 인구 전체를 다 검사할 수 없으니 일부만을 추출하여 검사하는 것이다. 이 예에서도 전체 10,000 개를 다 검사할 수 없으니 100 개만 선택해서 검사한다고 해보자.

   100 개를 선택하여 구한 평균이 모분포의 평균과 유사할까? 그렇다고 말할 수 없다. 왜냐 하면, 내가 100 개를 고를 때 다음과 같은 곳에 있는 것들이 선택될 수도 있기 때문이다.


그림 2. sampling 의 예. 푸른 네모로 선택된 자료가 sampling 된다면
평균은 150 이 넘게 나올 것이다. 이것은 모분포의 평균과 많이 다르다.


위의 경우처럼, 내가 100 개를 선택했을 때 그 100 개의 평균이 모분포의 평균에 근접한 것이 골라졌다고 말할 수 없는 경우가 얼마든지 발생할 수 있다. 따라서, 문제는 이것이다.

sampling 된 데이터의 평균은 모분포의 평균과 얼마나 유사할 것인가?


실제로 위의 예에서, 10,000 개의 모분포에서 100 개를 sampling 하는 과정을 1,000 번 반복하여 각각의 경우에 대한 평균의 분포를 그려 보면 다음과 같다.


그림 3. 100 개를 sampling 할 때마다 평균을 구하는 작업을 1,000 번
해서 100 개의 평균을 그때그때 구한 후, 그 1,000개의 값을 도수분포표로 나타낸 그림.


위 코드에 필요한 statutil 파일들

statutil.cpp

statutil.h




즉, 가끔이기는 하지만 내가 sampling 한 100 개의 데이터의 평균이 92 가 안 나올 때도 있고 가끔은 108 이 넘어갈 때도 있는 것이다. 물론 많은 경우 100 근처에서 나오기는 한다[각주:2]. 이 상황에서 이제 다음과 같은 문제가 생긴다.

내가 sampling한 데이터의 평균이 96.95 인데, 이것이 모평균이 90 이라는 것을 지지할 수 있을까?


무턱대고 그럴 수는 없다. 왜냐 하면, sampling 된 데이터의 평균이 96.95 인 것은 평균이 100 인 위 예의 분포에서도 충분히 나올 수 있는 값이므로 모평균이 몇인지 명확히 알 수 없기 때문이다. 

   정리를 하면, 가설검증이라는 것은 전체 데이터의 일부만을 추출하여 평균을 내고, 그 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 전체 데이터의 평균을 구하는 작업인데, 아무리 무작위 추출을 잘 한다 하더라도 추출된 데이터의 평균은 전체 데이터의 평균에서 멀어질 수 있게 된다. 따라서, 내가 추출한 이 데이터의 평균이 원래의 전체 데이터의 평균과 얼마나 다른 값인지를 알 수 있는 방법이 필요하게 된다. 이와 같은 문제 때문에 나온 값이 p-value 이다.

   쉽게 알 수 있도록 극단적인 예를 하나 들어 보자. 만약 모분포가 그림 1 과 같아서 평균이 100 이고 분산이 30(실제로 30이다)인 데이터에서 50 개를 sampling 한다고 할 때, 그 50개의 평균이 1 이 나올 경우는 얼마나 될까? 실제 그림에서도 그렇고, 생각으로도 그렇고 아마 그런 경우는 나오긴 나와도 거의 안 나올 것이다. 반대로, sampling 된 50 개의 데이터의 평균이 500 일 확률은? 데이터에 500 이 넘는 자료가 없다면 모를까, 그런 경우가 아주 안 나온다고 말할 수는 없겠지만, 아주 희박하게 나온다는 것은 짐작할 수 있고, 실제로도 그렇다. 즉,

우리는 평균이 100 이라는 가정 하에서는 sampling 된 데이터의 평균이 100 근처에 있을 것이라는 생각을 하게 되고, 따라서, 역으로, sampling 된 데이터의 평균이 100 에서 멀면 멀수록 모분포의 평균이 100 이 아닐지도 모른다는 생각을 하게 된다.



이것이 정확히 p-value 가 나온 논리이며, 그 의미이다. 즉,

"모분포의 평균이 100 이다"라는 귀무가설이 참이라는 가정 하에서, 100 개의 데이터를 sampling 할 때 이론적으로 나올 수 있는 평균의 분포에서, 지금 내가 갖고 있는 값인 95 보다 큰 값이 나올 수 있는 확률. 그것이 p-value 이다. 위의 예에서 본 것과 같이, 만약 그럴 확률이 매우 낮다면 우리는 귀무가설을 기각할 수 있게 된다. 왜냐 하면, 우리는, 우연히 발생할 가능성이 매우 희박한 사건이 실제로 발생했을 경우, 그것은 우연이 아니라고 생각하는 경향이 있고, p-value 역시 그와 같은 경향을 따른 것이기 때문이다. 시험에서 우연히 100 점을 받을 확률은 매우 낮은데 정말로 100 점을 받은 사람이 있다면, 그가 우연히 100 점을 받았다고 생각하기보다는 '우연히' 100 점을 받은 것은 아니라고 생각한다. 또한 로또를 연속 5번 맞춘 사람이 있다면, 우연히 그런 일이 일어날 가능성은 매우 작으므로 그 일은 우연이 아니라고 생각하고, 뭔가 모종의 음모가 있다고 의심해 보게 된다. 다시 예를 들면,

내가 50 개의 데이터를 추출했고 그 평균이 95 이다. 나는 아마도 이 데이터가 평균이 100 이고 분산이 30 인 모분포 P에서 왔을 것 같다. 그런데 평균이 100 이고 분산이 30 인 모분포에서 50 개를 추출할 때 그 50개의 평균이 95가 나올 확률(A)이 0.001 이라면?  즉, 평균이 100, 분산이 30인 모분포에서 50개를 선택했을 때 평균이 95가 나오는 경우가 매우 드물다면, 아마도 내가 갖고 있는 데이터는 P에서 왔다고 말하기 조금 꺼려진다. 반대로 그럴 확률(A)이 0.65 라면, 그렇다면 이런 경우는 그리 어려운 일이 아니므로 그럴듯 하다. 즉, 우리는 통계적으로 일어나기 매우 어려운 일이 일어났을 때, 그 일은 아마도 우연히 일어났다기 보다는 다른 이유 때문에 일어났다고 생각한다. 즉, 평균이 100, 분산이 30인 모분포에서 50개를 추출했는데 그 평균이 95였다, 그런데 이런 경우 평균이 95이거나 그보다 클 확률이 0.00001 밖에 안 된다면, 아마도 이렇게 확률이 적은 일이 지금 실제로 일어났다고 생각하기 보다는 애초에 가졌던 가설, 즉, 데이터 50개를 추출한 모분포가 평균이 100 이고 분산이 30 이다, 이 가설이 아닐 것이라고 생각한다는 것이다.

이쯤에서 다시 p-value의 정의를 살펴 보면,

p-value는 귀무가설이 맞다는 전제 하에, 관측된 통계값 혹은 그 값보다 큰 값이 나올 확률이다.

따라서 p-value가 너무 낮으면, 그렇게 낮은 확률의 사건이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 그래서 귀무가설을 기각하고 대립가설을 채택하게 된다. 그림으로 보면 다음과 같다.


그림 4. p-value의 개념. 이론적으로 가능한 통계값의 분포에서, 실제로 관측한 통계값 이상이 나올 확률.



그림에서 보면, 실제로 가능한 m(평균)의 분포가 위와 같을 때, 내가 구한 평균이 m2 라면 p-value가 매우 작다. 이럴 경우, 그렇게 희박한 일이 실제로 일어났다고 하기 보다는 저 이론적 분포를 가져온 가설(귀무가설)이 잘못되었다고 생각하겠지. 반대로 m1과 같이 귀무가설 하에선 별스럽지 않은 일이라면 아마도 귀무가설이 맞을 것이다.

   위에서는 물론 주로 평균만을 갖고 예를 들었으나, 당연히 평균과 분산이 동시에 주어져야 위와 같은 가설검증을 할 수 있다. 또한, 모분포의 평균과 분산이 몇 일 것이다, 란 조건이 있으면, 거기서 n 개를 sampling 했을 때 그 n 개의 평균이 얼마나 잘 나올 수 있는 값인지는 중심극한정리와 표준정규분포의 성질을 이용하여 정확히 계산가능하다. 따라서 그 경우마다 p-value를 구할 수 있게 된다.

자, 그렇다면 p-value 에 대한 다음의 오해들 - 위키에서 가져옴 - 을 생각해 보자.

1. p-value는 귀무가설이 참일 확률이 아니다 : 귀무가설이 참일 확률은 구할 수 없다.
2. p-value는 통계값이 우연일 확률이 아니다 : p-value가 낮아도 귀무가설이 참일 수 있고, p-value가 높아도 귀무가설은 틀릴 수 있다.
3. p-value는 귀무가설을 기각하면 안되는데 기각할 확률이다 : 길어서 뒤로 뺌.
4. p-value는 반복실험을 했을 때 동일하지 않은 결론이 나오는 확률이 아니다 : 100 번을 sampling 하면 5번 정도는 p-value 0.05 에 걸리겠지. 이 경우, 95번은 귀무가설 채택, 5번은 기각, 이라는 것은 p-value 0.05 를 기준으로 그 이하는 좀 일어나기 어려우니까 그냥 귀무가설이 틀렸다고 하자, 라는 가정 때문이지 p-value 때문은 아니다.
5. 1-(p-value)는 대립가설이 맞을 확률이 아니다 : p-value와 대립가설은 별로 관련이 없다. 순전히 '귀무가설이 맞다는 전제 하에' 나온 값이 p-value이고, p-value를 구함에 있어 대립가설은 그 어디에서도 작용하지 않는다.
6. significance level은 p-value에 의해 결정되는 것이 아니다 : alpha는 연구자의 주관이며, 관례적으로 0.05, 0.01 을 사용할 뿐이지. 난 microarray 가 지저분하기 때문에 0.10 정도를 사용할 때도 있다.
7. 생략.

3. p-value는 귀무가설을 기각하면 안되는데 기각할 확률이다 : 아무래도 가장 혼란스러운 오해가 아닌가 십다. 귀무가설을 잘못 기각했는지, 아니면 맞게 기각했는지는 확인할 수 없다. 즉, 귀무가설을 잘못 기각했다는 것은 확률값이 아니다. 귀무가설이 맞다는 전제 하에 나온 분포에서 무엇인가를 하는 것이기 때문에, 그리고 p-value가 0.001 이에서 귀무가설을 기각했다고 해서 그것이 귀무가설이 맞음에도 불구하고 p-value가 낮았기 때문에 기각했다고는 말히기는 좀 어려운데 왜냐 하면 그 0.1%의 경우에 대해서 귀무가설이 사실은 맞은 가설인지를 확인할 방법이 없기 때문이다. 그리고 정의상 p-value는 그런 개념이 아니다. 만약 애초에 귀무가설이 틀렸다고 해보자. 그런 상황에서도 여전히 p-value는 구해지는데, 그런 p-value가 과연 귀무가설을 잘못 기각한 확률이 되는가? 아마도 3번과 같은 오류는, 귀무가설이 맞다는 전제 하에 모든 일이 이루어진다면 맞는 말이긴 한데, 애초부터 귀무가설이 틀릴 수도 있고, 그렇더라도 p-value는 여전히 구해지기 때문에 뭐라 말할 수 없게 되는 것이다.



자, 이제 위의 일반적인 경우에 더해서, pearson's correlation coefficient (PCC) 에 대한 p-value를 생각해 보자. 왜 이런 문제가 생기느냐 하면, 비록 모분포에서는 pcc가 거의 0 에 가깝다고 하더라도 우연히 PCC가 좀 크게 sampling 될 수도 있기 때문이다. 다음과 같다.


위의 데이터는 딱 봐도 PCC가 0에 가깝다는 것을 알 수 있다. 실제로 계산해 보면 0.00395613이 나온다. 위의 데이터를 모분포 라 하자. 데이터는 10,000 개 이다. 위와 같은 모분포에서 100 개의 데이터만 무작위로 선택하여 PCC를 계산하는 과정을 1,000 번을 하면 PCC의 분포는 다음과 같다. 




즉, 전체 10,000 개의 데이터인 모분포는 비록 PCC가 0.00395613 이지만, 그 1만개의 모분포에서 100 개만을 sampling 해서 PCC를 계산한다면 가끔씩은 0.2가 넘는 값이 나올 수도 있는 것이다. 자, 이 예제에서 모분포의 PCC가 0.00395613 이 아니라 0 이라고 해보자. 그러더라도 100 개를 sampling 하는 작업을 한 PCC의 분포는 위의 분포와 크게 달라지지 않을 것이다. 이제, 다음과 같은 문제가 발생한다.

내가 100 개의 데이터로부터 PCC를 구했더니 0.15가 나왔다. 이 0.15 라는 값은 통계적으로 유의미한 값인가? 즉, 원래의 모분포는 PCC가 0 인데 위의 경우처럼 우연히 0.15가 나온 것인가, 아니면 정말로 모분포의 PCC가 0 이 아니기 때문에 0.15가 나온 것인가?


왜 위와 같은 문제가 발생하느냐 하면, 위 예제 데이터로 보여준 것과 같이 비록 PCC가 0 이더라도 sampling 을 하게 되면 우연히 PCC 가 0.2 가 넘게 나올 수도 있기 때문이다. 따라서 내가 현재 갖고 있는 0.15라는 값이 과연 그렇게 우연히 나온 값인지, 아니면 정말로 PCC가 0 이 아니기 때문에 나온 값인지 궁금하게 된다. 궁금해 할 수 있어야 한다. 바로 위와 같은 경우 때문에 pearson's correlation coefficient 에서도 p-value라는 것이 필요하게 되는 것이다. 그리고, 이 경우, 통계값으로 pcc 가 사용되었다. 만약 이와 같은 상황에서 pcc=0.35에 대한 p-value 가 0.001 이 나왔다면, 귀무가설인 pcc = 0 인 상황에서는 아무리 여러 번 sampling 해도 우연히 pcc가 0.35가 잘 나오기 힘드니까 그런 일이 지금 일어났다고 생각하기 보다는 애초에 pcc=0 이라는 가정이 틀린 것이고, 따라서 p == 0 은 아니라고 생각하는 편이 좀 더 합리적이라는 결론에 도달하게 된다. 



  1. statistics란 분포로부터 계산되는 값을 말하는데, 흔히 평균, 또는 평균의 차이, 분산, nth moment 등이 있을 수 있다. [본문으로]
  2. 현재 '평균'을 statistics로 사용하고 있다. 이런 경우 중심극한정리에 따라 그림 3의 그래프는 정규분포로 간다는 것을 알 수 있다. [본문으로]
Posted by adnoctum

댓글을 달아 주세요

  1. 이전 댓글 더보기
  2. What PCC 2017.09.11 17:58  댓글주소  수정/삭제  댓글쓰기

    이야 진짜 잘봤습니다 전공자가 아닌데도 쑥쑥 박히네요

  3. What PCC 2017.09.11 18:05  댓글주소  수정/삭제  댓글쓰기

    저.. 근데 어떤 샘플링을 뽑아서 통계를 내보니

    [case1] p-value 가 0.5에 가까운 값이면 = 샘플은 귀무가설을 잘 따르고있다.
    [case2] p-value 가 0.0001 처럼 작은값이면 = 샘플은 귀무가설을 따르지 않고있다.(이 경우엔 귀무가설 자체가 잘못되었을 가능성도 염두하기 시작해야한다)

    잖아요?

    근데 p-value가 0.9999 처럼 너무 커버리면 이것또한 [case2]에 들어가는거라고, 즉 '이 샘플은 귀무가설을 따르지 않고있다' 라고 해석해도 될까요?

    • Favicon of https://adnoctum.tistory.com adnoctum 2017.09.11 22:11 신고  댓글주소  수정/삭제

      귀무 가설을 잘 따르는 것, 이겠죠.

      예를 들면, 귀무가설이 "성인남성의 키는 200cm 이하이다", 라 하고 한국의 어느 곳에서 5시간동안 sampling 을 하면 p-value 가 0.9999 처럼 큰 값이 나오겠죠.

    • 나그네 2019.07.23 11:10  댓글주소  수정/삭제

      이 부분만 이해가 좀 어렵네요. 귀무가설이 "성인남성의 평균 키는 200cm 이다" 라 하고, 한국의 어느 곳에서 5시간동안 sampling 한다면, p-value 정의에 따라 p-value 가 0.999 처럼 큰 값이 나올 수 있겠지만, 이는 위 댓글님의 [case2] 에 해당되는 것 같습니다. 한국에서의 성인남성 평균 키를 170이라고 가정하고, 귀무가설이 normal distribution 을 따른다고 하면요.
      왜 평균에서 멀리 떨어진 양끝자락을 모두 부정하지 않고, 높은 값쪽만 부정하게 되는 건지 궁금합니다.

    • 나그네 2019.07.23 11:22  댓글주소  수정/삭제

      https://en.wikipedia.org/wiki/P-value
      답을 찾았습니다. p-value 의 정의가, "관측된 통계값 혹은 그 값보다 극단적인 값이 나올 확률" 이네요. 여기서 "극단적인"이라는 표현을, 해석에 따라 "큰 값(right-tail event)" 이 될 수도 있고, "작은 값(left-tail event" 또는 두 p-value 중 작은값(double-tailed event) 가 될 수 있다고 써있네요. 즉, 원댓글 님이 궁금해하신, [case2] 에 해당된다고 보신 표현이 맞는 것 같습니다.

  4. 유수정 2017.10.05 00:19  댓글주소  수정/삭제  댓글쓰기

    우와...P-value에 대해서 완전 이해됐습니다..! 설명 능력이 훌륭하십니다.
    한가지 여쭤보고싶은게 있는데, 생물학 관련 논문을 읽고 있는 중인데요
    P trend(아랫첨자)=0.01 이런 값이 있는데
    P trend 는 어떻게 해석하면 될까요??

    • Favicon of https://adnoctum.tistory.com adnoctum 2017.10.05 20:30 신고  댓글주소  수정/삭제

      회귀(선형회귀같은)에 대한 통계적 유의도를 말하는 것으로 추측이 되는데요. 예를 들면, 보통 선형 회귀의 경우 귀무가설은 '기울기가 0이다'인데, 이것에 대한 p-value 가 0.01 일 수 있습니다. 그러나 보다 정확한 설명은 논문에 언급이 되어 있을 것입니다.

  5. 데이터분석 공부중 2018.02.20 15:46  댓글주소  수정/삭제  댓글쓰기

    설명 너무 고맙습니다!!!!!

  6. 2018.06.11 23:33  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

    • Favicon of https://adnoctum.tistory.com adnoctum 2018.06.12 02:25 신고  댓글주소  수정/삭제

      '왜' 라는 물음이 다소 애매한데요. 귀무가설이 맞는 가설임에도 불구하고 p-value 가 유의수준보다 작아서 귀무가설을 기각할 수도 있잖아요? 그럼 오류죠? 그 오류를 대략 5% 정도까지 허용하겠다*, 하면 그 유의수준이 0.05 가 되는 것이죠. 즉, 유의수준은 연구자가 최대로 허용할 수 있는 오류의 임계값이라고 보시면 됩니다. 유의수준은 그냥 연구자가 주관적으로 정하는 값입니다, 일반적으로 0.05 정도가 괜찮다고 알려져 있을 뿐 정답은 아닙니다.

      유의수준을 0.05 로, 즉 5% 정도의 오류는 받아들일려고 했는데 p-value 가 0.001 이 나왔다고 해 봅시다. 이 경우 나는 5% 정도의 오류는 감수하겠다, 라고 마음 먹은 것이죠. 만약 귀무가설이 맞는 것이라고 했을 때 p-value 가 0.001 이라서 이 가설을 기각한다면 대략 0.1%의 확률로 잘못된 기각일 수 있겠죠. 그런데, 어차피 나는 5% 정도의 오류는 감수할 마음이었으니 0.1% 정도의 오류확률이라면 받아들일 수 있겠고, 따라서 이 가설은 기각해야겠다, 라는 흐름이 되는 것이죠.

      유전체학처럼 가설의 종류가 2만개인 경우에는 5%의 오류를 허용해도 1000개의 오류가 생겨버릴 수 있어서 유전체학에서는 0.05보다 훨씬 작은 유의수준 값을 사용합니다 (실제로는 q-value 라는 새로운 값을 사용합니다).

      생물학 분야의 경우 연구 재현성이 문제로 대두될 때가 많으며 그 원인 중 중요한 하나로 0.05 가 너무 높으니 0.001 로 해야 한다, 라는 연구도 있습니다.

      이처럼 유의수준이라는 것은 상황에 따라 다르죠. 하지만 일반적인 상황에선 0.05 정도면 괜찮다고 알려져 있습니다.

      말씀하신 인용 문구는 좀 애매하네요. 다소 주관적인 표현인 것 같습니다.

      *) 이번 결정 하나가 잘못된 확률, 이 5%가 아니죠. 이러한 결정을 1천번 처럼 다수 시행했을 때 그 중 5% 정도가 잘못된 것이라는 의미입니다.

  7. 통계 2018.06.12 14:13  댓글주소  수정/삭제  댓글쓰기

    안녕하세요, 어제 ‘통계’라는 이름으로 질문 드렸던 학생입니다.
    제가 로그인을 하지 않은 상태에서 댓글을 달아 답글로 달아주신 답변을 볼 수 없는 상태라,
    혹시 같은 내용의 답변을 공개 댓글로 다시 달아주실 수 있으신가요?
    번거롭게 해드려 정말 죄송하고 답변 감사드립니다!

  8. Favicon of http://adnoctum.tistory.com/332 감사합니다 2018.07.30 23:00  댓글주소  수정/삭제  댓글쓰기

    감사합니다.
    그 어떤 전공책보다도
    그 어떤 블로그보다도
    알기 쉽게 이해하기 쉽게 직관적으로
    설명해주셨네요.
    통계학이라는게 수식이 난무할 수 있는데
    이렇게 아름답게 말로 풀어낼 수 있다는게
    전공자로서 감탄할뿐입니다.

  9. q 2018.11.24 12:10  댓글주소  수정/삭제  댓글쓰기

    모수의 평균값은 어떻게 구하죠??

  10. 너무 감사합니다 2019.08.28 07:23  댓글주소  수정/삭제  댓글쓰기

    쉽게 잘 설명해주셔서 감사드려요~!!

  11. Clarity 2019.10.16 17:38  댓글주소  수정/삭제  댓글쓰기

    하... 부랄을 탁! 치고 갑니다. 좋은 설명 너무 감사 드립니다.
    글 내용은 다 이해했지만 아직도 P-Value를 물으면 뭐라 말 할지 잘 모르겠네요.

    개인적인 고찰이 참 많이 필요한거 같습니다.

  12. 정용호 2019.10.22 18:49  댓글주소  수정/삭제  댓글쓰기

    "내가 sampling한 데이터의 평균이 96.95 인데, 이것이 모평균이 90 이라는 것을 지지할 수 있을까?"
    가 아니라
    "내가 sampling한 데이터의 평균이 96.95 인데, 이것이 모평균이 100 이라는 것을 지지할 수 있을까?"
    아닌가요?

    • Favicon of https://adnoctum.tistory.com adnoctum 2019.10.22 22:19 신고  댓글주소  수정/삭제

      좋은 지적입니다. 제가 약간 혼동되게 적어 놓았네요. 제 의도상 90 이 맞습니다.

      제 의도는 모평균이 100 이어도 sampling 한 데이터의 평균은 96.95가 나올 수 있기 때문에, 마찬가지로 모평균이 90 이어도 sampling 했을 때의 평균이 96.95가 나올 수 있을텐데, 과연 그것이 확률적으로 얼마나 어려울까? 를 물어 본 것이거든요.

      그런데, 님의 지적대로, 모평균이 100 인 모분포에서 sampling 한 데이터의 평균이 한 92 정도 되는 것을 예로 드는 것이 모평균이 90인 경우에 대한 확률을 묻는 것에는 더 명확했을 것 같네요.

  13. Favicon of https://u-kkk.tistory.com Ed 2019.12.06 22:30 신고  댓글주소  수정/삭제  댓글쓰기

    안녕하세요! 이번에 통계학을 배우고 있는 비전공자입니다.!
    위에서

    예를 들어 모집단의 평균이 100이라고 전제 할 때(실제 데이터 값이 있다고 전제할 때) 우리가 구한 샘플집단의 평균이 120이 나왔다.
    이때
    p-value가 높다면, “우리는 모집단의 평균이 100인데 120정도면 가능한 일이고, 우연히 평균이 120인 샘플집단이 추출될 수 있다”고 120의 값을 무의미하게 생각하는 반면
    p-value가 낮다면, “우리는 모집단의 평균이 100인데 샘플집단의 120이다, 아마 모집단의 평균이 100이 아닐 수도 있겠다“ 라고 120의 값에 유의미하다고 생각할 수 있다.
    이렇게 설명해도 될까요

    이런 질문이 있었는데요 p-value는 귀무가설을 맞다고 하는 가설인데 저는 두 데이터간의 관계가 없다를 귀무가설로 봤습니다.
    제가 생각한 것이 맞나요?? 여기서는 어떤 귀무가설을 맞다고 하는 것인가요??

    -------------------------------------------------------------------------------------------

    R로 통계를 배우고 있는데, 저는 항상 책에 있는 p-value 값을 보고 해석한 것을 통해서 귀무가설이 무엇인지 알아가는데, 이렇게 귀무가설을 찾는 것인가요???

    답변해주셔서 감사합니다.

    • Favicon of https://adnoctum.tistory.com adnoctum 2019.12.10 18:26 신고  댓글주소  수정/삭제

      '관계'라는 것의 수학적 정의가 무엇이냐에 따라 결론이 달라질 것으로 보입니다.

      그리고, 일반적으로 귀무가설은 미리 주어지거나, 가설검정 상황에서 직접적으로 언급되지는 않아도 자명하게 알 수 있는 경우가 많은데요. 통계 검정의 원리 및 그 방법에 대한 일반적인 내용을 좀 더 공부해 보시면 좋을 것 같습니다.

  14. 뇌파공부하는중 2019.12.29 21:02  댓글주소  수정/삭제  댓글쓰기

    안녕하세요.

    p-value: 모분포가 존재하고 그것을 sampling 했을 때, 이 sample값이 나올 확률

    p-value가 낮다: "지금 나온 sample값이 진짜 웬만하면 도출되지 않는데 어마어마한 확률을 뚫고 도출되었구나"라고 생각하기 보다 차라리 내가 처음 예상했던 내용이 틀렸고 sample값이 좀 더 정답에 가깝다고 생각하는 것이 맞을 것이다.

    라고 생각해도 될까요?

    학부생 인턴 참여하게 되어서 연구 관련 논문 서칭 중인데 p-value값이 많이 나오네요. 아직 확률을 제대로 공부해본 적이 없어서 찾아보다 여기 글이 엄청 자세해서 여쭤봐요.
    p값이 작다 = 이 데이터가 유의미하다.
    p값이 크다 = 이 데이터는 딱히 중요한 게 아니다.
    이렇게 보고 읽으면 될까요?

    • Favicon of https://adnoctum.tistory.com adnoctum 2019.12.30 17:54 신고  댓글주소  수정/삭제

      p-value가 낮다: "지금 나온 sample값이 진짜 웬만하면 도출되지 않는데 어마어마한 확률을 뚫고 도출되었구나"라고 생각하기 보다 차라리 내가 처음 예상했던 내용이 틀렸고 sample값이 좀 더 정답에 가깝다고 생각하는 것이 맞을 것이다. ==> sample 된 값이 좀 더 정답에 가까운지는 알 수 없습니다. 단지 처음 가졌던 가정이 틀렸을 확률이 높은 것만 알 수 있습니다.

      p-value 와 데이터의 유의미함은 일괄적으로 이야기하긴 힘들고, 상황에 따라 결정될 것 같습니다.

  15. jay 2020.02.10 23:51  댓글주소  수정/삭제  댓글쓰기

    이제야 제대로 이해가 되네요. 정말 명쾌한 설명 잘 듣고 갑니다. 감사합니다.

  16. ㅇㅇ 2020.03.22 17:17  댓글주소  수정/삭제  댓글쓰기

    p-value의 의미는 이해가 잘가는데 p-value 수치 자체는 어떻게 구하는건가요?

    • Favicon of https://adnoctum.tistory.com adnoctum 2020.03.25 01:25 신고  댓글주소  수정/삭제

      일반적으로는 통계치에 대한 모분포가 주어지며, 그 모분포를 이용해서 구합니다. 예를 들면, 표준점수라고 알려진 Z 값 ((원 데이터의 값 - 평균)/표준편차) 에 따른 확률 분포에 대한 함수식이 알려져 있으므로, Z 값이 주어지면 그 분포에서 Z 값보다 큰 (단극단 혹은 양극단으로) 부분의 면적을 구하면 됩니다.

  17. ㅇㅇㅇㅇ 2020.06.16 04:45  댓글주소  수정/삭제  댓글쓰기

    감사합니다. 정말 많은 도움이 되었습니다.

  18. ^^ 2020.07.08 19:00  댓글주소  수정/삭제  댓글쓰기

    감사합니다! 헷갈리는 부분이 이해되었습니다!

  19. jjc 2020.09.07 21:44  댓글주소  수정/삭제  댓글쓰기

    잘 이해가도록 써 주셔서 너무 감사합니다
    한가지 궁금한게
    x, y 변수의 상관계수를 구하기 위해서
    python scipy.pearsonr(x, y)를 하면 return값이
    correation, p-value 값이 나옵니다.

    (-0.26086, 0.3476) 이렇게 나왔다면
    -0.26 상관계수 값이 우연히 나왔을 확률이 34%라고 봐야되나요?
    따라서 별로 의미없는 값이라고 해석을 하는게 맞는건가요?
    여기서 귀무가설 이런 경우에 무엇이 되는건지?

    • Favicon of https://adnoctum.tistory.com adnoctum 2020.09.11 20:11 신고  댓글주소  수정/삭제

      그 때의 귀무가설은 "상관계수값이 0.0이다" 입니다. 0.3476 이란 값은 상관계수값이 원래는 0.0 인데 (즉 모분포의 상관계수값은 0.0인데) jjc 님이 추출한 것에서 우연히 -0.26 또는 그보다 절대값이 큰 값이 나올 확률이 0.3476 이란 이야기입니다.

      말씀하신 것이 의미는 어느 정도 맞습니다. -0.26 이 우연히 나올 확률, 이라기보다는 -0.26보다 절대값이 큰 값이 나올 확률이 0.34라고 보시는 게 좋고, 해석은 말씀하신대로 별로 의미 없는 상관계수로 간주할 수 있다는 것입니다.

      -0.26이면 그래도 큰 값인데 p-value 가 0.3476 이라면 데이터 수가 10~20개 정도로 매우 작은 것 같네요. 이럴 때는 x-y scatter plot 으로 전체 데이터를 그려서 살펴 본 후 튀는 값이 있나를 살펴 보고 어떻게 처리할지 생각해 보면 좋습니다.


  20. 고니고니 2021.03.01 10:02  댓글주소  수정/삭제  댓글쓰기

    와..비전공자라서 정말 접근이 어려운 내용인데 명쾌하게 설명해주시네요ㅠㅠ 감사합니다!!!

  21. 궁그미 2021.04.02 06:28  댓글주소  수정/삭제  댓글쓰기

    p value가 높다면 상관계수가 높아도 귀무가설(둘 사이의 관계는 0)을 기각할 수 없기 때문에 상관이 없다고 해석하는게 맞을까요?

    위에서 보여주신 pcc=0.35에 대한 p-value 가 0.001 이 나온 예시에서 낮은 p value로 두 변수의 상관관계는 0이라는 귀무가설은 기각되고 이 둘의 관계는 0.35로 꽤 상관이 높다고 해석을 할수 있는데, 사실 모집단에서는 pcc가 0이잖아요. 이건 어떻게 해석해야 하는지도 궁금합니다ㅠ

    • Favicon of https://adnoctum.tistory.com adnoctum 2021.04.03 13:23 신고  댓글주소  수정/삭제

      잘 이해하고 계신 것으로 보입니다. 말씀하셨듯이 p-value 가 크다면 (>0.05) 상관계수가 높아도 귀무가설을 기각할 수 없기 때문에 상관이 없다, 라고 해석합니다. 보통 sampling 한 N 수가 작으면 상관계수가 커도 p-value 가 크게 나옵니다.

      pcc=0.35 얘기는 예로 든 것인데 실제 위 모분포에서 나온 예는 아닙니다. 즉, pcc=0.35 에 대한 p-value 0.001 이 위 모분포에서 나온 예제는 아니고 그냥 제가 임의로 말한 것입니다.

      그리고, 만약 실제로 모집단의 상관계수가 0인데 pcc=0.35 에 대한 p-value 가 0.001 이라 귀무가설을 기각하지 못해서 "모집단의 상관계수는 0 이 아닐 것이다." 라고 결론을 내린다면 그것이 바로 1종 오류, 즉, 귀무가설이 참인데 잘못 기각하는 오류, 입니다. 대다수의 통계적 검정은 이러한 오류의 가능성을 내포하고 있습니다.