본문 바로가기
컴퓨터/수학이랑

상관계수

by adnoctum 2010. 4. 19.
   두 변수의 관계, 특히 선형 관계를 확인할 때 사용할 수 있는 값이 상관계수[각주:1]이다. 일반적으로 많이 사용되는 값은 피어슨 상관계수(Pearson's correlation coefficient)로 다음과 같은 공식으로 얻는다.






X와 Y 의 covariance 를 X, Y 각각의 표준편차로 나누어주기 때문에 PCC 값은 X와 Y의 단위(scale)에 의존하지 않는다. 즉 X보다 Y 가 일반적으로 천배가 큰 수 (예를 들어 X는 kg로 표현한 몸무게, Y는 mm 로 표현한 키)여도 유의미한 값을 갖게 된다. 이와 같이 scale에 의존하지 않는 성질을 scale-invariant 라 한다.


공식 (1) ~ (3) 은 모집단의 상관계수를 구하는 공식이고, 만약 모집단의 일부인 sample 을 이용하여 모집단의 PCC를 찾고자 할 때는 다음과 같은 공식을 이용할 수 있다.




(3)번 공식에 있는 모평균과 모분산을, 그 각각에 대한 가장 좋은 추정치(MLE)인 sample 평균과 sample 표준편차로 바꾸어 준 공식이 식(5)가 되는 것이다.

PCC 의 특징 중에 하나는 X와 Y의 크기, 이동에 의존하지 않는다는 점이다. 즉,



주의할 것은, 같은 상관계수 값을 갖는다는 것과 분포양상이 같다는 것은 다른 의미라는 것이다. 위키에 있는 그림에서 이 예를 보면 다음과 같다.



다루는 데이터에 따라 '분포가 비슷하다' 는 것의 의미가 달라질 수 있는데, 만약 두 데이터의 선형관계 중 기울기가 비슷한 것인가를 보기 위해서는 선형회귀시킨 것의 alpha 값, 즉 기울기를 따로 보아야 한다. PCC값은 기울기와 데이터의 noise를 같이 보는 것이기 때문이다. 즉, 위 그림에서 첫 번째 줄에 있는 데이터들은 기울기는 대부분 비슷하나 noisy한 정도가 변하기 때문에 PCC 값이 작아지는 것을 볼 수 있다.

r 값, 즉 PCC 값의 제곱은 흔히 말하는 r 제곱값(r-square) 으로, coefficient of determination 의 값인데, 한 변수의 변화량이 다른 변수의 변화량으로 얼마나 설명이 될 수 있는 것인가를 표현한다. 만약 이 값이 1 이면 한 변수의 변화량으로 다른 변수의 변화량을 100% 표현할 수 있다 하겠다.

PCC 값에 대한 p-value도 존재하는데, PCC 값이 0 이 아닌 것에 대한 통계적 유의미함을 표현한다. 이와 같은 값이 필요한 이유는 모집단의 PCC 값이 0 이어도 sampling 을 할 경우 우연히 PCC 값이 0 이 아닌 값이 되도록 sampling 될 수 있기 때문이다. 이와 같은 경우에 사용할 수 있는 p-value 를 계산하는 법은 위키에 나와 있고, 몇 가지 예는 이 페이지에 있다. 같은 통계적 유의미함 (같은 p-value)에 대해서는 데이터 개수가 크면 클수록 PCC 값이 작아진다는 것을, 다시 말해, 데이터를 많이 sampling 할수록 PCC 값이 작아도 유의미해진다는 것을 예측할 수 있고, 실제로도 그렇다.

위와 같은 생각을 C++ 코드로 나타내면 다음과 같다.





주의: 상관계수는 두 변수 사이의 인과관계를 설명하지 않는다 (Cum hoc ergo propter hoc). 상관계수는 단지 두 변수가 관련이 있는지 없는지만을 나타낼 뿐이다. 키와 신발 크기는 분명 상관계수가 크겠지만 큰 신발을 신는다고 해서 키가 커지지 않는다. 또는 오후 2시부터 3시까지 강남역 6번 출구에서 나오는 여자들이 입고 있는 옷의 무게와 그 날 오후 2시의 기온은 anti-correlation 을 갖겠지만 여자들이 한겨울에 가벼운 옷을 입는다고해서 온도가 올라가지는 않는다. 언론에서 자주 이것을, 일부러인지 몰라서인지, 혼동하는데, 예를 들면 주가지수가 떨어지는 것과 자살인구의 상관계수를 주가지수가 떨어져서 자살자가 많아졌다고 해석하는 것과 같은 것이다. 사실에 있어서도, 가치에 있어서도 한국은 역시나 제대로 된 언론이 거의 없다. 담배가 보급되면서 평균수명이 급격히 증가했는데, 이것을 담배가 평균수명을 증가시킨 요인으로 해석하지는 않아야 한다. 담배가 보급될즈음 공중위생이란 개념이 등장했기 때문에 평균수명이 증가한 것이다.

  1. 상관, 즉 둘이 서로 관련이 있는가. 영어의 correation, 은 co(r)-relation, 즉, 동등한 자격을 표현하는 접두어 co- 가 붙음으로써 두 변수가 동등한 자격으로 관계가 있는지를 나타낸다는 것이 그 단어에 명확히 표현되어 있다 [본문으로]