본문 바로가기
연구관련/연구생활

21세기를 위한 상관계수

by adnoctum 2012. 2. 9.

   얼마 전 Science 에 놀라운 논문이 발표되었다. 21세기를 위한 상관계수라며 본논문을 소개하는 짧은 글까지 있었는데, 논문 내용은 방대한 량의 데이터에 존재하는 '관계'를 찾아내는 수치인데, 흔히 알고 있는 Pearson 상관계수가 선형관계만을 고려하는 것에 비하여 새로운 상관계수는 그것이 어떤 형태이든 '함수형태'로 나타낼 수 있는 관계를 갖고 있다면 값이 1로 수렴하도록 되어 있는 것이다.

   이 글은 그 논문의 내용을 짤막하게 소개하는 글이며, 추후, 그 논문에 나오는 값을 구하는 원리에 대해 알아 보는 글, 그 후 실제로 C++로 구현한 글을 작성할 예정이다. 현재 저자들이 제공하는 페이지에는 java로 된 파일이 제공되며, R과 python 의 wrapper 가 제공되고 있기는 한데, 논문의 supplementary 에 알고리즘과 pseudo code가 자세히 나와 있기 때문에 직접 C++로 구현해 본다.

* A Correlation for the 21st Century, Science 2011, vol.334, pp.1502-1503.
* Detecting Novel Associations in Large Data Sets, Science 2011, vol.334, pp.1518-1524
* MINE, project home page
* pod cast, 저자들 이야기 영상.


   아이디어는, 다른 많은 경우와 같이, 단순한 것에서 시작한다. 두 변수 (x,y) 로 이루어진 데이터가 있을 때, 각각의 변수에 대하여 적당히 구간을 나누면 grid 형태로 구간들이 쪼개지게 되고, 이 경우, 구간을 어떻게 나누느냐에 따라 information[각주:1] 이 최대가 되는 grid 형태가 나오게 되는데, 바로 이 최대 information 을 찾아 보자는 것이다. 이 때 이들은 두 가지를 중시하는데, 하나는 본 논문에 generality 라고 되어 있는, 선형 뿐만이 아니라 어떤 형태의 association 이든 그것을 찾아낼 수 있어야 한다는 것이고, 다른 하나는 equitability 라는 것으로, 비슷한 정도의 noise에 의해 값이 비슷한 정도로 작아 져야 한다는 것이다. 즉, 선형 데이터에 포함된 noise와 꼭같은 정도의 noise 가 들어 간 sinusiodal 형태의 데이터에 대해서 최대한 비슷한 값으로 표시해야 한다는 것이다. 저자들이 고안한 maximul information coefficient (MIC) 는 바로 이 특성을 갖는다. 또한, MIC로부터, 데이터가 얼마나 증가(감소)만 하는지, 데이터의 연관이 얼마나 복잡하게 되어 있는지(선형관계는 sine 과 같은 것보다 간단한 형태로 연관되어 있는 것이다) 등을 위한 수치가 계산된다. generality 를 simulation 한 결과를 본논문에서 가져 와 보자면 다음과 같다.




Pearson의 한계는 자명하니 넘어 가면, Spearman 과 그 이외의 방법으로 구할 때는 일관되지 않은 값이 나오는 많은 연관관계에 대하여 MIC는 일관된 값을 나타내는 것을 확인할 수 있다. 또한, equitiability 를 보이기 위해 제시한 데이터를 supple.에서 가져와 보자면 다음과 같다.


비슷한 정도의 noise 가 추가됨에 따라 MIC 값이 비슷한 정도로 감소하는 것을 볼 수 있다. 물론 위의 결과들을 simulation만으로 주장하는 것이 아니라, 저자들은 supple.에서 수학적으로 증명을 하고 있다.

  


   Pearson 에서 시작된 correlation 은 이제, kernel 따위 쓰지 않아도 위의 방법에 따라, 숨어 있을 association 을 찾아낼 수 있게 되었다. 물론, 많은 robust 한 system 은 다소 단순한 연관을 갖는 component 들의 조합으로 복잡한 동역학을 보이는 것으로 생각됨에 따라 위의 방법이 생각보다 덜 사용될 지 모르겠으나(개인적 의견), 여태까지 보이지 않았던 많은 연관관계들을 찾아낼 수 있다는 것에서 한 단계 진전이라 하지 않을 수 없다. 실로, 새로운 세기의 상관계수인 것이다.









  1. Shannon의 information theory에 나오는 그 information. [본문으로]