본문 바로가기

연구관련/연구생활61

21세기를 위한 상관계수 얼마 전 Science 에 놀라운 논문이 발표되었다. 21세기를 위한 상관계수라며 본논문을 소개하는 짧은 글까지 있었는데, 논문 내용은 방대한 량의 데이터에 존재하는 '관계'를 찾아내는 수치인데, 흔히 알고 있는 Pearson 상관계수가 선형관계만을 고려하는 것에 비하여 새로운 상관계수는 그것이 어떤 형태이든 '함수형태'로 나타낼 수 있는 관계를 갖고 있다면 값이 1로 수렴하도록 되어 있는 것이다. 이 글은 그 논문의 내용을 짤막하게 소개하는 글이며, 추후, 그 논문에 나오는 값을 구하는 원리에 대해 알아 보는 글, 그 후 실제로 C++로 구현한 글을 작성할 예정이다. 현재 저자들이 제공하는 페이지에는 java로 된 파일이 제공되며, R과 python 의 wrapper 가 제공되고 있기는 한데, 논문의 .. 2012. 2. 9.
매의 눈으로 디버깅 하기, ㅋ 밤을 지샌 것인지 아닌지 조금 애매한 상태에서 디버깅을 하고 있었다. 결과는 위와 같았지. 흠, 잘 되는군. 하고 쭉 훑어 보고 있는데, 다음과 같은 부분이 눈에 띈다. 몇 픽셀이 어긋나고 있던 것. 2011. 11. 22.
약간의 실수, 커다란 차이, ㅋ 그러니까, 내가 하고 싶은 건 dendrogram 을 그리는 것이었다. 가장 먼저 찾아 본 것은 쉽게 사용 가능한 matlab. 다음과 같은 예제가 있더군. 이쁘긴 하네, conventional 한 것에 비해선. 근데 문제는 input 으로 들어가는 것이 약간 애매하다. 내가 원하는 형태가 아니다. 더구나, 지금 나의 경우 agglomerative clustering 을 하고 있기는 한데, 이 때 두 node 를 합한 후 새로 부여하는 값이 일반적으로 사용하는 값이 아니다. 또한 metric 또한 기존에 사용하던 그 어느 metric 도 사용할 수 없다. 따라서 현재 구현되어 있는 많은 프로그램/라이브러리의 clustering 함수를 사용할 수 없고, 따라서 저렇게 그리고 싶지만 할수가 없다. 어제 하루.. 2011. 10. 20.
ㅋㅋㅋ, 당연한 것인데 말이지 가끔 일을 하다 보면 너무나 당연한 것을 미처 알아채지 못하고 막 할 때가 있다. 예를 들면 다음과 같은 것. 위는 logistic curve 인데, 내가 찾고 싶었던 것은 중간에 꺾이는 부분, 그러니까 변곡점을 찾으려고 했다. 두 번 미분했을 때 그 값이 0 이 되는 지점. 그래서 maple 로 위처럼 간단히 풀었는데, 답이 간단히 c 로 나온다. 생각해 보니, ㅋㅋㅋ, 내가 바로 그 점을 c 라는 값이 되도록 식을 저렇게 세운 것이었어. 그러니까 실제 값은 데이터에 logistic curve 를 저 식으로 regression 한 후 찾은 c 값이 중요한 것. 내가 봐야 하는 것은 바로 그렇게 regression 한 결과로부터 얻은 c 의 값. 이런 경우가 자주 있다. 그래프를 그려 놓고 왜 이런 그래.. 2011. 10. 15.