실패는 병가지상사이라지만

막상 당하고 보면 한동안은 멍 때릴 수밖에 없다는. 아 놔...

월요일날, 불연듯 어느 아이디어가 떠올랐다. 가설에 맞는 데이터는 금방 만들었다. 하루 정도. 그리고, 그 후에, 이제 이 가설이 틀리다면 벌어지는 일이 벌어지지 않는다는 것을 보여주기 위한 작업을 시작. 결국 무작위로 한 방법과 비교를 해야 했기 때문에 이 부분이 오히려 좀 더 까다로운 일이었다. 작업의 추상적 논리는 다음과 같다.

특정 논리에 따라 A를 선별하고, 그것으로 B 라는 결론을 얻는다. 이 논리가 맞다면, 즉 A가 제대로 선별된 것이라면, 아무런 논리 없이 무작위로 선택한 A' 를 가지고 같은 계산에 따라 얻은 B'는 B와 달라야 한다. 만약 B와 B' 가 같다면 A는 A'와 다르지 않고, 따라서 A를 선택할 때 사용된 논리는 무작위로 하는 것과 다르지 않다. 따라서 그 논리는 의미없는 것이 된다.

이렇게 정리해 볼 수 있는, 일반적으로 이공계 사람들이 많이 사용하는 흐름에 따라, 나도 아래 행, 즉 무작위 --> A' --> B' 를 한 3일 정도 걸려서 테스트 해 나아갔다. 모두 4 가지 방법, 즉 무작위로 선택하는 방법을 4가지를 모두 테스트 했는데, 준비하는 것과 코딩하는 것은 조금 오래 걸렸지만 계산 결과를 얻어서 확인하는 것은 하루만에 가능한 일이었다. 어제까지 코딩 다 하고, 무작위 데이터인 A'를 다 만들어 놓은 후 테스트에 들어 갔다. 어제 새벽에 자기 전에 했었던 첫 번째 테스트는 기분 좋게 통과. 그래서 마음 편히 잠을 청한 다음, 오늘 나와서 나머지 3개의 테스트를 시작. 그런데... 이놈의 것이 영 다르지가 않다. 이렇게 저렇게 데이터를 뜯어 보아도 비슷하다.

오른쪽이 내가 생각한 논리로 만든 데이터로 계산해 얻은 것이고 왼쪽은 무작위로 만든 데이터로 얻은 결과. 어느 부분인가에 흰 색으로 되는 영역이 존재해야 하고, 그 영역이 오른쪽에 월등히 많이 나타나야 하는데, 별로 달라 보이지 않는다. 물론 각 경우마다 chi-square test 같은 것을 해야 정확할테지만, 일단 흰색 영역이 거의 없기 때문에 그렇게 할 필요도 없다.

그림의 의미는 조금 복잡하다. 난 하다보면 그림 하나에 너무 많은 정보를 집어 넣어서 이렇게 되곤 하는데, 점의 x 좌표, y 좌표, R,G,B 가 모두 의미를 갖는데, 여하튼, 무작위로 한 것 보다는 조금 나은 것 같기는 한데 그래도 별로 좋지 않다. 으...

그런데, 저게 저래뵈도 크게 해 놓으면 조금 예쁘기는 하다(예쁘면 뭘 해, 무의미한데 >.<"") 옆에 있는 애가 slide show 로 해 놓은 거 보고, "와, 예쁘다", ㅋㅋㅋ. 음... 가장 결정적인 테스트를 통과하지 못하고 이렇게 실패한 가설로 결론이 나고 말았다. 나의 일주일이 또 이렇게 날라가는 건가. 에잇.

그래도 혹시나 나중을 위해 무슨 작업이었는지 적어 보자.

관건은, breast cancer 에서 disease metastasis-free survival 기간은, 어느 기간을 기점으로 차이가 나는 유전자 집합이 생길 것이라는 것. 즉, 특정 시점까지 전이가 되지 않고 살아 있느냐 않느냐 하는 것에 따라 차이가 나는 유전자 집합이 존재할 것이라는 가정. 다시 말해, 특정 DMFS dm 을 전후로 유전자 집합의 발현량이 급격히 변할 것이라는 가정. 현재는 주로 5년 정도를 기점으로 잡던데 난 왜 이 기점을 잡는지 좀 의아했고, 전부 확인해 보고 싶었다. 그래서 DMFS 가 있는 microarray data를 가져 와서, 작성해 놓은 pipe-line 에 따라 전처리를 한 후, 주어진 DMFS의 각 시점 전/후의 데이터를 전부 t-test 해서 p-value를 구한다. 물론 이 때, f-test 를 해서 분산의 동일 여부까지 고려해서 t-test를 한다. 즉, DMFS 시점 di에 대해서, dj < di 인 그룹과 dk > di 인 그룹으로 나누어서 그 둘에서의 특정 유전자 집합(내가 고른)의 평균 발현양이 통계적으로 차이가 나는지 확인한다. 모든 di 에 대해서. 그 후, 차이가 나는 (p-value < 0.01) 인 di 들을 골라서(이 때, 선택된 di 는 연속되어야 한다), 그 분포를 그려 보면 위와 같이 나온다. 색의 진하기가 밀도, 즉 유전자 집합의 개수. 각 구간 (di, di+N) 에서 p-value 가 0.01 보다 작은 유전자 집합의 개수를 색으로 표현한 건데, 데이터가 3개가 있어서 각각에 R,G,B 값을 부여했다. 만약 가정대로였다면, 특정 시점(좌표로 표현된)을 기점으로 세 데이터에서 p-value 가 모두 작게 나와야 하므로 어느 부분인가에 흰색 부분이 나와야 한다.

테스트는, 일단 DMFS를 무작위로 섞고 같은 작업을 했다. 이 경우, 확실히 그림이 다르게 나온다. 여기까지 하고 잠을 잘 수 있었던 것이지... (막차 시간에 부랴부랴 맞추면서...) 그 후, 유전자 집합을 무작위로 선택했다(이 방법은 알고리즘상 2가지 경우가 존재). 그런데 그 중 한 경우에서 위처럼 같게 나온다. 나머지 하나는, 저 그림을 다른 형태의 분포로 표현할 수 있는데(x-축으로 projection 시킨 형태), 그 경우 나오는 분포가 원래 데이터의 DMFS의 분포에 의존하지 않는지를 확인하기 위해 원 데이터에서 몇몇 방법으로 데이터를 제거해서 DMFS 분포를 변화시킨 후 작업을 했다. 이 경우도 결과가 일관되지 않게 나온다. 결국 4가지 테스트 중 꼴랑 한 개만 맞았고 나머지는 모두 실패.

저작자표시

'연구관련 > 연구생활' 카테고리의 다른 글

연구 패닉 ㅜ.ㅜ (1)	2011.04.23
ls 팍팍 (1)	2011.04.23
컴퓨터가 탈 수도 있다는 건 (2)	2011.03.08
남의 소스 보기 >,<"" (0)	2011.03.03
에러가 안나서 불안해 (0)	2011.01.19

진화하자 - 어디에도 소속되지 않기

실패는 병가지상사이라지만

'연구관련 > 연구생활' 카테고리의 다른 글

티스토리툴바

실패는 병가지상사이라지만

'연구관련 > 연구생활' 카테고리의 다른 글

관련글

티스토리툴바