본문 바로가기

연구관련112

breast cancer 관련 유전자 (signatures) breast cancer 의 prognosis 나 drug-response 에 관련된 유전자 등 breast cancer 에 관련된 것으로 알려진 유전자 목록을 모아 보자. 이렇게 관심있는 특성과 밀접한 연관을 갖는 유전자들을 signature gene 이라고 하는데, 일반적으는 van 't Veer 의 70 signature 나 Wang 의 76-gene signature 가 많이 알려져 있다. 그러나 그 이후에 몇몇 study 에서 보다 많은 경우에 의미있을 것으로 추측되는 signature 들이 발표되었다. 뭔가 할 때마다 찾아 가서 정리하는 것이 귀찮아서 여기다 지금까지 알려진 것들을 계속적으로 추가한다. 초기 목록은 이 논문에 근거하고, signature 목록은 이 논문의 supplementar.. 2010. 12. 15.
의미없는 결론에 도달했을 때 긴가민가 하는 방법을 테스트 해 보고자 이것저것 해서 결국은 테스트에 성공. 그러나 결론은 '의미없음'으로 나타났을 때. 그것을 하기 위해 들인 시간과 노력은 결국 "없던 것"이 되어버리고 만다. 아... 참으로 착찹하지 않을 수 없다. 예전에 혈류분석 프로그램 작성할 때 내가 후배에게 했던 말, "내가 '이거 되요', 라고 말을 할 때는 안 되는 10개를 해보고 겨우 찾아낸 것이 그것이라는 거야." 많은 경우 그렇다. 며칠 동안 했는데 겨우 이거 하나 했어? 라고 묻는다면 참으로 난감하다. 왜냐 하면, 그 며칠동안 그 하나만을 한 것이 아니라, 수 개를 시도해 보았으나 그 한 개 만을 제외한 모든 것이 결국은 적당하지 않은 방법으로 결론이 났기 때문에 언급을 하지 않는 것이기에. 그러한 헛된 노력이라 .. 2010. 12. 9.
dense subgraph 찾기 구현 (MCODE) 지난 번 글에서 언급했던 알고리즘을 C++로 직접 구현해 보자. 실제로 사용한 예는 다음과 같다. 원래의 network 은 다음과 같다. 우리는 다음과 같은 network 에서 dense 한 sub-graph 즉, edge가 많이 연결된 sub-graph를 뽑아 내어야 한다. source network 의 sif 파일은 다음과 같다. 위에서 dense한 subgraph 를 지금 설명할 코드로 뽑아 내면 다음과 같다. node 를 score로 정렬한 이후 seed로 사용되는데, 높은 점수를 갖는 노드부터 sub-graph (난 계속 cluster 라는 이름을 사용했다. 이 글 이후에도 sub-graph 나 cluster를 사용한다)를 찾기 때문에 cluster 번호가 커질수록 cluster의 density.. 2010. 12. 3.
아... 속도... 속도가 문제다. 여러 machine learning 기법으로 classification 을 할 수 있는데, 실제로 AUC of ROC 가 0.75 가 넘는다고 하더라도 plot을 그려 보면 과연 분리가 된 것인지 의아하다. practically 거의 의미가 없어 보인다. 실제로 진단기기로 승인을 받으려면 0.98 정도 되어야 한다고 한다 (한국에서). SVM이나 기타 방법들보다는, 나는, constraint adaptive differential evolution 을 이용해서 AUC 를 높이는 쪽으로 계속 밀어내는 식으로 진화를 시키는 방법을 택했는데, 역시나, 실행 시간이 꽤나 오래 걸린다. 어느 정도 예상은 했다. 그래서, virtual function 써서 추상화시키다가, 흠, 느릴 것 같아서, 역.. 2010. 11. 24.