본문 바로가기

연구관련/Bioinfo류21

R로 q-value 구하기 R로 q-value를 구하기 위해서는 이미 구현되어 있는 package 를 사용할 수 있다. false discovery rate 을 구하기 위한 R package들은 이 곳(strimmer 랩의 FDR에 관한 R 패키지 페이지)에 잘 나와있다. 이 글은 내가 주로 사용하는 package를 중심으로 설명한다. qvalue : John Storey가 제시한 알고리즘을 구현해 놓은 패키지. feature간의 dependence를 고려하지 않아도 될 때. GUI 가 제공된다. fdrtool : p-value 뿐만이 아니라 t-score, z-score나 correlation 으로부터 fdr 을 계산할 수 있다. multtest : bioconductor 하부에 있는 것으로, 꽤 여러 방법이 구현되어 있다. 나.. 2010. 10. 20.
dense subgraph 찾아내기(MCODE) unweighted graph에서 edge number / theoretical maximum edge number 로 정의할 수 있는 density가 큰 부분을 찾는 방법을 살펴 보자. 즉, 그래프에서 점들 사이에 선분이 많이 존재하는 곳을 찾는 작업. 이와 같은 류의 문제는 아직 deterministic한 알고리즘이 없어 보이며, 모든 경우에 적용할 수 있는 일반적 해법은 없고 문제에 따라 적절한 방법이 조금씩 다른 것으로 보인다. 이 글은 MCODE 라는 Cytoscape 플러그인에서 사용하는 방법을 기반으로 작성한다. 이 방법은 우선 각 노드에 점수를 준다. 그 후, 점수가 높은 노드에서 시작해서 선택하는 노드를 퍼트려 나가는 것이다. 이 때 중요한 점은, 각 노드의 점수는 그 노드가 얼마나 de.. 2010. 7. 25.
Pubmed eUtils 사용하기 URL 을 이용하여 Pubmed 검색 결과를 얻을 수 있는 방법이 eUtils를 이용하는 것이다. 이것을 이용하면 EndNote 에서 Pubmed 검색 결과를 가져 오는 것을 직접 구현할 수 있다. 자세한 내용은 eUtils 홈페이지에 잘 나와 있다. 여기서는 몇 가지 예를 살펴 보고, 실제로 내가 사용하는 파이썬 스크립트를 올려 놓는다. 다음과 같이 URL 뒤에 적절한 조건을 넣어서 요청을 하면 eUtils 서버에서 결과를 돌려 준다. search_text = 'TAK1[Text]'; search_address = 'http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&retmax=1000&term='+search_text.replac.. 2010. 7. 2.
정규화(normalization) 많은 양의 데이터를 처리함에 있어 여러 이유로 정규화, 즉 데이터의 범위를 일치시키거나 분포를 유사하게 만들어 주는 등의 작업은 꼭 필요한 일이다. 평균값을 이용한 정규화 중간값을 이용한 정규화 Quantile 정규화 평균값을 이용한 정규화 데이터의 평균값을 0 으로 놓는 정규화는 일반적으로 원래의 데이터의 값의 분포가 '정규분포'임을 가정할 때가 많은데, 꼭 그렇지는 않아도 이와 같은 방법을 이용할 때가 있다. 이 때의 기본적인 아이디어는 '평균'에 해당하는 값은 0 으로, 그리고 평균에서 멀어질수록 값을 크게 주자, 는 것이다. 분산으로 나눈다는 의미는, 값의 분포가 고만고만한 상황에서 1이 차이나는 것과, 값의 분포가 매우 큰 경우에 1 차이나는 것은 분명 다른 경우이므로 분산으로 나눔으로써 원래 .. 2010. 4. 19.