본문 바로가기

연구관련/Bioinfo류21

drug 관련 싸이트 ChEMBL(링크) : Wellcome Trust 에서 funding 하고 maintain 하는 db. 60만 개 이상의 chemical compound와, drug 또는 small-compound의 target으로 알려진 4,000 개 이상의 단백질에 대한 정보 및 각 compound에 대한 알려진 생물학적 특성과 화학적 특성에 대한 정보가 있다. 2008년 Wellcome Trust 가 4백7십만파운드(70억 이상)를 들여 뉴욕에 있는 갈라파고스라는 회사로부터 받은 정보를 기초로 만들어진 db. PharmGKB(링크) : 알려져 있는 drug-related gene - disease 관련 정보가 있음. 메인 페이지에서 Drugs & Small Molecules 로 들어가면 됨. 이 이외에도 pathw.. 2010. 4. 6.
생물정보학(bioinformatics)에 대하여 bioinformatics, 우리 말로 생물정보학으로 번역할 수 있는 분야는, 드디어 전산학이 생물학에 발을 들여 놓으면서 만들어진 분야이다. 이 글은 생물정보학이 무엇인지 알고 싶어하는 학부생 정도를 위하여 작성한다. 생물정보학은 '무엇'을 하는 분야인가 생물정보학은 생명체에 '정보' 형태로 있는 데이터, 또는 생명과학에 관련된 데이터를 다루는 분야이다. '정보' 형태의 데이터란 DNA와 RNA, 단백질의 '서열'이 가장 대표적이며, 그 이외의 데이터란 대표적으로 microarray data나 proteomics, 문헌 정보(pubmed) 정도를 꼽을 수 있다. 이와 같은 데이터를 다루는 방법에 따라 이 분야를 크게 몇 가지로 나누어 보자면 1. 알고리즘 2. 데이터 베이스 구축 및 웹 서비스 제공 정.. 2010. 1. 12.
outlier 빼고 상관계수 구하기 : Mahalanobis 거리 데이터를 분석할 때 거의 항상 문제가 되는 것이 '튀는 점', 즉 outlier 이다. 보통 1차원이고 정규분포를 따르는 데이터일 때는 아주 간단하게는 평균 ± d*표준편차 밖에 있는 점들을 outlier 라고, d 는 2나 1.96 등의 값을 사용한다. 그런데 만약 2차원 이상의 데이터라면 계산값이 조금 달라진다. 데이터 분포가 다음과 같을 때를 생각해 보자. 데이터가 위와 같은 분포를 보일 때, 중심에서의 거리는 파란색 점보다는 녹색 점이 더 먼 것으로 생각할 수 있다. 왜냐 하면, 분산이 파란색 점이 있는 축이 더 작기 때문이다. 즉, 적게 퍼져 있는 분포에서 1 먼 것과, 많이 퍼져 있는 분포에서 1 먼 것은, 상대적으로 비교해 보면 많이 퍼져 있는 곳에서 1 먼 것이 좀 더 가깝다고 할 수 있기.. 2010. 1. 4.
ROC의 AUC 구하기 1. ROC Curve란. 2. AUC 구하는 방법. 요약: 진단 방법의 효율성을 판단하는 방법 중 널리 사용되는 것이 ROC curve 이다. 민감도(sensitivity)와 특이도(specificity)가 어떤 관계를 갖고 변하는지를 이차원 평면 상에 표현한 것이 ROC curve인데, ROC curve 아래의 면적(AUC, area under curve) 이 넓을수록 좋은 진단 방법이라 할 수 있다. 이 글은 ROC curve의 AUC를 구하는 간단한 방법을 설명한다. 1. ROC Curve란. ROC Curve는 Receiver-Operating Characteristic curve의 줄임말로, 특정 진단 방법의 민감도와 특이도가 어떤 관계를 갖고 있는지를 표현한 그래프이다. 진단 방법에 의한 환.. 2010. 1. 4.