본문 바로가기

연구관련/Bioinfo류

(21)
민감도와 특이도 (sensitivity and specificity) 진단의 관점에서 민감도(sensitivity)는 질병이 있는 사람을 얼마나 잘 찾아 내는가에 대한 값이고 특이도(specificity)는 정상을 얼마나 잘 찾아 내는가에 대한 값이다. 즉, 민감도는 질병이 있는 사람을 질병이라고 진단하는 비율이고, 특이도는 정상을 정상이라고 진단하는 비율이다. 일반적인 관점에서 민감도는 실제로 양성인 개체에 대하여 양성이라고 판단하는 비율이고 특이도는 실제로 음성인 개체에 대하여 음성이라고 판단하는 비율이다. 이 글은 진단의 관점에서 주로 설명한다. 진단의 경우 '질병이 있는 개체'를 양성으로 판단하며, 따라서, 다음 글에서 양성은 질병군을 의미한다. 그러나 민감도 및 특이도, 또한 그에 따른 많은 개념들은 양성/음성과 같이 교집합이 없는 두 집합에 대하여 일반화 할 수..
chemical descriptor (aaaC 등등) chemical의 molecular weight, ring number, 각 atom 의 수, charge 등등의 특성을 chemical descriptor라 하며, 물리/화학적 성질 이외에 구조의 기하학적 특성 등 매우 많은 descriptor 가 존재한다. 이에 관한 괜찮은 자료들. 찾고 찾아 들어 간 논문 중에 Electrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information, Lowell H. Hall, Lemont B. Kier, J. Chem. Inf. Comput. Sci., 1995, 35 (6), pp 1039–1045 DOI: ..
HuEx-1_0-st-v1 cdf 처리 문제 HuEx-1_0-st-v1 은 HuEx-1_0-st-v2 의 cdf 이용하면 된다. 구글 검색어:HuEx-1_0-st-v2 HuEx-1_0-st-v1 http://www.aroma-project.org/chipTypes/HuEx-1_0-st-v2/ Note II: Older CEL files for this chip type, may be reported to have chip type 'HuEx-1_0-st-v1'. This chip is slightly different from the 'HuEx-1_0-st-v2' chip. According to Affymetrix support, the difference is only in the control probes; "There is only a mi..
SMILES 로 구조 파일 만들고 비교, 그림으로 나타내기 PDB에서 ligand 가 있는 것들에 대해서 SMILES 를 이용해 2D 혹은 3D 구조 파일로 만들고, 그림으로도 만든다. (구조 파일을 이용하여 그림을 그린 결과 비교는 이 글에 있다) 이것은 일을 할 때 찾아 보는 수고를 덜기 위해 개인적인 일을 기록한다. 명령어 조차도 할 때마다 찾아 보니 귀찮아서라도 이 곳에 사용했던 명령어를 적어 둔다, ㅋ. 결국은 SMILES, sdf file, mol2 file, 간의 상호 변환이 주된 문제이고, 이름으로 같은 chemical 인지를 matching 시키는 것에 있어 부정확한 것이 있으므로 구조로 비교까지 하는 것이 다른 한 작업. 주요하게 사용하는 프로그램은 Marvin 의 molconvert 와 OpenBabel. molconvert 는 연구용은 무료..
Mutual Information 추정하기 mutual information 은 비선형 관계를 갖는 두 변수를 찾을 때 사용할 수 있는 값이다. 보통 선형이면 Pearson's Correlation 을 이용하는데 선형이 아닌 관계를 갖는 경우 mutual information 이 가장 잘 탐지할 수 있는 것으로 보인다. 이 글에선 mutual information 을 추정하기 위한 노력들을 살펴 본다. 실제 코드는 구현하지 않고 알려진 것을 사용한다. mutual information (MI) 는 continuous 에서 다음과 같이 정의된다. 이것은 discrete 한 경우 다음과 같이 정의된다. 문제는 많은 경우 실제로는 continuous이지만 우리가 실험적으로 얻은 값은 discrete 하다는 것이다. 그래서 continuous한 식을 그..
pathway database 종류 및 특성 신호전달경로 혹은 metabolism 등의 pathway 를 볼 수 있는 database들은 다음과 같다. + WikiPathway+ KEGG Pathway+ Reactome+ MetaCyc + NetPath and NetSlim 또한, NetPath나 NetSlim, WikiPathWay 에 나온 것과 같은 pathway 를 그리고 수정할 수 있는 프로그램으로는 PathVisio 라는 것이 있다. 여러 Pathway 에 관한 db의 링크를 나열해 놓은 것은 www.pathguide.org 가 있다. 온갖 DB 들이 pathguide 에 있으니 자세한 것들은 이 곳을 보면 되는데 더이상 운영되지 않는 site들도 여럿 있다. 그냥 diagram만 보고 싶으면 Cell 에서 제공하는 snapshot이나 b..
ConnectivityMap 의 chemical 정보 가져 오기 Connectivity Map (CMap) 은 1,308 개의 chemical 을 몇 가지 cell-line 에 treatment 하기 전/후에서의 gene expression profile 을 microarray 로 측정한 결과를 제공해 주는 database 이다. raw CEL file 과 각 실험 조건에 관한 정보 파일을 download 할 수 있기는 한데, 문제는 각 실험에 사용된 chemical 의 정보가 이름밖에 없다는 것이다. 보통 chemical 이름은 동의어가 여럿 있기 때문에 이 이름만 갖고 일을 하는 것은 쉽지 않다. CCLE나 DrugBank, TTD, GDSC, PubChem, TCM@Taiwan, Chembl, clinicaltrails.org 에 있는 자료랑 같이 사용할 때 동..
R의 Bioconductor 및 관련 package 를 설치하면서 최근 PNAS에 microarray 나 RNAseq 같은 gene expression profile 결과를 '절대적' 수치로 normalization 해 주는 방법이 나왔는데(관련 논문), 그 구현은 R의 SCAN.UPC package 로 되어 있다. 그래서 이 package 를 설치 및 사용하기까지의 과정을 기록해 본다. (원랜 페북에 써 놓은 건데 여기다 옮겨 적는다, ㅋ) 리눅스에 R 을 설치하고 있다. 일단, 예의 그렇듯이, 에러가 났는데, readline 이나 x11 에 관련된 header 파일이 없어서 난 것은 간단히 알 수 있어서 yum 으로 설치를 했다. 그런데 lapack 을 설치하는 부분에서 에러가 난다. 문제는, lapack 과 관련 파일들을 설치를 했음에도 에러가 나고 있다는 것이다..