본문 바로가기
연구관련/연구생활

연구 자원(DB 등)

by adnoctum 2014. 9. 27.




   개인적 사용 용도로 정리해 놓으려던 것을 공개용으로 전환하여 정리한다, 별 문제가 없으므로. 개별 설명은 최소한으로 하며 글을 읽는 사람은 전공자라 간주한다. 새로 알게 되는 내용에 따라 전체 구조가 수시로 변경될 수 있음을 미리 언급해 놓는다. 사견은 * 표시 뒤에 언급한다. 참고 문헌 링크 중 (PMC)는 누구나 읽을 수 있는 Open Access 에 대한 link 이다. 




Chemical DB


연번 

 이름

 제공

명 

1

 ChEMBL

  현존하는 chemical DB 중 생물학적 관점에서 가장 방대한 두 DB 중 하나. 

 1

 mysql 과 oracle의 dump 를 제공한다. 

2

 DrugBank

 승인 받은 것과 실험중인 것 등, 약물에 관한 정보를 제공. 

 1

 모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다.

3

 T3DB

 toxin 과 target 에 대한 DB. DrugBank 와 같은 format.

 1

 모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다.

4

 HMDB

 human metabolite 에 관한 정보를 제공한다. DrugBank 와 같은 format.

 1

 모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다.

5

 PDB

 단백질 구조 및 단백질과 함께 결정으로 만들어 진 chemical 구조를 제공. 이 DB 는 원래 단백질 구조를 위한 DB 이다.

 FTP 로 받거나 PDB ID 를 이용해 웹으로 받을 수 있다.

6

 BindingDB

 chemical 과 target protein 에 대한 여러 실험값들 (Ki , IC50, 등등)

 1

 SDF 파일 하나를 주는데, 이 곳에 모든 정보가 포함되어 있다.

7

 TCM@Taiwan

 중국전통의학(TCM)에 사용되는 식물에 어떤 chemical 이 포함되어 있는지에 대한 정보. 

 2

 화학 구조는 bulk 로 받을 수 있으나 식물-chemical 정보는 받을 수 없다.

8

 TCMSP

 중국전통의학(TCM)에 사용되는 식물에 어떤 chemical 이 포함되어 있는가, 그 chemical 의 target protein 은 무엇인가, 등을 제공. 

 1

 각 정보를 단일 파일로 압축해서 제공. protein ID 가 DrugBank 의 예전 버전에 사용된 ID라 약간 불편하다.

9

 AffineDB

 PDB 에 있는 ligand-protein 정보를 정리해 놓은 것. 

 2

 browse 를 해서 csv 로 받아야 한다.

10

 ChemBank

 Broad 에서 운영하는 chemical 정보. 여러 HTS 결과도 같이 볼 수 있다. 등록이 필요하다. 

 3

 전반적으로 site 가 좀 불편하며, bulk download 등의 옵션이 전혀 없다.

11

 특허청 전통의학

 식물에 어떤 chemical 이 있는지를 제공.

 3

 일괄적으로 정보를 가져 오기 거의 불가능하다.

 12 PubChem

 ChEMBL 보다 더 방대한 DB. 미국에서 관리. 생물학적 관점에서 chemical 을 정리해 놓은 가장 방대한 DB. 

 1

 ftp 제공. 각 chemical 에 대한 정보를 단일 파일(여러 형식)으로 제공해서 사용하기는 ChEMBL 보다 불편하다. 

 13

 CTD

 chemical - target gene - disease 등의 연관 관계를 제공. 
 1

 각 정보를 단일 파일로 압축해서 제공.

 

   



제공: DB 의 정보를 사용자가 얼마나 쉽게 가져다 사용할 수 있는가.


 

 

 1

 모든 정보에 대한 bulk download 또는 ftp 또는 API 를 제공한다.

 2

 일부의 정보에 대한 bulk download 또는 ftp 또는 API 를 제공한다.

 3

 bulk download 를 제공하지 않는다.


 

 

 

 

 




Chemical Handling Tools


+ molconvert

- ChemAxon 사의 Marvin package 에 딸려 있는 공개 프로그램. molconvert 의 download 는 ChemAxon 사의 홈페이지에서 적당히 찾아야 한다. 

- Java 로 되어 있어서 windows/linux 모두에서 사용 가능하다. (윈도우즈에서 사용 시 고려할 점[각주:1])

- 주로 그림 그리는 용도로 사용. 

* 공개용 software 중 sdf 나 mol2 같은 구조 파일에서 화학구조식을 그릴 때 가장 보기 좋게 그려 주는 것 같다(관련 글). 


+ OpenBabel

- chemical file format 간 변환. SMILES --> mol2, sdf, pdb 등으로 변환 가능하기 때문에 제일 먼저 사용하는 프로그램. python biding 이 되고, compile 하면 실행 파일이 만들어 지는데(obabel) 이 파일로 여러 작업을 할 수 있다. 


+ PaDEL-Descriptor

- chemical 구조 file에서 대략 1700개 정도의 descriptor 를 계산해 준다. java 로 되어 있다.같은 목적의 상용 프로그램으로는 DRAGON 이 있다. DRAGON 은 대략 4,000 가지의 descriptor 를 제공한다. 





Cell-Based Assay DBs


+ Connectivity Map

- 대략 1,200 개의 chemical 을 처리하기 전/후의 cell 에서의 gene expression 을 측정한 data. bulk download 가 가능하다(CEL 파일). 



+ CCLE


+ GDSC


+ DTP, Developmental Therapeutics Program NCI/NIH

- compound를 cell-line 에 treat한 정보, cell-line 에 대한 high-throughput assay 정보 등을 얻을 수 있다. 

- DTP Human Tumor Cell Line Screen의 Standard Agent Database section 에서는 cell-line 에 compound 를 treat한 후의 dose-response curve 를 bulk download 할 수 있다. 







파이썬 모듈들



+ scikit-learn

- 여러 가지 machine learning 기법들을 쉽게 이용할 수 있다. 


+ matplotlib

- matlab 과 비슷한 명령어로 비슷한 그래프/그림을 그릴 수 있도록 해 준다. (gallery의 example 들)







C/C++ library 혹은 C/C++ source code 가 제공되는 프로그램들



+ Numerical Recipes (in C++)

- 여러 가지 수학 식/통계식 등의 원리와 그에 대한 C/C++ 코드가 있는 책. 일명 빨간 책. 미분/적분 등을 어떻게 컴퓨터로 계산하게 하는가, 등을 배울 수 있고, 실제 코드가 나와 있어서 자신이 코딩해서 쓸 수 있다. 학부 때 배우는 수치해석 내용은 이 책의 1/4 정도에 해당한다고 보면 된다. 


+ clustering 3.0

- 몇 가지 clustering 을 제공해 주는 프로그램, 이런 류의 프로그램 중 가장 오래된 것. 이 프로그램의 결과를 볼 때는 TreeView 를 이용한다. 






R 모듈들


+ SCAN_UPC

- 모든 gene의 expression level을 측정한 결과는 Gaussian 분포를 따를 것, 특히 signal 에 의해 activation 된 gene들과 background noise 로 detection 된 gene들은 서로 다른 중심을 갖는 두 개의 Gaussian 으로 모델링 할 수 있을 것이란 가정 하에 정량하는 방법을 제공해 주는 package. 

- 참고 문헌Multiplatform single-sample estimates of transcriptional activation., PNAS, 2013 Oct., vol.110, 17778-17782, Stephen R. Piccolo et al. (PMC)















  1. Windows 에서 python 의 os.system 이나 C 의 system (혹은 _system?), API 의 ShellExecute 와 같은 함수로 molconvert.bat 를 호출시킬 때는 쌍따옴표를 두 개 해 주어야 한다. 즉, 인자에 공백이 있을 경우 이것을 한 개의 인자로 인식시키기 위해 쌍따옴표로 묶어야 하는데, 실행시키는 실행 파일의 전체 경로에 공백이 있으면 이것 역시 하나의 명령어로 인식시키기 위해 쌍따옴표가 필요한데, 인자의 쌍따옴표와 묶여버려서 결과적으로 쌍따옴표를 두 개 해 주어야 한다. [본문으로]