개인적 사용 용도로 정리해 놓으려던 것을 공개용으로 전환하여 정리한다, 별 문제가 없으므로. 개별 설명은 최소한으로 하며 글을 읽는 사람은 전공자라 간주한다. 새로 알게 되는 내용에 따라 전체 구조가 수시로 변경될 수 있음을 미리 언급해 놓는다. 사견은 * 표시 뒤에 언급한다. 참고 문헌 링크 중 (PMC)는 누구나 읽을 수 있는 Open Access 에 대한 link 이다.
Chemical DB
연번 |
이름 |
제공 |
설명 |
1 |
현존하는 chemical DB 중 생물학적 관점에서 가장 방대한 두 DB 중 하나. |
||
1 |
mysql 과 oracle의 dump 를 제공한다. |
||
2 |
승인 받은 것과 실험중인 것 등, 약물에 관한 정보를 제공. |
||
1 |
모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다. |
||
3 |
toxin 과 target 에 대한 DB. DrugBank 와 같은 format. |
||
1 |
모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다. |
||
4 |
human metabolite 에 관한 정보를 제공한다. DrugBank 와 같은 format. |
||
1 |
모든 구조를 단일 SDF 파일로 제공하며, 기타 정보 역시 여러 형식으로 지원한다. |
||
5 |
단백질 구조 및 단백질과 함께 결정으로 만들어 진 chemical 구조를 제공. 이 DB 는 원래 단백질 구조를 위한 DB 이다. |
||
1 | FTP 로 받거나 PDB ID 를 이용해 웹으로 받을 수 있다. | ||
6 | chemical 과 target protein 에 대한 여러 실험값들 (Ki , IC50, 등등) | ||
1 | SDF 파일 하나를 주는데, 이 곳에 모든 정보가 포함되어 있다. | ||
7 | 중국전통의학(TCM)에 사용되는 식물에 어떤 chemical 이 포함되어 있는지에 대한 정보. | ||
2 | 화학 구조는 bulk 로 받을 수 있으나 식물-chemical 정보는 받을 수 없다. | ||
8 | 중국전통의학(TCM)에 사용되는 식물에 어떤 chemical 이 포함되어 있는가, 그 chemical 의 target protein 은 무엇인가, 등을 제공. | ||
1 | 각 정보를 단일 파일로 압축해서 제공. protein ID 가 DrugBank 의 예전 버전에 사용된 ID라 약간 불편하다. | ||
9 | PDB 에 있는 ligand-protein 정보를 정리해 놓은 것. | ||
2 | browse 를 해서 csv 로 받아야 한다. | ||
10 | Broad 에서 운영하는 chemical 정보. 여러 HTS 결과도 같이 볼 수 있다. 등록이 필요하다. | ||
3 | 전반적으로 site 가 좀 불편하며, bulk download 등의 옵션이 전혀 없다. | ||
11 | 식물에 어떤 chemical 이 있는지를 제공. | ||
3 | 일괄적으로 정보를 가져 오기 거의 불가능하다. | ||
12 | PubChem | ChEMBL 보다 더 방대한 DB. 미국에서 관리. 생물학적 관점에서 chemical 을 정리해 놓은 가장 방대한 DB. | |
1 | ftp 제공. 각 chemical 에 대한 정보를 단일 파일(여러 형식)으로 제공해서 사용하기는 ChEMBL 보다 불편하다. | ||
13 | chemical - target gene - disease 등의 연관 관계를 제공. | ||
1 | 각 정보를 단일 파일로 압축해서 제공. | ||
|
제공: DB 의 정보를 사용자가 얼마나 쉽게 가져다 사용할 수 있는가.
|
|
1 |
모든 정보에 대한 bulk download 또는 ftp 또는 API 를 제공한다. |
2 |
일부의 정보에 대한 bulk download 또는 ftp 또는 API 를 제공한다. |
3 |
bulk download 를 제공하지 않는다. |
|
|
|
|
Chemical Handling Tools
- ChemAxon 사의 Marvin package 에 딸려 있는 공개 프로그램. molconvert 의 download 는 ChemAxon 사의 홈페이지에서 적당히 찾아야 한다.
- Java 로 되어 있어서 windows/linux 모두에서 사용 가능하다. (윈도우즈에서 사용 시 고려할 점) 1
- 주로 그림 그리는 용도로 사용.
* 공개용 software 중 sdf 나 mol2 같은 구조 파일에서 화학구조식을 그릴 때 가장 보기 좋게 그려 주는 것 같다(관련 글).
- chemical file format 간 변환. SMILES --> mol2, sdf, pdb 등으로 변환 가능하기 때문에 제일 먼저 사용하는 프로그램. python biding 이 되고, compile 하면 실행 파일이 만들어 지는데(obabel) 이 파일로 여러 작업을 할 수 있다.
- chemical 구조 file에서 대략 1700개 정도의 descriptor 를 계산해 준다. java 로 되어 있다.같은 목적의 상용 프로그램으로는 DRAGON 이 있다. DRAGON 은 대략 4,000 가지의 descriptor 를 제공한다.
+
Cell-Based Assay DBs
- 대략 1,200 개의 chemical 을 처리하기 전/후의 cell 에서의 gene expression 을 측정한 data. bulk download 가 가능하다(CEL 파일).
+ CCLE
-
+ GDSC
-
+ DTP, Developmental Therapeutics Program NCI/NIH
- compound를 cell-line 에 treat한 정보, cell-line 에 대한 high-throughput assay 정보 등을 얻을 수 있다.
- DTP Human Tumor Cell Line Screen의 Standard Agent Database section 에서는 cell-line 에 compound 를 treat한 후의 dose-response curve 를 bulk download 할 수 있다.
+
파이썬 모듈들
+ scikit-learn
- 여러 가지 machine learning 기법들을 쉽게 이용할 수 있다.
+ matplotlib
- matlab 과 비슷한 명령어로 비슷한 그래프/그림을 그릴 수 있도록 해 준다. (gallery의 example 들)
+
C/C++ library 혹은 C/C++ source code 가 제공되는 프로그램들
+ Numerical Recipes (in C++)
- 여러 가지 수학 식/통계식 등의 원리와 그에 대한 C/C++ 코드가 있는 책. 일명 빨간 책. 미분/적분 등을 어떻게 컴퓨터로 계산하게 하는가, 등을 배울 수 있고, 실제 코드가 나와 있어서 자신이 코딩해서 쓸 수 있다. 학부 때 배우는 수치해석 내용은 이 책의 1/4 정도에 해당한다고 보면 된다.
+ clustering 3.0
- 몇 가지 clustering 을 제공해 주는 프로그램, 이런 류의 프로그램 중 가장 오래된 것. 이 프로그램의 결과를 볼 때는 TreeView 를 이용한다.
-
+
R 모듈들
+ SCAN_UPC
- 모든 gene의 expression level을 측정한 결과는 Gaussian 분포를 따를 것, 특히 signal 에 의해 activation 된 gene들과 background noise 로 detection 된 gene들은 서로 다른 중심을 갖는 두 개의 Gaussian 으로 모델링 할 수 있을 것이란 가정 하에 정량하는 방법을 제공해 주는 package.
- 참고 문헌: Multiplatform single-sample estimates of transcriptional activation., PNAS, 2013 Oct., vol.110, 17778-17782, Stephen R. Piccolo et al. (PMC)
+
- Windows 에서 python 의 os.system 이나 C 의 system (혹은 _system?), API 의 ShellExecute 와 같은 함수로 molconvert.bat 를 호출시킬 때는 쌍따옴표를 두 개 해 주어야 한다. 즉, 인자에 공백이 있을 경우 이것을 한 개의 인자로 인식시키기 위해 쌍따옴표로 묶어야 하는데, 실행시키는 실행 파일의 전체 경로에 공백이 있으면 이것 역시 하나의 명령어로 인식시키기 위해 쌍따옴표가 필요한데, 인자의 쌍따옴표와 묶여버려서 결과적으로 쌍따옴표를 두 개 해 주어야 한다. [본문으로]
'연구관련 > 연구생활' 카테고리의 다른 글
autodock vina를 직접 compile 해서 사용하기 (2) | 2014.11.25 |
---|---|
일중독일 것이라 생각하여 (0) | 2014.10.10 |
100개가 넘는 core를 사용하는 요즘 (1) | 2014.08.29 |
지속되는 두통 (0) | 2014.04.09 |
새로운 것을 생성하는 것에 관하여 (0) | 2014.04.08 |