본문 바로가기

연구관련/Bioinfo류21

기계학습 관련 글 예고(?), ㅋ 다음과 같은 기계 학습 (machine learning) 관련 library 들에 관해 글을 차근차근 쓸 예정이다. Python의 scikit-learnC++ 의 dlib C++ 위 라이브러리는 많은 예제가 있고 대부분 상업용 제품에 사용될 때에도 자유롭게 쓸 수 있는 라이브러리이다. python 의 scikit learn 은 많은 예제가 제공되고 있으므로 예제 페이지의 코드를 살펴 보는 것만으로도 어느 정도 사용법을 익힐 수 있다. dlib c++ 은 기계 학습 뿐만 아니라 다른 것도 제공이 되고 문서화가 잘 되어 있기는 한데 예제에 관한 결과 그림이 없어서 약간 불편하긴 하지만 실험 정신이 약간만 있어도 쉽게 이용할 수 있다. 특히 이들 라이브러리는 설치에 크게 힘이 들지 않다. dlib C++ 의 .. 2013. 9. 29.
chemical database 인 Chembl DB의 ERD Chembl DB는 EBI에서 제공하는 chemical compound 에 대한 정보를 제공해 주는 database이다. 전체 내용을 mysql dump 파일로 ftp[여기] 에서 받을 수 있다. ERD 도 제공을 해 주기는 하는데 print를 하면 잘 알아볼 수 없어서 visio 로 그렸다. 실제 FTP 에 있는 ERD 그림 파일은 다음과 같다. 위 파일을 visio 로 그리고 PDF로 바꾼 파일을 이 곳에 올려 놓는다. 2012. 7. 23.
화학구조식 파일을 그림으로 바꾸는 방법 화학 구조를 담고 있는 파일을 이용하여 화학 구조식을 그리는 방법을 알아 보자. 화학 구조식을 담고 있는 파일 형식은 *.mol, *.sdf, *.mol2 등이 있다. 이러한 파일들을 이용하여 실제 화학 구조식을 그리고자 할 때는 공개 API를 사용하거나 프로그램을 사용할 수 있다. 나는 3 가지를 사용해 보았는데, 가장 좋았던 것은 Marvin View에 같이 오는 molconvert 라는 것이었다. 1. RDKit2. OpenBabel3. Marvin View의 molconvert 1. RDKit RDKit 은 library 형태로 C++과 python binding 이 존재한다. 문서화가 약간 빈약하지만 가장 요긴할만한 기능들이 잘 설명이 되어 있고 파이썬 자체의 help 를 바로 사용할 수 있기 .. 2012. 7. 9.
dense subgraph 찾기 구현 (MCODE) 지난 번 글에서 언급했던 알고리즘을 C++로 직접 구현해 보자. 실제로 사용한 예는 다음과 같다. 원래의 network 은 다음과 같다. 우리는 다음과 같은 network 에서 dense 한 sub-graph 즉, edge가 많이 연결된 sub-graph를 뽑아 내어야 한다. source network 의 sif 파일은 다음과 같다. 위에서 dense한 subgraph 를 지금 설명할 코드로 뽑아 내면 다음과 같다. node 를 score로 정렬한 이후 seed로 사용되는데, 높은 점수를 갖는 노드부터 sub-graph (난 계속 cluster 라는 이름을 사용했다. 이 글 이후에도 sub-graph 나 cluster를 사용한다)를 찾기 때문에 cluster 번호가 커질수록 cluster의 density.. 2010. 12. 3.