본문 바로가기
연구관련/연구생활

R 사용하기

by adnoctum 2010. 10. 8.

   해야 할 일은 q-value 를 구하는 것. validation 때문에 random 으로 잡아낸 데이터에 대한 q-value 를 일일이 계산해야 하기 때문에, 적어도 백번은 넘게 q-value 를 계산해야 한다. 백번 넘게 클릭을 할 수는 없는 일이기 때문에 qvalue 의 library 에서 제공해 주는 gui 를 사용할 수는 없는 일. 다행히, 그리고 일반적으로 그렇듯, qvalue는 script 도 지원해주기 때문에 그것을 사용하기로 결정.

   그래서 내 작업 서버에 R 을 설치하기로 하였는데, 생각해 보니 내 작업서버는 x 가 깨진 상태. 그놈의 nautilus upgrade 하다가 critical 한 library 가 깨졌다. 뭐, 어차피 gui 따위는 없어도 작업하는데는 상관이 없기 때문에, 그리고 귀찮아서 고치지 않고 있는데, R 을 설치하려고 하니 vnc 로 접속을 해야 할 것 같아서, 결국은 랩서버를 사용하기로 결정, 랩서버에 vnc로 접속을 했다. 그런데, 이 랩 서버가 버전이 몇 이었는지부터 시작해서, R을 rpm 으로 설치하려고 하니 웬 package dependencies 가 그리도 많이 걸리는지... yum 으로 설치를 하려고 해도 R 이 이름이 한 글자라서 찾지도 못하겠다. 그리고, 랩서버는 뭐가 어떻게 된건지 firefox가 안떠서 컹커러로 웹브라우징을 하고... 내가 좀 게을러서 뭔가를 고쳐야만 할 수 있는 것일 때만 고치고, 굳이 급하게 고치지 않고도 다른 방법을 사용할 수 있으면 그 방법을 주로 사용하곤 한다. 리눅스에서 뭐 고칠려면 이만저만 귀찮은 게 아니라서... 어차피 웹브라우징이나 GUI 는 여러 방법으로 사용할 수 있거나 부차적인 것이니까...(라고 변명 >.<"") 가끔은 심지어 lynx 를 사용할 때도 있으니까. ㅋㅋ 랩서버는 fedora 라서 software 설치가 좀 귀찮게 되어 있다. 그래서, 오래간만에 virtualbox 위의, 진리의 ubuntu 를 켰다.


아주 난리가 난 상태. 위는, 적어도 컴퓨터 3대가 관여하고 있는 모습. 데스크탑, 작업서버 삼바 걸린 것, vnc로 랩서버 접속한 것. 그리고 데스크탑 안의 ubuntu 를 켜 놓은 상태.

그런데, 문득, 그냥 윈도우즈에서 해도 되잖아 @.@ 어차피 지금까지 qvalue 테스트는 윈도우즈에 R 깔고, qvalue 라이브러리 설치해서 gui로 하고 있었는데, 그럼 당연히 script 도 될테니, 그냥 작업서버에서 파일 가져와서 윈도우즈에서 구하고, 그걸 다시 작업서버로 보내서 이어서 작업을 해도 되는데, 왜 굳이 이걸 꼭 리눅스에서 해야만 한다고 생각을 했는지... >.<""

그래서, 그냥 윈도우즈에서 작업하기로 했다. 일단 도스 창에서 작업을 하기 위해 - 난 R이나 python 에서 제공해 주는 gui 에서 작업하기보단 그냥 도스창에서 vi 로 작업하는 것을 선호하기 때문에 -  r.exe 를, 경로설정글에서 설명한 것처럼 시스템 변수의 path를 R.exe 가 설치된 경로로 설정을 해서 위처럼 도스창에서 r 을 쳐서 R로 들어갈 수 있게 바꾸고, 이제 작업할 차례. 이놈의 qvalue, 내가 작성을 하던지, 역시나 외부라이브러리(프로그램)을 사용하려니 이만저만 귀찮은 게 아니다.





밤 11시.

   난감한 상황이다. multiple test를 했기 때문에 q-value를 사용해야 하기에 p-value vs. q-value plot을 그려 보니 완전 이상하다. 다 이상한 것은 아닌데, 몇몇 데이터가 이상하다. 짜증나서 실제로 q-value 에 대해 얘기한 논문을 찾아 q-value를 구하는 원리를 살펴 보았는데, 뭐, 딱히 이 값을 사용하지 않아도 될만한 근거가 없다. false discovery... 인 것인가. 약간 의심이 되는 것은, null 상황에서는 p-value의 distribution 이 1에 근접할수록 uniform distribution 을 따른다는 것. 음... statistics가 뭔지에 따라 달라지는 것 아닌가, 하는 생각이 드는데, 아직 긴가민가하다. 현재 q-value가 저 사실을 가정하고 있기 때문에 그것만 성립하지 않는다는 것을 말할 수 있으면 p-value를 사용하는 것을 어느 정도 defense 할 수 있을 것 같은데, 아직 확실하지 않다. p-value로 했을 때 생물학적인 내용들이 상당히 잘 맞아서 좋았는데, q-value로 하면 좀 이상하게 나온다.

   어제, q-value를 구하는 것까지 하고, 원래는 오늘 데이터를 전부 바꾸려는 계획이였는데, 막상 하려고 하니, 헐, 해 놓은 일이 굉장히 많았어. normal vs. cancer, drug response (tamoxifen, docetaxel), survival analysis, 의 경우에 대해 해 놓았었기 때문에 이 일을 그대로 반복하려니 막막하더군. 뭐, 어쨌거나 해야 하는 일이기에 drug response 까지 해 나가면서 결과를 확인확인 했는데, q-value... 영 안 맞는다.

   결국 주장할 수 있는 것은, p-value로 했을 때 biological relevance 가 높으므로 괜찮다, q-value로도 해 보았는데 잘 안 되더라 왜 그런지는 모르겠다, 정도인가... 갑갑하다.


'연구관련 > 연구생활' 카테고리의 다른 글

남의 소스 보기 >,<""  (0) 2011.03.03
에러가 안나서 불안해  (0) 2011.01.19
생명연장의 꿈, CR  (0) 2011.01.05
아... 속도...  (0) 2010.11.24
매너리즘의 끝에서  (0) 2010.10.14