본문 바로가기
연구관련/연구_생각

새로운 발견의 역설

by adnoctum 2011. 1. 30.


   뭔가 새로운 발견을 했을 때 제일 먼저 해보아야 하는 생각, "뭐..., 잘못한 거 아냐?" 그런데, 또 막상 잘 되어서 결과가 이미 잘 알려진 것들이 나오면, "뭐야..., 너무 뻔하잖아." >.<""

   어떤 일을 해서 결과를 얻었을 때, 그 결과는 일반적으로, 이미 잘 알려져 있는 것과 새로운 것을 일정 비율로 포함하게 된다. 만약 너무 뻔한, 이미 잘 알려진 결과만 나왔다면 그 일은 별로 의미가 없을 수 있다. 왜냐 하면 뭔가 새로운 것이 별로 나온 것이 없으니까. 반면, 반대로, 이미 알려진 것들이 거의 안 나오고 온통 새로운 사실이라면 그 결과는 믿기 힘들다. 왜냐 하면, 그렇게 나온 결과가 제대로 나온 것인지를 알 수 있는 방법이 없기 때문이다. 따라서, 적당히 이미 알려진 것을 포함하면서 새로운 것도 또한 포함되어야만 한다. 그러면, 그 일이 제대로 된 것이라는 것은 나와야만 하는, 이미 잘 알려진 것이 나온 것에서 알 수 있고, 따라서 이것으로부터 새롭게 나온, 아직 알려지지 않은 것이 정말로 의미있는 새로운 발견이라는 말을, 그나마 조금 더 자신있게 할 수 있게 된다.

   예를 들어 보자. 폐암에 중요한 유전자를 찾는 일을 한다고 해보자. 대략 2만 개의 유전자 중 한 50개가 폐암에 중요하다고 알려져 있다고 하자. 내가 어떤 방법으로 폐암 관련 유전자 40개를 찾아 내었다. 만약 그 40개가 이미 알려진 것들이 대부분이라면, 뭐, 어차피 알려져 있던 것들이니까 별로 의미 없다. 그런데, 내가 새롭게 찾아 낸 40개 중 알려진 게 겨우 1[각주:1]개 있다고 하면, 흠, 나머지 39개의 유전자가 정말로 폐암에 관련되어 있는 것인지 조금 애매하다. 왜냐 하면, 그래도 40개에는 이미 알려진 것이 좀 포함되어 있어야 할 것 같은데 1개는 너무 적은 것처럼 보이기 때문이다. 만약 40개 중 한 15개가 이미 알려진 것이라면 알려진 것[각주:2]들도 잘 찾는 것으로 봐서 나머지 25개도 폐암에 관련이 있을 것이란 생각을 좀 더 할 수 있게 된다.

   그런데 생물학처럼 지저분한 경우에는 위처럼 p-value를 또 정확히 구하기도 힘들다, >.<"" 서태웅이 윤대협한테 농구는 산수가 아니라고 한 것과 같이, 생물학도 수학이 아니다[각주:3]. 즉, 기존에 알려진 50개의 유전자가 정말로 폐암에 관련있다고 말하기도 힘들고 - 물론 이렇게 의심하기 시작하면 답이 없다 - , 설령 있다고 해도 내가 지금 사용하는 폐암시료에서 그 50개가 정말로 유의미하게 나와야 하는 것인지도 명확하지 않다. 이런 문제는 여러 이유가 있는데, 예를 들면 어느 병원 데이터라 하면 그 병원에서는 다른 합병증이 있는 환자를 치료하는 곳일지도 모르고, 여성 관련 병을 치료하는 병원이라서 여성 환자가 유독 많을 수도 있고, 말기 폐암 환자들이 많이 오는 병원이라 폐암 시료가 말기 암 환자것일 수도 있다. 내가 예전에 치매 관련 데이터 분석할 때도 이랬었지... >.<"" 하여튼, 생물학이 흔히 말장난이라고 하는 이유도 이런 수많은 이유가 가능하기 때문에 말을 어떻게 하느냐에 따라 논문의 내용에 대한 논리성 정도가 변하기 때문일 것이다. 하여튼... 재미나긴 한데 좀 지저분하고, 또 이런 게 재미 아니겠는가 ㅜ.ㅜ ㅋㅋㅋ 즉, 일관성 없는 결과에 대한 가능성을 '강제로' 생각해야 하는...


    뭐, 하여튼, 이런 문제는 항상 나를 괴롭힌다. 그런데, 이제는 이것은 근본적 속성이라는 것을 알기에 어쩔 수 없이 받아들인다, 에잇.



  1. 실제로 2만개 중 40개를 무작위로 뽑았는데 특정 50개 중 1개가 선택되는 사건에 대한 p-value는 Fisher's exact p-value로 구해 보면 0.095. 즉, 1개가 나온 것은 우연일지도 모른다. [본문으로]
  2. 이 경우 p-value는 거의 0 이다. [본문으로]
  3. 다른 이공계 분야 사람들이 생물학을 싫어하는 주요 원인인듯... [본문으로]