본문 바로가기
연구관련/연구_생각

자료에서 의미를 찾아 내는 것

by adnoctum 2011. 5. 14.


   자료(데이터)를 보고 제일 먼저 확인하는 것은 적당한 통계적 방법에 의한 연구자의 가설 검증이 된다. 즉, 내가 이런 생각이 맞는지 확인하고자 하였는데 이 데이터는 그것을 지지하는가? 하는 것. 연구자가 일정한 논리전개(흔히 '스토리'라고 하는)를 갖고 있을 경우, 각 단계마다 이러한 절차를 반복하게 된다. 그런데, 나의 경우에는 자주, "어떻게 나올까?" 하고 일단 데이터를 만들어 본다. 물론 이 경우에도 데이터의 경향이나 특성을 미리 예측하기 때문에 데이터를 다 만들었을 때 그 예측의 성립 여부를 제일 먼저 확인하게 된다. 문제는 그 다음인데, 일단 가정했던 경향을 확인한 후, 데이터를 물끄러미 바라보고 있으면 왠지 뭔가 더 이야기를 할 수 있을 것 같은데, 손에 잡히지 않는다. 바로 이 단계가 문제이다. 

   즉, 데이터로부터 무엇을 더 알아낼 수 있는가? 하는 것.

좋은 논문을 읽어 보면, 주어진 데이터로부터 이런저런 의미들, 그 데이터가 무엇을 의미하는 것인지를, 내가 생각할 수 있는 것보다 더 많이 뽑아 내며, 그것은 전체적인 이야기 전개를 보다 풍부하고 명확하게 만들어 준다. 물론, ㅋ, 조금 난해하거나 이야기 전개를 오히려 복잡하게 만드는 것은 제외를 했을 테지만. 어쨌든, 그래서, 문제는 주어진 데이터를 해석할 수 있는 능력이 된다. 데이터가 품고 있는 의미를 최대한 많이 알아 낼 수 있는 능력. 이것은 애초에 그 데이터로부터 확인하고자 했던 가설과는 별개이며, 따라서 기계적인 확인 작업(주로 통계적 검증,   cross-validation, meta-analysis 정도?)과는 다른 류가 된다. 아마도 이러한 것이 어쩌면 '내공'이 필요한 곳일지도 모르겠다. 

예를 들면 이런 거지. 이런 네트웍에서 어떤 사실들을 뽑아낼 수 있는가? 하는 것. 


   한 예를 들면, 나는 지금 전사인자의 상호연관에 의한 네트워크를 갖고 있다. 그렇다면 이 네트워크로부터 알아 낼 수 있는 사실은 무엇일까? 네트워크의 이런저런 특성을 묘사하는 것은 별로 의미가 없다. 그것은 그냥 기계적인 작업일 뿐이다. 또한, 각 특성이 의미하는 바를 이야기하는 것도 그리 큰 일은 아니다. 가령, CPL 이 상대적으로 작게 나오는 것은 곧 조금은 더 밀집되어 있기 때문이고, 이것은 네트워크의 각 노드들이 서로 연관을 많이 갖는, 응집되어, concerted mode, 말하자면, 로 작동하고 있다는 것을 의미하는 것이다. 이러한 단순한 해석 말고, 좀 더 의미를 뽑아 내고 싶다. 과연 무엇일까? 

물론 이러한 작업은 전체적인 맥락에서 떨어져서 할 수는 없다. 그래서, 주어진 맥락 안에서 CPL이 작은 것이 어떤 의미를 갖는지를 설명해 줄 수는 있다. 그런데 결국 이것도 네트워크의 어느 특성에 대한 단면적 해석에 불과하다. 표면적이고, 누구나 할 수 있는, 가장 먼저 해볼 수 있고, 기본적으로 해야 하는 작업에 불과하다. degree distribution이 power law를 따르는지 확인하는 것도 마찬가지이다.  좀 더 깊은 의미, 일상적으로 쓰이는 특성이 의미하는 보다 깊은 의미와 더불어, 어떤 의미를 확인할 수 있는 수치를 고안해 보는 것. 네트워크에서 가장 많은 연결을 갖는 노드는 어떤 특성을 갖고 있는가, 왜 그래야 하는가, 중요하다고 알려진 전사인자(노드)는 네트워크에서 어떠한 특성을 갖는가? 하는 것과 더불어 더 많은 사실들을 뽑아 내고 싶다. 

   이처럼, 주어진 데이터로부터, 미리 주어진 가설을 확인하는 것 이외에 보다 더 많은 새로운 사실을 뽑아 내는 능력, 다각도로 해석할 수 있는 능력, 그 능력이 필요하다.