본문 바로가기
연구관련/연구_생각

data-driven hypothesis에 대한 단상

by adnoctum 2012. 11. 3.



페북에 썼던 글을 가져와 보면, 


예전에 발표했던 ppt를 살펴 보다 보니 이런 것을 발표한 적이 있었군. 내가 강조하고 싶었던 것은 가설이 data 로부터 오는 것이었다. 내가 하는 일 자체가 대량의 데이터를 살펴 보는 것이다 보니, 가설을 정하고 그것이 "맞나 틀리나"를 확인하는 것이 [아니라], "이런 관점에서 데이터를 분석했을 때 어떤 결과가 나올까?" 하는 것이다. 그에 따라 적당히 분석 후 나온 결과를 본 후 해석을 해서 가설을 만들어 내는 것. 나는 항상 이런 식이 생각의 출발점이 되는 것을 '추구'해 왔다, 이것만이 맞는 방법은 아니니까. 

들뢰즈에 따르면 로고스적 사유는 우리가 사물 속에 집어넣은 것만을 사물로부터 끄집어낸다. 로고스는 알아보고 싶은 것만을 알아보며, 같은 맥락에서 자발적인 능력은 주어진 주제와 관련된 것만

을 불러 모아, 미리 주어진 전체를 위하여 끼워 맞출 뿐이다. 이는 교조적이고 독단적인 사유의 환경에서 일어나는 사유의 양상이다. 이러한 사유에서 새로움이 사유될 리 만무하다. 사유는 언제나 이미 있었던 주제들의 재현이며, 수월한 재인식이 될 뿐이다. 이에 대하여 그가 제시하는 것은 능력의 '비자발적' 사용이다. 능력을 비자발적으로 사용한다는 것은 무엇일까? 그것은 내가 사유하고 싶은 것을 사유하기 위하여 능력들을 자발적으로 동원하고 일치시키는 것이 아니라, 감각의 강요에 의하여 사유를 시작하게 되고, 능력들을 비자발적으로 동원하는, 수용적이고 수동적인 사유가 된다. 이때 능력의 수용성과 수동성은 능동성의 결핍으로 정의되는 것이 아니라, 오히려 능동성의 가능조건으로 이해된다. - 신지영 [내재성이란 무엇인가], pp.38~39



들뢰즈가 말하는 비자발적 사유가 data-driven hypothesis와 어느 정도 통하는 듯 싶다. 즉, 특정 가설을 먼저 생각한 후, 그 가설이 맞는지 틀리는지를 확인하기 위한 실험을 설계하는 것이 아니라, 데이터를 보고 특정 패턴을 끄집어 낼 수 있는 방법을 고안하여 분석 후 나온 결과를 보고 해석을 시작하는 것이다. 이 때, '특정 패턴'이란 패턴이라 칭해질 수 있는 속성을 갖는다는 제약 조건 이외의 그 어떤 제약 조건도 없어야 하겠다. '선형관계일까?' 하는 것이 아니라, 어떤 형태로든지 association 이 존재할까? 하는 것. 이에 대한 예로, 선형에 적합합 Pearson's correlation coefficient, 또는 순서가 동일한 양상인지에 대한 Spearmans' rank order correlation coefficient, 또는 순서의 동일성이 질적으로 비슷한지에 대한 Kendall's tau가 있겠고, 그 이외에 Gaussian 이나 Boltzmann distribution 에 맞는지 안 맞는지 알기 위해 우리는 kernel을 쓰거나 QQplot 또는 chip-square test를 해보는 것이 자발적 사유에 해당할 것이다. 반대로 비자발적 사유에 가까운 것은 얼마 전 Science에 발표되었던 MIC가 있겠다. functional form 을 특정할 수 없다 하더라도 어쨌든 association 이 있는지, 하는 것. 우리는 그 association 이 sinusoidal 이든 linear이든 log-normal 이든에 관계 없이 association 이 있는지를 궁금해 할 수 있는 것이니까. 같은 맥락에서 특정 패턴을 발견하는 알고리즘을 고안한 후 데이터를 분석해서 나온 결과에 패턴이 있는지를 확인 후, 그 의미를 생각하는 것이 바로 비자발적 사유의 사용이고, 이것이 data-driven hypothesis를 제대로 하는 것이 아닐까?