아!, 내가 정말 속 터져서... 대체, 도무지 일관성이 없다. microarray data를 처리해서 뭔가를 하고 있는데, 그러니까, classification 을 하고 있는데, 적어도 한 set 에서 의미있게 나온 classifier 는 다른, 독립적으로 실험되었으나 같은 생물학적 현상을 보이는 경우에 대하여 일관되게 의미있게 나와야 함에도 불구하고!, 정말 그지같이 안 나온다. 이런 문제는 이미 여러 번 논문에서 언급이 되었기에 흔히 말하는 meta-analysis 를 하라고 하지.
여러 곳에서 문제가 생기곤 하는데, 일단 정말로 생물학적으로 균일한 실험 재료 인가, 하는 문제. 두 번째로는 microarray 본질적인 noise 문제. 세 번째는 내가 선택한 유전자 집합이 의미 없는 경우. 난 여러 데이터에서 공통적으로 나오는 것에 대하여 p-value 만을 선택 기준으로 사용했었다. 즉, 여러 실험 set 에서 p-value 가 significant 하게 나오면 된다고 생각했던 거지. 근데 이런 문제는, multiple hypothesis testing 의 경우 0.01 이라는 전형적인 p-value 기준조차도 너무 높기 때문에 q-value 를 사용하긴 한다. 근데, q-value 자체는 family-wise correction 의 값이 너무 낮아서 고안한 값. 뭐, 어쨌거나, 독립된 실험 6개에서 모두 0.01 보다 낮은 값이 나왔다면 거의 10의 -12 승 정도의 확률이기 때문에 난 이 값이 family-wise correction 보다도 낮다고 생각해서 그냥 이렇게 했었다. 그런데, 오늘, 흠, 아무래도 이렇게만 하면 안 될 것 같아서 q-value 를 다 구해봤다. 그래서 FDR 을 0.05 로 한다는 가정 하에 여러 데이터 set 에서 0.05 를 갖는지 확인해 보았는데, 그런 classifier candidate 이, 거의 없다. 뭐야... 물론 classifier 를 만들려고 한 건 아니긴 했는데, 아니, 그래도 어떻게 이렇게 데이터마다 값이 제각각이냔 말이다... 1
애초에 실험 데이터 자체가 균일하지 않았던 것일까? 아니면 내가 사용한 방법이 틀린 것일까? 하여튼 이 문제는 항상 나를 괴롭힌다, 일관성이 없다는 것. consistent 하지 않은 결과가 나온다는 것. 우낀 건 이렇게 지저분한 데이터는 다른 사람들이 분석했을 때도 classifier 의 performance 가 아주 그지같이 나온다는 것. ㅋㅋㅋ, 뭐야, 이거. 주로 이런 건 오래 된 데이터이든데, 아마도 그 당시의 기술이 아직 많이 발전되지 않아서(그래 봤자 10년도 안 되었지만) 데이터가 intrinsic 하게 지저분한 것 같다. 바로 이 부분 때문에 요즘에는 random projection 으로, 과연 데이터가 분리될 수 있는 upper bound 가 얼마인지를 찾아낼 수 있지 않을까, 하는 생각을 하고 있기는 한데... 아... 하여튼, 골치 아프다.
여러 곳에서 문제가 생기곤 하는데, 일단 정말로 생물학적으로 균일한 실험 재료 인가, 하는 문제. 두 번째로는 microarray 본질적인 noise 문제. 세 번째는 내가 선택한 유전자 집합이 의미 없는 경우. 난 여러 데이터에서 공통적으로 나오는 것에 대하여 p-value 만을 선택 기준으로 사용했었다. 즉, 여러 실험 set 에서 p-value 가 significant 하게 나오면 된다고 생각했던 거지. 근데 이런 문제는, multiple hypothesis testing 의 경우 0.01 이라는 전형적인 p-value 기준조차도 너무 높기 때문에 q-value 를 사용하긴 한다. 근데, q-value 자체는 family-wise correction 의 값이 너무 낮아서 고안한 값. 뭐, 어쨌거나, 독립된 실험 6개에서 모두 0.01 보다 낮은 값이 나왔다면 거의 10의 -12 승 정도의 확률이기 때문에 난 이 값이 family-wise correction 보다도 낮다고 생각해서 그냥 이렇게 했었다. 그런데, 오늘, 흠, 아무래도 이렇게만 하면 안 될 것 같아서 q-value 를 다 구해봤다. 그래서 FDR 을 0.05 로 한다는 가정 하에 여러 데이터 set 에서 0.05 를 갖는지 확인해 보았는데, 그런 classifier candidate 이, 거의 없다. 뭐야... 물론 classifier 를 만들려고 한 건 아니긴 했는데, 아니, 그래도 어떻게 이렇게 데이터마다 값이 제각각이냔 말이다... 1
애초에 실험 데이터 자체가 균일하지 않았던 것일까? 아니면 내가 사용한 방법이 틀린 것일까? 하여튼 이 문제는 항상 나를 괴롭힌다, 일관성이 없다는 것. consistent 하지 않은 결과가 나온다는 것. 우낀 건 이렇게 지저분한 데이터는 다른 사람들이 분석했을 때도 classifier 의 performance 가 아주 그지같이 나온다는 것. ㅋㅋㅋ, 뭐야, 이거. 주로 이런 건 오래 된 데이터이든데, 아마도 그 당시의 기술이 아직 많이 발전되지 않아서(그래 봤자 10년도 안 되었지만) 데이터가 intrinsic 하게 지저분한 것 같다. 바로 이 부분 때문에 요즘에는 random projection 으로, 과연 데이터가 분리될 수 있는 upper bound 가 얼마인지를 찾아낼 수 있지 않을까, 하는 생각을 하고 있기는 한데... 아... 하여튼, 골치 아프다.
- 흔히 하는 bonferroni correction [본문으로]