본문 바로가기

컴퓨터/수학이랑25

Fisher's linear discriminant 원리 Fisher's linear discriminant (FLD) 는 데이터를 여러 변수들의 선형결합으로 표현하였을 때 서로 다른 그룹을 잘 구분할 수 있게 해 주는 coefficient 를 찾는 방법이다. 그림으로 보자면 다음과 같다. 위는 그림으로 그려서 보이기 편하라고 2개의 변수만을 사용하여 나타낸 것인데, 저렇게 두 그룹을 잘 구분할 수 있는 직선의 방정식을 찾는 방법이 Fisher's linear discriminant 를 이용한 방법이다. 위 직선의 방정식에 필요한 상수는 closed-form 으로 정확히 구해진다. 원리를 알아 보고, matlab 으로 테스트도 해보고, C++로 구현해서 써먹어 보자. (오늘은 원리와 matlab 으로의 테스트까지만. 구현은 내일 해보자) 직관적으로 생각할 수 .. 2010. 11. 30.
통계 분석 - 평균 비교에 대하여 통계 분석이란 한 집단에 대한 수치에 대하여, 그 수치에 대한 특정 가설을 설정한 후, 그 가설에 기반했을 때 예상되는 수치의 분포와 실제로 관측된 수치를 비교하여 가설을 채택하거나 채택하지 않는 절차를 의미한다. 수치로 표현되는 특성에 대하여, 한 집단의 특징을 대표하는 수치 중 가장 널리 사용되는 것은 '평균'으로, 평균은 수학적으로 적절한 많은 특징을 갖고 있다. 따라서 일반적으로 두 집단이 동일한 것인지 아닌지를 비교할 때 주로 평균이 얼마나 비슷한 것인가를 검사하게 된다. 또한 생물학 실험을 예로 들자면, 특정한 처리 A를 한 것이 효과가 없다는 것은 처리를 한 집단과 하지 않은 집단이 '평균'으로 대표되는 수치가 다르다고 할 수 없다면 A는 효과가 없다는 결론을 낸다는 의미이다. 이 때, 흔히.. 2010. 10. 21.
엑셀에서 z-score로 p-value 계산하기 데이터를 정규화한 값인 z-score 를 이용하여 p-value를 계산해 보자. 이 때, erf 함수를 사용하게 되는데 ms-excel 에서 erf 함수를 제공해 준다, 따라서 이 값을 엑셀에서 계산해 보자. 많은 경우 모분포의 정규분포를 가정하게 된다. 그런데 모분포가 정규분포가 아닐지라도 그러한 모분포에서 추출한 평균의 분포는 중심극한정리에 따라서 정규분포를 따르게 된다. z-score는 그러한 정규분포에 사용될 수 있게끔 변수를 변환한 것으로 생각할 수 있는데, 다음과 같이 계산한다. 즉, 데이터의 값에서 평균을 뺀 이후, 그것을 표준편차로 나누어 준다. 만약 X 가 이항분포 b(n, p) 를 따른다면, z는 다음과 같이 계산할 수 있다. 이 때 저렇게 계산한 z 역시 표준정규분포 N(0,1) 을 .. 2010. 10. 12.
알고리즘 관련 글의 병목 현상에 대하여 이 곳에 작성하는 알고리즘 관련 글들은 다소 더딘 업데이트 속도를 보인다. 새로운 글의 작성이 드문 것과, 이론적 배경의 설명 이후 실제 코드에 관련한 글이 매우 늦게 올라오는 등. 일단 그 어느 글이든 내가 실제 코드로 작성을 한 이후 그것을 사용하고 있을 때만 관련 글을 작성한다. 그럼에도 불구하고 그것에 관련한 글이 늦게 올라오는 이유는 다음과 같다. 첫 번째로는 연구를 하면서 틈틈이 작성하는 글들이기 때문에, 연구를 하느라 바쁘면 굳이 이 곳에 글을 올리기 위하여 시간을 내지는 않는다. 주로 매우 오래 걸리는 작업을 실행시킨 후 시간이 남을 때 내용 정리를 하는데, 요즘(2010년 8월 말경)에는 그런 것이 별로 없기 때문에 데이터 정리하고, 새로운 방법 생각하고 논문 찾아 읽는 등의 연구를 하고.. 2010. 8. 29.