본문 바로가기

컴퓨터219

엑셀에서 z-score로 p-value 계산하기 데이터를 정규화한 값인 z-score 를 이용하여 p-value를 계산해 보자. 이 때, erf 함수를 사용하게 되는데 ms-excel 에서 erf 함수를 제공해 준다, 따라서 이 값을 엑셀에서 계산해 보자. 많은 경우 모분포의 정규분포를 가정하게 된다. 그런데 모분포가 정규분포가 아닐지라도 그러한 모분포에서 추출한 평균의 분포는 중심극한정리에 따라서 정규분포를 따르게 된다. z-score는 그러한 정규분포에 사용될 수 있게끔 변수를 변환한 것으로 생각할 수 있는데, 다음과 같이 계산한다. 즉, 데이터의 값에서 평균을 뺀 이후, 그것을 표준편차로 나누어 준다. 만약 X 가 이항분포 b(n, p) 를 따른다면, z는 다음과 같이 계산할 수 있다. 이 때 저렇게 계산한 z 역시 표준정규분포 N(0,1) 을 .. 2010. 10. 12.
엑셀에서 도수분포표(히스토그램,histogram) 그리기 엑셀의 분석 도구에 히스토그램 그리는 것이 있기는 한데, 그냥 countifs를 이용해서 그릴 수도 있다. 방법은 간단한데, 다음과 같다. 위처럼 데이터가 random, cluster 에 대해 약 5만 개가 있다고 하자. 또한 이 값이 있는 범위를 미리 알고 있어야 히스토그램의 구간을 정할 수 있을 것이다. 저 값은 p-value이기 때문에 [0, 1] 범위를 갖는다. 따라서 다음과 같이 미리 구간을 정해 놓을 수 있다. 그리고, 각 구간에 속하는 값이 몇 개가 있는지를 세기 위해서는 countifs 함수를 이용하는데, 다음과 같다. countifs 에 관한 글에서 설명한 것과 같이, 조건을 두 개 걸어서 그 조건에 만족하는 값을 지정된 구간에서 세면 되는데, 구체적으로 보자면 다음과 같다. =COUNT.. 2010. 10. 9.
엑셀에서 구분자를 이용하여 열을 여러 개로 분리하기 만약 콤마(comman, ,) 로 되어 있는 것을 각 열로 분리하거나 하는 것과 같이 구분자(delimiter)를 이용하여 각 열을 분리하고자 할 때는 엑셀의 Data - Text to Columns 메뉴를 사용한다. 예를 들면 다음과 같다. 위처럼 콜론(colon, :)으로 구분이 되어 있는 경우, 각각의 값들을 colon 을 중심으로 앞쪽을 한 열, 뒤쪽을 또 다른 한 열로 만들고자 한다면 우선 A 열을 전체 선택 한 다음, 데이터 메뉴의 텍스트를 열로 메뉴를 사용한다. 위처럼 A 를 전체 선택한 다음, Text to Columns 를 선택하면 구분자 또는 특정 길이로 자르는 것을 선택하는 옵션이 나타난다. 현재는 구분자로 나눌 것이므로 Delimter (구분자)를 선택하고 Next 를 누르면 어떤 .. 2010. 10. 9.
엑셀에서 중복 데이터 제거하기 엑셀에서 중복되는 데이터를 제거하여 한 개씩만 남겨 놓기 위해서는 데이터 메뉴의 중복제거를 사용하면 된다. 이 때, '중복'의 정의를 생각해 보아야 하는데, 열 두개의 값이 모두 일치할 때 중복으로 할 것인지, 한 열에서 같은 값을 갖는 것만을 중복으로 간주할 것인지를 생각해 보아야 한다. 사용법은 다음과 같다. 다음과 같이 A 열에 중복되는 값이 있을 때, A 열을 전체 선택(헤더를 클릭하거나 단축키 Ctrl + SpaceBar)하고, 데이터-중복제거를 클릭한다. (한국어 버전은 저 영어에 해당하는 적당한 메뉴 선택) 그러면 어느 열의 값이 같을 때 중복으로 간주할 것인지를 선택하는 메뉴가 뜬다. 지금은 한 열(A)만 선택했기 때문에 A 밖에 없다. 만약 A와 B 열을 선택해서 중복제거를 실행했을 때 .. 2010. 10. 9.