본문 바로가기

컴퓨터219

두 단어의 '유사도'를 측정하기 (resemblance) 구글이나 네이버에서 검색을 할 때, 영어 단어를 '정확히' 입력하지 않았을 경우, '비슷한' 단어로 검색할 것을 추천하는 것을 본 경험이 있을 것이다. 그와 같이, 두 단어가 정확히 같은 것인가를 판단하는 것이 아니라, 대충 비슷한 것인가를 판단할 수 있는 방법을 살펴 보자. 즉, '비슷한 정도'를 수치화 할 수 있는 방법을 살펴 보자. 기본적인 아이디어는 단어를 잘게 자른 조각(그것을 shingle 이라 하자)들을 모은 후, 그 조각들이 많이 비슷하면 비슷할수록 두 단어가 비슷하다는 것이다. 예를 들어 보자. adenophorae radix 와 adenophora 를 비교하는 모습을 살펴 보자. 논의의 편의를 위하여 shingle 의 길이를 2 개로 제한하자. adenophorae radix --> a.. 2010. 7. 6.
linux의 top 명령어 리눅스의 top 명령어는 현재 kernel의 관리 목록에 있는 task 에 대한 정보를 표시해 준다. 물론 command 에서. 그 기본적인 모습은 다음과 같다. 각 task에 대하여 PID, USER, CPU 점유율, 메모리 할당량, running time, 어느 command로 그 task가 실행되었는지에 대한 정보가 표시된다. 다른 리눅스 명령어와 마찬가지로 보다 자세한 설명은 man 을 참고하고, 이 글에서는 내가 자주 이용하는 옵션만 살펴 보도록 한다. 위와 같이 실행시킨 상태에서 제한적인 interactive mode가 가능하다. 즉, 위처럼 표시되는 상태에서 숫자 1 을 누르면 각 CPU의 점유율이 나온다. 다음과 같다. 보는 바와 같이 4개의 CPU 각각이 어느 정도 점유되어 있는지 알 수.. 2010. 7. 3.
resampling을 이용한 방법 (bootstrapping) resampling이란 모분포의 형태를 알 수 없을 때, 현재 갖고 있는 데이터의 일부분을 재추출하여 분포를 만든 후 관측하는 값의 통계적 의미를 확인하는 방법이다. 우선 estimate 에 대해 살펴 보고 넘어 가자. 일련의 데이터가 있을 때, 우리는 그 데이터의 총체적 특성을 나타내는 값으로 보통 '(산술)평균'을 이용한다. 즉, 평균이란 데이터 집합의 특성을 표현하기 위한 수치 중 하나의 예일 뿐이다. 최대, 최소, 중간값, 모드, 표준편차, skew, n-th moment 등 데이터 집합의 특성을 표현하기 위한 값에는 매우 많은 종류가 있다. 이 글에서는, 데이터가 주어지면 그 데이터를 이용하여 하나의 실수값을 계산해 낼 수 있을 때, 그 실수를 estimate 라 지칭한다. 보다 정확한 정의는 .. 2010. 7. 2.
수치해석학은 무엇을 배우는 과목인가 수치해석학은 컴퓨터를 이용하여 수학적인 문제를 해결하기 위한 방법에 관한 학문이다. 알고리즘과는 다음과 같은 관점에서 다르다. 알고리즘은 일반적으로 특정한 조건을 만족하는 해를 찾아 내기 위한 명확한 절차를 의미하며, 많은 경우 보다 적은 연산을 이용하여 문제의 해를 찾고자 한다. 예를 들면 2차원 평면 상에 N개의 점이 뿌려져 있을 때 N개의 점을 모두 포함하는 가장 작은 다각형을 그린다고 할 때 그 도형의 모서리에 있게 되는 점을 찾는 convex hull 문제와 같은 것. 혹은 보다 일반적으로는 정렬 문제. 그러나 수치해석학은 일반적으로 '수식'이 관여하는 문제의 '해'를 찾아 내기 위한 것이다. 예를 들면 ln(x) + x = K 이 때 K 가 임의의 실수라고 할 때 x 를 찾는 것. x를 양의 .. 2010. 6. 30.