2009년 10월 11일 일요일

우도의 개념과 최대우도추정법(Maximum Likelihood Estimation)

우도의 개념을 최대한 단순하게(물론 문제가 있겠지만) 정의하면 확률과 정확하게 대칭되는 것이라 생각하면 맞을 것 같다. 다시 말하면 확률에서는 모비율이 특정되어 있고 불변인데 그 위에서 관찰된 값이 나오는 반면(동전을 던질 때 앞면이 나올 확률은 일반적으로 1/2이며 그것을 바탕으로 특정 관찰이 나올 확률을 계산한다), 우도의 개념에서는 역으로 관찰치는 고정되어 있고, 그것이 가장 잘 그럴 듯하게 나오는 모수값을 찾아나가는 것이다.

이를 2차원 그래프로 나타내면 확률분포곡선에서 특정한 포인트를 찍어서 확률을 계산하는 확률과는 정반대로, 우도의 개념에서는 특정한 관찰값이 이미 주어져 있고, 확률분포곡선 자체를 움직이면서 그 관찰값이 가장 잘 나오는 위치를 찾는 것이다. 약간 어거지로 끼워맞추는 구석이 있는 것이 아니냐 할 수 있겠지만, 사실 잘 생각하면 일반적으로 써먹는 회귀분석 역시 자의적인 우격다짐이긴 마찬가지다. OLS(최소자승법) 역시 Sum of Square를 최소화하는 것이 가장 좋은 회귀직선이라 정한 것 뿐이지, 그게 정말 맞다고 누가 장담할 수 있나? 그렇게 하기로 한 것 뿐이지. 아니 - 넓게 말하면 최소자승법 역시 하나의 최대우도추정이라고 할 수도 있는 것이다.

그렇다면 왜 이런 개떡같은 방법이 나온 걸까. 당연한 이야기지만 일반적인 회귀분석이 갖고 있는 문제점과 한계에 대응하기 위한 것도 일부 있고, 이것이 갖고 있는 최대의 문제점인 계산 문제가 컴퓨터의 도움으로 해결되었기 때문이기도 하다. 잘 생각해보면 최대우도추정법의 전략은 컴퓨터의 계산방식과 유사하다. 특정한 확률분포를 사용해 계산하여 우도를 구하고, 그 분포를 약간 이동시켜 또 우도를 구하고... 반복하다가 그 우도가 최대로 결정되는 지점에서 멈추는 것이다. 어쩐지 프로그래밍 기초에서 나오는 것과 유사하지 않나?

그리고 최대우도 추정의 가장 큰 장점 중 하나는 확률분포의 종류만 정해지면, 계산방식은 모두 동일하다는 것이다. 특히 일반적인 방식에서 각각 모두 다른 표준오차의 추정 역시 (매우 복잡하지만) 같은 방식으로서 계산되며, 표현될 수 있다는 것 - 이는 결국 확률분포만 확보해 표현할 수 있다면 - 일반적인 routine으로 처리할 수 있다는 가능성을 시사한다. 아울러 최대우도추정은 특정한 어떤 분포가 아니라 그런 방식을 사용하는 분석 방법을 통칭하는 일종의 전략(strategy) 같은 것으로 이해하면 되겠다.

댓글 없음:

댓글 쓰기