Machine Learning/Statistics

Maximum Likelihood Estimation (MLE), Least Square Estimation (LSE)

고슴군 2020. 3. 10. 11:48

[참조]

[1] https://www.youtube.com/watch?v=sOtkPm_1GYw&t=36s

 

 

[1] 최대 우도 추정법은,

1) 모델을 설정한다.

2) 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다.

3) 그 확률을 최대로 높이는 모델 변수를 구한다.

 

이 방법론이 말이 되는 것은, 당신만 특별하게 목격했을리가 없다. 아마도 흔한 일일 것이고, 그건 '발생 확률이 높은 사건' 이라고 해석하는 것이 합당하다. 그래서 당신이 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾아라.

 

 

[2] https://curt-park.github.io/2018-09-19/loss-cross-entropy/

 

[손실함수] Binary Cross Entropy

확률, 정보이론 관점에서 살펴보는 Binary Cross Entropy 함수

curt-park.github.io

 

[3] https://www.researchgate.net/post/What_is_the_basic_difference_between_the_maximum_likelihood_estimator_and_the_least_square_estimator

불러오는 중입니다...

[3] The least-squares estimator (LSE) is a special case of a maximum-likelihood estimator (MLE). The special case is that the probability distribution used for the likelihood is the normal distribution.

The MLE is the parameter value for which the observed data is most likely. This likelihood (of the data) can be calculated for any (assumed) parameter value. If the data are independent, the likelihood is simply the product of the individual probabilities of the observed values. This probability hat to be evaluated, and for this a probability model is required. Depending on the kind of data this could be specified as a binomial distribution, or a Poisson distribution, or an exponential distribution, or... (many many many more).... or a normal distribution.

The MLE is obtained by varying the parameter of the distribution model until the highest likelihood is found. The value of the parameter for this result is called the MLE. One can do this a little more analytically and derive a likelihood function, giving the likelihood depending on the parameter value. Then the derivative can be determined and solved for its root. However, it is often much simpler and numerically more convenient to look at the log of the likelihood function (where the ugly product of probabilities turn into a simple sum). The position of the maximum will not change by such a monotone transformation. It is thus practical to determine the maximum of the log likelihood.

In the special case that the normal distribution is used as probability model, the log likelihood turns out to be proportional to the negative sum of the squared residuals. Hence, the maximum likelihood is where the sum of the squared residuals is minimal. So here we have a nice shortcut and the MLE can be fond as the parameter for which the sum of the squared residuals becomes minimal (=LSE).

One can always use the MLE. When the data is normal distributed, one can also take the shortcut via the LSE, giving the very same result as the MLE (because in this case the LSE *is* the MLE, the calculations are only made simpler).

 

 

[4] https://stats.stackexchange.com/questions/143705/maximum-likelihood-method-vs-least-squares-method

 

Maximum likelihood method vs. least squares method

What is the main difference between maximum likelihood estimation (MLE) vs. least squares estimaton (LSE) ? Why can't we use MLE for predicting $y$ values in linear regression and vice versa? Any...

stats.stackexchange.com

[5] https://ratsgo.github.io/statistics/2017/09/23/MLE/

 

최대우도추정(Maximum Likelihood Estimation) · ratsgo's blog

이번 글에서는 최대우도추정(Maximum Likelihood Estimation)에 대해 살펴보도록 하겠습니다. 이 글은 Ian Goodfellow 등이 집필한 Deep Learning Book과 위키피디아, 그리고 조현제 님의 자료를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 최대우도추정 최대우도추정(maximum likelihood estimation)이란 모수(parameter)가 미지의 $θ$인 확률분포에서 뽑은 표본(관측치) $x$들을 바탕

ratsgo.github.io

[6] https://ratsgo.github.io/deep%20learning/2017/09/24/loss/

 

딥러닝 모델의 손실함수 · ratsgo's blog

이번 글에서는 딥러닝 모델의 손실함수에 대해 살펴보도록 하겠습니다. 이 글은 Ian Goodfellow 등이 집필한 Deep Learning Book과 위키피디아, 그리고 하용호 님의 자료를 참고해 제 나름대로 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 딥러닝 모델의 손실함수로 음의 로그우도(negative log-likelihood)가 쓰입니다. 어떤 이유에서일까요? 딥러닝 모델을 학습시키기 위해 최대우도추정(Maximum Likelihood Es

ratsgo.github.io

 

[6] 정보이론의 접근

두 확률분포 p q 사이의 차이를 계산하는 데에는 크로스 엔트로피(cross entropy)라는 함수가 사용됩니다. 식은 Σp(x)logq(x)입니다. 여기에서 p를 우리가 가진 데이터의 분포 P(Y|X), q를 모델이 예측한 결과의 분포 P(Y|X;θ)로 두겠습니다. 이렇게 되면 크로스 엔트로피는 파라메터 θ 하에서의 음의 로그우도의 기대값이라고 해석할 수 있습니다. 따라서 ΣxP(y|x)logP(y|x;θ)를 최소화하는 θ가 바로 우리가 찾고 싶은 모델이 됩니다.

요컨대 우도의 곱이 최대인 모델을 찾는 것은 로그우도의 기대값이 최대인 모델을 찾는 것과 같으며, 이는 또한 학습데이터의 분포(distribution)와 모델이 예측한 결과의 분포 사이의 차이, 즉 크로스 엔트로피를 최소화하는 것과 동치입니다. 이 때문에 음의 로그우도가 딥러닝 모델의 손실함수가 되는 것입니다. 정보이론과 관련 자세한 내용은 이곳을 참고하시면 좋을 것 같습니다.

 

Negative log-likelihood 장점

손실함수로 음의 로그우도을 쓸 경우 몇 가지 이점이 생긴다고 합니다. 우선 우리가 만드려는 모델에 다양한 확률분포를 가정할 수 있게 돼 유연하게 대응할 수 있게 됩니다. 음의 로그우도로 딥러닝 모델의 손실을 정의하면 이는 곧 두 확률분포 사이의 차이를 재는 함수인 크로스 엔트로피가 되며, 크로스 엔트로피는 비교 대상 확률분포의 종류를 특정하지 않기 때문입니다. 이와 관련 Deep Learning Book 129페이지는 이렇게 서술돼 있습니다.

Any loss consisting of a negative log-likelihood is a cross entropy between the empirical distribution defined by the training set and the probability distribution defined by model.

예컨대 우리가 만들고 싶은 모델을 가우시안 분포로 전제한다면, 크로스 엔트로피 최소화는 우리가 가진 데이터의 분포와 모델의 가우시안 분포 사이의 차이를 최소화한다는 의미입니다. 특히 가우시안 분포를 가정할 때 크로스 엔트로피의 최소화는 평균제곱오차(Mean Squared Error)의 최소화와 본질적으로 동일합니다. 이와 관련해 이곳을 참고하시면 좋을 것 같습니다.

아울러 모델을 베르누이 분포로 가정한다면 우리가 가진 데이터의 분포와 모델의 베르누이 분포 간 차이가 최소화하는 방향으로 학습이 이뤄집니다. 이는 다항분포 또한 마찬가지입니다.

한편 딥러닝 모델의 최종 출력을 어떤 숫자 하나(예컨대 영화 관객 수)로 둘 경우 우리가 구축하려는 모델이 정규분포라고 가정하는 것과 깊은 관련을 맺고 있습니다. 최종 출력이 O, X로 이뤄진 이진변수(binary variable)일 경우 모델을 베르누이 분포로 가정하는 것과 사실상 유사합니다. 다범주 분류를 하는 딥러닝 모델은 다항분포를 가정하는 것과 비슷합니다.

 

 

 

반응형

'Machine Learning > Statistics' 카테고리의 다른 글

Autocorrelation 이란?  (0) 2020.12.11
Feature Transformation  (0) 2020.08.20
Entropy, Cross Entropy, KL-divergence  (0) 2020.03.10
P-value, 가설 검정  (0) 2020.02.10
상관 계수 (Pearson, Spearman)  (0) 2020.02.05