[참조]
[1] https://www.youtube.com/watch?v=sOtkPm_1GYw&t=36s
[1] 최대 우도 추정법은,
1) 모델을 설정한다.
2) 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다.
3) 그 확률을 최대로 높이는 모델 변수를 구한다.
이 방법론이 말이 되는 것은, 당신만 특별하게 목격했을리가 없다. 아마도 흔한 일일 것이고, 그건 '발생 확률이 높은 사건' 이라고 해석하는 것이 합당하다. 그래서 당신이 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾아라.
[2] https://curt-park.github.io/2018-09-19/loss-cross-entropy/
[3] The least-squares estimator (LSE) is a special case of a maximum-likelihood estimator (MLE). The special case is that the probability distribution used for the likelihood is the normal distribution.
The MLE is the parameter value for which the observed data is most likely. This likelihood (of the data) can be calculated for any (assumed) parameter value. If the data are independent, the likelihood is simply the product of the individual probabilities of the observed values. This probability hat to be evaluated, and for this a probability model is required. Depending on the kind of data this could be specified as a binomial distribution, or a Poisson distribution, or an exponential distribution, or... (many many many more).... or a normal distribution.
The MLE is obtained by varying the parameter of the distribution model until the highest likelihood is found. The value of the parameter for this result is called the MLE. One can do this a little more analytically and derive a likelihood function, giving the likelihood depending on the parameter value. Then the derivative can be determined and solved for its root. However, it is often much simpler and numerically more convenient to look at the log of the likelihood function (where the ugly product of probabilities turn into a simple sum). The position of the maximum will not change by such a monotone transformation. It is thus practical to determine the maximum of the log likelihood.
In the special case that the normal distribution is used as probability model, the log likelihood turns out to be proportional to the negative sum of the squared residuals. Hence, the maximum likelihood is where the sum of the squared residuals is minimal. So here we have a nice shortcut and the MLE can be fond as the parameter for which the sum of the squared residuals becomes minimal (=LSE).
One can always use the MLE. When the data is normal distributed, one can also take the shortcut via the LSE, giving the very same result as the MLE (because in this case the LSE *is* the MLE, the calculations are only made simpler).
[4] https://stats.stackexchange.com/questions/143705/maximum-likelihood-method-vs-least-squares-method
[5] https://ratsgo.github.io/statistics/2017/09/23/MLE/
[6] https://ratsgo.github.io/deep%20learning/2017/09/24/loss/
[6] 정보이론의 접근
두 확률분포 p와 q 사이의 차이를 계산하는 데에는 크로스 엔트로피(cross entropy)라는 함수가 사용됩니다. 식은 −Σp(x)logq(x)입니다. 여기에서 p를 우리가 가진 데이터의 분포 P(Y|X), q를 모델이 예측한 결과의 분포 P(Y|X;θ)로 두겠습니다. 이렇게 되면 크로스 엔트로피는 파라메터 θ 하에서의 음의 로그우도의 기대값이라고 해석할 수 있습니다. 따라서 −ΣxP(y|x)logP(y|x;θ)를 최소화하는 θ가 바로 우리가 찾고 싶은 모델이 됩니다.
요컨대 우도의 곱이 최대인 모델을 찾는 것은 로그우도의 기대값이 최대인 모델을 찾는 것과 같으며, 이는 또한 학습데이터의 분포(distribution)와 모델이 예측한 결과의 분포 사이의 차이, 즉 크로스 엔트로피를 최소화하는 것과 동치입니다. 이 때문에 음의 로그우도가 딥러닝 모델의 손실함수가 되는 것입니다. 정보이론과 관련 자세한 내용은 이곳을 참고하시면 좋을 것 같습니다.
Negative log-likelihood 장점
손실함수로 음의 로그우도을 쓸 경우 몇 가지 이점이 생긴다고 합니다. 우선 우리가 만드려는 모델에 다양한 확률분포를 가정할 수 있게 돼 유연하게 대응할 수 있게 됩니다. 음의 로그우도로 딥러닝 모델의 손실을 정의하면 이는 곧 두 확률분포 사이의 차이를 재는 함수인 크로스 엔트로피가 되며, 크로스 엔트로피는 비교 대상 확률분포의 종류를 특정하지 않기 때문입니다. 이와 관련 Deep Learning Book 129페이지는 이렇게 서술돼 있습니다.
Any loss consisting of a negative log-likelihood is a cross entropy between the empirical distribution defined by the training set and the probability distribution defined by model.
예컨대 우리가 만들고 싶은 모델을 가우시안 분포로 전제한다면, 크로스 엔트로피 최소화는 우리가 가진 데이터의 분포와 모델의 가우시안 분포 사이의 차이를 최소화한다는 의미입니다. 특히 가우시안 분포를 가정할 때 크로스 엔트로피의 최소화는 평균제곱오차(Mean Squared Error)의 최소화와 본질적으로 동일합니다. 이와 관련해 이곳을 참고하시면 좋을 것 같습니다.
아울러 모델을 베르누이 분포로 가정한다면 우리가 가진 데이터의 분포와 모델의 베르누이 분포 간 차이가 최소화하는 방향으로 학습이 이뤄집니다. 이는 다항분포 또한 마찬가지입니다.
한편 딥러닝 모델의 최종 출력을 어떤 숫자 하나(예컨대 영화 관객 수)로 둘 경우 우리가 구축하려는 모델이 정규분포라고 가정하는 것과 깊은 관련을 맺고 있습니다. 최종 출력이 O, X로 이뤄진 이진변수(binary variable)일 경우 모델을 베르누이 분포로 가정하는 것과 사실상 유사합니다. 다범주 분류를 하는 딥러닝 모델은 다항분포를 가정하는 것과 비슷합니다.
'Machine Learning > Statistics' 카테고리의 다른 글
Autocorrelation 이란? (0) | 2020.12.11 |
---|---|
Feature Transformation (0) | 2020.08.20 |
Entropy, Cross Entropy, KL-divergence (0) | 2020.03.10 |
P-value, 가설 검정 (0) | 2020.02.10 |
상관 계수 (Pearson, Spearman) (0) | 2020.02.05 |