Machine Learning 53

K-nearest neighbors , distance measures

분류 및 예측을 위한 모델 - Model-based Learning - 선형/비선형 모델(e.g., linear regression, logistic reegression) - Neural network - 의사 결정 나무 - Support vector machine → 데이터로부터 모델을 생성하여 분류/예측 진행 - Instance-based Learning - K-nearest neighbor - Locally weighted regression → 별도의 모델 생성 없이 인접 데이터를 분류/예측에 사용 KNN 알고리즘의 구분 및 특징 - Instance-based Learning - 각각의 관측치 (instance)만을 이용하여 새로운 데이터에 대한 예측을 진행 - Memory-based Learn..

인공 신경망 (Neural Network)

로지스틱 회귀모델 - Y가 범주형 : 입력변수(X)의 비선형결합(로지스틱 함수 형태)로 출력변수 (Y)를 표현 ① 입력변수의 선형결합 ② 선형결합 값의 비선형 변환 (Nonlinear transformation) 단층 퍼셉트론 - NOT, AND, OR 연산 가능하지만, XOR 연산 불가능 2중 퍼셉트론 - 두개의 퍼셉트론을 결합 (2중 퍼셉트론 : 2-layer perceptron) - 두 개의 입력변수와 한 개의 출력변수 - 다층 퍼셉트론 → 인공신경망 (Artificial Neural Network) - 입력층 - 은닉층 - 출력층 - [범주형] 출력노드의 수 = 출력변수의 범주 개수 - [연속형] 출력노드의 수 = 출력변수의 개수 선형회귀모델, 로지스틱 회귀모델, 뉴럴 네트워크 모델 비용함수 - ..

Logistic regression (로지스틱 회귀모델) - 2 (학습, 해석)

로지스틱 회귀모델 - X 변수를 로지스틱 함수형태(비선형결합)으로 표현 - 관측치가 특정 범주에 속할 확률로 계산 - 확률값이 정한 기준값보다 크면 범주 1 아니면 범주 2 (이진범주 분류 문제의 경우) 다중 로지스틱 회귀모델 - 입력변수 X가 2개 이상 파라미터 추정 - 로지스틱 회귀모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation) - 위 로그우도함수(log likelihood function)가 최대가 되는 파라미터 b 결정 - 로그 우도함수(log likelihood founction)는 파라미터 b에 대해 비선형이므로 선형회귀모델과 같이 명시적인 해가 존재하지 않음 (No closed-form solution exists) - Iterative reweight..

Maximum Likelihood Estimation (MLE), Least Square Estimation (LSE)

[참조] [1] https://www.youtube.com/watch?v=sOtkPm_1GYw&t=36s [1] 최대 우도 추정법은, 1) 모델을 설정한다. 2) 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다. 3) 그 확률을 최대로 높이는 모델 변수를 구한다. 이 방법론이 말이 되는 것은, 당신만 특별하게 목격했을리가 없다. 아마도 흔한 일일 것이고, 그건 '발생 확률이 높은 사건' 이라고 해석하는 것이 합당하다. 그래서 당신이 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾아라. [2] https://curt-park.github.io/2018-09-19/loss-cross-entropy/ [손실함수] Binary Cross Entropy 확률, 정보이론 관점에서 살펴보는 Bina..

Entropy, Cross Entropy, KL-divergence

Entropy 엔트로피란 확률적으로 발생하는 사건에 대한 정보량의 평균을 의미한다. 정보량은 다음과 같이 정의되며 놀람의 정도를 나타낸다고 볼 수 있다. 정보량 : ‘놀람의 정도’란 어떤 의미일까? 예를 들어, 가까운 지인이 길을 걷다가 벼락에 맞았다고 해보자. 벼락에 맞을 확률은 약 1/28만으로 굉장히 낮은 확률이며, 이 사건이 주변에서 실제로 일어났다면 놀라지 않을 수 없을 것이다. 반면, 동전을 던져서 앞면이 나왔다고 가정해보자. 동전의 앞면이 나올 확률은 대략 1/2이고 빈번히 발생할 수 있는 사건이므로 그다지 대수롭지 않게 여겨질 것이다. 즉, 사건의 발생 확률이 낮을수록 놀람의 정도는 높아지고, 이러한 사건은 높은 정보량을 갖고있는 것으로 여겨진다. 그렇다면 단순히 확률의 역수(1/p(x))..