Machine Learning/Algorithm 37

인공 신경망 (Neural Network)

로지스틱 회귀모델 - Y가 범주형 : 입력변수(X)의 비선형결합(로지스틱 함수 형태)로 출력변수 (Y)를 표현 ① 입력변수의 선형결합 ② 선형결합 값의 비선형 변환 (Nonlinear transformation) 단층 퍼셉트론 - NOT, AND, OR 연산 가능하지만, XOR 연산 불가능 2중 퍼셉트론 - 두개의 퍼셉트론을 결합 (2중 퍼셉트론 : 2-layer perceptron) - 두 개의 입력변수와 한 개의 출력변수 - 다층 퍼셉트론 → 인공신경망 (Artificial Neural Network) - 입력층 - 은닉층 - 출력층 - [범주형] 출력노드의 수 = 출력변수의 범주 개수 - [연속형] 출력노드의 수 = 출력변수의 개수 선형회귀모델, 로지스틱 회귀모델, 뉴럴 네트워크 모델 비용함수 - ..

Logistic regression (로지스틱 회귀모델) - 2 (학습, 해석)

로지스틱 회귀모델 - X 변수를 로지스틱 함수형태(비선형결합)으로 표현 - 관측치가 특정 범주에 속할 확률로 계산 - 확률값이 정한 기준값보다 크면 범주 1 아니면 범주 2 (이진범주 분류 문제의 경우) 다중 로지스틱 회귀모델 - 입력변수 X가 2개 이상 파라미터 추정 - 로지스틱 회귀모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation) - 위 로그우도함수(log likelihood function)가 최대가 되는 파라미터 b 결정 - 로그 우도함수(log likelihood founction)는 파라미터 b에 대해 비선형이므로 선형회귀모델과 같이 명시적인 해가 존재하지 않음 (No closed-form solution exists) - Iterative reweight..

Logistic regression (로지스틱 회귀모델) - 1 (배경, 형태, odds)

로지스틱 회귀모델 필요성 - 범주형 반응변수 - 이진변수 (반응변수 값 : 0 or 1) - 멀티변수 (반응변수 값 : 1 or 2 or 3 이상) - 선형회귀모델과는 다른 방식으로 접근해야할 필요성 로지스틱 회귀모델 이론 배경 로지스틱 회귀분석 알고리즘 - 로지스틱 함수 - Logistic function, Sigmoid function, Squashing function (Large input → Small output) - 아웃풋 범위 : 0~1 - 인풋값에 대해 단조증가 (혹은 단조감수) 함수 - 미분 결과를 아웃풋의 함수로 표현 가능 (Gradient learning method에 유용하게 사용) 로지스틱 회귀모델 - b1의 해석 - 승산 (Odds) - 성공 확률을 p로 정의할 때, 실패 대비..

Linear Regression (선형회귀모델) - 4 (R2, ANOVA)

결정계수 (Coefficient of Determination: $R^{2}$) - $\overline{Y}$ : 그냥 Y값만을 이용하여 설명할 수 있는 정도 (baseline) - SST : $\overline{Y}$로부터의 Y값 변동 - SSR : 갖고 있는 X를 이용하여 얼만큼 설명할 수 있는지 - SSE : X로 설명할 수 없는 부분 - $R^{2}$는 0과 1 사이에 존재 - $R^{2}=1$ : 현재 가지고 있는 X 변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다. - $R^{2}=0$ : 현재 가지고 있는 X 변수는 Y 설명(예측)에 전혀 도움이 되지 않는다. - 사용하고 있는 X 변수가 Y 변수의 분산을 얼마나 줄였는지 정도 → 1이면 100% 다 줄인 것 → 0.2라면..

Linear Regression (선형회귀모델) - 3 (파라미터 구간 추정, 가설 검정)

파라미터 추정 알고리즘 - Least Square Estimation Algorithm (최소제곱법) - Estimator (추정량) : 샘플의 함수 (a function of the samples) cf) Eestimates : estimator(=function)에 input 값이 들어가서 얻어진 값 - 추정량의 용도 : 알려지지 않은 파라미터를 추정 -> $\beta_{0}$, $\beta_{1}$ - 추정량의 종류 : 1) 점 추정 (point estimator) : 하나의 값으로 추정 2) 구간 추정 (interval estimator) : 구간으로 추정 파라미터에 대한 점 추정 (point estimator) (파라미터 총 3개 존재) 최소제곱법 추정량의 성질 파라미터에 대한 구간 추정 기울기..

Partial Least Squares (PLS)

고차원 데이터 - 변수의 수 많음 → 불필요한 변수 존재 - 시각적으로 표현하기 어려움 - 계산 복잡도 증가 → 모델링 비효율적 - 중요한 변수만을 선택 → 차원 축소 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측변수만을 선택 - 장점 : 선택한 변수 해석 용이 - 단점 : 변수간 상관관계 고려 어려움 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출 - 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음 - 단점 : 추출된 변수의 해석이 어려움 Supervised feature selection : Information gain, Stepwise regression, LASSO, Genetic algorithm, many m..

다중공선성 존재할 때 선형 회귀

Partial least squares regression(PLSR)은 chemometric 분야에서 많이 사용되는 회귀분석 방법으로, 다수의 Y(종속변수)를 예측하고자 하는 경우, 변수(variable)의 갯수가 관측치(observation)의 갯수보다 많은 경우, X(독립변수)들 간에 다중공선성(multicollinearity)이 존재하는 경우에 적합한 분석 방법이다. 다중 선형 회귀(Multiple linear regression, MLR)는 X들 간에 다중공선성이 존재하는 경우 정확한 회귀모수의 추정이 어렵기 때문에 적용하기 어렵다. 이 경우 능형회귀(ridge regression), 주성분 회귀(principal component regression, PCR), 그리고 PLSR을 이용하여 분석할..

Whitening transformation

Whitening transformation(혹은 sphering transformation)은 random variable의 벡터(covariance matrix를 알고 있는)를 covariance matric가 identity matrix인 variable들로 변형하는 linear transformation이다. 즉, 모든 변수가 uncorrelated이고 1의 분산을 갖는다. 이러한 transformation은 input vector를 white noise vector로 바꾸기 때문에 'whitening'이라고 불린다. Whitening과 밀접하게 관련되어 있는 다른 transformation : 1. Decorrelation transformation : correlation을 제거하지만, 분산은..

Linear Regression (선형회귀모델) - 2 (파라미터 추정, 최소제곱법)

파라미터 추정 $d_{1}+d_{2}+...+d_{n}=0$인 것은 오차항($\varepsilon$)이 정규분포를 따르기 때문 이러한 과정을 '모델링'이라고 한다. (여러 '가정'에 따라 parameter를 이용하여 데이터를 표현하는 방법을 만들고, 그 parameter를 최적화해가는 과정이라고 생각한다.) 파라미터 추정 알고리즘 Cost function의 형태에 따라서 어려운 문제 혹은 쉬운 문제가 될 수 있다. (오타 존재 : $\hat{\beta_{0}}=\bar{Y}-\hat{\beta_{1}}\bar{X}$) 잔차 오차($\varepsilon$)는 확률 분포를 따르는 것이고, 잔차(e)는 정해진 값이다. 잔차(e)는 확률 오차($\varepsilon$)이 실제로 구현된 값이다. [참조] 김성범 ..