- 로지스틱 회귀모델
- X 변수를 로지스틱 함수형태(비선형결합)으로 표현
- 관측치가 특정 범주에 속할 확률로 계산
- 확률값이 정한 기준값보다 크면 범주 1 아니면 범주 2 (이진범주 분류 문제의 경우)
- 다중 로지스틱 회귀모델
- 입력변수 X가 2개 이상
- 파라미터 추정
- 로지스틱 회귀모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation)
- 위 로그우도함수(log likelihood function)가 최대가 되는 파라미터 b 결정
- 로그 우도함수(log likelihood founction)는 파라미터 b에 대해 비선형이므로 선형회귀모델과 같이 명시적인 해가 존재하지 않음 (No closed-form solution exists)
- Iterative reweight least square, Conjugate gradient, Newton's method 등의 수치 최적화 알고리즘을 이용하여 해를 구함
- Cross entropy : 두 확률분포 p(x), q(x)의 차이
- Cross entropy : 음의 log likelihood function의 기대값
- Log likelihood function을 최대 = 입력 분포 p(x)와 파라미터가 주어졌을 때, 출력 분포 q(x)의 확률을 최대
- Cross entropy를 최소 = 입력 분포 p(x)와 출력 분포 q(x)의 차이를 최소
- Log likelihood functino을 최대 = cross entropy를 최소
→ 로지스틱 회귀모델을 학습할 때도, 위의 log likelihood를 최대화 하는거나 cross entropy를 최소화 하는거나 결과는 같다. 둘다 수치 최적화 알고리즘을 사용하긴 해야함.
- 결과 및 해석
- 파라미터가 추정되고 난 이후 최종 모델
- 이진 분류를 위한 기준값(threshold)설정
- 일반적으로 0.5 사용
- 왠만하면 불량으로 예측해야 안정할 때, 왠만하면 아프다고 예측해야 안전할 때 등의 경우는 기준 값 작게 설정
- 선형 회귀모델 vs 로지스틱 회귀모델
- 선형 회귀모델
- 입력변수가 1단위 증가할 때 출력변수의 변화량
- 로지스틱 회귀모델
- 입력변수가 1단위 증가할 때 로그아드의 변화량
- 승산 비율: Odds Ratio
- 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 Odds의 비율
- X1이 1단위 증가하면 성공에 대한 승산 비율이 exp(b1)만큼 변화함
- 회귀 계수가 양수 → 성공확률(=odds) 증가 (성공확률 ≥ 1)
- 회귀 계수가 음수 → 성공확률(=odds) 감소 (0 ≤ 성공확률 < 1)
- 로지스틱 회귀모델 - 예제
- 로지스틱 회귀분석 결과 및 해석 (대출 여부를 예측하는 데이터)
- Coefficient (로지스틱 회귀계수, 추정된 파라미터 값)
- 해당 변수가 1 단위 증가할 때 로그아드의 변화량
- 양수이면 성공확률(odds)과 양의 상관관계, 음수이면 성공확률(odds)과 음의 상관관계
- Std. Error (추정 파라미터의 표준편차)
- 추정 파라미터의 신뢰구간 (구간추정)을 구축할 때 사용
- P-value
- 해당 변수가 통계적으로 유의미한지 여부를 알려주는 지표
- 해당 파라미터 값이 0인지 여부(b_x=0 의 가설 검정)를 통계적으로 판단
→ 0에 가까우면 해당 b_x는 0이 아닐 것이라고 판단. 해당 변수 유의미하다.
- Odds (Odds ratio)
- 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 odds(성공확률)의 비율
- Coefficient가 양수이면 1보다 크고, 음수이면 1보다 작음
- Experience = 1.058 → 경험이 1년 더 많으면 대출 확률(odds)이 1.058배 증가
- Creditcard = 0.3813 → 신용카드를 많이 썼으면 대출 확률(odds)가 0.3813배 감소
- 로지스틱 회귀모델 - 예제2
- 나이, 사회적 지위, 거주지역과 질병유무와의 관계
- 사회적 지위는 원래 3개의 범주 (상, 중, 하)를 갖는 변수
→ 2개의 이진변수 (X_2, X_3) 로 표현 (상→(0,0), 중→(1,0), 하→(0,1))
- 거주지역은 2개 범주 (지역1→0, 지역2→1)
- b1의 odds ratio = 1.030 → 나이가 1살 증가하면 질병 걸릴 호가률 1.03배 증가
- b2의 odds ratio = 4.829 → 거주지역이 2이면 질병 걸릴 확률 4.829배 증가
[참조] 김성범 교수님의 https://www.youtube.com/watch?v=Vh_7QttroGM&t=470s 를 요약한 것입니다.
'Machine Learning > Algorithm' 카테고리의 다른 글
K-nearest neighbors , distance measures (0) | 2020.03.16 |
---|---|
인공 신경망 (Neural Network) (0) | 2020.03.12 |
Logistic regression (로지스틱 회귀모델) - 1 (배경, 형태, odds) (0) | 2020.03.05 |
Linear Regression (선형회귀모델) - 4 (R2, ANOVA) (0) | 2020.02.12 |
Linear Regression (선형회귀모델) - 3 (파라미터 구간 추정, 가설 검정) (0) | 2020.02.10 |