Logistic regression (로지스틱 회귀모델)

Machine Learning/Algorithm

Logistic regression (로지스틱 회귀모델) - 2 (학습, 해석)

고슴군 2020. 3. 11. 17:54

로지스틱 회귀모델

- X 변수를 로지스틱 함수형태(비선형결합)으로 표현

- 관측치가 특정 범주에 속할 확률로 계산

- 확률값이 정한 기준값보다 크면 범주 1 아니면 범주 2 (이진범주 분류 문제의 경우)

다중 로지스틱 회귀모델

- 입력변수 X가 2개 이상

파라미터 추정

- 로지스틱 회귀모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation)

- 위 로그우도함수(log likelihood function)가 최대가 되는 파라미터 b 결정

- 로그 우도함수(log likelihood founction)는 파라미터 b에 대해 비선형이므로 선형회귀모델과 같이 명시적인 해가 존재하지 않음 (No closed-form solution exists)

- Iterative reweight least square, Conjugate gradient, Newton's method 등의 수치 최적화 알고리즘을 이용하여 해를 구함

- Cross entropy : 두 확률분포 p(x), q(x)의 차이

- Cross entropy : 음의 log likelihood function의 기대값

- Log likelihood function을 최대 = 입력 분포 p(x)와 파라미터가 주어졌을 때, 출력 분포 q(x)의 확률을 최대

- Cross entropy를 최소 = 입력 분포 p(x)와 출력 분포 q(x)의 차이를 최소

- Log likelihood functino을 최대 = cross entropy를 최소

→ 로지스틱 회귀모델을 학습할 때도, 위의 log likelihood를 최대화 하는거나 cross entropy를 최소화 하는거나 결과는 같다. 둘다 수치 최적화 알고리즘을 사용하긴 해야함.

결과 및 해석

- 파라미터가 추정되고 난 이후 최종 모델

- 이진 분류를 위한 기준값(threshold)설정

- 일반적으로 0.5 사용

- 왠만하면 불량으로 예측해야 안정할 때, 왠만하면 아프다고 예측해야 안전할 때 등의 경우는 기준 값 작게 설정

- 선형 회귀모델 vs 로지스틱 회귀모델

- 선형 회귀모델

- 입력변수가 1단위 증가할 때 출력변수의 변화량

- 로지스틱 회귀모델

- 입력변수가 1단위 증가할 때 로그아드의 변화량

- 승산 비율: Odds Ratio

- 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 Odds의 비율

- X1이 1단위 증가하면 성공에 대한 승산 비율이 exp(b1)만큼 변화함

- 회귀 계수가 양수 → 성공확률(=odds) 증가 (성공확률 ≥ 1)

- 회귀 계수가 음수 → 성공확률(=odds) 감소 (0 ≤ 성공확률 < 1)

로지스틱 회귀모델 - 예제

- 로지스틱 회귀분석 결과 및 해석 (대출 여부를 예측하는 데이터)

- Coefficient (로지스틱 회귀계수, 추정된 파라미터 값)

- 해당 변수가 1 단위 증가할 때 로그아드의 변화량

- 양수이면 성공확률(odds)과 양의 상관관계, 음수이면 성공확률(odds)과 음의 상관관계

- Std. Error (추정 파라미터의 표준편차)

- 추정 파라미터의 신뢰구간 (구간추정)을 구축할 때 사용

- P-value

- 해당 변수가 통계적으로 유의미한지 여부를 알려주는 지표

- 해당 파라미터 값이 0인지 여부(b_x=0 의 가설 검정)를 통계적으로 판단

→ 0에 가까우면 해당 b_x는 0이 아닐 것이라고 판단. 해당 변수 유의미하다.

- Odds (Odds ratio)

- 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 odds(성공확률)의 비율

- Coefficient가 양수이면 1보다 크고, 음수이면 1보다 작음

- Experience = 1.058 → 경험이 1년 더 많으면 대출 확률(odds)이 1.058배 증가

- Creditcard = 0.3813 → 신용카드를 많이 썼으면 대출 확률(odds)가 0.3813배 감소

로지스틱 회귀모델 - 예제2

- 나이, 사회적 지위, 거주지역과 질병유무와의 관계

- 사회적 지위는 원래 3개의 범주 (상, 중, 하)를 갖는 변수

→ 2개의 이진변수 (X_2, X_3) 로 표현 (상→(0,0), 중→(1,0), 하→(0,1))

- 거주지역은 2개 범주 (지역1→0, 지역2→1)

- b1의 odds ratio = 1.030 → 나이가 1살 증가하면 질병 걸릴 호가률 1.03배 증가

- b2의 odds ratio = 4.829 → 거주지역이 2이면 질병 걸릴 확률 4.829배 증가

[참조] 김성범 교수님의 https://www.youtube.com/watch?v=Vh_7QttroGM&t=470s 를 요약한 것입니다.

저작자표시 (새창열림)

'Machine Learning > Algorithm' 카테고리의 다른 글

K-nearest neighbors , distance measures (0)	2020.03.16
인공 신경망 (Neural Network) (0)	2020.03.12
Logistic regression (로지스틱 회귀모델) - 1 (배경, 형태, odds) (0)	2020.03.05
Linear Regression (선형회귀모델) - 4 (R2, ANOVA) (0)	2020.02.12
Linear Regression (선형회귀모델) - 3 (파라미터 구간 추정, 가설 검정) (0)	2020.02.10

현재글Logistic regression (로지스틱 회귀모델) - 2 (학습, 해석)

Dive into Data Science