Machine Learning 53

Logistic regression (로지스틱 회귀모델) - 1 (배경, 형태, odds)

로지스틱 회귀모델 필요성 - 범주형 반응변수 - 이진변수 (반응변수 값 : 0 or 1) - 멀티변수 (반응변수 값 : 1 or 2 or 3 이상) - 선형회귀모델과는 다른 방식으로 접근해야할 필요성 로지스틱 회귀모델 이론 배경 로지스틱 회귀분석 알고리즘 - 로지스틱 함수 - Logistic function, Sigmoid function, Squashing function (Large input → Small output) - 아웃풋 범위 : 0~1 - 인풋값에 대해 단조증가 (혹은 단조감수) 함수 - 미분 결과를 아웃풋의 함수로 표현 가능 (Gradient learning method에 유용하게 사용) 로지스틱 회귀모델 - b1의 해석 - 승산 (Odds) - 성공 확률을 p로 정의할 때, 실패 대비..

Linear Regression (선형회귀모델) - 4 (R2, ANOVA)

결정계수 (Coefficient of Determination: $R^{2}$) - $\overline{Y}$ : 그냥 Y값만을 이용하여 설명할 수 있는 정도 (baseline) - SST : $\overline{Y}$로부터의 Y값 변동 - SSR : 갖고 있는 X를 이용하여 얼만큼 설명할 수 있는지 - SSE : X로 설명할 수 없는 부분 - $R^{2}$는 0과 1 사이에 존재 - $R^{2}=1$ : 현재 가지고 있는 X 변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다. - $R^{2}=0$ : 현재 가지고 있는 X 변수는 Y 설명(예측)에 전혀 도움이 되지 않는다. - 사용하고 있는 X 변수가 Y 변수의 분산을 얼마나 줄였는지 정도 → 1이면 100% 다 줄인 것 → 0.2라면..

P-value, 가설 검정

P-value - 귀무가설에서 주장한 바가 옳을 확률 → 확률값, 0과 1 사이로 표준화된 지표 → Plausibility of correcting $H_0$ - 귀무가설이 참이라는 가정 아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률 - 귀무가설을 채택할지 기각할지 기준으로 사용할 수 잇는 값 - 작은 P-value → 귀무가설이 참일 확률이 적어짐 - P-value 0.1 : 귀무가설이 참일 확률이 매우 큼 cf) 0.05 와 0.1 사이 (ex. 0.07) : Undetermined 구간 → P-value로는 정확히 말하기 어려운 구간. 주관적으로 판단이 필요. 검정통계량 - 귀무가설이 참이라는 가정 ..

Linear Regression (선형회귀모델) - 3 (파라미터 구간 추정, 가설 검정)

파라미터 추정 알고리즘 - Least Square Estimation Algorithm (최소제곱법) - Estimator (추정량) : 샘플의 함수 (a function of the samples) cf) Eestimates : estimator(=function)에 input 값이 들어가서 얻어진 값 - 추정량의 용도 : 알려지지 않은 파라미터를 추정 -> $\beta_{0}$, $\beta_{1}$ - 추정량의 종류 : 1) 점 추정 (point estimator) : 하나의 값으로 추정 2) 구간 추정 (interval estimator) : 구간으로 추정 파라미터에 대한 점 추정 (point estimator) (파라미터 총 3개 존재) 최소제곱법 추정량의 성질 파라미터에 대한 구간 추정 기울기..

상관 계수 (Pearson, Spearman)

상관계수는 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수 등이 있음 모두 -1 ~ 1 사이의 값을 가진다. 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계 1. Pearson correlation coefficient 두 변수가 모두 연속형 자료일 때, 두 변수간 선형적인 상관관계의 크기를 모수적(parametric)인 방법으로 나타내는 값. 두 변수가 정규성을 따른다는 가정이 필요함 -> parametric 2. Spearman correlation coefficient 두 연속형 변수의 분포가 심각하게 정규 분포를 벗어나거나 또는 두 변수가 순위 척도(ordinal scale)일 때 사용하는 값. 분포 가정 없음 -> non-parametric 순위가 매겨진 변수 간의 피어슨 상..

Partial Least Squares (PLS)

고차원 데이터 - 변수의 수 많음 → 불필요한 변수 존재 - 시각적으로 표현하기 어려움 - 계산 복잡도 증가 → 모델링 비효율적 - 중요한 변수만을 선택 → 차원 축소 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측변수만을 선택 - 장점 : 선택한 변수 해석 용이 - 단점 : 변수간 상관관계 고려 어려움 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출 - 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음 - 단점 : 추출된 변수의 해석이 어려움 Supervised feature selection : Information gain, Stepwise regression, LASSO, Genetic algorithm, many m..

Github 활용

https://homeproject.tistory.com/9 깃허브 사용법(github 입문) 개발을 하다보면 깃허브는 결국 필수적으로 다룰 줄 알아야만 하는 필수 관문이 되어버립니다. 물론 저는 개발을 하지는 않지만, 데이터 분석이든 딥러닝이든 코드를 다루는 영역이라면 결국 '깃허브'라는 관문에.. homeproject.tistory.com https://tagilog.tistory.com/377 [GITHUB 사용법] 왕초보를 위한 깃허브사용법 (Git사용법) 코딩할 때 뺄래야 뺄 수 없는 서비스 중 하나가 GitHub (깃허브) 입니다. 현역 프로그래머에게는 너무나 친숙한 서비스지만, 코딩 초보자에게는 생소할 수도 있습니다. 그래서 이번에는 코딩 초보자도 바로 GitHub.. tagilog.tist..

Machine Learning/R 2020.01.10

Markdown in r

https://blog.zarathu.com/posts/2019-01-03-rmarkdown/ Zarathu Blog: R Markdown 기초 YAML Header, 마크다운(Markdown) 텍스트, R 코드 청크(chunk) 그리고 그림과 테이블을 중심으로, R 코드와 분석 결과가 포함된 문서를 작성하는 방법을 정리하였습니다. blog.zarathu.com https://gomguard.tistory.com/211 [R] 마크다운 (Markdown) 사용법 마크다운? 마크다운(markdown)은 일반 텍스트 문서의 양식을 편집하는 문법입니다. README 파일이나 온라인 문서, 혹은 일반 텍스트 편집기로 문서 양식을 편집할 때 쓰입니다. 또한 R 에서는 마크다운에 R 언어.. gomguard.tis..

Machine Learning/R 2020.01.07

다중공선성 존재할 때 선형 회귀

Partial least squares regression(PLSR)은 chemometric 분야에서 많이 사용되는 회귀분석 방법으로, 다수의 Y(종속변수)를 예측하고자 하는 경우, 변수(variable)의 갯수가 관측치(observation)의 갯수보다 많은 경우, X(독립변수)들 간에 다중공선성(multicollinearity)이 존재하는 경우에 적합한 분석 방법이다. 다중 선형 회귀(Multiple linear regression, MLR)는 X들 간에 다중공선성이 존재하는 경우 정확한 회귀모수의 추정이 어렵기 때문에 적용하기 어렵다. 이 경우 능형회귀(ridge regression), 주성분 회귀(principal component regression, PCR), 그리고 PLSR을 이용하여 분석할..