Dive into Data Science

Maximum Likelihood Estimation (MLE), Least Square Estimation (LSE)

[참조] [1] https://www.youtube.com/watch?v=sOtkPm_1GYw&t=36s [1] 최대 우도 추정법은, 1) 모델을 설정한다. 2) 그 모델에서 본인이 목격한 사건들의 발생확률 식을 설정한다. 3) 그 확률을 최대로 높이는 모델 변수를 구한다. 이 방법론이 말이 되는 것은, 당신만 특별하게 목격했을리가 없다. 아마도 흔한 일일 것이고, 그건 '발생 확률이 높은 사건' 이라고 해석하는 것이 합당하다. 그래서 당신이 목격한 사건의 발생확률을 최대로 높이는 모델 변수를 찾아라. [2] https://curt-park.github.io/2018-09-19/loss-cross-entropy/ [손실함수] Binary Cross Entropy 확률, 정보이론 관점에서 살펴보는 Bina..

Machine Learning/Statistics 2020.03.10

Entropy, Cross Entropy, KL-divergence

Entropy 엔트로피란 확률적으로 발생하는 사건에 대한 정보량의 평균을 의미한다. 정보량은 다음과 같이 정의되며 놀람의 정도를 나타낸다고 볼 수 있다. 정보량 : ‘놀람의 정도’란 어떤 의미일까? 예를 들어, 가까운 지인이 길을 걷다가 벼락에 맞았다고 해보자. 벼락에 맞을 확률은 약 1/28만으로 굉장히 낮은 확률이며, 이 사건이 주변에서 실제로 일어났다면 놀라지 않을 수 없을 것이다. 반면, 동전을 던져서 앞면이 나왔다고 가정해보자. 동전의 앞면이 나올 확률은 대략 1/2이고 빈번히 발생할 수 있는 사건이므로 그다지 대수롭지 않게 여겨질 것이다. 즉, 사건의 발생 확률이 낮을수록 놀람의 정도는 높아지고, 이러한 사건은 높은 정보량을 갖고있는 것으로 여겨진다. 그렇다면 단순히 확률의 역수(1/p(x))..

Machine Learning/Statistics 2020.03.10

Logistic regression (로지스틱 회귀모델) - 1 (배경, 형태, odds)

로지스틱 회귀모델 필요성 - 범주형 반응변수 - 이진변수 (반응변수 값 : 0 or 1) - 멀티변수 (반응변수 값 : 1 or 2 or 3 이상) - 선형회귀모델과는 다른 방식으로 접근해야할 필요성 로지스틱 회귀모델 이론 배경 로지스틱 회귀분석 알고리즘 - 로지스틱 함수 - Logistic function, Sigmoid function, Squashing function (Large input → Small output) - 아웃풋 범위 : 0~1 - 인풋값에 대해 단조증가 (혹은 단조감수) 함수 - 미분 결과를 아웃풋의 함수로 표현 가능 (Gradient learning method에 유용하게 사용) 로지스틱 회귀모델 - b1의 해석 - 승산 (Odds) - 성공 확률을 p로 정의할 때, 실패 대비..

Machine Learning/Algorithm 2020.03.05

Linear Regression (선형회귀모델) - 4 (R2, ANOVA)

결정계수 (Coefficient of Determination: $R^{2}$) - $\overline{Y}$ : 그냥 Y값만을 이용하여 설명할 수 있는 정도 (baseline) - SST : $\overline{Y}$로부터의 Y값 변동 - SSR : 갖고 있는 X를 이용하여 얼만큼 설명할 수 있는지 - SSE : X로 설명할 수 없는 부분 - $R^{2}$는 0과 1 사이에 존재 - $R^{2}=1$ : 현재 가지고 있는 X 변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선 위에 있다. - $R^{2}=0$ : 현재 가지고 있는 X 변수는 Y 설명(예측)에 전혀 도움이 되지 않는다. - 사용하고 있는 X 변수가 Y 변수의 분산을 얼마나 줄였는지 정도 → 1이면 100% 다 줄인 것 → 0.2라면..

Machine Learning/Algorithm 2020.02.12

P-value, 가설 검정

P-value - 귀무가설에서 주장한 바가 옳을 확률 → 확률값, 0과 1 사이로 표준화된 지표 → Plausibility of correcting $H_0$ - 귀무가설이 참이라는 가정 아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률 - 귀무가설을 채택할지 기각할지 기준으로 사용할 수 잇는 값 - 작은 P-value → 귀무가설이 참일 확률이 적어짐 - P-value 0.1 : 귀무가설이 참일 확률이 매우 큼 cf) 0.05 와 0.1 사이 (ex. 0.07) : Undetermined 구간 → P-value로는 정확히 말하기 어려운 구간. 주관적으로 판단이 필요. 검정통계량 - 귀무가설이 참이라는 가정 ..

Machine Learning/Statistics 2020.02.10

Linear Regression (선형회귀모델) - 3 (파라미터 구간 추정, 가설 검정)

파라미터 추정 알고리즘 - Least Square Estimation Algorithm (최소제곱법) - Estimator (추정량) : 샘플의 함수 (a function of the samples) cf) Eestimates : estimator(=function)에 input 값이 들어가서 얻어진 값 - 추정량의 용도 : 알려지지 않은 파라미터를 추정 -> $\beta_{0}$, $\beta_{1}$ - 추정량의 종류 : 1) 점 추정 (point estimator) : 하나의 값으로 추정 2) 구간 추정 (interval estimator) : 구간으로 추정 파라미터에 대한 점 추정 (point estimator) (파라미터 총 3개 존재) 최소제곱법 추정량의 성질 파라미터에 대한 구간 추정 기울기..

Machine Learning/Algorithm 2020.02.10

PCA reconstruction for anomaly detection

https://stats.stackexchange.com/questions/259806/anomaly-detection-using-pca-reconstruction-error Anomaly detection using PCA reconstruction error I would like to use PCA as a method of anomaly detection, however I'm wondering how this is done exactly (I'm using prcomp in R). I'm really questioning the approach not the R code itself. Am I ri... stats.stackexchange.com https://stats.stackexchange..

Machine Learning/Algorithm 2020.02.06

상관 계수 (Pearson, Spearman)

상관계수는 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수 등이 있음 모두 -1 ~ 1 사이의 값을 가진다. 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계 1. Pearson correlation coefficient 두 변수가 모두 연속형 자료일 때, 두 변수간 선형적인 상관관계의 크기를 모수적(parametric)인 방법으로 나타내는 값. 두 변수가 정규성을 따른다는 가정이 필요함 -> parametric 2. Spearman correlation coefficient 두 연속형 변수의 분포가 심각하게 정규 분포를 벗어나거나 또는 두 변수가 순위 척도(ordinal scale)일 때 사용하는 값. 분포 가정 없음 -> non-parametric 순위가 매겨진 변수 간의 피어슨 상..

Machine Learning/Statistics 2020.02.05

Partial Least Squares (PLS)

고차원 데이터 - 변수의 수 많음 → 불필요한 변수 존재 - 시각적으로 표현하기 어려움 - 계산 복잡도 증가 → 모델링 비효율적 - 중요한 변수만을 선택 → 차원 축소 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측변수만을 선택 - 장점 : 선택한 변수 해석 용이 - 단점 : 변수간 상관관계 고려 어려움 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출 - 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음 - 단점 : 추출된 변수의 해석이 어려움 Supervised feature selection : Information gain, Stepwise regression, LASSO, Genetic algorithm, many m..

Machine Learning/Algorithm 2020.01.15

Github 활용

https://homeproject.tistory.com/9 깃허브 사용법(github 입문) 개발을 하다보면 깃허브는 결국 필수적으로 다룰 줄 알아야만 하는 필수 관문이 되어버립니다. 물론 저는 개발을 하지는 않지만, 데이터 분석이든 딥러닝이든 코드를 다루는 영역이라면 결국 '깃허브'라는 관문에.. homeproject.tistory.com https://tagilog.tistory.com/377 [GITHUB 사용법] 왕초보를 위한 깃허브사용법 (Git사용법) 코딩할 때 뺄래야 뺄 수 없는 서비스 중 하나가 GitHub (깃허브) 입니다. 현역 프로그래머에게는 너무나 친숙한 서비스지만, 코딩 초보자에게는 생소할 수도 있습니다. 그래서 이번에는 코딩 초보자도 바로 GitHub.. tagilog.tist..

Machine Learning/R 2020.01.10

Dive into Data Science

전체 글 76

티스토리툴바