Machine Learning/Algorithm 37

Linear Regression (선형회귀모델) - 1 (개요, 가정)

변수 사이의 관계 X변수(원인)과 Y변수(결과) 사이의 관계 1. 확정적 관계 2. 확률적 관계 확정적 관계 : X변수만으로 Y를 100% 표현 (오차항 없음) $$Y=f(X)$$ 예) 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간) 확률적 관계 : X변수와 오차항이 Y를 표현 (오차항 있음) $$Y=f(X)+\varepsilon$$ 예) 반도체 수율 = f(설비 파라미터들의 상태, 온도, 습도) + $\varepsilon$ 포도주 가격 = f(강우량, 온도, 포도품종) + $\varepsilon$ 위조카드 여부 = f(사용시간, 사용액, 사용장소) + $\varepsilon$ 대부분의 머신러닝, 데이터 분석이 설명하는 관계는 '확률적 관계'인 경우가 많다. 선형회귀모델 선형회귀모델 : 출력변..

Local Outlier Factors (LOF)

Local Outlier Factors (LOF) : 거리 기반의 outlier 탐지 기법. 거리 기반이지만, (내 관심대상 A의 k개 neighbor과의 평균거리)와 (그 neighbor들의 k개 neighbor 평균거리)를 비교하여, 주변과 비교했을 때 밀집해있는지 '밀도'를 측정한다. 위 그림에서 O1은 이상치라는걸 바로 알 수 있지만 O2는 이상치라고 말할 수 있을까요? 얼핏 보기엔 아닌 것 같지만 근처에 빡빡하게 밀집해 있는 데이터가 있으므로 이상치라고 볼 수도 있을 것입니다. LOF(Local outlier factors)관점에서는 O2도 이상치입니다. 밀집 지역에서 밀도 관점으로 봤을 때 급격한 감소가 이루어지기 때문입니다. 즉, LOF는 데이터가 가지는 상대적인 밀도까지 고려한 이상치 탐지..

Random Forest (랜덤 포레스트)

개별 트리 모델의 단점 - 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파 - 학습 데이터의 미세한 변동에도 최종 결과 크게 영향 - 적은 개수의 노이즈에도 크게 영향 - 나무의 최종노드 개수를 늘리면 과적합 위험 (Low bias, Large Variance) - 해결 방안으로, Random Forest가 있음 앙상블 (랜덤 포레스트의 배경) - 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법 - 다음 조건을 만족할 때 앙상블 모델은 Base 모델보다 우수한 성능을 보여줌 Base 모델들이 서로 독립적 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우 ex) 5개의 binary classifier를 base..

Outlier Detection (standard deviation v.s. interquartile range)

데이터의 분포가 정규분포를 띌 때는, 표준편차를 이용한 outlier detection가 적합 데이터의 분포가 꼬리를 가지고 있거나 정규분포가 아닐 때는, Q1-1.5*IQR와 Q3+1.5*IQR 를 이용한 outlier detection이 적합 https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623 5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code) Detecting Anomalies is critical to any business eith..

DBSCAN

DBSCAN Density based clustering technique이다. 비공식적 가정 : 클러스터는 높은 밀도 지역에 존재하고, 다른 낮은 밀도 지역과는 분리되어 있다. DBSCAN의 목적 - 임의의 모양의 cluster를 찾을 수 있다 - outlier/noise에 강하다 DBSCAN algorithm 2개의 parameter 존재 - 이웃의 크기 : ε - 이웃 내에 있는 최소의 포인트 개수 : MinPts 각 포인트의 이웃은 ε보다 더 작은 거리에 있는 모든 다른 점들로 구성된다 DBSCAN은 포인트를 3개 포인트의 그룹으로 분류함으로써 작동한다 - Core point : 만약에 이웃이 적어도 MinPts개의 포인트를 포함한다면 - Border point : core point는 아니지만,..

PCA (Principal Component Analysis)

변수 선택/추출을 통한 차원 축소 ˙ 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측 변수만을 선택 - 장점 : 선택한 변수 해석 용이 - 단점 : 변수간 상관관계 고려 어려움 ˙ 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출 - 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음 - 단점 : 추출된 변수의 해석이 어려움 Feature selection Feature Extraction Supervised Information gain, Stepwise regression, LASSO, Genetic algorithm, many more... Partial Least Squares(PLS) Unsupervised PCA lo..