Machine Learning 53

Whitening transformation

Whitening transformation(혹은 sphering transformation)은 random variable의 벡터(covariance matrix를 알고 있는)를 covariance matric가 identity matrix인 variable들로 변형하는 linear transformation이다. 즉, 모든 변수가 uncorrelated이고 1의 분산을 갖는다. 이러한 transformation은 input vector를 white noise vector로 바꾸기 때문에 'whitening'이라고 불린다. Whitening과 밀접하게 관련되어 있는 다른 transformation : 1. Decorrelation transformation : correlation을 제거하지만, 분산은..

Linear Regression (선형회귀모델) - 2 (파라미터 추정, 최소제곱법)

파라미터 추정 $d_{1}+d_{2}+...+d_{n}=0$인 것은 오차항($\varepsilon$)이 정규분포를 따르기 때문 이러한 과정을 '모델링'이라고 한다. (여러 '가정'에 따라 parameter를 이용하여 데이터를 표현하는 방법을 만들고, 그 parameter를 최적화해가는 과정이라고 생각한다.) 파라미터 추정 알고리즘 Cost function의 형태에 따라서 어려운 문제 혹은 쉬운 문제가 될 수 있다. (오타 존재 : $\hat{\beta_{0}}=\bar{Y}-\hat{\beta_{1}}\bar{X}$) 잔차 오차($\varepsilon$)는 확률 분포를 따르는 것이고, 잔차(e)는 정해진 값이다. 잔차(e)는 확률 오차($\varepsilon$)이 실제로 구현된 값이다. [참조] 김성범 ..

Linear Regression (선형회귀모델) - 1 (개요, 가정)

변수 사이의 관계 X변수(원인)과 Y변수(결과) 사이의 관계 1. 확정적 관계 2. 확률적 관계 확정적 관계 : X변수만으로 Y를 100% 표현 (오차항 없음) $$Y=f(X)$$ 예) 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간) 확률적 관계 : X변수와 오차항이 Y를 표현 (오차항 있음) $$Y=f(X)+\varepsilon$$ 예) 반도체 수율 = f(설비 파라미터들의 상태, 온도, 습도) + $\varepsilon$ 포도주 가격 = f(강우량, 온도, 포도품종) + $\varepsilon$ 위조카드 여부 = f(사용시간, 사용액, 사용장소) + $\varepsilon$ 대부분의 머신러닝, 데이터 분석이 설명하는 관계는 '확률적 관계'인 경우가 많다. 선형회귀모델 선형회귀모델 : 출력변..

Diagnosing Network-Wide Traffic Anomalies

PCA(Principal Component Analysis)를 이용해 anomaly를 찾는 general method 제시 고차원의 traffic measurement(여러 개의 link로 구성)를 이용하여 anomalous network condition 지점을 찾는 것 Anomaly의 source를 찾을 수 있고, anomaly 정도 측정 가능 [참조] Lakhina, Anukool, Mark Crovella, and Christophe Diot. "Diagnosing network-wide traffic anomalies." ACM SIGCOMM computer communication review. Vol. 34. No. 4. ACM, 2004.

Multivariate Unsupervised Machine Learning for Anomaly Detection in Enterprise Applications

시계열 데이터의 oulier detect 방법으로 LOF와 DBSCAN을 제시 Outlier detect algorithm using DBSCAN for time-series data 1단계 : DBSCAN으로 학습시킨다. 2단계 : 가장 많은 포인트가 할당된 cluster를 선택하고, 그것을 normaly system state로 정의한다. 해당 cluster의 중심을 anomaly index 계산을 위한 reference point로 사용한다. 3단계 : 각 포인트와 reference point의 거리를 계산한다. 이것이 anomaly index이다. 4단계 : 각 차원이 anomaly index에 얼마나 contribution 하는지 (어떤 차원이 anomalous 하기에 anomaly index가..

Local Outlier Factors (LOF)

Local Outlier Factors (LOF) : 거리 기반의 outlier 탐지 기법. 거리 기반이지만, (내 관심대상 A의 k개 neighbor과의 평균거리)와 (그 neighbor들의 k개 neighbor 평균거리)를 비교하여, 주변과 비교했을 때 밀집해있는지 '밀도'를 측정한다. 위 그림에서 O1은 이상치라는걸 바로 알 수 있지만 O2는 이상치라고 말할 수 있을까요? 얼핏 보기엔 아닌 것 같지만 근처에 빡빡하게 밀집해 있는 데이터가 있으므로 이상치라고 볼 수도 있을 것입니다. LOF(Local outlier factors)관점에서는 O2도 이상치입니다. 밀집 지역에서 밀도 관점으로 봤을 때 급격한 감소가 이루어지기 때문입니다. 즉, LOF는 데이터가 가지는 상대적인 밀도까지 고려한 이상치 탐지..

Random Forest (랜덤 포레스트)

개별 트리 모델의 단점 - 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파 - 학습 데이터의 미세한 변동에도 최종 결과 크게 영향 - 적은 개수의 노이즈에도 크게 영향 - 나무의 최종노드 개수를 늘리면 과적합 위험 (Low bias, Large Variance) - 해결 방안으로, Random Forest가 있음 앙상블 (랜덤 포레스트의 배경) - 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법 - 다음 조건을 만족할 때 앙상블 모델은 Base 모델보다 우수한 성능을 보여줌 Base 모델들이 서로 독립적 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우 ex) 5개의 binary classifier를 base..

Outlier Detection (standard deviation v.s. interquartile range)

데이터의 분포가 정규분포를 띌 때는, 표준편차를 이용한 outlier detection가 적합 데이터의 분포가 꼬리를 가지고 있거나 정규분포가 아닐 때는, Q1-1.5*IQR와 Q3+1.5*IQR 를 이용한 outlier detection이 적합 https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623 5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code) Detecting Anomalies is critical to any business eith..

표준화(standardization)과 정규화(normalization)

표준화 (Standardization) 수식 : (요소값-평균) / 표준편차 평균을 기준으로 얼마나 떨어져 있는지 나타내는 값으로, 이 방법에 적용하려는 때는 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 합니다. 예를 들어, 삼성전자와 현대차의 주식시세에 대해 동일 기간에 대해 표준화를 수행하면 두 종목이 어떤 특징을 가지고 움직이는지 관찰하는데 도움이 됩니다. 또 다른 예시로, 몸무게와 키에 대해 표준화를 수행한 후 데이터를 보았을 때 몸무게는 음수, 키는 양수 값이 나온다면 그 사람은 평균보다 키가 크고 몸이 마른 편이라 볼 수 있습니다. 이 방법은 데이터를 다소 평평하게 하는(로그보다는 덜하지만 데이터의 진폭을 줄이는) 특성을 가집니다. 이 방법을 적용하면 간극이 줄..

DBSCAN

DBSCAN Density based clustering technique이다. 비공식적 가정 : 클러스터는 높은 밀도 지역에 존재하고, 다른 낮은 밀도 지역과는 분리되어 있다. DBSCAN의 목적 - 임의의 모양의 cluster를 찾을 수 있다 - outlier/noise에 강하다 DBSCAN algorithm 2개의 parameter 존재 - 이웃의 크기 : ε - 이웃 내에 있는 최소의 포인트 개수 : MinPts 각 포인트의 이웃은 ε보다 더 작은 거리에 있는 모든 다른 점들로 구성된다 DBSCAN은 포인트를 3개 포인트의 그룹으로 분류함으로써 작동한다 - Core point : 만약에 이웃이 적어도 MinPts개의 포인트를 포함한다면 - Border point : core point는 아니지만,..