Machine Learning/Algorithm 37

Anomaly detection - 평가지표

정오행렬 기반 평가지표 False Rejection Rate (FRR) : FP/(FP+TN) 원래는 정상이나 이상치 탐지 모델에 의해 이상치로 잘못 판별된(rejected) 비율 False Acceptance Rate (FAR) : FN/(TP+FN) 원래는 이상치라서 탐지가 되어야 하나 모델에 의해 탐지가 되지 못하고 정상으로 판별된(accepted) 비율 위의 방법은 cut-off value에 따라서 dependent하는 지표임 이상치 탐지 방법론 자체의 정합성을 평가할 때는 cut-off 에 영향을 받지 않는 성능 평가 지표가 필요함 AUROC와 Integrated Error 둘 중 하나를 사용하면 됨 cut-off value를 달리하면서, x축은 FRR, y축은 FAR을 도시한 그래프 Integ..

Anomaly detection - PCA, Autoencoder, GAN

간단하면서도 성능이 좋은 경우가 많아서, 현업(on-product)에 많이 활용됨 변수이 개수를 줄여서 압축함 original 데이터의 정보의 손실을 최소화하면서 압축되었다는 전제 복원 : 예를 들어, 5차원으로 압축된 것을 100차원으로 돌려놓는 것 X'은 압축된 데이터에서 복원하기 때문에, X와 X'이 같을 순 없다. Z에 정보가 대부분 보존되었다면 X와 X'은 매우 비슷할 것이다 X와 X'은 압축이 잘 되었다면 이론적으로 같을 수는 있지만, 현실적으로는 같을 수 없다. 손실된 것이 존재할 수 밖에 없음. 잘 복원되지 않은 데이터를 이상치라고 하는 것이다. original 데이터인 X 는 정상 데이터만 사용해서 학습해야 할 것이다. 따라서 정상 데이터가 들어오면 잘 복원하고 anomaly 데이터가 들..

Anomaly detection - 1-SVM, SVDD

SVM 고차원의 함수로 매핑하여 분리할 수 있는 선형 식을 찾아서, original space로 project해서 비선형 식을 찾아내는 것 정상 데이터만을 이용하여 학습 정상데이터를 고차원 space로 변형하면, 정상 데이터들을 원점으로부터 멀리하는 decision boundary를 찾아내는 것 고차원에서 최대한 떨어지면서, 정상데이터를 잘 아우를 수 있는 선형식을 찾아내는 것이다. original로 project하면 비선형이 될 것이다. Lagrangian primal problem 을 적용하고 미분하고 Lagrangian dual problem을 적용하여 최적화 해 계산 (강의 참조) 최소 v*n개의 suppport vector 존재함. n은 컨트롤 못하고, v를 컨트롤해서 몇 개의 support v..

Anomaly detection - Local Outlier Factor (LOF)

Local Outlier Factor (LOF) 꽤 nice한 아이디어다. 여러 아이디어 들의 기초가 된 아이디어라고 할 수 있다. 1. K-distance of object p 2. K-distance neighborhood of object p (N_k(p)) 3. Reachability Distance (Reachability distance_k(p, 0)) 오밀조밀하게 모여있으면, max 취해봤자 reachability distance는 크지 않을 것이다. p가 outlier라면, reachability distance는 큰 값이 나올 것이다. 4. Local reachability density of object p (lrd_k(p)) 분자값은 개수를 의미함. weight 라고 보면 된다. 원 ..

Anomaly detection - 개요, 확률분포기반

Novelty vs Anomaly vs Outlier Novelty 데이터 : 데이터의 본질적인 특성은 같지만, 유형이 다른 관측치 일반 호랑이가 정상 데이터라고 할 때 백호 긍정의 의미를 가짐 Anomaly 데이터 : 대부분의 데이터와 특성이 다른 관측치 일반 호랑이가 정상데이터라고 할 때 라이거 (호랑이의 특성은 갖고 있음) 약간의 부정의 의미를 가짐 Novelty과 Anomaly를 구분하는 것은 어렵고, 이런 느낌의 차이가 있다는 것 Outlier 데이터 : 대부분의 데이터와 본질적인 특성이 다른 데이터 일반 호랑이가 정상 데이터라고 할 때 사자 큰 부정의 의미 분석에 부정적 영향 미치기 때문에, 제거 후에 분석해야 함 부정의 크기 : Novelty < Anomaly < Outlier Novelty..

Prophet

gorakgarak.tistory.com/1255 모든이들을 위한 Facebook Prophet Paper 쉬운 요약정리 이글에서 분석해볼 paper는 [Forecasting at Scale] 으로, Facebook의 신기방기한 시계열 분석 라이브러리인 Prophet에 대한 설명이 있는 paper입니다. 논문으로는 20페이지가 넘어 읽기가 불편(?)할수 있어 gorakgarak.tistory.com predictor-ver1.tistory.com/4 머신 러닝으로 금 시세를 예측 해보자 feat. Prophet 1. Prophet에 대한 간단한 설명 2. Prophet 모델 구축 3. Prophet 파라미터 조정 1. Prophet에 대한 간단한 설명 Prophet은 Facebook에서 만든 시계열 예측..

K-nearest neighbors , distance measures

분류 및 예측을 위한 모델 - Model-based Learning - 선형/비선형 모델(e.g., linear regression, logistic reegression) - Neural network - 의사 결정 나무 - Support vector machine → 데이터로부터 모델을 생성하여 분류/예측 진행 - Instance-based Learning - K-nearest neighbor - Locally weighted regression → 별도의 모델 생성 없이 인접 데이터를 분류/예측에 사용 KNN 알고리즘의 구분 및 특징 - Instance-based Learning - 각각의 관측치 (instance)만을 이용하여 새로운 데이터에 대한 예측을 진행 - Memory-based Learn..