Machine Learning 53

Anomaly detection - 평가지표

정오행렬 기반 평가지표 False Rejection Rate (FRR) : FP/(FP+TN) 원래는 정상이나 이상치 탐지 모델에 의해 이상치로 잘못 판별된(rejected) 비율 False Acceptance Rate (FAR) : FN/(TP+FN) 원래는 이상치라서 탐지가 되어야 하나 모델에 의해 탐지가 되지 못하고 정상으로 판별된(accepted) 비율 위의 방법은 cut-off value에 따라서 dependent하는 지표임 이상치 탐지 방법론 자체의 정합성을 평가할 때는 cut-off 에 영향을 받지 않는 성능 평가 지표가 필요함 AUROC와 Integrated Error 둘 중 하나를 사용하면 됨 cut-off value를 달리하면서, x축은 FRR, y축은 FAR을 도시한 그래프 Integ..

Anomaly detection - PCA, Autoencoder, GAN

간단하면서도 성능이 좋은 경우가 많아서, 현업(on-product)에 많이 활용됨 변수이 개수를 줄여서 압축함 original 데이터의 정보의 손실을 최소화하면서 압축되었다는 전제 복원 : 예를 들어, 5차원으로 압축된 것을 100차원으로 돌려놓는 것 X'은 압축된 데이터에서 복원하기 때문에, X와 X'이 같을 순 없다. Z에 정보가 대부분 보존되었다면 X와 X'은 매우 비슷할 것이다 X와 X'은 압축이 잘 되었다면 이론적으로 같을 수는 있지만, 현실적으로는 같을 수 없다. 손실된 것이 존재할 수 밖에 없음. 잘 복원되지 않은 데이터를 이상치라고 하는 것이다. original 데이터인 X 는 정상 데이터만 사용해서 학습해야 할 것이다. 따라서 정상 데이터가 들어오면 잘 복원하고 anomaly 데이터가 들..

Anomaly detection - 1-SVM, SVDD

SVM 고차원의 함수로 매핑하여 분리할 수 있는 선형 식을 찾아서, original space로 project해서 비선형 식을 찾아내는 것 정상 데이터만을 이용하여 학습 정상데이터를 고차원 space로 변형하면, 정상 데이터들을 원점으로부터 멀리하는 decision boundary를 찾아내는 것 고차원에서 최대한 떨어지면서, 정상데이터를 잘 아우를 수 있는 선형식을 찾아내는 것이다. original로 project하면 비선형이 될 것이다. Lagrangian primal problem 을 적용하고 미분하고 Lagrangian dual problem을 적용하여 최적화 해 계산 (강의 참조) 최소 v*n개의 suppport vector 존재함. n은 컨트롤 못하고, v를 컨트롤해서 몇 개의 support v..

Anomaly detection - Local Outlier Factor (LOF)

Local Outlier Factor (LOF) 꽤 nice한 아이디어다. 여러 아이디어 들의 기초가 된 아이디어라고 할 수 있다. 1. K-distance of object p 2. K-distance neighborhood of object p (N_k(p)) 3. Reachability Distance (Reachability distance_k(p, 0)) 오밀조밀하게 모여있으면, max 취해봤자 reachability distance는 크지 않을 것이다. p가 outlier라면, reachability distance는 큰 값이 나올 것이다. 4. Local reachability density of object p (lrd_k(p)) 분자값은 개수를 의미함. weight 라고 보면 된다. 원 ..

Anomaly detection - 개요, 확률분포기반

Novelty vs Anomaly vs Outlier Novelty 데이터 : 데이터의 본질적인 특성은 같지만, 유형이 다른 관측치 일반 호랑이가 정상 데이터라고 할 때 백호 긍정의 의미를 가짐 Anomaly 데이터 : 대부분의 데이터와 특성이 다른 관측치 일반 호랑이가 정상데이터라고 할 때 라이거 (호랑이의 특성은 갖고 있음) 약간의 부정의 의미를 가짐 Novelty과 Anomaly를 구분하는 것은 어렵고, 이런 느낌의 차이가 있다는 것 Outlier 데이터 : 대부분의 데이터와 본질적인 특성이 다른 데이터 일반 호랑이가 정상 데이터라고 할 때 사자 큰 부정의 의미 분석에 부정적 영향 미치기 때문에, 제거 후에 분석해야 함 부정의 크기 : Novelty < Anomaly < Outlier Novelty..

MCMC (Markov Chain Monte Carlo)

https://liveyourit.tistory.com/147 MCMC (Markov Chain Monte Carlo) 샘플링 MCMC는 진짜... 해도해도 이해가 안가고 할수록 더 이해가 안가는 모델인 것 같다.... 원래 논문 실험을 할 때 샘플링을 할 일이 있어서 (결국 안쓰게 됐지만) 그때 MCMC를 정리해놨던게 있는데 여기 liveyourit.tistory.com https://angeloyeo.github.io/2020/09/17/MCMC.html#mcmc%EC%9D%98-%EC%A0%95%EC%9D%98 Markov Chain Monte Carlo - 공돌이의 수학정리노트 angeloyeo.github.io https://www.secmem.org/blog/2019/01/11/mcmc/ ht..

상관계수

상관계수의 가정 - 두 변수의 관계가 선형성을 만족시켜야 한다. - 데이터가 등분산성을 충족시켜야 한다 - outlier가 없어야 한다. - 데이터가 절단되어 있지 말아야 한다. - 데이터가 정규분포여야 한다. (이론적으로는 그렇지만 실제로는 아닌 경우에도 사용함) [참조] https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=artquery&logNo=44943778 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chj1335033&logNo=221258402192 - Correlation in Time series In [6]: import pandas as ..

Prophet

gorakgarak.tistory.com/1255 모든이들을 위한 Facebook Prophet Paper 쉬운 요약정리 이글에서 분석해볼 paper는 [Forecasting at Scale] 으로, Facebook의 신기방기한 시계열 분석 라이브러리인 Prophet에 대한 설명이 있는 paper입니다. 논문으로는 20페이지가 넘어 읽기가 불편(?)할수 있어 gorakgarak.tistory.com predictor-ver1.tistory.com/4 머신 러닝으로 금 시세를 예측 해보자 feat. Prophet 1. Prophet에 대한 간단한 설명 2. Prophet 모델 구축 3. Prophet 파라미터 조정 1. Prophet에 대한 간단한 설명 Prophet은 Facebook에서 만든 시계열 예측..

Feature Scailing

rfriend.tistory.com/270 [Python] 최소 최대 '0~1' 범위 변환 (scaling to 0~1 range) : sklearn.preprocessing.MinMaxScaler() 지난번 포스팅에서는 변수들의 척도(Scale)가 서로 다를 경우에 상호 비교를 위해서 표준화하는 방법으로서 - 정규분포를 따르는 데이터의 표준정규분포로의 표준화 (z standardization) (평균과 rfriend.tistory.com mkjjo.github.io/python/2019/01/10/scaler.html [Python] 어떤 스케일러를 쓸 것인가? * 본 포스트는 개인연구/학습 기록 용도로 작성되고 있습니다. By MK on January 10, 2019 데이터를 모델링하기 전에는 반드시..