전체 글 76

Anomaly detection - 밀도 기반 이상치 탐지 (Gauss, MoG, Parzen window)

목적 주어진 데이터를 바탕으로, Gaussian을 가정하여, 각 객체들이 생성될 확률을 추정 새로운 데이터가 생성될 확률이 낮을 경우 이상치로 판단 학습 : 주어진 정상 데이터들을 통해 가우시안 분포의 평균 벡터와 공분산 행렬을 추정 테스트 : 새로운 데이터에 대하여 생성 확률을 구하고 이 확률이 낮을수록 이상치에 가까운 것으로 판정함 장점 추정이 간단하며 학습시간이 짧음 (mu와 sigma만 추정하면 됨) 적절한 기준치(cut-off)를 분포로부터 정할 수 있음 정상 데이터의 95% 를 정상이라고 판단하기 위해서, cut-off를 어떻게 가져가야 하는지에 대해서 정확하게 대답할 수 있음 각 변수의 측정 단위에 영향을 받지 않음 어떤 센서는 100단위, 어떤 센서는 0.0x 단위일 때 공분산 행렬을 사용..

Anomaly detection - 평가지표

정오행렬 기반 평가지표 False Rejection Rate (FRR) : FP/(FP+TN) 원래는 정상이나 이상치 탐지 모델에 의해 이상치로 잘못 판별된(rejected) 비율 False Acceptance Rate (FAR) : FN/(TP+FN) 원래는 이상치라서 탐지가 되어야 하나 모델에 의해 탐지가 되지 못하고 정상으로 판별된(accepted) 비율 위의 방법은 cut-off value에 따라서 dependent하는 지표임 이상치 탐지 방법론 자체의 정합성을 평가할 때는 cut-off 에 영향을 받지 않는 성능 평가 지표가 필요함 AUROC와 Integrated Error 둘 중 하나를 사용하면 됨 cut-off value를 달리하면서, x축은 FRR, y축은 FAR을 도시한 그래프 Integ..

Anomaly detection - PCA, Autoencoder, GAN

간단하면서도 성능이 좋은 경우가 많아서, 현업(on-product)에 많이 활용됨 변수이 개수를 줄여서 압축함 original 데이터의 정보의 손실을 최소화하면서 압축되었다는 전제 복원 : 예를 들어, 5차원으로 압축된 것을 100차원으로 돌려놓는 것 X'은 압축된 데이터에서 복원하기 때문에, X와 X'이 같을 순 없다. Z에 정보가 대부분 보존되었다면 X와 X'은 매우 비슷할 것이다 X와 X'은 압축이 잘 되었다면 이론적으로 같을 수는 있지만, 현실적으로는 같을 수 없다. 손실된 것이 존재할 수 밖에 없음. 잘 복원되지 않은 데이터를 이상치라고 하는 것이다. original 데이터인 X 는 정상 데이터만 사용해서 학습해야 할 것이다. 따라서 정상 데이터가 들어오면 잘 복원하고 anomaly 데이터가 들..

Anomaly detection - 1-SVM, SVDD

SVM 고차원의 함수로 매핑하여 분리할 수 있는 선형 식을 찾아서, original space로 project해서 비선형 식을 찾아내는 것 정상 데이터만을 이용하여 학습 정상데이터를 고차원 space로 변형하면, 정상 데이터들을 원점으로부터 멀리하는 decision boundary를 찾아내는 것 고차원에서 최대한 떨어지면서, 정상데이터를 잘 아우를 수 있는 선형식을 찾아내는 것이다. original로 project하면 비선형이 될 것이다. Lagrangian primal problem 을 적용하고 미분하고 Lagrangian dual problem을 적용하여 최적화 해 계산 (강의 참조) 최소 v*n개의 suppport vector 존재함. n은 컨트롤 못하고, v를 컨트롤해서 몇 개의 support v..

Anomaly detection - Local Outlier Factor (LOF)

Local Outlier Factor (LOF) 꽤 nice한 아이디어다. 여러 아이디어 들의 기초가 된 아이디어라고 할 수 있다. 1. K-distance of object p 2. K-distance neighborhood of object p (N_k(p)) 3. Reachability Distance (Reachability distance_k(p, 0)) 오밀조밀하게 모여있으면, max 취해봤자 reachability distance는 크지 않을 것이다. p가 outlier라면, reachability distance는 큰 값이 나올 것이다. 4. Local reachability density of object p (lrd_k(p)) 분자값은 개수를 의미함. weight 라고 보면 된다. 원 ..

Anomaly detection - 개요, 확률분포기반

Novelty vs Anomaly vs Outlier Novelty 데이터 : 데이터의 본질적인 특성은 같지만, 유형이 다른 관측치 일반 호랑이가 정상 데이터라고 할 때 백호 긍정의 의미를 가짐 Anomaly 데이터 : 대부분의 데이터와 특성이 다른 관측치 일반 호랑이가 정상데이터라고 할 때 라이거 (호랑이의 특성은 갖고 있음) 약간의 부정의 의미를 가짐 Novelty과 Anomaly를 구분하는 것은 어렵고, 이런 느낌의 차이가 있다는 것 Outlier 데이터 : 대부분의 데이터와 본질적인 특성이 다른 데이터 일반 호랑이가 정상 데이터라고 할 때 사자 큰 부정의 의미 분석에 부정적 영향 미치기 때문에, 제거 후에 분석해야 함 부정의 크기 : Novelty < Anomaly < Outlier Novelty..

MCMC (Markov Chain Monte Carlo)

https://liveyourit.tistory.com/147 MCMC (Markov Chain Monte Carlo) 샘플링 MCMC는 진짜... 해도해도 이해가 안가고 할수록 더 이해가 안가는 모델인 것 같다.... 원래 논문 실험을 할 때 샘플링을 할 일이 있어서 (결국 안쓰게 됐지만) 그때 MCMC를 정리해놨던게 있는데 여기 liveyourit.tistory.com https://angeloyeo.github.io/2020/09/17/MCMC.html#mcmc%EC%9D%98-%EC%A0%95%EC%9D%98 Markov Chain Monte Carlo - 공돌이의 수학정리노트 angeloyeo.github.io https://www.secmem.org/blog/2019/01/11/mcmc/ ht..

상관계수

상관계수의 가정 - 두 변수의 관계가 선형성을 만족시켜야 한다. - 데이터가 등분산성을 충족시켜야 한다 - outlier가 없어야 한다. - 데이터가 절단되어 있지 말아야 한다. - 데이터가 정규분포여야 한다. (이론적으로는 그렇지만 실제로는 아닌 경우에도 사용함) [참조] https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=artquery&logNo=44943778 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chj1335033&logNo=221258402192 - Correlation in Time series In [6]: import pandas as ..