'Machine Learning' 카테고리의 글 목록 (2 Page)

Anomaly detection - 평가지표

정오행렬 기반 평가지표 False Rejection Rate (FRR) : FP/(FP+TN) 원래는 정상이나 이상치 탐지 모델에 의해 이상치로 잘못 판별된(rejected) 비율 False Acceptance Rate (FAR) : FN/(TP+FN) 원래는 이상치라서 탐지가 되어야 하나 모델에 의해 탐지가 되지 못하고 정상으로 판별된(accepted) 비율 위의 방법은 cut-off value에 따라서 dependent하는 지표임 이상치 탐지 방법론 자체의 정합성을 평가할 때는 cut-off 에 영향을 받지 않는 성능 평가 지표가 필요함 AUROC와 Integrated Error 둘 중 하나를 사용하면 됨 cut-off value를 달리하면서, x축은 FRR, y축은 FAR을 도시한 그래프 Integ..

Machine Learning/Algorithm 2022.07.05

Anomaly detection - PCA, Autoencoder, GAN

간단하면서도 성능이 좋은 경우가 많아서, 현업(on-product)에 많이 활용됨 변수이 개수를 줄여서 압축함 original 데이터의 정보의 손실을 최소화하면서 압축되었다는 전제 복원 : 예를 들어, 5차원으로 압축된 것을 100차원으로 돌려놓는 것 X'은 압축된 데이터에서 복원하기 때문에, X와 X'이 같을 순 없다. Z에 정보가 대부분 보존되었다면 X와 X'은 매우 비슷할 것이다 X와 X'은 압축이 잘 되었다면 이론적으로 같을 수는 있지만, 현실적으로는 같을 수 없다. 손실된 것이 존재할 수 밖에 없음. 잘 복원되지 않은 데이터를 이상치라고 하는 것이다. original 데이터인 X 는 정상 데이터만 사용해서 학습해야 할 것이다. 따라서 정상 데이터가 들어오면 잘 복원하고 anomaly 데이터가 들..

Machine Learning/Algorithm 2022.07.04

Anomaly detection - 1-SVM, SVDD

SVM 고차원의 함수로 매핑하여 분리할 수 있는 선형 식을 찾아서, original space로 project해서 비선형 식을 찾아내는 것 정상 데이터만을 이용하여 학습 정상데이터를 고차원 space로 변형하면, 정상 데이터들을 원점으로부터 멀리하는 decision boundary를 찾아내는 것 고차원에서 최대한 떨어지면서, 정상데이터를 잘 아우를 수 있는 선형식을 찾아내는 것이다. original로 project하면 비선형이 될 것이다. Lagrangian primal problem 을 적용하고 미분하고 Lagrangian dual problem을 적용하여 최적화 해 계산 (강의 참조) 최소 v*n개의 suppport vector 존재함. n은 컨트롤 못하고, v를 컨트롤해서 몇 개의 support v..

Machine Learning/Algorithm 2022.07.02

Anomaly detection - Local Outlier Factor (LOF)

Local Outlier Factor (LOF) 꽤 nice한 아이디어다. 여러 아이디어 들의 기초가 된 아이디어라고 할 수 있다. 1. K-distance of object p 2. K-distance neighborhood of object p (N_k(p)) 3. Reachability Distance (Reachability distance_k(p, 0)) 오밀조밀하게 모여있으면, max 취해봤자 reachability distance는 크지 않을 것이다. p가 outlier라면, reachability distance는 큰 값이 나올 것이다. 4. Local reachability density of object p (lrd_k(p)) 분자값은 개수를 의미함. weight 라고 보면 된다. 원 ..

Machine Learning/Algorithm 2022.06.28

Anomaly detection - 개요, 확률분포기반

Novelty vs Anomaly vs Outlier Novelty 데이터 : 데이터의 본질적인 특성은 같지만, 유형이 다른 관측치 일반 호랑이가 정상 데이터라고 할 때 백호 긍정의 의미를 가짐 Anomaly 데이터 : 대부분의 데이터와 특성이 다른 관측치 일반 호랑이가 정상데이터라고 할 때 라이거 (호랑이의 특성은 갖고 있음) 약간의 부정의 의미를 가짐 Novelty과 Anomaly를 구분하는 것은 어렵고, 이런 느낌의 차이가 있다는 것 Outlier 데이터 : 대부분의 데이터와 본질적인 특성이 다른 데이터 일반 호랑이가 정상 데이터라고 할 때 사자 큰 부정의 의미 분석에 부정적 영향 미치기 때문에, 제거 후에 분석해야 함 부정의 크기 : Novelty < Anomaly < Outlier Novelty..

Machine Learning/Algorithm 2022.06.25

MCMC (Markov Chain Monte Carlo)

https://liveyourit.tistory.com/147 MCMC (Markov Chain Monte Carlo) 샘플링 MCMC는 진짜... 해도해도 이해가 안가고 할수록 더 이해가 안가는 모델인 것 같다.... 원래 논문 실험을 할 때 샘플링을 할 일이 있어서 (결국 안쓰게 됐지만) 그때 MCMC를 정리해놨던게 있는데 여기 liveyourit.tistory.com https://angeloyeo.github.io/2020/09/17/MCMC.html#mcmc%EC%9D%98-%EC%A0%95%EC%9D%98 Markov Chain Monte Carlo - 공돌이의 수학정리노트 angeloyeo.github.io https://www.secmem.org/blog/2019/01/11/mcmc/ ht..

Machine Learning/Statistics 2022.02.08

상관계수

상관계수의 가정 - 두 변수의 관계가 선형성을 만족시켜야 한다. - 데이터가 등분산성을 충족시켜야 한다 - outlier가 없어야 한다. - 데이터가 절단되어 있지 말아야 한다. - 데이터가 정규분포여야 한다. (이론적으로는 그렇지만 실제로는 아닌 경우에도 사용함) [참조] https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=artquery&logNo=44943778 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chj1335033&logNo=221258402192 - Correlation in Time series In [6]: import pandas as ..

Machine Learning/Statistics 2022.01.07

Time-series forecasting at UBER

[참조] www.youtube.com/watch?v=bn8rVBuIcFg&feature=emb_title

Machine Learning/Algorithm 2021.03.03

Prophet

gorakgarak.tistory.com/1255 모든이들을 위한 Facebook Prophet Paper 쉬운 요약정리 이글에서 분석해볼 paper는 [Forecasting at Scale] 으로, Facebook의 신기방기한 시계열 분석 라이브러리인 Prophet에 대한 설명이 있는 paper입니다. 논문으로는 20페이지가 넘어 읽기가 불편(?)할수 있어 gorakgarak.tistory.com predictor-ver1.tistory.com/4 머신 러닝으로 금 시세를 예측 해보자 feat. Prophet 1. Prophet에 대한 간단한 설명 2. Prophet 모델 구축 3. Prophet 파라미터 조정 1. Prophet에 대한 간단한 설명 Prophet은 Facebook에서 만든 시계열 예측..

Machine Learning/Algorithm 2021.02.25

Feature Scailing

rfriend.tistory.com/270 [Python] 최소 최대 '0~1' 범위 변환 (scaling to 0~1 range) : sklearn.preprocessing.MinMaxScaler() 지난번 포스팅에서는 변수들의 척도(Scale)가 서로 다를 경우에 상호 비교를 위해서 표준화하는 방법으로서 - 정규분포를 따르는 데이터의 표준정규분포로의 표준화 (z standardization) (평균과 rfriend.tistory.com mkjjo.github.io/python/2019/01/10/scaler.html [Python] 어떤 스케일러를 쓸 것인가? * 본 포스트는 개인연구/학습 기록 용도로 작성되고 있습니다. By MK on January 10, 2019 데이터를 모델링하기 전에는 반드시..

Machine Learning/Statistics 2021.01.03

Dive into Data Science

Machine Learning 53

티스토리툴바