Machine Learning/Algorithm

Anomaly Detection - Extended Isolation Forest

고슴군 2022. 7. 5. 14:35
  • Isolation Forest
    • 첫번째 그림 : 구 형태로 등고선이 그려지는게 맞을 것
    • 오른쪽 그림 : 정상 데이터가 없는데도 불구하고, 정상으로 판단할 수 있는 영역이 생김
    • 마지막 그림 : sin 함수 곡선의 사이사이 모두 정상으로 판단

 

  • Extended IF
    • 기존의 IF는 변수의 값으로 split 하기 때문에, 각 축에 대해서 수직 혹은 수평인 방향으로 split을 하게 됨
    • 기울기를 적용하자. 기울기도 random하게 적용할 것이다.

 

  • Example
    • Standard IF : 항상 축에 수직인 직선을 이용해서 영역을 분할함
    • Extended IF : 분할하는 직선의 slope가 random하게 적용되어 분할

 

  • 동그라미친 부분은 상대적으로 split을 많이 필요로 하는 구간이기 때문에 anomaly score가 낮음

 

  • 알고리즘
    • random 하게 intercept와 slope를 할당함

 

 

 

  • 실제 데이터에서 IF가 잘 작동하는 데이터가 자주 발생하느냐? 그렇지는 않다
  • 교수님 개인적으로는, Standard IF 먼저 해보고 성능이 안 나오면 그 다음 단계로 Extended IF를 시도하는 것을 추천
반응형