Machine Learning/Algorithm

Partial Least Squares (PLS)

고슴군 2020. 1. 15. 18:01

 

  • 고차원 데이터

- 변수의 수 많음 → 불필요한 변수 존재

- 시각적으로 표현하기 어려움

- 계산 복잡도 증가 → 모델링 비효율적

- 중요한 변수만을 선택 → 차원 축소

 

 

  • 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측변수만을 선택

- 장점 : 선택한 변수 해석 용이

- 단점 : 변수간 상관관계 고려 어려움

 

 

  • 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출

- 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음

- 단점 : 추출된 변수의 해석이 어려움

 

 

  • Supervised feature selection : Information gain, Stepwise regression, LASSO, Genetic algorithm, many more...
  • Supervised feature extraction : Partial least squares (PLS)
  • Unsupervised feature selection : PCA loading
  • Unsupervised feature extraction : Principal component analysis (PCA), Wavelets transforms, Autoencoder

 

  • PLS의 핵심

 

 

  • PLS의 개요

- PLS는 Y와의 공분산이 높은 k개의 선형조합 변수를 추출하는 방식

- PLS (부분최소제곱) 용어는 선형조합으로 추출된 변수가 설명하지 못하는 부분에 (데이터 일부분) 지속적으로 최소제곱법을 사용하는 것에서 유래

- 주요 목적

   ∨ 회귀 및 분류 모델 구축

   ∨ 데이터 차원 축소 (n by p → n by k, where k <<p)

- 추출된 변수가 PCA에서는 반영하지 못했던 Y와의 상관관계를 반영하는 특징이 있으며

- 적은 수의 추출된 변수로 효율적인 모델 구축 가능

 

- PCA는 var(t)(=X 선형결합의 분산)만을 최대화하는 축(변수)을 찾지만, PLS는 이와 더불어 t와 Y의 상관관계를 최대화 하도록 축(변수)을 찾는다.

 

 

 

  • PLS - 변수 추출 방법

 

 

 

  • PLS - NIPALS algorithm

 

 

  • PLS - 예제

 

 

  • PLS - 추출 변수의 수 결정

 

 

  • PLS - 확장모델

1. 출력변수 Y가 여러 개일 때의 PLS → 하나의 PLS 모델로 여러 개의 Y 예측 가능

2. 출력변수 Y가 범주형일 때의 PLS (명칭 : PLS-DA (PLS-Discriminant Analysis))

 

 

  • PLS - 출력변수 Y가 여러 개

- 출력변수 Y가 여러 개일 경우에는 기존의 방법대로 단 하나의 공분산 값을 추출할 수 없음

- 따라서 Y에서도 변수를 같이 추출하여, X와 Y에서 각각 추출된 변수들간의 공분산을 최대화 하도록 함

 

 

 

 

 

 

  • PLS-DA (Discriminant Analysis)

- PLS-DA는 출력변수 Y가 범주형일 때 사용하는 방법으로, 출력변수를 처리하는 부분을 제외하면 기존 PLS와 동일함

 

- 범주가 둘인 경우
   ∨ 첫 번째 범주를 1, 두 번째 범주를 -1로 설정하여, 기존 x와 새로 변환한 Y로 PLS를 사용

 

- 범주가 셋 이상인 경우
   ∨ 각 범주 별로 이진변수를 생성하여 특정 범주에 해당하면 1, 아니면 0으로 변환
   ∨ 기존 X와 변환된 Y를 이용하여 출력변수가 여러 개일 때의 PLS를 사용

 

 

 

 

[참조]

김성범 교수님의 https://www.youtube.com/watch?v=OCprdWfgBkc&t=1229s (PLS) 을 요약한 것입니다. 

 

 

반응형