상관계수는 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수 등이 있음
모두 -1 ~ 1 사이의 값을 가진다. 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계
1. Pearson correlation coefficient
두 변수가 모두 연속형 자료일 때, 두 변수간 선형적인 상관관계의 크기를 모수적(parametric)인 방법으로 나타내는 값.
두 변수가 정규성을 따른다는 가정이 필요함 -> parametric
2. Spearman correlation coefficient
두 연속형 변수의 분포가 심각하게 정규 분포를 벗어나거나 또는 두 변수가 순위 척도(ordinal scale)일 때 사용하는 값.
분포 가정 없음 -> non-parametric
순위가 매겨진 변수 간의 피어슨 상관 계수로 정의됨
피어슨 상관 계수와는 달리, 선형적인 상관 관계를 나타내지 않고 단순히 한 변수가 증가할 때 다른 변수가 증가하는지 감소하는지에 대한 관계만을 나타냄
또다른 non-parametric 상관 계수로는 켄달의 상관계수 존재함
반응형
'Machine Learning > Statistics' 카테고리의 다른 글
Feature Transformation (0) | 2020.08.20 |
---|---|
Maximum Likelihood Estimation (MLE), Least Square Estimation (LSE) (0) | 2020.03.10 |
Entropy, Cross Entropy, KL-divergence (0) | 2020.03.10 |
P-value, 가설 검정 (0) | 2020.02.10 |
표준화(standardization)과 정규화(normalization) (0) | 2019.08.19 |