Machine Learning/Statistics

상관계수

고슴군 2022. 1. 7. 20:44

상관계수의 가정

- 두 변수의 관계가 선형성을 만족시켜야 한다.

- 데이터가 등분산성을 충족시켜야 한다

- outlier가 없어야 한다.

- 데이터가 절단되어 있지 말아야 한다.

- 데이터가 정규분포여야 한다. (이론적으로는 그렇지만 실제로는 아닌 경우에도 사용함)

 

 

[참조] 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=artquery&logNo=44943778

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chj1335033&logNo=221258402192

 

- Correlation in Time series

 

 

 

 

 

 

[참조]

https://towardsdatascience.com/four-ways-to-quantify-synchrony-between-time-series-data-b99136c4a9c9

https://www.statology.org/rolling-correlation-pandas/

 

Granger Causality

 

인과관계가 아닌, 데이터 간의 선행관계가 있는지와 있다면 lag 값을 파악하기 위한 것. time series간의 선후관계 확인 위해 사용 가능.

1.2.2  Granger Causality 이해

"어떤 현상의 예측에 있어 다른 정보를 이용하는 것이 얼마나 유의미한지 나타내는 척도"

  • 추론불가한 문제: "닭이 먼저인가 달걀이 먼저인가?" (인과관계)
  • 추론가능한 문제: "닭과 달걀의 생성순서 별 서로의 영향력은 어떤가?" (Granger 인과관계)
  • 필요성:
    • 회귀분석에서 독립변수와 종속변수는 경제이론에 의해 이미 결정된 것으로 간주하고 인과관계 확인
    • 원인과 결과가 불분명한 경우 함수관계에 대한 명확한 결정은 현실적으로 어려움
  • 예시:
    • 닭과 달걀의 생산량의 인과관계
    • 단기금리와 중기금리와의 인과관계
    • 강수량과 동물원방문객수의 인과관계
    • 급여인상액과 소비금액의 인과관계
    • 어떤 회사의 광고비지출액와 매출액의 인과관계
    • 강수량과 인터넷사용량의 인과관계
    • 어떤 광고캠페인의 수치형 설정조건과 클릭수와 인과관계
  • 모형의 전재: 과거의 사건은 현재의 사건을 유발할 수 있지만 미래의 사건은 현재의 사건을 유발할 수 없다
    • 정상성: 정상성 데이터를 가정하므로 독립변수(𝑋X)와 종속변수(𝑌Y)는 모두 정상성 상태여야 함 (비정상 데이터기반 결과는 오해석 여지가 많음)
    • 입력시차: 입력변수로 시차(Lagged) 적용된 변수를 반영해야 하며, 예상되는 시차가 𝑁N이라면, 11부터 𝑁N까지의 시차 모두를 입력변수로 사용해야 함
    • 최종시차: 예상시차 𝑁N에 매우 민감하므로 적합한 길이를 선택해야 함
      • 통상 연 환산빈도의 2~3배까지: 연별 자료시 2, 분기별 자료시 8, 월별 자료시 24)
      • 𝐹F검정통계량의 유의한 변화에 의해 결정
    • 검정방향: 독립변수와 종속변수의 양방향 관련성 비교가 필요하기에 총2회의 검정을 수행해야 함
      • 𝑋𝑌X⟹Y 1회: 𝑋X 𝑌Y에 인과영향인지 테스트 (𝛽𝑗=0βj=0 여부 확인, 𝜖𝑋𝑌ϵXY 분산 감소정도 확인)
        Just use YUse X and Y𝑌𝑡𝑌𝑡=𝜇𝑡+𝑖=1𝛼𝑖𝑌𝑡𝑖+𝜖𝑌=𝜇𝑡+𝑖=1𝛼𝑖𝑌𝑡𝑖+𝑗=1𝛽𝑗𝑋𝑡𝑗+𝜖𝑋𝑌Just use YYt=μt+∑i=1∞αiYt−i+ϵYUse X and YYt=μt+∑i=1∞αiYt−i+∑j=1∞βjXt−j+ϵXY
      • 𝑌𝑋Y⟹X 1회: 𝑌Y 𝑋X에 인과영향인지 테스트 (𝛽𝑗=0βj=0 여부 확인, 𝜖𝑌𝑋ϵYX 분산 감소정도 확인)
        Just use XUse X and Y𝑋𝑡𝑋𝑡=𝜇𝑡+𝑖=1𝛼𝑖𝑋𝑡𝑖+𝜖𝑋=𝜇𝑡+𝑖=1𝛼𝑖𝑋𝑡𝑖+𝑗=1𝛽𝑗𝑌𝑡𝑗+𝜖𝑌𝑋Just use XXt=μt+∑i=1∞αiXt−i+ϵXUse X and YXt=μt+∑i=1∞αiXt−i+∑j=1∞βjYt−j+ϵYX
    • 자동화가능성: 여러가지 데이터에 일반화해서 자동화하기 어려움
    • 주의사항:
      • 무조건적 인과관계를 단정할 수 없음
      • 시간 선후가 유의미한 맥락을 갖는 시계열에 적용할 수 있고, 시간선후 기간기준에 따라 Granger 인과관계가 있게 될 수 있음
      • 상관관계를 두고 인과관계가 없다는 증명으로 간단히 볼 수는 있지만, 보이지 않는 요소들도 고려되어야 확실함
  • Granger 인과관계 테스트
    • 가설확인
      • 대중주장(귀무가설, Null Hypothesis, 𝐻0H0): 한 변수가 다른 변수를 예측하는데 도움이 되지 않는다
      • 나의주장(대립가설, Alternative Hypothesis, 𝐻1H1): 한 변수가 다른 변수를 예측하는데 도움이 된다
    • 의사결정(1회 검정)
      • p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터는 대중주장과 유사하니 대중주장 참 & 나의주장 거짓수집한(분석한) 데이터는 한 변수가 다른 변수를 예측하는데 도움되지 않는다
      • p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터는 대중주장을 벗어나니 대중주장 거짓 & 나의주장 참수집한(분석한) 데이터는 한 변수가 다른 변수를 예측하는데 도움된다
    • 의사결정(2회 검정 비교)
      • "𝑌Y lags로만 𝑌Y의 데이터를 선형회귀한 것의 예측력(p-value)" > "𝑋X lags + 𝑌Y lags로 𝑌Y의 데이터를 선형회귀한 것의 예측력(p-value)"수집한(분석한) 데이터는 𝑋X변수가 𝑌Y변수를 예측하는데 도움되지 않는다
      • "𝑋X lags + 𝑌Y lags로 𝑌Y의 데이터를 선형회귀한 것의 예측력(p-value)" > "𝑌Y lags로만 𝑌Y의 데이터를 선형회귀한 것의 예측력(p-value)"수집한(분석한) 데이터는 𝑋X변수가 𝑌Y변수를 예측하는데 도움된다
    • 결과조합
      • "𝑋X 𝑌Y에 인과영향을 준다" + "𝑌Y 𝑋X에 인과영향을 주지 않는다"
        : 𝑋X 𝑌Y에 선행한다고 볼 수 있기에, 𝑋X 𝑌Y의 인과요인이 될 가능성이 높음
      • "𝑌Y 𝑋X에 인과영향을 준다" + "𝑋X 𝑌Y에 인과영향을 주지 않는다"
        : 𝑌Y 𝑋X에 선행한다고 볼 수 있기에, 𝑌Y 𝑋X의 인과요인이 될 가능성이 높음
      • "𝑋X 𝑌Y에 인과영향을 준다" + "𝑌Y 𝑋X에 인과영향을 준다"
        : 쌍방으로 Granger Causality가 성립하는 경우로 이 경우 제3의 외부변수(Exogenous Variable)가 영향을 공통으로 주었을 가능성이 높음
        : 제3의 외부변수(Exogenous Variable)를 알아내던가 포기하던가 해야하며, 𝑉𝐴𝑅VAR모형을 사용해야 할 수 있음(Granger Causality도 𝑉𝐴𝑅VAR모형 중 하나)
      • "𝑋X 𝑌Y에 인과영향을 주지 않는다" + "𝑌Y 𝑋X에 인과영향을 주지 않는다"
        : 두 변수가 서로 인과영향을 주지 않는다고 볼 수도 있지만 단언은 어려움
        : 𝐴𝑅𝐼𝑀𝐴ARIMA모형으로 추가 확인이 가능할 수 있음
        : 입력되는 최종 시차에 따라 달라질 수 있으므로 시차에 따른 해석을 달리 할 수도 있음(사람의 경험과 판단이 개입되어야 함)

 

반응형

'Machine Learning > Statistics' 카테고리의 다른 글

MCMC (Markov Chain Monte Carlo)  (0) 2022.02.08
Feature Scailing  (2) 2021.01.03
Partial AutoCorrelation Function (PACF)  (0) 2020.12.29
Autocorrelation 이란?  (0) 2020.12.11
Feature Transformation  (0) 2020.08.20