Machine Learning/Statistics

P-value, 가설 검정

고슴군 2020. 2. 10. 17:47
  • P-value

- 귀무가설에서 주장한 바가 옳을 확률

  → 확률값, 0과 1 사이로 표준화된 지표

  → Plausibility of correcting $H_0$

- 귀무가설이 참이라는 가정 아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률

- 귀무가설을 채택할지 기각할지 기준으로 사용할 수 잇는 값

 

- 작은 P-value → 귀무가설이 참일 확률이 적어짐

- P-value < 0.05 (0.01) : 귀무가설이 참일 확률이 매우 작음

- P-value > 0.1 : 귀무가설이 참일 확률이 매우 큼

 cf) 0.05 와 0.1 사이 (ex. 0.07) : Undetermined 구간

     P-value로는 정확히 말하기 어려운 구간. 주관적으로 판단이 필요.

 

 

  • 검정통계량

- 귀무가설이 참이라는 가정 아래 얻은 통계량 (참고 : 통계량(statistics)(=샘플들의 함수 = function of samples) 

- 개념적으로 $\overline{x}$ 와 모집단 평균의 차이가 검정통계량

- 이 값이 크면, $\overline{x}$ 와 귀무가설에서 주장하는 모집단 평균 차이가 큰 것이기 때문에 귀무가설 틀릴 확률이 커지는 것

- 이 값이 작으면, $\overline{x}$ 와 귀무가설에서 주장하는 바가 별로 틀리지 않은 것

- 얼마나 커야 크고, 얼마나 작아야 작은건지 객관적으로 0과 1 사이의 확률값으로 보여주는 지표가 P-value라고 보면 됨

  (표준화하기 위해서 확률값을 이용한 것 (표준화하기 위해 검점통계량 이상일 확률을 계산하는 것))

- Y는 검정통계량이 어떤 확률분포를 따르는지에 따라 결정이 된다. -> 통계학자들이 분포 정리해놓음

 

 

- x 샘플들의 분산이 크다는 것은, 이랬다 저랬다 하는 것이니까 못 미더워서

  분모로 넣어줘서 패널티 주는 것 귀무가설 기각할 확률 줄어듬

- 샘플의 수는 많을수록 좋다. 샘플 표준편차는 패널티 역할, 샘플의 수(n)은 리워드 역할

- 대립가설이 unequal이기 때문에 확률값에 2를 곱함

 

추가) 선형회귀 결과를 보면, 각 변수의 베타에 대한 P-value가 나오고, 0에 가까운 P-value를 가지면 그 x 변수는 중요한 변수임

 

 

  • 검정통계량

- Two-sample t test

- 가설 검정하는 곳에, P-value 항상 있음

 

 

  • 선형회귀모델 기울기에 대한 가설검정

- 알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정

- 일종오류 $\alpha$ 하에서 기울기가 0인지 아닌지 검정

- 회귀분석의 결과, 각 $\beta$ 에 대한 P-value가 나오는데, P-value가 작은 것(<0.05 or 0.01) 이 유의미한 변수임 (즉, $\beta=0$ 이라는 귀무가설을 기각할 수 있음)

 

 

 

[참조] 김성범 교수님의 https://www.youtube.com/watch?v=tpow70KGTYY 를 요약한 것입니다.

반응형