- P-value
- 귀무가설에서 주장한 바가 옳을 확률
→ 확률값, 0과 1 사이로 표준화된 지표
→ Plausibility of correcting $H_0$
- 귀무가설이 참이라는 가정 아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률
- 귀무가설을 채택할지 기각할지 기준으로 사용할 수 잇는 값
- 작은 P-value → 귀무가설이 참일 확률이 적어짐
- P-value < 0.05 (0.01) : 귀무가설이 참일 확률이 매우 작음
- P-value > 0.1 : 귀무가설이 참일 확률이 매우 큼
cf) 0.05 와 0.1 사이 (ex. 0.07) : Undetermined 구간
→ P-value로는 정확히 말하기 어려운 구간. 주관적으로 판단이 필요.
- 검정통계량
- 귀무가설이 참이라는 가정 아래 얻은 통계량 (참고 : 통계량(statistics)(=샘플들의 함수 = function of samples)
- 개념적으로 $\overline{x}$ 와 모집단 평균의 차이가 검정통계량
- 이 값이 크면, $\overline{x}$ 와 귀무가설에서 주장하는 모집단 평균 차이가 큰 것이기 때문에 귀무가설 틀릴 확률이 커지는 것
- 이 값이 작으면, $\overline{x}$ 와 귀무가설에서 주장하는 바가 별로 틀리지 않은 것
- 얼마나 커야 크고, 얼마나 작아야 작은건지 객관적으로 0과 1 사이의 확률값으로 보여주는 지표가 P-value라고 보면 됨
(표준화하기 위해서 확률값을 이용한 것 (표준화하기 위해 검점통계량 이상일 확률을 계산하는 것))
- Y는 검정통계량이 어떤 확률분포를 따르는지에 따라 결정이 된다. -> 통계학자들이 분포 정리해놓음
- x 샘플들의 분산이 크다는 것은, 이랬다 저랬다 하는 것이니까 못 미더워서
→ 분모로 넣어줘서 패널티 주는 것 → 귀무가설 기각할 확률 줄어듬
- 샘플의 수는 많을수록 좋다. 샘플 표준편차는 패널티 역할, 샘플의 수(n)은 리워드 역할
- 대립가설이 unequal이기 때문에 확률값에 2를 곱함
추가) 선형회귀 결과를 보면, 각 변수의 베타에 대한 P-value가 나오고, 0에 가까운 P-value를 가지면 그 x 변수는 중요한 변수임
- 검정통계량
- Two-sample t test
- 가설 검정하는 곳에, P-value 항상 있음
- 선형회귀모델 기울기에 대한 가설검정
- 알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정
- 일종오류 $\alpha$ 하에서 기울기가 0인지 아닌지 검정
- 회귀분석의 결과, 각 $\beta$ 에 대한 P-value가 나오는데, P-value가 작은 것(<0.05 or 0.01) 이 유의미한 변수임 (즉, $\beta=0$ 이라는 귀무가설을 기각할 수 있음)
[참조] 김성범 교수님의 https://www.youtube.com/watch?v=tpow70KGTYY 를 요약한 것입니다.
'Machine Learning > Statistics' 카테고리의 다른 글
Feature Transformation (0) | 2020.08.20 |
---|---|
Maximum Likelihood Estimation (MLE), Least Square Estimation (LSE) (0) | 2020.03.10 |
Entropy, Cross Entropy, KL-divergence (0) | 2020.03.10 |
상관 계수 (Pearson, Spearman) (0) | 2020.02.05 |
표준화(standardization)과 정규화(normalization) (0) | 2019.08.19 |