데이터 과학 - 회귀 테이블: P-값


회귀 테이블의 "계수 부분의 통계"

회귀 테이블 - 계수 통계

이제 선형 회귀 함수의 계수가 종속 변수(Calorie_Burnage)에 중요한 영향을 미치는지 테스트하려고 합니다.

즉, 통계 테스트를 사용하여 Average_Pulse와 Calorie_Burnage 사이에 관계가 있음을 증명하려는 것입니다.

계수의 통계를 설명하는 네 가지 구성 요소가 있습니다.

  • std err 은 표준 오류를 나타냅니다.
  • t 는 계수의 "t-값"입니다.
  • 피>|t| "P-값"이라고 합니다
  •  [0.025 0.975] 는 계수의 신뢰 구간을 나타냅니다.

이 모듈에서는 "P-값"을 이해하는 데 중점을 둘 것입니다.


P-값

P-value는 Average_Pulse와 Calorie_Burnage 사이에 관계가 있는지 판단하기 위한 통계적 수치입니다.

계수의 실제 값이 0(관계 없음)인지 테스트합니다. 이에 대한 통계적 검정을 가설 검정이라고 합니다.

  • 낮은 P-값(< 0.05)은 계수가 0과 같지 않을 가능성이 있음을 의미합니다.
  • 높은 P 값(> 0.05)은 설명 변수가 종속 변수에 영향을 미친다는 결론을 내릴 수 없음을 의미합니다(여기서: Average_Pulse가 Calorie_Burnage에 영향을 미치는 경우).
  • 높은 P 값은 중요하지 않은 P 값이라고도 합니다.

가설 검증

가설 검정은 결과가 유효한지 검정하기 위한 통계적 절차입니다.

이 예에서는 Average_Pulse와 절편의 실제 계수가 0인지 테스트하고 있습니다.

가설 검정에는 두 가지 진술이 있습니다. 귀무가설과 대립가설.

  • 귀무 가설은 간단히 H0로 쓸 수 있습니다.
  • 대립 가설은 간단히 HA로 작성할 수 있습니다.

수학적으로 작성:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

≠ 기호는 "같지 않음"을 의미합니다.


가설 검정 및 P-값

귀무가설은 기각되거나 기각될 수 있습니다.

귀무가설을 기각하면 Average_Pulse와 Calorie_Burnage 사이에 관계가 존재한다는 결론을 내립니다. 이 결론을 위해 P-값이 사용됩니다.

P-값의 공통 임계값은 0.05입니다.

참고: P-값이 0.05이면 5%의 경우 귀무 가설을 거짓으로 기각합니다. 그것은 우리가 5%의 경우에 우리가 거짓으로 관계를 맺었을 수도 있다는 것을 받아들인다는 것을 의미합니다.

P-값이 0.05보다 낮으면 귀무가설을 기각하고 변수 사이에 관계가 있다는 결론을 내릴 수 있습니다.

그러나 Average_Pulse의 P 값은 0.824입니다. 따라서 Average_Pulse와 Calorie_Burnage 간의 관계를 결론지을 수 없습니다.

이는 Average_Pulse의 실제 계수가 0일 확률이 82.4%임을 의미합니다.

절편은 회귀 함수의 더 정확하게 예측하는 기능을 조정하는 데 사용됩니다. 따라서 절편의 P-값을 해석하는 것은 드문 일입니다.