데이터 과학 - 회귀 테이블: R-제곱


R - 제곱

R-제곱 및 조정된 R-제곱은 선형 회귀 모델이 데이터 요소에 얼마나 잘 맞는지 설명합니다.

회귀 테이블 - 계수 통계

R-제곱의 값은 항상 0에서 1(0%에서 100%) 사이입니다.

  • 높은 R-제곱 값은 많은 데이터 포인트가 선형 회귀 함수 라인에 가깝다는 것을 의미합니다.
  • 낮은 R-제곱 값은 선형 회귀 함수 라인이 데이터에 잘 맞지 않는다는 것을 의미합니다.

낮은 R의 시각적 예 - 제곱 값(0.00)

우리의 회귀 모델은 0의 R-제곱 값을 보여줍니다. 이는 선형 회귀 함수 라인이 데이터에 잘 맞지 않는다는 것을 의미합니다.

이는 Average_Pulse 및 Calorie_Burnage의 데이터 포인트를 통해 선형 회귀 함수를 플롯할 때 시각화할 수 있습니다.

낮은 R - 제곱 값(0.00)

높은 R의 시각적 예 - 제곱 값(0.79)

그러나 DurationCalorie_Burnage 를 플롯 하면 R-제곱이 증가합니다. 여기에서 데이터 포인트가 선형 회귀 함수 라인에 가깝다는 것을 알 수 있습니다.

낮은 R - 제곱 값(0.00)

다음은 Python의 코드입니다.

예시

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

요약 - Average_Pulse를 사용한 칼로리 소모량 예측

Average_Pulse를 설명 변수로 사용하여 선형 회귀 함수를 요약할 수 있습니까?

  • 계수 0.3296은 Average_Pulse가 Calorie_Burnage에 미치는 영향이 매우 작다는 것을 의미합니다.
  • 높은 P 값(0.824)은 Average_Pulse와 Calorie_Burnage 간의 관계를 결론지을 수 없음을 의미합니다.
  • R-제곱 값이 0이며 이는 선형 회귀 함수 라인이 데이터에 잘 맞지 않음을 의미합니다.