데이터 과학 - 통계 상관 관계
상관 관계
상관 관계는 두 변수 간의 관계를 측정합니다.
함수는 입력(x)을 출력(f(x))으로 변환하여 값을 예측하는 목적이 있다고 언급했습니다. 함수가 예측을 위해 두 변수 간의 관계를 사용한다고 말할 수도 있습니다.
상관 계수
상관 계수는 두 변수 간의 관계를 측정합니다.
상관 계수는 -1보다 작거나 1보다 클 수 없습니다.
- 1 = 변수 간에 완벽한 선형 관계가 있습니다(예: Average_Pulse 대 Calorie_Burnage).
- 0 = 변수 사이에 선형 관계가 없음
- -1 = 변수 간에 완벽한 음의 선형 관계가 있습니다(예: 근무 시간이 적으면 훈련 세션 동안 칼로리 소모가 더 높음).
완벽한 선형 관계의 예(상관 계수 = 1)
우리는 Average_Pulse와 Calorie_Burnage 간의 관계를 시각화하기 위해 산점도를 사용할 것입니다(10개의 관찰이 있는 스포츠 시계의 작은 데이터 세트를 사용했습니다).
이번에는 산점도를 원하므로 종류를 "산란"으로 변경합니다.
예시
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
산출:
앞서 보았듯이 Average_Pulse와 Calorie_Burnage 사이에는 완벽한 선형 관계가 존재합니다.
완전한 음의 선형 관계의 예(상관 계수 = -1)
우리는 여기에 가상 데이터를 플로팅했습니다. x축은 교육 세션 전에 직장에서 근무한 시간을 나타냅니다. y축은 Calorie_Burnage입니다.
우리가 더 오랜 시간 일하면 훈련 세션 전에 지쳤기 때문에 칼로리 소모가 더 낮은 경향이 있습니다.
여기서 상관 계수는 -1입니다.
예시
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
선형 관계가 없는 예(상관 계수 = 0)
여기에서는 full_health_data 세트의 Duration에 대해 Max_Pulse를 플로팅했습니다.
보시다시피 두 변수 사이에는 선형 관계가 없습니다. 이는 더 긴 훈련 세션이 더 높은 Max_Pulse로 이어지지 않는다는 것을 의미합니다.
여기서 상관 계수는 0입니다.
예시
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()