데이터 과학 - 통계 상관 관계


상관 관계

상관 관계는 두 변수 간의 관계를 측정합니다.

함수는 입력(x)을 출력(f(x))으로 변환하여 값을 예측하는 목적이 있다고 언급했습니다. 함수가 예측을 위해 두 변수 간의 관계를 사용한다고 말할 수도 있습니다.


상관 계수

상관 계수는 두 변수 간의 관계를 측정합니다.

상관 계수는 -1보다 작거나 1보다 클 수 없습니다.

  • 1 = 변수 간에 완벽한 선형 관계가 있습니다(예: Average_Pulse 대 Calorie_Burnage).
  • 0 = 변수 사이에 선형 관계가 없음
  • -1 = 변수 간에 완벽한 음의 선형 관계가 있습니다(예: 근무 시간이 적으면 훈련 세션 동안 칼로리 소모가 더 높음).

완벽한 선형 관계의 예(상관 계수 = 1)

우리는 Average_Pulse와 Calorie_Burnage 간의 관계를 시각화하기 위해 산점도를 사용할 것입니다(10개의 관찰이 있는 스포츠 시계의 작은 데이터 세트를 사용했습니다).

이번에는 산점도를 원하므로 종류를 "산란"으로 변경합니다.

예시

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

산출:

상관 계수 = 1

앞서 보았듯이 Average_Pulse와 Calorie_Burnage 사이에는 완벽한 선형 관계가 존재합니다.



완전한 음의 선형 관계의 예(상관 계수 = -1)

상관 계수 = -1

우리는 여기에 가상 데이터를 플로팅했습니다. x축은 교육 세션 전에 직장에서 근무한 시간을 나타냅니다. y축은 Calorie_Burnage입니다.

우리가 더 오랜 시간 일하면 훈련 세션 전에 지쳤기 때문에 칼로리 소모가 더 낮은 경향이 있습니다.

여기서 상관 계수는 -1입니다.

예시

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

선형 관계가 없는 예(상관 계수 = 0)

상관 계수 = 0

여기에서는 full_health_data 세트의 Duration에 대해 Max_Pulse를 플로팅했습니다.

보시다시피 두 변수 사이에는 선형 관계가 없습니다. 이는 더 긴 훈련 세션이 더 높은 Max_Pulse로 이어지지 않는다는 것을 의미합니다.

여기서 상관 계수는 0입니다.

예시

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()