데이터 과학 - 통계 상관 관계 매트릭스


상관 행렬

행렬은 행과 열로 배열된 숫자의 배열입니다.

상관 행렬은 단순히 변수 간의 상관 계수를 보여주는 표입니다.

여기에서 변수는 첫 번째 행과 첫 번째 열에 표시됩니다.

상관 행렬

위의 표는 전체 건강 데이터 세트의 데이터를 사용했습니다.

관찰:

  • Duration과 Calorie_Burnage는 상관 계수가 0.89로 밀접하게 관련되어 있음을 알 수 있습니다. 이것은 우리가 더 오래 훈련할수록 더 많은 칼로리를 태울수록 의미가 있습니다.
  • Average_Pulse와 Calorie_Burnage(상관 계수 0.02) 간에 선형 관계가 거의 없음을 관찰했습니다.
  • Average_Pulse가 Calorie_Burnage에 영향을 미치지 않는다는 결론을 내릴 수 있습니까? 아니요. 나중에 이 질문에 답하기 위해 다시 돌아올 것입니다!

파이썬의 상관 행렬

corr()파이썬에서 함수를 사용하여 상관 행렬을 만들 수 있습니다 . 또한 이 round()함수를 사용하여 출력을 소수점 이하 두 자리로 반올림합니다.

예시

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

산출:

상관 행렬

히트맵 사용

히트맵을 사용하여 변수 간의 상관 관계를 시각화할 수 있습니다.

상관 히트맵

상관 계수가 1에 가까울수록 사각형이 녹색을 띠게 됩니다.

상관 계수가 -1에 가까울수록 사각형이 더 갈색이 됩니다.


Seaborn을 사용하여 히트맵 생성

Seaborn 라이브러리를 사용하여 상관 열 지도를 생성할 수 있습니다(Seaborn은 matplotlib를 기반으로 하는 시각화 라이브러리).

예시

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

설명된 예:

  • 라이브러리 seaborn을 sns로 가져옵니다.
  • full_health_data 세트를 사용하십시오.
  • sn.heatmap()을 사용하여 히트맵이 상관 행렬을 시각화하기를 원한다고 Python에 알립니다.
  • 상관 행렬을 사용합니다. 히트맵의 최대값과 최소값을 정의합니다. 0이 중심임을 정의합니다.
  • sns.diverging_palette로 색상을 정의합니다. n=500은 동일한 색상 팔레트에 500가지 유형의 색상이 필요함을 의미합니다.
  • square = True는 사각형을 보고 싶다는 의미입니다.