팬더 - 데이터 상관 관계
관계 찾기
Pandas 모듈의 가장 큰 특징은 corr()
메서드입니다.
이 corr()
방법은 데이터 세트의 각 열 간의 관계를 계산합니다.
이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다.
data.csv를 다운로드 합니다. 또는 data.csv 열기
예시
열 간의 관계를 표시합니다.
df.corr()
결과
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
참고:
이 corr()
방법은 "숫자가 아닌" 열을 무시합니다.
결과 설명
메서드 의 결과는 corr()
두 열 사이의 관계가 얼마나 좋은지를 나타내는 많은 숫자가 있는 테이블입니다.
숫자는 -1에서 1까지 다양합니다.
1은 1:1 관계(완벽한 상관 관계)가 있음을 의미하며 이 데이터 세트의 경우 첫 번째 열의 값이 올라갈 때마다 다른 값도 올라갑니다.
0.9도 좋은 관계이며 한 값을 늘리면 다른 값도 함께 증가할 것입니다.
-0.9는 0.9만큼 좋은 관계이지만 한 값을 늘리면 다른 값은 낮아질 것입니다.
0.2는 좋은 관계가 아님을 의미합니다. 즉, 한 값이 올라간다고 다른 값이 올라가는 것은 아닙니다.
좋은 상관관계란 무엇인가?
용도에 따라 다르지만 좋은 상관관계라고 하기 위해서는
최소한 0.6
(또는 )이 있어야 한다고 말하는 것이 안전하다고 생각합니다.-0.6
완벽한 상관관계:
"Duration"과 "Duration"에 숫자가 있음을 알 수 있습니다 1.000000
. 각 열은 항상 자체적으로 완벽한 관계를 유지합니다.
좋은 상관관계:
"지속 시간"과 "칼로리"는 0.922721
상관 관계가 있어 매우 좋은 상관 관계를 나타냅니다. 우리는 운동 시간이 길수록 더 많은 칼로리를 태우고 그 반대의 경우도 예측할 수 있습니다. 칼로리를 많이 소모한 경우 아마 오랜 시간 운동을 했을 것입니다.
나쁜 상관관계:
"Duration"과 "Maxpulse"는 0.009403
상관 관계가 매우 나쁩니다. 즉, 운동 시간만 보고 최대 펄스를 예측할 수 없으며 그 반대의 경우도 마찬가지입니다.