팬더 - 데이터 상관 관계


관계 찾기

Pandas 모듈의 가장 큰 특징은 corr()메서드입니다.

corr()방법은 데이터 세트의 각 열 간의 관계를 계산합니다.

이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다.

data.csv를 다운로드 합니다. 또는 data.csv 열기

예시

열 간의 관계를 표시합니다.

df.corr()

결과

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

참고:corr()방법은 "숫자가 아닌" 열을 무시합니다.

결과 설명

메서드 의 결과는 corr()두 열 사이의 관계가 얼마나 좋은지를 나타내는 많은 숫자가 있는 테이블입니다.

숫자는 -1에서 1까지 다양합니다.

1은 1:1 관계(완벽한 상관 관계)가 있음을 의미하며 이 데이터 세트의 경우 첫 번째 열의 값이 올라갈 때마다 다른 값도 올라갑니다.

0.9도 좋은 관계이며 한 값을 늘리면 다른 값도 함께 증가할 것입니다.

-0.9는 0.9만큼 좋은 관계이지만 한 값을 늘리면 다른 값은 낮아질 것입니다.

0.2는 좋은 관계가 아님을 의미합니다. 즉, 한 값이 올라간다고 다른 값이 올라가는 것은 아닙니다.

좋은 상관관계란 무엇인가? 용도에 따라 다르지만 좋은 상관관계라고 하기 위해서는 최소한 0.6(또는 )이 있어야 한다고 말하는 것이 안전하다고 생각합니다.-0.6

완벽한 상관관계:

"Duration"과 "Duration"에 숫자가 있음을 알 수 있습니다 1.000000. 각 열은 항상 자체적으로 완벽한 관계를 유지합니다.

좋은 상관관계:

"지속 시간"과 "칼로리"는 0.922721상관 관계가 있어 매우 좋은 상관 관계를 나타냅니다. 우리는 운동 시간이 길수록 더 많은 칼로리를 태우고 그 반대의 경우도 예측할 수 있습니다. 칼로리를 많이 소모한 경우 아마 오랜 시간 운동을 했을 것입니다.

나쁜 상관관계:

"Duration"과 "Maxpulse"는 0.009403상관 관계가 매우 나쁩니다. 즉, 운동 시간만 보고 최대 펄스를 예측할 수 없으며 그 반대의 경우도 마찬가지입니다.


연습으로 자신을 테스트하십시오

연습:

DataFrame에서 열 간의 관계를 찾기 위한 올바른 구문을 삽입하십시오.

df.()


w3schools CERTIFIED . 2021

인증을 받으세요!

Pandas 모듈을 완료하고, 연습을 수행하고, 시험에 응시하면 w3schools 인증을 받게 됩니다!

$10 등록