데이터 과학 - 통계 상관 관계 대 인과 ​​관계


상관관계가 인과관계를 의미하지 않음

상관 관계는 두 변수 간의 수치적 관계를 측정합니다.

높은 상관 계수(1에 가까움)는 두 변수 간의 실제 관계를 확실히 결론지을 수 있음을 의미하지 않습니다.

고전적인 예:

  • 여름에는 해변에서 아이스크림 판매가 증가합니다.
  • 동시에 익사사고도 증가한다.

아이스크림 판매 증가가 익사사고 증가의 직접적인 원인이라는 뜻인가?


Python의 해변 예제

여기에서 시도할 수 있는 가상 데이터 세트를 구성했습니다.

예시

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

산출:

상관관계 대 인과관계

상관 관계 대 인과 ​​관계 - 해변의 예

즉, 아이스크림 판매를 사용하여 익사 사고를 예측할 수 있습니까?

대답은 - 아마 아닐 것입니다.

이 두 변수가 우연히 서로 상관관계가 있을 가능성이 있습니다.

그렇다면 익사의 원인은 무엇입니까?

  • 비숙련 수영
  • 파도
  • 발작 장애
  • 감독 부족
  • 알코올(오용) 사용
  • 등.

주장을 뒤집자:

낮은 상관 계수(0에 가까움)는 x의 변화가 y에 영향을 미치지 않는다는 것을 의미합니까?

질문으로 돌아가기:

  • Average_Pulse가 낮은 상관 계수 때문에 Calorie_Burnage에 영향을 미치지 않는다고 결론을 내릴 수 있습니까?

대답은 '아니오.

상관관계와 인과관계 사이에는 중요한 차이가 있습니다.

  • 상관관계는 데이터가 얼마나 밀접하게 관련되어 있는지를 측정하는 숫자입니다.
  • 인과관계는 x가 y를 유발한다는 결론입니다.

그러므로 우리가 예측을 할 때 인과관계의 개념을 비판적으로 반영하는 것이 중요합니다!