데이터 과학 - 통계 상관 관계 대 인과 관계
상관관계가 인과관계를 의미하지 않음
상관 관계는 두 변수 간의 수치적 관계를 측정합니다.
높은 상관 계수(1에 가까움)는 두 변수 간의 실제 관계를 확실히 결론지을 수 있음을 의미하지 않습니다.
고전적인 예:
- 여름에는 해변에서 아이스크림 판매가 증가합니다.
- 동시에 익사사고도 증가한다.
아이스크림 판매 증가가 익사사고 증가의 직접적인 원인이라는 뜻인가?
Python의 해변 예제
여기에서 시도할 수 있는 가상 데이터 세트를 구성했습니다.
예시
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
산출:
상관 관계 대 인과 관계 - 해변의 예
즉, 아이스크림 판매를 사용하여 익사 사고를 예측할 수 있습니까?
대답은 - 아마 아닐 것입니다.
이 두 변수가 우연히 서로 상관관계가 있을 가능성이 있습니다.
그렇다면 익사의 원인은 무엇입니까?
- 비숙련 수영
- 파도
- 쥐
- 발작 장애
- 감독 부족
- 알코올(오용) 사용
- 등.
주장을 뒤집자:
낮은 상관 계수(0에 가까움)는 x의 변화가 y에 영향을 미치지 않는다는 것을 의미합니까?
질문으로 돌아가기:
- Average_Pulse가 낮은 상관 계수 때문에 Calorie_Burnage에 영향을 미치지 않는다고 결론을 내릴 수 있습니까?
대답은 '아니오.
상관관계와 인과관계 사이에는 중요한 차이가 있습니다.
- 상관관계는 데이터가 얼마나 밀접하게 관련되어 있는지를 측정하는 숫자입니다.
- 인과관계는 x가 y를 유발한다는 결론입니다.
그러므로 우리가 예측을 할 때 인과관계의 개념을 비판적으로 반영하는 것이 중요합니다!