데이터 과학 - 통계 차이


변화

분산은 값이 얼마나 퍼져 있는지를 나타내는 또 다른 숫자입니다.

사실 분산의 제곱근을 취하면 표준편차가 나옵니다. 또는 반대로 표준편차를 곱하면 분산이 나옵니다!

먼저 10개의 관측치가 있는 데이터 세트를 사용하여 분산을 계산하는 방법의 예를 제공합니다.

지속 Average_Pulse Max_Pulse 칼로리_소모 근무시간_근무 시간_수면
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

분산은 종종 기호 시그마 제곱으로 표현됩니다. σ^2


분산 계산을 위한 1단계: 평균 찾기

Average_Pulse의 분산을 찾고 싶습니다.

1. 평균 찾기:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

평균은 102.5


2단계: 각 값에 대해 - 평균과의 차이 찾기

2. 각 값의 평균과의 차이를 찾습니다.

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

3단계: 각 차이에 대해 - 제곱 값 찾기

3. 각 차이에 대한 제곱 값을 찾습니다.

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

참고: 전체 스프레드를 얻으려면 값을 제곱해야 합니다.



4단계: 분산은 이러한 제곱 값의 평균 수입니다.

4. 제곱 값을 합하고 평균을 찾습니다.

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

분산은 206.25입니다.


Python을 사용하여 health_data의 분산 찾기

Numpy의 함수를 사용 var()하여 분산을 찾을 수 있습니다(이제 10개의 관측치가 포함된 첫 번째 데이터 세트를 사용함을 기억하십시오).

예시

import numpy as np

var = np.var(health_data)
print(var)

출력:

변화

Python을 사용하여 전체 데이터 세트의 분산 찾기

여기에서 전체 데이터 세트에 대한 각 열의 분산을 계산합니다.

예시

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

출력:

변화