데이터 과학 - 통계 차이

변화

분산은 값이 얼마나 퍼져 있는지를 나타내는 또 다른 숫자입니다.

사실 분산의 제곱근을 취하면 표준편차가 나옵니다. 또는 반대로 표준편차를 곱하면 분산이 나옵니다!

먼저 10개의 관측치가 있는 데이터 세트를 사용하여 분산을 계산하는 방법의 예를 제공합니다.

지속	Average_Pulse	Max_Pulse	칼로리_소모	근무시간_근무	시간_수면
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

분산은 종종 기호 시그마 제곱으로 표현됩니다. σ^2

분산 계산을 위한 1단계: 평균 찾기

Average_Pulse의 분산을 찾고 싶습니다.

1. 평균 찾기:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

평균은 102.5

2단계: 각 값에 대해 - 평균과의 차이 찾기

2. 각 값의 평균과의 차이를 찾습니다.

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

3단계: 각 차이에 대해 - 제곱 값 찾기

3. 각 차이에 대한 제곱 값을 찾습니다.

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

참고: 전체 스프레드를 얻으려면 값을 제곱해야 합니다.

4단계: 분산은 이러한 제곱 값의 평균 수입니다.

4. 제곱 값을 합하고 평균을 찾습니다.

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

분산은 206.25입니다.

Python을 사용하여 health_data의 분산 찾기

Numpy의 함수를 사용 var()하여 분산을 찾을 수 있습니다(이제 10개의 관측치가 포함된 첫 번째 데이터 세트를 사용함을 기억하십시오).

예시

import numpy as np

var = np.var(health_data)
print(var)

출력:

Python을 사용하여 전체 데이터 세트의 분산 찾기

여기에서 전체 데이터 세트에 대한 각 열의 분산을 계산합니다.

예시

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

출력:

❮ 이전의 다음 ❯