데이터 과학 - 통계 차이
변화
분산은 값이 얼마나 퍼져 있는지를 나타내는 또 다른 숫자입니다.
사실 분산의 제곱근을 취하면 표준편차가 나옵니다. 또는 반대로 표준편차를 곱하면 분산이 나옵니다!
먼저 10개의 관측치가 있는 데이터 세트를 사용하여 분산을 계산하는 방법의 예를 제공합니다.
지속 | Average_Pulse | Max_Pulse | 칼로리_소모 | 근무시간_근무 | 시간_수면 |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
분산은 종종 기호 시그마 제곱으로 표현됩니다. σ^2
분산 계산을 위한 1단계: 평균 찾기
Average_Pulse의 분산을 찾고 싶습니다.
1. 평균 찾기:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
평균은 102.5
2단계: 각 값에 대해 - 평균과의 차이 찾기
2. 각 값의 평균과의 차이를 찾습니다.
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
3단계: 각 차이에 대해 - 제곱 값 찾기
3. 각 차이에 대한 제곱 값을 찾습니다.
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
참고: 전체 스프레드를 얻으려면 값을 제곱해야 합니다.
4단계: 분산은 이러한 제곱 값의 평균 수입니다.
4. 제곱 값을 합하고 평균을 찾습니다.
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
분산은 206.25입니다.
Python을 사용하여 health_data의 분산 찾기
Numpy의 함수를 사용 var()
하여 분산을 찾을 수 있습니다(이제 10개의 관측치가 포함된 첫 번째 데이터 세트를 사용함을 기억하십시오).
예시
import numpy as np
var = np.var(health_data)
print(var)
출력:
Python을 사용하여 전체 데이터 세트의 분산 찾기
여기에서 전체 데이터 세트에 대한 각 열의 분산을 계산합니다.
예시
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
출력: