기계 학습 - 표준 편차
표준 편차란 무엇입니까?
표준 편차는 값이 얼마나 퍼져 있는지를 설명하는 숫자입니다.
낮은 표준 편차는 대부분의 숫자가 평균(평균) 값에 가깝다는 것을 의미합니다.
표준 편차가 높다는 것은 값이 더 넓은 범위에 분포되어 있음을 의미합니다.
예: 이번에는 자동차 7대의 속도를 등록했습니다.
speed = [86,87,88,86,87,85,86]
표준 편차는 다음과 같습니다.
0.9
대부분의 값이 평균값인 86.4에서 0.9의 범위 내에 있음을 의미합니다.
더 넓은 범위의 숫자를 선택하여 동일한 작업을 수행해 보겠습니다.
speed = [32,111,138,28,59,77,97]
표준 편차는 다음과 같습니다.
37.85
대부분의 값이 평균값인 77.4에서 37.85의 범위 내에 있음을 의미합니다.
보시다시피 표준 편차가 높을수록 값이 더 넓은 범위에 퍼져 있음을 나타냅니다.
NumPy 모듈에는 표준 편차를 계산하는 방법이 있습니다.
예시
NumPy std()
방법을 사용하여 표준 편차를 찾습니다.
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
예시
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
변화
분산은 값이 얼마나 퍼져 있는지를 나타내는 또 다른 숫자입니다.
사실 분산의 제곱근을 취하면 표준편차가 나옵니다!
또는 반대로 표준편차를 곱하면 분산이 나옵니다!
분산을 계산하려면 다음과 같이 해야 합니다.
1. 평균 찾기:
(32+111+138+28+59+77+97) / 7 = 77.4
2. 각 값에 대해 평균과의 차이를 찾습니다.
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. 각 차이에 대해 다음과 같이 제곱 값을 찾습니다.
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. 분산은 다음 제곱 차이의 평균 수입니다.
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
운 좋게도 NumPy에는 분산을 계산하는 방법이 있습니다.
예시
NumPy var()
메서드를 사용하여 분산을 찾습니다.
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
표준 편차
우리가 배웠듯이 표준 편차를 찾는 공식은 분산의 제곱근입니다.
√1432.25 = 37.85
또는 이전 예제와 같이 NumPy를 사용하여 표준 편차를 계산합니다.
예시
NumPy std()
방법을 사용하여 표준 편차를 찾습니다.
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
기호
표준 편차는 종종 기호 시그마로 표시됩니다. σ
분산은 종종 기호 시그마 제곱: σ 2 로 표시됩니다.
단원 요약
표준 편차 및 분산은 머신 러닝에서 자주 사용되는 용어이므로 이를 얻는 방법과 그 이면의 개념을 이해하는 것이 중요합니다.