기계 학습 - 데이터 배포
데이터 배포
이 자습서의 앞부분에서 다른 개념을 이해하기 위해 예제에서 매우 적은 양의 데이터로 작업했습니다.
현실 세계에서 데이터 세트는 훨씬 더 크지만 적어도 프로젝트의 초기 단계에서는 실제 데이터를 수집하기 어려울 수 있습니다.
빅 데이터 세트를 어떻게 얻을 수 있습니까?
테스트를 위한 빅 데이터 세트를 생성하기 위해 Python 모듈 NumPy를 사용합니다. 이 모듈에는 모든 크기의 임의 데이터 세트를 생성하는 다양한 방법이 포함되어 있습니다.
예시
0과 5 사이의 임의의 부동 소수점 250개를 포함하는 배열을 만듭니다.
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
히스토그램
데이터 세트를 시각화하기 위해 수집한 데이터로 히스토그램을 그릴 수 있습니다.
우리는 히스토그램을 그리기 위해 Python 모듈 Matplotlib를 사용할 것입니다.
Matplotlib Tutorial 에서 Matplotlib 모듈에 대해 알아보세요 .
예시
히스토그램 그리기:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
결과:
히스토그램 설명
위 예제의 배열을 사용하여 막대가 5개인 히스토그램을 그립니다.
첫 번째 막대는 배열에서 0과 1 사이에 있는 값의 수를 나타냅니다.
두 번째 막대는 1과 2 사이에 있는 값의 수를 나타냅니다.
등.
결과는 다음과 같습니다.
- 52개의 값은 0과 1 사이입니다.
- 48개의 값은 1과 2 사이입니다.
- 49개의 값은 2와 3 사이입니다.
- 51개의 값은 3과 4 사이입니다.
- 50개의 값은 4에서 5 사이입니다.
참고: 배열 값은 난수이며 컴퓨터에서 정확히 동일한 결과를 표시하지 않습니다.
빅데이터 분포
250개의 값을 포함하는 배열은 그다지 크지 않은 것으로 간주되지만 이제 임의의 값 집합을 만드는 방법을 알고 매개 변수를 변경하여 원하는 만큼 큰 데이터 집합을 만들 수 있습니다.
예시
100000개의 난수로 구성된 배열을 만들고 100개의 막대가 있는 히스토그램을 사용하여 표시합니다.
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()