기계 학습 - 데이터 배포

❮ 이전의 다음 ❯

데이터 배포

이 자습서의 앞부분에서 다른 개념을 이해하기 위해 예제에서 매우 적은 양의 데이터로 작업했습니다.

현실 세계에서 데이터 세트는 훨씬 더 크지만 적어도 프로젝트의 초기 단계에서는 실제 데이터를 수집하기 어려울 수 있습니다.

빅 데이터 세트를 어떻게 얻을 수 있습니까?

테스트를 위한 빅 데이터 세트를 생성하기 위해 Python 모듈 NumPy를 사용합니다. 이 모듈에는 모든 크기의 임의 데이터 세트를 생성하는 다양한 방법이 포함되어 있습니다.

예시

0과 5 사이의 임의의 부동 소수점 250개를 포함하는 배열을 만듭니다.

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

히스토그램

데이터 세트를 시각화하기 위해 수집한 데이터로 히스토그램을 그릴 수 있습니다.

우리는 히스토그램을 그리기 위해 Python 모듈 Matplotlib를 사용할 것입니다.

Matplotlib Tutorial 에서 Matplotlib 모듈에 대해 알아보세요 .

예시

히스토그램 그리기:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

결과:

히스토그램 설명

위 예제의 배열을 사용하여 막대가 5개인 히스토그램을 그립니다.

첫 번째 막대는 배열에서 0과 1 사이에 있는 값의 수를 나타냅니다.

두 번째 막대는 1과 2 사이에 있는 값의 수를 나타냅니다.

등.

결과는 다음과 같습니다.

52개의 값은 0과 1 사이입니다.
48개의 값은 1과 2 사이입니다.
49개의 값은 2와 3 사이입니다.
51개의 값은 3과 4 사이입니다.
50개의 값은 4에서 5 사이입니다.

참고: 배열 값은 난수이며 컴퓨터에서 정확히 동일한 결과를 표시하지 않습니다.

빅데이터 분포

250개의 값을 포함하는 배열은 그다지 크지 않은 것으로 간주되지만 이제 임의의 값 집합을 만드는 방법을 알고 매개 변수를 변경하여 원하는 만큼 큰 데이터 집합을 만들 수 있습니다.

예시

100000개의 난수로 구성된 배열을 만들고 100개의 막대가 있는 히스토그램을 사용하여 표시합니다.

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

❮ 이전의 다음 ❯

파이썬 튜토리얼

파일 처리

파이썬 모듈

파이썬 Matplotlib

기계 학습

파이썬 MySQL

파이썬 몽고DB

파이썬 참조

모듈 참조

파이썬 방법

파이썬 예제