파이썬 튜토리얼

파이썬 홈 파이썬 소개 파이썬 시작하기 파이썬 구문 파이썬 주석 파이썬 변수 파이썬 데이터 유형 파이썬 숫자 파이썬 캐스팅 파이썬 문자열 파이썬 부울 파이썬 연산자 파이썬 목록 파이썬 튜플 파이썬 세트 파이썬 사전 파이썬 If...Else 파이썬 while 루프 Python For 루프 파이썬 함수 파이썬 람다 파이썬 배열 파이썬 클래스/객체 파이썬 상속 파이썬 반복자 파이썬 범위 파이썬 모듈 파이썬 날짜 파이썬 수학 파이썬 JSON 파이썬 정규식 파이썬 PIP 파이썬 시도...제외 파이썬 사용자 입력 파이썬 문자열 포맷

파일 처리

파이썬 파일 처리 파이썬 읽기 파일 Python 파일 작성/작성 파이썬 파일 삭제

파이썬 모듈

넘파이 튜토리얼 팬더 연습 사이피 튜토리얼

파이썬 Matplotlib

Matplotlib 소개 Matplotlib 시작하기 Matplotlib 파이플로트 Matplotlib 플로팅 Matplotlib 마커 Matplotlib 라인 Matplotlib 레이블 Matplotlib 그리드 Matplotlib 서브플롯 Matplotlib 분산 Matplotlib 바 Matplotlib 히스토그램 Matplotlib 파이 차트

기계 학습

시작하기 평균 중앙값 모드 표준 편차 백분위수 데이터 배포 정규 데이터 분포 산포도 선형 회귀 다항식 회귀 다중 회귀 규모 훈련/시험 의사결정나무

파이썬 MySQL

MySQL 시작하기 MySQL 데이터베이스 생성 MySQL 테이블 생성 MySQL 삽입 MySQL 선택 MySQL 어디 MySQL 주문 기준 MySQL 삭제 MySQL 삭제 테이블 MySQL 업데이트 MySQL 제한 MySQL 조인

파이썬 몽고DB

몽고DB 시작하기 MongoDB 데이터베이스 생성 MongoDB 컬렉션 생성 몽고DB 삽입 몽고DB 찾기 몽고DB 쿼리 몽고DB 정렬 몽고DB 삭제 MongoDB 드롭 컬렉션 몽고DB 업데이트 몽고DB 제한

파이썬 참조

파이썬 개요 파이썬 내장 함수 파이썬 문자열 메서드 파이썬 목록 메서드 파이썬 사전 메서드 파이썬 튜플 메서드 파이썬 세트 메소드 파이썬 파일 메서드 파이썬 키워드 파이썬 예외 파이썬 용어집

모듈 참조

랜덤 모듈 요청 모듈 통계 모듈 수학 모듈 cMath 모듈

파이썬 방법

목록 중복 제거 문자열 반전 두 개의 숫자 더하기

파이썬 예제

파이썬 예제 파이썬 컴파일러 파이썬 연습 파이썬 퀴즈 파이썬 인증서

기계 학습 - 데이터 배포


데이터 배포

이 자습서의 앞부분에서 다른 개념을 이해하기 위해 예제에서 매우 적은 양의 데이터로 작업했습니다.

현실 세계에서 데이터 세트는 훨씬 더 크지만 적어도 프로젝트의 초기 단계에서는 실제 데이터를 수집하기 어려울 수 있습니다.

빅 데이터 세트를 어떻게 얻을 수 있습니까?

테스트를 위한 빅 데이터 세트를 생성하기 위해 Python 모듈 NumPy를 사용합니다. 이 모듈에는 모든 크기의 임의 데이터 세트를 생성하는 다양한 방법이 포함되어 있습니다.

예시

0과 5 사이의 임의의 부동 소수점 250개를 포함하는 배열을 만듭니다.

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

히스토그램

데이터 세트를 시각화하기 위해 수집한 데이터로 히스토그램을 그릴 수 있습니다.

우리는 히스토그램을 그리기 위해 Python 모듈 Matplotlib를 사용할 것입니다.

Matplotlib Tutorial 에서 Matplotlib 모듈에 대해 알아보세요 .

예시

히스토그램 그리기:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

결과:

히스토그램 설명

위 예제의 배열을 사용하여 막대가 5개인 히스토그램을 그립니다.

첫 번째 막대는 배열에서 0과 1 사이에 있는 값의 수를 나타냅니다.

두 번째 막대는 1과 2 사이에 있는 값의 수를 나타냅니다.

등.

결과는 다음과 같습니다.

  • 52개의 값은 0과 1 사이입니다.
  • 48개의 값은 1과 2 사이입니다.
  • 49개의 값은 2와 3 사이입니다.
  • 51개의 값은 3과 4 사이입니다.
  • 50개의 값은 4에서 5 사이입니다.

참고: 배열 값은 난수이며 컴퓨터에서 정확히 동일한 결과를 표시하지 않습니다.

빅데이터 분포

250개의 값을 포함하는 배열은 그다지 크지 않은 것으로 간주되지만 이제 임의의 값 집합을 만드는 방법을 알고 매개 변수를 변경하여 원하는 만큼 큰 데이터 집합을 만들 수 있습니다.

예시

100000개의 난수로 구성된 배열을 만들고 100개의 막대가 있는 히스토그램을 사용하여 표시합니다.

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()