파이썬 튜토리얼

파이썬 홈 파이썬 소개 파이썬 시작하기 파이썬 구문 파이썬 주석 파이썬 변수 파이썬 데이터 유형 파이썬 숫자 파이썬 캐스팅 파이썬 문자열 파이썬 부울 파이썬 연산자 파이썬 목록 파이썬 튜플 파이썬 세트 파이썬 사전 파이썬 If...Else 파이썬 while 루프 Python For 루프 파이썬 함수 파이썬 람다 파이썬 배열 파이썬 클래스/객체 파이썬 상속 파이썬 반복자 파이썬 범위 파이썬 모듈 파이썬 날짜 파이썬 수학 파이썬 JSON 파이썬 정규식 파이썬 PIP 파이썬 시도...제외 파이썬 사용자 입력 파이썬 문자열 포맷

파일 처리

파이썬 파일 처리 파이썬 읽기 파일 Python 파일 작성/작성 파이썬 파일 삭제

파이썬 모듈

넘파이 튜토리얼 팬더 연습 사이피 튜토리얼

파이썬 Matplotlib

Matplotlib 소개 Matplotlib 시작하기 Matplotlib 파이플로트 Matplotlib 플로팅 Matplotlib 마커 Matplotlib 라인 Matplotlib 레이블 Matplotlib 그리드 Matplotlib 서브플롯 Matplotlib 분산 Matplotlib 바 Matplotlib 히스토그램 Matplotlib 파이 차트

기계 학습

시작하기 평균 중앙값 모드 표준 편차 백분위수 데이터 배포 정규 데이터 분포 산포도 선형 회귀 다항식 회귀 다중 회귀 규모 훈련/시험 의사결정나무

파이썬 MySQL

MySQL 시작하기 MySQL 데이터베이스 생성 MySQL 테이블 생성 MySQL 삽입 MySQL 선택 MySQL 어디 MySQL 주문 기준 MySQL 삭제 MySQL 삭제 테이블 MySQL 업데이트 MySQL 제한 MySQL 조인

파이썬 몽고DB

몽고DB 시작하기 MongoDB 데이터베이스 생성 MongoDB 컬렉션 생성 몽고DB 삽입 몽고DB 찾기 몽고DB 쿼리 몽고DB 정렬 몽고DB 삭제 MongoDB 드롭 컬렉션 몽고DB 업데이트 몽고DB 제한

파이썬 참조

파이썬 개요 파이썬 내장 함수 파이썬 문자열 메서드 파이썬 목록 메서드 파이썬 사전 메서드 파이썬 튜플 메서드 파이썬 세트 메소드 파이썬 파일 메서드 파이썬 키워드 파이썬 예외 파이썬 용어집

모듈 참조

랜덤 모듈 요청 모듈 통계 모듈 수학 모듈 cMath 모듈

파이썬 방법

목록 중복 제거 문자열 반전 두 개의 숫자 더하기

파이썬 예제

파이썬 예제 파이썬 컴파일러 파이썬 연습 파이썬 퀴즈 파이썬 인증서

기계 학습 - 산점도


산포도

산점도는 데이터 세트의 각 값이 점으로 표시되는 다이어그램입니다.

Matplotlib 모듈에는 산점도를 그리는 방법이 있습니다. 동일한 길이의 배열 두 개가 필요합니다. 하나는 x축 값용이고 다른 하나는 y축 값용입니다.

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]

y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

배열은 각 자동차 의 x나이를 나타냅니다.

y배열은 각 자동차의 속도를 나타냅니다 .

예시

이 방법을 사용 scatter()하여 산점도 다이어그램을 그립니다.

import matplotlib.pyplot as plt

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

plt.scatter(x, y)
plt.show()

결과:

산점도 설명

x축은 연령을 나타내고 y축은 속도를 나타냅니다.

도표에서 읽을 수 있는 것은 가장 빠른 두 대의 자동차는 모두 2년이고 가장 느린 자동차는 12년된 것입니다.

참고: 새 차일수록 더 빨리 달리는 것 같지만 결국 13대만 등록했기 때문에 우연의 일치일 수도 있습니다.



무작위 데이터 분포

Machine Learning에서 데이터 세트에는 수천 또는 수백만 개의 값이 포함될 수 있습니다.

알고리즘을 테스트할 때 실제 데이터가 없을 수도 있고 무작위로 생성된 값을 사용해야 할 수도 있습니다.

이전 장에서 배웠듯이 NumPy 모듈이 이를 도와줄 수 있습니다!

정규 데이터 분포에서 1000개의 난수로 채워진 두 개의 배열을 생성해 보겠습니다.

첫 번째 배열의 평균은 5.0으로 설정되고 표준 편차는 1.0입니다.

두 번째 배열의 평균은 10.0으로 설정되고 표준 편차는 2.0입니다.

예시

1000개의 점이 있는 산점도:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)

plt.scatter(x, y)
plt.show()

결과:

산점도 설명

x축의 값 5와 y축의 값 10 주위에 점이 집중되어 있는 것을 볼 수 있습니다.

또한 스프레드가 x축보다 y축에서 더 넓은 것을 볼 수 있습니다.