기계 학습 - 산점도
산포도
산점도는 데이터 세트의 각 값이 점으로 표시되는 다이어그램입니다.
Matplotlib 모듈에는 산점도를 그리는 방법이 있습니다. 동일한 길이의 배열 두 개가 필요합니다. 하나는 x축 값용이고 다른 하나는 y축 값용입니다.
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
배열은 각 자동차 의 x
나이를 나타냅니다.
y
배열은 각 자동차의 속도를 나타냅니다 .
예시
이 방법을 사용 scatter()
하여 산점도 다이어그램을 그립니다.
import matplotlib.pyplot as plt
x =
[5,7,8,7,2,17,2,9,4,11,12,9,6]
y =
[99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
결과:
산점도 설명
x축은 연령을 나타내고 y축은 속도를 나타냅니다.
도표에서 읽을 수 있는 것은 가장 빠른 두 대의 자동차는 모두 2년이고 가장 느린 자동차는 12년된 것입니다.
참고: 새 차일수록 더 빨리 달리는 것 같지만 결국 13대만 등록했기 때문에 우연의 일치일 수도 있습니다.
무작위 데이터 분포
Machine Learning에서 데이터 세트에는 수천 또는 수백만 개의 값이 포함될 수 있습니다.
알고리즘을 테스트할 때 실제 데이터가 없을 수도 있고 무작위로 생성된 값을 사용해야 할 수도 있습니다.
이전 장에서 배웠듯이 NumPy 모듈이 이를 도와줄 수 있습니다!
정규 데이터 분포에서 1000개의 난수로 채워진 두 개의 배열을 생성해 보겠습니다.
첫 번째 배열의 평균은 5.0으로 설정되고 표준 편차는 1.0입니다.
두 번째 배열의 평균은 10.0으로 설정되고 표준 편차는 2.0입니다.
예시
1000개의 점이 있는 산점도:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0,
1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
결과:
산점도 설명
x축의 값 5와 y축의 값 10 주위에 점이 집중되어 있는 것을 볼 수 있습니다.
또한 스프레드가 x축보다 y축에서 더 넓은 것을 볼 수 있습니다.