기계 학습
머신 러닝은 컴퓨터가 데이터와 통계 연구를 통해 학습하도록 하는 것입니다.
머신 러닝은 인공 지능(AI) 방향으로 나아가는 단계입니다.
머신 러닝은 데이터를 분석하고 결과를 예측하는 방법을 학습하는 프로그램입니다.
어디서 시작하나요?
이 튜토리얼에서는 수학으로 돌아가 통계를 연구하고 데이터 세트를 기반으로 중요한 숫자를 계산하는 방법을 알아보겠습니다.
또한 다양한 Python 모듈을 사용하여 필요한 답변을 얻는 방법을 배우게 됩니다.
그리고 학습한 내용을 바탕으로 결과를 예측할 수 있는 함수를 만드는 방법을 배우게 됩니다.
데이터 세트
컴퓨터의 마음에서 데이터 세트는 모든 데이터 모음입니다. 어레이에서 완전한 데이터베이스에 이르기까지 무엇이든 될 수 있습니다.
배열의 예:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
데이터베이스의 예:
카르나메 | 색상 | 나이 | 속도 | 오토패스 |
BMW | 빨간색 | 5 | 99 | 와이 |
볼보 | 검은 색 | 7 | 86 | 와이 |
폭스바겐 | 회색 | 8 | 87 | N |
폭스바겐 | 하얀색 | 7 | 88 | 와이 |
포드 | 하얀색 | 2 | 111 | 와이 |
폭스바겐 | 하얀색 | 17 | 86 | 와이 |
테슬라 | 빨간색 | 2 | 103 | 와이 |
BMW | 검은 색 | 9 | 87 | 와이 |
볼보 | 회색 | 4 | 94 | N |
포드 | 하얀색 | 11 | 78 | N |
도요타 | 회색 | 12 | 77 | N |
폭스바겐 | 하얀색 | 9 | 85 | N |
도요타 | 푸른 | 6 | 86 | 와이 |
배열을 보면 평균값이 대략 80이나 90일 것이라고 추측할 수 있고 가장 높은 값과 가장 낮은 값도 결정할 수 있지만 그 외에 무엇을 할 수 있습니까?
그리고 데이터베이스를 보면 가장 인기 있는 색상은 흰색이고 가장 오래된 차는 17년인데, 다른 값만 보고 AutoPass가 있는 자동차인지 예측할 수 있다면 어떨까요?
그것이 바로 머신 러닝의 목적입니다! 데이터 분석과 결과 예측!
머신 러닝에서는 매우 큰 데이터 세트로 작업하는 것이 일반적입니다. 이 튜토리얼에서 우리는 기계 학습의 다양한 개념을 가능한 한 쉽게 이해하려고 노력할 것이며 이해하기 쉬운 작은 데이터 세트로 작업할 것입니다.
데이터 유형
데이터를 분석하려면 우리가 다루고 있는 데이터의 유형을 아는 것이 중요합니다.
데이터 유형을 세 가지 주요 범주로 나눌 수 있습니다.
- 수치
- 범주형
- 서수
숫자 데이터는 숫자이며 두 가지 숫자 범주로 나눌 수 있습니다.
- 이산 데이터
- 정수로 제한되는 숫자입니다. 예: 지나가는 자동차의 수. - 연속 데이터
- 값이 무한한 숫자입니다. 예: 품목의 가격 또는 품목의 크기
범주형 데이터는 서로 비교할 수 없는 값입니다. 예: 색상 값 또는 예/아니오 값.
순서 형 데이터는 범주형 데이터와 비슷하지만 서로 비교하여 측정할 수 있습니다. 예: A가 B보다 우수한 학교 성적 등.
데이터 소스의 데이터 유형을 알면 데이터를 분석할 때 어떤 기술을 사용해야 하는지 알 수 있습니다.
다음 장에서 통계 및 데이터 분석에 대해 자세히 알아볼 것입니다.