AI 데이터

인공 지능 프로젝트의 최대 80% 는 데이터 수집 에 관한 것입니다 .

  • 어떤 데이터가 필요 합니까?
  • 어떤 데이터를 사용할 수 있습니까?
  • 데이터 를 선택 하는 방법?
  • 데이터 를 수집 하는 방법?
  • 데이터 를 정리 하는 방법?
  • 데이터 를 준비 하는 방법?
  • 데이터 를 어떻게 사용 합니까?

데이터란 무엇입니까?

데이터는 여러 가지가 될 수 있습니다. 인공 지능을 사용하면 다음과 같은 사실의 모음이어야 합니다.

유형
번호물가. 날짜.
측정크기. 키. 무게.
단어이름 및 장소.
관찰카운팅 카.
설명추워.

인텔리전스에는 데이터가 필요합니다.

인간 지능에는 데이터가 필요합니다.

부동산 중개인은 가격을 추정하기 위해 판매된 주택에 대한 데이터가 필요합니다.

인공 지능에는 데이터가 필요합니다.

컴퓨터 프로그램은 또한 가격을 추정하기 위한 데이터가 필요합니다.


데이터 저장

수집하는 가장 일반적인 데이터는 숫자와 측정입니다.

종종 데이터는 값 간의 관계를 나타내는 배열에 저장됩니다.

이 표에는 주택 가격 대 크기가 포함되어 있습니다.

가격7889991011141415
크기5060708090100 110120130140150

양적 vs. 정성적

양적 데이터는 숫자입니다.

  • 55대
  • 15미터
  • 35명의 아이들

정성적 데이터는 다음을 설명합니다.

  • 추워
  • 길다
  • 재미 있었어요

인구 조사 또는 샘플링

인구 조사 는 그룹의 모든 구성원에 대한 데이터를 수집하는 것입니다 .

샘플 은 그룹의 일부 구성원에 대한 데이터를 수집하는 경우입니다 .

얼마나 많은 미국인이 담배를 피우는지 알고 싶다면 미국의 모든 사람에게 물어볼 수도 있고(인구조사) 10,000명에게 물어볼 수도 있습니다(샘플).

인구 조사는 정확 하지만 수행하기 어렵습니다. 샘플은 부정확 하지만 수행하기가 더 쉽습니다.


샘플링 용어

Population 은 정보를 수집하려는 개인(객체)의 그룹입니다 .

인구 조사 는 인구 의 모든 개인에 대한 정보입니다.

표본 은 모집단의 일부에 대한 정보입니다(모두를 나타내기 위해) .


무작위 샘플

표본이 모집단을 나타내려면 무작위로 수집되어야 합니다.

무작위 표본 은 모집단의 모든 구성원이 표본에 나타날 동일한 기회를 갖는 표본입니다.


샘플링 바이어스

표본 편향 (오차) 은 일부 개인이 표본에 포함될 가능성이 더 적은(또는 더 많은) 방식으로 표본이 수집될 때 발생합니다.