데이터 클러스터

  • 클러스터 는 유사한 데이터의 모음입니다.
  • 클러스터링 은 일종의 비지도 학습입니다.
  • 상관 계수관계의 강도를 나타냅니다.

클러스터

클러스터 는 유사성을 기반으로 하는 데이터 모음입니다.

그래프에서 함께 클러스터링된 데이터 포인트는 종종 클러스터로 분류될 수 있습니다.

아래 그래프에서 3개의 서로 다른 클러스터를 구별할 수 있습니다.


클러스터 식별

클러스터는 많은 가치 있는 정보를 보유할 수 있지만 클러스터는 모든 종류의 형태로 제공됩니다. 그렇다면 클러스터를 어떻게 인식할 수 있습니까?

두 가지 주요 방법은 다음과 같습니다.

  • 시각화 사용
  • 클러스터링 알고리즘 사용

클러스터링

클러스터링 은 일종의 비지도 학습 입니다.

클러스터링은 다음을 시도합니다.

  • 그룹으로 유사한 데이터 수집
  • 다른 그룹의 이기종 데이터 수집

클러스터링 방법

  • 밀도 방법
  • 계층적 방법
  • 파티셔닝 방법
  • 그리드 기반 방법

밀도 방법 은 밀도 가 낮은 영역의 점보다 밀도가 높은 영역의 점이 더 많은 유사점과 차이점을 갖는 것으로 간주합니다. 밀도 방법은 정확도가 좋습니다. 클러스터를 병합하는 기능도 있습니다.
두 가지 일반적인 알고리즘은 DBSCAN과 OPTICS입니다.

계층적 방법 은 트리 형태의 구조로 클러스터를 형성합니다 . 이전에 형성된 클러스터를 사용하여 새로운 클러스터가 형성됩니다.
두 가지 일반적인 알고리즘은 CURE 및 BIRCH입니다.

그리드 기반 방법그리드와 같은 구조를 형성하는 유한한 수의 셀로 데이터를 공식화합니다.
두 가지 일반적인 알고리즘은 CLIQUE 및 STING입니다.

분할 방법개체를 k개의 클러스터로 분할하고 각 파티션은 하나의 클러스터를 형성합니다.
한 가지 일반적인 알고리즘은 CLARANS입니다.


상관 계수

상관 계수 (r)는 산점도에서 선형 관계 및 x/y 변수 의 강도와 방향을 설명합니다.

r의 값은 항상 -1과 +1 사이입니다.

-1.00완벽한 내리막음의 선형 관계.
-0.70강한 내리막음의 선형 관계.
-0.50적당한 내리막음의 선형 관계.
-0.30약한 내리막음의 선형 관계.
0선형 관계가 없습니다.
+0.30약한 오르막양의 선형 관계.
+0.50완만한 ​​오르막양의 선형 관계.
+0.70강한 오르막양의 선형 관계.
+1.00완벽한 오르막양의 선형 관계.

퍼펙트 오르막 +1.00 :

완벽한 내리막 -1.00 :

'

강한 오르막 +0.61 :

관계 없음 :