데이터 클러스터

클러스터

클러스터 는 유사성을 기반으로 하는 데이터 모음입니다.

그래프에서 함께 클러스터링된 데이터 포인트는 종종 클러스터로 분류될 수 있습니다.

아래 그래프에서 3개의 서로 다른 클러스터를 구별할 수 있습니다.

클러스터는 많은 가치 있는 정보를 보유할 수 있지만 클러스터는 모든 종류의 형태로 제공됩니다. 그렇다면 클러스터를 어떻게 인식할 수 있습니까?

두 가지 주요 방법은 다음과 같습니다.

클러스터링 은 일종의 비지도 학습 입니다.

클러스터링은 다음을 시도합니다.

밀도 방법 은 밀도 가 낮은 영역의 점보다 밀도가 높은 영역의 점이 더 많은 유사점과 차이점을 갖는 것으로 간주합니다. 밀도 방법은 정확도가 좋습니다. 클러스터를 병합하는 기능도 있습니다.
두 가지 일반적인 알고리즘은 DBSCAN과 OPTICS입니다.

계층적 방법 은 트리 형태의 구조로 클러스터를 형성합니다 . 이전에 형성된 클러스터를 사용하여 새로운 클러스터가 형성됩니다.
두 가지 일반적인 알고리즘은 CURE 및 BIRCH입니다.

그리드 기반 방법 은 그리드와 같은 구조를 형성하는 유한한 수의 셀로 데이터를 공식화합니다.
두 가지 일반적인 알고리즘은 CLIQUE 및 STING입니다.

분할 방법 은 개체를 k개의 클러스터로 분할하고 각 파티션은 하나의 클러스터를 형성합니다.
한 가지 일반적인 알고리즘은 CLARANS입니다.

상관 계수 (r)는 산점도에서 선형 관계 및 x/y 변수 의 강도와 방향을 설명합니다.

r의 값은 항상 -1과 +1 사이입니다.

퍼펙트 오르막 +1.00 :

완벽한 내리막 -1.00 :

강한 오르막 +0.61 :

관계 없음 :