데이터 클러스터
- 클러스터 는 유사한 데이터의 모음입니다.
- 클러스터링 은 일종의 비지도 학습입니다.
- 상관 계수 는 관계의 강도를 나타냅니다.
클러스터
클러스터 는 유사성을 기반으로 하는 데이터 모음입니다.
그래프에서 함께 클러스터링된 데이터 포인트는 종종 클러스터로 분류될 수 있습니다.
아래 그래프에서 3개의 서로 다른 클러스터를 구별할 수 있습니다.
클러스터 식별
클러스터는 많은 가치 있는 정보를 보유할 수 있지만 클러스터는 모든 종류의 형태로 제공됩니다. 그렇다면 클러스터를 어떻게 인식할 수 있습니까?
두 가지 주요 방법은 다음과 같습니다.
- 시각화 사용
- 클러스터링 알고리즘 사용
클러스터링
클러스터링 은 일종의 비지도 학습 입니다.
클러스터링은 다음을 시도합니다.
- 그룹으로 유사한 데이터 수집
- 다른 그룹의 이기종 데이터 수집
클러스터링 방법
- 밀도 방법
- 계층적 방법
- 파티셔닝 방법
- 그리드 기반 방법
밀도 방법 은 밀도 가 낮은 영역의 점보다 밀도가 높은 영역의 점이 더 많은 유사점과 차이점을 갖는 것으로 간주합니다. 밀도 방법은 정확도가 좋습니다. 클러스터를 병합하는 기능도 있습니다.
두 가지 일반적인 알고리즘은 DBSCAN과 OPTICS입니다.
계층적 방법 은 트리 형태의 구조로 클러스터를 형성합니다 . 이전에 형성된 클러스터를 사용하여 새로운 클러스터가 형성됩니다.
두 가지 일반적인 알고리즘은 CURE 및 BIRCH입니다.
그리드 기반 방법 은 그리드와 같은 구조를 형성하는 유한한 수의 셀로 데이터를 공식화합니다.
두 가지 일반적인 알고리즘은 CLIQUE 및 STING입니다.
분할 방법 은 개체를 k개의 클러스터로 분할하고 각 파티션은 하나의 클러스터를 형성합니다.
한 가지 일반적인 알고리즘은 CLARANS입니다.
상관 계수
상관 계수 (r)는 산점도에서 선형 관계 및 x/y 변수 의 강도와 방향을 설명합니다.
r의 값은 항상 -1과 +1 사이입니다.
-1.00 | 완벽한 내리막 | 음의 선형 관계. |
-0.70 | 강한 내리막 | 음의 선형 관계. |
-0.50 | 적당한 내리막 | 음의 선형 관계. |
-0.30 | 약한 내리막 | 음의 선형 관계. |
0 | 선형 관계가 없습니다. | |
+0.30 | 약한 오르막 | 양의 선형 관계. |
+0.50 | 완만한 오르막 | 양의 선형 관계. |
+0.70 | 강한 오르막 | 양의 선형 관계. |
+1.00 | 완벽한 오르막 | 양의 선형 관계. |
퍼펙트 오르막 +1.00 :
완벽한 내리막 -1.00 :
강한 오르막 +0.61 :
관계 없음 :