검색
색인
군집 분석, 群集分析, Cluster analysis
동의어 : 군집화, Clustering
서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석.
동일한 군집에 속하는 객체 간의 유사도가 그렇지 않은 객체 간의 유사도보다 평균적으로 높도록 군집을 구성한다. 대표적인 비지도 기계 학습(unsupervised machine learning) 방법으로, 데이터의 분할 및 요약에 널리 이용되며 데이터에서 유용한 지식을 추출하는 데 활용된다.


객체의 종류에 따라 다양한 유사도 기준이 적용된다. 대표적으로 유클리드 거리(Euclidean distance, 두 객체 사이의 직관적인 거리)와 코사인 유사도(두 객체 사이의 각도) 등이 있다.
데이터 군집 분석을 위한 다양한 방법과 알고리즘이 개발되어 있다. 최적의 군집 개수를 정하거나 군집 분석 결과의 정확도를 평가하는 객관적인 기준은 없으며, 배경 지식에 근거한, 사람의 주관적인 평가가 필요하다. 대표적인 군집 분석 방법으로 ‘계층적 군집화’와 ‘k-평균 군집화’를 들 수 있다. 계층적 군집화는 모든 객체가 하나의 군집에 포함되는 경우부터 객체 하나하나가 각각의 군집을 구성하는 경우까지 단계적으로 군집을 구성하는 방법이다. 상향식 방법과 하향식 방법이 있다. k-평균 군집화는 사용자가 군집의 개수 ‘k’를 미리 결정하는 방법으로, 초기화 상태에 따라 다양한 결과를 얻게 된다.
군집 분석은 마케팅 분야에서 고객 데이터를 활용하여 고객 군집을 구성한 뒤 각 군집별로 맞춤형 마케팅 전략을 고안하는 데 적용되고 있고, 생의학 분야에서는 유전자 군집을 분석하여 유전자의 기능을 예측하거나 암환자 군집을 분석하여 암의 새로운 아형(subtype)을 발견하는 데 활용되고 있다.
군집 분석은 1932년 헤럴드 드라이버(Harold E. Driver)와 앨프리드 크로버(Alfred L. Kroeber)가 처음 시도한 것으로 알려져 있다.