검색
색인
군집 분석, 群集 分析, cluster analysis
군집 분류(clustering) 알고리즘뿐만 아니라 군집 결과의 평가, 군집의 최적화 등의 작업을 포함하는 데이터 분석 방법.

1932년 헤럴드 드라이버(Harold E. Driver)와 앨프리드 크로버(Alfred L. Kroeber)가 인류학 분야에서 군집 분석을 처음 시도한 것으로 알려져 있다.

군집 분석을 위한 다양한 군집 분류(clustering) 알고리즘이 개발되었으나 최적의 군집 개수를 정하거나 군집 분석 결과의 정확도를 평가하는 객관적인 기준은 없다.일반적으로 군집 분석에서는 배경 지식에 근거한 주관적인 평가가 필요할 수 있으며 시행착오를 통한 반복적인 작업 수행이 필요하다.

군집 분석과 대비되는 데이터 분석 방법으로는 판별 분석(discriminant analysis)이 있다. 판별 분석은 새로운 데이터를 기존의 알려진 데이터의 모집단으로 새로운 데이터를 분류해주는 분석 작업이다.
기계학습 분야에서는 군집 분석을 대표적인 비지도형 기계학습(unsupervised learning), 판별 분석을 대표적인 지도형 기계학습(supervised learning)으로 구분한다.

군집 분석은 컴퓨터과학, 통계학, 생물분류학, 심리학, 인류학, 경제학, 마케팅 등의 다양한 분야에서 사용되는 데이터 분석 방법이다.
마케팅 분야에서는 고객 데이터를 활용하여 고객 군집을 구성한 뒤 각 군집별로 맞춤형 마케팅 전략을 고안하는 데 적용하고 있다. 생의학 분야에서는 유전자 군집을 분석하여 유전자의 기능을 예측하거나 암 환자 군집을 분석하여 암의 새로운 아형(subtype)을 발견하는 데 활용하고 있다.