2011년 6월 1일 수요일

데이터마이닝: 군집분석

군집분석의 소개
군집 분석은 개인 또는 개체 중에서 유사한 것들을 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악함으로써, 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석방법이다.
군집분석에는 각 관찰치가 유사한지 그렇지 않은지를 측정할 수 있는 도구가 필요
- 분석의 목적에 맞게 관찰치의 성격을 표현하는 변수를 선택한다.
- 관찰치의 유사한 정도를 측정할 수 있는 첮고를 정함
거리: 비유사성의 척도
*범주형 변수의 경우: 두 개체 사이의 거리는 두 개체가 서로 다른 범주에 속한 회수를 이용
군집분석 알고리즘
- 거리가 가까운 관찰치들을 같은 군집에 포함시켜서 군집간 변이에 비해 군집 내 변이를 줄이는 점에 기초
군집분석의 특징
- 군집 분석은 매우 다양한 방법들이 있음
- 분석자에 따라 결과가 다를 수 있음
- 매회 결과적으로 의미 있는 정보요약을 얻어내야 함

k-평균 군집방법
- 절차 사전에 결정된 군집수 K에 기초하여 전체 데이터를 상태적으로 유사한 k개의 군집으로 구분하는 방법
- 관찰치들 사이의 거리를 이용해 주어진 기준을 최적화 하도록 구현되므로 최적분리 군집방법이라고도 함.

K-평균 군집방법의 알고리즘
① 군집의 수 K와 초기 K개 군집의 중심을 선택한다.
② 각 관찰치를 그 중심과 가장 가까운 거리에 있는 군집에 할당한다.
③ 각 군집별로 그에 속하는 관찰치를 이용해 새로운 중심을 계산한다.
④ 위의 ①과 ②의 과정을 기존의 중심과 새로운 중심의 차이가 없을 때까지 반복한다.

* 초기 군집수의 결정
- 차원축소를 통한 시각화 방법: 관찰치의 위치를 시각화하고 이를 관찰해서 군집수를 결정하는 방법
- 순차적 군집 도출: 여러 가지 통계량의 변화를 관찰해 군집의 수를 결정하는 방법

K-평균 군집방법의 특징
- 상호배반적인 K개의 군집으로 형성한다.
- 군집의 수 K를 사전에 정의해야 한다.
- 알고리즘이 비교적 간단하고 계산시간이 오래 걸리지 않으므로 대용량 자료의 경우 유용하다.

군집분석의 장점
1. 탐색적인 기법
2. 다양한 형태의 데이테에 적용 가능
3. 분석방법의 적용 용이성

군집분석의 단점
1. 가중치와 거리정의: 여러가지 자료유형을 포함하는 데이터의 경의 관찰치들 사이의 거리를 정의하고 각 변수에 대한 가중치를 결정하는 것은 매우 어려움
2. 초기 군집수의 설정: 초기에 설정한 군집수 k가 데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없음
3. 결과해석의 어려움: 사전에 주어진 목적이 없으므로 결과를 해석하는 데 있어서 어려움이 있다.

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...