2011년 6월 1일 수요일

데이터마이닝: 의사결정 나무분석

의사결정나무의 개념
의사결정나무(decision tree)는 의사결정규칙(decision rule)을 나무구조(tree structure)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법
- 모수적(Parametric) 모형 분석을 위해 이상치 검색
- 분석에 필요한 변수와 모형에 포함될 교호효과를 찾음
- 그 자체가 분류 또는 예측 모형으로 사용

의사결정 나무의 형성 과정
1. 의사결정 나무의 형성
2. 가지치기
3. 타당성 평가
4. 해석 및 예측

순수도와 분리기준
목표변수의 분포를 가장 잘 구별해주는 입력변수를 찾기 위해, 목표변수의 분포를 구별하는 정도를 순수도(purity) 또는 불순도(impurity)에 의해서 측정하고, 자식마디의 순수도를 가장 높이는 변수를 분리기준으로 함

*분리기준
하나의 부모마디로 부터 자식 마디들이 형성될 때, 입력변수의 선택과 범주의 병합이 이루어 질 기준을 의미

*순수도
목표변수의 특정 범주에 객체들이 포함되어 있는 정도를 의미

이산형 목표변수에 사용되는 분리기준
1. 카이제곱 통계량: p-값이 가장 작은 예측변수와 그 때의 최적 분리에 의해서 자식마디를 형성
2. 지니 지수: 불순도를 측정하는 하나의 지수로서 지니지수를 가장 감소시켜주는 예측변수와 그때의 최적분리에 의해서 자식마디를 선택
3. 엔트로피 지수: 다항분포에서의 우도비검정통계량을 사용하는 것과 같은 것으로 알려져 있음, 이 지수가 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성

연속형 목표변수에 사용되는 분리기준
1. 분산분석에서의 F 통계량: p-값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디가 형성, 가장 작은 p-값을 갖는 변수를 선택한다는 점에서 카이제곱과 F통계량의 p-값을 이용하는 방법은 같음’
2. 분산의 감소량: 예측오차를 최소화하는 것과 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적분리에 의해서 자식마디가 형성

*정지규칙
정지규칙을 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 여러 가지 규칙을 의미

*가지치기
지나치게 많은 마디를 가지는 의사결정나무는 새로운 자료에 적용할 때 예측오차가 매우 클 가능성이 있음, 따라서 형성된 의사결정 나무에서 적절하지 않은 마디를 제거하여, 적당한 크기를 갖는 부나무(subtree)구조의 의사결정나무로 최종적인 예측모형을 선택하는 것이 바람직함

의사결정나무의 장점과 단점
장점
- 해석의 용이성
모형의 이해가 쉽고, 새로운 자료의 모형에 적합하며, 어떤 입력변수가 목표변수를 설명하기에 좋은지 쉽게 파악할 수 있다.
- 교호효과의 해석
두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 알수 있다.
- 비모수적 모형
선형성, 정규성, 등분산성 등의 가정이 필요 없다.

단점
- 비연속성
연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측오류가 클 가능성이 있다.
- 선형성 및 주효과의 결여
선형 또는 주효과 모형에서와 같은 결과를 얻을 수 없나는 한계점이 있다.
- 비안정성
분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성이 높다.

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...