2011년 6월 1일 수요일

데이터마이닝: 분류모형의 평가

모형평가의 기본개념
여러 가지 알고리즘을 활용하여 도출된 결과를 비교함으로써 최선의 모형을 선택하기 위한 모형 평가의 과정이 필요하다.

*모형평가
예측(Prediction)을 위해 만든 모형이 임의의 모형보다 과연 우수한지, 고려된 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 보유하고 있는지를 비교, 분석하는 과정
- 모형이 얼마나 효과적으로 구축되어 잇는가?
- 같은 모집단 내의 다른 데이터에 적용하는 경우 얼마나 안정적인 결과를 제고해 주는가?
- 구축된 모형이 얼마나 예측과 분류에서 뛰어난 성능을 보이는가?

*분류기준값
- 분류의기준이 되는 사후확률의 경계점(Cut-off 혹은 Threshold)
- 사후확률의 경계
- 분류기준값의 설정은 변수의 성격에 많이 의존

*오분류표
- 목표변수의 실제 범주와 모형에 의해 예측도니 분류범주 사이의 관계를 나타내는 표
- 목표변수의 범주별로 이를 제대로 분류한 빈도와 그렇지 못한 빈도를 함께 제시한 표로써, 목표변수의 범주가 c개인 경우 cxc개의 셀로 이루어진 표 형식을 취함

ROC(Receive Operration Characteristic) 도표
- 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음, 특이도와 민감도를 통해 모형평가를 수행하는 것
- 분류기준값(Threshold, cut-off)을 변화시킴에 따라 분류결과가 어떻게 달라지는가를 관찰한다. 즉, 각 분류기준값 별로 오분류표로부터 민감도와 특이도를 계산하고 이를 연결하여 곡선을 그리게 된다.

*ROC 곡선: 구축한 모형의 성능을 민감도와 특이도에 의해 판단하고자 하는 곡선

이익도표의 작성
① 모형설정을 통해 사후확률을 구한다.
② 사후확률의 순서에 따라 데이터세트를 정렬한다.
③ 이렇게 정렬이 끝나면 전체데이터세트를 균일학게 N(=10)등분한다.
④ N등분의 각 집단에서 목표변수의 특정범주에 대한 빈도를 구한다.
⑤ N등분의 각 집단에서 Captured response(%), Response(%), Lift 통계량을 계산한다.

Response Threshold 도표
사후확률과 분류기준값 및 목표변수의 특정 범주의 빈도를 이용하여 평가기능을 수행함
① 전체 데이터세트의 각 관찰치에 대해서 범주 A에 대한 사후확률을 구한다.
② 사후확률에 의해 전체 데이터세트를 정렬시킨다.  
③ 분류기준값(threshold valus)을 정하고, 그 분류기준에 의해서 정분류율(accurate rate)을 계산한다.
④ ①~③의 과정을 모든 분류기준값에 대해 실시한다.
⑤ 분류기준값을 수평축에 정분류율을 수직축에 그린다.

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...