2011년 6월 1일 수요일

데이터마이닝: 연관성규칙

연관성 규칙의 개념
- 연관성 분석은 하나의 거래나 사건에 포함되어 있는 항목들의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적 자료분석 방법이다.
- 연관성 분석이 적용될 수 있는 자료는 거래(transaction)와 항목(item)으로 구성된다.
- 연관성 분석의 목적: 품목간의 연관관계를 수치로 정량화

연관성 규칙의 평가 기준
1. 지지도
- 전체 자료에 관련성이 있다고 판단되는 품목 A와 B, 두 개의 항목이 동시에 일어날 확률
- 상호 대칭적, 규칙 A=>B의 지지도 == 규칙 B=>A의 지지도
- 지지도 = (품목 A와 B를 동시에 포함하는 거래수)/(전체 거래수)

2. 신뢰도
- 품목 A가 구매되었을 때 품목 B가 추가로 구매될 확률인 조건부확률
- 상호 대칭적이 아님
- 신뢰도 = (품목 A와 B를 동시에 포함하는 거래수)/(품목 A를 포함하는 거래수)

3. 향상도
- 실제의 신뢰도를 독립가정 하에서의 신뢰도로 나눈 값
- 실제의 지지도를 독립가정 하에서의 지지도로 나눈 값과도 동일
- 상호 대칭적
- 향상도 = (품목 A와 B를 동시에 포함하는 거래수 X 전체 거래수)/(품목 A를 포함하는 거래수 X 품목 B를 포함하는 거래수)

연관성 규칙의 다양한 응용
연관성 분석은 교차판매, 묶음판매, 상품의 진열, 쿠폰 배부, 카탈로그 디자인 등의 여러 분야에서 활용될 수 있다.

*비연관성 규칙
A and not B => C

*음의 연관성 규칙
C and D => E : 향상도 <1 일 때
C and D => not E

*시차 연관성 규칙
- 고객의 시간에 따른 소비형태에 대한 분석
- 고객의 거래내역과 시간순으로 나열된 시계열 자료가 필요
- 원인과 결과의 형태로 해석이 가능

연관성 규칙 적용의 장점과 단점
연관성 분석은 데이터의 형태와 계산방법이 간단하고 분석 결과의 이해가 용이한 반면, 품목의 수가 많을 경우 상당한 계산 과정이 필요하므로 적절한 대상 항목을 선정하여 적용하는 것이 중요하다.

장점
- 탐색적인 기법: 연관성 분석의 결과는 이해와 적용이 용이함
- 강력한 비목적 분석 기법: 대용량 데이터에 대한 비목적성 데이터 마이닝 분석 기법
- 사용이 편리한 분석 데이터의 형태: 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조
- 계산의 용이성: 수많은 거래, 품목을 포함하는 대용량 데이터일 경우, 계산의 수가 크게 증가하기는 하지만 분석을 위한 계산은 상당히 간단하며, 단순한 결과만을 위해서는 기초적인 워크시트의 사용법만을 알고 있는 분석자도 분석이 가능

단점
- 상당한 수의 계산 과정: 품목수 증가에 따라 계산의 수가 기하급수적으로 증가 한다.
(유사한 품목을 한 범주로 일반화, 연관 규칙의 신뢰도 하한을 새롭게 정의, 실제적으로 데이터에서 드물게 관찰되는 의미가 적은 연관 규칙은 제외)
- 적절한 품목의 결정: 수 많은 품목을 세세하게 구분할 경우 발생 비율 면에서 의미가 없음
- 품목의 비율 차이: 품목들이 동일한 빈도를 갖지 못하거나 거래수가 적은 품목의 경우 규칙 발견 과정 중 제외되기 쉬움

댓글 없음:

댓글 쓰기

ETL 솔루션 환경

ETL 솔루션 환경 하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다. 통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다. 빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이...