2011년 6월 1일 수요일

데이터마이닝: 회귀분석과 로지스틱 판별분석

선형회귀분석
한 변수(목표변수)가 다른 변수(입력변수)들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를 적절한 함수식으로 표현하여 분석하는 통계적 방법
- 선형회구분석(Linear Regression Analysis): 선형방정식에 의해서 자료를 표현
- 비선형회귀분석(Nonlinear Regression Analysis): 비선형방정식에 의해서 자료를 표현
- 단순회귀분석(Simple Regression Analysis): 입력변수가 하나인 경우
- 다중회구분석(Multiple Regression Analysis): 입력변수가 여러 개인 경우

단순선형회귀모형
목표변수 y를 입력 변수 x의 일차식으로 설명(y=a+bx+c)
a,b: 모수들로서 추정되어야 할 회귀계수
c: 기대값과 분산을 가지는 오차항
*오차의 원인
- 입력변수가 목표변수에 관한 모든 정보를 충분히 가지고 있지 않은 경우
- 입력변수들과 목표변수의 관계가 선형적이지 않은 경우
- 측정오류나 입력오류의 경우

입력변수의 선택
- 전진 선택법: 입력변수를 각 변수의 기여도에 따라서 하나씩 추가하면서 선택하는 방법, 계산시간이 빠르다.
- 후진 소거법: 모든 변수를 포함하는 완전모형으로부터 시작하여 불필요한 변수를 하나씩 제거해 나가는 방법, 안전한 방법
- 단계적 방법: 전진 선택법에 후진 소거법을 결합한 것으로, 변수를 하나씩 추가로 선택하면서 이미 선택된 분수들이 제거될 수 있는지를 매단계 마다 검토
- 모든 가능한 회귀: 가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법, 가장 안전한 방법

로지스틱 판별분석
목표변수가 이산형일 경우에는 보통의 회귀분석으로는 분석하기가 어려우므로, 로지스틱 회귀분석을 적용하는 것이 바람직하며 로지스틱 회귀분석과 오즈비(Odds Ration)에 대하여 이해한다.

회귀분석의 특징과 제약
선형회귀모형은 가장 널리 사용되고 있는 통계적 방법 중의 하나로써 해석상의 편리가 가장 큰 장점이며 비선형성(nonlinearity)을 가지는 경우에는 예측의 유용성 측면에서는 한계가 있음을 이해한다.

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...