2011년 6월 1일 수요일

Data Warehouse 구축전략 및 방법론 - 1

방법론 및 기획 단계
Phase 및 Process
Phase
Analysis
시스템 개발에 관련된 준비를 하고 구축 목적과 범위를 검토하고 사용자 요구사항의 중요도를 결정하는 단계

Modeling
분석단계에서 받은 상위 요구사항을 기능적 구조적으로 개발시스템으로 옮겨가기 위한 시스템 개발 작업을 시작하는 단계

Construction
상세한 요구사항으로부터 시스템을 개발하고 테스트을 통하여 실제 Production으로 사용 할 수 있게 만들어 가는 단계

Production
시스템개발이 완료되 설치된 Production을 현업으로 이관하고 지원체계를 마련하는 단계

Process
Requirement Analysis
제안된 시스템의 비즈니스 요구사항을 식별해내고 정제하고 우선순위를 결정하여 시스템을 디자인하기 우한 자료로 사용하기 위하여 요구사항을 파악하는 프로세스

Technical Architecture
시스템에 대한 기술적 아키텍처의 모든 구성요소를 구체화 해나가는 프로세스

Data Acquision
다양한 소스로부터 데이터를 추출, 변환 및 적재하기 위하여 필요한 정보를 확인하고 실제 그 작업을 수행하는 프로세스

Data Access
사용자가 데이터 웨어하우스에 접근하는 것을 지원하고 장표를 만들고 접근 권한을 구체화하는 프로세스

DB Design & Building
데이터베이스 객체를 디자인 및 생성하고 효율적인 데이터에 대한 접근을 위한 각종 기술을 적용하는 프로세스

Testing
시스템에 발생할 가능성이 있는 성능 및 제약조건의 문제를 위해 테스트를 설계하고 수행하는 프로세스

Transition
시스템을 설치하고 Production으로 가는 프로세스

Adoption & Learning
현업사용자 및 운영자들이 시스템을 잘 사용하고 관리할 수 있게 교육시키고 적응시키는 프로세스

Support
Production으로 운영될 때를 대비하여 운영방안을 세우는 프로세스

기획단계
- 목표와 비전과 타당성 정의
- IT Infrastructure 정의
- 내.외부 데이터 정의 및 추출


분석단계
- 투입인력 확정, 역할 및 책임 정의
- 비전, 업무영역, 목표, 목적, 전략을 파악하고 정의
- Kick-Off Meeting 및 워크샵
- 사용자 교육

업무 분석 과정
1. 고객의 조직도 입수
2. 각 조직에서 담당하고 있는 업무 파악
3. 파악된 각 담당업무별로 프로젝트 범위에 해당되는 업무들을 선정하여 업무분장표 작성

소스시스템 분석
1. 운영 중인 소스시스템의구성과 시스템간의 간략한 데이터 흐름제시
2. 각각의 시스템을 기능 및 내용별 사용부서 별로 정리
3. 데이터베이스를 구성하고 있는 파일과 테이블 목록, 그리고 데이터까지 파악하여 제시

요구사항 분석
- 정보시스템 구축을 위한 요구사항의 분석은 사용자의 요구사항 및 요구목적을 정보시스템 제안서로 옮기는 것.
- 요구사항 분석대상은 사용자 요구사항분석뿐만 아니라 실현 가능한 범위까지 포함.
- 요구사항 분석이 제대로 된 정보시스템은 고객이 원하는 정보시스템이라고 할 수 있음

데이터 웨어하우스의 요구사항 처리방법
- 운영계 시스템과는 달리 주제영역별로 전사적으로 요구사항을 수집해야 한다.
- 요구한 데이터가 현존하는 시스템에 존재하지 않는다면 to-be 항목으로 정의하여 외부 데이터나 내부에 관련 항목 데이터를 생성하게 하여 모델링에 반영할 것인지를 최종 검토한다.
- 데이터 요구사항 정의는 한번에 모두 도출되기 힘들기 때문에 적정한 선에서 마무리하고 후속단계로 넘어가는 것이 작업의 효율적인 측면에서 유리.
- 현업읜 Key Man과 긴밀한 협조체계를 가져야만 많은 요구사항을 얻어 낼 수 있다.
Reverse Engineering을 통해 Dimension과 Fact의 후보 목록 뽑는 방법
1. 순수하게 OLTP 관리적인 컬럼 제거(의사결정에 사용되지 않는 컬럼들 삭제)
2. 시간에 따라 변화되는 데이터를 관리하기 위한 Time Key 추가(데이터의 값이 시간의 흐름에 따라 변경 될 경우 이력이 관리되어야 함)
3. 적절한 파생 데이터 추가 및 별도의 테이블에 존재하는 관련 데이터를 추가(DW 시스템은 데이터 중복이 발생하더라도 관련 데이터를 통합하고 새로운 항목 추가함.)
4. 관계에 의한 데이터 항목 추가(1:M의 관계에 있는 Foreign Key 정보를 데이터 항목으로 추가하여 구성)
5. 데이터 상세 수준을 결정(데이터를 저장하기 위한 비용, 수행속도, 대용량 데이터베이스 관리적인 측면을 고려하여 적절한 상세 수준을 결정해야 함)
6. 데이터 배열 생성
7. 데이터 변화 정도에 의한 속성 통합/분리

성능요구사항
- 데이터 보안방법을 면밀히 검토해야 함.
- 보안등의 규칙은 정보시스템의 기존 보안담당자와 혐의해야 함.
- 데이터의 보안방법을 면밀히 검토해야 함.

시스템화 범위 결정 과정
1. 상위소스 시스템을 기반으로 전체적인 범위 결정
2. 데이터 웨어하우스로의 소스시스템의 내역 결정
3. 해당 소스시스템과 데이터 웨어하우스의 인터페이스의 방법 결정
4. 상세 요구사항의 실현 가능성 여부에 대해 결정

주제영역 도출
모든 Fact들을 정리해 놓은 문서를 PM(Performance Measure) 정의서라고 한다.
모든 Dimension들을 정의해 놓은 문서를 Dimension 정의서라고 한다.
PM 정의서와 Dimension 정의서를 통해 주제영역 정의서를 작성한다.(PM/Dimension Matrix 형태로 대체 할 수 있다.)
주제영역이 정의 되었으면 이것을 토대로 소스시스템을 확인해보고 항목정의서를 작성한다.(소스시스템 중 해당 시스템, 테이블, 컬럼을 기술, 각 항목에 대한 정의 및 사용목적, 사용부서, 계산식 및 관련 업무 규칙 등을 상세하게 정의)

댓글 없음:

댓글 쓰기

ETL 솔루션 환경

ETL 솔루션 환경 하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다. 통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다. 빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이...