2011년 5월 31일 화요일

Data Warehouse

Data Warehouse의 정의
Data Warehouse는 핵심성과지표와 성과측정을 지원하는 정보시스템이다.

다차원 분석
성과 측정
성과 측정과 연관시킨 Data Warehouse의 개념은 경영활동에 참여하는 사람들이 활용하는 기업의 핵심성과 지표(KPI)와 성과 측정(Performance Measure)을 정보기술(IT)를 이용하여 데이터베이스화 한 것이다.
  • KPI -> Dimension
  • PM -> Fact

  • 기존의 운영계 시스템은 회사의 비즈니스 프로세스를 자동화, 구체화 하기 위해 존재하는 시스템으로서 업무를 신속하게 입력하고 조회하기 위한 부분에 최적화된 시스템이며 데이터는 여러 시스템에서 중복되어 관리되고 있다.
  • 운영계의 데이터를 통해 성과를 분석하려고 한다면 매번 새로운 데이터를 추출하고, 이를 정제 해야 한다. 중복된 데이터는 서로 다른 값을 가질 수 있다.
  • 분석할 때마다 전산실에게 데이터를 요청해야 하며 분석가가 직접 정제 해야 한다. 매번 분석 시간이 걸리므로 즉각 분석해서 의사 결정에 반영하기 힘들다.
  • 같은 데이터를 두 사람이 분석할 경우에 서로 다른 결과가 나올 수도 있다.


데이터 중복성
데이터는 여러 시스템에 중복 관리되고 있음. 성과측정 시 필요한 데이터를 추출하기 위해서는 여러 데이터를 가져와서 통합하고 분석하는 작업 필요(즉각적 의사결정 어려움)

데이터 불일치성
데이터가 여러 시스템에 산재 되어 있음
일부 시스템에서 데이터 값 변경 시 다른 시스템에 존재하는 같은 데이터와 값이 서로 불일치

Is Data Warehouse?
W.H Inmon[Building The Data Warehouse]
의사결정과정을 지원하기 위한 주제지향적, 통합적, 시계열적, 비휘발적 데이터의 집합

장동인[실무자를 위한 Data Warehouse]
수년간의 기업의 운영계 시스템에서 생긴 내부데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 분석 가능한 통합 시스템

Data Warehouse의 특징
주체지향적
기존 시스템(운영계)
  • 업무중심으로 구축
  • 인사시스템, 보험업무시스템 등


Data Warehouse
  • 주제별 구축
  • 고객이 우리외사에 얼마나 재무적인 이익을 가져다 주는가를 분석하기 위한 고객재무분석과 같은 주제별로 구축

통합적
데이터 통합의 어려운 예)
  • 저장 코드 체계가 다름
  • 데이터 저장 단위가 다름
  • 시스템 별 관리 단위가 다름
  • 같은 속성 다른 값
    • 이러한 데이터를 적절히 통합하여 Data Warehouse에 적재해야 합니다.
    • 통합은 회사가 분석하고자 하는 주제영역에 따라 여러 기업의 시스템 데이터를 하나의 View로 만드는 과정을 말합니다.

시계열적
시계열적 성과측정 지표
  • 전월 대비, 전 분기 대비, 전 반기 대비, 전년 대비 등 시간의 추이에 따라 분석


비휘발적
Data Warehouse는 비휘발적 속성을 갖는다. Data Warehouse 시스템은 데이터를 적재하거나 읽는 작업만을 주로 하므로 한번 적재된 데이터는 삭제되거나 수정되지 않는다.

구축 방법에 따른 분류
전사적 Data Warehouse(EDW): 약 2년
  • 데이터 인프라 혹은 정보인프라 라는 비전을 가지고 산발적으로 구축되어 있는 각 종 운영계 시스템에 대한 데이터를 정제하여 통합한 Data Warehouse 시스템
  • 데이터 인프라를 구축하는데 중점
  • 미래의 급변하는 경영환경에 유연하게 적응하기 위해 구축하여 활용


데이터 마트(DM): 단기간 구축
  • 소수의 사용자들이 제한된 주제를 가지고 데이터를 추출하여 만든 Data Warehouse 시스템을 말한다.
  • 다차원분석에 중점
  • 당장 필요한 데이터 분석에 활용
    Top-Down 방식: 전사적 Data Warehouse를 구축하고 나서 데이터 마트를 구축
    • 다양한 데이터 마트를 추후 지원 가능함.
    • 프로젝트가 성공만 한다면 기업의 데이터 인프라를 구축함에 있어서 안정적인 방법임
    • 구축기간이 길며, 구축 비용이 많이 들어 대규모 투자가 필요함.


    Bottom-Up 방식: 데이터 마트를 우선적으로 다수 구축하고 나서 통합방식으로 전사적 Data Warehouse를 구축하는 방식
    • 부분별 단기간 구축도 가능하며 당장에 대규모의 비용이 들지 않음.
    • 다양한 주제로 구축된 여러 데이터 마트를 통합하여 전사적인 뷰 생성 어려움
    • 데이터 마트에서 잔사적 Data Warehouse로 데이터 이관이 힘들어 통합의 어려움이 있음.


    Middle-out 방식: 전사적 Data Warehouse와 데이터마트를 동시에 구축해 나가는 방식

댓글 없음:

댓글 쓰기

ETL 솔루션 환경

ETL 솔루션 환경 하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다. 통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다. 빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이...