2011년 6월 1일 수요일

데이터 웨어하우스 아키텍처

데이터 웨어하우스 아키텍처
데이터 소스
1.     내부 데이터(Internal Data)
-       기업의 운영계 시스템에서 생긴 데이터
    • 독립적으로 운영되는 여러 운영계 시스템

 여러 운영계 시스템에 데이터 분산, 중복되어 존재-데이터 통합 필요(통합 어려움)
    • ERP로 운영되는 시스템

기업의 데이터들이 전사적 자원관리로 운영
중복 데이터 적어 독립된 운영계 시스템 보다 데이터 통합 쉬움
-       보통 3년 이상 데이터가 쌓여야 데이터 웨어하우스 구축가능 함
2.     외부 데이터(External Data)
-       기업의 경영에 큰 영향을 미치지만 기업 내부에 존재하지 않는 데이터
-       외부에서 구입해서라도 내부에 보관하는 데이터
추출/변환/전송(재일 중요)
추출 전략
-       ETT 도구를 사용할 경우 추출하고 변환하고 전송하는 작업은 한번에 일어나기도 하지만 많은 경우에 따로따로 진행되는 경우가 일반적이다.
-       추출 후 임시로 보관할 공간을 따로 두는 경우 임시로 보관하는 공간이 OS 파일시스템일 경우에는 Staging Server라고 부르며, RDBMS일 경우에는 Staging DB라고 한다.
데이터 베이스
RDBMS
-       운영계에 적합
-       질의응답 속도 느림
-       대용량 데이터 지원
-       대용량 데이터에 대한 백업 및 복구 검증됨
-       빠른 속도를 보장하기 위해서 이미 집계 되어 있는 저장 데이터 필요함
-       Summary 데이터를 데이터 마트와 별도로 둠
-       데이터 마트로 질의를 보내면 자동으로 요약테이블에 있는 데이터를 읽어서 빠른 속도 질의 처리
MDBMS
-       다차원 분석에 적합
-       대용량 데이터 지원 못함
-       RDBMS보다 Adhoc 질의 속도 훨씬 빠름
-       데이터가 늘어나 대용량이 될 경우 백업 및 복구가 검증 되지 못함
*ODS(Operational Data Store)
-       운영계 시스템에서 데이터 웨어하우스에 필요하다고 생각되는 부분의 원시 데이터(RawData) ODS에 저장함
-       보존 기간에 따라 크기가 상당히 커질 수 있음
-       때에 다라서 ODS의 데이터가 전체 데이터 웨어하우스의 크기보다 클 가능성도 있음
-       ODS의 내부구조는 운영계 처럼 되어 있으나 사용자의 직접적인 접근은 허용하지 않음
-       ODS는 운영계 시스템에서 추출한 데이터를 정제하여 보관하는 역할 수행함
분서 부분
1.     Reporting
-       데이터 웨어하우스에 저장된 데이터를 이용하여 사용자가 원하는 보고서를 만들기 위해서 Reporting 도구 사용
-       데이터 웨어하우스에서 값을 가져 오기위해 SQL을 알아야 함.
-       OLAP 도구로도 보고서를 작성 가능하나 표현에 한계가 있어 대부분 Reporting도구 사용
2.     OLAP
-       사용자가 원하는 보고서는 물론이고 Drill-Up, Drill-Down 등을 통해 다차원 분석 쉽게 가능.
-       Web으로 OLAP을 제공하여 브라우저 만으로도 다차원분석 가능함
-       강력한 분석을 위해서는 Client/Server 형태로 OLAP 도구를 사용하는 것이 좋음
3.     Data Mining
-       의미 있고 유용한 데이터의관련 패턴을 분석하기 위해서 Data Mining 도구를 사용
-       Data Mining은 숨겨져 있는 패턴을 분석해야 하므로 많은 통계적 지식이 필요함.
-       데이터 웨어하우스가 있다면 마이닝을 통해 데이터를 얻기 쉬우며, 데이터 웨어하우스가 없어도 마이닝은 사용 가능함.
-       데이터 웨어하우스 프로젝트에 마이닝이 포함되지 않는 경우도 있음
-       데이터 마이닝은 필요에 따라 고도의 분석 기술이 있는 사용자가 수행

댓글 없음:

댓글 쓰기

ETL 솔루션 환경

ETL 솔루션 환경 하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다. 통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다. 빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이...