2011년 6월 1일 수요일

DW 하드웨어 기술

Server
하드웨어의 병렬처리 기술 유형
SMP(Symmetric multiprocessing) 대칭형 다중 처리
-       운영체제와 메모리를 공유하는 여러 개의 CPU가 프로그램을 수행하는 것(하나의 운영체제와 하나의 데이터베이스 공유)
-       MPP시스템에 비하여 병렬 프로그래밍이 훨씬 용이
-       CPU간 작업의 분산 용이
-       OLTP 작업에서도 효과적
-       확장성은 MPP에 비하여 취약
MPP(Massive parallel processing)
-       보통 하나의 CPU, 하나의 Memory, 하나의 OS로 구성된 여러 Node들의 집합으로 구성된 시스템
-       Message-passing 방법을 사용한 Software Coherency 사용
-       System 구성이 용이함
-       어플리케이션 개발의 어려움
-       의사결정 지원 시스템, VOD 시스템 등에 유용
NUMA(Non-Uniform Memory Access)
-       몇 개의 마이크로프로세서들 간에 중간 단계의 공유메모리 추가.
-       SMP에서 가장 큰 문제점인 I/O와 메모리 엑세스의 병목현상 해결
-       하나의 공유 메모리(L3 캐시)로 향하는 로컬버스에 상호 연결된 네개의 마이크로프로세서들로 구성
Cluster
-       여러 대의 컴퓨터를 네트워크를 통해 연결하여 하나의 단일 컴퓨터처럼 동작하도록 제작된 컴퓨터
-       CPU 자원의 공유
-       여러 컴퓨터간의 부하 조정
-       가용성이 높은 시스템의 구축
-       주 시스템이 다운되었을 때를 대비한 Fail-Over 기능 제공
Data Base
Star Query
-       Row 수가 많은 Fact Table과 Row수가 적은 Dimension Table 간에 Join할 때 Row수가 적은 Table부터 Join하여 최종적으로 Fact Table과 Join하는 경우를 말한다.
-       Dimension 테이블 끼리 조인을 한 후 Fact 테이블과 다시 조인함. Fact 테이블의 행의 수는 아주 크기 때문에 가능한 한번만 조인함(Star Join)
ETT
추출: Extraction
-       데이터 원천으로부터 필요한 데이터를 추출하는 과정
-       원천 데이터베이스로부터 초기 이행과정을 거치며, 그 후 원천 데이터 변경 부분만을 추출하여 데이터 웨어하우스에 반영한다.
-       원천 데이터베이스로부터의 직접적인 데이터 추출은 원천 데이터베이스에 부하를 많이 줄 뿐만 아니라 변경된 부분을 찾아내기 어렵다는 문제점이 있다.
전송: Transportation
-       추출된 데이터를 데이터 웨어하우스에 전달하는 과정
-       이기종 간에 데이터 전달을 수행하기 위해서는 통신 프로토콜을 바탕으로 데이터의 전달이 오류 없이 수행될 수 있도록 구성을 하여야 한다.
변형: Transformation
-       원천 데이터베이스의 구조와 데이터 웨어하우스 데이터 베이스의구조가 서로 다르기 때문에 데이터의 변형이 이루어진다.
-       데이터의 변형은 데이터 웨어하우스가 어떤 구조를 갖고 있느냐에 따라 다양하게 이루어진다.
ETT 고려사항
-       ETT는 많은 시간과 자원이 투입되는 비중 있는 작업이므로 절대로 가볍게 생각되어서는 안된다.
-       ETT는 한차례의 이행으로 완료되는 것이 아니고 지속적으로 데이터를 갱신하여야 하므로, ETT 기능의 많은 부분을 자동화하여 사람에 의해서 발생할 수 있는 오류를 최소화하여야 한다.
-       원천 데이터베이스의 변경 및 데이터 웨어하우스 데이테베이스의 변경이 필수 불가결하므로 이를 효과적으로 수용할 수 있는 변경관리 기능이 절대적으로 필요하다.
-       데이터 품질 확보를 위한 정합성 검증 작업은 체계적인 절차를 갖고 있어야 한다.
-       시중에 판매되는 ETT 도구만으로 모든 기능을 충족시키기는 부족하므로, 필요한 부분을 자체 개발할 수 있는 능력이 필요하다.
데이터를 분석하는 방법
Programming
-       사용자를 위해 여러 가지 보고서나 조회를 위한 화면을 Chart Library를 통해 프로그래밍하여 구현한다.
-       데이터 웨어하우스에서는 잘 사용하지 않는다.
Query & Report Tools
-       사용자가 직접 질의문을 작성하여 Reporting 도구를 이용하여 보고서를 작성하는 경우로써 EUC(End User Computing)라고 한다.
OLAP
-       분석도구를 직덥 사용하여 다차원 분석을 하는 경우로써 OLAP을 이용하여 분석하는 것이다.
-       대화식
Data Mining
-       Raw Data에 직접 접근하여 숨겨진 패턴을 분석한다.(가설과 검증)

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...