2017년 8월 8일 화요일

ETL 솔루션 환경

ETL 솔루션 환경
하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다.
통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다.

빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이터 거버넌스가 이뤄지지 않고서는 제대로 된 결과물을 얻기는 힘들다.

ETL은 그런 점에서 주목받지 못하지만 정보시스템 상에서 앞단 작업에 선봉에 있는 ETL 빅데이터 시대 숨은 공로자와 같다.

생존을 위해 경쟁력을 갖추기 위한 노력
IT 투자 및 운영에 “효율”이라는 과제를 던지게 됐으며, 성능이 아닌 TCO(Total Cost of Ownership)에 맞춰 기업 내 정보시스템을 구축,운영하려는 노력을 하고 있다.

기업의 정확한 비즈니스 의사결정을 위해 사용하는 데이터 접근, 수집, 보관, 분석 등의 애플리케이션과 기술의 집합인 비즈니스 인테리전스(BI) 역시 변화가 감지되고 있다.

기업은 로그데이터, 페이스북, 트위터 상에서 생성되는 SNS 데이터까지 분석 해 경쟁력 강화를 위한 해답을 얻기 위한 방법을 고민하고 있다.

또한 그동안 과거 데이터를 분석했다면 이제는 현재와 미래를 파악하고 예측하기 위해 실시간 데이터에 접근  또는 분석을 통해 기업의 발 빠른 대응을 하기 위한 정보시스템 구축에도 나서고 있다.


ETL은 기업 시스템 내에 축적된 데이터 중 A 시스템에 데이터를 추출, 데이터웨어하우스 등에서 이용하기 쉬운 형태로 변환해, 대상이 되는 B 시스템에 적재하는 용도로 쓰인다. 이렇게 처리된 데이터는 시각화 작업을 통해 기업 의사결정권자들을 위한 비즈니스 리포트로 만들어진다.  통계 데이터 생성이 주업무인 정보계 시스템내 데이터를 추출해 DW에 적재하는 용도로 사용된다.

ETL 툴에는 그래픽 사용자인터페이스를 가용해 데이터의 흐름을 가시화하고 데이터 형식의 변환 기능, 부정 데이터를 배제한 일정 형식으로 데이터를 수정하는 데이터 클렌징 기능 등이 탑재된다. 실제 ETL 작업이 전체 작업의 반절 이상을 차지 할 만큼 BI 시스템에서 중요한 역할을 했지만 전통적인 데이터 처리 과정에서 봤을 때 ETL은 금융과 대규모 정형 데이터를 처리하는 기업에서만 찾는 제한적인 기능이었다. 데이터 규모가 크지 않는 기업들은 수작업을 통해 데이터를 코딩했기 때문에 ETL 툴 같은 상용 제품을 굳이 구매할 이유는 없었다.

그러나 데이터의 폭발적 증가와 함께 구조화·반구조화 데이터 뿐만 아니라 기존에 다루지 않았던 비구조화 데이터까지 처리해야 하는 상황에서 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩해야하는 상황은 더 이상 쉬운 일이 아니게 됐다. 이에 직접 코딩하지 않아도 되는 ETL 툴이 적극적으로 도입되기 시작했다.

BI 시스템 흐름 상 ETL은 시작을 담당하는 전초부대와 같다. 데이터의 추출·변환·적재가 이뤄져야 분석이 이뤄지기 때문이다. 빅데이터 분석 역시 구조화 및 비구조 데이터가 구조화 데이터로 변환·적재가 이뤄져야 분석이 가능하다.

이터의 품질이 좋아야 제대로 된 분석 결과를 얻을 수 있다는 점에서 구조화 데이터 외 비구조화 데이터 역시 품질이 확보돼야 정확한 분석 결과를 얻을 수 있다. 이런 흐름에 맞춰단순 추출·변환·적재 기능뿐만 아니라 메타데이터와 데이터 품질까지 포함해 데이터를 거버넌스 하는 식으로 시장의 요구 상황에 맞춰 ETL 툴 보유 기업이 이런 전략을 취하고 있다.

이런 ETL의 진화가 국내에서는 다소 더디게 흘러가고 있다. ETL의 툴이 선보인지 20년이 지났지만 그동안 ETL 툴은 BI 시스템 기본 요소로 시장 규모 자체가 커지긴 했지만 국내 사정을 감안했을 때 성숙되어 있다고 보기는 힘들다.

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...