2011년 5월 31일 화요일

시멘틱 웹 [semantic web]

웹기술은 팀버너스리가 1990년대 초에 최초로 월드 와이드웹을 창시한 이래로 꾸준히 발전해 왔으며, 2000년대에 들어서면서, 제2의 성장기를 맞이하고 있다. 기존의 웹이 양적성장을 목표로 하는 성장이었다면, 제2의 성장기는 시맨틱 웹, 신뢰의 웹 등에 기반한 질적인 성장을 의미한다. 새로운 웹의 패러다임으로 언급되기도 하는 시맨틱 웹은 사실 기존의 웹에 대한 개혁이라기 보다는 진화라고 표현하는 것이 옳을 것이다. 시맨틱 웹은 하이퍼텍스트 링크를 통한 가상공간에서의 위치적 연결을 넘어선 정보자원들 간의 의미적 연결을 컴퓨터가 이해할 수 있는 형태의 언어로 표현함으로 가능해질 수 있다.

21세기의 웹은 궁극적으로 기계가 정보자원의 의미를 이해하고 이를 바탕으로 논리적 추론이 가능할 수 있게 됨으로써 기계들 사이에 커뮤니케이션이 가능할 수 있는 웹으로 발전하게 될 것이다.

시맨틱 웹을 한마디로 정의하자면 “컴퓨터가 정보의 의미를 이해하고 의미를 조작할 수 있는 웹” 이라고 할 수 있다. 관계형 데이터베이스에서 ‘관계’가 ‘의미’를뜻하듯이, 웹에서도 정보 리소스들 사이의 연관성을 잘 표현해준다면 웹에서 의미의 처리는 가능할 수 있는 것이다. 시맨틱 웹은 하이퍼텍스트 링크를 통한 가상공간에서의 위치적 연결을 넘어선 정보자원들 간의 의미적 연결을 컴퓨터가 이해할 수 있는 형태의 언어로 표현함으로 가능해질 수 있다. 21세기의 웹은 궁극적으로 기계가 정보자원의 의미를 이해하고 이를 바탕으로 논리적 추론이 가능할 수 있게 됨으로써 기계들 사이에 커뮤니케이션이 가능할 수 있는 웹으로 발전하게 될 것이다.

시맨틱 웹의 정의
- 데이터 간의 관계를 정의하여 이러한 관계를 컴퓨터가 이해 있게 만든 것으로 데이터 간의 관계를 표현한
- 메타 데이터의 개념을 통해 문서에 시맨틱 정보를 덧붙이고, 의미 정보를 자동으로 추출 있게 만든 지능화

시맨틱 웹의 등장 배경
- 자원표현의 한계성 : 현재 웹은 HTML언어로 문서만을 표현하므로 자원을 표현하는 데는 한계가 존재
- 시맨틱 표현의 부재 : 문서끼리의 관계가 설정 되지 않아서 컴퓨터가 시맨틱을 이해하지 못하는 단점이 존재함
- URL 단순성 : 현재 웹은 URL 만으로 문서를 인식하는데 모든 객체들을 URL로만 인식하기에는 문제가 존재함

시맨틱 웹의 특징
- 문서끼리의 관계를 표현하여 의미기반 검색이 가능하여 정확한 검색을 있다.
- 서로 다른 이형질의 소스정보도 XML 이용해 표현하므로 통합 비교가 가능하다.
- 어떤 리소스에 대해 의미적이고 기술적인 정보 연계가 가능하고 통합이 가능하다.
- 서비스의 자동화를 위해 세부적인 정보를 첨가 있다.

시맨틱 웹의 구성 요소
구분
내용
자원 지칭- URI/Unicode : 웹의 모든 자원을 명시적으로 지칭할 있게 만듦
자원 서술- XML : 컴퓨터가 문법을 이해 있도록 만들어 주는 언어
- RDF : 컴퓨터가 Semantic 이해할 있게 만들어주는 언어
지식 서술- Ontology : 용어간 또는 문서간에 관계표현을 데이터 사전
통합 운영- Agent : Ontology 이용하여 정보를 추출하고 추론을 이용하여 정보를 가공
지식 추론- Logic : 인공지능 기반의 추론 연구
신뢰성 보안- Proof/Trust : 개념적인 차후 연구 과제


시맨틱 웹의 기술적 요소

1. 메타데이터
시맨틱 웹을 구현하기 위한 핵심적 기술 요소 가지는 메타데이터와 지식표현이다.
메타데이터는 마디로 데이터에 관한 데이터다. 예를 들어 데이터베이스에 저장되어 있는 데이터의 형식에 대한 데이터가 바로 메타데이터이다. 시맨틱 웹에서의 메타데이터의 목적은 정보검색의 처리과정을 줄여주고, 사용자가 원하지 않는 데이터를 미리 걸러주며, 관련성이 많은 정보의 발견 가능성은 높여줌으로써 정보검색을 향상 시키기 위한 것이다.
메타데이터의 예로서 지도의 범례도 일종의 메타데이터라 있는데 지도에 표시된 여러 상징들에 대한 설명을 줌으로써 지도 검색을 용이하게 준다. HTML 페이지 내의 <META> 태그도 문서를 설명해 주는 메타데이터이다. 메타데이터에는 페이지의 작성자와 버전 내용에 대한 목록정보를 표시할 있으며, 페이지 상호 간의 관련성을 나타낼 있고, 배포권 프라이버시 코드 등과 같은 사회적 정보도 표시할 있다.
시맨틱 웹에서 메타데이터 사용의 다양성은 중앙 집중 방식을 지양하고 웹의 분산성을 증진하려는 웹의 기본적 정신과 관련이 있다. 예를 들어, RDF에서는 정보 자원들 간의 관계성이 문서의 저자에 따라 다르게 정의될 있다. , 웹에서 어휘의 의미를 표준화하여 어휘 사용을 방향으로 경직시키는 것이 아니라, 누구든지 자유롭게 어휘의 정의에 대한 메타데이터를 웹에 공개할 있는 것이다. 따라서 언제든지 공개된 메타데이터를 원하는 사람은 전체 혹은 부분적으로 사용할 있다. 마치 자연어에서 어휘의 의미가 진화하는 것과 같다.

2. 지식 표현
시맨틱 웹에 있어서 의미는 바로 정보 자원들 사이의 관계성에 있다. 관계성을 좀더 일반적인 용어로 표현하면 연결성이다. 웹의 시작은 이러한 연결성을 통하여 구현되었고 연결성 때문에 웹은 분산적 정보공간이 되었던 것이다. 전통적 의미의 웹에서의 연결성은 하이퍼텍스트 링크를 통한 가상공간에서의 위치적 연결을 의미하지만 시맨틱 웹에서는 정보 자원들 간의 의미적 연결을 강조하고 있다.
시맨틱 웹은 페이지의 문서별로 서로 다른 의미 체계를 구축할 있지만 서로 다른 페이지들에서 정보 자원들 사이에 의미적 연관성을 지을 수도 있으며, 또한 이미 구축되어 있는 지식 베이스에 있는 정보를 메타데이터를 이용하여 가져 수도 있다. 이것을 시맨틱 웹에서의 상호운용성(interoperability)이라고 한다.
시맨틱 웹의 궁극적 목표는 의미 사용에 대한 분산성을 증진시키는 것인데, 정보를 사용하는 사람들이 사물에 대한 확정적 의미를 가질 필요가 없다는 뜻이다. 예를 들어 시맨틱 웹에서는 대한민국 정부의 세무 양식과 미국 정부의 세무 양식이 동일하지 않다고 하더라도 가지 공통된 부분이 있고 이것들 사이에 중요한 의미적 연결성이 존재한다면 추론의 과정을 거쳐 어떤 결론을 도출해 있으며 이들을 합성한 새로운 양식을 만들어 수도 있을 것이다.

온톨로지
온톨로지의 특성을 표현하고 있어 가장 널리 받아들여지고 있는 그루버(T. Gruber) 온톨로지 정의는 다음과 같다.

온톨로지란 관심 영역 공유된 개념화에 대한 형식적이고 명시적인 명세화다(Anontology is a formal, explicit specification of a shared conceptualization of a domain ofinterest)”

온톨로지는 데이터베이스의 일종이라 있는데, 데이터베이스에는 보통의 관계형 데이터베이스의 경우와는 달리 개념들 위계 구조와 기타 다른 관계 제약이 표현되어 있다. 사실 이것은 전산학에서의 온톨로지에 대한 비형식적인(informal) 정의이기도 하다. 온톨로지 공학(Ontology Engineering)이란 사람이 갖고 있는 각종 개념들을 이렇게 온톨로지화, 데이터베이스화 하는 기술이다. 온톨로지에 대한 연구는 인공지능 지식 표현 기술과 관련된 중요한 분야로서 시맨틱 웹과는 독립적으로 발전해 왔다. 이와는 대조적으로 시맨틱 웹은 하나의 독립된 기술이라기보다는 RDF 같은 메타데이터 언어를 비롯하여 여러 분야의 기술들이 연합하여 발전되어 기술로서, 최근 온톨로지 기술은 필연적으로 시맨틱 웹을 구현하기 위한 중요한 요소 분야가 되었다. 따라서 웹을 기반으로 온톨로지에 대한 연구는 더욱 활기를 띠게 되었으며 응용범위도 갈수록 확산되고 있다.

온톨로지의 종류
1. 도메인 기반 온톨로지 : 의료 분야 특정도메인 또는 유전자 정보를 이용한 온톨로지등 특정 분야에서 구축된 온톨로지
2. 타스크 기반 온톨로지 : 주석 분석과 같은 특정 업무 문제 해결과 같은 보편적인 Task 위한 온톨로지
3. 일반적인 온톨로지 : 일반적인 개념을 나타내는 온톨로지로 자연언어 처리에 활용되는 온톨로지

시맨틱 웹과 현재 웹의 차이
기존의 HTML 작성된 문서는 컴퓨터가 의미정보를 해석할 있는 메타데이터 보다는 사람의 눈으로 보기에 용이한 시각정보에 대한 메타데이터와 자연어로 기술된 문장으로 가득 있다. 예를 들어 <em>바나나</em> <em>노란색</em>이다. 라는 예에서 있듯 <em>이라는 태그는 단지 바나나와 노란색이라는 단어를 강조하기 위해 사용된다. HTML 받아서 처리하는 기계(컴퓨터) 바나나 라는 개념과 노란색 이라는 개념이 어떤 관계를 가지는지 해석할 없다. 단지 <em> 태그로 둘러싸인 구절을 다르게 표시하여 시각적으로 강조를 뿐이다. 게다가 바나나가 노란색이라는 것을 서술하는 예의 문장은 자연어로 작성되었으며 기계는 단순한 문자열로 해석하여 화면에 표시한다.

시맨틱 웹은 XML 기반한 시맨틱 마크업 언어를 기반으로 한다. 가장 단순한 형태인 RDF <Subject, Predicate, Object> 트리플 형태로 개념을 표현한다. 위의 예를 트리플로 표현하면 <urn:바나나, urn:, urn:노랑> 같이 표현할 있다. 이렇게 표현된 트리플을 컴퓨터가 해석하여 urn:바나나 라는 개념은 urn:노랑 이라는 urn: 가지고 있다는 개념을 해석하고 처리할 있게 된다
현재
시맨틱
자원 공유 통합 불가능
자원 공유 통합 가능
문서의 Syntax 표현
문서의 Syntax Semantics 표현
데이터의 재사용 불가
데이터의 재사용 가능
추론이 불가능함
추론이 가능함
HTML 표현
XML, RDF, OWL 언어로 표현

댓글 없음:

댓글 쓰기

블록체인 개요 및 오픈소스 동향

블록체인(block chain) 블록체인은 공공 거래장부이며 가상 화폐로 거래할때 발생할때 발생할 수 있는 해킹을 막는 기술. 분산 데이터베이스의 한 형태로, 지속적으로 성장하는 데이터 기록 리스트로서 분산 노드의 운영자에 의한 임의 조작이 불가...