2011년 5월 22일 일요일

유니코드의 한글 인코딩 표준안

현재 유니코드에서 한글 텍스트의 인코딩 기법은 ‘완성형 현대한글 음절’과 주로 옛한글을 표현하는데 사용되는 ‘자모 조합형 한글’로 나뉘고 있다. 그러나 정규화 변환과 유니코드의 한글자모 조합 규정에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용할 수 있게 허용했기 때문에, 구현하는 사람마다 각기 서로 다르게 한글 인코딩을 하고 있다. 이는 인코딩과 정규화 형식을 처음 작성할 당시 옛한글의 확장 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성된 데 따른 결과라 하겠다. 결과적으로 한 개의 한글음절에 대한 여러 가지 표현 방법이 존재함으로써 한글 문자열의 검색, 비교, 정렬에 문제점이 발생한다. 따라서 본 연구에서는 현재 사용되고 있는 한글 인코딩 방법을 중심으로 정규화에 의한 부작용 등의 문제점을 분석하고, 이들을 올바르게 처리하기 위한 효율적인 단일 한글 인코딩 표준 방안을 제안한다.

댓글 없음:

댓글 쓰기

ETL 솔루션 환경

ETL 솔루션 환경 하둡은 대용량 데이터를 값싸고 빠르게 분석할 수 있는 길을 만들어줬다. 통계분석 엔진인 “R”역시 하둡 못지 않게 관심을 받고 있다. 빅데이터 역시 데이터라는 점을 볼때 분산처리와 분석 그 이전에 데이터 품질 등 데이...