Open Access System for Information Sharing

Graduate School for Information Technology (GSIT) (정보통신대학원) 4. Theses_Master

Thesis

Cited 0 time in webofscience

Cited 0 time in scopus

Metadata Downloads

개선된 단어정렬을 이용한 한국어-중국어 구 기반 통계기계번역 성능향상

Title: 개선된 단어정렬을 이용한 한국어-중국어 구 기반 통계기계번역 성능향상

Authors: 김장호

Date Issued: 2010

Publisher: 포항공과대학교

Abstract: 인터넷이 급속도로 발전함에 따라 세계는 점점 더 가까워지고 있다. 특히 여러 나라 사이의 교류가 빈번해지면서 비단 자국의 모국어뿐만 아니라 다른 나라의 언어로 된 정보를 접해야 할 필요성이 더욱 대두되고 있다. 하지만 현재 인간의 번역능력은 매일 넘쳐나는 각종 뉴스를 전부 번역하기에는 역부족이다. 때문에 현재 이러한 수요를 감당하기 위한 자동번역기술은 그 지위가 날로 각광받고 있다. 자동번역기술은 일반적으로 규칙기반과 통계기반 방식으로 나눌 수 있다. 특히 최근에는 인터넷의 발달로 대량의 말뭉치를 자동적으로 구축할 수 있게 되면서 수학적 모델과 대량의 말뭉치를 이용하여 번역을 진행하는 통계기반 번역방식에 대한 연구는 점점 더 활발히 이루어지고 있다. 통계기반 번역시스템은 구 기반과 구문기반 방식으로 나눌 수 있으며 현재 가장 좋은 성능을 보이고 있는 방식은 구 기반 통계기계번역 시스템이다.구 기반 통계기계번역 시스템[1]은 일반적으로 단어정렬, 구 추출 및 디코딩(번역과정) 등 세 가지 부분으로 구성되어 있다. 단어정렬은 두 언어의 단어 사이의 대응관계를 정해주는 것으로 단어정렬의 좋고 나쁨은 다음 단계인 구 추출에 직접 영향을 주는 아주 중요한 요소이다. 따라서 단어정렬의 성능을 제고하는 연구는 통계기계번역의 첫 단계로 아주 큰 비중을 차지하며 연구되어 왔다. 하지만 현재 사용되고 있는 단어정렬 알고리즘[2]은 두 언어에 대한 언어학적 분석이 없이 단순히 수학적 모델을 통하여 계산한 확률에 기반하여 두 단어의 대응관계를 결정한다. 이러한 방식은 언어학적 차이가 큰 두 언어 사이에서 상대언어에 대응되는 단어가 존재하지 않을 때 말뭉치에서 동시에 나타나는 빈도수가 높은 단어에 대응관계를 설정해 주기에 단어정렬에 많은 오류가 생긴다.한국어와 중국어는 언어학적 차이가 큰 대표적인 언어 쌍이다. 한국어는 기본적으로 어절로 이루어졌고 어절은 단어의 뜻을 결정하는 어간과 문법적 기능을 하는 조사, 어미, 파생접사의 조합으로 이루어졌다. 특히 한국어 문장에서 조사, 어미, 파생접사는 특정된 뜻을 가지고 있지 않지만 전체 한국어 문장에서 약 40%를 차지하며 아주 큰 문법적 기능을 수행하고 있다. 하지만 중국어는 한국어에 비하여 이러한 문법적 기능을 하는 단어가 거의 존재하지 않고 그 기능을 단어의 위치나 순서에 의하여 표현한다. 따라서 많은 한국어의 조사나 어미는 중국어에서 대응되는 단어를 가지지 않으며 이러한 차이는 현재 사용되고 있는 단어정렬 알고리즘에서 많은 오류를 유발한다. 특히 단어 사이의 잘못된 대응관계는 구 기반 통계기계번역에 필요한 정확한 구를 추출하지 못하거나 틀리게 추출함으로써 전체 시스템의 성능에 나쁜 영향을 미친다. 따라서 단어정렬의 결과를 개선하는 것은 구 기반 통계기계번역 시스템의 성능을 제고하기 위하여 반드시 선행되어야 하는 단계이다.본 논문에서는 구 기반 통계기계번역 시스템에서 가장 많이 사용하는 GIZA++를 이용하여 한국어-중국어 단어정렬의 진행하고 그 결과에 대하여 오류가 나타나는 원인을 분석하였으며 해결책으로 형태소를 삭제하는 방법과 통계적 수정규칙을 이용하는 방법을 제안하였다. 본 논문의 구성은 다음과 같다. 2장에서는 한국어-중국어 단어정렬에서 나타나는 문제점을 분석하고 3장에서는 단어정렬에 관련된 기존의 연구들을 살펴본다. 4장에서는 단어정렬을 개선하기 위하여 제안한 두 가지 방법에 대해서 자세하게 설명하고 5장에서는 위에서 제안한 두 가지 방법의 실험 결과를 제시하며 6장에서는 결론 및 향후 과제에 대해서 언급한다.
In the statistical machine translation, correspondences between the words in the source and the target language are learned from parallel corpora and often no morph-syntactic gap was considered to structure underlying models. In particular, Korean and Chinese which belong to extremely different language families in terms of typology and genealogy cause many errors in these models. In this thesis, we describe two methods to improve word alignment quality as well as Korean to Chinese phrase based machine translation quality. One is to remove Korean morphemes which have no correspondence Chinese word in the Chinese sentence. The other one is automatically extract correction rule to refine word alignment result output from GIZA++. The correction rule was generated from gold standard set of word alignment and automatically applied to the phrase based SMT system. The experiments result show that the first approach improve machine translation quality significantly. Second approach lead to 17.6% relative decrease in alignment error rate compared to baseline system. We also demonstrate that combination with two approaches yields up 1.11 BLEU point improvement over the baseline system.

URI: http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000000564124
https://oasis.postech.ac.kr/handle/2014.oak/704

Article Type: Thesis

Files in This Item:: There are no files associated with this item.

Show full item record

qr_code

트윗하기

Communities & Collection

Graduate School for Information Technology (GSIT) (정보통신대학원)

Open Access System for Information Sharing

Communities & Collection

Views & Downloads

Browse