Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

음성인식기를 위한 자동/수동 오류 수정

Title
음성인식기를 위한 자동/수동 오류 수정
Authors
최준휘
Date Issued
2016
Publisher
포항공과대학교
Abstract
최근 사람과 기계 사이의 편리한 인터페이스를 위해 음성 인식기가 널리 사용되고 있다. 그러나 음성 인식기의 성능의 많은 발전에도 불구하고 여전히 음성 인식 오류가 발생하고 있다. 음성 인식 오류란 사용자가 음성 인식기에 대해 발화 하였을때 발화가 정확히 인식 되지 않아 발생하는 의도하지 않은 단어들을 말한다. 그러한 오류들은 음성 인식기를 사용하는 어플리케이션에서의 오동작을 유발하여 많은 불편을 야기하고 있다. 따라서 본 박사 학위 논문에서는 따라서 음성 인식기를 위한 자동/수동 오류 수정 방법을 제안한다. 자동 오류 수정 방법으로 트리 기반 단어 사전을 통한 유도 생성 방법(guided generation using the tree based dictionary)을 제안하고, 수동 오류 수정 방법으로 원스텝 오류 검출 수정 인터페이스(one-step error detection and correction interface)를 제안한다. 자동 오류 수정 모델은 음성 인식기를 시뮬레이션하여 학습 데이터를 생성하여 훈련하였고, 훈련된 모델을 준비된 음성 인식 결과와 정답 문장으로 이루어진 병렬 말뭉치에 실험하여 오류 수정 방법의 효과를 입증하였다. 이 자동 오류 수정 방법론은 단순히 음성 인식 오류 수정에만 적용될 수 있을뿐만 아니라, 고정된 패턴을 생성하는 다양한 문제에 적용될 수 있다. 수동 오류 수정 방법은 화자의 발화 의도를 이해하기 위해 발화를 수집하여 클리어스피치(clear speech)의 특성을 고려하여 발화 의도 분류기를 설계하고, 각 의도에 따른 시나리오를 설계하였다. 실험으로 목표 구역 감지 및 의도 분류 성능을 측정했고, 해당 성능으로 통합된 인터페이스의 효율성을 휴먼 실험을 통해 입증하였다. 이 수동 오류 수정 방법론은 음성 인식기를 이용하나 사용자가 음성으로 잘못된 부분을 수정할 수 있는 인터페이스를 요구하는 어떤 과제에도 적용될 수 있다.
In this thesis, we propose two methods for speech recognition error correction: automatic correction and manual correction. For the automatic correction, we propose guided generation method using tree based word dictionary. The proposed model encodes the target error and its context character by character sequentially. In decoding process, the system generates corrected words character by character from the embedding until the end symbol meets. For the accurate generation, the sequence generation is guided by a tree based word dictionary. The model was trained with ASR simulated training corpus. The method was evaluated on English parallel test corpus, and achieved 14.9% of reducing errors, and operating the proposed method after performing the word sequence pattern matching based method achieved 35.9% of reducing errors. If the automatic error correction method cannot correct some errors, then the users are able to correct the errors by the manual correction method. For the manual correction, we propose a one-step error detection and correction interface for a voice word processor. This correction interface performs analysis region detection, user intention understanding and error correction utterance recognition, all from a single user utterance input. We evaluate the performance of each component first, and then compare the effectiveness of the proposed interface to two previous interfaces. The evaluation demonstrates that each component is technically superior to the baselines and that the one-step error detection and correction method yields an error correction interface that is more convenient and natural than the two previous interfaces.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002298274
https://oasis.postech.ac.kr/handle/2014.oak/93522
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse