Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Overcoming Sparseness in Knowledge Bases: Harvesting, Integration, and Translation

Title
Overcoming Sparseness in Knowledge Bases: Harvesting, Integration, and Translation
Authors
여진영
Date Issued
2018
Publisher
포항공과대학교
Abstract
지식베이스는 컴퓨터가 사람의 생각을 이해하기 위해 사람의 집단 지식을 컴퓨터가 읽을 수 있는 형태로 저장해놓은 것을 말한다. 이러한 지식베이스는 초기에는 유명 엔티티만을 다루다가, 다양한 실생활 문제와 함께 점점 더 다양한 영역의 엔티티를 다루기 시작하였다. 예를 들어, 사용자들이 식당이나 주점과 같은 일상적인 장소에 대한 정보가 필요해짐에 따라, 이러한 장소를 다루는 신종 지식베이스가 등장하였다. 하지만 영역을 확장하였음에도 불구하고, 각 영역에서 특정 엔티티에 대한 정보는 여전히 부족한 경우가 많이 발생한다. 이것은 웹문서만을 단독으로 이용하여 추출한 지식은 선천적으로 그 종류와 양에 한계점이 존재하기 때문이다. 특히 대표적으로, 새로 생겨난 신종 엔티티나 비영어 엔티티가 웹문서상의 정보 부족에 고통받고 있다. 본 논문에서는 이러한 기존 지식베이스내 희소성을 해소하기 위해서, 초기 지식베이스 구축과 차별화된 세가지 방법론을 제시한다. 첫째는, 웹문서 외에 추가적인 자원을 활용하여 지식베이스를 개선하는 지식 확장이다. 우리는 특히 소셜 미디어 상에 사용자들이 직접 기여한 자원을 활용하여 부족한 엔티티의 정보를 자동으로 확장하는 방법론을 제안한다. 둘째는, 이미 기 완성된 두 지식베이스를 하나의 통합된 지식베이스로 합치는 지식 통합이다. 기존의 관련 방법론은 통합시 사람이 옳고그름을 판단할 수 있는 근거가 부족하였지만, 우리가 제안한 방법론은 스카이라인 메커니즘을 이용하여 왜 통합하는지 사람이 이해할 수 있는 설명을 만들어낸다. 셋째는, 기 형성된 영어지식을 비영어 지식으로 전이하는 지식 번역이다. 시중에 서비스중인 신경망 번역 기술로 지식을 번역하는 것이 가장 기본적인 방법이지만 이와 같은 번역은 오류나 의역을 포함하기 때문에, 우리는 전이된 지식과 원래의 영어 지식의 격차를 최소화하는 최적화 알고리즘을 제안한다. 위 세가지 방법론은 기존의 최신 방법론과 비교했을때에 뛰어난 성능 향상을 보여주었고, 다양한 영역에서 지식희소성을 극복할 수 있음을 보여주었다.
This thesis considers overcoming sparseness in knowledge bases (KBs) by a way of knowledge harvesting, integration, and translation. Over the past few years, KBs like DBPedia, Freebase, and YAGO have accumulated a massive amount of knowledge from web data. Although such KBs initially focus on only famous PLO entities, new real-world problems have required KBs to extend their domain coverage. As a result, as new KBs, Location-based Social Networks (LBSNs) like Foursquare and Yelp and Event-based Social Networks (EBSNs) like Eventbrite and Meetup are developed, covering typical entities in diverse domains (e.g., restaurants and events). As another example, KBs for question and answering (QA) like CausalNet are also developed to enable machines to give the reasonable answers (\eg, causes and effects). Despite their seemingly broad domain coverage, however, most KBs inherently lack comprehensive information at entity level. One case is new entities being created daily, reported to be 1% of KBs. Though the novelty of these entities naturally attracts mentions, due to lack of prior knowledge, it is more challenging to collect knowledge about such entities than pre-existing entities, whose KBs are comprehensively annotated through LBSNs and EBSNs. Another case is longtail entities having sparse information. For example, over 70% of people on Freebase lack information on place of birth. Basically, such sparse knowledge can be manually annotated by human efforts, but it is very time-consuming and costly even requiring domain knowledge. In this thesis, we aim to automatically address these limitations, i.e., knowledge sparseness, of current KBs with minimal human efforts, by three main mechanisms: knowledge harvesting, integration, and translation.
URI
http://postech.dcollection.net/common/orgView/200000105097
https://oasis.postech.ac.kr/handle/2014.oak/93586
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse