Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

계층적 검색 의도를 고려한 서브토픽 마이닝

Title
계층적 검색 의도를 고려한 서브토픽 마이닝
Authors
김세종
Date Issued
2016
Publisher
포항공과대학교
Abstract
인터넷을 사용하는 대부분의 사람들은 웹 검색을 통해 자신이 필요로 하는 정보들을 확보하고 가공한다. 하지만 사용자 입력 질의에 대한 웹 검색 엔진의 검색 결과들은 해당 사용자의 검색 의도를 온전히 반영하지 못하는 경우가 빈번히 발생하며, 이러한 현상은 해당 질의의 중의성 및 불명확성으로 인한 것이다. 본 학위논문은 앞에서 언급한 문제점을 해결하고 기존 연구의 한계점을 극복하기 위해, 계층적 검색 의도를 고려한 서브토픽 마이닝 방법론을 제안한다. 서브토픽 마이닝이란 입력 질의에서 나타날 수 있는 검색 의도들의 중의성을 해소하고 보다 명확한 의도 전달을 위해 관련 서브토픽들을 연관성(relevance), 선호도(popularity), 다양성(diversity)을 고려하여 추출 및 순위화하는 것을 말한다. 제안하는 방법론은 다양한 언어에 적용 가능한 명사구 기반의 패턴을 사용하여 웹 문서들로부터 서브토픽 후보들을 추출하고, 이들의 선호도와 다양성 간의 균형을 유지하기 위해 계층적 검색 의도를 순위화에 반영함으로써 고품질의 결과물을 확보한다. 또한 본 논문은 서브토픽과 연관된 웹 문서들의 선호도와 추출된 서브토픽들의 명확성을 고려한 선별적인 서브토픽 순위화 방법론을 제안함과 동시에, 2계층 구조의 서브토픽 마이닝 평가 대회에서 제공한 웹 문서 및 각 자원의 특성을 고려하여 하위 계층의 서브토픽들을 확장 및 재순위화하고, 이들 중 넓은 검색 의도를 가진 서브토픽 내의 단어들은 상위 계층의 서브토픽들을 구성하는데 활용한다. 본 방법론은 관련 평가 대회에서 최고 성능을 보인 기존 연구들의 결과들과 비교했을 때, 대부분의 평가 척도에서 가장 높은 성능을 보였다.
The intention gap between users and queries results in ambiguous and broad queries. To solve these problems, subtopic mining has been studied, which returns a ranked list of possible subtopics according to their relevance, popularity, and diversity. This thesis proposes a novel method to mine subtopics based on hierarchical search intentions. We use simple patterns and a hierarchical structure of subtopic candidates. First, relevant and various phrases are extracted as subtopic candidates using simple patterns based on noun phrases and alternative partial-queries. Second, a hierarchical structure of the subtopic candidates is constructed using sets of relevant documents from a web document collection and another approach based on topic modeling. Finally, the subtopic candidates are ranked considering a balance between popularity and diversity using this structure. In experiments, our proposed methods outperformed the baselines and even an external resource based method at high-ranked subtopics, which shows that our methods can be effective and useful in various search scenarios like result diversification. In addition, this thesis focus on new issues such as resource usage and explicit hierarchy of subtopics. We reflect the characteristics of resources to subtopic mining results and construct the hierarchy based on three-level hierarchical search intentions. As a result, our method achieved better performance than the state of the art methods from almost every aspect.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002223700
https://oasis.postech.ac.kr/handle/2014.oak/93506
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse