Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

MR2: Fault Tolerant MapReduce with the Push Model

Title
MR2: Fault Tolerant MapReduce with the Push Model
Authors
김동원
Date Issued
2015
Publisher
포항공과대학교
Abstract
MapReduce engines have two choices when moving data from mappers to reducers, the pull model and the push model. For fault tolerant MapReduce engines such as Hadoop MapReduce, the pull model has been considered as the only choice despite its inherent performance problem. We propose a new MapReduce engine for Hadoop, called MR2, which adopts the push model and yet allows the user to selectively enable fault tolerance. If fault tolerance is enabled, MR2 provides the same level of fault tolerance as Hadoop MapReduce. Based on the push model, we build a new two-phase pipeline from the ground up to eliminate architectural problems of Hadoop MapReduce which result in the poor performance. By coordinating the execution of its components, MR2 achieves high computational and I/O efficiency. We prove through extensive experiments that MR2 shows much better performance than Hadoop MapReduce. MR2 runs up to 4.57 times faster than Hadoop MapReduce for the TeraSort benchmark and up to 2.21 times faster for the PUMA benchmark. For the SWIM benchmark, MR2 reduces the sum of all job durations by up to 77 percent. Thus we show that on the contrary to the common belief, the push model is indeed a viable choice for fault tolerant MapReduce engines.
맵리듀스 엔진은 두 가지 방법-풀 모델과 푸쉬 모델-으로 컴퓨터들 사이에 네트워크 전송을 구현할 수 있다. 풀 모델 기반 맵리듀스 엔진은 계산 도중에 하드웨어 고장 또는 프로그램 오류 같은 다양한 문제들이 발생하더라도 처음부터 다시 계산할 필요 없이 중간 결과를 이용해서 계산을 계속 진행할 수 있는 내고장성을 가진다. Hadoop MapReduce 같은 내고장성 맵리듀스 엔진의 구현에서는 풀 모델이 필수 불가결한 네트워크 전송 구현방법으로 널리 인식되어 왔다. 하지만 풀 모델에 기반을 둔 맵리듀스 엔진들은 근본적인 성능 문제가 있다. 푸쉬 모델 기반 맵리듀스 엔진들은 빠른 속도를 자랑하지만, 근본적으로 내고장성과는 거리가 멀다고 인식되어 왔다. 이 학위 논문은 푸쉬 모델을 사용하면서 내고장성을 가지는 맵리듀스 엔진인 MR2를 제안한다. MR2에서는 내고장성을 키고 끌 수 있으며, 내고장성을 켰을 경우 Hadoop MapReduce와 같은 수준의 내고장성을 보장한다. MR2는 푸쉬 모델을 기반으로 하는 새로운 고성능 파이프라인을 통해 Hadoop MapReduce의 성능 저하의 원인이 되는 구조적인 문제점들을 근본적으로 제거하였다. MR2는 파이프라인의 구성요소들간의 동작을 조화롭게 조정함으로써 높은 수준의 계산/입출력 효율을 보인다. 이 학위 논문은 다양한 실험을 통해 MR2가 Hadoop MapReduce보다 훨씬 좋은 성능을 보이는 것을 보인다. MR2는 TeraSort 벤치마크에서 Hadoop MapReduce에 비해 최대 4.57배의 성능 향상을 보인다. MR2는 PUMA 벤치마크에서 최대 2.21배의 성능 향상을 보임으로써, 다양한 특성을 가지는 맵리듀스 작업들을 효율적으로 처리할 수 있음을 보인다. MR2는 SWIM 벤치마크에서 24442개 작업의 실행 시간의 합을 최대 77%까지 줄임을 보임으로써, 실제 기업들에서 하루 동안 처리하는 맵리듀스 작업들을 Hadoop MapReduce보다 더 효율적으로 처리함을 보인다. 이와 같이 본 학위논문은 보통의 통념과 다르게 푸쉬 모델을 기반으로 한 내고장성을 가지는 고성능의 맵리듀스 엔진이 가능함을 보인다.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000001910662
https://oasis.postech.ac.kr/handle/2014.oak/93478
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse