Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

Altiora Petamus

MapReduce: Simplified Data Processing on Large Clusters 본문

SSAC X AIffel/논문 읽기

MapReduce: Simplified Data Processing on Large Clusters

현석종 2021. 4. 19. 16:46

mapreduce는 대규모 데이터 세트를 처리하고 생성하기 위한 프로그래밍 모델이자 관련 구현체이다. 

사용자는 key/value 쌍을 처리하여 중간의 key/value쌍을 생성하는 map fucntion을 지정하고 , 동일한 중간 키와 연결된 모든 중간 값을 병합하는 reduce function을 지정한다. 

이 논문에서 보여주듯이  이 모델을 이용하여 real world에 대한 실제 작업을 수행할 수 있다. 

이러한 기능적인 방식으로 만들어진 프로그램은 자동으로 병렬화 되어 대규모 범용 머신 클러스터에서 실행된다. 

런타임 시스템은 입력 데이터의 파티셔닝, 컴퓨터 세트 전반에 걸친 프로그램 실행 스케줄링, 기계 고장 처리 및 필요한 기계 간 통신 관리의 세부 사항을 처리합니다.

따라서 병렬 및 분산 시스템에 대한 경험이 없는 프로그래머도 대규모 분산 시스템의 리소스를 쉽게 활용할 수 있습니다.

일반적인 MapReduce 계산은 수천 대의 머신에서 수 테라바이트의 데이터를 처리하는 것에 비해

이 논문에서 제시한 MapReduce의 방식은 대규모 범용 머신 클러스터에서 실행되며 확장성이 뛰어납니다.

 

수백 개의 MapReduce 프로그램이 실행되었고 매일 1,000개 이상의 MapReduce 작업이 구글의 클러스터에서 실행될 정도로 프로그래머들이 사용하기 쉽다.

Comments