Altiora Petamus
MapReduce: Simplified Data Processing on Large Clusters 본문
mapreduce는 대규모 데이터 세트를 처리하고 생성하기 위한 프로그래밍 모델이자 관련 구현체이다.
사용자는 key/value 쌍을 처리하여 중간의 key/value쌍을 생성하는 map fucntion을 지정하고 , 동일한 중간 키와 연결된 모든 중간 값을 병합하는 reduce function을 지정한다.
이 논문에서 보여주듯이 이 모델을 이용하여 real world에 대한 실제 작업을 수행할 수 있다.
이러한 기능적인 방식으로 만들어진 프로그램은 자동으로 병렬화 되어 대규모 범용 머신 클러스터에서 실행된다.
런타임 시스템은 입력 데이터의 파티셔닝, 컴퓨터 세트 전반에 걸친 프로그램 실행 스케줄링, 기계 고장 처리 및 필요한 기계 간 통신 관리의 세부 사항을 처리합니다.
따라서 병렬 및 분산 시스템에 대한 경험이 없는 프로그래머도 대규모 분산 시스템의 리소스를 쉽게 활용할 수 있습니다.
일반적인 MapReduce 계산은 수천 대의 머신에서 수 테라바이트의 데이터를 처리하는 것에 비해
이 논문에서 제시한 MapReduce의 방식은 대규모 범용 머신 클러스터에서 실행되며 확장성이 뛰어납니다.
수백 개의 MapReduce 프로그램이 실행되었고 매일 1,000개 이상의 MapReduce 작업이 구글의 클러스터에서 실행될 정도로 프로그래머들이 사용하기 쉽다.
'SSAC X AIffel > 논문 읽기' 카테고리의 다른 글
Fast R-CNN (0) | 2021.04.26 |
---|---|
Attention Is All You Need(Transformer) (0) | 2021.04.19 |
Zero-Shot Text-to-Image Generation (0) | 2021.04.19 |
Rich feature hierarchies for accurate object detection and semantic segmentation (0) | 2021.04.19 |
Improving Language Understandingby Generative Pre-Training (0) | 2021.04.12 |
Comments