MapReduce

  • Hadoop에 내장되어 여러 노드에 태스크를 분배해 병렬 처리를 하는 방법
  • 데이터를 추출해 분산처리하는 Map 과 데이터를 집계하는 Reduce 로 구성


Mapper

  • 데이터를 변형하는 작업
  • 중요한 데이터를 추출하고 Key-Value 쌍으로 전환

Reducer

  • Map 과정에서 처리된 Key-Value 로 이루어진 데이터의 개수를 세거나 더하는 등의 집계하는 작업


동작 예시

  • Reducer 가 Count 작업을 한다면 위의 그림 처럼 작업이 진행됨