[Hadoop] MapReduce 맵리듀스란?
MapReduce
- Hadoop에 내장되어 여러 노드에 태스크를 분배해 병렬 처리를 하는 방법
- 데이터를 추출해 분산처리하는
Map
과 데이터를 집계하는Reduce
로 구성
Mapper
- 데이터를 변형하는 작업
- 중요한 데이터를 추출하고 Key-Value 쌍으로 전환
Reducer
- Map 과정에서 처리된 Key-Value 로 이루어진 데이터의 개수를 세거나 더하는 등의 집계하는 작업
동작 예시
- Reducer 가 Count 작업을 한다면 위의 그림 처럼 작업이 진행됨