【Hadoop---09】MapReduce:MapReduce概述
文章目录
- MapReduce概述
MapReduce概述
-
MapReduce:是一个分布式的编程框架。
-
优点:
- 易于编程:用户只关心业务逻辑,调用框架的接口即可
- 良好的扩展性:可以动态增加服务增加计算资源
- 高容错性:任何一台机器挂掉,可以将任务转移到其他节点
- 适合海量数据计算(TB/PB),几千台服务器共同计算
-
缺点:
- 不擅长实时计算。不能像Mysql一样处理毫秒级的计算
- 是批处理,不擅长流式计算。【可以用Sparkstreamming、Flink】
- 不擅长DAG有向无环图计算。这一个的计算结果给下一个,下一个再给下下个…【可以用Spark】
注意:“不擅长”不代表不能执行,只是没有其他专门的框架做的好。
-
MapReduce由2个阶段组成:Map阶段 和 Reduce阶段。分别都是并行执行。