如何减少Hadoop Map端到Reduce端的数据传输量

map端和reduce端参数的调优策略可以 使MapReduce性能最大化。 尤其使用hadoop进行大量数据进行运算, 这种调优作用越明显。

关于map端的调优属性   

map输出使用的内存大小、排序文件一次最多合并的数目、是否压缩map输出。


关于reduce端的调优属性

    通常来说,在reduce端如果把中间数据全部驻留在内存中,那么肯定可以获取最佳性能,但默认情况下,不会发生。因为默认要预留很多内存给reduce函数进行运算。

最小访问磁盘的次数来减少io时间。当然全部在内存里面更好。

赞(0) 打赏
特别声明:除特殊标注,本站文章均为原创,遵循CC BY-NC 3.0,转载请注明出处。三伏磨 » 如何减少Hadoop Map端到Reduce端的数据传输量

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏