当前位置: 首页 > news >正文

hadoop mapreduce 优化

mapreduce程序效率的瓶颈在于两点:

  1:计算机性能

  2:I/O操作优化

优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略:

  1:输入的文件尽量采用大文件

    众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用ConbinFileInputFormat来作为输入方式,此时hadoop会考虑节点和集群的位置信息,已决定将哪些文件打包到同一个单元之中。

  2:合理分配map和reduce任务的数量

    通过属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum分别可以配置单个节点上map任务和reduce任务的最大数量。

  3:压缩中间数据,减少I/O

  4:在map后先进行combine处理,减少I/O

 

参考资料:《Hadoop 实战》--机械工业出版社

转载于:https://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

相关文章:

  • DDMS中的log
  • Collections
  • 初会smarty
  • ubuntu12.10配置java环境
  • 基于字符串的简单汇编虚拟机
  • 快速升级Oracle 11.2.0.2 RAC到11.2.0.3
  • SQL如何在已有的一张表中插入一列类型为INTEGER数据 并赋初始值为0
  • sublime text 3
  • 木杉大话微软手机系统
  • Python Dict 创建
  • 如何在存储过程内部调用另一个存储过程 EXEC
  • 翻转句子中单词的顺序
  • 转 MapGuide HTTP API
  • 倍压整流电路
  • Tomcat中对内存的分配与溢出的处理办法
  • JS中 map, filter, some, every, forEach, for in, for of 用法总结
  • 《Javascript高级程序设计 (第三版)》第五章 引用类型
  • 【108天】Java——《Head First Java》笔记(第1-4章)
  • echarts花样作死的坑
  • FastReport在线报表设计器工作原理
  • Java 最常见的 200+ 面试题:面试必备
  • java8-模拟hadoop
  • PHP面试之三:MySQL数据库
  • Vue.js-Day01
  • 番外篇1:在Windows环境下安装JDK
  • 复杂数据处理
  • 关于Android中设置闹钟的相对比较完善的解决方案
  • 每天10道Java面试题,跟我走,offer有!
  • 通过获取异步加载JS文件进度实现一个canvas环形loading图
  • zabbix3.2监控linux磁盘IO
  • 带你开发类似Pokemon Go的AR游戏
  • (4)logging(日志模块)
  • (附源码)php新闻发布平台 毕业设计 141646
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (一)u-boot-nand.bin的下载
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • (转)VC++中ondraw在什么时候调用的
  • . Flume面试题
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .NET Core 中插件式开发实现
  • .NET Framework .NET Core与 .NET 的区别
  • .NET Framework与.NET Framework SDK有什么不同?
  • .NET/C# 中设置当发生某个特定异常时进入断点(不借助 Visual Studio 的纯代码实现)
  • /bin/rm: 参数列表过长"的解决办法
  • ??如何把JavaScript脚本中的参数传到java代码段中
  • @transaction 提交事务_【读源码】剖析TCCTransaction事务提交实现细节
  • [ 数据结构 - C++]红黑树RBTree
  • [android学习笔记]学习jni编程
  • [Ariticle] 厚黑之道 一 小狐狸听故事
  • [BT]BUUCTF刷题第4天(3.22)
  • [C#] 基于 yield 语句的迭代器逻辑懒执行
  • [Cocoa]iOS 开发者账户,联机调试,发布应用事宜
  • [flask]http请求//获取请求头信息+客户端信息
  • [GN] Vue3快速上手1
  • [hdu 1247]Hat’s Words [Trie 图]