注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Ooi Beng Chin 黄铭钧

Databases, Machine Learning and Systems

 
 
 

日志

 
 

MapReduce的性能影响因素和解决方法  

2010-07-20 23:22:59|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

           MapReduce 广泛应用于处理云端计算中存储的海量数据。该系统具有良好的伸缩性和细粒度的容错能力,但在处理数据库应用时,性能却表现不佳。最近的研究表明,Hadoop(开放源码的MapReduce系统)在处理许多类型的数据分析任务时,比两个最新的并行数据库系统慢3.1到6.5倍。用户固然可以从云端中租用更多的计算节点,加速MapReduce的运行。但是,这种租赁更多节点的方式,在“即用即付”的环境中,性价比不高,也不是一个长期的解决方案。对于数据密集型应用,用户需要高伸缩性且经济的数据处理系统。因而, MapReduce能否同时提供性能和伸缩性是一个重要的研究课题。

  我们在100个节点的Amazon EC2集群上,对MapReduce在不同并行粒度下的性能进行了研究,指出了5个影响Hadoop性能的设计因子,并研究了每个因子的不同实现方法[1]。研究表明,经过细致地选择这些因子的实现方式,在同样的基准测试程序(benchmark)上,Hadoop的整体性能可以提高2.5到3.5倍。该结果不同于之前的相关工作,表明Hadoop和并行数据库之间的性能差距并不大。事实上,如果Hadoop可以有效地支持数据压缩,其性能可以比拟并行数据库。因此,在类似Hadoop/MapReduce的系统上,搭建高效、可伸缩的数据处理系统是可能的。我们希望该成果对进一步开发基于Hadoop和MapReduce的数据处理系统有所帮助。

   该项目的源代码存储在  epiC 项目的主页上: http://www.comp.nus.edu.sg/~epic

参考文献:

[1] D. Jiang, B. C. Ooi, L. Shi, S. Wu: The Performance of MapReduce: An In-depth Study. Int'l Conference on

Very Large Data Bases (VLDB), 2010

  评论这张
 
阅读(1772)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017