注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Ooi Beng Chin 黄铭钧

Databases, Machine Learning and Systems

 
 
 

日志

 
 

epiC 云计算大数据系统  

2009-12-16 15:46:50|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

      当前的学术界和工业界,包括许多论坛和学术会议在内,都在为 推广云计算做着不懈的努力。在这篇文章中,我将探讨一些云计 算平台的设计问题,并提出一个可行的架构,以使云计算平台能够提供更好的支持OLTP查询。

大规模数据分析是能体现云计算优越性的重要应用,它使得大数据(Big Data)能够在大型集群中得到处理和分析[21, 22]。在目前的云计算环境中,MapReduce框架因其出色的可扩展性和较好的容错性而获得广泛的使用。由于它的普及,研究人员一直在努力加强MapReduce平台对于传统SQL查询的支持[18, 21, 22]。然而,相比并行数据库系统,当处理复杂大数据分析或联机事务处理任务时,MapReduce的性能并不能令人满意。这是因为,这些任务常常需要连接许多数据表并进行聚合操作。为了处理这类查询,多个MapReduce任务将被依次提交执行,这并不符合MapReduce平台设计的初衷。这种处理方式将导致整个云计算平台变得笨重和冗余。此外,用户程序的执行逻辑并没有嵌入到云计算系统的执行引擎中,从而导致用户程序执行效率的低下。这就像在一个简单而有效的数据库管理系统上运行复杂的“存储过程”这类并不被数据库后端支持的处理逻辑。其它相关的研究成果可以参考引文[2,4,5,6,7,8,17,18]。

在MapReduce和现有的其他云计算系统的启发下,我们为云计算环境设计和实现一个全新的可扩展的数据库——epiC(elastic——可扩展性,power-aware——耗能敏感性, data-intensive——数据密集型 Cloud)[1, 3]。相比MapReduce,我们,站在一个更加基础的角度上来重新考量和设计数据库中的最原始的操作运算。多年以来,数据库中的“连接”操作已经得到了充分的研究和优化,但种种连接运算的算法都仅能单独应用于集中式或者并行的体系结构。但当更多的计算节点加入运算时,这些算法无法提供有效的动态可扩展性。在epiC中,我们一方面致力于提供传统数据库中的索引技术[9,11,13],另一方面跟据当前云计算平台的动态特点设计全新的查询处理算法[1,10, 12, 14, 15, 16]。在[19], 我们证明了epiC的确比Hadoop(MapReduce的开放源码)和GPS(Pregel的开放源码)更高效和可扩展的支持并发和分布式计算。

 

References:

[1] C. Chen, G. Chen, D. Jiang, B. C. Ooi, H. T. Tam, S. Wu, Q. Xu: Providing Scalable Database Services on the Cloud. WISE 2010.

[2] D. Jiang, B. C. Ooi, L. Shi and S. Wu: Performance of MapReduce: An In-depth study  Int'l Conference on Very Large Data Bases (VLDB), 2010.

[3] A data management system for the cloud environment -- epiC 

[4] M. Stonebraker, D. Abadi, D. J. DeWitt, S. Madden, E. Paulson, A. Pavlo and A. Rasin: MapReduce and Parallel DBMSs: Friends or Foes? CACM, Vol. 53, No. 1, 64-71, 2010.

[5] J. Dean and S. Ghemawat: MapReduce: A Flexible Data Processing Tool: CACM, V0l. 53, No. 1, 72-77, 2010.

[6] http://hadoop.apache.org/hive/

[7] http://research.microsoft.com/en-us/projects/Dryad/

[8] http://wiki.apache.org/pig/

[9] S. Wu, D. Jiang, B. C. Ooi, K. L. Wu: Efficient B-tree Based Indexing for Cloud Data Processing. Int'l Conference on Very Large Data Bases (VLDB), 2010.

[10] H. T. Vo, C. Chen, B. C. Ooi: Towards Elastic Transactional Cloud Storage with Range Query Support. Int'l Conference on Very Large Data Bases (VLDB), 2010.

[11] J. Wang, S. Wu, H. Gao, J. Li and B. C. Ooi: Indexing Multi-dimensional Data in a Cloud System. ACM Int'l. Conference on Management of Data (SIGMOD), 2010.

[12] Y. Lin, D. Agrawal, C. Chen, B. C. Ooi, S. Wu: Llama: Leveraging Columnar Storage for Scalable Join Processing in the MapReduce. ACM Int'l. Conference on Management of Data (SIGMOD), 2011

[13] G. Chen, H. T. Vo, S. Wu, B. C. Ooi, T. Ozsu: A Framework for Supporting DBMS-like Indexes in the Cloud. Int'l Conference on Very Large Data Bases (VLDB), 2011.

[14]Y. Cao, C. Chen, F. Guo, D. Jiang, Y. Lin, B. C. Ooi, H. T. Vo, S. Wu and Q. Xu: ES^2:A Cloud Data Storage System for Supporting Both OLTP and OLAP. 27th IEEE International Conference on Data Engineering (ICDE) 2011

[15] S. Wu, F. Li, S. Mehrotra, B. C. Ooi: Query Optimization for Massively Parallel Data Processing. ACM Symposium on Cloud Computing (SOCC). 2011

[16] G. Chen, T. Hu, D. Jiang, P. Lu, K.L. Tan, H. T. Vo, S. Wu: BestPeer++: A Peer-to-Peer Based Large-scale Data Processing Platform.  28th IEEE International Conference on Data Engineering (ICDE) 2012.

[17] W. Lu, Y. Shen, S. Chen, B. C. Ooi: Efficient Processing of K Nearest Neighbor Joins using MapReduce. Int'l Conference on Very Large Data Bases (VLDB), PVLDB 5(10):1016-1027, 2012.

[18] F. Li, B. C. Ooi, T. Ozsu, S. Wu:  Distributed Data Management Using MapReduce. ACM Computing Survey, 46(3), 31, 2014.

[19] D. Jiang, G. Chen, B.C. Ooi, K.L. Tan, S. Wu: epiC, an Extensible and Scalable System for Processing Big Data. Int'l Conference on Very Large Data Bases (VLDB), PVLDB 7, 2014.

[20] F. Li, T. Ozsu, G. Chen, B.C. Ooi: R-Store: A Scalable Distributed System for Supporting Real-time Analytics. 30th IEEE International Conference on Data Engineering (ICDE) 2014.
[21] B. Cui, H. Mei, B. C. Ooi: Big data: the driver for innovation in databases. National Science Review,  2014. 

[22] G. Chen, H.V. Jagadish, D. Jiang, D. Maier, B.C. Ooi, K.L. Tan, W.C. Tan: Federation in Cloud Data Management: Challenges and Opportunities. IEEE Transactions on Knowledge and Data Engineering, 2014

  评论这张
 
阅读(2765)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017