注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Ooi Beng Chin 黄铭钧

Databases, Machine Learning and Systems

 
 
 

日志

 
 

分布式系统节点故障恢复策略Recovery in Distributed Processing Platforms  

2013-12-15 10:01:50|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

随着数据量的剧增以及对数据进行复杂分析(analytics)的需求日益迫切,分布式系统必须不断地增加节点、扩大规模以应对巨大的工作量。显然,节点数量的增加不可避免地会导致节点故障的频发。因此,有效的故障恢复策略对于分布式系统来说非常重要。在现有的分布式系统中,存在两种常见的故障恢复(failure recovery)策略:一种是基于检查点(Checkpoint recovery)的恢复策略,另一种是基于密闭回收(Confined recovery)的恢复策略。最近,我们提出了一种新的基于划分的故障恢复方法。这种方法能够有效地减少快速故障恢复过程中引入的开销,并可以将故障恢复并行化以减少延时。

 

在分布式处理中,故障恢复策略和并行计算模型之间有着很强的内在联系。分布式计算模型可以分为:细粒度 (fine-grained parallelism)、粗粒度(coarse-grained parallelism)和高度并行(embarrassing parallelism)三种。这三种计算模型要求不同粒度的计算以及不同程度的通信。这和具体问题或应用的计算方法是无关的。不过在很多时候,具体应用问题的特性(如:大规模的图处理和大规模的聚合操作)决定了哪种计算模型更适合它们。以图处理为例:迭代式计算的特性决定了细粒度计算模型更为适合。而对于简单的聚合或连接操作,高度并行模型更为适合。我们通常希望将细粒度计算模型转化为高度并行模型,从而减少通信的代价,支持快速的故障恢复。不过,这种转化一般不会很彻底,因此出现了一种中间状态:粗粒度计算模型。  

 

并行和故障恢复在一方面有很多相似之处,在另一方面也呈现出一些不同:

1.      相似之处:要将大的计算任务分解成若干子任务,需要尽可能地减少子任务之间的依赖——要避免m-n依赖和链式依赖。从并行的角度来看,这意味着要对子任务进行更灵活的分配调度,并减少子任务之间的信息通信。从故障恢复的角度来看,这意味着将尽量少的恢复信息存入检查点,并在子任务恢复时从检查点读取尽可能少的数据。

 

2.      不同之处: 子任务的计算量对并行和故障恢复策略有着不同的影响。从并行的角度来看,我们更喜欢计算密集的任务,因为可以在不同的检查点之间做更多的计算。从故障恢复的角度来看,我们更喜欢非计算密集的任务,这样我们就能用更少的检查点来进行故障恢复。

 

Reference:

    Y. Shen, G. Chen, H.V. Jagadish, W. Lu,  B.C. Ooi, B. Tudor: Fast Failure Recovery in Distributed Graph Processing Systems. VLDB 2015
  评论这张
 
阅读(863)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017