epiC最初被设计为基于磁盘的分布式数据管理和处理平台。最近我们在研究多种方法来使epiC更加“内存化”,通过把尽可能多的数据驻留在内存,从而避免了每次处理后都要写回磁盘。
我们着手对适合内存数据管理的系统(包括两个流行的系统和一个新兴的系统)进行性能分析,分别是Memcached、Redis和Resilient Distributed Dataset (RDD)。通过对数据分析操作和细粒度对象操作(例如set/get操作)的全面的性能分析,结果显示全部系统均不能同时高效地支持这两类操作。对于Memcached和Redis,其性能瓶颈在于TCP协议的CPU性能和I/O性能 - 即使在同一台机器上访问内存对象;而RDD依靠顺序扫描,不能高效地支持随机对象查找,因此内存读写成为了瓶颈。我们的分析还揭示了欲实现高效的内存数据管理所需具备的一系列特征[1]。
Reference:
1. H. Zhang, B.M. Tudor, G. Chen, B.C. Ooi: Efficient In-memory Data Management: An Analysis, VLDB 2014.
2. 源码下载
评论