在很多新兴的数据应用中,数据来源是移动设备或者嵌入式系统。这些设备或系统中的测量误差,数据歧义,数据噪声,网络延时以及不频繁的数据发布,更新或抽取,使得不准确性和不确定性成为一种固有的现象。对于很多应用,不准确性是由数据本身产生的,但是对另外一些系统应用,不准确性的产生是出于降低成本代价的考虑[2]。综合上述因素,处理不准确数据,同时提供更好的查询精度成了现今数据库系统的一个新的需求,这直接促成了概率数据库或不确定性数据库的产生。但是概率数据库或不确定性数据库并不是新的概念,因为不完整数据库,带概率的数据库以及模糊数据库在很多年前就已被研究。
概率数据库系统所面临的主要挑战是像大部分数据库管理系统应用一样对大规模数据提供支持,并且对概率推演效率提供保证。虽然在数据库管理系统中,对可扩展性的支持不是一个新问题,但是在大规模的数据集上进行概率推演不但耗费时间,而且可能降低查询结果的精度。在概率数据库系统中,如果概率推演算法设计不当,推演代价将超过查询处理的代价。因此,需要将数据库检索引擎和概率推演模块进行集成,以便利用数据库成熟有效的技术,例如查询优化,元数据开发和数据实体化来加速概率推演。
有关概率数据库的背景知识,研究课题和研究方法可以参阅文献[1]。
[1] N. Dalvi, C. Re, D. Suciu: Probabilistic databases: Diamonds in the Dirt. CACM 52(7), 86-94, 2009.
[2] M. Zhang, S. Chen, C. Jensen, B. C. Ooi and Z. Zhang. Effectively Indexing Uncertain Moving Objects for Predictive Queries. VLDB 2009.
[3] B. C. Ooi, C.H. Goh and K.L. Tan: Fast Retrieval in High Dimensional Databases with Incomplete Information. VLDB, 357 – 367, 1998.
评论