注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Ooi Beng Chin 黄铭钧

Databases, Machine Learning and Systems

 
 
 

日志

 
 

CDAS: A CrowdSourcing Data Analytics System 众包数据分析系统  

2012-11-24 21:35:19|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  众包作为一种新兴的商业模式(即将业务廉价地配发给互联网上的通常没有特定专业知识的用户),为很多难以由机器和算法完成的任务提供了一种新的解决方式。鉴于人工智能的研究还有待成熟,对图像、自然语言等事物的处理和理解对于机器而言是非常困难的,但这类问题对于人类来说并非难事。人类在解决问题时,有着更多的背景知识和更强的理解归纳能力,而这正是解决此类问题的关键。在众包系统中,为了方便无专业知识的用户良好地完成任务,通常我们将复杂的任务细分为一系列简单的任务。这些工作配发给一定数量的用户,而众包系统收集并聚合用户提供的答案,并生成符合需求的结果。

除了上述有着非常明确前景的问题外,对于其他问题使用众包系统是否能够比传统模式获得更好的效果的答案并不明确。直观来讲,人类相比机器善于理解分析与归纳,而不善于计算。对于计算为主的任务,机器往往能够提供令人满意的解决方案。另一方面,受限于往往不能要求众包的参与者具有特定的专业知识背景,过于专业的问题往往也不适合用众包来解决。

使用众包解决问题,除了问题本身与人类智能的契合程度之外,如何有效使用众包往往是决定成败的关键。在众包分析系统中,有三个技术难点决定着系统的好坏。这三个难点分别是众包系统的质量控制、成本控制以及与现有机器方法间的有机结合。由于众包任务往往是被非专业用户以非专业态度完成的,因此结果并不可靠。为了得到可用的结果,众包系统必须拥有有效的质量控制。在我们的CDAS [1] 众包数据分析系统,我们提出了一个支持各种数据分析应用的众包系统架构[2],并提出了一个带有质量控制功能的众包任务管理模型。另一方面,尽管众包任务往往花销很小,但为了保证质量往往需要将同一任务派发多次,加之计算机领域相当多的任务都有不小的数据规模,因此成本控制也是必须的。针对不同问题在问题难度、价值以及容错率上的差异性,我们在[3]中设计了一个以任务利益最大化为目标的的在线众包系统数据分析方法。该方法将质量控制与成本控制结合考虑,同时对问题难度进行自适应地即时估计,最终在线决定对问题的配发策略。对于一个大型任务来说,现有机器方法对众包系统的帮助也是至关重要的。一方面只有其中适合人类智能进行处理的部分才适合被众包,因此我们必须设计一个有机整合众包结果的架构与算法,利用众包任务结果完成最终的任务。另一方面,相当多的大型任务(如自然语言处理、图像处理等原本利用机器学习方法完成的任务)中的子任务往往具有较强的相关性,而现有机器方法虽然结果不甚理想,但在众包结果的指引和纠错下,有很大可能取得相当大的进步。如果众包任务的选取以及算法协同经过精心的设计,我们就可以利用中等规模的众包任务完成对大规模数据任务的处理。这与机器学习中的主动学习问题类似,但众包数据质量并不可靠,因而面临着更多的挑战。在[4], 我们提出了一个支持网页数据(Web Tables)集成的众包系统架构来解决语义不匹配和不兼容数据格式的问题.

目前众包系统的使用主要限于可以公开的数据,对数据隐私有要求的应用不能直接使用众包方案解决[5]。众包系统的信息安全是相当困难的问题,对数据的匿名与模糊会显著降低人们完成任务的正确率,但过少的匿名将会使隐私数据暴露。而机器方法并不涉及数据泄露的问题,因此在匿名要求下众包系统会相对劣势。

我们将在CDAS 项目网站[1]提供CDAS系统开放源码下载

 

References:

[1] CDAS 项目网站 : Crowdsourcing Data Analytics System.

[2] X. Liu, M. Lu, B. C. Ooi, Y. Shen, S. Wu, M. Zhang: CDAS: A Crowdsourcing Data Analytics System Int'l Conference on Very Large Data Bases (VLDB), PVLDB 5(10):1040-1051, 2012[

[3]. J. Gao, X. Liu, B.C. Ooi, H. Wang, G. Chen:  An Online Cost Sensitive Decision-Making Method in Crowdsourcing Systems.  ACM SIGMOD 2013.

[4] J. Fan, M. Lu, B. C. Ooi, W. C. Tan, M. Zhang: A Hybrid Machine Crowdsourcing System for Matching Web Tables.  30th IEEE International Conference on Data Engineering (ICDE) 2014.

[5] S. Wu, X. Wang, S. Wang, Z. Zheng, A. Tung:  K-Anonymity for Crowdsourcing Database.  IEEE Transactions on Knowledge and Data Engineering, 2013 (to appear).
  评论这张
 
阅读(3442)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017