查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Ooi Beng Chin 黄铭钧

Databases, Machine Learning and Systems

 
 
 
 
 
 

[置顶] 个人简介

2008-12-4 16:05:04 阅读2885 评论0 42008/12 Dec4

    黄铭钧,新加坡国立大学计算机科学杰出教授和人工智慧系统研究院院长, 浙江大学长江讲座(adjunct)教授 主要研究兴趣包括机器学习,数据库性能问题,索引技术大数据,多媒体及空间数据库处理,内存数据管理,云计算和并行系统的研究与高级应用等。他的研究工作以企业的实际应用为出发点,致力于将最新的科研成果转化为实际的生产力   

     他在国际会议如ACM SIGMOD, VLDB, IEEE ICDE 和杂志如ACM TODS, IEEE TKDE, VLDB 等发表过200多篇论文,被引用超过一万八千余次和H指数达到

作者  | 2008-12-4 16:05:04 | 阅读(2885) |评论(0) | 阅读全文>>

New Architecture for DBMS?

2011-10-18 10:14:40 阅读931 评论0 182011/10 Oct18

DBMS system architecture is 30 year old.  The system is very efficient for processing set oriented operations and was designed to perform some of these operations, such as join, very efficiently.  The technology is matured -- its query processing strategies, indexing methods such as the B+-tree and R-tree, concurrency control, recovery, etc have not changed much in the last 10 years or so. 

作者  | 2011-10-18 10:14:40 | 阅读(931) |评论(0) | 阅读全文>>

针对超大城市可持续发展的数据库支持研究

2011-8-9 10:23:54 阅读799 评论0 92011/08 Aug9

在世界步入新一轮经济危机的困难时期的同时,我们也面临来自环境方面的诸多挑战,例如气候变化、工业污染、无法持续发展的超大城市以及食物短缺等问题。来自不同领域的科研工作者们已经在着手进行可持续[城市发展]方面的研究,与此同时IT业界也需要协助找寻该可以用于解决该领域内相关问题的思路与途径。

这类研究中的[两大]主要特性是:1.数据的复杂性与异构性(数据需要经过存储与分析,这是数据分析的另一个应用);2.不同来源的数据之间的交互。此类数据包括标量、矢量、图像、视频等,它们通常需要较长的执行时间、并按一定频率而发生改变,因而通常具有很大规模的数据量。在数据库领域,一些研究者已经在这方面取得了一些成果(例如SciDB项目)。但是这些成果是否足够适应当前和今后的发展呢?目前摆在数据库研究者面前的还有哪些机遇与挑战呢?

作者  | 2011-8-9 10:23:54 | 阅读(799) |评论(0) | 阅读全文>>

Data Analytics

2011-8-4 14:01:35 阅读1018 评论0 42011/08 Aug4

Data analytics is not new, but is becoming a very hot topic/buzzword in recent years.  Data mining, which most database people are familiar with, has been around for years, and is used to discover patterns, features and trends from raw data.  Based on the knowledge discovered, conclusion and inference are made, and this has been recently termed as data analytics, and business

作者  | 2011-8-4 14:01:35 | 阅读(1018) |评论(0) | 阅读全文>>

Optimization Cost

2011-7-30 22:02:59 阅读1086 评论0 302011/07 July30

As the saying goes, there is no such thing as a free lunch, which is the case for most optimization.  Optimization is a process that aims to improve the efficiency of an operation, and hence minimizing execution cost and maximizing throughput.  The more effort we put in, the better processing cost we get.  However, since optimization is a non-negligible

作者  | 2011-7-30 22:02:59 | 阅读(1086) |评论(0) | 阅读全文>>

Rightly Solving the Right Problems

2011-7-21 16:16:57 阅读1044 评论0 212011/07 July21

IT has been a change agent in  many business models and has transformed them in many ways. It has also transformed our life to some extent, such as we are spending more time on virtual social networking than networking in real life.  It no doubt also enhances the connection and the quality of life in many ways.  For every new application that is being used in

作者  | 2011-7-21 16:16:57 | 阅读(1044) |评论(0) | 阅读全文>>

Speculations

2011-6-12 11:01:47 阅读857 评论0 122011/06 June12

The advancement in hardware technology is most likely to cause some major re-designs of database systems. For examples:

1) What will the distributed data platform be like when the network speed breaks the current network speed limits by 10 times (eg. the break through in graphene based networking)?  

2) Will database archictecture remain the same when large scale PCM is commercially available?

作者  | 2011-6-12 11:01:47 | 阅读(857) |评论(0) | 阅读全文>>

浅谈系统研究与创业

2011-6-11 9:12:31 阅读1111 评论0 112011/06 June11

      创业从很大程度上来说是系统研究员生活中不可或缺的一部分。我们关注整个系统的研发,而不仅仅是做局部的设计来支撑我们提出的理论。每当完成一个新的系统,我们希望看到它能够在人们的生活中投入使用。这不仅是对自我价值的实现,同时也是对应用驱动型(use-driven)研究的有力验证,以及对个人财富的再生。

我在1992/3年开始从事图像数据管理方面的研究。与我的两位同事一起,我们在1999年发布了用作照片共享的GeoFoto图像管理系统。那时web 2.0 应用和社交网络还尚未兴起。GeoFoto系统允许用户输入“关键词 -- keyword” (即现在大家所熟知的“标签 -- tagging”) 来对照片进行描述,并设定每张照片的访问权限,是否分享它,以及分享

作者  | 2011-6-11 9:12:31 | 阅读(1111) |评论(0) | 阅读全文>>

微博数据管理 Tweet Data Management

2011-3-30 9:21:06 阅读1152 评论0 302011/03 Mar30

    在社交网络和微博系统中,数据作为一个整体,都存在一个系 统里,因此,那些数据一旦产生就应当被搜索到。为了给博客以及微博提供实时搜索功能,我们需要即时地更新数据库以及索引。然而在微博系统中,这些微博产生的速度实在是太快了:在一些比较流行的系统中,用户们每天可能会发布超过

5000 万条微博。在用户量大的微博系统中,提供实时检索确实是一个很有挑战性的问题。

作者  | 2011-3-30 9:21:06 | 阅读(1152) |评论(0) | 阅读全文>>

OLTP + OLAP

2010-9-28 10:13:45 阅读1887 评论0 282010/09 Sept28

OLTP and OLAP workloads are typically handled separately by two systems with different architectures – RDBMS for OLTP and data warehousing system for OLAP.  Periodically, data in RDBMS are extracted, transformed and loaded (aka. ETL) into the data warehouse. The system-level separation was motivated by the

作者  | 2010-9-28 10:13:45 | 阅读(1887) |评论(0) | 阅读全文>>

     尽管半导体技术促进了中央处理器领域突飞猛进的发展,但是存储器的发展却很滞后,直到今天,主存和硬盘所采用的技术和30年前依然基本相同。除了硬盘的容量大幅度提高之外,硬盘技术的基本原理几乎没有改变,静态随机存储器(SRAM)和动态随机存储器(DRAM)信息存储的主要介质仍然是电荷。值得注意的是,近年来一些新兴的存储技术可能带来一场革命性的变化。闪存技术正逐渐成熟,并且将成为硬盘的重要竞争者。放眼望去,相变存储器(PCM),磁阻式随机存储器(MRAM)和电阻式随机存储器(RRAM)等一系列技术也都相继走出实验阶段,进入产品开发阶段。我们把这一类存储技术称为存储级内存(SCM --Storage Class Memory)。SCM是可基于位访问的,速度堪比SRAM和DRAM,并且存储密度至少提升了一个数量级。此外,它们都是非挥发性的,耗能明显少于传统存储技术。毫不夸张地说,我们正处于信息存储变革的浪潮之巅。

作者  | 2010-8-28 22:47:58 | 阅读(1214) |评论(0) | 阅读全文>>

MapReduce的性能影响因素和解决方法

2010-7-20 23:22:59 阅读1833 评论0 202010/07 July20

           MapReduce 广泛应用于处理云端计算中存储的海量数据。该系统具有良好的伸缩性和细粒度的容错能力,但在处理数据库应用时,性能却表现不佳。最近的研究表明,Hadoop(开放源码的MapReduce系统)在处理许多类型的数据分析任务时,比两个最新的并行数据库系统慢3.1到6.5倍。用户固然可以从云端中租用更多的计算节点,加速MapReduce的运行。但是,这种租赁更多节点的方式,在“即用即付”的环境中,性价比不高,也不是一个长期的解决方案。对于数据密集型应用,用户需要高伸缩性且经济的数据处理系统。因而, MapReduce能否同时提供性能和伸缩性是一个重要的研究课题。

作者  | 2010-7-20 23:22:59 | 阅读(1833) |评论(0) | 阅读全文>>

数据库中的关键词搜索--Keyword Search

2010-3-18 11:11:43 阅读2027 评论0 182010/03 Mar18

      简单易用的关键词查询 (keyword search) [1, 2, 3] 界面对于互联网被广泛接受和用户提供内容的快速传播有着巨大的贡献。关键词查询界面允许用户自由地查询海量的数据,因此可以提高关键词搜索技术的可用性。在过去的二十年中,数据库系统在性能,可扩展性和容错性方面都有着巨大的进步。现在的数据库系统可以同时处理在多种多样的庞大数据集上的大量复杂并发查询。自然地,下一步的研究难题是如何提供一种比结构化查询语言(structured query language)更方便的、像基于实例的查询(query-by-example)和基于表单(query-by-form)的查询那样流行的搜索查询界面,从而提高数据库系统的可用性。

由于文本数据容量的不断增加,基于关键词的查询机制就成为用户自然有效的与数据库交互的方法。然而,在我们拥有可以允许用户在不知道任何有关底层数据存储的知识时仍然可以对数据库进行有意义的查询这一思维方式的转变之前,仍然有很多悬而未决的研究问题需要被解决。这样,关键词搜索成为一个热门的研究领域并不足以让人感到惊奇。

作者  | 2010-3-18 11:11:43 | 阅读(2027) |评论(0) | 阅读全文>>

Skyline 查询

2009-12-31 18:29:39 阅读2301 评论0 312009/12 Dec31

       在实际应用中,有多少种不同类型的skyline查询是有用的呢?有多少会被现有的产品系统或者通用数据服务器支持呢?

          基于不同的支配关系, 我们已经定义了很多不同的skyline。虽然这些skyline查询有着不同的应用,但却共同面对着一个新的问题:如何控制skyline的大小以及处理新的数据类型。一个一个地来考量所有这些查询实在是太浪费时间了。所以,我们尝试提供一个新的框架 [1]来一口气解决所有的问题。在这个框架里,根据不同的应用需求,我们能非常容易地定义出一些新的skyline来。而对于任何一个新的支配关系,我们的框架会验证并且确保那些重要的属性依然有效。具体来说,这个框架的目标是,在

作者  | 2009-12-31 18:29:39 | 阅读(2301) |评论(0) | 阅读全文>>

epiC 云计算大数据系统

2009-12-16 15:46:50 阅读2815 评论0 162009/12 Dec16

      当前的学术界和工业界,包括许多论坛和学术会议在内,都在为 推广云计算做着不懈的努力。在这篇文章中,我将探讨一些云计 算平台的设计问题,并提出一个可行的架构,以使云计算平台能够提供更好的支持OLTP查询。

大规模数据分析是能体现云计算优越性的重要应用,它使得大数据(Big Data)能够在大型集群中得到处理和分析[21, 22]。在目前的云计算环境中,MapReduce框架因其出色的可扩展性和较好的容错性而获得广泛的使用。由于它的普及,研究人员一直在努力加强MapReduce平台对于传统SQL查询的支持[18, 21, 22]。然而,相比并行数据库系统,当处理复杂大数据分析或联机事务处理任务时,MapReduce的性能并不能令人满意。这是因为,这些任务常常需要连接许多数据表并进行聚合操作。为了处理这类查询,多个MapReduce任务将被依次提交执行,这并不符合MapReduce平台

作者  | 2009-12-16 15:46:50 | 阅读(2815) |评论(0) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 
 
 

海外 新加坡

 发消息  写留言

 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
列表加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018

注册 登录  
 加关注