您的位置:环球网>科技>科技人物>正文

百度陈尚义:大数据到了价值挖掘阶段

我有话说 字号:TT
2014-05-21 21:54 来源:环球网科技 责任编辑:李文瑶 作者:李文瑶

  【环球科技报道 记者 李文瑶】第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。百度技术委员会理事长陈尚义的演讲主题是“百度大数据引擎”,他回顾了大数据的发展历史,从2011年的4V界定,到2012年的政府立项,再到2013年的行业间交流合作,再到现在的传统行业纷至,大数据以成为当下最火的技术。他认为大数据到了一个价值挖掘的阶段。

百度技术委员会理事长 陈尚义

  以下为演讲实录:

  非常高兴有机会跟大家一起交流一下百度的大数据引擎,这是上个月刚刚对外发布的一个计划或者行动。

  刚才王博士的讲话给我留下了一个非常深刻的印象,他提了一个问题,说现在讲云计算已经不怎么时髦了,现在讲大数据比较时髦,过三个月之后,不知道什么东西更时髦。在这里我想试图回答一下王博士的问题,所以我今天讲的题目就叫“大数据引擎”,如果明年我还在这里讲的话,我一定会跟大家讲人工智能,跟大家汇报一下百度人工智能最大的进展。

  大家也许知道,上周五,我们在大西洋彼岸,设了一个百度的硅谷研究院,其中有一个实验室,我们聘请了原谷歌的一位工程师加入我们,明年希望能够跟大家汇报我们工程方面的进展。现在我们给大家讲一讲这个时髦的话题,就是百度的大数据引擎。

  我汇报分为四个部分,第一部分,我觉得大数据已经到了一个新的阶段,为什么这样讲呢?我记得在2011年前后,其实那个时候并不是说云计算和大数据是相对排斥的,那时候我记得很清楚,CSDN的刘总就讲了它们之间的关系,当时是跟我们的首席科学家探讨的,那时候我们已经看到了云计算和大数据之间的某种关系。

  一、 大数据发展史

  当然,那时候有一个现象,大家都是在谈论大数据,试图对概念进行理解。让我印象比较深刻的就是大家试图解释四个V是什么含义。当时仅仅是谈谈而已,当时有很多的会议,还有大数据专业委员会。

  有一个朋友问我一个问题,现在大家都关注云计算,但是政府没有关注,紧接着2012年前后,政府开始部署大数据,标志事件就是各地省政府和地方政府都把大数据作为战略,提到非常高的高度,我印象中咸阳新区等,还有国家一些重大科技专项和科技计划项目把大数据列入支持对象。这时候开始,政府开始关注云计算和大数据。

  第三个阶段,大家就开始找自己的数据资源,以及它能创造什么价值,就是大数据的价值探索。我记得比较清楚的是大家都互相交流,有数据的企业或者是行业找有数据处理能力的企业交流,有数据能力的企业反过来去找数据资源丰富的企业进行交流。这个时候,他们对数据资源的开发利用进行了探讨,一个标志性的东西就是跨界的交流。

  现在我认为大数据到了一个价值挖掘的阶段,我有机会接触到全国做数据方面的一些企业,但是都是打着大数据这么一个招牌去谈论他们在数据方面所做的工作。但是,很显然他们已经在做实实在在的一些事,这个是我们目前2014年所处的这么一个阶段,在这个阶段里头,我认为他们存在着一些问题,我这里讲的是误区,或者说是一些现象。这个现象不见得是不积极的,至少说明我们对数据价值的认识已经到了非常高的地步,而且我们也提出了很多具体的实际行动。比如说他们把过去我们所做的舆情分析、把过去我们做的BI都进行了大数据挖掘,所用到的传统技术也不是今天大家坐在一起讨论的大数据方面的一些新的技术和方法。

  所以,我们把数据当做大数据,把传统的技术当做大数据的技术,他们挖掘这个数据价值,他们缺乏大数据所必须面对的挑战,它的这些新的特征。

  在这个阶段里头,我们最需要做的事情,就是我们必须得看到真正的大数据不是那样,真正的大数据一定是高速成长的,它的成长速度,大家都知道现在的摩尔定律,它的膨胀速度是你不可想象的,对成本的压力是你不可想象的。这是第一个。第二个,我们必须要开发新工具和新平台,去满足大的数据规模和高速膨胀的需求,这是我们需要想到的,而不是说我们停留在过去所做的关于数据方面的一些工作而满足。在刚才我说的第四个阶段,迫切需要做这样一些事情,克服我们的误区,然后才能赢得一个新的机会。这是我汇报的第一个方面。

  二、 行业大数据面临的挑战

  第二个方面,跟大家介绍一下通过我们和行业的交流,因为刚才讲了,我们其中有一个阶段,我们跟很多的传统行业交流,如何挖掘大数据的价值,因为他们知道百度是一个大数据处理企业,他相信我们可以帮到他们。所以在交流过程中,我们也实实在在感觉到各个行业面临的一些问题。

  行业挑战1:数据孤岛,价值未知

  第一个困难就是数据孤岛,大家有没有想到所有的数据产生,都有它的第一个作用,否则,它不会产生。这个数据都积累起来,最后它一定有第二个作用、第三个作用,比如说百度的相册里存了很多关于我们每一个网民存放上去的各种图片,当图片积累到一定程度的时候,我们就可以发现当年流行的那个趋势是什么。我每天早上有一个习惯,起床以后站到窗户照一张照片,对生活做一个记录,但是多了以后,我每天把照片放在一起的时候,我很容易的就发现这一年天气变化的轨迹,我甚至可以预测未来的趋势,这就是第二个和第三个作用。

  还有一个就是行业数据如果不和其他的数据进行联合、进行交易的话,它的数据价值是非常有限的。比如说银行的数据如果不跟互联网搜索数据结合起来的话,那它纯粹只是做银行原来的事情。比如说保险数据如果和医疗数据不结合起来的话,它们之间的价值流失就会很多。总而言之,数据存在着孤岛现象,他们对自己数据价值的认知存在着一些误区。

分享到:

点此查看新闻表情排行榜请选择您浏览此新闻时的心情

相关新闻
相关专题
第六届中国云计算大会
第六届中国云计算大会2014-05-06
此次会议将继承前五届大会的成功经验,将邀请更多国内外知名院士、专家学者、行业CIO参加会议并作演讲。[详细]