机器智能和2%的世界——吴军在清华大学的演讲

2014-12-17 12:36:00 赛迪网 谢涛 分享
参与

2014年12月12日晚,Google科学家、畅销书作家吴军博士将亲临清华大学经管学院舜德楼401室,为广大师生和产业界人士带来了一场精彩的主题讲座——“机器智能和2%的世界”。本次活动由清华大数据科学研究院、清华大学研究生会、清华大数据产业联合会主办,人民邮电出版社、三境书屋、大数据文摘协办。

据悉,此次吴军博士借《数学之美》第二版、《文明之光第三册》两本新书上市之机,专门抽出近两周的时间,从美国回国参加在北京、上海、杭州与教育界、产业界人士举办的多项交流活动。 在清华大学的这次讲座,吴军博士的演讲主题聚焦在大数据和机器智能领域。以下是吴军博士演讲内容(略有删节):

今天的主题是“机器智能和2%的世界”, 这是今天讲座的副标题——“数据为王和机器智能的时代”。刚说大数据又说机器智能。这两者有什么关系?2%的人又是怎么回事呢?

先讲下最近几年硅谷看到世界上的投资也好,在大公司(Google 或Facebook)内部也好已经开展的创新的大趋势。大家已经看到了云计算+移动互联网+大数据正在进行时。

今天先讲大数据再讲机器智能。这点大家已经注意到了,在Google已经买了大量的机器人公司,这也是机器智能的一小部分,我今天要讲的重点,但是今天为什么要重提机器智能?和“个人工智能”的概念相比两者有什么差别呢?以前基本上是没做成。大数据和其有什么关系?这是最重要的。就是说大数据光有数据没用,最终让计算机变得非常聪明、最终改变整个世界,才有价值。因为大数据是个手段,而要达到的是这个目的。第三是有了一(机器智能)和二(大数据),在未来IT行业将改变生物医疗撬动更大的一个行业。

今天因为时间关系我总讲前两点,第三个会大概提一下。然后大家可以通过这些理解到大数据的作用。

这两个画的作用是什么呢?

这是剑齿虎,如果在座的各位谁曾经和它搏斗过请将身体剩余的部分给我看看。大家笑了,这怎么可能,剑齿虎的牙那么长,并且生活在几十万年前早就灭绝了。那么我说你和它的近亲美洲豹和美洲狮搏斗过也可以。你会说这怎么可能我怎么会跟它搏斗。力量不够。

上面的图是我们的祖先—现代智人。事实上在我们的祖先走出非洲的时候遇到的许多大型哺乳动物都已经灭绝了。现代智人非常引以为傲的是我们的大脑非常聪明,而不是我们强壮的四肢,要有思维有思考。那么人类整个文明过程就是不断发明工具来延伸我们的各种器官和四肢,来走得更远,飞得更高。

一直有个梦想是是否可以延伸我们的脑力,那么1946之后人类的第一台电子计算机诞生了,延伸是为计算火炮的轨迹。后来战争结束,这台计算机没有用于轨道的计算而是参与核弹的设计。当然也曾算一算轨道,当算完后炮弹还没有落地。所以有个英国将军蒙巴赫说这个东西真够快,就像通了电的脑子,也就叫了电脑。既然有了电脑,机器有了脑子是否有思维?这是提的第一个问题,第二个是它能否超越人?在当时许多机器的东西已经超越人了,比如蒸汽机。所以根据人的想象中就创造出无数作品的机器人。亚洲做的比较人性化是阿童木这样的,美国就是钢铁侠这样的。

这是一个扫地的机器人,另一个叫好奇号或好奇者,是美国航天局发射到月球的机器人,是核动力的。这个形象和我们想象中的不太一样,他能做到我们做不到的事情。在过去40年里,计算机的能力是不断增加,而且是以指数的形式增长,这是摩尔定律,可以基本得到这个结论,在过去40多年里,世界IT的发展以及由IT导致全球经济的增长基本上最核心是摩尔定律。横轴是时间点,纵轴是半导体。

那么接下来有个问题,就是说计算机一方面不能像人一样思考,另一方面过去很多年智能的问题其实也已经可以解决,会比人更好。举个例子机器翻译,今天如果学三个月法语去法国,是件很困难的事情,法国人对法语很自豪。这件事本身不太容易,我有个朋友去法国,带上了Google语言识别,可以翻译为法语朗读,这样法国人会很乐意帮助你,机器算的快好像没有智能,但是另一方面又能解决智能问题。因此引出一个很深的思考:计算机的智能是否需要和我们人的相同?如果不相同计算速度到一定是能否超过人?

这个是小时候我们父母给我们讲过的印度国际象棋的图。棋盘上64格,第一放一颗,第二放二颗,第三放……这个增长的速度是很快的。当到了20个格子时,就增长的非常快,超出想象,机器智能的可能性就是这样的。今天的智能水平未必很高,但是由于计算机的速度和容量是指数增长的,比以前会拉开很大的差距。未来真正强大的计算机是什么样的?他的脑子可能是数据库后这几千万台甚至上百万台的服务器。这样强大的服务器加上强大的算法是今天要讲的。

什么是机器智能,用计算机老祖宗阿兰图灵的说法描述其定义叫做图灵测试。假设在一面墙的后面有一个计算机和人,然后问他们一个问题,给出答案后判断不出是人的还是机器的时候,就说计算机有了和人一样的智能。这里给出了几个时间点。1966年、1970年到2000年,2000年以后机器智能发展的三个阶段。第一个阶段就是就是我们有时还在说的人工智能阶段。当时,从50年代开始,机器怎么样有智能呢?那就是学人吧。我们有推理有逻辑有判断和学习。第二和第三阶段稍后再讲,但是这条路肯定走不下去。如果大家学过人工智能这门课程,可能多少会有些印象,在书中会讲到这些故事,比如猴子能像人类一样把箱子撑起来够到高处的香蕉,这些玩具时的东西能够解决很简单的问题,经过几十年研究解决不了大问题的原因是什么呢?

1966年的时候一个有名的计算机科学家叫做马文尼斯基。他在1968年的时候获得图灵奖,1966年时就用一个很easy的例子,来说明了这个问题,所以说大师就是和一般人不一样。能用简单的方法来解决复杂的问题。他说过两句话,The pen was in the box,第二句是Box was in the pen ,这就没法理解了。当时的Pen还有个问题就是围小孩子的围栏。围栏当然比盒子大了。但接下来就有一个问题了。他想很难在句子中判断pen到底是什么,而且in这个词很难知道是一个小东西放在一个大东西里,那么我们怎么判断呢?我们不是通过文字和语法来判断的,而是广泛的知识,从生活中得到的。因为他的名气,所以后来给美国自然基金会写了这样一篇报道后,停止了对他的人工智能的支持。80年代刚开始恢复科研,中国依旧有支持这个项目。但是美国已经停掉了。这是第一个时间点。

第二个大家看了可能以为我是标题党,从水门事件到莱温斯基,这是我在霍普金斯大学的导师在2000年的一个的一个非常大的国际会议中的题目。描述了两个时间点,表示机器智能的进步,一个是1972年的水门事件、二是2000年莫迪卡莱文斯基事件的时间。图片中的这个人后来在这个领域对人的贡献非常大。从1972年来到IBM,IBM当时要做一件事:让机器有智能,他们在想,什么能够证明机器有智能?一旦它能够识别我们的voice或者把一种语言翻译成另一种语言,再或者能回答问题,在开始做时他是学通信出身非计算机科学,对人工智能一窍不通,但也无须搞懂,就完全从一个新的方面思考这个问题,他把语言识别看做一个通信问题,通信有一个信源一个信道,信源编码信道编码,只需解码即可知传递的内容,他认为这些也一样,假设脑子是一个信源,编出语言通过声道空气传播出来,这一套和通信一样,然后只需解码,可以通信的解码算法,还需要大量数据,所以这叫做数据驱动的方法,这个方法取得了非常了不起的成果,在之前做语音识别的人只识别了二到三百个英文单词,而且错误率在百分之三十,百分之三十的概念相当于一本书每行十个字就少了三个字,那么这样就很难理解,但数据驱动方法可识别近两万个单词,而且错误率降到百分之十,百分之十对理解内容影响不大,第二个,他手下有一个叫Peter brycont这个人后来发了大财,做了一个最好的对冲基金,并认为这套方法可以用在机器翻译,以英语到法语,但由于数据量不足,结果不是很好,所以可以看到两点,我们有时解决问题要突破传统思维的限制,以及数据的重要性,接下来主要讲数据的重要性。

2005年美国标准化局对全世界所有翻译系统进行了评测的结果,一边是从中文到英文,一边是从阿拉伯文到英文,因为这两种语言转英语差异较大,这里有些数字大家可以看到,百分之三十,百分之五十这些数字是什么意思呢?在学术中他叫blue score,就是讲机器与人翻译的结果进行对比看相似程度,这一数据不比达到百分之八十或百分之九十,因为人和人翻译相同率也只有百分之五十,有三个公司系统本质是一回事,一个是Google,一个是南加州大学,一个是德国工学院,因为这三个系统都是一个人所写的,这个人叫frans huk,也是全世界做机器翻译最好的一个专家,他最早在工学院读书,毕业后到南加州大学,他又把这个系统重新写了一遍,03年Google就想做机器翻译,因为不懂,在2004年4月8日,frans huk就加入了Google,这一天同时是Google宣布ipo的日子,当时frans huk学校的事情好没有忙完,请了两个月假回学校把事情忙完,把学生的考试卷看完,6月份才回来,这个测试在第二年四五月份所以时间不够,因此,他只是把所有的代码重写了一遍,那么,评估结果一出,大家都很惊讶,大家不要看他只和第二个差五个百分点,在学术界提高五个百分点,大概要八到十年,那么他是如何做到这点的呢,根据list参加评测一定是要讲一讲是如何做到的,他的方法讲出来大家觉得原来只是这样子,因为他用了别人一万倍的数据,所以可以看到数据的重要性,刚才讲过,决定过去四十年经济发展的是摩尔定律,未来二十年真正改变经济发展的是大数据,所以这又回到了这个系列的主题----大数据。我几个小时前被几个朋友绑架到了一个中关村的咖啡屋,去讨论什么是大数据,一些人的理解都还很有局限性,把大数据和大量的数据混为一谈,大数据一定是大量的数据,但反过来却是不一定的,还有一些人说结构化,这些都是表面这层的关系。大数据有什么特征呢?有两个,比较实和一个相对比较虚的特征,虚的特征也很重要,要在一定的维度上,如何理解这个特征,举一个例子,百度知道,在大概一年前发布了一个并不引人注目的报告—— 调查,什么意思呢?用百度知道里面的问题(大概几千万已经被回答的问题,来调查全国各地饮食习惯),像在西北地区,大家问什么东西能吃,广东人说除了四条腿的桌子椅子不能吃,其他都可以吃,这就是经济发展的差异。但是有好多数据不公布,如果再接着公布一点,因为有一个历史的数据,发现时间的变化,可以发现人们生活水平的改善。你再看手机上网的习惯,用的什么浏览个,什么操作系统,你就知道他有钱没钱,知道他是富人还是穷人等等等等,你可以揭密好多东西,这是大数据,是好多维度混合在一起的。好多事情做起来都很easy,大数据相比调查问卷更能真实反映实际情况。大数据有一点叫完备性。

在对美国2012年进行的预测,盖勒普做了一些预测,有些对有些不对,到了2012年出了一个无名小子叫slver,就用大数据预测了这件事,就是将所有可能在网上找到的数据搜集来。

这是他预测的结果,红色是共和党,颜色深浅代表优势的明显度,蓝色代表民主党,他把五十个州全部预测正确了。这在美国选举中从没有出现过,所以这件事大家觉得非常可怕、震惊。这就是完备性的可怕之处。还有重要一条,大数据在某种程度上一些新的思维和做事方法,大家想中国翻译大数据很简单,big data、large data,big 和large到底有什么区别?严格来讲有非常细微的差别,large指相对具体一些,big相当抽象一些,big data从某种程度上不是指量大而是抽象的概况,是指思维的方法和做事情的方法,过去在生物制药时很多时候,尤其清华工科的学生,都要讲究因果关系,先找到可怕的原因,可能是一种细菌,然后针对这制作一种药,然后进行小白鼠实验,再临床试验看看是否有效,这是一种思维方式。那么大数据是什么呢比如斯坦福研究医院发现有一种治疗心脏病的药,对胃病可能管用,至于什么原因也无从知道,然后他们不用小白鼠做实验,直接临床试验,这个成本大概一亿美元,三年时间。因为他们已经知道这些药物性,不用从果蝇到白鼠实验,从而节省大量时间金钱。最后一点很关键Google内部做事情的一个例子,大数据近几年的比较和刚到Google的时候,Google中日韩的授意跟英文一样,连个分词都没有,经常是连一个搜索结果都找不到,因此从新设计了一套算法,原来准确率有百分之五十到百分之七十,过两天有百分之七十五到百分之八十,每一点提升都涨的很快,但到了一定程度就基本走不动了,就像所说的积极翻译十年增长五个百分点,这谁受得了?但从05、06年以后,搜索以前大量数据就不一样了,比如搜到了三十多条信息,再过到07、08年的时候数据量更大,有时甚至你不知道原因时就已经知道结果了,这时你就有一个思维方式的改变,由于大数据多维度看问题,就从多个方面保障的了结果,这也是大数据的本质。以后要是有人我有大量的数据就说我有大数据,你说不一定,我要自己看一看。比如我的好友跟我说过,一个基因解码下来的数据一个patter basea这样的规模,比百度知道的数据量大多了,但这不是大数据,一个样本得不到太多的统计规律。

我们正在经历一个从摩尔定律为王到大数据为王的时代在过去的40年里,如果你相信了摩尔定律那么一定会不断的发展,智能化会不断的进步。在座的企业家你已经得益了。你如果不相信你可能会错失了好多机会。

今后大数据为王,如果相信这样就会有20年的发展。那未来所有的公司都是大数据公司。孙正义前阵子有句话说以后所有的产业要么数字化要么不存在。这就是为什么今天看好拥有大数据公司的原因。说了这么多,既是传统行业,不是IT公司不是BAT跟这个有什么关系?那我就举3个例子。

第一是风力发电机,是中国一家风力发电机的公司叫京风公司,在世界占有率第二大的公司,但是也没挣多少钱,原因是也不知道自己的公司买到哪里去了,卖给谁去了。后来上装了传感器,将这些东西都给连回来了。大数据的全面性是当所有的风车全部连上传感器转的时候,全世界的风能他就都能知道。而且不管经手何人,这些数据都是有的。还有就是关于这些风车的叶片到了时间是需要保修更换的,至于多少时间以前是根据概算,花费成本。现在经过传感器的测量机器劳损度方式,就可以节省费这就是大数据的思维方式。那么在这个方式下他的业务就和以前不同了。再讲一个PRADA时装的大数据方法。以前到精品店也好,服装店也好,货架上摆了格式衣服,为何有前有后?到底怎么摆可以买的好?这是谁也不知道的?衣服做出来没买好,是摆的不好,还是衣服做的不好,这其实也没人知道。PRADA就做了一个非常简单的事情,就是在你买些好衣服的时候会粘一些墨水,墨水里有个芯片在试衣间有个传感器,当把衣服拿到试衣间试穿的时候就能统计出试了多少次,试了多长时间。如果这个衣服总有人拿去试,看来这件衣服给人的第一感觉还不错啊。试了没有买就会有原因,通过这个可以提升销售。第三个例子就是美国第二大的百货连锁店—家乐福。从以前的打印发票改为现在的邮寄发票,这样知道了这个信息,后来雇了一个雪统计学的硕士让他来分析这些数据,他从中发现了很多很有趣事情,如孕妇在不同的时间阶段买东西是有些规律可循的。通过这些规律来给人们发优惠券,后来有一天经理接到个很愤怒父亲的电话,事情是这样的“我的女儿才15岁,你们就给寄送关于孕妇婴儿的东西”经理认为是搞错了,赶紧道歉安抚,过了一段时间,做了电话回访询问是否满意处理方式,父亲开始道歉,说真是对不起,我的女儿真是怀孕了。今天大家不断的从淘宝买东西,将来淘宝会比自己更知道自己需要什么。

现在讲下大数据的关键技术,第一大数据的收集,跟以前不一样的是无意识的。 收集的数据也是非结构化的,不会像调查问卷一样。再有一个就是收集为何很重要,你看Google好多行为是商业行为,不在表面在背后做什么事。花了30亿美元买了个公司 ——NEST,就像是天上装了个WIFI可以控制你家的空调,可以省电的。用这个行为来无意识的收集各种数据,为什么要强调无意识呢,因为有意识的时候往往很不真实。6月份的时候和做自媒体的罗振宇聊天,他以前是在电视台,电视台是这么了解收视率呢,是做问卷调查。后来有个机顶盒就可以直接收集数据,发现以前的所谓的高大上的或者是名嘴的节目的收视率都是被明显提高了,这是人们有意识的写些著名的节目来美化自己。但是这个无意识的才是有真实性,只有真实性的大数据才有意义。

怎么收集到真实的数据?数据存储也是一个问题,大家不要觉得摩尔定律今天所有的东西都便得很便宜,可以储存。当大数据起来的时候大家都是有意识的去收集,所以量一定是很大的,举个例子,基因的例子,一个人的基因和人类的基因。大数据是杂乱无章的,理清数据是很重要的。在巨大的数据中怎么查数据?不能逐个扫一遍的,是受不了的。Google里面的最好的工程师Jeef Dean,是美国工程院院士也是Google云计算中大部分工具的主要的发明人和创造者,他现在的挑战就是如何能够表示好医疗数据,这是很大的问题。如何使用和挖掘这些杂乱无章的数据是他的挑战。Google在今天为止在公司已经达成了大数据的思维40%以上的工程师天天的工作就是挖掘数据,看看里面可以找到的规律性,来改进产品。改进产品的思路是有方法再做实验,现在是可能先知道实验结果,然后去找方法,改进产品,当然大数据也带来了隐患,安全性、隐私性。今天就不一一讲解了。尤其是大数据在进行交换和共享的时候,这些问题会变的非常严重。再回到机器智能的话题,他们是什么关系呢?

机器智能的3个支撑点是分别是摩尔定律,他要保证我们计算机的速度再不断的增加,是个指数增加,很可怕的可能以后会超过人的智能。第二个是大数据,因为我们的思维方式已经改变了这个数据量,当然,我们要解决智能问题,计算机算的快加上我们的数据建立一个桥梁,使得计算机可以解决智能问题,这个桥梁就是数学模型。

这里面有个工具,在数学之美中会有讲,叫Google大脑,Google大脑深度学习听起来吓唬人,其实就是人工神经网络,就是有个很简单的有向图,可以分类等做的很好。有自己的算法,为什么Google来用这个而不是更先进的?原因是他的稳定性,在过去30多年里关于他的算法没有什么提高很稳定,还有一个通用性,各种问题都能表述,当然对默写特定智能问题的效率不是最高的,但是没关系。前面讲过摩尔定律,计算机的速度会提高来弥补这个的不足,但是通用性有个很大的好处,有了Google大脑以后有个什么结果呢?Google又做了个事,他现在可在上百万台的计算机上做神经网络,现在有成千上万个节点。可以做很大的智能问题。好处是前面讲的语音识别和机器翻译的事情,数据量没有增加,方法也没改,深度学习就是从新把数学模型训练一遍然后大概语音识别的错误率就从百分之7点几降到百分之5左右,提高百分之十五六。这要是计算机专家和电机工程专家来做恐怕需要4年的时间。在机器翻译上结果基本和这个吻合。那说能不能举个例子以前没有大数据和机器智能现在有大数据和机器智能能解决的,这就是一开始提问的问题,这就是我在2012年回到Google我的顶头上司跟我说,你也来公司这么多年了,我也不布置你什么任务,你自己挑的一个事情来做,但是最好能够领先微软5年,然后我就想什么事情呢?我得有这个优势才能去做这个事情啊,用计算机回答复杂的问题。

那时计算机已经可以回答简单的问题。但是对于天为什么是蓝色的等问题计算机是没有办法回答的,那我就接下来花了2年时间和10几个科学家,和不到20个工程师这么些人在一起基本上在很呆程度上解决了这个问题。大家可以花点时间读一下这个问题的答案。

这个答案给出后已经跟人的回答差不多了已经无法判断是人回答的还是机器回答的了。奥秘在哪?是因为我们有他们没有的东西,机器智能本就是大数据的应用,其实在百度上问个问题,将广告删除,留十条自然搜索的结果,打开后发现基本上是可以知道问题答案的。也就是说答案已经在这些数据中的,大数据的完备性。但是今天任何一种搜索引擎问他任何问题,不安我说的做,光看几条摘要只有百分之20~百分之30的能知道答案,这其实就是机器和人的差异,机器不会读懂这些答案,无法合成答案,但是答案一定是pc里的。所以做这个问题的做法是不一样的,这个答案可能是完备的,里面有零星的答案,给拼成整个的答案是一个完全不同的思维方式。这个是由于大数据最终导致的机器智能,跟人的回答是差不多的。那我们在讲一个好理解的两个例子好吧。

这边是一个自动驾驶的汽车,司机的座位上是没有人的,这个Google做的一个自动驾驶汽车的原型,在2004年的时候,有些经济学家,已经发现了由于摩尔定律的作用使得计算机能够干越来越多人干的事情,就在说,未来的事情计算机干不了呢。就想到了开车,因为开车要肢体躯干和感官的配合,还有就是同年美国政府举办了无人汽车拉力赛,第一名是卡内基梅隆大学的一辆车,跑了不到20公里就跑完了,剩下的车还没有这个距离,第一名的车当时时速是每小时5英里,比大家走路快点比自行车慢很多。就这样认为这个还真是代替不了人的,到了2010年的时候纽约时报就报道了Google研究出来无人驾驶的汽车,当时在各种公路上跑了11万英里,18万公里。然后平行爬车,出了一个交通事故是后面的车把它撞了。为什么短短6年会有这么大的飞跃?Google很聪明,先是把那个卡内基梅隆大学的人先招来,所以说一定要找合适的人做合适的事情。这是Google街景项目的延伸,现在可以做到北斗的导航做到分米量级。这个是有要求的就是没有去过的地方是开不了的,跟卡内基梅隆大学的设计不一样的是那就是个瞎跑的,自己找路。而Google的这辆车是通过扫街数据的完备性设计的,知道怎么开,路况全熟。当然到了10年到14年又做了很多改进,比如各种各样的传感器有十几个,每秒钟要扫几十次的数据输送,要是出现个停止的牌子知道马上停下,知道躲避等。所以这是500辆上街车的样子。

没有方向盘和油门刹车,后来美国公路局要求加个制动。这在某种程度上是个机器人了,本质上是大数据的应用。那么再将几个例子,这是我投资的两个公司,这是时代周刊对他们的报道。

这个是智能浇水的机器人。在家后院先走走看看采集数据,然后怎么浇水,湿度多少等问题,就开始浇水,还可以与天气预报关联,可以省89%的水量。 后来会有使用反馈,发现把它从新编程变成个洗车的,自己调节好方向。这是个无人机。

操作无人机的全是机器人,可以帮助换电池,人要做的事情就是定义要干什么事情,比如今天去苹果上空照下新总部的6架直升机每天飞7次,以至于进展一清二楚,这就是未来的时代。未来的时代是机器的时代还是人的时代?

前阵子习主席也提出工业4.0。

这是现有富士康工人,看起来很辛苦的,每天重复劳动,郭发明说未来的富士康不会用你们的血汗钱了,我会用30万个机器人,也就是说以后肯能不能卖血卖汗了。

我们来讲美国最高大上的职业放射科医生,能够看片子的专家,放射科医生是怎么练成的?是这样的,美国本科是没有医学院的,只有在大学毕业才可以,并且在经历过长进展流程后才可以任职。第一份工作是年薪三十万美元,斯坦福硕士毕业到Google是年薪十万美元,这是一个高大上的职业,但以后是这样的,现在有一些识别癌细胞的软件,并做得足够好,可以取代放射科医生,而且有个很大的好处就是稳定性,不受情绪化影响。

2012年Google做了一个科技竞赛,有一个十八岁的女士做了一个东西。乳腺癌要做一个穿刺活检的系统,这个人也许有癌症影响,也许是良性也许是恶性,扎一针也许没扎对但不能总扎,因此她做了一个什么呢?做了两百万例,准确率都在百分之九十八以上,这个东西比任何一个专家都好了,这就是大数据的重要性。

美国另一个高大上职业——律师。最好的律师一千多美元每小时,当然他们都为企业服务,助手的收入是三百美元每小时。

给几个数字好了,第一个是一个亿,这是Google与另一个公司welcome,美国三大电视网的CBS的母公司,说Google的youtube侵权,要陪十个亿,因此开始打官司举证,后来发现盗版视频都是CBS的人自己上传的,因此打赢了这场官司,但花费了一亿美元。第二个是一千六百万美元,是苹果和三星的官司,到现在也没有明确的结果,因此苹果的专利费出的太多了,向三星提出象征性的付一千六百万美元。第三个是若干亿,这是苹果和三星到现在为止所花费的所有钱,三亿五亿不明确,这就是美国律师的收入情况。最后是十万,是一个小公司打官司,美国是叛逆型的法案,研究以前的所有案例,需要看上百份的文件,小公司花了一万多美元,买了一个用自然语言处理来读这些文件的软件,花十万美元打赢了这场官司。一共处理了二百多万份的文件,所以何必用一千美元一小时找律师花几亿美元去打官司,这是未来世界,这才是真正的机器智能。

未来的世界制造这些智能机器的人不是很多,大概百分之二,机器人不会控制人,而是百分之二的人在控制百分之九十八的人。

可以举一个简单的例子。有多少人用腾讯微信,从早起到睡觉前挂在上面,淘宝有多少人,他还不够智能,当他够智能的时候也可以想象世界是什么样子。最后讲几个问题,现在大家有个选择要么成为2%的人,要么成为98%的人,大数据有全面性完备性会产生一个什么结果呢?

那么我来举个例子。

放个酒吧的图是什么意思?这是有个创业的人来找我要钱,他原来的公司卖掉了,后来重新做了个东西。很有意思,将第一个公司买了之后走访了美国120多家酒吧,发现大概28%的酒是被偷喝掉的,被酒保给朋友或者自己偷喝掉。他做了一个不是很复杂的事情,就是在酒瓶子下放了个特殊的芯片,然后把酒架子改装,以至于每次放回酒后就能知道道了多少,每一笔记得清清楚楚,在互联网连上之后,老板回家用pad就可以知道的清楚,这就是大数据完备性的可怕之处,也就是大数据思维的运用,这在以前是不可能知道的。对比互联网的思维,这根本不是产生几亿几十亿上百亿的GDP的事,是整个行业从新做的事。雷军老讲互联网思维,电子商务在干什么?你以为是把实体店的东西搬到网上?没那么简单,是零售业的习惯全部被改写的,包括我们现在的双十一双十二。将习惯全改后就是互联网思维带来的结果,那么什么是大数据的思维?它改变了整个生态排列。我再举个例子,记忆的冰箱。

我举的例子基本上都是真实的例子。即使是记忆的冰箱也是赚不了多少钱的,20~30美元在美国。而且也是海尔做的,现在很多冰箱有个取水器,里面有个过滤头,这个是3个月左右换一次,运用大数据将这些连上知道这些那个改换了不换就会提醒。不到两年的时间,用掉的头的利润比冰箱的利润还多。就是一个什么情况呢?大家都知道商业模式,商学院都知道这个例子。大电器成为换头的平台了,整个的生态链到了。最后举例子,还会到这2%的人的世界,这是占领华尔街的照片。

这是他们反对2%的人,为什么呢?因为他们富有,但是2%的人是谁?不知道。那要做什么?不知道,就是要反对,当一个社会这些人的前景是灰暗的,就很没有希望,所以大数据的重要要上升的这个高度,要么我们要成为这2%的人,要么咱们就去做反对2%的人,那么当一个技术趋势形成的时候,想阻拦想反对根本没有用,大家不要以为科技的进步会造福每个人,不是的,当然用手机方便了,生活水平好不好不知道,在美国都知道引领社会科技好像没有人反对这个提法,好吧,让我们看下引领完的结果是什么?

这是美国10几年工资水平,现在还在降哦,不是上升。也就是在互联网泡沫的时候2000年达到最高点,蓝色的是大学刚毕业的人的工资,红色的是有5年工作经验的人的工资,扣除通货膨胀是一直在下降的。

但是另一点,硅谷的房价确是一直在上涨,原因有三。第一种是卖给中国大陆拿现金去卖的人,旧金山的房子也一样。第二种呢,是买个帮助苹果三星打官司的律师。第三种人是比较早期的两家公司的雇员,其他都没有就是Google和Facebook。为什么是这样子?因为他的房价已经涨到这么多,那么支撑房价的原因是?除了中国的钱以为,还有Google这些明星公司的财富增长的更快,那么实际也就是说其他人没有这么快。最后还有一点时间讲一下大数据对医疗的影响,一年前Google成立一个小公司叫calico。

就请了一个人来当CEO,这个人是基因泰克公司的原CEO叫阿尔夫兰文森,基因泰克是全球最大的生物制药公司,制作抗癌药的,市值1000亿美元,后来由瑞士的罗氏卖掉的,阿尔夫兰文森今天依旧是基因泰克和苹果董事会的主席,Google为什么成功呢,因为做任何一件事都把最好的人找来。阿尔夫兰文森的一些讲座我会去听,他讲了几个新的概念,为什么要加入Google,为什么要用IT的技术来做医疗?比如说癌症很烦恼治不好,为什么不存在一种有效的如青霉素一样的抗癌药呢?原因是癌细胞是变的,是身体的一个正常细胞,不小心复制错了就成为癌细胞,就要生产抗癌药将它杀死,但是一旦细胞复制错了就不按照规律复制了,就变成各种各样了。以前会听过癌症药开始控制的很好,后来不行了,原因是细胞变异了,那么这些年就要改变对治疗的认识,就是说如果有个方法就是细胞变了,我的药也变了这样就可以了。但这样得有两个前提条件,第一是,你得有个专门团队跟踪治疗,第二得是要花10亿美元。当然这样也没有意义。现在如果用大数据将这些都收集起来希望能够揭破基因来做这件事情,相信他的话,他的估计是成本5000美元,顺便问大家一句,如果癌症被攻克了,人的生命可以延长多少年?(答:20年 15年)。认为可以超过50年的举手,还是不少的,认为超过20~50年的举手,认为10~20年的,5~10年的?不到5年的?

阿尔夫兰文森讲是3.5年,因为大多数的人不是死于癌症,而是衰老问题。如果我们活的足够长,我们无一例外的是老年痴呆,将来马路上全是白痴。那他来Google是解决什么问题呢?就是靠大数据解决衰老问题。再讲个机器人和医疗,这是约翰霍普思大学的一个教授,他在从IBM的时候就开始做这个事情,做了一辈子就是做这个医疗机器人的,在约翰霍普斯大学就做了18年,是第一个可以做手术的机器人,从这些例子可以看出从IT到医学的关系。那么今天谁是大数据的公司?

当然我们可以说现有的互联网公司都是。现在很多大的互联网公司和医学公司都是了,那么其实把触角伸向每个用户的公司都是大数据公司。在这个时代我们每个人都有机会!

吴军博士简介

吴军博士,毕业于清华大学和美国约翰霍普金斯大学,是著名自然语言处理和搜索专家,硅谷风险投资人。获奖畅销书《浪潮之巅》、《数学之美》以及《文明之光》系列书籍的作者。

吴军博士是谷歌公司早期员工之一,是中日韩搜索部门的创始人,曾因网络搜索反作弊的研究而荣获谷歌工程奖。2010年-2012年,他加盟腾讯公司,出任负责搜索和搜索广告的副总裁,同时担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。

2012年他回到谷歌,负责开发了被认为是“下一代搜索”的谷歌自动问答系统。同年,他作为创始合伙人共同创立了中关村硅谷风险投资基金(ZPark Venture)。

图书获奖信息

《数学之美》荣获第八届文津图书奖、2014年向青少年推荐的百种优秀图书、第三届北京阅读季最受大众喜爱的“十大影响力图书”。

免责声明:本文仅代表作者个人观点,与环球网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。