微软副总裁洪小文:AI黑盒无法承担重大决策,AI+HI是终极智能形态

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
微软副总裁洪小文:AI黑盒无法承担重大决策,AI+HI是终极智能形态

微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长洪小文老师的到来让本周的北大AI公开课备受瞩目。在这堂接近两小时的公开课上,洪小文博士满是干货的演讲以及和北大 人工智能 创新中心主任、百度七剑客之一雷鸣老师的精彩对话,让教室掌声、笑声不断。我们先为您呈上本课精彩内容的摘选,然后是整堂课全程实录的大餐。

洪小文博士近两个小时的演讲+问答是从一本书开始说起的—《Thinking, Fast and Slow》。这本书的作者是一个诺贝尔经济奖的得主,他把人类思考的行为分成两大块,一个是我们不假思索,一个是需要好好想一下的。根据这一理论进一步细分,洪老师提出有关AI能力的三个问题:

1、感知:这是猫还是狗?——这是个不假思索的问题(Think Fast)

2、认知:这是喜剧还是悲剧?——这个要好好想一想(Think a little bit Slow)

3、决策:微软是否要买下LinkedIn?——重大的决定(Think Slow)

感知:人工智能正在从各个方面超越人类水平,几行代码轻松实现人脸识别

对于第一个问题,涉及 语音识别 、图像搜索、图像识别,人工智能已经解决的很好。洪小文提到2015年,微软亚洲研究院的深度残差网络做到152层的时候,在ImageNet上的错误率只有3.5%,低于人类5.1%的错误率。更不用说现在还有上千层的深度神经网络。

在2016年COCO图像分割比赛中,微软亚洲研究院再次获得了第一名,比2015年的成绩(当时也是微软第一)进步了33%,超过2016年的第二名谷歌的性能11%。

微软对于这些认知、感知,将其做成微软认知服务,里面有计算机视觉、语音识别跟自然语言识别,知识还有搜索,通过API的形式,让学生们、老师们和各个开发者不需要掌握人工智能的专业知识,也可以开发出属于自己的智能应用,从而把AI普及化。Uber、可口可乐都用人脸识别做很多东西。

洪小文还提到前两年风靡的How-Old.net就是用微软认知服务的API,它的人脸识别功能可以识别性别、年龄,而这个应用只用了几行代码。

认知: 大数据 随物联网崛起,分析、预测、决定全面进入自动化

洪小文介绍,我们有了物联网随时搜集数据,就会有更巨大的数据帮我们实现自动化。在控制系统中有FeedbackLoop的概念,其中包括驱动器(Actuator)、物理世界(Physical World)、传感器(Sensor)、分析(Analysis)、决策(Decision)。

洪小文举例到,例如想治理河流,先有传感器检测水质、之后再分析决定,每一次完成一个Loop都会进步。随着更多传感器随时随地收集数据,就能完成更多的Loop,系统提升就越明显。人也可以用可穿戴设备形成这样的系统,以随时监测健康,提前预警健康问题。微软目前和劳斯莱斯飞机发动机合作,进行飞机油量的自动化管理。不论是监测监控还是监控飞机油量,都是重复性的工作,非常适合AI做。

决策:AI黑盒无法承担重大决策,AI+HI是终极智能形态

人有因果推理,而现在的AI是黑盒子,对于重大决策,我们不会放心交给系统做。这种非重复性任务,让AI去做的价值值得商榷,同时复杂决策常常不是在一个封闭的系统中作推理,它的涉及面太广。

但是AI是否就无法为决策提供价值了呢?AI利用其大数据的处理分析能力,可以为我们推荐值得注意或者研究的点,但里面的道理还要人类自己去求证。正如微软的AnnaTalk,用自然语言提问,系统给出初步的分析结果。AI与HI配合,可以让我们做出更好的决策。

AI威胁论由来已久,人类早已朝着AI+HI共进化狂奔了

洪小文对AI报以乐观的态度,并不认为AI真的会威胁到人。曾经1950年二战结束不久,全世界的计算机用两只手就数的过来的时候,时代杂志就开始宣传机器威胁论。现在回想起来,蛮不可思议的。

洪小文提到他曾经最伤心的是小学一年级没有被选进珠算队,可是现在的年轻人没有几个会拼命学习珠算。所以人类在围棋上被AI打败也没什么好伤心的,就像现在也不会有人因为珠算算不过计算器而伤心了。

事实上智能的四个层级:感知、认知、创造力、智慧,人类被碾压到1.5层,也就是说大多数常用感知、听、看都被超越了。认知也有相当一部分被超越。

人类应当习惯,就像计算能力和记忆力,我们觉得机器比我们强是很正常的。我们其实早就朝着人类智能和人工智能共同进化的路狂奔了。

微软硬起来,硬件做的比苹果还好

洪小文说:“最近很多人说,微软的硬件做的比苹果的还好”。微软的混合现实设备HoloLens马上要在中国上市了。

蒂森克虏伯电梯公司的维修人员用HoloLens为电梯进行维修已经用了很久了。AI的确对职场工作产生了一些变化,但我们不是被取代,而是用AI做的更好。

AI=Augmented Intelligence

Human+Machine=Superman

洪小文认为人工智能确实很多方面比人强,但是他也认为人的不完美可能正好造就了我们的创造力。

关于机器意识,他认为完全没有必要纠结造出有意识的 机器人 ,而是应该造出有用的机器,以及不会失控的机器,如果非要造有意识的,不如多生点小孩。理想的机器助手应该没有意识,但是又会察言观色就像微软小冰。

关于奇点会不会到?AI是不是可以持续让世界越来越好?洪小文认为就算有一天做到了强AI,解决了一个难题,这个世界还有很多未解的难题,雷曼猜想、P等不等于NP,甚至宇宙从哪里来,有没有大爆炸,将来宇宙会不会再缩小,总有一个问题可能永远无解。他认为AI=AugmentedIntelligence,Human+Machine=Superman。人和机器的共生才是终极形态。

对于AI技术的研究方向,他建议把目前深度学习这一套和以前做白箱的认知结合起来。另外洪小文表示非常看好物联网,与其相关的传感器做到又小、又省电、又方便、又准,是一个很有挑战的研究方向,不仅仅是软件的问题,还有物理和材料方面的挑战。

洪小文认为数字化转型一定会席卷所有公司,只是用的多少和早晚有差别。他提到微软有很多AI+工业的应用,包括跟劳斯莱斯、蒂森克虏伯电梯公司的合作。

AI的滋养:云是氧气,数据是水

微软押注云和AI。洪小文认为云和物联网都很重要。云和物联网结合以后,不用担心计算,也不用担心数据。AI需要的两个重要的氧气和水分,一个就是数据,一个就是计算。对于做AI的公司而言,云是一个不可或缺的氧气。

AI分化就是贫富分化

AI+HI是否会造成人类的分化?无法和AI结合的人是否会沉入底层?洪小文认为,分化一直都有。前几年有数字分化,将来有AI分化,其实本质就是贫富差距。我们希望人人平等。政府有责任把税收、社会福利系统做好。而微软这种大企业可以在计算资源平等上出力,微软特别拿出10-20亿价值的云资源专门给付不起钱的地区使用。

洪小文老师个人宣讲实录

很高兴今天有机会跟大家来分享,谢谢雷老师开课,大家也上过很多前辈讲的课。这个课接近尾声时我会谈一下从现在怎么看未来人工智能的发展。我觉得到最后将会是人工智能跟人类智能的共同进化。

我今天用一个方法来介绍一下,大家对未来人工智能哪一些东西能做,哪一些东西不能做。首先跟大家介绍一本书,这本书叫做《Thinking,Fast and Slow》,这本书的作者是是一个诺贝尔经济奖的得主,这本书是商学院经济学系通常都会用的,他把人类思考的行为分成两大块,一个是我们不假思索,一秒钟之内就想好的。还有一个东西我需要想,而且要想很久,这里面我再细分,分成有些东西我们想的非常快,比如说给你看一个是猫还是狗?这个可以马上回答。还有一些要思考很久,比如说大家看到这个剧照,这是一个喜剧还是一个悲剧?

这种东西显然要稍微想一下。这是一部美国电影,如果有人认识这个男演员说他拍的90%是喜剧,就猜错了,这是他拍的很少数悬疑的悲剧叫做《23》,所以必须要拿着图片去找,就算有这些录像还要一帧一帧的去找,或者要做一个人脸识别那个女的是谁,再查这两个人同时在哪一部电影出现。

还有一个问题,大家都知道我们去年决定收购LinkedIn,现在已完成收购,这种事情在商业里面常常都是这样,我们该不该,该花多少钱收购他们,这种问题基本上都是大的决定,一辈子只做一次。既使你说去年我们决定不买,今年决定想买的话价格也不一样,时过境迁什么都不一样了,你要重新思考。

人也有很多这样的问题,你们进北大以前该报考哪一个学校,该报考哪一个系,我保证你们要稍微想一想,我不相信有人说10秒钟就知道决定。甚至于人生大事男女朋友该不该跟对方求婚,这种人生大事你一定想了很久,而且还问了很多人的意见,最后你做出决定,这种事情都是想很久。

现在我目前用人工智能所做的项目,特别是微软所做的跟大家介绍一下,以这个为例子,不是微软自己做,大家都在做。

第一个问题就是作为感知的问题, 语音识别、图像搜索、图像识别, 大家可能知道有一个ImageNet,在计算机图像识别上是一个公开的database,每年都有比赛,微软在2015年12月份凭借深层神经网络技术的最新突破,第一次超越了人的水平,实现了错误率3.5%,而人的是5.1%。大家到今天一定听说过什么叫深度学习,当时我们拿到第一名的时候,是世界上第一次用上百层,到现在已经上千层了。

大家可能会说深那就越深越好,但真正做的时候你就会知道,你越深需要Data越大,需要计算量更大,很多时候是跑不完的。怎么样让一样的data能够把结果做上去,同时还能够算出来,这个东西还需要很多的研究和功力。而且深度学习只是在辨认哪一些是图像,实际上一个图像里面有很多物体,像一个简单的照片里面就有十几种物体,不但要辨认出每一个是什么,还要把它划出来才有用。有另外一个比赛COCO,这里面比的是比划出来还难,要做到像素级别的识别才算正确。微软亚洲研究院我们多年参加这个,2015年我们是第一,去年也是第一,而且领先很多在业界大家很熟悉的人工智能很牛的公司。

我们这个算法不止可以做的很准确,还可以做的很快,所以我们在Video每一帧每一帧去做,最起码24帧甚至有到60帧的,我们可以做到实时,所以就可以做很多应用。

刚才讲的只是把它框出来,甚至还有一个task叫你要讲出这个图片要干什么。所以给你一个Video就更难,有一个人在弹琴,有一个人在读书,要把这个做成一个服务,大家有兴趣可以看一下www.captionbot.ai,你可以上传任何一个照片,像这个不仅知道它是三明治,还知道三明治被切了一半,我们刚才讲的VideoCaption也有这个技术。

微软对于这些认知、感知,我们就把它做成微软认知服务,里面有计算机视觉、语音识别跟自然语言,知识还有搜索,都把它做成API每个人都可以调用,让学生们、老师们和各个开发者不需要掌握人工智能的专业知识,也可以开发出属于自己的智能应用。目前为止,Uber、可口可乐等都用我们的人脸识别做了很多东西,像Uber,司机要开车以前会跟Uber登记他是谁谁谁,要做一个人脸识别,确定他是那个人,不能代驾,他才可以接Uber的活,这个是用我们的技术。

机器翻译其实在中国现在用处是最大的,很多游戏在国外有玩家玩,在上面就可以做。LUIS可以做聊天机器人,中国中信集团,新加坡政府等都在用。我们最近刚上线的就是OCR甚至是手写OCR,在我们的OneNote等上面都有。我们不仅在做API,同时我们也在做应用,其中一个很有名的叫做How-Old.net,两年前推出的时候,一时之间马上变得全世界疯狂,上传照片就可以知道图里的人是男的还是女的,几岁,很多人到今天还不知道这个是微软做的,而微软做这个的目的不是要做应用,目的是要展示微软认知服务的特性,因为How-Old.net里面源代码总共只有几行,有了API想一些设计参数以后就上传照片,回来就有这些照片里面所有的信息,所以整个应用只用了几行代码,我们做这个的目的就是要让AI普及化,让大家能够有一些好的想法去做AI的应用,不需要每一个人都把所有的AI技术去学一遍。

在中国我想大家知道微软小冰,日本叫Rinna,在美国叫Zo,小冰到今天其实是各个智能的结合,它不仅有自然语言的聊天,它也有语音,它也有视频,也有照片,譬如说像有人上传一个狗的照片,小冰的目的不是说辨别这是什么狗,通常人看到狗可以聊什么呢,可以聊狗的主人,可以聊什么样的人喜欢这个狗,你可以说哪一个有名的人长的很像这个狗。这样的话就有东西可以聊下去,我们对小冰衡量的方法就是用户跟小冰聊了几个回合,一问一答叫一回合,目前小冰在中国大概平均是25轮,25轮很了不起,因为你自己跟你朋友亲人微信上聊的话,我估计每次大概是3到5轮,小冰是平均25轮。

同样,我们跟京东合作我们有这些书,如果说辨别书,这是哪一本书那就聊完了,所以你可以聊书的内容。

在书方面,可以聊作者,聊喜欢什么类型的书;在衣服方面,可以辨认出布料,种类,款式。我们会在社交网络上看大家的聊天内容,如果大家接下来会聊针线活,那么机器可能也会聊同样的话题。在人的方面,主要是认知服务,机器能够根据照片判断性别,年龄,twins or not。如果颜值在一个区段,可以聊外表;如果颜值在另一个区段,可以聊内心。小冰是所有这些感知服务的集成。

第二个问题就是think a little bit slow,很多问题很复杂。在我看来每一件产品都是可以应用这张图。如果现在有一个sensor(传感器),就可以在物理世界收集数据,接着可以进行分析、决定下一个产品要做什么,下一个行业要做什么,之后再有actuator(驱动器)。比如,我想治理北京附近的河流,先有一个 sensor 去测试水值,之后再分析、决定。每一次完成一个loop都会进步,完成的越多,进步越明显,这在控制工程中叫feedback(反馈回路)。以前我们要派人去收集数据,需要花费很多时间。如今,我们有IoT,随时随地可以收集数据。

人的身体也是如此。在加护病房中,会测试病人的钾、钠等元素,一旦发现数据偏离正常值,医院就会有所行动,使得人体维持在正常水准。以后,当人长出第一个癌细胞的时,可能就知道,越早发现就越容易治疗,可以利用穿戴式设备等。我刚才讲的触发者和传感器,就是所谓的物联网,能够收集大量数据。如果有大量的运算能力,你就可以把它自动起来,当然也包括很多深度学习的算法。

现在为什么AI这么红火,虽然这个系统很复杂,但是可以自动化,把它连起来。举一个商业例子,叫预防性维修(PredictiveMaintenance),与刚才异曲同工。

微软大楼里面都有电梯,以前怎么维修。一旦电梯坏了,就打电话让电梯公司来维修,电梯公司隔了几天派人到这个大楼来,然后将一个东西插上去,叫rs232。接上去以后像一个PC,下载一些数据,然后拿回去分析,又隔了一两个礼拜,然后找到问题了,再派一个人过来维修。几个礼拜电梯都不能工作。现在,就在上面装一堆传感器,收集电梯运作的速度,发出的声音等数据,并传回公司。在电梯坏之前,有预防性维修(PredictiveMaintenance)。

如果声音不对了,阻力大了,速度不均匀了,在还没有坏之前,就派人去维修。这在工业界,已经铺天盖地了。可以想象,在机械没有坏之前你就可以去维修的话,可以省下很多金钱和时间。

其实讲物联网并没有几年。之前温总理当年在无锡讲物联网。将来万物都会放上传感器。若要知道牛的品质,奶的品质,肉的品质,就在牛、水等物体上安装传感器。物联网就这么回事,但是非常重要,没有这些数据,AI没戏,AI只是算法。微软有很多数据,并提供从收集数据,到大数据分析,到可视化等。我们有很多伙伴,比如劳斯莱斯,劳斯莱斯的引擎特别有名,生产很多飞机的引擎。

其实飞机公司最大的成本就是油钱。若飞机载油多,重量增加,就会用更多的油;若载油少,遇到天气逆风,会变的不安全。通常如果飞机较慢,80%都是与油的量有关。因此,在飞机公司,油的管理是最重要的一环。那么现在有了这个系统可以省油,因为能够预测航行路线,风向,气候,重量。

我上一次飞机误点很荒谬,都算好之后,又载了一些货。货放的多了,就要想办法加油还是卸货。最后慢了六个小时。有了这个机器就简单了,可以记录飞机有多少重量,左右多少可以平衡,天气如何,路线,然后就可以预测,就可以做的比较精准。这就是FeedbackLoop的重要性。

我们做技术的人希望把AI技术,把算法做得更好,但是别忘了最后还是因为这些数据的取得,数据取得的快速程度可以让你实现很多东西,这又是一个很好的例子。将来可能会做一些稍微慢的东西,但你会重复的做,这些交给AI很适合。加上物联网后,就能够全面自动化。

第三类的问题比较特别,一个东西若要thinkslow,然后makedecision。通常,这样的系统里,数据取得不可能完整,甚至不是一个封闭的系统。比如我刚刚举这个例子,我们该不该买LinkedIn,我们想买别人也想买,别人想买的时候,标的的价钱就上去了。你们报考的时候也如此。还有该跟谁结婚,该跟谁求婚,大部分的人一辈子只做一次。这样的决定让AI做,我想在很长一段时间,是不可行的。

我觉得大部分人也不会交给系统做。但是,不代表AI不能帮助我们,因为AI会给你很多数据,我觉得有很多人会去看一下,参考一下。包括在决定要不要去收购LinkedIn时候,我们会做很多数据分析,但是最后是人来做这个决定.这就是我讲的AI+HI。如果不是一个重复性的任务,你让AI去做的价值值得商榷。同时,也不是一个封闭系统,更不要说大数据和推理了。

我们不太可能做黑箱的思考,而是要做白箱的思考。人的思考一定是一些有规则的,比如种什么因得什么果。这不同于现在的AI系统。现在的AI系统是一个黑箱,不知道里面怎么运作,然后黑箱与黑箱之间的关系也不清楚。除非一个黑箱的输出刚好是下一个黑箱的输入。如果你知道某一个事情的因果关系,就可以做这些事情。

因果关系在统计学里面是非常难的。统计学里常常举一个例子,以前大家认为喜欢玩电游,与暴力倾向有很大的相关性。如果学过统计学,学过机器学习就会知道,这是完全不科学的。当A与B的相关度很大,但是到底是A影响B,还是B影响A?可能是倒过来,可能有个小孩本身就很暴力,它就比较喜欢玩电游。如果不是封闭系统的话,因果关系是完全没有意义的。所以我提到的一个概念——AI与HI的组合。Analysis与decision可以做黑箱。科学上,我们常说大胆假设小心求证。其实多年比萨斜塔的实验就是搜集数据来证实想法,就是一个AI加HI。人永远在Loop里面。

这里跟大家介绍微软的一个产品叫Power BI,大数据可视化。大家会说为什么可视化这么重要?因为数据是死的,可视化可以让你有一个界面,从不同的角度去看,去洞察他的insight。在洞察了因果关系之后,再去找新的数据来证明你的想法。下面我想跟大家举个例子。

这是真实的数据,关于过去七八十年来人类遭到鲨鱼攻击的数据。在这些数据中,微软的工具可以自动发现一些有趣的点,大约有上千甚至上万。不见得所有的点都有意义,同时解读每一个点,都需要AI与HI的配合。系统会智能推荐有兴趣的点,里面的insight还是需要自己去判断,这就是我们推出的quick insight。通常界面上有两种,一种是push,UI界面怎么将上千上万的东西分类推给用户,现在人能否用自然语言对话的方式去pull,去拿人们想用的数据,我们就做了一个东西叫Anna talk。

大家刚看到的是用自然语言的方式,各取所需。当年说了一个词dangerous,机器不知道这个名词什么意思,用户可以定义,dangerous是死亡多少人。之后,机器不仅知道dangerousyear,还知道dangerousactivity。

为什么如今AI这么热,因为有了数据、算法,可以做很多数字转型。而且这种数字转型,对每个人和社会,都会产生很大影响。至少数据转型会在四大块对于未来产生深远影响:

首先,用刚才讲的Loop,产生产品迭代,这其实就是互联网思维;

其次,就算产品不改变,如何优化公司与客户的联系,调动客户;

再次,是公司运营,如何让运营变得更有效率,更节约成本;

最后,是人才,如何用大数据让员工的生活更顺畅、和谐,同时还可以激发员工的潜力和创造。

这四块适用于每个公司,也是业界看到的机会。从架构上看,类似于 云计算 的IaaS。其中包括硬件(GPU、FPGA等)、软件(深度学习框架等),我们提到的认知服务就是一个PaaS。

现在新兴的叫Data tasks,在座的很多毕业以后做Data tasks工作,或者做开发者,开发者要用一些SaaS,也要用一些PaaS,SaaS里面重复性很复杂的东西,有闭环可以用AI搞定。有一些东西是人跟机器一起做的,就是AI+HI这是不同的SaaS,这是可以做的一个简图,机会是无穷的,我刚才讲的针对每个公司每个单位有四大块都可以做这些改进。

在微软的话,大家看到我们新一任CEO到今天,最近大家看到的微软都是很快的,因为我们在这里面都讲到了先机,这么多东西用我们的产品和服务做数字化转型。微软是一个软件公司,但是微软最近硬起来了,网上很多人说,微软的硬件做的比苹果还好。

新的硬件HoloLens,我们绝对是领先的,HoloLens已经宣布今年就会在中国上。还有想Surface studio等等,这些才是未来的东西,很多东西只有我们有。讲了那么多AR、MR我们快卖了一年半了,给大家看一个例子。

这就是那个电梯公司——蒂森克虏伯,在讲维修,这相当于在做训练,训练这些维修的工人,就是在他办公室里就可以看到电梯里面的结构,这是训练,还有因为这些都要动,他不可能这时候还在翻它的指南,而且大家可以看到以前电梯维修的记录。而且还可以知道电梯里面的结构该从哪里拆进去。

我讲一个简单的例子,大家看的很清楚,AI的确让一些职场工作产生了变化,大家不要想的那么简单,全部都被取代,很多时候大家都讲机器人,其实更重要的是AI+HI,怎么样让技术帮助人更有效能,工作上可以很简单的看出来,对于一样的修复工作非常有效率,非常轻松的,在没有压力的情况下利用技术配合起来把事情做的更好。

基本上我给大家看的AI,特别是相应的大数据、物联网技术结合以后可以做这些东西。

我现在讲讲未来,未来会怎么样?当然AI报道非常多,对AI的报道里面有很多是危言耸听或者听起来很吓人的。到底哪一些该害怕哪一些不该害怕的。

首先1950年是二战刚刚结束没多久的时代,二战结束刚5年,当年全世界的计算机可以用两只手数出来,绝对不超过10台,但那个时候时代杂志就已经在担心造出一个机器比人聪明,1950年我们原子弹都造出来了,原子弹的威力大家也看到了,我们造了很多拖拉机、飞机各个东西,但对那些都不太害怕。

其实我很害怕,因为工作的原因我看过无数多的机器人,有时候不小心手这样一挥就会被打到,人型机器人站的很稳是非常重的,我站在那边不小心他碰到我怎么办,我一直都很害怕,我这个人比较瘦小,我看到那些大型动物都很害怕。我觉得人类很好玩,大部分人不害怕,人就很担心机器比我们聪明,那个时候AI还没有影呢,1950年AI这个词还没有出来,AI去年60年,是1956年达特茅斯会议时提出的。说到这个我讲讲我跟这个的渊源,1956年的时候一个人叫John McCarthy,我很有荣幸,我可以叫他师祖,他带了一帮人在达特茅斯开了一个会定义了AI两个字,这也是之所以人家说他是AI之父。我的老师也拿过图灵奖,他的老师就是JohnMcCarthy,也拿了图灵奖,所以我算是John McCarthy的正宗徒孙。1956年AI的词还没有,大家都已经很害怕了,就跟今天一样,人在智力这个事情特别受创伤的感觉一直都有。

下面讲一下,什么是智能。其实人对智能的定义一直在改变,感知就是说能够听,能够看。感知之下还有一些东西,今天大家都不觉得很智能的东西,今天讲人脸识别大家觉得很智能,能够听懂语音也很智能,能够跟人聊天都是很智能。但是今天有没有人认为计算是智能,在座没有人认为算术可以算的很快,很准,你会觉得这个人很快,但是你不会说他很智能。

我这一辈子受到的第一次打击就是我小学一年级的时候,没有选上参加珠算队,现在的年轻人有没有人真正摸过算盘,用算盘计算过?在我们那个年代计算是跟下棋一样分级分段的,最早也是到九段,有人可以心算,算的很准,当时我们认为是神童。一年级的时候老师跟我说你蛮聪明的,但是身体不好,别参加珠算队,当时我很沮丧,但今天跟计算机比计算简直是以卵击石。

其实记忆力,以前我们讲诗词倒背如流就是记忆,记忆这个东西大部分人也不会认为是聪明,就像电话号码,今天我一个电话号码都记不出来,有手机谁记电话号码?所以记忆力这件事情不错,但是没有人认为多了不起,尤其是涉及到安全,大家记不记得IBM几年前打败了所谓的世界冠军,那个游戏大部分都是靠记忆,问一些历史或者地理问题都可以答出来,但那个都还没有达到今天我讲的层次。

人类对智力的定义是不断在改变的,这是我要讲的一点。我这一代已经经历了,这是人类智能和人工智能共进化,如果我没有做人工智能,假如说今天没有人工智能,没有计算机,我们一定认为一个人很会做心算的很聪明。

我们刚才讲Perception感知,感知AI可以做的比人好。我举个例子,今天假设说北京有50个危险的恐怖分子,给你50张照片,今天你的tasks就记好这50个人长什么样,你站在关口那边看,我可以保证,机器会做的比你好,但是我也保证机器做这个事情你会非常高兴,安检机器做会比我们做的好很多,我们也不会受到伤害。今天让你拿30个电话号码记,机器都不用做AI,做一个比较就可以了,人干吗要去做这个呢?这个太Low了,这个东西就让机器去做,这个不是说没有智能。

既使是这样,机器去做,你有没有发现哪一个AI系统跟人做的一样?今天没有,明天也没有。所有系统哪怕是再强,99%点多,有的东西还没有达到99%,这个是Perception。到了这个level叫做认知,认知这件事情目前为止还是没有谱的。

今天的AI是一个黑箱,黑箱的问题就在这里,黑箱的问题它可以知道这是狗,他可以知道可以这样做,但是他不知道Why,下棋可以打败李世石,但是他不知道Why。不同的黑箱之间无法做交流,其实还是一个像Perception的问题,但是人是靠认知去做的。

举个例子,第一个例子我本行是做语音的,语音识别有一个东西叫鸡尾酒效应,我们平常到了很噪杂的环境,像鸡尾酒会,每个人都要讲话,这个也讲那个也讲,有的时候你一个耳朵要听好几个,有人讲中文,有人讲日文,有人讲法文,你听的都是断断续续的,很多音都没有听到,但是你还是可以跟这些人沟通。因为鸡尾酒会里面有认识的人,你知道他为什么来这里,你知道他大概讲什么,你听到他几个音就可以猜出来他大概讲这个, 人是用认知的方法去做感知,如果把这个东西给今天任何一个AI系统,那做出来就全是错的。不知道他讲什么基本上不可能辨认。

 另外一个例子叫做翻译,很多做同传的人问我说,现在翻译要失去工作了,是不是事实?我说看哪一种翻译。今天大家用过自动的翻译都是一句一句翻译的,常常是词不达意。没有一个人一句一句翻的,做翻译的人都听了一段才来翻的,常常一整段只翻成一两句,因为人把内容彻底了解了再用自己的话讲出来。我自己亲身经验,我有美国的老板来这里的时候,因为我工作常常要带他们见政府官员签一些合作合同,这时候我就要充当翻译。我自己知道我怎么翻,他讲了一段我来翻,再讲一段我来翻。常常发生什么事情呢?我老板还没讲的话我先翻了,这原因非常简单,这个会议是我安排的,安排领导人见面不要有意外,会谈论什么要先做功课。很多时候,他讲了一大堆,有些内容我就先讲了。还有几次先翻了被老板抓到说,我好像还没有讲,你怎么先翻了,这就说明我们人可以做到未卜先知。人怎么做到这件事情,他有些话还没讲,人怎么知道的?人的认知绝对不是黑箱的,一定有一个白箱,里面因果关系都很知道,有时候他只要提一个东西我都知道结果。有时候人家说你们真有默契,我皱一个眉头你都知道怎么翻了,这绝对可以的,这绝对不是黑箱,黑箱这个人皱眉头你翻出来,这不太可能的。

所以人的认知一定要做因果很清楚,我今天来这里,这个领导是谁,讲了什么话,有什么因,有什么果,有时候老板讲的话不得体就不要翻了,或者翻译成好了,这样才会有和谐社会。而且因为有白箱才可能举一反三,我自己有小孩,你训练他认识这是狗这是猫,这是长颈鹿,看三个狗五个狗之后,你再给他看不同的狗他绝对可以辨认出来这是狗,但机器学习肯定要看几百万只狗,当然各有优缺点,我们常常讲很传神的一件事情,这个人烧成灰我都认得,就是说一个人你想要记住他,这个人他跟你有关系,不管你的朋友还是敌人烧成灰你都认得,这个东西机器人做不了,一个人去伪装,机器就识别不了。但是我刚刚讲了就50个人陌生人叫你记得辨认,你根本不可能做好。这就是不同的工作,我觉得人和机器适合做的不同的工作。

我讲这些东西很多都是我学习的,不是我发明的,所以我觉得做学问真的应该看一看以前的人做什么,甚至于不同的领域的。有一个哲学家叫John Searle1980年提出来一个概念,我给大家看一段视频。

这个人是一个脑科学家和哲学家,大家真的要佩服前人的智慧,1980年我刚开始学AI,在座的可能都没有出生,这里面有几个重要的点,图灵测试就是一个黑箱测试,基本上就是有的机器,有的人你分不出来。他做了一个实验叫中文房间,为什么叫中文房间,1980年大家对中国是不了解的,一个对汉语一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。尽管房里的人可以以假乱真,让房外的人以为他确确实实说汉语,但其实他却压根不懂汉语。这个东西很像翻译,当然是一个问答,他说这个黑箱里面有一个系统,当时就有强AI和弱AI,意思就是说你不了解,你黑箱进黑箱出,就算你能答的很漂亮,不代表你有理解,有些情况会有用,有些情况没用。这种没有理解的东西不是人做的方式,今天一个人说白痴啊,你会不会讲中文,你听到这个话是很生气的,你不会说,对,我是白痴,我不会讲中文。 所以这就是强AI跟弱AI的不同,强AI是人的AI,其实强AI很弱,弱AI很强,这是定义的问题。 强AI就是我真正了解以后用我的话讲出来,用我的话答出来,另外一种就是黑箱,我根本没有感情的,你骂我也不知道。

今天大家看到AI包括目前的深度学习都是这种,但是很有用,弱AI没有感情反而很有用,不止我一个人这样讲,事实上客观是很了不起的事情, 人不太容易客观,人家一骂你心里面就不爽快,有它的弱处和好处。这个是神经科学家做出来的左右脑,大家可以稍微读一下,我想大家不意外,当然大脑结构比这个强,但是大家归纳出来右脑管什么,左脑管什么,你会发现左脑管一些比较逻辑的,有一些逻辑思考的,然后是在做分析的,右脑是在合成,是一个比较像创意的这些东西在这边,所以这个是左右脑的差别。

如果看这两个就会发现,(PPT图示)这一块AI做的非常好,很多可能做的都比人强,这一块可以做一些,但是大家只做到一半,人做的比AI强多了,到了所谓的我现在要讲的创造力,AI是完全没有谱的,AI是完全没有创造力的,我定义一个创造力就是人最了不起的算法,创造力就是你解一个未解的问题。因为用别人的算法不能叫创新,那叫应用。

在这里我跟大家解释什么叫算法,用一个最简单的例子,1+到N有两种算法,一种是运算,另外一种算法是N乘上N加1除以2,这是高斯发明的,当年高斯很聪明常常问数学老师,数学老师不胜其烦,有一天就让高斯从1到100依次相加求和,本想高斯要花很久才可以做完,没想到高斯3秒钟就告诉了他答案,就是N乘上N+1除以2,这是两种不同的算法,显然高斯的是一个比较好的算法。

说到这里我讲一讲对阿尔法狗的理解,今天你跟计算机比1+N,计算机用比较土的方法,你用聪明的算法,假设这个N很大,计算机算的快,计算机1+到N都比你加的快。任何一件事情是算法+计算。阿尔法狗的比赛算法来自于一群很聪明的人,都是人想出来的,所以算法是人想出来的,阿尔法狗计算是几万台机器在云端那里算,李世石很可怜,他有一个算法还要自己计算,下棋是要比时间的,不是可以无穷的。李世石先生如果5场还赢了一场,其他几场还有希望赢的话,李世石的算法是不是比阿尔法狗的算法更升一筹,否则那是以卵击石,我们用聪明的算法,计算机用笨的算法,计算机还是赢。

计算那部分本身太不公平了,因为空有算法还要计算,脑子一直在算,所以每一次当所谓什么东西超过人的时候,大家说AI多厉害,每一次发生这种事情我感觉人怎么这么聪明,才让今天的计算机这么聪明。而且什么叫下棋,当年下象棋的时候有点像开根号,大家就看比谁下的深,跟计算机比开根号本身就没有意义,为什么要下棋呢,今天讲说阿尔法狗是一个黑箱,看到这样经过大型的数据分析以后,他就觉得应该走这一步比较好,这跟我刚刚讲认50个恐怖分子没有两样。所以我就说如果把东西变成这样的话,去比是没有任何意义的。

人最大的智慧,有史以来大家公认是爱因斯坦最聪明,去年有一个重要的事情叫做引力波。但是我们整整等了一百多年,用最先进的技术才勉强测到了一些影子所以我们说引力波存在,当一百多年前,爱因斯坦提出这个假说的时候是没有数据的,不要说是大数据,简直是0数据。所以人的智慧其实来自于天外飞来一笔的这种东西,这个东西计算机不可能有创造力,而且计算机的程序都是我们植入进去的,所有今天AI的东西都是人研究出来的,没有计算机可以自己想出新的算法,这是没有的。

所以人跟计算机的关系又回到我讲的AI+HI的关系,人是去想一些大胆假设,然后让计算机小心求证,更多是这样的关系。

下面讲一下心灵、意识、创造力这三者,这是我跟脑科学家学习过来的,人最了不起的是意识。刚才讲的中文房间实际上要有意识的是强人工智能,笛卡儿也说过我思故我在,今天有两派,有一派人认为所有意识都在脑子里,除了脑以外就没有认识。另外一派认为人的意识是全身的。这不可能有结论,大部分人认为是一个全身的问题,原因很简单。你有疼痛的时候会影响你的意识,或者你哪里舒畅也会影响你的意识,很难说只有脑,如果只有脑的话,神经这些东西都应该不影响,说到意识,一定是生物才有可能有意识,机器不可能是生物,不会有意识。还有就是生物里面植物也没有意识,这是大家的共识,既使动物里面,普遍人想象只有少数人相信只有少数人有意识,有一个测试拿一个便利贴张贴在你额头,动物也是贴在额头,人会知道这不是我的一部分就会摸它,甚至把它拿掉。

做了很多动物实验,结果很吃惊,大部分动物是没有感觉便利贴的存在,很多狗都通不过,只有某些狗,据说很多猴子也没有通过,海豚鲸鱼倒是通过。大家可能有争议,有的动物知道不是他的一部分,但是他就不会摸它,但是无论如何,我要讲有意识的动物是很少的。

耶鲁大学教授写了一本书,他把人脑的规律分成两部分,意识力很集中和意识力不集中的时候,意识力很集中的时候你是计算很准,不会算错。意识力不集中的时候会做白日梦甚至睡觉的时候常常会算错,但是那个时候你的创造力有可能特别强,为什么呢?我也找到很多例子,一个是贝多芬做第九交响曲的时候他是完全聋了也瞎了,还有梵高最后把耳朵割掉以后他很痛苦,痛苦的时候他意识不可能集中的。有一个画家找到苯的六角形规律的时候,他是在睡梦中梦到一只蛇咬到自己的尾巴才使他找到苯的,更不要说很多诗人酩酊大醉甚至吃药,酩酊大醉以后可以做出很有创意的东西,人本身是不完美的,当意识力不集中的时候,往往有很多了不起的创新在那个时候创造出来。

很多人研究为什么,其实就是说意识力集中的时候你不太可能看到两个八竿子打不着的关系,比如我在研究苯离子是跟六角形的蛇没有关系的,当你意识力不集中的时候就看到了关联性,很有可能了不起的创新就是这么来的,天外飞来一笔,没准爱因斯坦睡觉的时候想到了引力波。但是有一点我要讲的,有的人说从此以后回去多睡觉,这样创造性比较高,但是光睡觉是不够的,光有大胆假设不够,要小心求证多做实验,多写程序。

最后, 人工智能到底危不危险?弱AI很强,现在叫大数据,没有谁能读特别多的数据,强AI是指人这个也懂一点,那个也懂一点,又能看又能听等等之类的,但是每一样都没有专家系统强。而且人没有办法一天24小时集中,人一直也很奇怪,一个人一辈子有1/3的时候是没有意识的,睡觉的时候没有意识,但是人的睡觉有可能因为不完美造成我们有创造力。

另外一个就是说,我们到底可不可以造一个机器人有意识,我会觉得造一个机器人有意识在科学上有意义,在实际生活上没有太大的意义。我时常用一个例子,我叫太太说,亲爱的,你帮我弄杯咖啡,10次里面有5次,我太太会说你自己有手有脚干吗不去弄,我说你讲的很有道理,我赶快去弄,我造一个机器人10次里面有一次这么讲,我马上就把它毁了,你造一个机器人当然希望他有用,就算你想造,其实我们有几千万年的经验教育我们下一代,我们巴不得我们下一代比我们聪明,在座的有小孩的人,你去问他你小孩是不是比你聪明,他说对,我小孩比我聪明。你要造一个有意识的东西多生点小孩就行了,这个命题本身是有问题的,造一个有意识又聪明的东西,在科学上很有意义,在实际上不一定那么有意义。

奇点会不会到?有人说AI到了一个地步自己可以翻新,问题就可以往前解,最后就把世界变得越来越好。总体角度来看,就算有一天做到了强AI,这也不太可能发生。原因是当你解了一个难题,爱因斯坦很聪明,世界上还有很多未解的问题,数学上雷曼猜想还没有解。今天大家学计算机的,P等不等于NP,到底等于不等于我们也不知道。再往前走人从哪里来,宇宙从哪里来,有没有大爆炸,将来会不会扩张再缩小?没有人知道,下一个问题有可能永远无解,所以不会有奇点。而且如果这个世界上所有东西都被解了,人存在宇宙间的意义有可能就大打折扣,有可能没有,这个离我们太远了,唯一大家可能要担心的是Bug。有人问我哪一部科幻电影比较接近事实,我觉得可能是《骇客帝国》,他是讲计算机里面有一个Bug,Bug代表出它有一些漏洞,但它刚刚好看到人就杀,这个可能性几乎是0,所以大家也不用担心。

我还是比较乐观的,AI除了是Augmented intelligence以外,也可以是Human+ Machine等于Superman,我就讲这么多,谢谢大家!

随意打赏

微软执行副总裁沈向洋微软大中华区副总裁微软人工智能助手微软全球副总裁( )重大决策微软人工智能微软智能手表微软智能眼镜微软 洪小文ai hi
提交建议
微信扫一扫,分享给好友吧。