胡郁:我们要做一个机器人参加高考
编者按:本文是科大讯飞轮值总裁、研究院院长胡郁在新浪C+的演讲实录,雷锋网 (搜索“雷锋网”公众号关注) 做了不改变原意的编辑。
今天我演讲的题目想跟大家进行分享的是“ 从能听会说到能理解会思考,以语音为入口的认知革命 ”。在过去的两年当中,应该说大家对人工智能突然变得非常热,应该讲很多人都很兴奋。而且衍生了很多问题,大家认为人工智能就像刚才主持人说的,在3月份战胜了世界围棋大师李世石九段,很多人就以此推断说人工智能要颠覆人类,甚至要灭绝人类的时间不远了,但是是不是真的这样呢?我们来一起看一下。
| 什么是人工智能?
说到人工智能,我觉得首先要搞清楚一件事情什么是人工智能?人工智能到底离我们有多远?我们看看第一个话题,每个人都在谈论到底人工智能他出生在什么地方,经过了什么样的发展。我们都知道,其实要讲到人工智能这个话题,要回溯到1946年 世界上第一台电子计算机埃尼阿克 的诞生,埃尼阿克产生以后,许多的计算机科学家对于计算机将来能够代替人类做什么事情有很多联想,其中最著名的一个人是图灵。 图灵 在二战的时候发明了非常重要的炸弹,这个炸弹可以破解当时德国的密码体系。在二战以后, 埃尼阿克 发明以后,图灵在1950年左右在人工智能领域进行了很多的探讨,并且提出了著名的图灵测试。
但是真正的“人工智能”这个词被提出来,是在1956年 Dartmouth 的会议上。今年是“人工智能”这个词被提出来60周年,我们可以看到,不管是世界的人工智能大会或者是中国的人工智能大会,可能以后的人工智能大会这些词是不绝于耳的。当年在Dartmouth提出来人工智能的人,包括 明斯基、西蒙、麦卡塞 等等,这些年轻的人工学者他们提出概念以后,他们中间诞生了四位图灵奖得主。大家看到了,时光荏苒,作为最后的一名参与者已经去世了,但是我们已经可以看到人工智能的发展。
但是人工智能的发展也不是一帆风顺的,就像一项技术一样,当一项新技术出现在人类社会的时候,大家会抱以非常高的期望。在人工智能刚刚提出的时候, 所有人都认为人工智能用规则推理的方法可以解决这个问题 。因为当时的计算机、存储和各个方面的原因,当时是大型机的时代。IBM的总裁曾经说过,世界只需要五台计算机,事实证明他错了。但是人工智能经过了五六十年代的发展,离大家的期望很远,所以人工智能进入了沉寂期。
随着80年代个人电脑的发展,人工智能再次引起了大家的关注。以日本的第五代计算机为重要的表现,以中国的863计划,其实我们也设计了306主题,就是智能计算机主题。 中国现在领先世界的超算,包括科大讯飞本身都得益于国家863计划在智能计算机这个主题下很多的投入和创新。
但在90年代人工智能又再次陷入了低谷,因为很多人发现,互联其实可以帮助我们解决很多的问题,我们的信息化技术能够解决我们生活中大部分的问题,而且我们并不需要人工智能,而且人工智能也做不到。
进入二十一世纪,特别是随着移动互联网和互联网的发展,我们再次发现,人工智能其实是有可能做得到的,等一下我会给大家阐述一下为什么能做得到。
| 人工智能是否会威胁人类?
这是包括Gatner,包括德勤分析做的一项预测,很多人非常感兴趣,现在一个非常重要的话题是说 人工智能会不会威胁人类,会不会抢去我们的饭碗 。大家可以看到,最左边这个报告就是Gartner的一个报告,说到人工智能越来越多的参与到我们的生活当中去。中间的这个德勤的报告分析了现在人类的工作,有多少已经被现在已经可以用的人工智能的技术所代替。其中有一个好消息,CEO大概只有20%的工作可以被代替。还有一些好的消息是说,我们的园丁、清洁工被代替的比例更低,只有10%。但是也有一个不好的消息,对于今天在座的各位,大家可以看到,机器人可以直接帮大家把语音转写成文字了,这个对于记者来说是好事。但是同时它也会开始写稿了,大家可以看到,最近的美国,包括腾讯的一些人工智能的技术都已经在展现,说机器人如果写报道类的,陈述性的稿件也许比人还要精确。
我们其实也可以看到,人工智能的发展并不是一个线性的,这是在去年或者今年的一个报告,我认为确实有这种可能性,大家都知道,我们今天的宇宙其实是在100多亿年前有一个经典大爆炸,但是人工智能的发展经过60年来的跌宕起伏是不是也面临着同样的境地呢?很多人相信,包括雷·科兹威尔,很多人骂他是骗子,说2045年人工智能将会有爆炸式的发展。事实证明,在数字的世界里面,确实人工智能是有可能在一个基点上发生变化的。但是我们也知道很多现实的东西,比如说我们的能源、材料和物理世界变化没有这么大。所以我觉得这中间可能是一个非常颠覆的问题,我们在将来的二十年当中会取得令人惊讶的变化,但是是不是会颠覆人类?我觉得今天的C+峰会其中有一个话题非常有意思,就是意识方面,我等一下会讲到。
在过去的几年当中大家已经接受互联网和移动互联网作为基础设施,就像我们曾经的水和电一样进入到我们的生活。现在大家能够看到,在将来的10年,人工智能也会像技术的服务进入到我们的生活当中,每个人都离不开。它的人工智能之所以受到这么广大的关注,不仅仅是因为这个技术炫,而且影响到我们的生活,不仅关系到我们每个人,还关系到我们国家。据我所知,美国的国防部长卡特他最近去了一趟硅谷,因为美国想在将来的继续维持霸主地位,非常重要的就是希望在军事上率先做出无人战车的部队和无人舰艇的部队。大家都知道,人工智能的人才非常昂贵,所以卡特要专门跑到硅谷去找人,那是国家的必争之地。
| 人工智能的突破难点在哪?
讲到人工智能,很多人有各种各样的想法,但是人工智能中最重要,现在最需要突破,也是最难点的地点在于什么地方?要回答这个问题,其实我们有可能要先看一下人类。我们都知道人类在地球上有300到400万年的时间。在去年2015年的3月份,我在这个论坛上首次给大家阐述了一下人类的智能跟人工智能有什么区别。
这本书的作者雅克·阿塔利现在应该讲已经大名鼎鼎了,所有人都知道,但是在刚出来的时候没有人把他跟科技联合在一起。这是意大利一名很年轻的历史学家雅克·阿塔利他写的一本书,叫做《人类简史》。他提出了一些非常重要的现代近代考古学上的发展,因为基因技术的发展,我们知道地球上所有的人类,包括白色人种、黄色人种、黑色人种、棕色人种,我们的祖先都来自于非洲的智人。在智人以前,地球上的人类猿人已经存在了三四百万年,在旧石器时代和新石器时代,在中国有我们讲的元谋人、山顶洞人、蓝田人等等,但是他不是我们的祖先。为什么人类在七万年前,我们现在看到人所有的祖先智人在世界上灭了其他的猿人,获得了真正的地球的统治者的地位。
我们可以看到,其实那本书也得也非常清楚,就是在七万到两万年之前, 人类在农业革命、工业革命还有一个重要的革命是认知革命 。而 认知革命是人类用语言和智能战胜其他猿人的非常重要的方面 ,因为有几个方面的事情,一是可以把客观事件描述得准确;二是八卦,我曾经以为八卦是女性社会非常不好的习惯,但是没想到是非常重要的,由原来的100人的团队可以变成150人到1000人的团队。因为有了语言,我们可以交流我们在做梦中,或者我们思维里面的东西,我们可以产生虚构的概念,我们可以产生宗教、公私等等,从而让我们人类成为地球的主宰。但是这位老兄雅克·阿塔利最近又写了一本书,已经有预告了,就是关于《未来简史》。
我曾经说过,因为我们现在的人工智能跟我们的意识其实根本没有任何的关系,所以我并不认为机器的发展将来能够残害人类或者替代人类,但是雅克·阿塔利说即使机器不会产生自我意识,当它的智能达到一定程度以后,所有的人类都会懒惰到躺在那里等死而已。当然我非常不认同这一点,我要看看《未来简史》写出来以后到底怎么样。
我们可以看到,在过去几年当中学习多的媒体接受了这样一个观点,关于 人工智能的分类 。这是我提出来的,我当时把它叫做 计算智能、感知智能和认知智能 。机器发明出来以后,我们都知道计算能力和存储能力远远的超过了人类。在运算智能方面,机器确实远远超过人类,1997年“人机大战”中战胜国际象棋世界冠军卡斯帕罗夫的超级并行计算机“深蓝”。比如说阿尔法狗看过3000万盘棋,其中2900多万盘是自己跟自己下的,在感知这个世界。我们可以看到,我们可以听到,我们可以感知到。机器就像动物一样,这方面机器在快速的赶上我们,因为机器的传感器,人工智能算法越来越清晰。在认知方面动物和人类差得很远,在政治方面发展很受限制,因为没有语言,就没有知识,没有知识就不能做复杂的推理。 所以在认知方面,如果机器能够赶上我们,是机器智能战胜人类非常重要的节点 ,它们现在还有很大的差距。
正是因为这样,我们可以看到,它的通路其实也分为两种, 一种是我们正在参与的国家的脑科学的人工智能重大规划,我们希望通过对人类大脑的了解,能够帮助我们设计更好的算法 。但是大家知道,对于大脑的了解是一个非常漫长的过程,我们还在努力,我们跟中科院的神经所,跟很多部门都在进行这方面的联系。但是 另外一方面,我们业界里面现在已经使用的人工智能的算法,其实应该把它叫做大数据人工智能, 它通过我们很多的技术已经能够了解到。
我不知道大家最近有没有看这过方面的描述,就是关于我们到底脑科学里面能学习什么。曾经吴军有一本书叫《智能时代》,里面有一种提法叫“鸟飞派”,当我们要学习飞翔的时候,我们最先想到的是像鸟去飞,我们把身上贴满羽毛找一个高一点的地方来跳,相信大家都知道。但是后来人类发现了空气动力学,我们造出了比鸟更好的设备。 当我们研究大脑的时候,我们不一定要把大脑完全的复制和克隆出来,我们可以找到这里面的智能 。 我相信我们可以找到关于脑神经学习的机理、机制、结构这些方面可以帮助我们。
| 人工智能的思路是如何的?
但是另外一方面,我们其实可以看到,在当前的工业界,真正的已经能够看到的是什么呢?是我们利用深度 神经网络 、大数据,还有我们的涟漪效应,来共同的养成我们现在的视觉、听觉和自然语言处理方面的能力。这方面我要介绍一下 涟漪效应 ,涟漪效应和网络效应有点类似, 是利用我们互联网思维来解决人工智能的思路 。因为大家都知道,任何一项人工智能出来的时候不那么先进,但是需要真实的人员用它,贡献真实的数据和经验,就做一个产品放到这里面去。当一个水滴滴到水面的时候它的扩散是需要时间的,这个时间慢慢的扩散越多,使用的人越多,这个水滴有错误的误差,一开始的错误是很大的,当越来越多的人用的时候,技术就改进了,传播得越广错误就越小。当没有传播到整个人群的时候,已经训练得很好了,这个水波纹已经慢慢消失了。但是对于刚接触到它的人,会觉得这个东西怎么这么好,这就是我们现在做人工智能的思路。
|
科大讯飞到底在做什么?
最后我想说一下科大讯飞到底在做什么?正是因为有前面理论的这些基础和我们对将来的一个设想,科大讯飞正在做的一件事情就是 讯飞超脑 , 我们要做语音和语言为入口的机器认知革命这里面包括感知智能和认知职能 。这是我们整个的讯飞超脑的一个图,这个里面要模仿我们人类的感知智能,通过这个以后,我们要上升到人的认知的层面,我们有个 Think Machine,可以对你的概念进行推理和解决 。解决完了之后有一个执行,这一项技术我们其实最近已经取得了很好的成果,我给大家介绍一下。
正是因为科大讯飞在整个的深度神经网络方面,大家都知道前两天在北京开的中国人工智能大会中我们请到了科大的校友,也就是我们讯飞语言及语言信息处理国家工程实验室的邓教授,他是和微软一起把神经网络共同做成功的著名的国际学者。在他们成功三个月后,就是在2009年的12月份我们就知道了深度神经网络其实是可以用于我们的人工智能计算的。在过去的五到六年中间,科大讯飞不止一次的第一次把神经网络用在语音和语言的各个方面,比如说 语音合成、语种识别、语种识别、自然语言处理 等等。
| 取得了怎样的成果?
现在我们取得了什么样的成果呢?大家都知道我们的声音其实在我们的脑海里面,在声音处理里面能够看到有一个语音谱图。非常牛的人员,利用这个语音谱图来判断。我们现在做的成果可以利用图像处理的方法处理我们的语音,跟我们耳朵里面的听觉系统是非常接近。不仅仅如此,更加重要的是 解决认知的问题,里面包括语音翻译、知识表示、联想推理和自主学习 。我们也有非常多的核心的模块,在这里就不一一介绍了,包括自主的语意表示,进行逻辑推理。
现在我们做到了什么样的成果呢?我们也借用了人脑里面非常重要的注意力模型,右边这张图大家更感兴趣,左边是灯塔的图。右边上面是男人在开车的时候视野和关注的地方,下面这张图据称是女人开车时候的视野,视野很窄,所以说大部分的女性同胞可能出事故的情况比较多。
我们最新发布的一个产品是AIUI,我们非常希望能够跟所有的 智能硬件 进行非常自然的交互。但是大家都知道,用过语音交互的人,虽然讯飞语音云现在已经为18万的开发者每天提供超过25亿次的语音服务,而且我们还连接到8到9亿台设备,但是他们的感觉坦白来说并不好。利用的AIUI,因为时间的限制我们没有办法演示,我们将原来单次的交互变成全智能的交互,我们将语音识别、语音合成、自然语言理解和整个对话过程融为了一个整体。现在国内百分之八九十的产品都会连接到我们新的AIUI的产品上,给我们带来不同的体验。
大家可以看到,采用这项技术之后,我们对话的成功率从40%提升到了90%以上。另外讯飞超脑在感知认知方面的两项成就,我给大家简单介绍一下。一个就是关于口语评测,大家都知道,在世界上学习英语最痛苦的一件事情,你们会发现全世界都没有口语考试,为什么?因为口语考试没有办法改卷子。广东省曾经在高考中考过一次口语,77万考生录下音来以后,找了2千个英语的老师和师生来听,改了两个星期都没有改完,而且压力非常大。但是我们现在用机器的方法,可以自动的听懂你的口语里面说什么,还给你评价,你怎么样读错了,你的语音、语义这方面都可以评价出来,现在世界上只有中国在广西、广东、江苏可以中考里面考英语口语。不仅仅可以考口语,我们还可以考手写作文,我们可以对你的作文进行评价和批改。我现在还在带领863的一个专家团队,应该说是国内最大的一个团队。31家单位参加,近几百个老师,上百个教授在参与的中国的高考机器人,就是我们要做一个机器人参考高考,之后还能考上清华北大,看到题目之后它就可以给出答案,其实考试是评价人工智能一个非常重要的方法。
我们期待也许将来也许我们可以看到非常好的 物联网 的世界,我们的手机,我们的智能家电,我们的智能家居,我们的玩具,我们的汽车,所有的机器人这一切都能够跟我们自由的交流,我们可以进入一个真正的机器认知的革命时代,谢谢大家!