语音交互是未来智能生活的核心
图1:直播实况
人工智能并不是一个很新的概念,从刚开始有这个概念到今年刚好是 60 年。他的发展过程坎坷,有多次的起伏。研究人工智能的时候分为三个学派,逻辑学,仿生学和行为学。逻辑学研究人的思维,仿生学研究人脑的运行机理,而行为学不研究思维只考虑观察行为。
人工智能的发展大概能分为三个阶段:感知智能,认知智能到通用智能。像传感器,图象,语音识别,大数据的自动驾驶汽车都属于感知智能,在这个方面计算机进步是非常快的,与人类的进展是非常接近的。目前的感知阶段已经比较成熟,在慢慢向认知智能方向发展,认知就是具备学习能力,能像人有记忆能力,具备决策能力,像医生看病,这是典型的决策问题,我们可以去做规划。但通用智能是指真的到达了人的水平,具备自我意识,但目前还离我们非常遥远。
云知声在人工智能方面目前的业务主要是处于感知智能的阶段。最早是提供学习技术的云平台,再到现在语音识别。我们又结合硬件将语音识别运用到车载,家居,医疗,教育等应用邻域。语音交互将会是未来智能时代的核心,云之声的愿景是可以在家里有一个智能中心,让人和机器去进行交流,为生活带来智能化的变革。
硅谷里耳熟能详的几家大公司,谷歌, FaceBook ,微软, IBM 等等都对人工智能趋之若鹜。谷歌发声最早,从一家搜索的公司很成功地转型到现在的人工智能公司,它目前以及未来的中心都会放在搜索,家居和无人驾驶上。 Facebook 也请到了三驾马车之一 Yann Lecun ,建立了自己的研究实验室。 IBM 有着深厚的人工智能基础,从 1997 年 IBM 的深蓝战胜国际象棋世界冠军卡斯帕罗夫之后,紧接着 2005 年, IBM 蓝脑计划,首个有自我意识的机器人, 2014 年,开放了 Watson 平台和发布了模拟人脑芯片的 SYNAPSE 。目前 IBM 在人工智能邻域的布局还是围绕着 Watson 和 Synapse 做文章。 苹果公司一向对外消息甚严,传闻他们要做无人驾驶车,并且在各大公司相继挖人,未来的方向应该是围绕着设备智能。
除了硅谷的公司,国内的大公司也在人工智能方向有很大的进展。以互联网巨头 BAT 为例:百度发声最广,引进了吴恩达博士建立了北美研究院,与 Google 的性质类似,百度注重搜索,语音和图像的识别。阿里巴巴可能更多的是注重物联网的布局,对消费趋势,数据和场景规模化将投入更多的资源。腾讯专注于搜索技术、自然语言处理,数据挖掘邻域。
未来我们的生活将更多的围绕生活智能,从工业时代完全过渡到一个全新的智能时代,人工智能会受人类的控制而更好地服务于人类,拥有更多的功能,应用到更广泛的邻域。语音交互技术将会是开始智能时代的核心,让机器真正能与我们对话。
【以下是由无穷整理的演讲实录】
大家好我是刘升平,我是来自云知声的研究员,我是在 2005 年毕业以后在 IBM 研究院做了 6 年多,也是偏语音研究工作,之后又来到了云知声,公司刚成立的时候到现在一直从事理解和认知智能方面的工作。语音是最智能的,跟人交互的方式,的确给我们的生活带来很大的便利。
在家居这块,我们马上会有格力、海信,国内几家家电,我们都会有合作,大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互,还有像音箱这一块,因为音箱本身就是一个播放的设备,所以你加语音很自然。我们跟音箱,还有像机器人,因为机器人也是,它本来就是人的形状,你用语音交互是最自然的方式,这块我们也都有很大的进展。
人工智能近 60 年的发展
接着之前的话题讲人工智能,今天我给大家讲一下人工智能能过去的历史,目前的发展状态,以及未来的一些展望。今年的人机大战使人工智能走进了人们的视野,但其实这并不是一个新的概念,直到今年刚好是 60 年。它的发展过程其实也是非常坎坷的,有多次的起起伏伏。在刚开始的时候马上得到大家的认可,百花齐放的感觉,从不同角度研究人工智能,我们当时分成了三大学派。一个是逻辑学派,更多是考虑人的思维、认知方面的东西,特别是知识的表现。另外一个派就是仿生学,它是去研究人脑的一种运行机理。最后一派就是不去研究大脑,也不去研究人的行思维它是去看行为,称为行为学派。三大块都是百异彩纷呈、花齐放的感觉。但是它们马上,可能大概十以后,人工智能陷入一个低潮,这大家说个概念很好,我们现在做的东西在 60 年前左右就开始做了,像现在我们做的翻译,我们说的天系统,实际上在 60 年前左右就开始研究了,机器人也是这样的。
当时你想计算机刚发明不久,计算功能很弱,所计算机还是像玩具一样的东西,以就陷入了低潮。陷入低潮以后,过了几年,因为我想大家对人工智能的追求还是有的,所以他们慢慢取在专家系统方面得了很大的成功,特别在医疗的诊断,辅助诊断这块,实际上在 70 年代我们就做了抗生素这分方面的东西用什么样的抗生素,有专门这样的系统,慢慢又开始火起来。但是这时候,大家同时对人工智能期望很高,但是又没火多久,又陷入低潮。它不是玩具,能解决一定的问题,但是只能解决小方面的问题,像不能解决像现在智能驾驶、机器人,很高端的这些。陷入这个低潮以后家都开始反思,之前我们谈的很高,用思维、逻辑,现在很多人开始从简单的方面做起,从感知方面做起,像人一样能看听众人说话,或者懂一个东西,就从这种很基础的感知智能开始做起,慢慢地往更高级的认知去智能这块。
人工智能发展的三个阶段:感知、认知和通用智能
人工智能的发展大概能分为三个阶段:感知智能,认知智能到通用智能。如果从感知的角度讲,举个例子,一个动物,一个猫,一个狗,看到周围会避让,随着传感器,图象,语音识别,大数据的自动驾驶汽车出来了以后,这个问题计算机进步是非常快的,与人类的进展是非常接近的。现在语音跟图像识别这块,国内现在很多公司在做这一块,识别这块也有很多创业公司,前段时间一个创业公司引进一个科学家,所以感知这块现在做得是比较纯属的一块,甚至在某些分析已经接近人的感知能力,像语音已经很接近人了。
目前的初级阶段已经比较成熟,在慢慢向认知智能方向发展,认知有很多方面,就像人有记忆能力,我们可以做联想,最重要是要有思维,我们还要有创造力,我们可以去画画、写诗,另外一点就是我们有决策能力,像医生看病,这是典型的决策问题,我们可以去做规划。这个我们不是一层不变的,是可以去学习的,这是认知的重要几个方面。这块也是最早人工智能的梦想,希望在认知这块能够达到接近人的水平。
用智能更高级,真的是达到了人的水平,可能在意识这块,我们之前说的还没有到意识这个层次,如果让机器有了自己的意识,就是机器会控制人这种事情。但这个我感觉大家不用担心,通用智能还非常遥远,在估计在我有生之年看不到这个场景。
云知声在人工智能上的发展和布局
云知声从 2012 年到现在也四年多了,我们一直从事这方面的工作。这几年的发展也可以干出整个行业的发展,我们最开始做云识别,在 2012 年 6 月份成立,我们 9 月份就把云识别的云平台弄出来了,是业内第一个免费的云识别云平台。我们在 2013 年 1 月份的时候,就把深入学习的功能弄上去了,提供学习技术的云平台,之后我们又做了语音识别,而且做了对话的语音识别出来。所以我们一直在做这块的东西,我们技术也是不断演变,从最早的统计学习这块,不久我们又做深度学习这块。在今年 7 月份的时候,我们又发布了引擎的升级,这个升级里面有两个大的升级,一个是在云识别这方面,我们运用了一个新的模型,提升了语音识别的准确率,错误率降低了 20% 。而且我们把这个应用到医疗方面,在医疗领域我们把医疗专门的云识别准确率提高到 95% 左右,使得医疗这个行业云识别真正变得实用。
医疗的语音识别是给医生用的,医生下班要有很多时间花在写东西上面,病例我们希望是通过口述就把它转成文字,但是这个医疗比较复杂,会涉及到很多专业的术语,很多疾病名称、药品名称,或者一些基因名称。这块对语音识别是一个很大挑战,我们也做了很多优化以后,真正地把语音识别在医疗行业这块做到可以供应用的水平,我们最近在协和医院,在国内第一家三甲医院上线。
云知声我们刚才说技术这块,从感知方面我们做了很多认知方面的工作,语音、问答、推理这方面的,我们现在应用的场景除了医疗之外,实际上我们用的最多的是另外两个分析,一个是车上,因为在车上手和眼都被占用了,你不能触摸屏幕,也不能看屏幕,这时候你想打电话,或者你想导航到某个地方,或者找一家餐厅,通过语音是最方便的方式。所以我们在车上通过语音来做,因为在手机上的话是一个很标准的录音环境,没什么噪音。但是车里面有噪音,如果开着窗的话噪音非常大,所以对云识别是一个很大的挑战,所以我们有专门的硬件做降噪,可以让识别效果很好。
那在家居上更明显,我们更多讨论是远一点的环境,你隔 3 米、 5 米怎么控制,你跟空调说调到 25 度,你跟电视说跳到哪个台。所以降噪方面还是有比较大的挑战,因为有噪音。另外我们在远一点的环境之后,信号会衰减,到真正识音的时候,声音很多地方汇集到一块,所以这个时候对语音识别是很大的挑战。这个我们也是做了硬件的升级,做混响,做降噪,达到非常好的效果。家居这块其实应用很广,就像今年跟美的空调,它现在空调这块,因为它是比较远吗。我们现在可以看到一个很明显的趋势是,用语音代替传统的摇控器,躺在床上就可以把空调温度调低一点,高一点,你不用找遥控。现在有很多用 APP 控制,但是用 APP 也很麻烦,你晚上还要找手机,然后找到 APP ,再去调。所以语音是最智能的,跟人交互的方式,的确给我们的生活带来很大的便利。
在家居这块,我们马上会有格力、海信,国内几家家电,我们都会有合作,大家马上就可以去体验。我们的未来愿景就是在家里边可以跟很多东西去交互,还有像音箱这一块,因为音箱本身就是一个播放的设备,所以你加语音很自然。我们跟音箱,还有像机器人,因为机器人也是,它本来就是人的形状,你用语音交互是最自然的方式,这块我们也都有很大的进展。
硅谷人工智能的发展
谈到硅谷公司,我们耳熟能详的几家大公司,谷歌, FaceBook ,微软, IBM 等等都对人工智能趋之若鹜。 Google 做了很华丽的转型,从一家搜索公司到现在的人工智能公司,它是很早就意识到人工智能的技术对人们生活影响的趋势,他们很早就做 DeepM ( ind 所以它的智能化的布局是最全面也是最领先的。像它的智能驾驶团队也是最领先的,把最早深度学习做到了,买了一个三个人的小公司。他们在这方面下了血本,这也跟 Google 很长期的技术积累,包括计算这方面,他们很早就提出来的,分布式计算框架,他们都做得很好。所以他们在这方面的技术积累,我觉得他们走到这一步也是顺其自然的一个趋势。 Google 在软件就是 Google Mind 是云助手,另外他们也提出了 Google Home ,要去控制这个东西。另外 Google 自动驾驶汽车我估计很快也会推出。有传言说 Google 将会在 5 年内推出无人驾驶汽车,那我觉得是可能的。因为智能驾驶这个包括了感知、认知,最后反馈到行动,包括对道路的感知情况,到底采用什么驾驶模式,怎么开这个车,它会需要至少 5 年的时间。自动驾驶确实是一个比较有意思的课题,所以目前这块也有很多工作在做,所以离全自动驾驶还有一段距离。更切实可行的是说,辅助驾驶这块,这块也是你可以看到汽车技术演进也是在不断地演变,不断地在变自动,最后让人越来越懒,这可能是做技术最大的追求。我们也都是这样的,让大家懒一点,舒服一点。
FaceBook 也请了三驾马车,他们最近也有一些成果,他们也下围棋,也下得不错,他们也做得不错,只是被 Google 抢了风头。但是总体来讲,投入也不是很大。微软投入也很大,从我当时读博士的时候,大概 2000 年左右,我在微软实习的时候,当时做的东西就跟现在的人工智能差不多,当时就提出来做那种智能交互这块,主要是做语音识别这些领域。
苹果公司也很伟大,他也默默在发展人工智能,只不过他们会相对比较低调。最早大众接受的语音产品就是苹果公司做的,他们也收购了情绪识别这样的公司。
亚马逊推出的 Echo 是一个跨时代的设备,全语音识别的,从体验度讲的话,是目前语音交互做得很好的。你跟它说话的时候,它播音的声音会自动降低,很人性的一个做法,这样的话它可以更好地听清楚你的声音,更好地和你交互。然后在对话这方面做得比较好,另外它也推出一个平台,就是开发者可以把一些功能加上面去,你可以用音箱叫车,甚至订外卖都有可能。
从互联网到移动互联网,后面到物联网,那物联网除了万物互联之外,其实更重要的是万物智能,我们以后每个设备虽然样子可能不像机器人,但其实也是个机器人,同样都会有感知的功能,有认知,就像我们说一个空调,其实某种意义上有感知功能,如果它看到你看电视睡觉了,它可能自动关了,可能会帮你关掉电视,可能把风力调低一点,温度调高一点,很人性化的,会根据你的情况做一些决策,这也是一种智能的体现,我相信以后除了我们用的设备。它相当于成为了家里的一个控制中心。它会有记忆,但这个不是很神奇,我们每次跟它交互它都会记下来,不断根据你的交互行为越来越了解你,给人打上各种各样的标签,会给你做一些个性化的推荐,还有一些个性化的服务,这个现在很多产品都会有。
亚马逊是卖东西起家的公司,但是它在 Echo 投入很大,但是在其他分析也在做无人机,用无人机送货,这是很超前的理念。我觉得它还是比较踏实做产品的公司,不像 Google 宣传很多。
中国公司人工智能的发展
国内第一个要提百度了,百度基本上是跟着 Google ,所以 Google 转型以后百度也是在亦步亦趋地在做着工作。他们引进了吴恩达博士也成立了北美研究院。北美研究院也是国内最早成立的这个研究院,还是挺超前的。因为它本来就有很多方面做云识别,做数据处理的,所以百度应该是做国内人工智能最好的。虽然在业务领域会有很多争议,但是在智能领域还是很超前的。而且今年跟清华花 2 个亿也成立了一个研究院,也有语音、图像处理。像 360 也成立了研究院,也请了非常有名的图像识别这块的教授来做。
其他在 A 和 T 方面,感觉动作有点小,阿里动作有点小。腾讯请了香港的一个教授做院长。我觉得除了 BAT 这些大公司外,我觉得不能忽略的就是国内的很多创业公司,这块也是非常多。就像我们云知声,我们在语音识别、图像、云处理有很多,像前几期的嘉宾也都是创业嘉宾。现在这个公司很多,但是有一个问题就是说,我们面临的问题是说,夺公司总是要做商业化。其实你会发现很多公司大家都会走不通的路,有的可能想通过手表来做一个人工智能的载体,但我个人感觉说最大的问题就是量可能比较少。
做安全监控这方面,或者做公安这方面的,但是这个问题就是说 to B 这块很多眼眉很高,很多情况不是他自己能决定的。另外云知声也挺有意思,我们走的是另外一条路,我们走的是 B to B to C 。我们是跟一些大厂商合作,跟这些大 B 合作,把这个产品融入到他们的产品里,然后他们去 to C 。我们是先通过平台,我们的用户都是走公云平台,最终我们还可以拿到用户数据,我们可以同样去做迭代,去优化,用更好的体验去服务。我们这个 to B 做完了不是跟用户没有关系了,这个用户还在,更重要的是我们通过 B ,因为我们创业公司你想如果要去做纯 to C 的产品,投入是很大的,你除了很多产品,还有产品的推广、市场营销、销售渠道的管理。
这样会牵扯到很多你的精力,你的技术可能会落下来。所以我们希望我们还是技术驱动型的公司,特别是在开始几年,我们更多是希望在技术上有更多积累,所以我们想通过这种模式,通过跟更多用户拿到更多数据以后再不断优化我们的引擎。所以你看我们的技术,一点不亚于那些大的公司。然后这种 to B ,同样我们也可以有盈利,因为 to B 这块,我们是通过一些卖硬件,因为你刚刚说在车子和家居这块是要有硬件配合才会有一个很好的效果,所以我们也会有一定的收入,我们的技术还不会落下。因为做人工智能你发现技术是很重要的一环,如果你稍微一落下,因为技术直接会影响到对用户的体验,最终伤害的还是用户。所以这是我们为什么坚持走 B to B to C 这个路,我们公司是 2012 年成立的,那时候移动互联网比较火, App 是最好做的,但是我们没有做,我们觉得还是数据和技术,这才是最终的竞争力。因为这种产品我们也会做,但是我们更多会在技术比较纯属之后,我们有信心我们的产品能达到一个非常好的用户体验之后,我们才会推出这款产品。我觉得这是我们可能跟很多公司商业模式不一样的地方,这也是可以给大家借鉴一下。
未来科幻的人工智能
我们离科幻电影里的场景还太遥远,我们更不用担心像伊娃把 Boss 给杀掉了。我们现在更多地还是想踏踏实实做技术,因为技术的每一个进步,最终都会转变为对用户的体验。科幻电影里会有很度自我意识的东西, 而 意识是很复杂的东西,这个东西我可能也想不清楚,非常复杂。到底意识是怎么形成的,我觉得前面说感知、认知都还可以,是我们现在可以触摸到的,也是有技术可以实现的,但是意识这方面,以我个人的能力,我还不太了解怎么样让机器人产生意识。
我现在有一点点稍微接触到这方面的,就是自学习,这个现在是有一些进展,就像 Alphago 就是不断地学习下棋,不断积累这个水平。不像人可能是自主学习的,人可以通过不断学习掌握。像我们人是有举一反三能力,我们看到一个菠萝或者苹果,并不需要像计算机看几万张图片,人只要看到几张图片就知道这是菠萝,不管怎么变这是菠萝。另外就是一个强化学习能力,就是通过反馈来学习,这也是人不断跟环境交互,我们说吃一堑长一智,其实也是这个意思,我们通过不断的摔跤,可能会不断的学习。还有一个是学会学习,我们以前是用深度学习去训练一个深度学习网络,它也可以做一些预测。但是学会学习是可以通过一个神经网络给另外一个神经网络调参数,有点像一个机器人教另外一个机器人一些知识。像最早 Alphago 玩游戏一样,它可以不断地学习到知识,然后一直到学习围棋。
我觉得这些可能会越来越智能,不像我们以前提到人工智能是有多少人工就有多少智能,不是靠人工堆起来的智能。像我们以前要设计模型,要调参,设计好了就不会再变了,它来做一个预测,来做一个学习,但是这都是靠前期来做的一些事情,当时我们更不用担心机器取代人类。但是现在的人工智能,有部分智能是通过机器自动去学习到了,它能够选择特征。现在深度学习有一个很大的改变,就是它可以去学习特征,把由人做的这一步变成可以由机器自动做了。这个意义很重大,以前我们都需要很多领域的专家,因为你没有这个领域的专家就没法去渗透,但是现在可以跨领域,因为它可以自动取学习课程,所以这个就大大降低了跨领域应用的成本。即使这样,机器可以越来越聪明,但是我看不到能产生意识。情感是可以通过编程的,现在有很多机器人就是可以有很多情绪,这个就有点像《超能陆战队》,能感觉到你的情绪。
像医疗、无人驾驶、机器人,到现在是比较看好的人工智能的应用领域,在未来我个人还是更看好在工业方面的,因为这个市场是非常大的市场。我们前段时间不是提互联网 + 吗,现在应该说人工智能 + ,因为它做的最简单的事情可以把以前一些重复性的工作让机器人来做,在很多领域都有。像现在的一些速记员可能被云识别直接被淘汰了,像法院有一些助理,机械性的功能可能都会被人工智能取代。
就像今年百度奥运会的解说,度秘,当然它还是有局限性,它只能去解说一些事实性的,这个球员的数据方面的东西,但是真正情感性的东西,因为它是要两个人合作吗,再加一个真正人的主持人,至少减少了主持人去翻东西的时间。
刘升平:我觉得不用为这个东西去担心什么劳动力被淘汰这个问题,社会总是在进步的吗,随着社会进步我们人也会进步。就像以前会赶马车,现在没有了吧,现在可以当司机。现在社会教育不断提升,人的知识水平都会有提升。
因为机器是人控制的吗,当机器能控制人的时候就要担心了。我们做过图灵通过测试,能通过的不可怕,但是故意不通过的才更可怕。所以我觉得人工智能最终还是由人控制的,这个机器还是能设计的,所以最终还是服务于人的。
我是完全看不到机器人学习这一点,这是肯定不会的,机器最终还是人的很好的帮手。技术整个演变路线都是这样,就是让机器更好地为人服务。
我觉得像生物学习,有的人说是模拟了大脑,其实很多做深度学习并不认可,其实深度学习还是传统的统计学的方法,并没有模拟人大脑的运行机制。所以至于从人工神经元的方式,模拟大脑这种方式来实现智能这个路线还没有一个共识。就像我们看鸟飞我们很羡慕,我们是造一架飞机,而不是造一架人能飞的一样鸟一样的东西,而是我们掌握动力学那些知识。所以有时候仿生学,可能只是一种借鉴,如果完完全全走仿生的话可能会有争议。
最近东京奥运会被媒体宣传成为人工智能奥运会,因为毕竟东京奥运会还有四年吗。我特别相信 AR 、 VR 技术的进步,我相信在奥运会也会用到这些技术,可能会带来不一样的变化,但具体的预测拿不准。
我们一直追求的东西就是机器的自主学习能力,我们现在的学习是有监督的学习,我要把很多数据进行标记以后才能给机器使用。我们现在在做的是直接给数据,并不需要强制学习,更希望机器能以更低的成本学习更多的东西,可以促进智能的发展。这是我们目前一直在努力的方向,但目前这块还没有特别好的进展。
【无穷】我们在“无边世界”里发现“无穷创意”
无穷是搜狐科技主办的知识分享平台,我们将邀请知名企业家,科学家,社会名人分享对科技与社会的探索与思考。
合作联系:chenchengu@sohu-inc.com