搜狗COO茹立云:搜索未来将向各领域的智能助理演进
9月22日, 2016年腾讯全球合作伙伴大会在福州国际会展中心召开。百余名重量级嘉宾与万名参会人共同讨论、分享互联网发展趋势,科技前沿动态等内容。开发·应用分会场中,搜狗COO茹立云做了主题为“智能时代的搜索进化”的演讲,他表示:“AI的本质是内容与服务的人性化直达,而搜索是人工智能领域商业化前景最好的应用。借助人工智能,搜索将会有更加进阶的应用。”
“听说看懂动”:人工智能由多维度技术组成
在演讲开始,茹立云先分享了自己对人工智能的理解,他认为,“人工智能就是一种技术,这种技术是由多维度的技术结合在一起而成的。” 他将人工智能几大维度的技术与人类自身一一对应,解释到,“‘听’其实对机器来讲已经是一种基本技能,最核心的技术就是语音识别。第二种是让机器像人一样有‘说’的能力,学名TTS的技术,比如对已故名人的原声回放,就是TTS的作用。在‘看’方面,OCR(Optical Character Recognition,光学字符识别)可能有了99%以上的识别准确率,人脸识别上也产生了非常好的应用,但是复杂图片的识别目前来看还处于非常初级的阶段”
在理解和运动方面,茹立云表示人工智能目前进展相对缓慢。“目前人工智能还不能很好地理解自然语言背后的含义,仍需要做长时间的知识索引和知识计算上的积累,这也可能是人工智能最后要跨越的一个门槛。而让机器具有像人一样的运动能力,则涉及到控制和材料的突破,目前为止这方面进展也非常缓慢。”
茹立云总结说,“人工智能在记忆领域,特定领域和确定问题上会有明显的优势,甚至在这些领域里面会超过我们人类所具备的能力,但一旦到通用领域里面它就有它的局限性。”
搜索的下一步:向各领域的智能助理演进
当谈到人工智能的应用,茹立云表示,“搜索就是一种AI”。他解释道,目前搜索还仅仅只是通过关键词,给出一些相关链接,需要依靠用户自己总结问题并找到答案,但在未来,搜索会向着为用户提供精准答案演进,而这是所有人工智能需要的基础能力,所以说搜索是一种AI。“搜索未来的发展应该是以语音为核心交互入口,以自然语言理解和知识计算为核心能力,通过内容与服务的人性化直达,为用户提供精准答案,从而进化为智能助理。”
在他看来,“对互联网来讲,人工智能最相关、最紧密、最具有技术含量的就是智能助理,如果把智能助理升级,就变成智能机器人。它不仅能理解我们想要的东西,并且能作出相应的对答。”
茹立云谈到,“搜索是商业化前景最好的人工智能领域应用”,而基于人工智能技术,搜索在语音纠错、智慧医疗、拍照购物、对话系统等领域都有进阶应用。在演讲中,茹立云向现场观众展示了几段视频,对人工智能带来的搜索进化做出了详尽的说明。
语音纠错
2011年至今,搜狗已成长成为国内最大的语音识别厂商,那么更进一步的语音识别还可以做什么事情?茹立云指出,“虽然目前语音识别错误率已经从43%降低到了3%,但是还是会有错误,我们就会思考:怎样让这种错误的纠正变得更加的智能?”他展示了一段搜狗语音纠错的线上演示视频,通过用户与机器的自然交互修改输入的内容,让语音识别这个领域发展更进了一步。
智慧医疗
结合图像识别技术,搜狗在智慧医疗方面也做了很多尝试,比如中医识方与舌相诊断。茹立云认为这一部分的尝试“一方面,可以通过智能诊断,让有限的资源更好解决更需要解决的问题,从而扩充医疗资源;另一方面,也能降低部分疾病的首诊误判率。”
拍照购物
将图像识别技术与时尚领域结合在一起,就是搜狗搜索的拍照购物功能,“我们拍摄别人的穿着搭配并上传,机器会对图像进行识别处理,找到相同或相似的衣服,并给出购买链接。”
智能导航
智能导航则综合了机器的语音识别、语义理解、精准地图导航等多项能力。“我们现在使用的导航还只是从某地前往目的地的简单路线规划,但当导航结合人工智能技术进行产品升级,我们会发现,它不仅能听懂我们的话,还能为我们做更多的事。”
对话系统
在智能导航之后,最智能的体系还是智能助理。茹立云表示,作为国内第一家提出类Siri产品的公司,搜狗在这方面已经有了许多积累和尝试。他展示了一段与人机交互的对话视频,视频里,机器人不仅能做知识上的推理、挖掘,同时也能和用户闲聊。
茹立云认为:“搜索问答技术可以为搜狗后续人工智能领域的所有产品,比如智能导航、智慧医疗等所应用。它背后不仅仅是技术积累,还得有大量的数据和服务的积累――而这些数据和服务通常只有搜索引擎公司才能具备。”
搜索天生具有的人工智能基因,以及对于人工智能技术十余年的积累,让搜狗可以在人工智能技术的演进中,紧跟发展,应用技术改善各方面产品的同时,能在一些新的领域中有所突破。演讲最后,茹立云表示,“搜狗也愿意将技术开放给合作伙伴,不断探索怎样更好地使用这些技术,从而改善、改进我们的生活。”
以下为演讲全文:
茹立云:各位朋友,大家下午好!
这里纠正一下,搜狗不仅仅是做输入法的,同时我们是国内第二大搜索引擎。我今天讲的这个话题会比较多的跟搜索有一定的关系,当然,无论是刚刚,还是之前大家听得比较多的一个词,在今年就是人工智能。随着智能时代的到来,其实大家对它又是憧憬,又是迷茫,我每次碰到一些朋友他们都会问,你们人工智能在做什么?人工智能到底是什么?又有什么可以做的?未来会往什么样的方向去?这也是我们在思考的,也在实践的,我也希望今天把我们的一些思考和实践分享给大家。
人工智能并非是一个新的概念,今年是人工智能提出60周年,在这60周年里面人工智能技术也在不断演进,也经历了非常多的跌宕起伏,我们生活中有非常多的产品体现它的智能性,人工智能在大家的心目中,如果它已经成熟了就是理所当然的,如果没有成熟就是非常神奇的。人工智能与我们的生活联系是非常紧密的,最简单的邮件系统会有提示垃圾的系统,它非常智能,包括导弹方面都会用到人工智能技术,还有工业里面都会应用到,只不过到今天由于一些技术的成熟,以前在实验室研究了50、60年的技术,到今天逐步成熟,对它产生的更大的期望,未来对人工智能的期望是怎么样的?我觉得有一个动画片展示了对它的一个设想,我们先来看一个动画片。
所以我们看到,其实我们对于未来人工智能的一个期待更多是对强人工智能的一个期待,我们希望机器具有各个方面的能力,甚至在某些能力上能力超过我们的人类,比如说在听、说、看懂,以及语音这一块都能超越人类的能力。对我们来讲,听其实对机器来讲是基本技能,并且在今天成为了一种现实,最核心的技术就是语音识别,尤其是一些简单场景下的单人的语音识别,现在准确率是非常高的。我们知道在20年前语音识别的单字错别率在40%以上,而今天错误率已经降了3%,达到了使用的可能。第二种是让机器像人一样有说的能力,就是TTS的技术,我甚至可以模拟明星、名人原声回放,都是TTS的作用。怎么样让机器人像人一样看懂这个世界,也是非常具有挑战的,有一些层次上的东西非常简单,比如说OCR,可能有99%以上的识别准确率,人脸识别这一块也产生了非常好的应用,但是复杂图片的识别目前来看还处于非常初级的阶段。我们希望人工智能是一个巨人,但是它在某一个阶段还是一个婴儿。
我们会看到一些产品的出现,包括一些语音的对话,但是它们并不能很好理解你背后的含义,这里面就需要做非常长的知识索引和知识计算上的积累,这可能是人工智能最后要去跨越的一个门槛。而另外一个方面,让机器具有像人一样运动的能力,我们看到这一块也是进程非常缓慢的,可能非常有典型(进展意义)的就是谷歌的(机器人),但是像人一样运动是非常难的,这涉及到控制和材料的突破。这一块我们看到到现在为止进展非常缓慢。
我们看人工智能这几年为什么会非常火?尤其这两年,核心上面是三个方面的进展。一个是数据的突破,第二块是计算能力的突破,随着20年整个互联网,以及移动互联网的发展,人类所具备的很多知识和经验在互联网上有大量的沉淀,随着这种沉淀,使得我们的一些算法变得效果越来越好,比如像刚才提到的语音识别,准确率或者它的错误率已经从40%多降低到3%,随着准确率提升变成应用就成为可能,这种可能出现之后有让我们使用这些应用,进一步产生更多的数据,不断迭代,使得效果越来越好。另外一方面我们的计算能力产生了非常大的变化,没有计算的提升要去完整一个复杂的问题是不太可能的。另外一方面正是数据和计算能力上面的不断提升,使得我们在90年代一些成熟的算法开始发挥它的作用,像深度学习,从后台开始走向前台,使得我们能够做更加复杂的功能,深度学习在各个领域里面都取得了非常好的成功。比如像语音识别,图象、自然语言处理,甚至计算机控制都取得了非常大的成功。
人工智能更加走到了我们日常生活里面,但是我们也非常遗憾,现在人工智能的一些算法的突破是非常有限的,从而使得面对一些复杂问题的时候我们其实是很茫然的,比如像非常复杂的无人驾驶,它虽然在理论上来讲,出现车祸的效率,或者出现车祸的概率已经低于人类开车的概率,但是我们有没有自信把自己的选择权交给一个机器,让机器在不可知的状态下作出我们可能会恐惧的选择,这种理论上没有突破的话,对某些复杂领域,尤其是道德领域是非常有挑战的事情。
回顾最近这些年的发展,我们发现人工智能其实在一些的特定领域是非常擅长的,但是在一些特定领域里面又有它的不足之处。对比记忆和理解,机器它本身就有记忆上的优势,很多现在进展非常好的都是由于机器记忆能力的擅长所导致的,比如像语音识别,就是非常典型的例子,而在理解这个层面就会困难很多。另外一些方面,比如说机器在一些特定的领域里面可以做的很好,比如我们认为人类智力巅峰的围棋它都可以战胜,但是一定到通用领域就非常为难,这个(用来下围棋的)程序没有办法帮你下象棋,这个程序也没有办法帮你打麻将,甚至各种棋类。所以通用这个方面,现在人工智能还有它的局限性。当然整个这个领域的科学家都在往这个方向努力。
另外一个方面对一些确定性的问题,人工智能会很擅长,人脸识别就会非常容易,某些方面超过人类顶级专家,但是一旦到开放领域,像我们看到一幅图片,你在路上走,看到一个朋友,那么大的一个场景下你能够很快识别你的朋友,但是要把这个场景交给机器就非常困难了。另外在这个场景上做车的识别或者其他物体的识别交给机器做,它很难找到里面关键的点。所以人工智能在机器领域,记忆领域,特定领域和确定问题上会有明显的优势,甚至在这些领域里面会超过我们人类所具备的能力,但一旦到通用领域里面它就有它的局限性。
其实人工智能是一种技术,但这种技术又是由多维度的技术结合在一起,把这些技术结合在一起之后我们才能产生一些产品,而所有的产品其实都是人工智能技术一个综合应用的产品,比如说我们会看到,之前非常火的,像智能助理,涵盖了人工智能里面非常多的技术,像语音的技术,计算机识别的技术,决策分析的技术,而自动驾驶和机器人,还要覆盖控制相关的技术,甚至一些非常简单的,比如说我要做一个博弈的工作,里面也会涉及很多的技术。而我们现在当前面临最大的问题,像医疗资源的不足,我们想去做智能诊疗方面的工作,它又会涵盖我们相关的所有的技术,所以这个图只是举了人工智能领域的一些应用,而这些应用需要大量的技术支撑,而有些应用它需要的通用性又是不一样的,而不仅仅是现在成熟的技术,我们需要逐步往里面去解决去克服。
其实讲了这么多,之前更多是对于人工智能理解的一些认识,而搜索其实是人工智能领域里面到目前为止,我觉得是最成功,也是用户基数最大,商业化前景最好的一个人工智能的应用,所以我们说搜索就是一种AI。搜索很简单,一个关键词出来我给你一个结果,但是它背后又不简单,它要做海量数据的处理,处理完以后还要对你的(搜索内容进行)理解做匹配,搜索也要进行演变,以前是关键词进行搜索,现在可能更多用自然语言的方式进行搜索,并且搜索已经不仅仅是打字,变成语音,变成图像,甚至变成一段视频的方式去搜索。未来搜索会怎么演进?搜索之后更多是给你想要的答案,所有一系列的产品都在往这个方向做发展。比如像Siri看到了这样的方向,Cortana也看到了这样的方向,只是现在做的不够好。Echo也看到了这样的方向,它选择了垂直的领域,它在一段时刻内可以成为一个现象级的产品,但是它背后没有搜索技术支撑的话,我觉得它前进的道路也是路漫漫的。所以搜索最终的演进是往精准的答案去走,这又是所有人工智能需要的基础能力,所以搜索是一种AI,AI能帮助搜索,同时(搜索)能促进AI的发展。
我们也看到,刚才有很多的方向,人工智能其实是可以去应用的,除了刚才列出的一系列方向之外,还有很多方向。像刚才说的更高级的,现在军事里面有大量运用人工智能的技术,未来的战争可能不是战士参与战争,而都是无人机、无人坦克、甚至无人潜艇,所以在各个领域里面其实有广泛应用。
但是我觉得对互联网来讲,人工智能最相关、最紧密,最具有技术含量的就是智能助理。因为未来互联网入口不仅仅是PC入口,手机入口,今天早上讲到的很多VR入口都会成为互联网的入口,像眼镜,甚至现实增强的一些入口,都会是搜索的入口。里面交互的形态,可能已经不再是通过文字交互,而是通过语音去交互,甚至通过图像去交互。通过这些交互形态输入之后,最后我们想要的可能不是十条链条,而是一个精准的答案。所以搜索引擎会是一个智能助理的形态,并且最终给你的是一个精准的答案。因为在VR设备上,比如在眼镜上点播四条结果,这四条结果还不是你想要的。另外对搜索引擎来讲,或者对AI来讲最本质的事情就是理解用户的需求,并且给你想要的内容,让这些内容个性化的指导。我们的应用宝也在做类似的工作,我们也可以定义成是垂直领域的搜索引擎,或者AI的垂直应用,它能分发所有的应用,分发所有的内容,分发所有的服务,所以这一块是未来非常重要的体验。如果把智能助理升级,就变成刚才看到的智能机器人,它不仅能理解你想要的东西,并且能给你想要的展示,能给你做相应的对答。
基于之前技术的研发,我们也在做做很多新的方向的尝试,比如说智慧医疗,跟一些电商的结合,像各个领域的智能助理的演进。搜狗语音识别从2011年开始做,现在成为了国内最大的语音识别厂商。基础的语音识别我们做了很多工作,更进一步的语音识别可以做什么事情?语音识别错误率已经从43%降低到了3%,但是还是会有错误,怎么样让这种错误的纠正变得更加的智能?我们做了一种用自然语言的方式去做这种错误的纠正,下面是我们的一个产品的线上实际的演示,请看一下我们的视频。
我们做的一个工作就是在语音输入有错误,或者做输入的时候还没有想清楚的时候,你还可以对这段内容用语音的形态做修改或者做纠错,使得整个交互更加智能,所以称为自然交互体系。其实在语音识别这个领域里面我们又前进了一步,使得交互即使错误了,还能很方便得进行纠错,也能跟各种场景做各种结合,尤其是未来非屏幕的时代,比如说智能家居,这种纠正就会变得更加自然和贴切。
另外一方面,我们在智慧医疗方面做了很多尝试,结合我们之前图象识别里很多知识的积累,以及我们在自然语言上的处理,我们做了智慧医疗方面的尝试。大家知道目前中国其实面临很多的医疗上的问题,尤其是医疗资源的不足。医疗资源的不足,不是短时期能够解决的,之前做的很多医疗创业最后都会非常艰难,因为它没有解决本质问题。本质问题是怎么让医疗资源扩充,或者怎么样让一些疾病或者说并非疾病的自认为疾病不需要到医院去,自己通过信息搜索就可以解决了。
一方面我们在中医里面做尝试,另一方面也在西医里面做尝试。目前中医诊疗人次在不断上升,我们在中医里面会碰到一个问题,医生给你开了一个处方,你根本看不明白,不像西医给你一款药,有说明书,但是中医的处方其实是很痛苦的,比如像这么一个处方,医生给你开出来之后你根本不知道这是一个什么样的方子,另外一个我们中医的水平差距非常大,名医很厉害,但是普通的基层大夫可信吗?你未必放心。我们做了一个中医识方,后面用了一些OCR(Optical Character Recognition,光学字符识别)技术、大数据处理的技术,把这个处方录入到APP里面,我就能够进行自动的识别,告诉你这个处方其实是来自小青龙汤,小青龙汤又是什么,我可以告诉你这是伤寒论里面非常经典的方子。所以通过这么一个产品,用户,包括一些基层的大夫,他们能够去理解自己收到的处方或者看到的处方,从而能够提升用户看病的明白性,促进基层大夫医疗水平的提升,所以这一块也是我们在做的一个事情。
另外一方面,我们也希望在中医领域做的更多,比如像舌诊做了一些尝试,今年G20期间,我们国家上演了《智慧中国》的纪录片,里面有关于舌诊的一个片断,下面请看一下这段视频。
这是我们在中医里面的一些尝试,有一些还在尝试阶段,我们希望古老的中医有更好的发展。另外我们在西医领域做了大量的尝试,现在国家也在推进分级诊疗的体系,怎么样让有限的资源更好解决更需要解决的问题,智能诊断的这些工具也是里面非常重要的。另外我们也会把我们刚才提到的很多图象的技术跟一些疾病的诊疗结合在一起,比如像癌症自动诊疗,能够解决这种首诊的误判率,我们也做了很多尝试。
另外一方面我们不仅仅把它应用到医疗领域里面,也可以跟一些时尚的领域结合在一起,比如说现在消费在升级,有些人可以基于APP在平台上选购一些产品,但有些人未必有这么一种品位,或者灵感,如果他在大街上看到一个人穿了一件衣服,或者在电影上看到一个明星穿到什么衣服也想买的话,我们可以通过图象的技术实现这样一个功能,接下来我们来看一个视频。
所以像人工智能的技术其实可以跟我们很多生活结合在一起的,这也是我们非常大的一个需求。另外我们还可以做更多的事情。虽然说像无人驾驶面临很多的问题,因为它里面会涉及到选择权交给人还是机器的问题,但是在一些特定的场景里面,比如每天都要用的导航怎么样让它更加智能,这一块结合人工智能的技术可以有产品升级的,我们也来看一个视频。
所以像导航,我们每天都在用的这么一个产品,它可能未必需要那么难用,那么枯燥,它可以理解你一些背后需求的含义,比如你说一个航班号,它能告诉你航班当前的状况,从而使得你的出行有更好的安排。当然更进一步的,我们会看到刚才提到的最智能的体系,或者最终极的体系,就是对话系统或者智能助理,搜狗在这方面有很多的积累和尝试。我们是国内是第一家提出类Siri产品的,这一款产品的技术可以为后续所有人工智能领域的所有应用,比如像智能导航里所用,能为智慧医疗相关的产品所用,能为音响的系统所用,所以这一块也是最终极的技术积累,它背后不仅仅是技术积累,还得有大量的数据和服务的积累,而这些数据和服务通常只有搜索引擎公司才能具备。我们也做了一个非常简单的Demo。
它不仅能做知识上的推理、挖掘,同时也能够跟你闲聊。
最后总结一下,整个人工智能的发展它其实是技术不断的演进,用这个技术可以做大量的产品,一方面可以改善我们各方面产品,另外一方面我能够在一些新的领域里面有新的突破,比如像智慧医疗,甚至现在比较火热的智能图库,都能够用人工智能技术做很多突破。而对搜索引擎来讲,这些技术我们已经积累了10年,甚至20年,它变成一个自然而然的延伸,当然我们也乐意把这些技术开放给我们的合作伙伴,如果大家有需求可以继续来探索,怎么样更好的使用这些技术,从而来改善、改进我们的生活。