总理和百度的小度机器人是如何对话的?
10月19日,总理再次来到创业展示中心,在李彦宏的陪同下与百度的人工智能产品小度机器人进行了一次“深度交流”,根据新闻稿,对话如下。
百度人员:小度,你知道总理是谁吗?
小度:国务院总理是李克强,这谁不知道?
李总理:你为什么叫小度?
小度:百度研发的嘛。
李总理:你储存了多少个句子?
小度:好多好多的。
李总理:不愿意说具体数字是保守秘密吗?
小度:特别大呢!
李总理:你知道大众创业、万众创新也有利于改善环境吗?
小度:当然啦。
北京市长王安顺:你对北京城市管理有什么意见?
小度:不堵车吧。
表面上李克强总理好像是在和小度机器人交流,一问一答,但实际上背后所需要用到的技术远比看起来复杂得多,这背后到底是如何运作的?这种技术正在展现怎样的科技未来?我希望能够以我的理解带来一些解释。
一, 小度怎样实现与总理的深度对话?
现在我们还原整个流程,当总理问“你为什么叫小度?”时,小度就开始运行了。
第一步,语音识别, 对于人来说接收到的语音可以立马转换为文字信息,但是对于机器来说接收到的则是数字信号而已。当总理问“你为什么叫小度”时,“NI”这个发音可以是“泥”也可以是“逆”,所以最终要确定是哪个字还需要语音技术来实现计算概率的最大化。
第二步,更为核心的自然语言处理技术(NLP), 当机器获得总理说的话之后就需要进行理解,对于我们人而言听到一句话并理解是一件非常理所当然的事情,但是对于机器来说就很麻烦,比如当机器收到“你为什么叫小度”这句话后,要判断意思到底是“你的名字为什么是小度”还是“你为什么呼叫小度”,这种语义理解困境会在语义理解中反复出现。
自然语言处理技术(NLP)正是针对这一问题,2010年国际自然语言处理专家,王海峰博士加入百度,对NLP发展进行了一次系统性的梳理和规划。百度将NLP各项技术应用到复杂长查询的意图分析问题,当搜索“宫崎骏的电影”时,在之前只会搜出一堆网页,而现在的百度会默认给出所有宫崎骏的相关电影,用户可以直接进入观看。其次当用户搜索“感冒可以吃螃蟹吗”这类不确定性问题时,在传统搜索时代同样只会给出一堆网页,而目前则是基于深度问答技术自动汇总网上的大量知识,并得到更加精炼、全面性的答案,更为高效的帮助用户决策,而不是直接给出一堆不确定性的网页让用户不停打转。
简而言之,自然语言处理(NLP)技术是不断去分析用户搜索意图,通过反复学习与大数据分析来给出用户最优的答案,而目前百度的NLP技术集中体现在搜索上,所以此次小度能够较为准确的回答总理问题并非一朝一夕之事,而是长期积累后的结果,并且依然在不断的发展中。
第三步,机器学习技术, 现在当机器理解完这句话的目的之后,就需要为其提供答案,通过全网大数据为总理提供答案,如果总理是百度的老用户,并且使用次数越多,那么百度就会根据其用户历史行为记录,给出更为精确的答案。
根据百度2014年数据,10PB的网页数据(1PB=1024TB),关键搜索的平均响应速度仅0.3秒完成,这需要海量的集群服务器才能做到,这种大数据挖掘的有赖于机器学习。
而在自然语言处理(NLP)技术方面已发展的成熟性则是小度机器人深度问答的重要基础。例如,当北京市长王安顺问:“你对北京城市管理有什么意见?”,得到的答案已不再是互联网上五花八门的答案,而是一个统一的答案“不堵车”,这是NLP深度问答系统自动对网上大量相关知识、观点进行自动分析、抽取、统计而得到的结果。从小度机器人身上可以看到,小度在一定意义上正在突破传统“搜索引擎”的概念,因为它不仅搜索信息,而且还生产知识。
深度问答技术的研发过程很复杂,一个完整的深度问答系统需要多项NLP技术组合而成,从问题分类到需求解析,从网页检索到知识库查询,从信息抽取到答案排序……每一个环节都需要达到很高的精度,才能使得最终搭建起来的问答系统准确地理解问题并给出答案。所以,小度这一产品是通过各种技术的组合与叠加,对用户体验的全新升级。
二, 小度机器人在百度的战略地位是什么?
当我们聊起人机对话通常会想到的是图灵测试,但事实上图灵测试的目的是机器是否能够具备人类思维,而小度的目的则是帮助人解决问题,这也与李彦宏的理念有关, 只专注能够为人带来真正价值的技术 。
在百度所有申请的专利中,向媒体对外公布的专利只有两个,第一是李彦宏创立百度时所用到的“超级文本链接”技术,该技术是百度能够走到今天的关键因素;而第二个公布的技术则是小度的人工智能专利,侧面说明了小度对于百度的重要性。
而这种对于人工智能的重视并非停留在虚无缥缈的口头层面,百度正在 全面落实人工智能的落地应用 。目前度秘已经接入手机百度,而且还可能计划接入百度地图、百度糯米,多个平台的用户都可以通过向度秘起各种请求来完成所需要的服务,实现由点到面的整体性串联。
回看小度的推出也是有其整体逻辑,百度属于技术型驱动型公司,其核心是为用户提供信息搜索服务,在PC时代还是移动时代,其努力的方向依然是 让用户便捷获取信息甚至服务 ,而未来的人工智能时代会将这种加速带到全新的高度。
人工智能也是国家“互联网+”战略的一个重要组成部分,总理在今年3月6日的政府报告工作中第一次提到了将“互联网+”放到国家战略层面,而今年李彦宏也在两会中提出“中国大脑”计划,两者不谋而合。而李彦宏也说百度这几年正在专注的“百度大脑”也是“中国大脑”的迷你版,随着未来计算能力的增加以及成本的降低,曾经不能做不敢做的事情都将变成现实,未来的人工智能也将更加无处不在。
结语:小度是一个综合百度各方面人工智能技术的合体,代表着未来人工智能将人类生活由点到面连接的可能性,而现在的人工智能就在像当年的互联网一样,正在不知不觉的进入我们生活,至少,现在连总理也开始关心了。
更多思考,我的微信公众号:shouxifayanzhe