语音交互=人工智能?至少科大讯飞是这么想的
原文链接: http://geekcar.com/archives/36055
以技术为导向的发布会总是容易让人高潮。
在科大讯飞前一阵的新品发布会上,台上科大讯飞总裁刘庆峰「热情澎湃」的做着分享,而他们研发的转写系统实时的把语音转写成文本,然后投射到会场两边的大屏幕上。最后的结果是,对于这次活动的文本记录,这套转写系统的准确率,要远远高于科大讯飞请到现场的五个速记员。
(点击图片可以看大图)
这 x 装的,至少能给 99 分。科大讯飞用这种简单直接的方式展示了自己在语音技术方面的能力。估计就连对这家公司不了解的人,看了这个之后都会说上一句,「卧槽真牛」。(另外,大会的名字也挺有意思的,叫「AI 复始,万物更新」)
别以为语音和汽车八竿子挨不着。事实上,语音交互会是未来车内人机交互的重要形式之一,所以对于科大讯飞的这个发布会,我们还真挺想看看他们究竟能拿出什么东西来。
概括起来说,一个是讯飞超脑 2.0,另一个是 AIUI 平台。
技术+产品
讯飞超脑其实是一套人工智能的东西,官方把它定义为「以语音和语言为入口的认知革命」。在科大讯飞看来,「智能」包括运算智能、感知智能、认知智能,而认知智能意味着机器「能理解会思考」,它的核心能力包括人机交互、知识管理和推理学习。
那么,怎么判断「认知智能」的水平?科大讯飞准备在 3 到 5 年内,让机器人考上大学……
而 AIUI 就是把讯飞超脑的技术进行了产品化。这个平台其实是想做「万物互联」,我们身边常见的硬件设备、应用场景,都可以和讯飞的技术相结合。
在技术层面,AIUI 集成了双全工技术、麦克风阵列技术、声纹识别技术、方言识别、多轮交互、语义理解技术和和内容服务等等元素。AIUI 是针对 B 端的服务,供给企业、开发者使用,科大讯飞在这里强调的是软硬一体化、云端一体化以及技术服务一体化,B 端用户把它和自己的产品融合,然后就变成了 C 端用户可以感知到的「人工智能」。
现场演示了一个例子,工作人员和科大讯飞的智能音箱进行语音交互,音箱帮助她完成了订火车票的操作,其中涉及到多轮交互、纠错、方言、电话号码修正等等场景,实际的交互效果在我看来已经很像「人工智能」的感觉了。
和车有关的场景
语音交互体验是讯飞重点在做的事情之一,另一方面,由语音交互产生的各种应用场景,其实他们也有所考虑。举个例子,把小米的九号平衡车加入讯飞的语音交互等功能,就可以变成一个更智能化的平衡车,比如通过语音控制平衡车自动驶来,当然,脑洞还可以开的更大一点儿,比如和汽车结合起来,实现车库寻车等等功能。
刘庆峰也提到了科大讯飞在汽车行业的案例。他们目前为超过 50 款车型提供语音助理系统,其中有宝马、雷克萨斯这样的豪华品牌,也涵盖了国内比较主流的自主品牌。(自主品牌车型至少在语音系统上是不输合资、豪华品牌的,有的甚至体验更好)
上面提到的三个「一体化」,实际上还有另一层意思:科大讯飞并不想单单做一个「语音引擎」的供应商,而是把语音这件事放在一个更宏观的层面来考虑,因为从客观上来说,目前语音交互体验如何,也确实受到硬件、云端甚至服务的影响,一个打包的解决方案,可能在合作对接以及用户体验上更好一些。
说到这儿,可能你就不会奇怪,为什么一家做语音的公司,要开始涉足人工智能领域了。一方面,语音交互在本质上也是人工智能的一部分,通过语音衍生出来的场景也丰富多彩,另一方面,现在的「语音」,也已经不仅仅是我们从前理解的「语音引擎」这么简单,而是一个复杂的系统。
————————————————————
原创声明:本文为GeekCar原创作品,转载时请注明“转自GeekCar”及原文链接。
微信号:GeekCar,汽车科技新媒体,专注于智能汽车、车联网、新能源等前沿科技与产品。