人工智能还在风口,语音交互技术却开始被“唱衰”

猎云网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

人工智能还在风口,语音交互技术却开始被“唱衰”

语音是人类最自然、最重要的信息交互方式,得益于深度学习和人工神经网络的发展,语音识别近年来取得了一系列突破性进展,并逐渐成为各智能设备的标配技术。

据Research and Markets公开数据现实,预计到2020年,全球语音市场规模预计将达到191.7亿美元。为了争夺人机交互的下一个入口,互联网巨头开启了在智能语音市场疯狂的“军备竞赛”。

投资人“唱衰”语音识别,行业巨头加紧市场布局

人工智能还在风口,语音交互技术却开始被“唱衰”

面对各大公司在语音交互市场的明争暗斗,一向看好AI创业的李开复却泼来一盆冷水,他表示,语音识别是所有技术里面最不成熟的,99%的项目会死掉。

“语音的识别和理解完全是两个事情,我听懂讲的每个字不代表听懂了意思,所以自然语言理解到平台化使用还有十万八千里。”

无独有偶,新入局的互联网巨头Facebook也及时调整了其AI研究的战略方向。由于Messenger聊天 机器人 的错误率高达70%,在有人力干预的情况下,能够正确处理人类请求的概率不到30%,Facebook决定消减对机器学习和 人工智能 技术的投资,转向于训练Messenger聊天机器人专注处理一些特定的任务。

然而,行业其他巨头在语音、语义技术等领域的研发和创业势头依然强劲——苹果、亚马逊、谷歌、微软、三星、科大讯飞、百度和华为等巨头纷纷通过并购与自研推出自己的语音产品,加大市场布局。

2010年,乔布斯2亿美金收购自然语音应用软件Siri,随后又收购了英国语音技术公司VocalIQ来改进Siri,尽管Siri看起来更像iPhone可有可无的鸡肋存在,但苹果依然可凭借十亿级的设备数量以及HomeKit平台来争夺智能家居入口。

亚马逊方面,搭载人工智能语音助理Alexa的智能音箱Echo仅去年就卖出了超过650万台;随后,谷歌推出了家用智能硬件Google Home,作为智能家居的中枢控制音箱,用户可与之进行双向对话来调节灯光、恒温器等;

微软智能助理Cortana(小娜)后来居上,为提高语音识别精度,微软采用了神经网络来存储海量的数据,帮助识别软件更“聪明”地识别出人类语音表达的模式。

同样,三星于去年斥2.15亿美元的巨资收购了加州一家虚拟助手初创公司Viv,Viv团队就是苹果Siri的创始团队。据称,在处理复杂要求的能力上Viv比Siri更为强大,且具备更强的机器学习能力。

再看国内,科大讯飞旗下的讯飞开发平台是全球最具规模的智能交互技术服务平台,目前已为超过6万个App、以及8.9亿终端用户提供智能语音交互服务,占有中文语音技术市场70%以上市场份额。

百度是国内最早布局人工智能的互联网企业,不久前完成了对渡鸦科技的全资收购,并同时将原度秘团队升级为度秘事业部,加速人工智能战略布局。

此外,华为也在深圳组建了100名工程师团队,用于开发语音助手服务。尽管项目还处于早期研发阶段,但目标却瞄准了苹果Siri、亚马逊Alexa和Google Assistant。

市场日趋明朗化,但技术还不够强大

人工智能还在风口,语音交互技术却开始被“唱衰”

种种迹象表明,智能语音交互市场的趋势逐渐明朗化。相比5年前,今天的语音识别技术准确率已经提高了20%以上,但基于用户特定场景需求的逻辑理解能力以及成熟可靠的商业模式,依然距离遥远。

目前业内普遍宣称的97%识别准确率,更多的是在安静的室内并近距离靠近麦克风的场合。但在噪音或者远场识别环境下,错误率是近场识别错误率的近两倍。

例如其快速自适应的方法(unsupervised adaptation),比如面对口音、方言,机器或许一开始听不懂,但几句之后就能听懂了。这种方法在很多情况下能够提升语音识别率。

正如亚马逊Alexa负责人Toni Reid所说,“目前用户最大的期待,同时也是人机对话中存在的最大问题:语境。比如,我和你面对面交谈,很多视觉线索会告诉我你是否真的听懂了我在说什么,或者是否赞同我的观点。但是在人机对话场景下,这种视觉线索是缺失的”。从AI角度来说,补齐缺失的语境,是解决人机交互体验的当务之急。

即使是行业巨头的人工智能语音助理,基本定位也只是在信息检索、资讯收集等非常初级简单的工作,例如它们能够回答今天天气怎么样,但面对稍微复杂的问题,附近的麦当劳是否可以用微信支付等就无能为力了。

显然,无法根据逻辑进行多层次推演,就无法承担起更深层的服务。这也是我们看到即使是巨头研发的聊天机器人,都只能做到几轮对话的原因。

创业公司缺数据难拼巨头,切入垂直场景寻找方向

人工智能还在风口,语音交互技术却开始被“唱衰”

AI的基础是海量数据的支持,但这些资源通常都掌握在巨头手中。对于创业者来说,一旦科技巨头都开足马力,无论从用户、流量还是资本实力来比拼,都不在一个段位,贸然进入赛道,结果可想而知。

“现阶段,有能力做出以技术为平台的创业公司恐怕机会不多”,思必驰CMO龙梦竹告诉猎云网,“因为底层技术、语音大数据对于数据、文本的要求是很高的。但是,越细分越垂直机会越多。去年就诞生了大概二、三十家单独做文本、语义方向的团队。我认为瞄准一个方向,深挖一样有机会”。

三角兽科技就是一家基于语义打造人工智能交互系统的初创公司,COO马宇驰表示,团队目前专注于语义技术、开放域聊天和任务驱动的多轮对话技术。

马宇驰介绍,鉴于核心团队在度秘和小冰两个产品上的技术经验,三角兽积累了很多产品落地经验,且区别于百度和微软,团队在上下文、长时记忆、性格定制、情绪识别等方向有更多探索。

然而,无论是初创公司还是大公司,都面临着同样的问题——没有足够多且适合人工智能介入的场景。

据思必驰CMO龙梦竹介绍,“思必驰以前是做教育方向、口语评测的,2014年后,物联网的风潮刚刚起来,当时团队在教育方面的盈利很不错。但国内讯飞在智能语音和教育市场一家独大,创业公司无论从人力、资源还是业务的专注力上都难以企及,因此开始收缩业务,集中在垂直场景下”。目前,思必驰只专注于智能硬件场景的语音交互,如车载、家居和机器人等。

成立于2015年的海知智能是一家提供语义API开放技术服务的创业公司,团队将目标锁定在开放平台上,做语义垂直的一些细分领域。“不管是做实体机器人还是虚拟机器人,都必须选择从特定场景、特定用户、特定领域来做有限的服务”,CEO谢殿侠告诉猎云网,“巨头公司在数据库上的确有着巨大优势,所以我们目前只有在提供开放的平台下做垂直的细分领域,人工智能才能更好地不断学习,并且解决用户的实际痛点”。

对于语音交互场景的市场潜力,三角兽科技COO马宇驰认为将会在两个大的领域出现,“一个是在获取信息和服务方面,人工智能能提升效率,节省时间成本;另外就是从家居、车载方向切入,它能真正抵达用户,对用户进行教育”。

营销夸大,盈利维艰

值得注意的是,语音、语义识别技术虽然不断完善,但当前的产品体验层面并未令人感到满意。

由于语音在开放场景下识别准确率不高,导致后期纠错的成本更大,所以用户宁可选择已经非常友好的图形界面——通过文字推送或按键选择等设置完成任务。

技术的提升是一个方面,此外,用户使用习惯的养成还需要时间。三角兽科技COO 马宇驰表示,“以聊天机器人为例,纯聊天对于用户价值来说还偏弱,当我发现它不好用的时候,为什么还要在这里花时间呢?”

对此,机器学习与金融风险投资机构 DCVC 的合伙人 Bradford,前不久也在一篇博客中预测了2017年人工智能领域内的5大变化,其中就包括“bot”(包含语音和聊天功能的对话式界面)的机器人狂热将在2017年开始冷却。

事实上,从今年开始,几乎所有的硬件产品都打出了“语音识别”这张牌。某种程度上,更多来自谷歌、Facebook、百度等开源的深度学习的框架,以及高计算能力硬件获取成本的不断降低,为更多创业团队开辟了道路,但也使得项目鱼龙混杂,但凡能和“语音”扯上关系的,都声称自己是人工智能。

泡沫的另一方面来自巨头公司对于语音识别技术夸张的营销宣传,这令初创团队倍感尴尬和无奈。海知智能CEO谢殿侠告诉猎云网,“许多客户会问我们,‘你们的识别率是多少,人家的97%你们能做到吗’,我们只能说目前还无法达到那个级别。我认为,适当推广是好事,但过于夸大以致误导就会出现问题”。

根据艾瑞咨询最新统计数据,2020年中国人工智能市场规模将达91亿元,年复合增速将超过59%。看似庞大的数据,实则3年后,市场规模还不及共享单车市场的一个零头。这也就意味着,现阶段的人工智能还处于初级阶段。

语音交互无疑是继键盘、鼠标和触屏之后下一个人机交互的入口,但距离真正商用、产业化落地与人类生活密切关联还有很长的路要走。

微软亚洲研究院常务副院长芮勇说过一句夸张却清醒的话:“实现真正的人工智能大约要500年,你要让我在后面再加个0我也不反对”。

从当前来看,如果没有清醒的认识现状,在资本的疯狂助推下,创业者贸然入局会把AI的泡沫越吹越大。最终,“创业就去搞人工智能”可能只会沦为一个笑话。

 

解码人工智能·猎云网2017产业创新峰会 4月13日北京等你参加: http://www.lieyunwang.com/topic/summitai

297112

随意打赏

下一个风口在人工智能人工智能下一个风口人工智能 人机交互人工智能技术应用人工智能语音电视人工智能是风口人工智能 风口人工智能 交互智能语音交互唱衰中国
提交建议
微信扫一扫,分享给好友吧。