智能语音助手,将在哪些场景引爆?| AI 龙门阵
智能语音助手领域又是否只是巨头的游戏?
6月24日,人工智能先行者大会暨黑马大赛人工智能分赛在京举行,近千名人工智能产业相关创业者、投资人、产业专家参会。本次活动由创业黑马与人工智能新媒体平台黑智联合主办,联合冠名商摩比神奇与战略合作伙伴铂诺对活动进行了支持。
2011年,苹果iPhone4s带着Siri问世,但Siri在激起了用户短暂的兴趣后,如今更多地是成为被“调戏”的对象。但智能语音助手的发展之路并未停歇。基于亚马逊语音助理Alexa的Echo在美国成为使用广泛的智能家居产品;Google推出搭载了Google Assistant的Pixel手机以及Google Home,在今年,微软和苹果的智能音箱先后面世,三星也将自主研发的语音助理Bixby作为未来的重要产品之一……智能语音助手,将借助智能家居和移动设备,迎来新的爆发点?
在大会下午场的场景龙门阵论坛上,出门问问CTO雷欣、奇点机智联合创始人兼CTO林德康,以及助理来也联合创始人、CTO胡一川,在黑马学院副院长、丰厚资本创始合伙人杨守彬的主持下,共同讨论了智能助手的现状和未来发展。
以下是论坛内容节选,经黑智编辑:
为什么之前的语音助手用不起来?
杨守彬: 先请大家做下简单的自我介绍。
胡一川: 我是助理来也的联合创始人,助理来也是一个传统的企业助理或者秘书在线化产品。今天我们通过微信的服务号提供助理的服务,已经覆盖了中国的大部分城市,有超过200万的用户。
雷欣: 我是出门问问的CTO雷欣,我本人回国之前在Google研究院做语音识别相关的工作,是当初的Google波一奢侈这个团队的创始成员之一。回国之后我在出门问问带领后端的AI团队,做语音交互的产品。
出门问问是2012年10月份创立的,刚开始我们是做出门问问语音助手、微信号,到2014年的时候我们开始做可穿戴方面的落地,在2015年我们做了Ticwatch智能手表,2016年开始探索智能车载领域,做了第一个车载产品——智能后视镜。今年,我们开始涉足智能家居领域,会出一个类似Echo的智能音箱产品。(黑智注:出门问问的虚拟个人助理已在今年4月推出)
林德康: 我是奇点机智的林德康。在加入奇点机智之前,我在Google是网络自动问答团队的创始人和技术领导。起点机智做了一款叫“小不点”的语音助手产品,跟其他的语音助手最大的不同是,我们可以直接对接第三方应用,现在可以接入的如微信、支付宝、大众点评等应用超过100个。
杨守彬 : 智能助手为什么之前并未实现成功的突破?它从概念到全面在生活场景中落地大概还要多久?未来3-5年,智能助手在哪些真实的生活场景中,能够给我们提供怎样的帮助?
胡一川: 几年前iPhone4发布时就有siri功能,但是在过去的几年中,Siri并没有成为一个很成功的产品,我认为原因有如下两点:
一是在技术方面,还没有取得非常大的突破。现在的技术还无法打造出一个什么都可以回答,什么都能够理解的智能助手产品。
二是用户认知层面,不是所有的用户在所有场景下,都能自然地想到,自己可以通过对话的方式同手机、智能设备进行交互。而这几年时间业内都在培养这种自然。
至于在未来3-5年的什么场景下会落地?从助理来也的观点看,现在在线化的场景下很多沟通是很容易落地的。
如今微信已经成为通信基础设施的情况下,以前很多发生在线下或者电话里的沟通,慢慢转移到了线上,这就是在线化。 我相信今天在座微信里可能都会有几个房产中介、理财顾问、孩子英语老师的微信吧。
助理来也今天做的也是类似的事情,我们把传统企业秘书或者公司助理做的工作搬到线上,通过微信或者其他平台,让我们的用户可能只需要花雇一个真人助理二十分之一、三十分之一的价钱来拥有一个在线助理。同样的工作,它能做得和真人一样好,这便极大提升了产品的价值以及背后服务人员的效率。
所以我认为,在未来3-5年任何在线的沟通和已经发生的场景,都是适合这样的智能助手产品落地的。
杨守彬 : 你预见一下在未来多少年内,公司高管的助理有一半会被智能助理替代?
胡一川: 我觉得未来五年之内会实现。
主持人: 如果五年之内高管的助理将被集体替代,那这些失业的人怎么办?
胡一川: 不是100%被替代,比如一个公司高管的业务助理就不可能被替代,这种职位需要对公司业务有非常深刻的理解,这件事情机器做不了。
而行政方面的助理,比如安排出行,预定会议等等这些事情是可以被机器替代的。而现在做这些工作的助理,可以去做更高级的事情。
杨守彬 : 我觉得很不可思议,我小时候,随处可见纺织厂,他们会雇用大量的纺织工人。但是每一次技术的升级,都会造成大量失业。现在纺织工人已经完全被机器所替代,人的工作都被机器取代了,是很可怕的一件事。
雷欣: 实际上人工智能语音助手怎么去落地,也是我们创业近5年来一直在探索的过程。
我们最开始做的是手机APP语音助手,做了一到两年后我们发现,我们曾经总用户激活量到达已经几百万规模,但是真正用户的留存率非常低。我们花了各种各样的资源获得了大量用户,但是这些用户用了一次两次之后不再用了。
这说明语音助手在手机上落地的方式是行不通的。在Google的时候,我们在安卓上做了Google Now语音助手,通过内部数据我们发现,通过Google Now进行搜索的比例,大概只有5-10%,它的留存率也不高。
我们分析发现,在手机这个场景,用户首先要有替代的方式,要有很方便触屏的输入方式。他已经有了这样一个习惯,习惯一旦养成再改变就很困难。所以我们在2014年就开始想有没有更好落地的场景。
正好在2014年Google I/O上,Google发布了Android Wear智能手表操作系统,那时候我们觉得手表是语音交互落地第一个最好的场景。从技术角度来看,虽然当时深度学习获得了长足的进步,语音的识别率大幅度提高,但是实际上语音识别鲁棒性的问题,一直没有得到很好的解决。比如在不同的噪音环境下,不同的方言环境下,不同的人来做识别,效果都会大相径庭。
而智能手表有效地解决了下面几个问题: 第一,手表可以随时凑到嘴边近距离说话,解决了远场的问题,把识别准确率提得非常高;第二,一致性非常好,它的距离不会变化太远。 智能手表还有一个痛点是屏幕很小,用户很难进行键盘输入,语音就成了比较好的交互方式。
因此,我们当初选择在智能手表方面落地。
在探索一年之后,我们开始做更复杂的场景——车载。用户在车上首先面临的是安全性问题,用户不能一边开车一边回短信微信,在车上用户想要的是无手无屏的交互。此情景下,语音交互既方便又安全。
我们认为,车载在未来甚至会变成比其他的场景都大的语音交互落地的方式,随着无人驾驶等技术的逐渐完善,用户有更多的时间通过自然语言交互获取服务、获取信息,或者进行其他操作。
第三个场景,我们现在正在探索,也是全世界各大巨头正在探索的智能家居的场景。这在技术上也是最具挑战性的场景。
可穿戴设备离主人嘴的距离是非常固定的,车载场景也是固定的,局限在车内空间。但是在家居场景中,不同用户房间大小是不一样的,混响、音箱距离也不一样。所以在技术上的挑战也最大,但是我们相信家居是一个更大的市场,每个家居都需要这样的设备。
林德康: Siri发展这么多年使用率还不高,我觉得原因是Siri可以被使用的场景太少。
所以我们最关注的,是增加手机助手的功能,让它能帮助用户解决更多的事情。让用户随时随地想到使用手机助手,让用户养成使用助手的习惯。
回到你的问题上,我觉得CEO的助理是不会被手机助手所替代的。手机助手是使得现在没有助理的人,能够有一个很方便的助理帮助他做事情。比如用户要交水费的时候可以对手机说,交水费,然后智能助理帮助用户完成这件事。智能助理要做的是让用户能够更便利,更充分地使用线上的资源。
杨守彬 : 你们觉得未来智能助手,是会实现通用的,还是在不同垂直领域内存在各自的智能语音助手?
雷欣: 在很长一段时间之内,大家都是百花齐放,各种不同的助手在市面上,大家自己选择自己喜欢的助手。但从另外一方面来讲,我认为有必要有垂直领域的助手。
从技术上来讲,机器学习、人工智能跟其他功能性的东西不太一样,它非常强调学习的过程,训练跟实际使用场景越匹配越好,做得越通用,就代表在某一个垂直领域做不到最优。
而我们就是希望在某一个垂直领域做深度优化,在这个领域做到最好,为用户带来优质的服务和体验。
胡一川: 我很同意雷欣的看法。最终可能会有一个通用、无所不能的个人助理,可能我就是挂在耳朵旁边的耳机,我可以时刻跟他对话,完全是个性化的,但是这需要很长的时间,我觉得可能10年内都不一定能够实现。在未来的10年,我们这些创业公司做什么?我觉得其实是在寻找那条路径,还是在不同的场景下,不同的领域内,确定这个产品的边界,然后在这个边界内,用技术解决能够解决的问题,提升这个领域内用户的体验。
巨头环绕,何去何从?
杨守彬 : 现在智能助手领域巨头环绕,创业公司在这些领域中的机会是什么?面对巨头又该如何竞争?
胡一川: 整个智能助手行业还处在初期阶段,今天巨头进来,跟我们创业公司应该说在同样的起跑线上。我觉得这个行业未来5-10年才会发展起来。
作为创业公司,我们更多的是开放的心态,在这个生态里跟大家合作。举个例子,就助理来也而言,我们去年的A轮融资投资方是微软,微软之所以选择投资我们,或者我们更愿意接受微软的投资,也是因为我们希望跟巨头在这方面合作。
微软的小冰,更多是偏娱乐型的闲聊机器人;cortana,则更多是偏效率型跟Siri或者Google Assistant对标的全自动机器人。
助理来也做的事情则更垂直。我们在企业秘书这个行业里做得更深,让那些在现实生活中不能雇一个真人秘书的用户,能通过我们的产品享受在线秘书的服务。
这样的产品跟巨头的产品有很大的互补性。比如,我们可以跟微软的小冰或者小娜进行合作,他们选择闲聊或者简单的指令,我们负责更深度的、更偏场景的需求满足。
所以在目前这个阶段, 创业公司要专注在各自的领域把产品做深、把用户体验做好,跟巨头相比并没有太多的劣势,甚至可以跟巨头合作共同做好这个市场。
雷欣: 巨头来做人工智能项目会给创业公司带来一定的压力:
一是对人才的吸引,巨头比创业公司更具吸引力,对于创业公司来说,人才资源的缺乏,对公司发展速度等各方面都会产生影响。
二是巨头公司拥有大量的资源 ,比如音乐资源、视频资源等等,在人工智能的服务对接方面,如果没有这些资源是很难持续进步的。
但从另外一方面看,巨头想做的人工智能项目一般是大而全的,希望全方位解决问题。所以创业公司可以做比较聚焦、比较垂直,做的更加细致、深入,放弃在通用领域的优势,转向垂直细分的场景,这就是创业公司的机会。
另外一方面,可以把我们的领域做得重一点。像出门问问最开始只是做语音助手,后来开始做智能硬件,把手表从设计到供应链、市场、销售等等全部做全了,这也是被逼的,做得这么重。 但是做重的好处就是,它的壁垒相对会高,作为一个小公司来说更加敏捷。大公司分不同的部门要跨部门协调,这本身就很困难,所以小公司的敏捷性也有一定的优势。
林德康: 大公司虽然拥有大量数据,但数据也不够精准。我在Google想做助手的时候,就很难找到助手最需要的数据。
再比如Siri,用户使用的主要场景是闲聊,那么企业拿到的数据就是闲聊的,这种情境下企业看不到用户真实的需求,从这个意义上讲,小公司跟大公司还是在同一个起跑线上的。
另一方面,大公司做语音助手也会有困难。大公司最容易做的事情是把现有的事情集成起来。就像现在的Google Assistant,就是把已有的各种服务和功能集中放在助手里。但是我们觉得做助手应该换一个思路重新开始,不被过去的东西所束缚。小公司没有这方面的包袱,可以走得更快。
现场互动
提问1: 我认为数据是有不同类型的,不是一类数据,解决方案就应该不一样。比如AlphaGo知道怎么下棋是赢,因为它有标准,但智慧医疗什么叫“好”是没有具体标准的。那么针对不同数据类型做解决方案,使用的方法是否应该不同?比如AlphaGo的算法,能不能用在医学上?
雷欣: 可以说,在深度学习出来之前,大家一般都是对相应的数据进行不同的建模,选取不同的模型,来适配这样的数据。
但是在深度学习之后,用端到端的模型,深度神经网络会自己从相应的原始数据中学出相应的数据。
拿语音识别来做例子,早期大家都是用相应的频谱参数,特征非常好才能获得好的效果。后来大家甚至用原始的声学测量点的数据,也能获得不错的效果。所以,从深度学习的角度来讲,对数据并不是那么的严格。
但是这可能也是一个阶段,等到再过一个阶段,我们还是希望有更加深入的了解,因为现在深度神经网络学出来的就是一堆数,也不知道每个数代表的是什么值。但是我相信,以后我们会在这方面有更好的认识。
模型实际上都是分开的,在有些任务上可以用不同的衡量标准,否则没法优化它。例如,AlphaGo知道赢还是输,它会去最大化这样的概率。
但是在有些情况下,这个数据模型都不是特别确定的。NLP为什么难做?没有一个很确定性的说法什么NLP叫好、什么叫差。语音识别相对来说简单点,我知道这句话识别对了多少字,准确率是多少。但对于很多任务,我们要自己抽象出这样的数学问题,更好地解决。
提问2: 在这次人工智能的浪潮中,作为传统从业人员,如何搭上这辆车而不至于被落下?
胡一川: 我给一些简单的建议:先看看你这个业务是否能够变成数据驱动的业务。如果你是一个传统的行业,首先看你能否在企业的运营、整体的运作过程中,把足够多的数据积累下来。今天我们谈到所有人工智能的技术,最后都是数据驱动的技术。通过这些数据去做预测、分析、挖掘。对于任何传统行业,我觉得第一步是先让自己的业务变成数据驱动,这里面需要做的事情就是尽可能把整个企业运营过程中能够留下来的数据点都积累下来,然后再看这些数据能够在哪些方面提升企业的竞争力,提高企业的效率。