阿里发布智能音箱“天猫精灵X1”,它会是拯救懒癌患者的神器么?-天下网商-赋能网商,成就网商
文 / 天下网商记者 何承轩
编辑 / 吴思凡
7月5日下午,阿里云在北京时间博物馆召开了一场发布会,正式推出首款智能音箱产品“天猫精灵X1”,定价499元,有黑白两个配色,除了支持播放音乐,查询天气、控制智能家居、家电设备等基础功能外,还运用了首个商用的声纹识别技术,其中一个典型的应用场景是购物,这在国内智能语音设备中尚属首例。
“天猫精灵X1”从当日起开放1000台限量公测,并将于8月8号正式进行首批发售。
此前,不少媒体已收到并纷纷晒出本次发布会的邀请函——一个扁平的圆片,上面印有“未来,开口即来”字样,中间有一个按钮,按下去会发出温柔的女声:“我在,你说”。在这样的深意下,“阿里将推智能音箱产品”的消息一时间传得沸沸扬扬。
虽然,亚马逊的智能音箱产品Echo早已做得风生水起,但在6月,各大科技公司却像有预谋般相继出手。苹果公司的Homepod、RokidPEBBLE(月石)、喜马拉雅的“小雅”、京东与科大讯飞合作推出的叮咚智能音箱,包括百度和腾讯也相继宣布将加入这个战场。
业内对智能音箱的畅想,除了作为智能家居的控制入口和内容播放的出口外,更有可能成为外卖、网约车、电商购物的新交互场景。而阿里的入局,将这个已热炒数十天的话题再次推向高潮。
这次发布的“天猫精灵”,会为消费者带来怎样的惊喜?
“天猫精灵”:首个支持支付和电商购物的中文智能音箱
阿里推出这款产品的初衷,与目前行业内对智能音箱未来的期望一致。“有没有一种比触屏更好的交互方式?我们的父母一般会用手机的通讯交流功能,但80%的App他们可能不会使用,因此这不是最好的方式,应该还有更好的。”阿里人工智能实验室负责人浅雪(花名)在发布会上说,”我们觉得,语音可能是下一代人的交互方式。”
天猫精灵X1采用了圆柱形的设计,有黑白两种配色,直径83毫米。在X1顶部中央,配有一枚静音键。当用户触发此键时,X1会立刻停止声音播放,并停止识音功能,以有效保证用户隐私。
X1底部设计了一圈隐藏指示灯,会通过声音来判断用户方位,亮起灯光以示提醒,灯光还会根据不同使用功能和场景配合进行提示,以及360°全向5M拾音麦克风,直径83毫米,在尺寸上小于亚马逊的标准版Echo和苹果Homepod,浅雪对此解释道:“不想有很强的入侵感,并且它会越来越小巧、无所不在。”
在语音控制的核心上,天猫精灵X1定制了业内第一颗Smart Audio专属优化芯片,在逼近唤醒率75分贝的临界值,能实现动态4段EQ调节,平衡好音效与高唤醒率灵敏度之间的矛盾。并且,“天猫精灵”搭载了阿里开发的第一代中文人机交流系统AliGenie,具备理解力、执行力、进化力,即快速的语义学习和用户的喜好识别能力。
天猫精灵X1的一大特色是能实现一键声波配网,配网时间小于10秒,根据浅雪的介绍,“行业平均时间大于30秒”。
另一方面,天猫精灵X1也融入了目前行业内标配“声纹识别技术”,让设备能够识别并且记住每个用户的身份和喜好,特别是用于支付场景。比如用天猫精灵充手机话费,一般需要两步:确认机主手机号、身份验证,举例来说,其方式是让用户重复读一遍“天猫精灵-6756(四位数字)”。
天猫精灵X1也加入了电商购物功能。目前的主要方式是通过用户的语音指令找到曾经购买过的商品,语音验证进行下单,发货至默认地址,并且可以进行快递查询和到货提醒。
发布会上,阿里人工智能实验室产品总监释空(花名)介绍说,“把购物语音化实际上是一个非常困难的过程,当商品量巨大的时候,淘宝商品的标题也比较复杂,要让系统能够自行整理和学习。”
除了自主开发的功能以外,天猫精灵X1也接入了一些第三方应用,比如移动健身教练KEEP,和阿里通信的“找手机”功能。接下来,天猫精灵还将接入越来越多的应用和场景。浅雪表示,天猫精灵X1已接入西溪天堂的悦榕庄、喜来登等五家酒店,也在和国际玩具巨头美泰合作开发物联网玩具。
智能音箱战争已经打响,局势如何?
亚马逊Echo是目前的智能音箱——无线音乐播放器+虚拟助手结合体的鼻祖。
自2014年推出第一代Echo,亚马逊已经卖出了1100万台Echo设备,在美国以超过70%的占有率制霸该市场。但实际上,其中一半销量来自售价仅50美元的第二代产品Echo Dot,而面向高端市场的Echo Show因其229.99美元的价格(约合人民币1600元)优势不大,并被不少业内人士批判加上触摸屏是“多此一举”。
除了音箱产品外,2017年4月,亚马逊还推出了具有视像功能的Echo Look,不仅能听取用户语音指令,更能看到用户的形象和动作;6月,推出“魔棒”Dash Wand,可用于语音指令或者扫描条形码进行电商购物。二者均搭载了亚马逊智能语音助手Alexa。
目前,在美国抢下智能音箱市场第二位的是Google,Google Home已占有约24%的市场,这款产品于2016年发布并上市,售价为129美元(约合人民币860元)。
2017年5月,微软发布了与音频设备制造商哈曼·卡顿合作打造的智能音箱Invoke,该音箱硬件设备由哈曼卡顿制造,内置Cortana语音助手。在6月的CES 2017大会上,微软又发布了和第三方厂商Mattel合作的另一款Cortana智能音箱“Aristotle”,售价299美元。
真正让中国市场对智能音箱产生巨大关注的,是2017年6月初,苹果公司在2017年WWDC上宣布将推出Siri智能音箱Homepod。近日三星也加入了这场混战,据《华尔街日报》报道,三星智能音箱正在紧锣密鼓的研发中,通过语音助手Bixby操控。
而在国内,近期也有不少科技公司出手。6月初,由前阿里M工作室掌门人祝铭明创立的智能家庭机器人公司Rokid发布了旗下第二代产品PEBBLE(月石),与第一代ALIEN(外星人)相比去掉了屏幕,体积更小,价格从5280元降至1399元。
作为内容的喜马拉雅FM,在近日也发布首款全内容AI音箱“小雅”,售价999元,由喜马拉雅提供内容OS、猎豹移动投资的猎户星空公司提供语音AI技术,佳禾智能提供硬件解决方案。据称,6月20日发布会当天,“小雅”售出超5万台,约七成由喜马拉雅FM用户包揽。
现在,国内多个互联网巨头也在试图进入这个领域。
除了阿里以外,腾讯执行董事刘炽平日前在接受《The Information》采访时透露,该公司正在研发一款智能音箱, 或在八月份发布。据知情人士透露,腾讯这款音箱的名字暂定为“耳朵”。此前,腾讯曾先后推出智能语音助手腾讯云小微和腾讯叮当。
转型专注于人工智能的百度,则发布了对话式人工智能秘书度秘(Duer)和语音家居设备小鱼在家,智能语音交互系统DuerOS及相应的智慧芯片。按李彦宏的描述,DuerOS的定位是要让冰箱、桌子等日常用品在任何环境下都具备与人对话的能力。
京东和科大讯飞合资成立的灵隆科技,则已经开发了多款叮咚智能音箱,价位在179元到798元之间。
对于巨头们而言,开发智能语音产品的优势,或许是基于自己的业务构建一个语音开放平台,将诸多物联网设备和互联网服务接入进来。而在此前,无论是PC、手机、可穿戴设备还是VR,均是通过视觉来交互,通过听觉来交互的智能音箱无疑能满足以上设备的一些缺陷,并开发一些新的应用场景,将人们从屏幕和按键中解放出来。比如对于“懒癌患者”、老年人和儿童、或是失明人士就非常适合。对于智能家居的操控,通过语音来控制也更为简便。
当然,在各家新产品不断面世后,智能音箱市场确实也产生了诸多竞争要素,就目前观察,有如下几点:
1、性价比:包括价格、音质、外观和质感。
2、支付、社交、购物、内容等应用的开放程度,以及对智能家居设备的兼容程度。
3、技术成熟度,其中包括:远场识别技术,能让音箱接收到用户在3-5米甚至更远的地方发出的指令;声纹识别技术,能让特定用户发出的指令有效;需要不断提高的语音识别率和不断缩短的唤醒时间;以及中文唤醒词,目前业内大部分是四个字的音节,Rokid已缩短到“若琪”两个字,也有一些企业在开发自定义唤醒词技术:最后,是和视觉捕捉的结合程度。
对此,一位TMT资深评论人曾分析道,智能音箱是依赖技术推动商业模式创新,而国内更注重资源整合与销售模式创新。如何将产品和技术更进一步打磨,并在销售智能音箱这样的新品类时更好地教育市场,还需要所有入局者一同努力。
关于天猫精灵和AliGenie,你可能还想知道这些:
一、关于天猫精灵X1
Q:天猫精灵X1是什么?
A:天猫精灵X1是阿里人工智能实验室推出的首款智能语音终端设备,内置第一代中文人机交流系统AliGenie。AliGenie生活在云端,它能够听懂中文普通话语音指令,目前可实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能,带来崭新的人机交互新体验。依靠阿里云强大的机器学习技术和计算能力,AliGenie能够不断进化成长,了解使用者的喜好和习惯,成为人类贴心的智能助手。
Q:能介绍一下阿里人工智能实验室吗?
阿里人工智能实验室(A.I. Labs)成立于2016年,负责阿里巴巴集团旗下消费级AI产品的研发。A.I. Labs的使命是探索人机交互新大陆,带领人们体验探索未知世界的乐趣。
Q:阿里为什么要做天猫精灵X1?
A:语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。我们认为随着云端一体化带来的高度智能化,智能终端需要匹配比手机触屏更强大的人机交互方式,AliGenie将肩负阿里巴巴在智能人机交流系统领域探索的使命。我们将为开发者和硬件厂商提供一个开发者平台,包括了语音技术、服务入口以及硬件方案,并整合阿里巴巴生态体系中丰富的互联网服务和商业链接能力,共同为消费者提供全新的智能体验。天猫精灵X1只是这个生态体系中新生长出来的一颗大树,我们希望未来能长出一片新的森林。
Q:为什么起这个名字,X1有什么意义吗?
A:在数学中,“X”代表未知数和变量。天猫精灵X1作为中国消费级AI产品的开端,充满着未知和变量。这也是阿里人工智能实验室推出的第一款产品,因此命名为X1。
Q:天猫精灵X1目前有哪些功能?
A:目前已经具备音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。随着开发者的入驻,天猫精灵X1能够实现的功能还将快速增加,具体可以查看天猫精灵官方网站,或下载天猫精灵APP。
Q:天猫精灵X1的声音是怎么来的?
A:我们接触了100位专业声优,最后选择了我们最满意的这位。加上语音合成技术,这就是最后大家听到的回答,希望大家都能喜欢。另外,未来还会开放语音包接口。
Q:天猫精灵X1硬件配置如何?
A:天猫精灵X1采用了首颗专门为智能语音行业开发的芯片,在解码,降噪,声音处理,多声道的协同等方面做了专门的优化处理。针对AliGenie需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的NEON处理单元,NEON 技术可加速音频和语音处理、电话和声音合成等,从而带来更优秀的语音识别及音频处理效果。
在收音方案上我们采用了业界公认的优秀方案------六麦克风收音阵列技术。在顶部的六颗高灵敏麦克风有助于收集到来自不同方向的声音,从而更容易在周围的噪音中识别出有用的信息,来达到更好的远场交互效果。
Q:在有噪音的环境中也能正常使用吗?是如何做到的?
A:天猫精灵X1背后的团队在降噪技术上做了大量研究,并专门针对家庭使用场景做了优化。天猫精灵不是在绝对安静的环境下工作的,家庭中有各种各样的噪音,开发人员在厨房,客厅,卧室,书房等环境里面,对玻璃,木材,混凝土,金属,石材,等各种材质和环境进行了上千次实验,其中对中国家庭环境大量使用的石材和木头材质进行了针对性的测定,能够适应在家庭环境噪音下进行唤醒。并且具备一定的学习功能,可以根据环境噪音进行学习和进化,适应不同家庭环境噪音,经过7天左右优化,会更加适应所在家庭环境。
此外,天猫精灵X1还使用了回声对消和远近场拾音等技术,即使在播放音乐的同时也能正常接收语音指令。
Q:什么时候正式发售?
A:天猫精灵X1于7月5日开始限量公测,用户和开发者可以在天猫精灵官网(bot.tmall.com)申请公测,8月8日将面向天猫会员用户进行首批正式发售。
Q:这个需要配套的手机APP吗?
A:在初次使用时,用户在手机上安装天猫精灵app,用以绑定账号。手机app可以实时显示与硬件产品的连接状态、命令接受反应情况、产品最新的功能上线提醒,以及主动推荐适合用户使用习惯的内容
天猫精灵APP 7月5号就会在各大应用商店上线,X1的用户也可以通过“手机淘宝”------“我的设备”进入操作页面,可不必安装单独APP。
二、关于AliGenie和开发者平台
Q:AliGenie目前所涵盖的功能包括?
A:目前有以下功能,随着更多功能的开发和第三方开发者的加入,功能将不断扩展
1.音乐音频:海量曲库和内容库
2.家居控制:语音控制智能家电设备
3.购物充值:声纹实现购物全流程
4.儿童教育:精选儿童音频内容,寓教于乐
5.技能市场:汇聚各种服务和内容,不断扩展功能
Q:AliGenie未来还会进入哪些生活及商业场景?
A:目前已经或正在拓展的行业解决方案有1、儿童领域2、酒店领域3、家庭场景下4、TO B其他商业场景5、线下零售场景6、与其他显示设备结合的场景
Q:AliGenie可接入的智能家电范围包括?
A:目前支持100多个品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品,更多智能家电正在接入中。
Q:AliGenie开发者平台会开放哪些能力?
A:AliGenie开发者平台主要面向四种类型的开发者,包括内容开发者、应用开发者、智能家居开发商和硬件生产商。开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。
依托强大的底层技术、智能的算法引擎、完善的云端服务和成熟的软硬件标准系统,AliGenie会持续不断地将全面、易用的核心技术能力进行输出,为开发者带去更多可能。通过AliGenie开发者平台,开发者可以链接到阿里生态体系中的数亿消费者和海量的生活和商业场景。
Q:AliGenie开发者平台有哪些核心技术开放?
A:1、深度学习
我们研发了国际领先的深度学习技术来作为AliGenie的大脑,这些技术成果被发表在顶尖国际会议例如KDD和CVPR上。我们自主研发的深度学习能快速高效的从海量数据中进行学习,并能在广泛的应用场景中使用。
2、自然语言处理
基于我们积累的海量的自然语言数据,和自主研发的国际领先的深度学习技术,我们实现了高效准确稳定的自然语言理解。
3、搜索/推荐算法
通过阿里积累的用户画像,为用户个性化地提供用户所需要的信息和内容服务。
4、知识表示及推理问答系统
我们构建了一个海量的知识库,实现对万事万物的结构化的描述,这个知识库不仅帮助我们更好的理解语言,更重要的是可以通过推理回答各种知识类问题。
上述能力我们将免费开放给开发者和硬件厂商,无需从头搭建AI语音系统,节省在研发上的巨量投入,使开发者能够更好的为用户提供服务。
Q:如何成为AliGenie平台上的开发者?
A:通过我们的开发者平台,即可申请成为开发者,只需要简单认证,就可以使用我们的深度学习训练平台。
1、通过官网进行注册,填写资料申请邀请码
2、一周内发放邀请码,开放相关工具和平台
3、可以利用平台进行相关的开发和应用,然后提交测试评审,通过后可以在应用商店上线
Q:硬件厂商如何将AliGenie集成到自己的产品中?
A:我们会推出全套的硬件参考设计方案,给予合作伙伴足够的支持。
1、厂商通过官网申请合作文档和技术参考文档。
2、我们将对申请进行评估,并与合作伙伴讨论准备相关硬件的设计方案、接入方案及商业策略。
3、双方进行联合开发和测试,整个过程约1.5个月左右完成。
Q:什么样的智能硬件可以与AliGenie连接?硬件厂商如何加入?
A:目前阿里智能联盟的上千万智能家居设备已经能够与天猫精灵X1进行连接。
硬件设备厂商可以通过两种方式接入AliGenie:
1.通过SDK接入
提供常用平台(如嵌入式Linux、Android)的SDK给到设备厂商,SDK中包含了如长连接通讯、设备用户绑定、音频播控、状态管理等功能模块,封装其中的实现细节,开发者可以方便的进行接入。
2.通过协议接入
提供基于Websocket的一套标准化协议,由厂商自行进行对接,直接调用AliGenie的各项能力。
Q:开发者如何分成?
A:开发者可以获得全部收益,平台在推广期间不参与分成。我们还会推出相关的阿里AI创新开发者计划。
三、关于技术
Q:这个产品是阿里自己研发的吗?有哪些核心技术?
A:天猫精灵X1和AliGenie均由阿里巴巴的科学家和工程师团队研发,应用了阿里巴巴积累多年的语音识别、自然语言处理、人机交互等技术。其中,阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。不久前,我们的NLP技术团队还在国际权威技术论坛KDD 2017 上发表了一篇论文。
Q:阿里巴巴在人工智能语音领域有何独到的技术优势?
A:在美国国家标准署2016年举办的全球说话人识别竞赛(NIST SRE2016),阿里巴巴以OpenSesame(芝麻开门)为队名,采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛法能力,开创性提出利用对称性支持向量机器来提高系统性能,在近两百多支参赛队伍中,阿里最后的系统性能在大中华区声纹识别性能排第一,美国赛区第二。同时我们递交了4个相关的专利,这一系统曾受邀在声纹识别顶级(NISTSRE2016 workshop)作公开演讲。
在语音顶级国际会议Interspeech2017,我们的两篇论文也被接受:《TheOpensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NISTSpeaker Recognition Evaluation 2016》。
这一声纹识别技术也被运用到了X1上,它会根据声音条件识别出不同的使用者,以此保证使用的安全性和私密性。而在记住了每个人之后,X1还能够实现“千人千面”,能够根据每个人的喜欢进行内容设定和推荐。
基于声纹识别技术,我们还推出了声纹购功能,是第一个商用的声纹购物系统,可以通过声纹完成支付,当你发起购物、充值等行为时,只需要说出声纹密码,声音识别系统将对身份进行校检,确认是本人后才会完成交易,否则将拒绝请求。
Q:产品是否支持多轮对话?
A:支持。阿里巴巴人工智能实验室在自然语言理解的基础上,加入了“决策引擎”机制,能够理解语音的上下文语境,并判断当前应该响应的是哪一个模块,进行决策。这一套先进的人机交互和自然语言处理系统也在国际顶级学术论坛KDD 2017上发表了重要的论文,并正在申请技术专利。
Q: X1的语义理解是用的自己的技术吗?做的怎么样?
A:中文语音交互的难点在于中文的语义理解。阿里人工智能实验室研发的中文语义理解引擎针对常用的定时,提醒,天气,娱乐内容,家居控制,助手,以及购物等领域进行了特别优化,仅天气预报就能够理解786种中文问法。
通过深度机器学习,天猫精灵X1已兼容20个领域的自然语义理解。
此外也更多考虑到中文语言对话过程中的各种实际案例,对北方语言的儿化音,干净利素的问法,小朋友经常叠字叠词,南方人某些与普通话混淆的中文表达方法进行了深度处理。针对中国人语言发音的特色,对吞字,咬字,缺字,北京话习惯,河南话习惯进行了特别优化,进行补偿和修正。
这套语义理解系统还带有记忆功能和强大总结归纳能力,还加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。