一文看懂 Echo 和 Alexa,亚马逊如何用苹果的玩法在玩语音?
当然, Echo 是一个来自美国的智能产品,所以在中国的确很难买到。 很多同学也看过多篇有关 Echo 的文章,但是并没有体验过这款产品, 所以经常被各种概念弄得「云里雾里」,很多文章一边说 Echo,然后又提到 Alexa,如果你在网上搜索亚马逊 Alexa,可以发现有用户中心,有开发者中心,甚至还有基金会。笔者希望通过本篇文章来阐述一下 Echo 系列产品的关系,以及亚马逊的战略,希望能够对大家有所帮助,以下:
1,Echo 和 Alexa 的关系:你中有我
简单而言,其实 Echo 和 Alexa 的关系,就像 iPhone 和 Siri 的关系一样: 一个是硬件产品,一个是语音服务。 Echo 音箱使用的语音服务是 Alexa, 所以 Echo 音箱的唤醒词可以是Echo,也可以是 Alexa。值得一提的是,亚马逊的 Alexa 是对外开放的,不仅 Echo 能用,其他硬件也有用,在今年 CES 展上很多智能硬件都在用 Alexa,这项服务对外开放使用, 开发者可以为 Alexa 开发插件,贡献更多的功能,如果星巴克希望用户通过 Alexa 来订购他们家的咖啡,只需要开发一个小插件就行,现在已经有成千上万家企业在这么干。
可以说,亚马逊是在用苹果的玩法来玩转语音服务。如果你进入 Alexa 的开发者中心( https://developer.amazon.com/alexa ),就可以清晰的看到三个大产品,包括 Alexa Skills Kit(技能插件),Alexa Voice Service(语音服务),以及 Alexa Fund(基金会) 。 他们各自都有什么功能呢?下面一一为大家介绍。
2,Alexa Skills Kit(技能插件)
用户刚买来 Echo 音箱时,其实功能很少,只能问问天气(what’s the weather),即不能听歌,也不能控制家电, 这些功能都需要去 Alexa 的 APP 开启相应技能(Skill) 才能使用。因为在美国听歌是收费的,所以开启听歌的功能时,用户就需要绑定信用卡。 Alexa APP 并未上架到苹果 Appstore 的中国市场, 如果要体验,可以浏览 Alexa 的 Web APP : http://alexa.amazon.com 。
进入 Web APP 后, 右侧菜单 Music&Books 处可以设置听音乐、听书的功能,点击菜单 Skills 可以设置技能插件, 这里有上万个技能插件,基本都是第三方开发者为 Alexa 开发的功能。
在菜单 Home 下,可以看到和音箱对话的历史记录,并可对每次对话的答案标记是否满意,这样可以帮助 Alexa 完成「机器学习」。用户和 Alexa的聊天记录只有自己可见,对开发者是封闭的。 而国内一些语音语义平台,能让开发者在平台上面就看见用户的聊天记录,相信很多普通用户知道了这点,就都不敢再跟智能产品当那种「无话不谈」的朋友了。
如果你希望 Alexa 智能设备能控制家里的电器,也要开启相应的技能插件才行。比如你用的是美国快思聪(Crestron)的智能家居系统 , 则可以开启技能插件 Crestron Home Automation for SmartHome , 开启时需要 Oauth 帐号授权, 这样 Echo 音箱就能知道你家里连接了多少Crestron 的设备,然后就可以通过语音来控制它们。而如果你是一个开发者,如何给 Alexa开发技能插件呢?
首选,你要登录亚马逊的开发者中心(developer.amazon.com),进入 Alexa 的菜单后,会让你选择是开发插件(Alexa Skills Kit),还是接入语音服务(Alexa Voice Service)。这里我们选择 Alexa Skills Kit 即可,接下来按操作步骤进行即可。
Alexa 可以开发三种类型的插件:自定义(custom)、智能家居(smart home)、快报(flash briefing) 。当然, Alexa 并不要求开发者将自己的内容资源(如音视频、问答对等)上传到亚马逊, 而只是在 Alexa 中定义「意图」,当用户触发「意图」时调用开发者定义的接口,类似于微信公众号的开发者模式, 开发者自己在接口中返回 Alexa 要回答用户的答案, Alexa 做到了「意图」和「回答」的分离,在 Alexa 平台定义「意图」,而在开发者自己服务器上面实现回答。而国内很多语音语义平台,没有实现「意图」和「回答」的分离,要求开发者将「答案」上传到平台,所以给开发者感觉不太好,总认为将自己的核心机密数据上传到了第三方。
亚马逊通过 Alexa 吸引普通用户与它对话,同时也吸引了更多的开发者为它贡献插件, 同时保障了普通用户和开发者的权益,而且产品也做到了:不会「索取」开发者的核心数据,更不会把普通用户的对话记录开放给开发者。笔者相信,这也是 Alexa 能够获得成功的一个非常重要的原因。
3,Alexa Voice Service(语音服务)
如果我们想开发一款拥有像 Echo 音箱一样,具有语音交互功能的产品,那么,我们直接接入Alexa 的语音服务即可。产品的接入方式也十分简单,在开发者中心创建一个语音服务的应用,就可以获得两个 KEY: Client ID 和 Client Secret, 这两个 KEY 值是调用接口时需要用到的。接口地址为: https://avs-alexa-na.amazon.com ,请求接口时传递录音文件, Alexa的云端同时进行了语音识别和语义理解,将音频文件转换为文字,然后对文字进行理解,如果触发了某个技能插件的「意图」,则调用开发者的定义第三方服务器的接口,如果是听歌或听书等「意图」,则调用亚马逊自家的资源。语义理解后 Alexa 将需要返回的文字内容合成为音频文件,所以接口的返回内容也是音频文件。
Alexa语音服务这么简单? 核心功能就是一个接口? 没有唤醒模块?没有麦克风阵列? 很多国内做开发的同学,可能会有这些疑问。其实,Alexa 并没有像国内的语音平台那样,将语音、语义、唤醒、麦克风阵列打包在一起, 然后收一个很高的 License 费用。Alexa 只专注于云端识别,而唤醒、麦克风阵列等技术是开放的。
这是官方的示例代码 https://github.com/alexa/alexa-avs-sample-app , 示例代码中唤醒用了Sensory 和 KITT.AI,麦克风阵列用了科声讯的两麦方案。Alexa 不绑定任何硬件方案,唤醒和录音的技术方案完全掌握由开发者自己决定。Alexa 只是对录音的质量提出要求:
因为 Alexa 不绑定任何硬件方案,这就使得硬件成本可以降下来,Alexa 也并没有在语音技术上收费,用户是在使用产品过程中对内容进行付费。而国内的语音平台总想着在语音技术本身上收费,语音技术还要绑定自家的唤醒模块、麦克风阵列或者 SDK,也并没有开放 API。一个 License 费用就能收 60多块钱,这使得智能语音技术成本一直也降不下来,当然这可能因为国内外的开发环境不同,还有文化差异所导致。
笔者认为,虽然人工智能被炒得很热,但普通用户目前还是尝鲜的态度,并没有形成强烈的刚需,市场并未打开。如果智能产品要想要打开市场,那么应该有两点基础要求:第一,就是真正意义上能替代「人工」,比如工业机器人、智能客服,他们真的能替代人工,所以它们会有市场;第二点,就是让普通用户能够用低成本「尝鲜」。 很多服务机器人或者智能音箱产品就比较尴尬, 既然不能替代人工,那么用户只能把它作为「娱乐产品」来消遣, 但价格又这么贵,普通用户只能「望而却步」了。
4,Alexa Fund(基金会)
Alexa 基金会孵化是使用该项技术的创业项目,它要求所有项目按照他们规定的时间点进行,4月9号之前报名,7月17日开始开发, 经历13周时间,10月12日演示产品。
所有项目都集中在一个地方进行开发, 亚马逊会选择一处风景优美的地方,每年的地方都不一样,今年在西雅图,明年可能在纽约。在这13周的开发中,有 Alexa 官方高级技术人员在现场为项目提供技术支持。
Alexa 通过这个基金会不仅吸引很多创业项目,还能快速孵化项目,出现一批又一批基于Alexa技术的好产品。
我们再来梳理一下Alexa整个产品生态,看看亚马逊是如何用苹果的玩法在玩语音的。亚马逊Alexa 通过基金会、技能插件、语音服务打造起整条的生态链,使得创业者、开发者、消费者都聚集在这个生态链中,实现了多方共赢。
第三方产品不管是硬件产品,还是 APP 都可以通过开发者中心的语音服务接入 Alexa,消费者在使用第三方产品时同时为亚马逊带来用户,相当于第三方产品又帮助推广了 Alexa 服务,于是 Alexa 得到了迅速的传播。
最后做一个小小的广告,因为 Alexa 目前还不支持中文,Echo 在国内也很难买到。为了让大家能体验一下 Alexa 的智能服务,智众互动出了一款虚拟的中文 Echo,大家不用购买硬件设备,也能用中文对话的方式体验 Echo 的功能,大家可以试一下: https://echo.zhizhongai.com/
本文作者:智众互动 CEO 罗飞,智众互动是一家提供人工智能解决方案的公司,是注重早教内容沉淀的人工智能技术公司。提供机器人或音箱的技术解决方案以及内容解决方案。罗飞的微信号:luofei614 , 欢迎加微信交流。