深度 | 亚马逊发布多款智能助理开发工具,看看Alexa副总裁怎么说?
选自backchannel、geekwire
机器之心编译
参与:微胖、吴攀、杜夏德
亚马逊、苹果、谷歌和微软巨头之间正上演着类似《权力的游戏》一样的人工智能竞争,而亚马逊这家公司虽然一直以来对自家的技术谈得不多,但是却为消费者提供了很多实实在在的商品、为数以千计的公司提供了数据中心的托管服务、并且还拿出了一款能够回答问题、播放音乐以及完成其它 4998 种功能的突破性主打产品。
在昨日拉斯维加斯召开的 AWS re:invent 大会上,亚马逊发布了三款新产品,Amazon Lex、 Amazon Polly、 Amazon Rekognition,并展示了开发者可以如何使用这三款产品为 Slack、Facebook Messenger、ZenDesk 等平台上的应用植入人工智能功能。
该想法的目标是让开发者能够用上亚马逊为自己开发的服务(比如 Alexa)。AWS 的客户不用再自己开发人工智能软件了,只要使用一个 API 调用或者 AWS 管理控制台(AWS Management Console)将一些智能功能添加到他们自己的应用中即可。
AWS 的 CEO Andy Jassy 指出亚马逊已经研究人工智能和机器学习技术 20 年了,目前亚马逊现在的业务中有数千人服务于人工智能。现在公司要向三分之二的开发者开放后端设施。除了大会上发布的三款产品,未来一年亚马逊还会有更多的产品出来。亚马逊官方新闻稿上写道,「亚马逊的人工智能服务是全面管理的服务,所以开发者就没有开发深度学习算法、训练模型和投入基础设施的需要了。这就解放了开发者,让他们能够专注于打造全新一代能看、能听、能说、能理解、还能与周边世界互动的应用。」
下面简单介绍一下这三款新产品:
首先是一款图像识别服务「Rekognition」,可以识别物体和场景;谷歌、微软也有类似的服务。亚马逊强调其系统的智能水平已经足够识别出图像中狗的品种,虽然竞争对手也能达到这个技术水平,但是不要紧,因为「Rekognition」还有价格优势,然而 Jassy 并没有在大会上给出报价。
第二款产品是 Amazon Polly,一种文本-语音转换服务,其中使用了大量机器学习技术。Jassy 说这款产品发出的声音能达到逼真的效果,「Polly 是专为解决语音生成技术中的难题而设计的。比如它能区分出单词『live』在短语『I live in Seattle 』和『Live from New York』中的发音差异。Polly 知道这对同形异义词的拼写相同但发音迥异。」
Polly 能发出 47 种不同男性和女性的声音,支持 24 种语言。
最后一个也最重要的产品是「Lex」。Jassy 说它就是驱动 Alexa 的技术,可以让你打造能实现 multi-step 对话功能的应用。开发者可以开始在 Lex 控制台(Lex Console)上设计自己的对话 bot,而且他们可以用少数样本短语训练这个 bot。
「你可以使用 Amazon Lex 打造自己的聊天 bot 和支持逼真互动的其他类型的网络&移动应用,这些 bot 可以为你提供信息、启动应用、简化工作活动、还可用来控制你的机器人、无人机和玩具。」在大会的展示上,我们看到 Lex 还可以轻松实现语音定机票。
Lex 还与 Lamda 等 AWS 的其它服务深入地整合到一起。此外,除了亚马逊自己的产品外,它还与 Facebook Messenger、Slack 和 Twilio 进行了整合,可以内置到几乎任何其它设备中。
尽管亚马逊的产品整容豪华,但众所周知,在技术和产品规划上,有时候亚马逊甚至比苹果还神秘(今年早些时候,苹果启动了自己的机器学习项目)。不过后来,亚马逊 Alexa 的 Head scientist 兼副总裁 Prasad 已经公开论及公司在语音识别、自然语言理解技术方面的卓尔不群。当然,Alexa 就是支持热门产品 Echo 的对话平台系统。
Rohit Prasad 演讲之前,Backchannel 和他聊了聊,他阐明了 Alexa 的方向以及如何在为贝索斯招兵买马的同时又不涸泽而渔。出于长度和清晰度的考虑,本文对采访内容做了编辑。(Prasad 简称 P,BlackChanel 简称 B)
图:Rohit Prasad
B:你是 Alexa 部门的副总裁,请给我说说 2016 年的情况如何。
P: 我们对目前的形势感到很兴奋。我们特意投放了几款设备,也对它们进行了扩展。在教会 Alexa 更好了解用户方面,我们已经取得巨大进步(就 Alexa 所涉的界面领域以及搜索资料的准确度而言)。以音乐领域为例:我们已经能够根据歌词为用户搜索或播放一首歌。最近,Alexa 上来自第三方的功能的增长速度越来越快。今年早些时候,我们只有几百个功能,现在却已经达到了 5000 的级别。
B:想通过 Alexa 平台实现的对话愿景是什么?我们是不是可以和 Echo 进行交谈?
P: Alexa 已经具备一大套功能和体验,用户只需单方面表达几个意图,系统就能以极高的准确度予以回应。就对话方面而言,我认为,正确实现这一点需要大量的权衡。Alexa 不应该回过头来为用户(没有必要的)的问题。否则会很让人沮丧。但是,必要时,它应该问问题,而且对话能力非常重要。你留意了 Alexa Prize 竞赛吗?
B:就是今年 9 月宣布的,面向 CS 学生、奖金为 250 万美元的挑战赛吗?
P: 没错。在学术领域,很难在对话领域做研究,因为他们没有像 Alexa 这样的系统进行合作。所以,我们帮助他们用修改版的 Alexa 工具包,简单搭建新的对话功能。这个挑战赛旨在创造一种的社交机器人,它能够进行 20 分钟有意义、连贯、引人入胜对话。
B:你认为会是图灵测试类的对话吗?
P: 我不这么认为。图灵测试归根结底也是是否能骗到人――你能骗到一个局外人(outsider) 以为它是一个人吗?如果你说的是某些任务,Alexa 已经超越人类。比如,人类很难在数以百万的目录中立刻找到某首曲目,是吧?Alexa 可以阶乘 60,人类却很难做到。所以,我们肯定不想让它类似一个图灵测试,更多与连贯性和参与度(engagement)有关。
B:在于 Alexa 的二十分钟对话中,人们要谈论些什么呢?
P: 我们给出主题。「你能说一下今天报纸的热门话题吗?」我们期待社交 bots 可以与你谈论类似科学发明或金融危机类的话题。
B:比赛反响热烈吗?
P: 我们已经收到数以百计的申请。我们正在资助大学的学生――那些能从研究中抽身或者与其研究方向契合的研究生们,所以,我们想要确保这些学生做出的有吸引力的语言英语能够得到资助。申请很多,以至于我们不能仅资助原来计划的最初十支队伍,最终资助了十二支队伍。
因为与人工智能和机器学习领域最优秀学生进行合作的需求很大,所以,学界也担忧会失去这个领域的核心人才。
这令人担忧。这也是我发起 Alexa Prize 的原因之一。我们希望能打造下一代的机器学习,人工智能科学家和学术界在这其中扮演重要角色。如果每一位教授都跳槽诸如我们这样的公司,不仅目光短浅也是非常吓人的事情。
另一方面,显然,你们正在招人工智能人才,与谷歌、Facebook、微软、苹果甚至传统公司竞争。亚马逊心仪什么水准的新人?
B:我认为不需要回答这个问题,因为其他公司会抄袭。
P: 实际上,如果你回答好了,那些人才可能会在这篇采访里的读到这些并给我们投简历。
在亚马逊这样的公司中,搞研究的独特之处在于聚敛数据、计算能力以及世界上最优秀人才来解决用户面对的问题。研究一个用户面临的问题并不会带走创新――事实上会加速创新,我们尝试解决的问题都是超级难的问题。Alexa
初诞之时,在许多领域解决语音识别、自然语言理解都是异常困难的事情。
B:今天,你们在宣布一些会帮助开发者的新工具,对吧?
P: 是的。
B:今天你们还发布了协助开发者的新工具,对吧?
P: 是的。我们想要为开发者简化的一个关键是我们称之为的「built-in intent(内置意图)」和「slot type(插槽类型)」问题。
B:请解释一下。
P: 对于大部分功能,人们可能都会需要说:「Alexa, stop」或「cancel」。你希望能够将这些命令或意图展现给开发者,而不是告诉开发者去自定义 cancel/stop 意图的执行。slot type 是指像城市名、词汇项这样的东西。这些方面我们之前已经做了一些,开发者通常会用到大约 10 个意图和 15 个插槽类型。所以,作为第三方功能的一部分,我们还宣布了一个包含了数百个内置功能(插槽类型)的大集合,其横跨多个不同的领域,包括书籍、视频和本地商家。同时也包含了一个大的意图集合,这可以用来帮助回答用户向 Alexa 提出的问题。
所以换句话说,如果我是开发者,我就可以依赖你们内置的词汇库或你们对同义词的解释来使我的功能更加智能。而且你们还在继续做到更多。
确实如此,这能在功能的交互上给你提供一个好得多的起点。我们是将其作为一个开发者的预览版本宣布的,原因有二。一是我们想看到人们会如何在他们的意图中使用这些,因为我们自己对这些意图的使用和应该被使用的类型有自己预设的心态。但是开发者的心态可能会稍微不一样。我们希望确保能够从开发者那里得到一些反馈,帮助我们不断改进,而我们也将继续增加越来越多的内置功能。
B:目前来看,当用户在 Echo 上调用一个功能时,Alexa 的心智在某种程度上是开发者心态的体现。所以你们今天在做的事情的目标是实现开发者可以接插上去的标准 Alexa 词汇库和执行方法吗?
P: 完全正确。这会为共享和帮助 Alexa 自己变得越来越好而创建一个共同的词汇库。开发者可以继承这个新功能,这样他们就不再需要重新创造同样的东西了。
B: 对于 Alexa,我的问题是它的功能太多了,我有点招架不住。一般来说,你首先要了解一个功能,然后才能使用它。现在你们有多达 5000 个功能了,而且还在增加,用户怎么跟得上?
P: 我们肯定希望 Alexa 能通过第三方功能告诉你如何完成你的请求,即使你自己并不知道这个功能。我们还没有完成,但很显然这在我们的规划之中。一个共同的词汇库能够帮助我们打通这种连接。
B:使用人工智能打造对话式接口的公司没有几家,亚马逊就是其中之一。你们的方法有什么独特之处?
P: 不涉及到手的操作能力是其中的关键。这是语音的「杀手级应用」。如果你特别思考一下 Alexa 和 Echo,它们必须要能够解决没有屏幕的困难的交互问题。所以在对话式接口应该采用的形式上,我们从一开始的想法就和其它公司非常不同。这和在手机上可不一样;这是一种没有屏幕的完全专用的设备。我们必须解决这个难题。
B:家里摆着一个开放的麦克风,人们有什么需要担心的吗?如果人们担心「天啦!亚马逊一直在监听我!」,你会怎么说?
P: 隐私是很重要的,对于我们应对隐私的方式,我们一直是非常非常透明的。我们的云并没有监听你。只是设备,而且它也只是充当检测器,而不是识别所有对话的识别器。它只会检测有没有人对 Alexa 说话,而不会做其它的事。一旦它很确信了有人确实在对 Alexa 说话之后,我们才会开始向云传送数据流。
B:Alexa 会变得像 Google Now 或苹果通知那样积极主动吗?比如说,如果它听见我在屋子里面走动,它就会提醒我应该出发了,不然会议就可能会迟到?
P: 我们当然思考过这个问题。因为在 Echo 上并没有屏幕,所以就出现了一些新的难题。在有关你所说的那种类型的通知上,我们想要做一些正确的工作。但目前我还不能披露我们具体讲采用的方法。
B:目前,人们基本上必须为他们的助理选择一个对话式接口。未来我们有望看到 Alexa、Cortana、Google Home 或 Samsung Viv 等等一起协同工作吗?
P: 对话这个领域目前还处于非常早期的阶段。我已经在这个行业 20 多年了,但我仍然觉得 Alexa 和 Echo(的知识产权)是革命性的材料,尤其是在接口方面。我认为这还有待观察;每一家公司都有一套不同的产品,所以你可以想象会有很多个人工智能。但在互操作方面,现在要说还为时尚早。
B:Echo 和 Alexa 技术对我们很多人来说都很惊奇,一开始的时候人们还以为这是一款用来在亚马逊上快速购物的工具。而现在,它已经成为了亚马逊最受欢迎的产品和最显著的平台之一。你们的目标发生过变化吗?
P: 我不会说目标发生过变化。我们现在做的和我们三年说我们应该会做的仍然是基本一致的。只是现在我们工作中的很大一部分是让 Alexa 能够为我们的客户提供更加神奇的服务。
原文链接:https://backchannel.com/alexa-tell-me-where-youre-going-next-739c53ff10b3#.2oy0t675j
©本文为机器之心编译文章, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn
由中国人工智能学会主办,网易科技和智能君博联合承办、机器之心协办的 2016 中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典将于 12 月 16 日-17 日在深圳举行。 点击「阅读原文」报名参与颁奖典礼。现已开通免费观众票,仅限国内外高校老师和学生报名