智能语音交互应该如何设计?
编辑导语:随着亚马逊、小米、阿里巴巴等大公司都推出了智能语音产品,智能语音交互设计成为了一个值得探索的领域。语音交互如何设计才能达到更自然的交互反馈、更好的传达情感,这是目前需要解决的问题。对于用户来说,希望能与智能产品建立亲切的信任感,越相处越好用。AI时代,深知我者,才能久居我心。
说到语音交互需求价值,总有一种不言而喻的感觉,语言作为人类信息传递的主要媒介,用其进行沟通交流,是一种遵循本能的行为。
从我们记忆机器命令的键盘输入,到按机器提示的点击触碰行为,这类需要我们去理解机器的方式,随着科技的不断突破,也迎来了转变。
一、语音交互需求价值
语音交互除了几乎不需要任何学习成本外,更有意义的是,解放了作为输入的双手(是不有种人类实现直立行走的伟大意义),人们可以同步开展其它任务,并且也调动了人类听觉的感官体验,而不用完全局限在视觉上。
下面就来说说如何设计一款语音交互产品,先说说语音交互产品设计的整体流程框架,再对其中各环节涉及的问题展开说明。
二、流程框架
查阅了亚马逊Alexa语音界面设计规范和Google的语音界面设计规范后,结合自己的解分为五个关键步骤:调研→定位→设计→测试→完善。
调研—— 挖掘语音交互使用场景定位—— 聚焦产品定位,创建用户画像设计—— 设计状态流程图,编写脚本,建立原则测试—— 真人感受,在线模拟测试完善—— 数据+案例分析,优化调整。
1. 调研:用户场景的选择
虽说语音交互(VUI)带来了便利,但并不是说现有的交互方式都可以完全替换,想想毕竟文字的形式不也还存在嘛。其简单快捷的方式对需要复杂信息的呈现,需要时间思考反馈的产品反而会增加复杂度。
Google给出了3条指导原则:
- 人们可以快速做出回答的场景。比如用户输入不需要思考的基本信息;
- 快捷,可以省去中间交互的时间,强执行操作比如给XX打电话(搜索框输入XX,点击查询,拨打的步骤合并一步提交后台处理);
- 双手已被占用,需要并行处理其它任务场合。比如开车的时候,做饭的时候,记笔记的时候,这些场合双手多数是被占用的。
2. 定位:创建人物画像
语音交互是在模拟人的行为,建立的虚拟人的形象,也会让人们将现实中人的行为与其关联。字正腔圆的新闻联播是严谨真实的,少儿节目是活泼可爱的,相声综艺是轻松诙谐的。
在设计对话前,定位出产品态度,才好选择词语风格,句子结构。
3. 设计交互对话
设计分为三个步骤:逻辑状态图——对话脚本编写——解决方案分级
1)围绕用户产生的结果状态,梳理出逻辑图
机器与人的对话存在多种可能性,除了完成核心场景外,还要考虑意外的情况。用户输入 不在范围内,用户不按提示操作,用户重复输入多次,用户没有回应等等。
但是这些都不算用户输入错误,这个概念是不存在的,都是一种状态,需要引导到正常会话下图是未展开细节的状态流程图示例。
唤醒——响应——输入——理解——输出(橘色是人的输入,绿色是机器输出,无色是处理逻辑):
2)对每个状态编写对话体验脚本
3)结合情感化设计的解决方案分级
从用户体验划分为三个层级,满足人们功能、心理、自我探索共鸣需求。
功能级:期望对话的产品更像一个自然人亚马逊Alexa设计规范指出人类对话的核心特点:串联,有上下文的相关性轮流,你说一句我说一句的互动潜在效率;省略词,简洁高效的本能多样性:一句话可以有多种表达形式。
心理级:激发未知好奇心人类天生有好奇心,喜欢新事物,计算能力强是机器的优势,如果每次对话,同样的问题会有不同的回答,用户会主动想去体验互动。
自我探索级:触发情感共情人是有感情的生物,一本记满日记的本子,陪你走南闯北的行李箱,何况是一只会说话的产品。并且经过时间的磨合,她越来越懂你,记得上次你查询的内容,记得你上次问的问题。会唤起你小伙伴在身旁的感觉。
4. 测试
1)大声的朗读出来,听起来是口语,而不是书面语言;
2)谷歌在线模拟器 👼https://developers.google.com/assistant/console/simulator。
5. 迭代完善
1) 结合用户反馈,数据统计进行分析比如:对于用户同一个问题提出多次原因可能是:
- 答案不是用户想要的;
- 用户忘记了第一次答案;
- 用户顽皮这时候可以结合人工理解,大多数用户选择进行优化。
2)示例中等待时间5秒按Cathy Pearl书中试验得出,这个值可以根据不同产品用户的反应速度调整。
6. 设计中考虑的因素
从用户,产品,信息内容,传达方式中的问题与语言特征依次说起。
1)用户意图的识别人们问的问题,因为个体差异,关注的点不同,需要的结果也会不一样。
比如:今天出门需要带伞么?
——男性:关注下雨;女性:关注日晒。区别个体差异,让用户觉得你懂他,体验到产品的温度。
2)产品人格塑造我们在与他人交流的时候,会注意场合,自我形象,用连接词进行话语的过渡。
语音交互,作为一个拟人化产品,这些也是要考虑的。
- 自我形象:面向小朋友的教育软件,要树立一个勇敢权威的形象,而他们本身就是可爱的,就不应该再加入卖萌的话术。而客服类语音,由于客户面对问题会存在不耐心烦躁的情绪,就可以用幽默的话术缓解一下气氛。
- 注意场景:在公共场合,话语要简洁,高效解决问题。在私人空间,比如家,可以网络语化、逗逗乐。
- 过渡词:人们谈话的时候,不会拘泥于一个话题,会不断展开话题,比如:对了、其实、但是…
3)控制内容范围
语音交互实质是连接产品服务与用户需求,所以答案要么和产品有关,要么和产品无关。
有关的是基于产品本身的有限搜索信息库。无关的用兜底的话术结束(这个功能我还在努力学习)还有一种是引导用户,结合着视觉,罗列出和主题相关的选项,引导用户找到答案。
4)信息口语式传达
口语在表达的时候,为了简洁方便,并没有按着严格语法(主谓宾,定语*+名词的结构),省略的、不连续会被大脑自然补齐,比如:
CASE1:点餐,来一杯拿铁,大杯加冰,而书面表达可能说,他点了一大杯加冰的拿铁;CASE2:询问天气:今天天气怎么样?(隐含用户现在所在的城市)。
继续询问,那杭州呢?(隐含还是问的天气)
书面表达是事后信息重整理,口语表达是大脑同步传递,先表达中心,然后补充细节。用户信息输入后,留出一段停顿的时间,再执行命令,会更符合说话的节奏。
7. 技术及其现状
语音交互的信息流处理步骤如下:
1)语音识别 ASR :听清用户说话
处于单模式状态:唤醒对话,再唤醒再对话的方式,反映到现实是这样场景:
小明,播放周杰论的告别气球。小明,声音大些。小明,再大些。小明,循环播放。小明,播放Remix版。
你每次说话都要带上别人的名字。目前大部分产品是单轮对话,采用一问一答交替形式,对用户纠正信息,打断对话是不做响应处理的,期待技术发展后续可以是边听边思考的信息流状态。
2)语义理解NLU :听懂用户的话
语义理解要做到智能除了字面含义外,用户意图识别,情绪识别,对话的上下文信息关联都是要考虑的因素。
3)信息搜索Info Search :最强大脑
依赖于检索的准确率,召回率。
4)语言生成NLG:生成结果
分为三个级别:
- 简单数据合成并;
- 模版化输出,比如:导航的语音播报;
- 高级版模拟人类表达,它理解用户意图,结合知识图谱,比用户多想一步等,解决其本质需求。说两个例子,畅想一下:
CASE1:
用户:小明,杭州气温多少度?
语音:杭州今天气温10~14度,未来3天有小雨,主人出门建议多带件换洗衣物(用户之前通过语音查询了机票酒店信息,或者上次主人问了这个问题后,有5天都没有再用设备,因为不在家)。
CASE2:
用户:小明,来首歌吧!
语音:(识别出语调兴奋)好,播放了一首欢快的high歌。
用户:小明,放首歌!
语音:(识别出语音的低落)好,播放了一首正能量的歌。
这一部分的可关联的空间还很大。说个题外话,语音是人类所擅长的,对其的预期会高,有时说话像个孩子的样子,有时反而还会讨喜。所以还要结合心理预期维度的研究。
5)TTS :播放给用户听
目前可以选择喜欢的明星的声音,以及AI主持人。
8. 总结
无论从市场应用的硬件载体覆盖面(智能音箱、智能手表、智能导航仪等),行业应用广泛推广(医疗,教育,公检法,车联网,泛娱乐等),还是聚焦在产品设计,技术优化上,以及符合人体本能行为需求价值上,还是作为AI时代的入口,这个方向都是很有趣的,欢迎开撩~~
本文由 @大鱼海棠 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash ,基于 CC0 协议