语音助手大比拼：苹果Siri和华为小e

人人都是产品经理 • 4年前扫码分享

编辑导读：每一部智能机里面都有一款语音助手，它的作用是让人们生活更加便利，“解放人”。本文将以苹果Siri和华为小e为例，对这两个语音助手进行比较分析，希望对你有帮助。

语音助手大比拼：苹果Siri和华为小e

一、引言

现如今，智能设备的普及让“人工智能”这个话题变得不再陌生而遥远。

以前人们想订购车票一定要到车站去购买；后来有了互联网，人们可以在网站上自行查询车票信息并购买，省去了去车站的时间，在家即可完成；再后来出现了语音助手，人们甚至可以通过语音助手查询车票信息，省去了自己搜索查找的时间，说出想要了解的信息即可。

随着科技的发展，人们的生活变得越来越便捷，而人工智能似乎一直致力于“解放人”。

用户与智能设备的交互不再局限于键盘、鼠标之类的硬件，触控交互、语音交互已经成为了当代人机交互的主流方式，用户的操作也变得越来越便捷与直接。在技术欠缺的年代里，人们注重更多的是功能的实现，而在技术成熟的现在，人们注重更多的是如何“解放人”以及提升用户的情感体验。

自苹果推出语音助手“Siri”后，各大智能企业也都相继推出了自己的语音助手，它们不局限于手机这个载体，电脑、手表、家电等智能设备都可以通过语音助手进行操作。

正因如此，语音助手的泛滥给用户带来了许多困惑，这也是我想做这个课题的起因。希望通过此次实验，能够以苹果智能语音助手Siri和华为语音助手小e为例，对这两个语音助手进行操作比较评估，从而进行区分。

此次实验主要针对手机平台，观察不同语音助手对同一用户指令的完成情况。实验选取了iPhone X及华为P20作为实验体，并寻找了6名实验对象。实验对象需做两组重复试验，每次实验都将对Siri、小e说出同样的语音指令，观察其反馈情况。若未能达到指令预期效果，则根据自身需要继续补充，与语音助手进行交流，直到达到预期目的为止。记录语音助手完成此任务的耗时，以及用户满意度。

通过此次试验，可以直观地看出Siri和小e在处理同一指令时的反馈。语音交互的功能覆盖面虽然依旧不是很广，但用户体验却是其中至关重要的考量因素。交互时的任务完成度、耗时等都将影响用户体验。在测试结束后，让每位测试用户做问卷调查，希望能通过数据分析，对Siri及小e有初步的实用性比较评估。

语音助手大比拼：苹果Siri和华为小e

图1 手机语音助手

通过实验数据可知，Siri执行语音指令时的操作总耗时平均14.81秒，小e执行语音指令时的操作总耗时平均25.18秒。Siri在操作耗时上整体比小e短，即能更快的对语音进行转译并给出反馈。

而通过实验测试后的调查问卷，我们可以发现Siri与小e的用户满意度相近。但小e在服务质量方面更胜一筹，相较于Siri它能给用户更多的引导提示，这对不了解语音助手功能的用户而言更加友好。

只依靠操作耗时、用户满意度这两个实验数据我们无法断言Siri与小e哪个在性能上更好，但这可以作为评估语音助手实用性的一种参考。单从操作耗时的角度上看，Siri明显优于小e；单从用户满意度的角度上看，小e尤其在服务质量上要优于Siri。

二、实验设计

2.1 实验假设

苹果智能语音助手Siri发布于2016年6月13日，开辟了手机端中语音交互的先河，因此在技术层面上可能较华为语音助手小e更为成熟。对于同一语音指令，两者应该都能做到准确无误的文字转译，但在操作耗时上Siri可能还是要领先于小e。同时，苹果公司一直致力于用户体验研究，因此在用户满意度方面，Siri可能也会优于小e。

2.2 实验内容

现在的语音助手对于涉及基本功能的常规问题都能做到完美应答，因此在设计实验时更应该考虑到日常生活的需要。

此次实验内容旨在通过考查Siri与小e对同一语音指令的完成情况来评估两者的实用性。实验对象需分别对Siri和小e说出同一指令，并与其进行后续的人机交流，直至完成指令任务，记录耗时。在用户试验测试完后让其填写调查问卷，用户满意度可根据实验对象的调查问卷结果分析得出。

2.3 实验的设备及环境

本实验对环境没有要求，为防止不同手机对实验结果的影响，选取一部iPhoneX与一部华为P20作为固定的实验设备。

语音助手大比拼：苹果Siri和华为小e

图2 苹果智能语音助手Siri与华为小e产品界面比较

2.4 用户

实验对象一：

年龄：21 性别：女专业背景：大学工科在读

选择理由：该实验对象有5年苹果产品的使用经验，现正在使用iPhoneX，对苹果iOS操作系统十分熟悉，而对安卓系统并不熟悉，并且从未使用过华为手机。由于平时所学专业的原因，对电子产品及其语音助手功能十分了解，因此，对Siri有基本认识，但对小e不曾了解。

实验对象二：

年龄：20 性别：女专业背景：大专在读

选择理由：该实验对象有6年安卓产品的使用经验，现正在使用华为P20，对安卓操作系统十分熟悉，而对苹果iOS系统并不熟悉。由于平时所学专业的原因，对电子产品及其语音助手功能十分了解，因此，对小e有基本认识，但未曾使用过Siri。

实验对象三：

年龄：25 性别：男专业背景：互联网从业者

选择理由：该实验对象有6年安卓产品的使用经验，现正在使用华为P20 pro，对安卓操作系统十分熟悉。虽在此前该实验对象对华为的语音助手功能并不了解，也从未使用过小e，但由于个人爱好的原因，对电子产品及其他语音助手有一定了解基础。

实验对象四：

年龄：23 性别：女专业背景：普通从业者

选择理由：该实验对象有5年安卓产品的使用经验，现正在使用华为。因为自身原因，平时对电子产品使用不多，属于智能设备小白，因此从未使用过任何智能设备中的语音助手功能。

实验对象五：

年龄：55 性别：女专业背景：家庭主妇

选择理由：该实验对象有多年安卓产品的使用经验，现正在使用华为。对智能电子设备的使用频率较低，且对语音助手没有任何了解。因此对其的实验调查更能体现出语音助手是否真的便捷了用户的操作。

实验对象六：

年龄：35 性别：男专业背景：研究交互方面的大学老师

选择理由：该实验对象常年做有关人机交互的学术研究，且在海外留学多年，在这方面有足够深的造诣，清楚地了解语音助手背后的工作机理。作为语音助手人工智能等方面的高学历用户具有一定代表性，可与其他其他普通用户进行对比。

2.5 实验任务

实验名称：苹果智能语音助手Siri与华为语音助手小e的实用性评估

实验对象：6人

实验设备：一台iPhoneX、一台华为P20

控制条件：因为本实验对环境等外界要求不高，因此在这方面不做控制。实验中取一部固定的iPhoneX作为Siri的实验设备，一部固定的华为P20作为小e的实验设备。

实验步骤：

提前唤醒语音助手；
实验对象大声、连贯地念出一条指定好的语音指令；
语音助手将该语音指令转译为文字显示，并执行回复操作；
若操作未达到实验预期效果，则让实验对象根据自身需求念出补充的语音指令，重复上述操作直至达到预期效果；
记录操作耗时，并让用户填写调查问卷。

分组实验指令：

“给妈妈发微信祝她生日快乐”；
“发短信给妈妈说记得提醒我明天下午两点去小剧场彩排节目”；

调查问卷：

您的性别
您的年龄
您的学历
在使用语音助手时是否出现卡顿、闪退、打不开等现象
使用的语音助手界面是否直观清晰，界面交互风格是否舒适
是否简单上手、容易学会
我使用的语音助手是否能准确识别出我所说的话（包括普通话、方言、长句子等）
我所使用的语音助手闲聊持续久、声音自然，能“像人”一样交流
我所使用的语音助手为用户提供操作指引，如“试试对我说……”
我所使用的语音助手能在交流过程让我感到有趣，娱乐

2.6 实验的过程

由于实验设备固定，所以实验对象无法同时进行实验，必须按次序进行。同时，又因为有些语音指令无法一步完成，需要与语音助手进行后续的交流，所以不能同时开启两个语音助手进行实验。

由此，需要每个实验对象依次进行实验，在了解要执行的语音指令后，先对Siri（或小e）进行测试，再对另一语音助手进行测试。如此，算完成一组实验测试。实验共准备了两个问题，所以实验对象需重复以上动作完成两组测试。

在测试过程中，主要需要记录实验对象开始说出指令时，便在一旁用手机计时器进行计时。若语音助手能顺利完成任务，则在给出准确反馈时结束计时。

两组测试完成后需要让实验对象填写一份问卷调查，实验对象需针对每个问题给出相应的分数（10分制），最后进行数据分析，得出该实验对象对两款语音助手服务质量、产品质量、内容质量，以及整体使用满意度的分析结果。

三、实验结果

此次实验中的主要测试数据为实验对象使用两款语音助手执行语音指令时的操作耗时，以及用户在测试完两组语音指令后对该两款语音助手用户满意度进行反馈的调查问卷。

第1组：“给妈妈发微信祝她生日快乐”

从实验对象说出语音指令时开始计时，直至达到预期效果，语音助手给出最后反馈结束计时，得出两款语音助手在面对本指令时的操作耗时，数据如下图所示：

图3 Siri与小e在执行指令1时的耗时比较

从上图所示的图表中我们可知：Siri的平均操作耗时为11.758秒，华为的平均操作耗时为30.302秒，在操作耗时方面Siri要明显优于小e。Siri的标准误差为0.555，小e的标准误差为2.075，相较于小e，Siri显然要更稳定一些，对不同用户的语音都能进行准确转译与反馈，因此操作耗时相差无几；而小e的操作耗时受不同用户的影响更大，数据起伏大。

将该组实验数据进行单因素方差分析，可得p值为6.01E-06，因为p<0.05，可知本次实验中，不同的语音助手在操作耗时方面有极大的区别，数据如下表所示：

图4 Siri与小e在执行指令1时的单因素分析表

第2组：“发短信给妈妈说记得提醒我明天下午两点去小剧场彩排节目”

图5 Siri与小e在执行指令2时的耗时比较

从上图所示的图表中我们可知：Siri的平均操作耗时为17.862秒，华为的平均操作耗时为20.055秒，在操作耗时方面两者相近。Siri的标准误差为1.253，小e的标准误差为0.686，相较于Siri，小e要略稳定一些。两者的操作数据在此次试验中受用户的影响都较小，数据平稳。

将该组实验数据进行单因素方差分析，可得p值为0.156，因为p>0.05，可知本次实验中，不同的语音助手在操作耗时方面的区别不是很大，数据如下表所示：

图6 Siri与小e在执行指令2时的单因素分析表

用户满意度：

在实验对象结束两组实验后，对其进行问卷调查，调查问卷中的问题设置如前文所示。

调查问卷主要研究三个方面：产品质量、内容质量、服务质量。产品质量指该语音助手在运行时是否卡顿、界面设计是否舒适；内容质量指该语音助手在语音转译时是否正确，能否准确识别方言等；服务质量指该语音助手是否对用户进行适当引导，在用户提问出错时对其进行类似“你可以试试对我说…”的引导性提问。

最终数据结果如下图所示：

图7 Siri与小e在执行指令2时的单因素分析表

由上图可知，Siri与小e在用户满意度上的区别并不是很大，在内容质量上两者几乎没有差别，即Siri和小e的文字转译正确率都接近100%。

在产品质量上小e略高于Siri，而在服务质量上小e以较明显的优势压过Siri。大部分测试对象都反馈小e在用户引导上有更好的设置处理，使得从未使用过语音助手的小白也能轻松上手，从而真正达到语音助手便捷用户这个目的。且小e的操作可修改性较高，对于用户的实际操作会根据需要拆分成几个步骤，而Siri则是一步到位，若要修改必须从头再来。