如何做好体验评估(测试)工作?下面这些方法打包交给你!

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

编辑导语:产品设计交付给开发后并不意味着设计师的工作结束了,直到产品实际发布上线前,设计师仍需要配合项目组,尤其是测试人员进行最后的测试和评估。可用性评估的特性就用户调研活动一样,没有哪一种方法是完美的,不同的方法存在不同的瑕疵,需要互相配合使用才能让产品达到最理想的体验状态。

如何做好体验评估(测试)工作?下面这些方法打包交给你!

「产品可用性的定义:特定用户在特定使用场景下,为了达到特定的目标而使用某产品时,所感受到的有效性、效率及满意度。

——《ISO 9241/11》中对可用性的描述」

一、产品为什么需要可用性评估

产品设计交付给开发后,是不是设计师的工作就算结束了呢?并没有!从设计稿的交接开始,一直到实际发布上线前,设计师仍需要配合项目组,尤其是测试人员进行最后的测试和评估。设计的过程结束了,但新的起点又开始了。

正常来说,评估会有专业的测试或运维工程师来执行,不过本着负责任的态度来说,设计师自己设计的作品是否满意仍需要自己把关。毕竟在作品的体验细节上,测试运维工程师并不具备相关的知识储备和评估方向。

那么,该如何对产品进行评估呢?难道是运用像素眼对着设计稿检查一遍像素误差吗?还是说检查字体字号大小的问题?其实以上都有,但实际的可用性评估不仅限于这些问题。

评估的范围往大了讲可以上升到整款产品的全部体验内容,比如可用性、易用性和易学性等。

下面,本节将围绕可用性评估,详细说说一款产品该如何进行评估活动。

相信有很多读者认为:一款产品如果真的不好用,那也太菜了吧。这算不算是一种极端情况?确实,不可用的情况确实属于极端情况之一,但是从过程上来看,大部分项目一开始的目标确实是奔着“可用”去的,然而随着研发的不断推进,结果却会朝着“能用”方向发展。虽然只差了一个字,但是产品使用起来的体验效果却有了天壤之别,举几个常见的例子:

例子一:用户在某网站上进行注册。为了认证实名信息,需要填写20多项内容,而且每项内容都有严格的格式规范,比如生日格式必须是xx-xx、手机号前缀需要自行填写地域区号、身份证号码必须采用间隔符“-”隔开等等。

好不容易用户全部填写完毕,碰巧此时网络出现错误,页面跳出下图提示。待用户调试完网络,刷新页面后,发现之前全部的已填信息早已清空重置了。

如何做好体验评估(测试)工作?下面这些方法打包交给你!

网络连接错误导致页面失去响应

例子二:在某搜索引擎输入“BOOK”(英文)关键词,检索出来的信息却只是针对大写BOOK的展示——搜索引擎忽略了小写book的字母检索。

如何做好体验评估(测试)工作?下面这些方法打包交给你!

未找到搜索结果

像这类例子还有很多很多,虽然从产品使用角度而言功能是具备了,也确实能用,但站在用户体验角度,这样的产品可以说是“极其不好用,甚至根本没法用”。试想一下如果你碰到这样的问题会不会奔溃,也许当场就关掉,以后再也不用了。

现在明白为什么设计师要对产品进行可用性评估了吧。因为这些体验项目并不在测试工程师的职能范围之内——他们只负责产品数据和逻辑方面的问题。只有用户体验设计师从体验角度出发,才能发现这些产品体验的优劣所在。

二、什么是产品可用性

了解了对产品进行可用性评估的理由,那么接下来就详细地说说产品可用性具体是指什么?哪些又称得上是可用性测试的范畴?

在国际标准ISO 9241/11中把产品可用性定义为:特定用户在特定使用场景下,为了达到特定的目标而使用某产品时,所感受到的有效性、效率及满意度。

首先是有效性,是指产品能够为用户提供想要的功能,从而达成相应的目标的一种指标。从某种程度上来说,有效性是包含在可用性之中的,比如李明通过电商平台(A)买到了《卓有成效》,此时A对于李明而言就具备了有效(可用)的价值;反之如果买不到,则说明A对于李明而言失去了特定价值,变得不可用。该例子是站在销售视角来评估的,换做是产品本身功能的使用也是同样的道理。

因此一款产品只有满足了有效性这个大前提,后续的效率和满意度才发挥特定价值。

其次是,是指用户使用一款产品时的轻松程度。还是买书的例子,如果李明轻松三步就买到了《卓有成效》,那说明A用起来还是比较轻松的,效率很高;反之如果用户这点点那翻翻都没有买到,则说明A对于用户而言存在使用难度过大,效率不高的问题。

说白了就是用户完成某项任务的完成度,如果完成度过于低效的话,问题性质就会上升到有效性层面。

最后是 满意度 ,是指用户使用一款产品后所进行的一种全方位评价,比如在书店看书,环境很安静,书香氛围浓厚,那么相应的体验感和满意度就会大大增加;反之如果边上的书友吵闹,外边的工地还在施工,那么相应的体验感和满意度就会大打折扣,甚至逼迫读者离开书店。

所以,满意度是一种“全方位”评价,它不会因为某个单点的特殊情况而影响整体满意度。类似于宜家的体验地图,它就是一种全方位的满意度评价——会尽量在各个细节上服务到位,如果所有细节都满意了,自然整体满意度就会上去。当然咯,峰终定律在其中也起到了关键作用。

宜家体验地图其实就是对“峰终定律”的运用

以上三个维度是在主观场景下所提出的一种参照标准,产品如果同时满足这三个维度,就可以称得上“实现了可用性”。然而在实际工作中,这三个维度的重要程度和优先级是不同的——有效性是核心也是基础,效率和满意度只是为了验证有效性的一种指标而已。

三个维度也有优先级的排序

所以在设计产品时,请优先满足有效性,然后在时间和资源允许的情况下再去优化效率和满意度,这才是保证产品最终可用的“标准工序”。

三、评估和测试方法

那么,有哪些方法可以对产品的可用性进行评估呢?凭借感觉来?说句实话,感觉这个方法也不是不行,只不过我们得把感觉评估进阶一下,让它形成系统性的评估方法或标准,就像合意性研究,其实就是依据使用感受来对产品进行的情绪评价。

纵观市面上比较流行的评估方法,系统地讲,可以大致分成 形成性评估” 总结性评估” 两大类。

评估方法的类别

  1. 形成性评估主要是在产品初期和中期所执行的一种可用性评估方法,目的是为了挖掘产品的设计思路,在挖掘过程中加入可用性检查法对产品进行可用性测试。
  2. 总结性评估顾名思义,就是一种总结,适用于产品完成后(后期)所进行的一种可用性评估方法,比如跳出率、浏览率和满意度等就是在产品完成后才能测出的数据指标。

下表列举了一些常用的可用性评估方法。细化到如何选择评估方法则需要根据产品的开发周期、预算和针对性问题进行合理选择。无论是采用情绪板、低保真原型、纸质原型、口头阐述还是完整的产品演示等,笔者都建议对产品的评估应该尽早执行,尝试多进行几次,积小胜为大胜,积跬步才能致千里。

评估方法总结

(详细的评估介绍会在笔者个人主页逐步更新,本文是对市面上常用、常见的方法所进行的总概。)

1. 可用性检查

可用性检查一般会由专家或具备专业知识的人来进行检查,是一种有固定模板或思路的检查方法。它最大的好处是不需要借助用户就可以直接对产品进行可用性评估。能以低成本、更快速的方式找到明显可用性问题的方法。

让专家来进行评估可以提升整体效率,但是专业知识的人常常会因为“近朱者赤,近墨者黑”的经验之谈错过某些问题,所以可用性检查可以考虑加入用户来揭示这些问题。所以,可用性检查应配合可用性测试一起为产品的体验做出更全面细致的优化。

2. 启发式评估

启发式评估中有个极具代表性的方法,那就是 “尼尔森可用性十大原则” 。起初的启发式评估是作为一种可以“打折扣”策略的可用性评估法被引入到评估体系中的。

何为折扣?顾名思义就是节省金钱或节省时间的一种“打折式可用性评估”,它可以在一般的办公室场景下进行,无需多少资源即可达成可用性评估目的。

根据启发式评估中著名的“可用性十大原则”(下称启发式原则)指出,产品在进行检查的时候理应遵循十个启发式原则来保持良好的用户体验设计。具体的执行流程是:

团队组织3~5名专业的体验设计师,参照启发式原则对产品进行单独评估。在一开始会制定一个明确的目标或特定任务以走查这项任务所经历链路的体验问题,并需要找出任何违反启发式原则的细节。然后这些评估人员会聚到一起,将所有的评估内容汇总形成一份总结报告,在其中概述体验中遇到的问题,以及如何为后续体验优化提供相应的优化建议。

值得注意的是,在评估过程中没有硬性要求每个要素都必须遵从十大原则,毕竟这些原则其本身也多少存在悖论关系。因此,本着遵循原则的态度,在对每个要素进行评估时应尽最大程度地符合原则,如果出现评估意外也是允许偏离原则的。

言归正传,如果真的有一款产品全部满足了启发式十大原则,也并不意味着能和用户体验100%对等,但想来结果也不会差到哪去。

3. 认知走查法

认知走查法和启发式评估一样,都是一种按照固定模板或套路所执行的评估方法,属于形成性评估法的一种。

它和启发式评估最大的不同在于认知走查法是从特定任务出发,而启发式则站在产品整体角度来评估的,这也是认知走查法常常被运用在产品早期的根本原因——因为它可以帮助设计师验证产品方向是否正确,好及时作出相应的调整策略。

认知走查法的执行方式和用户调研活动中常用的“给定用户一个目标,然后用户为完成这个目标而使用产品的方法”大同小异,只是执行者从用户换成了设计师自己而已。

虽然节省了用户成本,但是认知走查法会让设计师容易陷入自我思维中无法自拔,因此走查法对具体的执行流程提出了一些建议:

建议团队组织3~6人组成一个预期用户组。为了提高有效性和评估数据的可靠性,建议这些专业人士在完成某项特定目标时,要考虑到各种各样的使用因素,并且使用的范围一定要超出预期用户的使用范围,这样才能增强捕获问题的可能性。

同时,专业人士在进行评估时,需要比较用户操作和自己操作的区别,并且将这些内容记录下来方便后续和其他组员进行汇总。也就是说白了,专业人士不仅要把自己当做是用户,还要把自己当作是设计者,一人分饰两角来评估产品的可用性问题。

4. 可用性测试

可用性检查的最大好处是不需要借助用户,同时这也是该方法最致命的缺陷所在,正因为此才有了检查和测试相互配合的现象,这样才能让产品的可用性评估更加全面。

可用性测试是指测试项目必须借助用户,让用户在特定场景中尝试使用产品完成某项特定任务或一系列任务的方法,而设计师的职责就是对用户使用过程和行为进行观察和记录。是不是听着和观察员的工作很像,没错,在可用性测试中,设计师,即主持人就是观察员!

但在一些工作职责上存在些许差别,比如设计师不会给予用户任何的提示和指引,唯一的工作只有观察用户行为并且记录相关数据。其中,所记录的数据包含但不仅限于是否完成任务、完成任务的时间、任务结果、是否中断、中断位置、跳出率等等。

除此之外,当用户使用完第一款产品时,还会让用户使用其它产品,并要求完成相同的任务目标,这样才能在多个产品之间进行直观对比,从而确定可用性问题所在。

为了保证数据的准确性,在可用性测试中还会要求用户配合使用出声思维法对当下的思考和行为进行阐述,这样可以方便设计师及时了解用户当前的意向。(该做法和焦点小组中的流程式访谈类似,因此流程式访谈属于可用性测试的一种衍生。)

可用性测试和检查不同,检查是发现问题后优化,再由同一组专业人员进行再评估。而测试因为加入了用户因素,因此必要时候需要开发人员及时配合,对产品进行快速迭代(毕竟用户不等人)。也就是说,根据每一轮测试的反馈结果,团队需要对原型或者产品进行新的增删改,然后快速投入到下一轮的测试中去。(该做法和焦点小组中的迭代式访谈类似,因此迭代式访谈也属于可用性测试的一种衍生。)

从场景上来细分可用性测试,可大致分为 户外和室内测试

4.1 户外测试

户外测试和实地调研类似,不过没有实地调研的调研成分,目的很单纯,就是为了让用户置身于生态效度下提高测试的真实性,即将产品置入到实际场景中,可以发现更多需要在特定场景才能发现的问题。

4.2 室内测试

室内测试和户外测试正好相反,是将用户带到办公室、会议室、家等室内场景执行测试的一种方法集合。虽然室内场景缺少生态效度,不过这样可以保证所有用户都处在测试产品的同一起跑线,避免由于受外部环境影响而产生的数据误差。

Tips:生态效度指模仿或置身于真实世界的环境。

室内测试中,有一项测试活动比较出名,那就是“眼动追踪”。

4.2.1 眼动追踪

眼动追踪需要借助相应的仪器才能进行测试。它首次应用是在认知心理学领域,后被衍生到医疗等专业领域,再后来经过在HCI行业的衍生应用,眼动追踪才开始逐渐踏入“研究人眼在哪里寻找信息”的目的,比如用户在浏览界面时,会盯着哪个位置看以及界面信息的捕获频率等。

各种各样的眼动仪

眼动追踪的具体执行过程如下:

需要通过眼动仪记录用户注释点和扫视点之间的运动轨迹,然后创建热力图。如果用户目光在某块区域上关注时间越长,则说明该区域的关注度强,在热力图上会显示红色;反之关注时间越短则说明该区域用户一扫即过,关注度弱,在热力图上会显示绿色(或蓝色),至于没有看到的地方则属于“视觉盲区”,显示黑色。

眼动追踪仪下的热力图

设计师可以通过这个方法来了解用户在成品界面上寻找信息和关注点区域的热度,然后直观地得到要对页面调整的方向,尝试通过热力区域让一些想要被用户关注的信息更容易被吸引到,比如Airbnb设计团队就是利用的热力图建立出了一个简洁的视觉层次,用以传递特定信息的区域被精准定位(吸引用户注意力),下面这张图就是Airbnb的Z子型布局如何吸引和引导注意力的热力图:

Airbnb的Z子型布局

总的来说,眼动追踪的目的是为了通过热力图的方式来了解用户在哪个位置寻找信息,这样可以了解到用户是否发现目标位置或正在处理什么问题。

不过,在用户执行眼动的过程中切忌让用户采用出声思维来配合表述。因为和观察员谈话或者回忆思索容易改变眼睛的注视点(人在回忆和思考时,眼神容易涣散),这会将热力图的数据打乱,不利于后期的数据整理。

那么观察员又该如何知道用户在执行期间的想法呢?建议可以采用回溯性出声思维,在事后通过向用户展示热力图、眼动轨迹和一起录制好的视频,让用户尝试采用回忆的方式来陈述当时的想法。

ips:回溯性出声思维指给参与者播放或展示当时的视频或行为,并要求说出他们当时的所思所想。

5. 合意性研究

合意性研究不仅可以满足可用性测试的要求,同时还可以满足易用性和易学性要求。

在《设计心理学》中,唐纳德·诺曼曾提出 “美观的产品实际上更有效” 的观点,这句话中的美观不能狭隘地理解成是“外部的美观”,其实应该考虑更深层次的“心理美观”,即ISO 9241/11中所以到的“满意度”。

所以,合意性研究并不是测试产品某项功能或某项任务的具体情况,而是在评估产品是否可以让用户产生预期的情绪反应。也就是说,合意性研究关注的是人的情绪而非产品的实际效用,如果说产品的实际效用好了,即产品可用性高,那么用户自然而然就会产生一种积极的情绪反应。

关于合意性研究的执行流程,是需要在用户已经使用完产品的前提下,设计师向用户提供提前准备好的情绪卡片(卡片上写着不同的情绪形容词),要求用户选择出其中“你认为符合当前使用后心情”的卡片来描述使用产品时的感觉(卡片描述内容不全,也可以允许用户自行添加)。可以是整体感觉,也可以是在使用的过程中的情绪波动(强烈建议选择这个方式),然后参照卡片分类法,创建亲和力图。这样可以更加直观地观察到用户在使用过程中的情绪波动,方便设计师创建体验地图来发现痛点,挖掘机会点。

情绪体验地图

6. 快速迭代

快速迭代测试法其实有很多同类型的理念,比如敏捷开发、精益设计、精益创业等等,这些方法都算是一种小步快跑、快速迭代的科学工作和做事的一种方法论。

相对于眼动和合意性研究的总结性评估而言,快速迭代属于一种形成性评估方法。它不同于传统的可用性测试目的是为了发现大量且细节的可用性问题,快速迭代的目的是迅速确定重大可用性问题,也就是前文所说的极端或接近极端情况的问题,然后快速优化。

“迅速发现问题”是快速迭代法的其中一个核心环节,重点在于“快速”。其次“迅速迭代”是另一个核心环节,重点在于“迭代”,即一部分人发现问题,然后再由另一部分人同步进行优化,如此循环往复直至完善。为了避免“闭门造成”的情况发生,建议在快速迭代法的执行期间,多配合其他方法进行观察和测试,避免产生资源内耗。

细心的读者会发现,快速迭代其实和迭代式访谈类似,所以严格意义上来将迭代式访谈完全是快速迭代的一种衍生。

7. 灰度测试

灰度测试通常和我们常说的“版本内测”概念相似,是指软件要在不久的将来推出一个全新的功能或者是重大改版之前,都会先进行一波小范围的内外部测试工作,然后由小范围逐渐放量,直至这个新功能覆盖全部用户,这个过程就是灰度发布,而逐渐覆盖的过程就叫滚动发布。

从颜色上来理解的话,就是从白(未知)到黑(已知)的过程中间会有个灰度区间,这个灰度区间就是用来过渡的。

在这个过渡区间,团队会通过逐步的放量过程发现产品在使用期间的问题,包含但不仅限于bug、体验问题,只要是产品问题都会在灰度测试期间被不断改进,也就是常说的查漏补缺,逐步完善,这样才能为产品正式发布之前打下坚实基础。

8. AB测试

从人机交互的角度来看,AB测试属于灰度测试的一种细分方法,是总结性的评估方法。其中AB测试的目的是为了通过对比两个方案,看出哪个方案更好的一种方法,比如通过点击率、感知力度、眼动追踪等方式对结果进行评估。

在AB测试中,会生成两种不同的方案,而这两个方案的唯一变量有且仅有一个(单因素设计法),比如红变绿、大变小等,然后将两组方案同时投放给对应的两组用户(A、B组,这就像初高中的化学实验一样,一组为对照组、一组为实验组)进行测试(同时投放是为了控制未知变量对用户的影响),接着通过日志分析、眼动追踪等评估方法来对比两个方案在数据上的优劣势。

不过在实际工作运用中,AB测试由于要出两套方案,所以这是一种双倍成本的测试方法,所以在使用的时候一般只会是很难决策的内容才会考虑采用AB测试。

更何况,AB测试是一项极其复杂的集数据设计、测试和分析工作为一体的测试方法,它不仅要涉及到开发内容,还要掌握一定的数据分析基础,比如对流量、域、层、桶、同层互斥分配和分层流量正交分配的设计等等,这对于用户体验设计师而言跨度比较大。这些工作在大型企业中往往会由专业的数据分析师担任,而在小公司,则会由产品经理兼顾,不过产品经理毕竟不是数据分析专业方向,也仅仅只是兼顾,因此对AB测试的数据分析仅流于于表面,更多深层次的数据分析还是需要依赖专业程度更高的数据分析师。

根据结果显示,用户对整体内容的框架理解,版本B明显优于版本A

四、总结

从上述所介绍的诸多可用性评估方法可以看出,无论是检查还是测试,它们都同时具备了和用户调研一样的活动目的——用户调研注重对未知功能的挖掘,然后设计它;而可用性评估则注重在前者完成的基础上不断寻找不足之处,然后尝试完善它。

因此,可用性评估的特性就像调研活动(这里主要指的是用户调研活动)一样,没有哪一种方法是完美的,不同的方法存在不同的瑕疵,需要互相配合使用才能让产品达到最理想的体验状态。

 

作者:大圣;公众号:叨叨的设计足迹

本文由 @大圣 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 pexels,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!

随意打赏

提交建议
微信扫一扫,分享给好友吧。