6000字带你详细了解可用性测试

Viola_1241

苏州/UX设计师/3年前/232浏览

版权

6000字带你详细了解可用性测试

Viola_1241

这是一篇学习输出文。

1. 什么是可用性测试(Usability Test)？

a. 可用性测试概念

可用性：衡量交互式IT产品/系统质量的重要指标。指的是为「目标群体完成目标任务」所提供的功能/产品，对用户来说“有效、易学、高效、少错、好记和令人满意”的程度。

可用性测试：通过观察目标群体完成目标任务，记录用户操作行为&间隔时间&情绪反应，帮助设计者发现产品存在的问题，了解用户的能力范围，从而优化产品使其匹配用户需求&能力，最终达到提升用户体验的目的。

可用性测试的应用场景没有明确界定，它一般发生在产品研发上线的前中期，以获取真实反馈，帮助设计研发人员做决策/改进。也可在上线后进行，为迭代做支撑。

可用性测试可以分为两种测试类型：形成性测试（Formative Test）和总结性测试（Summative Test）。形成性和总结性两个术语来自教育学(Scriven，1967)，教育学中以相似的方式来描述学习后的测试结果形成性-提供及时的反馈来改进学习，总结性--评估学习的效果。

总结性测试有两种典型类型：基准测试和比较测试。

b. 可用性测试作用

1）对产品

发现问题——是否满足用户需求？哪里有问题？为什么会存在这些问题？
了解目标用户行为和偏好——用户的直接反应是什么？什么让用户感到困惑？哪个节点最能影响用户整体满意度？
聚焦方向，提升效率——综合对比问题严重性&满意度，能效最大化。

2）对团队

建立友情和信任——如果你是UX专业人士，减少不了解/缺乏经验的人对设计动机的怀疑；如果你是UX新手，建立他们对自己的信心。
弥合分歧的想法——毫无建设性的辩论，不如测试不同的想法，从用户那里获取答案。
管理者尴尬的请求——面对管理者的疯狂点子，提出可用性测试，缓解紧张局势。测试想法时大多不需要从头开始，可以测试市面上现存产品用户的反馈。
避免自己传递坏消息——有些提议很糟糕，一旦发布就会惨败，但没有人愿意当坏消息的传递者。通过可用性测试，允许实际用户对设计做出反馈，让用户传递“坏消息”。
以防万一你错了——即使是经验丰富的UX设计师，也不能每次百分百预测，用户对新事物的反馈可能并没有预期那么严重（好/坏）

2. 如何进行可用性测试？

a. 可用性测试流程

可用性测试和大部分测试一样，分为测前准备、测中观察记录、测后整理分析&汇报。具体各阶段的具体事项及关键点详见下图。

b. 可用性测试关键点

1）知情同意书

任何获取用户信息的测试/访谈都需要向用户说明任务的目的，以及收集方式&材料用途。
对于新产品/功能，还需要用户同意签保密协议。

① 仅说明

感谢您参加今天的研究。
本次研究的目的是__________。在今天的研究期间，您将使用特定系统来执行一些任务，任务完成后我们将询问您一些关于体验方面的问题。为了有利于数据统计与分析，今天的测试过程将会通过录音、录像&笔记的方式记录。收集到的所有原始数据只会由我们的研究小组成员查看，我们将对您的信息保密。
再次确认您参与本次可用性研究是自愿的，如反悔可随时停止参与本次研究。您也有权拒绝执行执行特定任务或回答特定问题，但须说明缘由。如无疑问，请在下方打勾表示同意上述规则。
本人知晓此同意书中所写内容，并同意参与研究。

② 须保密

感谢您参加今天的研究。
本次研究的目的是__________。在今天的研究期间，您将使用特定系统来执行一些任务，任务完成后我们将询问您一些关于体验方面的问题。为了有利于数据统计与分析，今天的测试过程将会通过录音、录像&笔记的方式记录。收集到的所有原始数据只会由我们的研究小组成员查看，我们将对您的信息保密。同时，本次测试内容为未上线产品/功能，也请您在测试后不要与他人描述测试内容，如经发现，我们有权向您追究责任。
再次确认您参与本次可用性研究是自愿的，如反悔可随时停止参与本次研究。您也有权拒绝执行执行特定任务或回答特定问题，但须说明缘由。如无疑问，请在下方签署您的姓名。
本人__________知晓此同意书中所写内容，并同意参与研究。

2）测5人足矣

一般进行的可用性测试属于形成时测试，测试对象5人即可。Tom Landauer 和 Jakob Nielsen 的早期研究表明，在n个用户的可用性测试中发现的可用性问题的数是：

N (1-(1- L ) ⁿ )

其中 N 是设计中可用性问题的总数（非确定值），L 是测试单个用户时发现的可用性问题的比例。 L 的典型值为 31％，是Jakob Nielsen大量项目研究得出的平均值。绘制 L = 31％的曲线得到以下结果：

该公式仅适用于将以非常相似的方式使用该网站的用户，如有几类高度不同的用户需要分组（每组5人）测试。

3）可用性测试要素

促进者有两类，一类是辅导员：指导参与者完成测试过程，如给出任务指令，回答参与者疑问，提出后续问题；一类是协调员，努力确保测试产生高质量、有效的数据，且不会影响参与者的行为与想法，实现这种平衡很困难，额外训练。
任务是指参与者在现实生活中可能执行的现实活动，可以是非常具体的任务，也可以是开放式的，可根据研究问题和可用性测试类型决定。一般可将任务卡片交予参与者，并要求其每次进行前大声朗读任务说明，确保完全阅读说明，也帮助研究人员记录任务阶段。
参与者是指正在研究产品/服务的真实用户。这就意味着其在现实生活中已经使用产品/服务，或者其与目标用户组背景相似，需求相近，但还未开始使用。

4）写任务需要避免的10大错误

任务的编写方式直接影响测试的成功与否。如果你给参与者指引，结果可能会偏向指引方向，并彻底改变测试的结果。如果发现任务难写，请考虑用户使用功能的最终目标，而不是任务最终目标。考虑人们为什么使用？最终想完成什么？

5）需准备的文档材料

筛选问卷：这是用于快速获取符合&愿意参与调研者的方式之一，问题要符合目标用户筛选条件。
测试前访谈大纲：这个只需要了解用户的大致信息，确认是否符合，以及拉近与用户间的距离，为测试做铺垫。
任务大纲：上一节已经写了如何开篇说明&应该如何写任务问题，这是本次测试的重点，成败关键，主要多费些时间&精力。
测试原型：如果是设计中/未上线的产品需要制作原型，最古早的可以是纸质原型；或者静态图片；也可以使用软件做一些动态原型；如果已经开发完成未上线，也可以使用测试版本进行；测试已上线的可以直接使用线上版本。原型越真实，测试结果越“真实”，如果是纸质/静态，很多过程变化会减少，也会影响整个体验反馈。
数据记录文档：主要是用于记录测试中用户反馈，如微表情类型&次数、提问次数、提问内容
测试后访谈大纲：可能需要预测试/脑爆预想用户可能出现的问题，已经我们需要追问的方向，如何挖掘。
满意度测试问卷：一般推荐使用软件可用性问卷，主要针对系统或功能进行整体评估，问题设计精炼清晰，使用快捷方便。其他问卷后续也会去了解整理后做分享。

6）数据获取与计算

开篇说过，可用性测试是用来测试“对用户来说‘有效、易学、高效、少错、好记和令人满意’的程度”，那么对应体现在测试数据指标上分别对应什么呢？

* 感知时间有时候比实际时间更重要

① 单个用户的记录内容

② 整理&计算记录的数据
当然分析的时候，是以任务为维度的，所以需要将各个用户的任务完成情况整理成如下几个表格。

*几何平均数受极端值的影响较算术平均数小，如果数据最大最小值差异过大，可以考虑使用几何平均数减少误差。

在判定严重等级时需要依据等级评定表，严重等级表并非唯一确定的，根据产品阶段会有所调整。

③ SUS 问卷回收&计算

（SUS System Usability Scale）软件可用性量表（使用标准化问卷）适用于小样本量的场景，更适合在平时测试时用于测量用户的主观满意度。SUS 总共 10 题，奇数项是正面描述题，偶数项是反面描述题，答题采用奇数的 5 分制。SUS 益于它正反向问题结合，以及具有广泛应用的可用性与易用性题型，在业内具有大量应用数据为基础，不论是客观性、灵敏度、可量化还是信度都具有较高的水准。

使用产品后，在“强烈反对”和“非常赞同”下面打勾来对产品进行5点评分；
强烈反对-1分；反对-2分；中立-3分；同意-4分；非常同意-5分；未填写：默认为中间值3分；
使用过程中，可以对题目的词语进行统一替换，如“这个系统”，可换成自己的产品/功能名称。

当收集好用户问卷反馈过后，步骤如下：

对于奇数序号的问题，将其得分减1；（比如第1题分数为4，得分为4-1=3分）
对于偶数序号的问题，将其得分被5减去；（比如第2题分数为3，得分为5-3=2分）
将所有问题最后的得分加在一起，然后乘以2.5；（每个题目的得分范围记为0～4，最大值为40，SUS可用性得分的范围在0～100，换算后乘以2.5）
计算出的结果即为产品的SUS可用性得分。

3. 总结

本文从可用性概念入手，明确可用性测试内容的范围&作用。
又梳理了可用性测试的完整流程，对各流程节点“应做什么？”“为什么做？”做出了解答，一图概览，清晰明了。
对于可用性测试过程中需要注意的点做出了着重说明，单节详述。
以上所有内容大多来源于尼尔森诺曼集团的官方“https://www.nngroup.com/”，也有来自国内的优设网站文章，本人仅做内容梳理工作，去掉很多生活化的语言，主要关注测试的过程和结论，方便后期实践翻阅。
2-b-5）所提到的文档，也有整理成可复用文档，方便后期实践快速入手。