可用性测试7大实战技巧

上仙修行

杭州/产品设计师/2年前/8518浏览

版权

可用性测试7大实战技巧

上仙修行

今年借着产品大版本迭代的契机，为了提升产品体验，组织开展了一次关键高频菜单的可用性测试。

一、项目背景

在过去的一段时间内，我们团队一直在关注用户在使用我们产品时遇到的问题，并持续收集用户反馈。今年借着产品大版本迭代的契机，为了提升产品体验，我组织开展了一次关键高频菜单的可用性测试。可用性测试的主要目的是为了了解用户如何使用我们的产品，以及他们在使用过程中遇到的问题和困难。通过测试，我们可以收集到用户对产品的真实反馈，从而更好地优化产品的设计和功能，提高用户满意度和忠诚度。在本次可用性测试中，邀请了一些具有代表性的用户参与测试，通过测试发现了一些产品中存在的潜在的可优化点，并落地到产品迭代优化中。通过可用性测试，不仅提升了测试页面的用户体验，更在客户侧体现了我们的专业素养，让客户看到我们真正重视产品的体验设计。我将整个过程总结分析提炼为实用的方法和经验分享给大家，希望对你们实践可用性测试有所帮助。

二、可用性测试引入

可用性测试顾名思义是对可用性的测试，可用性是指在特定环境下，产品为特定用户用于特定目的所具有的有效性、效率和主观满意度，即用户能否用产品完成他的任务，效率如何，主观感受怎样，实际上是从用户角度看待产品质量，是产品竞争力的核心。可用性的起源是有严谨的科学依据的，最早来源于人因工程。人因工程起源于二战时期，用于研究新武器极限和特性，该领域是众多学科的结合，包括心理学、人体测量学、统计学、工程学、工业设计、计算机等。而后可用性实验测试法主要是通过控制变量来研究可用性测试变量，利用认知心理学知识来分析可用性测试过程和结果。使用可用性测试，不仅是因为该方法严谨科学，更因为是被行业应证有效的体验测试方式。1981年可用性测试第一次有记录，当时施乐公司员工用于测试Xerox Star系统。80年代初被提出后马上在80～90年代风行于业界，影响了施乐（Xerox）、苹果、IBM等一代明星公司的产品评估流程。由于对产品评估有效，可降低产品发布成本，该做法后来已成为行业惯例。

可用性测试的定义是指让一群具有代表性的用户对产品进行典型操作，同时观察员和开发人员在一旁观察，聆听，做记录。我们可以理解为在产品的不同阶段，根据产品和项目目标围绕有效性，效率，满意度等方面来制定需要可用性测试的目标，然后设置任务进行测试，以达到不同阶段对产品可用性测试的目标。

三、可用性测试实战全流程

我负责的是B端项目，由于保密性质，将不透露具体产品信息。该测试流程用户每天都需要用到，是高频重要菜单。新升级的设计方案改动是颠覆性的，需要改变了用户的行为习惯，而部分用户已经拥有了一定的使用习惯。在内部评审反馈良好的情况下，方案的迭代开发前，我们决定与用户验证进行可用性测试，以下我会讲一下整个可用性测试的全流程。

整体可用性测试的具体步骤：

1、明确目标；2、准备资料；3、任务设计；4、用户招募；5、预测试；6、正式测试；7、分析评审；8、输出报告

3.1、调研目标

1、验证需求：

1）验证“A模式”是否比“B模式”体验更好，效率更高（本次采用双方案对比测试）

2）不同复杂程度的流程下结论是否一致

2、迭代优化：

1）发现问题，挖掘优化需求

2）为后续优化做铺垫

3.2、资料准备

1、整体构思阶段：

1）→目标反推 → 任务为中心 → 脚本测试物料 → 围绕目标招募人员（测试前也要考虑后期的执行）

2、产品相关准备：

1）测试脚本设计，任务卡，问卷：SUS量表 NPS量表

2）环境准备（原型/测试环境），记录表：建议打印n+2套，n是测试样本数量，另外2套备用。

3、其他准备：

1）录音设备：手机自带录音功能或专业录音笔。录音前必须告知用户，在征得许可后方能进行录音。

2）录屏设备：电脑自带录屏功能，或录屏工具。

3）记录本和笔

4）测试酬劳：小礼品

5）测试场地：提前预约

6）其他：眼动仪，摄像机等其他设备

3.3、任务设计

为了保证结果的严谨性：严格控制变量-对两个模式不同复杂程度，进行对照设置任务

3.4、用户招募

为了保证结果的可靠性：用户分层测试，对深入业务人员，了解业务人员，业务小白分别进行招募。

3.5、内外测试

为了保证正式测试的顺利进行：进行了5位内部人员的测试。

3.6、分析评审-数据总结

为了保证结果的全面性：多维度提供数据。本次测试我主要测试数据为：sus量表，NPS净推荐值，任务时长，完成率，客户访谈反馈问题落地率（评审获得）。

系统可用性量表SUS（Measuring and Interpreting System Usability Scale）是衡量产品的可用性里最常用的问卷。其主要作用是：

① 对系统可用性评估： SUS帮助评估系统在用户使用过程中的整体可用性，包括界面设计、交互流程等方面。

② 用户满意度测量：通过用户对陈述的评分，SUS提供了关于用户满意度的定量指标，从而帮助设计团队了解用户体验。

③ 改进决策的支持： SUS的结果可用于指导系统设计的改进，有助于团队识别并解决用户体验中的问题。

SUS的评估标准 SUS评估表包含一系列陈述，包含了10项量表，用户需要根据他们的经验和观察为每个陈述给出一个评分（1=完全不同意，5=完全同意）。通常SUS的分数范围是0到100，其中越高的分数表示系统的可用性越好。

评分问题包含（使用过程中对评估产品内容进行替换）：

① 我愿意经常使用这个网站。

② 我认为该网站不复杂。

③ 我认为该网站易于使用。

④ 我认为我需要专业人员支持就能使用这个网站。

⑤ 我发现这个网站的各种功能都很好地整合在一起。

⑥ 我认为这个网站有太多的不一致的地方。

⑦ 我想大多数人会很快学会使用这个网站。

⑧ 我发现该网站使用起来非常麻烦。

⑨ 我对使用该网站感到非常有信心。

⑩ 在我开始使用这个网站之前，我需要学习大量东西。

净推荐值NPS (Net Promoter Score) 是一个常用的客户满意度指标，用于衡量客户愿意向其他人推荐公司或产品的程度，可以体现客户对产品的忠诚度。

NPS 的计算基于客户对于以下问题的回答：

问题：在一个从0到10的尺度上，您有多大可能将我们的产品/服务推荐给朋友或同事？

根据客户的回答，分为三个类别：

①得分 0-6：这些客户被归为“批评者”，表示他们不太可能推荐产品，可能对其不满意。

②得分 7-8：这些客户被归为“中立者”，表示他们对产品的满意度一般，可能不会积极主动推荐，但也不会弃用。

③得分 9-10：这些客户被归为“推荐者”，表示他们非常满意，有很高的可能性会推荐产品。

3.7、输出报告

整个报告输出阶段交付资料包含：测试录音资料，测试纸质问卷，汇总数据与表格exel，最终的测试报告PPT。

四、可用性测试实战全流程

4.1、如何抓住合适的机会？

4.1.1、了解产品阶段

不同产品阶段可使用可用性测试达到不同的测试目标：

① 新产品或者改版的设计初期

探索型测试：新方案（创新型、重大变更）探索可实施性和用户接受度

② 设计中期可比较多种产品或者设计

比较型测试：对两种方案测试行比较，选取提炼最佳方案

③ 上线前后的产品评估

评估型测试：对现有方案修复问题，提出迭代方向

④ 产品中后期不断优化产品

验证型测试：主要是深入用户，持续优化，不断验证

实践指南

设计是产品的一环，找准不同阶段产品的侧重点实施可用性测试。

实战应用

目标：产品年度目标：大版本迭代的契机，提升产品体验。

行为：选择高频重点页面进行优化，测试用户对新方案的接受度

4.1.2、评估优先级

实施可用性测试之前最好先评估一下优先级。我们可以利用四象限法则，把事情分成重要紧急，重要不紧急，紧急不重要，不重要不紧急。不如不进行评估，容易造成可用性测试在产品落地过程中进行的太晚，如果等到产品即将发布前才想到去组织，会导致没有时间去修复，或者因为时间紧急草草了事，达不到应有的价值。

实践指南

第一次做测试建议选重要不紧急的项目

① 预留充分准备的时间

② 聚焦一个重点范围

实战应用

本项目为B端项目周期长，老版本较为稳定，虽然重要但是没那么紧急

4.1.3、得到项目支持

在可用性测试实施过程中势必要得到项目组的支持，才能事半功倍。

实践指南

① 借助客户提出的时机：收集用户有效反馈，驱动力更强

② 平时工作中体现专业素质：交付高质量、与合作团队频繁沟通

③ 提升个人专业度：UED知识与实践能力不断提升

④ 提升个人影响力：知识分享、输出文章、团队培训

实战应用

① 重点优化需求由客户提出，项目组很重视。

② 需求挖掘与交互设计方案得到项目组认可，觉得有实施可用测测试的必要。

③ 平时工作专业度得到项目认可，项目组支持UED的用研工作。

4.2、可用性测试任务-编写技巧

4.2.1、任务编写技巧

① 明确用户使用目标：

测试前了解用户的使用目标，围绕产品如何实现用户目标设置任务

② 从简单的任务开始：

多任务执行时让用户从简单的任务开始，使用户熟悉产品和测试过程

③ 一次给出一个任务：

拆分过于复杂任务，一次给用户一个任务避免用户混淆

④ 任务遵循设计流程

遵循整个产品的操作流程从前往后进行设计，避免流程倒置使用户困惑

⑤ 任务结合实际情景

任务设置可以故事化讲述，让用户有一个真实的使用情景

⑥ 避免给出精确提示

避免给出精确的指令引导使用户更易完成，导致结果不准确

⑦ 控制任务数与时长

任务组合不超过8个（跳出率会很高），总时长不超过半个小时

4.2.2 情景案例

实践指南

任务结合实际情景，避免给出精确提示。将测试功能情景化，使用情景语言，将用户带入情景，自行进行操作体验。

实战应用

任务脚本优化前：

“为测试流程管理功能，请逐点击每个流程的执行按钮进行执行，直到整个流程状态均为成功。”

分析：“点击”， “执行按钮”，是个精确的指示，用户更容易找到相应的执行方式，不利于测试出易学性和易用性。

任务脚本优后前：

“每日交易结束后进行******工作，您需要完成今日******~******的所有流程。并对您关注的日常数据进行对账调账保证正确性，直至当日******流程执行完成。”

分析：给出情景和实际需要操作的要求，到达的目标即可，剩下的交给用户摸索。值得注意的是，B端的使用用户，一般专业性强，日常操作目标明确，给任务的时候，需要圈定范围，不能太宽泛。

4.3、设定贴合任务的指标

可用性测试主要围绕有效性，效率，满意度等几个方面来制定指标进行测试的。

有效性：用户使用该系统完成任务的精度和完整性；

对应二级指标：可见性、可读性、可共性、一致性、容错性、易学性、修复诊断等。

效率：用户使用该系统完成任务需要耗费的资源；

对应二级指标：完成度、易操作、费力度（一般采用 7 分制，分数越高，代表费力度越低）、完成时长、跳出率

用户满意度：用户对该系统的舒适度和认可接受程度。

对应二级指标：不同层面的满意度、NPS推荐度（一般采用 10 分制，分数越高，代表产品越容易被推荐）

实战指南

设定指标时，需要根据测试目标确认测试任务，再根据任务拆解成不同的指标。比如我想测试我产品的

实战应用

测试执行的效率，设定的指标为任务“完成时长”和“完成率”。

4.4、如何节约测试成本？

实战指南

①测试前做好价值评估：出于成本考虑，价值不大的不做

②招募有效人数中尽可能少：尼尔森博士测试结果每个模块需要测试用户数为 5

③内部测试测试人员可适当增加：现场测试的成本较高，但为了保证有效性至少保证一个券商2名业务人员

④ 可遇见的数据可以不用测

考虑时间和目标的有效性

⑤前期减少开发投入

使用可跳转的高保真demo（需要设计师考虑实际使用的不同情况）。软件：Axure（线上缓存较慢）、principle（线上打开较快）

实战应用

① 在测试时选了使用频率最高的流程界面，其他分支不变的情况下，保持变量一致，不放在任务中。

②在招募人员时，招募人员7名，保证有效性

③ 招募了对业务了深入、了解、小白三个层次，包含了客户和内部人员。在招募时应当实事求是，可适当扩充内部人员。

④与原有方案测试对比时，为了控制单客户测试时长，只填写了新SUS量表，因为原有方案客户已经不认可了，使用SUS数据以及其他数据对两个方案开进行对比。

⑤我之前设计租机平台时，使用principle做了高保真demo，进行评估。C端推荐principle，效果比较仿真，可以做的效果比较多。可前往我的往期作品查看demo。

4.5、如何测试多方案？

实战指南

多个新方案对比分为“分组测试独立版本”和“同组测试多版本”。

① 分组测试独立版本：

将测试用户分为多组，一组测试一个方案且无交叉。这种测试方案需要基于大量的样本，类似互联网灰度测试多版本。但由于网络测试的成本相对较小，如果线下模拟测试，需要考虑测试的成本。B端测试还要考虑到是否能招募到这么多的用户，以及投入产出比。

② 同组测试多版本：

测试用户不分组，同时测试多个版本。这种测试方案在成本上更占优势，但是需要考虑一个是测试时间和复杂程度，如果方案较为复杂，用户测试多方案会倍感吃力，难免有情绪影响测试。另一个是测试会产生偏好，用户会有先入为主的想法，会倾向第一个方案，所以测试时最好均分测试人员，测试不同顺序的方案。

实战应用

本次使用的是同组测试多版本

① 为了节约测试成本，没有招募太多用户

② 为了让客户感知到我们前后的对比差异

* 用户使用两个版本明显觉得体验有所提升，对UED和整体服务水平评价很高。

4.6、五类测试中棘手的问题

处理原则： ① 时刻观察+及时记录 ② 保持中立 ③ 适当干预 ④ 事后回顾+详细沟通

4.6.1、行为阻断问题

用户行为阻断导致无法正常进行下去

情景一：用户提问然后我要怎么做，怎么找不到？

实战应用：

① 询问操作目标时，保持中立回答，给于适当的引导；

② 记录遇到问题的点，后续复盘是否是设计的问题

③ 结束后询问用户平时遇到这种情况会怎么做，了解客户真实处理问题的方法与途径。

情景二：用户一直停留在一个页面浏览也不说话

实战应用：

① 询问为什么停留（关注与其他，遇到问题），给于适当的引导；

② 如果是记录遇到问题的点，后续复盘是否是设计的问题

③ 结束后询问用户平时遇到这种情况会怎么做，了解客户真实处理问题的方法与途径。

4.6.2、问而不知问题

用户的问题，不清楚的尴尬场景

情景：清算业务客户拿他们使用的另一个系统做比较，问我是否同样的交互。

实战应用：

① 这个问题我先做记录，告知用户延伸问题请测试完成后沟通。

② 结束后追溯问题，使用的系统是否属于本公司范畴，目前只做该系统的解释，记录后反馈给产品。 ③ 平时多学习业务知识，避免出现问而不知的情况。争取带上业务人员，可帮助回答。

4.6.3、测试环境问题

现场测试环境出现不可的问题，无法顺利进行

情景一：测试环境在公司使用顺畅，现场经常掉线？

实战应用：

① 做好预演习是前提

② 带一个无线wifi/手机热点（一般无法连上客户的wifi，自带热点需要稳定）

情景二：测试过程中，报错，无法进行下一步操作

实战应用：

去之前提前联系好开发，时时支持服务，如现问题电话沟通立马修复

4.6.4、反馈笼统问题

用户反馈的问题宽泛不明确，难以直接辨认

情景：比如说这个很难用，给我加一个计数功能行吗？

实战应用：

① 时间允许下尽量问详细。比如“难用的具体点是什么？加这个功能帮助你解决什么问题？”

② 记录功能点，并告知后续处理方式。比如“这个功能点我们先记录，会尽量去解决你的困扰，但是落地方案需要具体设计并与项目组综合评估”。

4.6.5、填写问卷问题

用户填写表格遇到的问题

情景一：这个表格点反馈问题能不填吗？

实战应用：

① 与客户沟通，比如“如果您不想填写纸质问卷问题，您可以直接反馈给我，我来记录”。

② 做好记录与录音/最好是录屏，可以观看发现问题，录音前取得用户同意。

③ 可以使用线上工具填写，利于后续统计

情景二：这个表格怎么填？

实战应用：

对于没做过类似测试的，需要填写前大概介绍表格填写规则。比如SUS表格，要指出有些越满意分值越高，有些则相反（用户容易填错）。

4.7、测试结果的分析与技巧

4.7.1、数据整合

数据整合包括：数据收集，数据计算，数据统计。

① 数据收集：将我们测试过程中填写的表格和过程中记录的笔记、音频、视频等不同维度的数据，收集整合在一起，记录在线上的表格中，按照先分后总的模式保留所有数据。

② 数据计算：

根据制定的数据源来计算所需要的数据值，这里介绍一下SUS评分与NPS的计算方式。

1）SUS评分与评级，可以根据评分规则算出不同项的评分和总的评分等级。【计分方式】当参与者做完一系列任务后,就可以快速对SUS进行打分。然后就需要对每个题目的分值进行转换,奇数项计分采用“原始得分-1”,偶数项计分采用“5-原始得分”。由于是5点量表,每个题目的得分范围记为0-4(最大值为40),而SUS的范围在0-100,故需要把所有项的转换分相加,最终再乘以2.5,即可获得SUS分数除了获得SUS量表总分之外,还可以获得分量表得分。SUS中,第4和第10项构成的子量表为“易学性”( Learnability,其他8项构成的子量表为“可用性”( Usability)。为了使易学性和可用性分数能够与整体SUS分数兼容,范围也是0-100,需要对原始分数进行转换:易学性量表转换分数的总和乘以125,可用性量表乘以3.125。

2）NPS值也有相应的计算方式。【计分方式】NPS得分区间表示为-100到100，如果公司的批评者者多于推荐者，则得分为负；反之，则得分为正。一般来说，NPS≥0会被认为是“良好”的分数，NPS＞30会被认为是“优秀”的分数。如果你的NPS＜0，则表明的公司需要马上开始着手提升客户满意度。

用户净推荐值NPS= 推荐型用户% - 贬损型用户%

NPS数值越大，用户对产品的忠诚度也就越高。

③ 数据统计

最后将所有数据计算完成列入对应的数据表格中，汇总数据的表格有一些固定的模板，包含任务完成时间，完成率，不同维度的评分。建议根据自己的目标和收集信息来选取数据和建立表格。

实战应用

实践本次测试我汇总的主要表格是“单客户数据信息表”、“总客户数据信息总结表”、“用户访谈问题反馈总结表”。

4.7.2、数据分析

常用的8种数据分析方法：对比法、象限法、分组法、漏斗法、二八法、假设法、多维法、公式拆解法。本次测试主要使用分组法、对比法、象限法。

①、分组法：指根据数据的性质、特征，按照一定的指标，将数据总体划分为不同的部分，分析其内部结构和相互关系，从而了解事物的发展规律。

实战指南

对量表数据进行分组，对满意度、使用效率、易学性、有效性、可用性分别进行评分分析，分数高低的原因分别是什么。

实战应用

从本次测试结果来看满意度、有效性、可用性分值较高。分析原因：用户对新方案整体比较满意，解决了批次跳转问题，进度查看更直观。易学性分值较低分析原因：①、71%的用户未接触过新版本，短时间内完全熟悉新平台有一定理解成本 ②、14%的用户不了解业务，而使用清算管理页面，需要一定业务基础 ③、86%的用户对原有页面有一定的认知，存在惯性思维。④、用户对题目的理解程度不一样，有些用户觉得B端本身就应该有专业人员指导等。

②、对比法：指通过指标的对比来反映事物数量上的变化。

实战指南

同一维度数据，不同阶段对比同一指标数据，不同方案对比通过数据对比，分析数据提升或者降低的原因，也可作为可用测试的价值依据。

实战应用

从本次测试结果通过两个方案的任务平均时长比较，任务一任务二分别提升了68%和41%，可以得出效率有所提升。从客户打分的NPS值提升250%，可以看出忠诚度明显提升。

③、象限法：指运用坐标的方式，人工对数据进行划分，从而传递数据价值，将之转变为策略。

实战指南

可以确定不维度将四个象限进行划分，根据不同程度进行排序做出决策。

实战应用

根据问题频率，产品价值维度划分问题通过问题分布，定性分析，选择产品价值高，问题频率高的问题进行处理。可以对产品迭代进行优先级排期。

4.7.3、数据总结

数据分类总结处理：测试任务问题、访谈反馈问题综合总结与复盘。