人机交互:评估方法

UCD的第四个阶段,对人机交互产品进行评估。本文介绍了易用性的定义和多个评估方法。

HCI Evaluation Methods

易用性 Usability

人体工程学:(DIN EN ISO 6385)

  • 人与系统中其他元素的相互作用
  • 将职业、理论、原则、数据和方法应用于工作系统的设计
  • 目的是优化人们的幸福感(Wohlbefinden)和系统的性能

研究内容:人-机器-环境的相互关系

研究方法:对人的能力和行为(生理、心理)进行深入研究,把成果用于设计和改善机器和环境。

研究目的:是机器和环境适应人的需要,这些需要包括:提高工作和生产效率、保障人的健康、安全和舒适。

易用性:(ISO 9241)
易用性是指用户在特定环境中使用系统,以有效、高效和令人满意地实现特定目标的程度。

评估可以通过以下标准进行区分:

  • 形成性(在设计过程中进行评估)
  • 总结性(在设计完成后)

易用性工程

  • 分析阶段:工作分析、过程分析和系统分析;调查用户需求
  • 概念阶段:工作设计和过程定义;决定系统功能;概念的创建(高保真/低保真模型 mock-ups
  • 开发阶段:原型开发;系统集成
  • 引入阶段:试点使用(Piloteinsatz);总体引入

参与方法

  • 谁:具有应用领域知识的用户或用户代表
  • 如何:
    • 被动合作(Passive Mitwirkung):开发者自行考虑
    • 主动合作(Aktive Mitwirkung):与负责人一起做出决定
    • 主动参与(Aktive Partizipation):用户可以直接设计(通过研讨会)
  • 什么时候:只在某个固定的时间点,或长期在核心团队中
  • 参与什么:定义、功能设计、工作领域设计

用户的评估

  • 评估结果决定了软件开发的质量。
  • 人们提出非功能性需求。
  • 用户的分组通常是不同质的:有系统经验的人、有计算机知识的人、有相关任务领域的经验的人
  • 其他区别:
    • 用户根据系统变化
    • 有时甚至在测试过程中发生变化(学习)
    • 较大的变化范围
    • 很难预测一个模型(Fitts’ Law例外)


评估阶段

评估目标

可达性(Accessibility):可感知性、可操作性、可理解性、健壮性
易用性(Usability):有效性、高效性、满意度
对话(Dialogues):适合任务、自描述、符合用户期望、可控性、容错、适合学习、用户忠诚度

基本评估过程

  1. 将用户需求与易用性标准相匹配
  2. 为这些标准选择合适的评估方法
    • 经济:自动化方法、基于专家的方法(但是信息量小)
    • 昂贵:基于用户的方法
  3. 评估测试结果来执行合适的动作(修改等)


测试方法

测试方法的分类标准

评估尺度:

  • 定性方法
  • 定量方法

测试方法:

  • 调查
  • 观察

专家/用户:

  • 基于用户的评估
    • 观察用户(观察)
    • 询问用户(调查)
    • 用户测试与预测模型
  • 基于专家的评估
    • 询问专家(调查)

目标:

  • 有效性
  • 效率
  • 满意度

设计:

  • 标准化方法
  • 自行设计方法

被试群体:

  • 个人
  • 定义的群体
  • 代表性群体

测试方法

这里只提出可能的测试方法,后面的章节会选取其中重要的方法详细介绍。

调查

  • 背景调查
  • 采访
  • 社会统计调查
  • 问卷调查
  • 关键事件
  • 被记录的会议
  • 自我报告
  • 示例截图

可能出现错误,例如采访需要结构化,问卷调查需要理解问题的作用。

观察

  • Thinking aloud
  • 启发式评估:无用户的评估
  • 认知走查(cognitive walk)
  • 多元走查(或协作走查(交互设计))
  • 形式化的易用性观察
  • 控制(某些特征)
    • 功能控制
    • 一致性控制
    • 标准控制
  • 指南清单
  • 性能衡量:验证效率(易用性之一)

观察相对于调查更客观。

创意方法

  • 焦点小组(focus group)和研讨会:从用户中选取代表参与评估(共同工作, 类似于co-design)
  • 基于剧场的评估:针对某一特定人群。例如对于老年人很少表达易用性的缺点,则邀请他们到剧场,由演员演示使用方法。

软件的分析

  • 基于模型的方法:例如GOMS、KLM
  • 自动化评估

对照试验 (完全没看懂,以后补充)


指示操作的评估(性能测试)

指示设备

指示设备:鼠标、MIDI pad、Thinkpad小红点、3D摇杆、Falcon…

分类:

  • 绝对/相对(例如普通旋钮 vs 无极旋钮)
  • 单手/双手操作
  • 指示内容:位置/移动/力度
  • 维度:一维/二维/三维
  • 操作方式:机械/触摸/视觉

时间特性

  • 双手操作可以减少错误的数量
  • 干扰效应仍不明确
  • 当多个感官和多种输入可能相结合时存在更多的时间上的要求

多媒体:使用多种媒体呈现内容
多模:多种输入方式用于产生同一状态
跨模:结合来自多个感官区域感知内容的能力(主要、次要)

Fitts定律(Fitts’ Law)

Fitts定律能够预测使用某种设备指向某个目标的时间。可以用于计算使用鼠标或其他输入设备点击屏幕上某个对象的时间,据此指导按钮位置、大小和密集程度的设计。

MT = a + b \cdot log_2(2\frac{A}{W} + c)

  • MT:完成动作所需的平均时间
  • a和b:常量,由选择的输入设备决定。通常可以通过回归分析来确定。a决定y轴截距,也即延迟;b是斜率,描述加速度。
  • A:(Amplitude)起始点到目标中心点的距离
  • W:目标区域在运动维向上的宽度,允许误差\pm \frac{W}{2}
  • c:常量,取0、0.5或1。

log_2(2\frac{A}{W} + c):难度指数(ID),描述运动控制的难度。表明移动速度b对平均时间的影响是以指数(log)传播的。

\frac{1}{b}:性能指数(IP),衡量移动任务中人体运动系统的信息处理能力()。当给定一个任务,为了达到最短的移动时间,b参数的值可以作为比较指示设备性能的评价标准。

![](F:\Mensch-Computer Interaktion\笔记\Pictures\FittsLaw.png)

1954年的Fitts’ Law

最初Fitts根据信息论提出这个定律,但是计算公式和现在看到的不同,当时的指示操作是一维的。

MT = a + b \cdot log_2(2\frac{A}{W})

使用2A而不是A是出于逻辑和实际两方面考虑,系数2可以保证这个指数在实际情况中总是大于0,另外还合理对应tolerance range,即从运动起始点到目标另一侧等距点的总范围。

详细内容阅读[Fitts的论文]

扩展的Fitts’ Law

McKenzie, Buxton的论文中提出使用香农公式对Fitts定律进行修改,同时对比了两种W的定义来适应二维的任务。

MT = a + b \cdot log_2(\frac{A}{W} + 1)

可以看到这里采用了c=1,并且去掉了A的系数2。这样可以:

  • 更好地适应观察结果
  • 完全模仿了Fitts定律背后的信息定理
  • 总能得到一个正数ID

Fitts的原始公式和Welford提出的c=0.5的公式存在的缺陷是,当A/W小于0.5时就会出现小于零的ID值。

关于W的定义,论文中主要对比了:

  • W’
  • SMALLER-OF
    两种模型。以一个与目标临边均不平行(假设目标是一个矩形)的角度接近目标时,W’定义为为目标在运动维上的宽度,需要使用倾角\theta_A来计算。而SMALLER-OF方法取目标相邻两边中较短的一条边作为W值。

其他参与对比的模型还有:

  • 总和模型(W+H)
  • 面积模型(WxH)

通过实验得到的结论是:W’模型保留了一维Fitts定律的特性,但是前提是接近角度必须已知(当然还有宽、高和振幅A)。SMALLER-OF模型更简单,但是只适用于矩形的目标。两个模型都显著优于STATUS QUO模型(固定W为水平尺度),但两者之间没有很大差异。

考虑教授给出的公式,应该是对以上几种计算方法的结合。A的系数2被保留,c值可以选0、0.5或1。举例子的时候他取了c=1。

应用Fitts定律的例子

Q:假设用户的鼠标目前指向屏幕正中间,设计者在屏幕上确定目标位置(1像素),让用户把鼠标移动到上面。哪5个位置可以使用户最快地移动到?

A:中心(当前位置)和四个角落。
对于中心,用户不需要移动鼠标,因此a和b最小。对于四个角落,因为当用户将鼠标移到角落以外的屏幕位置时,鼠标实际仍停留在角落位置,相当于一个无限大的目标,W值无限大时,当c=1,则b·ID=0。

Fitts定律用平均移动时间衡量易用性中的效率(Effizienz),若考虑有效性(Effektivität),可以统计出错次数并用错误率衡量。通过对比不同指示设备的错误率来评价他们的有效性。

运动控制的模型

优化的初始脉冲模型(Meyer)

  • 初始移动
  • 若达到目标,则结束
  • 否则:反复移动直到达到目标

优化标准差的方法

当目标很远且很小的时候,很难准确移动到目标上。

如果用标准差S来描述到达移动终点的准确度,则有

S = k(\frac{D}{T})

其中D为距离,T为移动所需时间,k为一个常数。

这个式子表达标准差S随终点的距离D增加而提高,随移动时间T的增加而减小。

因此有三种方法进行优化:

  • 减小D(也即A)
  • 提高W
  • 减小D同时提高W

方法1:减小D

  • 菜单的布局和定位

    • 下拉菜单不宜过长
    • 再上一次选择的选项旁提供子菜单
    • 上下文敏感的菜单从当前鼠标位置开始(?)
    • 饼状菜单:到每个选项的移动距离都相等(初始状态鼠标位于中心)
  • 临时的目标移动

    • 代理对象
    • 空白区域按规律出现

方法2:提高W

  • 区域光标(当目标分布密集时不适用)
  • 目标放大(鱼眼视图,防止遮挡周围的目标)

方法3:减小D并提高W
包含控件的语义

操纵定律(Steering Law)

用于衡量受控制的运动(基于轨迹的任务),例如用鼠标画一条直线。

MT = a + b \frac{A}{W}

可以把轨迹视作多个目标,运动的过程视作从每一个目标到下一个目标的移动。

变为\frac{A}{W}的线性时间,而非对数时间。

从ID1到ID2,A变为原来的一半。以此类推,n每增加1则A变为之前的1/2。

只用于验证直线边界。

在级联菜单中,纵向移动应用Fitts定律,横向移动应用操纵定律。

Fitts定律不适用的情况

扫视(眼球追踪)

眼球运动是球状运动,与目标大小无关。

3D运动

更多肢体部分相互独立地协作,自由度增加。


评估方法

启发式评估(Heuristic Evalution)

启发式评估是一种非正式的易用性检查技术,无需用户参与(只有专家)。评估人员使用一组启发式原则作为指导,并评定用户界面元素是否符合这些原则。

要求

  • 评估人员应该相互独立地完成评估过程,尽可能找到其他人没有发现的问题。

    因此,对多个评估人员的结论进行汇总时,每一个问题都很重要,而不能只考虑出现次数最多的问题。

  • 每个会话不超过两个小时
  • 需要的时候开发人员应该协助评估人员
  • 每个用户界面模块应至少被测试两次

启发式原则

10个启发式原则[Jakob Nielsen, 1994]:

  • 系统状态的可视性
  • 系统应与真实世界相符合
  • 用户的控制权和自主权
  • 一致性和标准化
  • 帮助用户识别、诊断和修复错误
  • 预防错误
  • 依赖识别而非记忆
  • 使用的灵活性及有效性
  • 最小化设计
  • 帮助及文档

99年Nielsen又提出了“HOMERUN”启发式原则[Jakob Nielsen, 1999]用于评估商务网站。

基于对6组评估的统计,通常只需要5位评估人员就可以找到75%的易用性问题。

用于评估网站的指导原则可以分为三类:导航类、访问类、信息设计类。可以将这些指导原则转变为启发式原则。不同类型的网站有不同的侧重点,通过指导原则分类可以帮助评估人员明确重点。有时不仅需要对易用性进行评估,还需要检查是否符合与网站类型相关的属性是否被支持。

启发式评估的步骤

启发式评估分为三个阶段:

  1. 介绍阶段:评估人员获得评估相关说明和指导。
  2. 评估阶段:每个评估人员1-2小时,至少检查界面两遍。第一遍了解产品的范围和交互过程。第二遍专注于具体元素并结合上下文找出问题。自行记录或由专门的记录员记录。
  3. 总结阶段:专家们集中讨论评估发现,确定文体优先级并提出解决方案。

有时对于特定的问题可以自己设计完成启发式评估。

缺点

有时可能会遗漏一些重要问题:采用多种评估技术相互补充,不能只依赖于启发式评估,不能把启发式评估作为用户测试的替代方法。

专家的报告可能存在偏见,即存在未发现的问题和找到的并非是真实的易用性问题:邀请多位评估人员参与以减少个人偏见的影响;采用多种评估方法。

认知走查(Cognitive Walkthrough)

逐步检查使用系统执行任务的过程,从中找出可用性问题。大多数走查技术不需要用户参与,除了协作走查(Pluralistic Walkthrough)是由设计人员、易用性专家和用户共同完成。

认知走查模拟用户在人机交互步骤中解决问题的方法,评估设计对于没有经验的用户易学度(ease of learning)。

认知走查的步骤

  1. 标识并记录典型用户的特征,基于评估重点设计样本任务。评估人员包括设计人员和评估专家。
  2. 评估人员对每个样本任务(子任务)回答以下四个问题:
    • 用户能否达到想要的效果(例如,用户是否知道为了达到目标需要完成这个子任务?)
    • 用户能否注意到正确的操作(按钮可见吗?)
    • 用户能否意识到通过这个操作可以达到想要的效果(用户是否能理解这个按钮的作用而去按它)
    • 用户能否得到适当的反馈(用户完成操作后能否知道自己做了正确的事/是否能意识到自己当前的进度)
  3. 汇总信息,修正设计。

认知走查的记录工作需要将可行与不可行之处都记录下来。

缺点

  • 工作量大,费时
  • 关注面有限,不适合所有系统

认知走查适合找出系统的细节问题,用于检查系统的一小部分。而启发式评估更适合检查系统的整体或多个部分。

原型

软件开发早期阶段的问题:用户难以评估抽象的GUI规范,而具有完整功能的GUI在开发后期才产生。
–> 通过原型方法解决。让实际用户尽可能早地测试原型。

优点:快速、便宜
缺点:功能受限、放弃了最佳的效率、放弃了稳定性和可靠性、只选择一个目标平台

原型方法的例子

  • Wizard-of-Oz
  • 手绘模型(Pen-n-Paper Mockup)


定性方法

定性的调查方法

  • Thinking Aloud
    被试者在使用人机交互产品的同时说出自己的想法,包括他们在看什么、想什么、做什么以及感受。这种方法可以让观察者透视用户的认知过程。观察者记录被试者所说的内容,不能打断他们。只有当被试者停下来的时候可以适当介入,询问一些没有引导性的问题,例如:

    • 您刚才在想什么
    • 您认为这条提示的意思是什么
    • 您认为刚刚发生了什么
    • 您希望有哪些反应
      来帮助用户更好地说出他们的想法。
  • 扎根理论(Grounded Theory)
    侧重于文本的分析。通过提取采访记录中的基础事实来导出共同点,采用文本处理工具(如聚类处理)找到存在问题的方面。

  • 问卷调查

问卷调查

开放问题\rarr定性分析
李克特量表\rarr定量分析

李克特量表(Likert Scale):
心理反应量表,广泛用于调查研究,被试者需要指出对某项陈述的认同程度。对于5级量表有1-5个认同级别“非常同意、比较同意、及不同意也不反对、比较反对、非常反对”。

  • 通过否定陈述来识别无效的回答(Lügenerkennung)
  • 确保陈述的健壮性
  • 以一般性的问题开头(注意提问的次序)
  • 问题陈述应单义、明确
  • 不要使用双重否定
  • 致谢/事后情况说明
  • 提供反馈渠道

优点:

  • 中立,高效
  • 样本容量较大
  • 已经存在许多标准化的问卷可供使用

缺点:

  • 结构化越强的问卷越缺乏自由空间
  • 越集中局限性就越强
  • 数据质量与调查技术有关(如何处理调查结果数据)

标准化问卷

符合质量标准:

  • 客观性:调查结果是否与调查人员无关
  • 可靠性:同样的状态能否得到相同的结果
  • 有效性:问卷是否能衡量它需要衡量的对象

例如:

  • 用户交互满意度调查表(Questionnaire for User Interaction Satisfaction, QUIS):
    评估人机交互界面中特定方面的用户主观满意度。包含个人基本信息调查(demographic questionnaire)、一个6个等级的整体系统满意度调查以及9个特定界面因素的调查。这9个因素包含:屏幕因素、术语和系统反馈、学习因素、系统能力、技术手册、在线教程、多媒体、远程会议和软件安装。
  • 主观工作量评估技术(Subjective Workload Assesment Technique)
  • 驾驶活动负荷指数(Driving Activity Load Index):
    NASA TLX针对驾驶任务的修订版本
  • 脑力工作量评定量表(Rating Scale Mental Effort, RSME):
    带有锚点的量表,在车辆测试中验证
  • NASA任务负荷指数(NASA Task Load Index, TLX):
    • 衡量用户心理负荷水平
    • 在实验室中常用:简单的认知任务、控制任务,复杂的监控、飞行模拟

NASA TLX

TLX将工作量表示为与任务执行相关的数字。

执行过程

  1. 参与者首先使用被评估的系统。
  2. 评估6个问题:
    • Mental Demand (MD)
    • Physical Demand (PD)
    • Temporal Demand (TD)
    • Performance (OP)
    • Effort (EF)
    • Frustration (FR)
      评估值分20个等级,从0以5递增至100。
  3. 然后将6个因素两两对比,让参与者从每对问题中选出他认为对于评估系统更重要的因素,从而得到每个因素的权重。
  4. 用每个因素的评估值乘权重并计算平均值,这个值就称为任务负载指数(TLX)。

缺点

TLX使用了李克特量表的方法,采用序数值,这样会导致测试结果总和呈正态分布。只有使用回答的数量(Anzahl von Nennungen)作为测试变量才是正确的。因此TLX指数各个区间不对应于相同的值的范围,不过尽管如此统计结论仍适用。除此以外可以使用非参数化测试分别对比每个问题或对中值进行分析。

参考内容

TUD Mensch-Computer Interaktion – Evaluationsmethoden

交互设计——超越人机交互

pluralistic walkthrough

Multimodalität (Psychologie)

Fitts’s Law

The Information Capacity of the Human Motor System in Controlling the Amplitude of Movement

Extending Fitts’ Law to Two-Dimensional Tasks

10 Usability Heuristics for User Interface Design

QUIS

发表评论

您的电子邮箱地址不会被公开。