小马的世界

人机交互中的人的因素

2023-06-29 · 25 min read

HCI 中文Chinese中国語

这是我在实验室论讲中的稿件。

Human Factor在研究人与计算机交互、人与机器人交互等领域非常重要。设计以人为中心的三维交互界面时，考虑到Human Factor是至关重要的。

Human Factor考虑到了人的能力、性格和限制，同时也关注人的身体、感官和大脑。考虑到Human Factor的产品或设计能够让人更安全、高效和舒适地使用。

为了考虑到Human Factor，我们首先需要对其有一个清晰的认识。因此，第三章将提供对Human Factor如何影响UI设计的概述。

接下来，我将从Perception、Cognition和Physical ergonomics三个方面介绍Human Factor。

在介绍Human Factor之前，我们需要了解一些与信息处理相关的概念，以便更好地理解。

首先，让我们来确认一件事情：感知在日语中对应的词是什么？认知呢？

感知侧重于人通过感觉器官获取和解释外部信息的过程。它包括信息的接收、传递、筛选和解释。感知让我们能够直接体验现实世界。

而认知则侧重于利用感知到的信息，进行加工处理和解释，以建立认知和理解。认知需要运用注意力、记忆、思考、学习等步骤。

让我们以见到Sawabe-sensei为例，来说明感知和认知的信息处理流程。当我们看到Sawabe-sensei时，我们的眼睛接收到了他身上反射的光线，同时我们也听到了他的声音。这时，我们的注意力资源要求我们关注Sawabe-sensei。结合我们对他的经验和长期记忆，我们能够有效地识别出他是一个人，是一个男性，是Sawabe-sensei。这就是感知的过程。

然后，认知开始发挥作用。我们注意到Sawabe-sensei要过来和我们打招呼，我们将这些信息暂存在短期记忆中，然后做出决定和反应，例如和Sawabe-sensei打招呼。

这就是我们见到Sawabe-sensei时的整个信息处理流程。

在这里，我们提到了工作记忆，其实就是短期记忆。它具有有限的容量，只能在当下起作用。例如，当Sawabe-sensei过来的时候，如果我们集中注意力观察他的手势，可能就没有留意到他穿着什么衣服。相反，长期记忆的容量更大，并不受注意力的影响。

现在让我们转向注意力的讨论，因为了解注意力对于设计师更好地设计用户界面非常重要。

注意力可以被分为不同的形式：

选择性注意（Selective Attention）：这是指在面对多个感官刺激时，我们有能力选择性地关注和处理其中一个刺激，而忽略其他刺激。通过选择性注意，我们能够在复杂的环境中专注于特定的信息，而忽略其他不相关或次要的信息。举例来说，当Sawabe-sensei过来时，我们可以选择将注意力集中在他的身上，也可以集中在制作Rinko的幻灯片上。
集中注意（Focused Attention）：这是指将全部的注意力集中在单个任务或刺激上的能力。当我们需要解决复杂问题、学习新知识或进行详细观察时，集中注意起到关键作用。在集中注意的状态下，我们将大部分注意力集中在特定的任务或刺激上，以便更好地处理和理解它。举个例子，当我选择将注意力放在制作Rinko的幻灯片上时，可能就没有留意到Sawabe-sensei向我打招呼。
分配注意（Divided Attention）：这是指同时将注意力分配给多个任务或刺激的能力。它涉及在不同的任务或刺激之间进行切换和分配注意力资源。分配注意力使我们能够同时处理多个任务或感知多个刺激，但可能会导致注意力分散和任务执行效率下降。例如，在上课时，我们不得不同时听老师上课并阅读他的幻灯片。

这三种注意力状态在我们日常生活中经常出现。选择性注意帮助我们过滤信息，集中注意帮助我们深入思考和解决问题，而分配注意则允许我们同时处理多个任务或刺激。根据具体任务和环境，我们需要灵活地切换和运用这些注意力状态。

然而，由于生理上的限制，我们的注意力是有局限性的。例如，突然面对大量文字信息时，我们可能不知道从何处开始阅读。连续而快速的刺激也可能导致我们不确定应该将注意力集中在哪里。

决策（Decision）阶段的主要依赖于行为和技能。行为受到许多因素的影响。例如，在中国，当你遇到Sawabe-sensei时，通常会挥手并寒暄。但在日本，你可能需要鞠躬并打招呼。这种行为的差异是由过去的经验决定的，并且可能会受到情绪状态的调节。此外，随着习惯的形成，身体对刺激的反应可能会降低甚至停止。例如，如果我突然碰触你的身体，刚开始时你可能会有激烈的反应。但经过多次刺激后，你可能会逐渐停止对此的反应。这个理论也是虚拟现实治疗恐惧症的基础。

用户行为基于技能，可以分为认知（cognition）阶段、联想（associative）阶段和自主（autonomous）阶段。这一概念很容易理解。例如，你使用HoloLens 2，视野中有类似按钮的东西，但你不知道如何点击。我告诉你可以直接在空中点击或者轻捏双指，这是认知阶段。然后你看到类似的按钮，你会尝试使用点击或轻捏双指进行互动，这是联想阶段。最后，你知道了远处的按钮可以轻捏双指，而近处的按钮可以直接在空中点击。这就是自主阶段。

接下来是反馈的动作（response actions）。快速响应和准确性是一对权衡。如果想要快速响应，可能会牺牲准确性。这里有一个叫做菲茨定律（Fitts's Law）的规律，描述了人类在选择和执行动作时时间和准确度之间的关系。

菲茨定律表明，在进行一个动作时，动作的执行时间与目标的大小和距离之间存在一个反比关系。可以
MT = a + b * log2(2D/W)
ID = log2(2D/W) bits
IP = ID/MT bits/s
MT：动作执行时间Movement time
a、b：用于调整具体模型的参数，通过实验获得Parameters used to adjust the specific model, obtained through experiments
D：起始位置到目标的距离Distance from the starting position to the target
W：目标的宽度Width of the target
ID：难度系数，即难度指数Index of difficulty, representing the task difficulty
IP：性能指数，用于描述动作执行的效率 Index of performance, describing the efficiency of action execution
此外，还有一个叫做Steering Law的规律。举个例子，在一个虚拟现实游戏中，你需要通过一个隧道而不触碰到隧道的墙壁。这个规律的描述如下：

T=a+b \int_{c} \frac{d s}{W(s)}

C是参数化的路径。W(s)是随着路径变化的隧道宽度。a和b是通过实验得到的参数。

根据Steering Law，当路径宽度保持不变时，路径的长度对动作执行时间产生影响。简单路径是指宽度不变的路径。在简单路径中，动作执行时间可以使用以下公式表示：

T = a + b(A/W)
其中，T表示动作执行时间，A表示路径的长度，W表示路径的宽度，a和b是通过实验得到的参数。

从公式可以看出，当路径宽度W增大时，动作执行时间T减小。这也类似于菲茨定律（Fitts's Law）中速度和精确度之间的权衡关系。

Page 75

关于感知（Perception）

首先是视觉（Visual）。在3D UI的设计中，视觉起着至关重要的作用，并且在设计中需要准确地传达视觉场景以有效吸引用户的注意力。因此，为用户提供一些线索是必要的。

首先是单目静态线索（Monocular, Static Cues）。物体越大，离地平线越近，它们就会显得更大。
实验：绿色的方块会保持与您的头部相同的距离，而白色的方块则与环境保持相同的距离。

物体的遮挡也有助于理解物体的前后关系。例如，5号方块和4号方块之间的遮挡。有时候，阴影也可以提供一些信息，比如3号方块和4号方块之间。

线性透视也有助于解释物体的远近关系（参考HoloLens的例子）。近处的方块可以看到其侧面，而远处的方块则不行。

大气透视效应表现为越近的物体饱和度越高，越远的物体饱和度越低。请判断一号方块和二号方块哪个更远？

眼动（Oculomotor Cues）会根据不同物体的远近来调整眼球位置。

运动视差（Motion Parallax）是指当我们行走时，感觉到月亮伴随我们一起移动。可以看一下白色方块的例子

双目视觉。观察白色方块，交替使用左眼和右眼观察。越近的物体，左右眼之间的差异越大。

Page 82

让我们通过听觉来感受一下。
Let's experience it through auditory perception.
听觉是仅次于视觉的感官系统。人类的听觉系统主要依靠双耳时间差（Interaural Time Difference，ITD）、双耳响度差（Interaural Level Difference，ILD）以及频谱信息进行定位。在这里，我想解释的是头部传递函数（Head-related transfer functions，HRTFs）。

使用耳机听声音的时候，我们发现它虽然是左右立体的，但是我们无法分辨和定位它在空间的位置。说明我们感受和定位声音还有其他机制。因此科学家们提出了一种更加完备的理论——耳廓滤波效应。声源从空间中的一点发出声波到达耳朵，经过听者躯干、头部、耳廓的散射和反射，最终传递到鼓膜时，声波信号在某些频率得到加强，而另一些频率发生损耗，且相位发生了改变。这个频谱信息转换的过程可以通过 HRTF 这个概念来进行描述。

测量HRTFs的方法是目前最准确的，但也非常耗时。因此，通常会采用计算方法来模拟HRTFs。

你可能听说过AirPods，它具有空间音频功能，可以更准确地感受来自不同方向的声音。这是通过使用HRTF的计算和模拟来实现的，以模拟不同声源到达耳朵的频率和相位。

现在让我们来看一下三维音频演示：HoloLens。

Page 87

Tactile是基于touch的，Haptic是基于力force的。想像有两个球，两个都是2kg，一个是铁的，一个包裹了皮革。

人不同部位对于Somatosensory的感觉的分辨率（包括空间和时间）是不同的。

疼痛也是一种Somatosensory，现在也有研究证明疼痛程度会受到人的期望和注意力的影响。

Page 91

化学感受系统主要涉及味觉和嗅觉。嗅觉线索已经被证明可以触发情绪和记忆事件。无论是无意识还是有意识地，气味都会影响我们的情绪。例如，当我们闻到某种气味时，它可以与我们的记忆或经历联系起来，这种现象被称为普鲁斯特效应。
味觉结合了嗅觉和口味感受。这也解释了为什么在感冒或花粉症发作时，我们的食欲会下降，因为我们无法通过嗅觉感受食物的香气。

Page95
关于评估的方法会在Chapter4和Chapter11介绍，因此这里就不再详细叙述。

Page 97
认知
首先介绍一个新概念，Situation Awareness（态势感知）。它指的是一个人对周围环境和相关事件的感知和理解能力。这包括对环境中的人、物、事件和情况的感知、理解和评估。情境感知有助于人们形成对周围环境的综合认识，从而能够做出准确的决策和采取适当的行动。

以书中给出的图3-10为例，我们介绍在3D UI导航中的认知过程。

认知地图（Cognitive Map）是指个体在大脑中建立的关于环境和空间的心理表示。它是一种认知工具，用于组织、存储和操纵关于地理空间和环境的信息。认知地图可以是个人的心理表征，也可以是团队、组织或社会共享的集体认知。

空间知识的类型可以分为以下几种：

地标知识（Landmark Knowledge）：地标知识是指对环境的视觉特征的认知。它包括视觉上显著的物体或地标以及其他视觉特征，如形状、大小和质地。例如，在伦敦，大本钟（Big Ben）和伦敦眼（London Eye）是许多游客会立即记住的地标知识。
过程性知识（Procedural Knowledge）或路径知识：过程性知识描述了按照特定路径行走或在不同位置之间移动所需的动作顺序。只需要很少的视觉信息就可以正确使用过程性知识。例如，一个访问伦敦的人会很快记住从她的酒店到最近的地铁站的路径。
概览知识（Survey Knowledge）：概览知识描述了环境的结构或拓扑关系，包括物体位置、物体之间的距离和物体的方向。这种类型的知识类似于地图，并且可以通过地图获得，尽管从地图上获得的知识往往是与方向有关的。在这三种空间知识中，概览知识代表了（质量上）最高级别的知识，通常也需要最长的时间进行心理构建。

这些不同类型的空间知识在我们的空间认知和导航过程中起着重要的作用。它们互相补充，帮助我们理解环境、规划路径和导航。通过研究和理解这些不同类型的空间知识，我们可以更好地理解人类的空间认知能力和行为表现。

参考框架（Reference Frames）是指我们用来描述和理解空间中位置、方向和运动的框架或参考点。在空间判断过程中，我们使用参考框架来评估和决定物体、地点或者行动的位置、方向和关系。

空间判断（Spatial Judgments）是指我们对于空间中的各种关系和属性进行评估和推断的能力。它涉及到我们对位置、方向、距离、形状等空间属性的感知和理解。

在现实生活中的运动过程中，我们感觉自己处于空间的中心，这种现象被称为自我运动（egomotion）。在这样的运动过程中，我们需要将自我中心（第一人称）的信息与认知地图进行匹配，而认知地图通常存储着物体中心（第三人称）的信息。自我中心参考框架是相对于人体的某个部分定义的，而物体中心参考框架是相对于对象或世界的。在自我中心任务中，判断是根据自我中心参考框架进行的（图3.11），其中包括站点（眼睛的视点）、视网膜中心（视网膜）、头部中心（仅关注头部）、身体中心（躯干）和本体感知子系统（来自我们身体部位，如手和腿的视觉和非视觉线索）。

自我中心参考框架为我们提供了重要的信息，如距离（通过物理反馈，如步数或手臂长度）和方向（通过眼睛、头部和躯干的方向获得）。物体的位置、方向和运动与眼睛、头部和身体的位置和方向相关。

在物体中心任务中，物体的位置、方向和运动是在身体外部的坐标系中定义的，即它们是通过物体的形状、方向和运动来定义的。

物体中心属性不受我们的方向或位置的影响。在3D用户界面中，可以使用多个参考框架来实现不同的视点。自我中心参考框架对应于第一人称视点，而物体中心参考框架与第三人称（鸟瞰或外部视角）视点相关。

例如，在许多视频游戏中，用户通常在导航过程中看到环境的第一人称（自我中心）视图，但也可以访问显示当前位置的环境概览地图（物体中心）。当我们在环境中找到路径时，我们建立起物体中心的表示（概览知识）。然而，当我们第一次进入一个环境时，我们基本上依赖于自我中心的信息（地标和过程性知识）。因此，我们通常在开始时依赖于地标，然后在它们之间建立路径，并最终将自我中心的空间信息概括为物体中心的概览知识。然而，目前还不清楚人脑如何确定自我中心和物体中心空间知识之间的关系。

3.11这张图展示了人类参考框架（右侧）和相应的视角（左侧）。在图的左上角，是一个自我中心视角（egocentric view），表示用户位于环境内部。这种视角是以用户自身为参考点，通过自身感知来评估和理解空间位置和方向。在这个视角下，用户感觉自己处于环境的中心，可以看到周围的物体和景象。

在图的左下角，是一个物体中心视角（exocentric view），表示用户位于环境外部，从外部向内看。这种视角是以环境中的物体或其他参考点为参考，通过外部感知来评估和理解空间位置和方向。在这个视角下，用户可以看到环境中的物体相对位置和关系，以及整体的布局和结构。

图中的人类参考框架（右侧）展示了不同参考点对应的视觉、运动和身体感知。其中包括站点（眼睛的视点）、视网膜中心（视网膜）、头部中心（仅关注头部）、身体中心（躯干）和本体感知子系统（来自身体部位，如手和腿的视觉和非视觉线索）。这些参考点和感知系统在空间判断和行为中起着重要作用，帮助我们定位和理解环境。

通过将视角和参考框架结合起来，人类可以在自我中心和物体中心之间切换，以便更好地理解和操作空间。这种切换可以在不同的情境和任务中发生，例如在日常导航中使用自我中心视角来观察周围环境，而在查看地图时使用物体中心视角来理解整体布局。

这张图提供了一种说明人类参考框架和视角的可视化方式，帮助我们理解人类在空间认知中的感知和判断过程。

心理负荷评估的方法可以分为主观度量和客观度量两种。主观度量是基于用户的自我报告和主观感受进行评估的方法。其中常用的方法包括SBSOD（Spatial Behavior Scale for Objective Determination）和NASA TLX（NASA Task Load Index）。SBSOD是一种自我报告量表，用于评估用户在空间环境中的认知能力和负荷。NASA TLX是一种任务负荷指数，通过用户对任务的主观评分来评估认知负荷的程度。这些方法主要用于衡量用户的空间能力和心理负荷。

客观度量方法用于通过性能指标来评估认知负荷。其中一种方法是SAGAT（Situational Awareness Global Assessment Technique），它通过查询用户对情境认知的看法来评估任务情境感知。另外，可以使用地图绘制、运动估计等方法来评估用户在空间知识方面的表现。此外，人类错误也可以通过一些方法进行评估，例如任务分析和人类可靠性分析等。

心理生理学方法基于认知负荷与生理反应之间的关系，使用各种技术进行测量，包括心率、瞳孔扩张、眼动和脑电图（EEG）测量脑活动。脑电图（EEG）已经显示出在评估认知负荷方面具有潜在的效果，但获取良好的数据并解释结果并不容易。EEG用于检测对离散事件（P300）作出反应的事件相关电位。然而，EEG测量也可以在没有这些事件的情况下记录，这在操作员监测变化缓慢的内容时可能是有用的。

另外，心理负荷和人为错误与性能研究相关，也与人机交互评估密切相关。在分析三维用户界面中的性能问题时，可以考虑不同的资源分配维度，如处理阶段、处理代码、感知模态和视觉通道。这些维度有助于更好地理解资源分配和认知需求。

物理人体工程学在设计和分析3D用户界面时起着重要作用。它关注人体的肌肉骨骼系统，因此对人体解剖学和生理学的基本了解非常重要。

人体的肌肉、骨骼和杠杆系统对于执行特定任务的能力至关重要。人体有大约600种不同的肌肉，其中每个肌肉由快慢肌纤维混合组成。肌肉通过对其插入骨骼的张力施加功能，而骨骼则形成杠杆系统。人体可以进行各种运动，其中一些需要更大的力量，而另一些需要更长的运动距离。这些动作与杠杆系统以及肌肉的长度相匹配。肌肉收缩可以是等长收缩或等张收缩，而这对于了解3D输入设备的设计也非常重要。

人体的运动是由关节和肌肉共同产生的，通常是对刺激的反应。控制任务涉及外周神经系统通过电信号触发效应器，导致自愿和非自愿动作。大多数人类输出可以定义为控制任务，可以采取交互任务的形式。控制任务可以通过准确性、速度和频率、自由度、方向和持续时间等特征来表征，并且受到人体解剖能力的影响。任务特征直接影响了将控制映射到人体上的选择。控制任务可以通过手、手臂、眼睛、大脑等身体部位执行，而不仅限于肌肉骨骼系统。感觉-运动皮层的分布对于不同身体部位的性能非常重要。不同身体部位与皮层中的区域之间存在映射关系，其中大的身体部位通常提供更精确的动作。

手和手臂是最主要的人类控制通道，允许我们执行各种动作。手的肌肉骨骼结构包括腕部、手掌和手指，可以实现许多运动，如腕部滑动、手指和腕部的角度运动以及夹取手指的对立运动。手的组合构成了一个杠杆系统，可以实现多种控制维度。手的动作可以分为握力和精密握持。握力是指将设备握在手掌中进行动作，而精密握持允许进行更精细的运动控制。手柄和握持形状的设计对于手持输入或输出设备非常重要，考虑到力量握持和精密握持的不同需求，设计者需要选择适当的形状和握持方式，以确保设备的稳定性和用户的舒适性。

总之，物理人体工程学是设计舒适有效的系统的重要因素。了解人体的肌肉骨骼系统、运动类型和控制任务对于设计和分析3D用户界面至关重要。

在物理人体工程学的评估中，疲劳和用户舒适度是两个密切相关且不可分割的问题。以下是评估物理人体工程学问题的方法和技术：

主观评估：通过定制问卷来评估用户舒适度。问卷应考虑具体任务的类型和持续时间，以及用户可能采取的不同姿势。询问用户对使用的输入设备的物理方面的意见也是有用的。主观评估通常将用户舒适度和疲劳程度混合在一起，因为二者相互关联且用户难以区分。可以参考Neuberger（2003）和Marras（2012）的研究，了解针对某些身体缺陷人群设计的问卷和与肌肉相关的疲劳问题。
绩效评估：尽管评估绩效与疲劳或用户舒适度之间的关系具有一定困难，但仍有一些方法可用。通过任务绩效分析和错误分析，可以与随时间变化的疲劳等因素进行相关性分析。研究任务绩效是否随疲劳而降低或保持稳定。虽然绩效随时间的变化可能受到多种因素的影响（如学习效应），但与疲劳相关的绩效下降迹象可能是明显的。还可以通过视频观察来标记用户重新握持设备或稍作休息的迹象，并将其与任务执行时间进行比较。
心理生理方法：使用各种生理方法评估疲劳。这些方法通常结合特定模型，定义了生物力学原理。例如，肌电图可测量肌肉活动，评估肌肉张力和疲劳。尽管肌电图在实施时可能较为复杂，但它提供了有价值的信息，仅依靠模型无法可靠预测这些信息。此外，还存在一些测量特定肌肉和关节群的物理设备，如用于测量脊柱运动的设备。有关更详细的讨论，可以参考Marras（2012）的研究。

在评估过程中，重要的是测量特定用户的生理限制，因为舒适度和疲劳取决于个体用户的肌肉骨骼特征和能力。同时，比较和相关不同评估方法的结果是至关重要的，包括主观评估和用户观察结果。