一种移动端的用户注视行为推测方案

2017-03-24 13:20刘建民

电脑知识与技术 2017年1期

刘建民

摘要：随着计算机视觉应用技术的发展研究，眼睛注视的行为预测受到了国内外众多学者的广泛关注，同时在生物信息识别领域中也具有重要的研究意义。在智能手机平板普及的时代为改善人机交互而精确的预测移动端的用户注视行为变得尤为重要。根据现有视觉技术方面的研究利用大数据结合机器学习以及卷积神经网络知识提出了一种解决移动端的用户注视行为推测方案，并分析了大规模数据集在视觉运用方面的重要性。

关键词：视觉注视；移动端；数据集；行为推测

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2017）01-0254-03

Abstract： With the development of computer vision application technology， the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad， and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology， this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge， and analyzes the importance of large-scale data sets in visual application.

Key words： visual gaze； mobile end； data set； behavior conjecture

1 概述

伴隨着计算机软硬件性能和互联网技术的迅猛发展，大规模的并行计算技术突飞猛进，不断地发展使各种现有技术变得越来越成熟，同时机器学习和计算机视觉领域也都得到了飞速发展。视觉技术的发展变得越来越重要，并且可以应用到实际生活中的很多方面。人类大量的视觉信息现在可以利用计算机来辅助处理，并完成相关的一些工作。相对于生物信息识别技术这一计算机视觉领域的热点技术来说，也已广泛应用于日常生活中[1]。比如指纹识别器，人脸考勤器等平时在许多地方可以经常见到，还有居民家用的摄像头智能报警系统以及近期炒得火热的运用支付宝进行刷脸而完成的支付技术等，这些都是运用了生物信息识别技术。现实中的种种迹象已经表明运用生物信息识别的计算机技术已渐渐的渗透到人们的日常生活中并成为不可或缺的组成部分。时下发展较快也比较常见的生物特征有视网膜、指纹、人脸和人眼等。这些生物信息比如人脸具有个体差异性和自身稳定性特点，从用户的角度来看该特征具有便携和低侵入等一些优点。而人眼作为人脸中最显著的特征，又是人们获取外界信息最直接最方便的途径。都说眼是心灵的窗户，因为眼睛中蕴含着表情、意图等多种信息。因此，眼睛注视的行为预测受到了国内外众多学者的广泛关注，同时在生物信息识别领域中也具有重要的研究意义[2]。

2 注视预测问题

2.1 问题的背景

在心理、认知和用户交互研究中的注视跟踪最近已朝向移动解决方案发展，因为它们使得可以直接评估用户在自然环境中的视觉注意。除了注意，注视还可以提供关于用户的动作和意图的信息：用户正在做什么以及接下来将做什么。然而，在自然状态下非结构化的任务中注视行为是相当复杂的，并且不能使用在受控的实验室环境中创建的模型来得到令人满意的解释。自然条件下和实验室环境有着很大的不同。为了演化在自然环境中对注视行为的推断，需要一种更加整体的方法，将从认知科学到机器学习的许多学科结合在一起[3]。

从人机交互技术到医学诊断到心理学研究再到计算机视觉，眼睛注视跟踪在许多领域都有应用。注视是外部可观察的人类视觉注意的指标，许多人试图记录它。对于眼睛视线方面的研究可以追溯到十八世纪后期。而现如今已经存在各种解决方案（其中许多是商业化的），但是所有的解决方案都具有以下一个或多个方面的问题：高成本（例如，Tobii X2-60），定制或侵入性硬件（例如，Eye Tribe，Tobii EyeX）。然而在现实中的自然条件下，这些因素对实际的应用会造成一些障碍影响，使得眼睛注视跟踪不能成为任何具有合理的相机（例如，智能手机或网络摄像头）的人应该可以使用的普及技术。如何才能使得这种技术普及并且得到应用，提出了一种解决方案。

2.2问题的提出

研究中首先要解决的就是用户的约束问题，也就是自然条件下使用过程中所受到的各种限制问题。到目前为止，基于注视数据推断用户动作的研究受到许多的限制，特别是在自然环境中。限制因素可能包括可用的商业解决方案的昂贵性，其专有性和封闭性以及缺乏实时交互能力等方面。目前的注视跟踪系统，只是尽量在移动设置中设置各种条件进行补救。商业化定制化的解决方案都有其独自的闭合性质，因此阻碍了注视跟踪算法的发展，并且使得不同方法之间的客观比较变得不可能[4]。此外，注视是一种复杂的现象，涉及认知过程的相互作用。这些过程在设置计算上的建模是非常困难的，尤其是涉及一些未知因素，使得构建实验设置成为一个很大的挑战。此外，来自跟踪实验的数据因为其商业化的原因很少共享，即使共享数据很大部分也是有其独立的实验条件。这些方面的问题都阻碍了跨学科方法在分析和利用注视数据和实验的相关研究与发展。

2.3 解决问题的研究方向

对基于注视的推断的个体贡献通常保持孤立，不能形成更大的整体以促进对注视动作行为的研究。随着这方面的技术发展和应用，最近出现了一些开源的解决方案。虽然在不同的应用和用户界面中使用注视已经相当有限，但是移动注视跟踪的新颖应用开始出现并得到了很快的发展。然而使用移动注视跟踪来推断用户动作的问题是高度多学科的，需要深入理解各个研究领域，包括人眼的功能，数学建模，计算机视觉，机器学习，信息技术，认知过程，用户交互以及心理学。任何一个研究员或甚至任何研究小组都不可能拥有所有研究领域的专家，因此需要相互的协作共同推进技术的发展[5]。

目前的研究主要是从以下几个方面进行：

1）研究移动注视跟踪的认知方面，例如增强对任务中的注视行为的理解或识别不同任务的特征和阶段；

2）开发用于从注视数据推断用户动作的计算方法，诸如应用机器学习用于行为推断，优选地实时地；

3）增强用于改善移动注视跟踪方法和性能的技术软件/硬件解决方案，并使得设备更容易访问；

4）发现注视数据在自然环境和虚拟和增强现实应用中的潜在用途，以及定义任务，其中注视可以是用户动作的有用的预测器。

3 解决方案

首先选择移动端进行研究，因为目前比较普遍的移动设备比如智能手机、平板电脑都有自己可靠的工作系统，且不需要外部附件。移动设备相对于其他平台具有以下优势：

1）使用的广泛性。据估计，到2019年，世界上超过三分之一的人口拥有智能手机，远远超过台式机/笔记本电脑用户；

2）软硬件技术升级的采用率较高。大部分的移动设备具有允许使用拥有计算复杂数据方法的实时的最新软硬件；

3）移动设备上相机的大量使用已经导致相机技术的快速开发和部署；

4）相机相对于屏幕的固定位置减少了未知参数的数量，潜在地允许开发高精度的校准跟踪应用。

3.1 注视类型分析

注视估计方法可以分为基于模型或基于外观[6]。基于模型的方法使用眼睛的几何模型，并且可以被细分为基于角膜反射和基于形状的方法。另一方面，基于形状的方法从观察到的眼睛形状观察注视方向。这些方法倾向于具有低的图像质量和可变的照明条件。基于外观的方法直接使用眼睛作为输入，并可能在低分辨率图像上工作。相比基于模型的方法，基于外观的方法被认为需要更大量的用户特定的训练数据。通过使用深度学习和大规模数据不必依赖于视觉，以实现准确的无校准注视估计。这种方案提出建立一个基于外观的数据模型，而不使用任何手工设计的功能，例如头部姿势或眼球中心位置。

3.2 技术方案

深度学习的最近成功在计算机视觉的各种领域中是显而易见的，但是它对改善眼睛跟踪性能的影响还是相当有限。因为深度学习是需要大量的数据作为支持，而视线追踪这方面的数据集还比较少，普通的研究所得到的數据集比较有限，最大的数据集通常只是具有50个受试者左右，由于缺乏大规模数据的可用性，因此发展比较缓慢。因而提出了使用深度学习进行研究的一套方案，就是构造大规模的数据集。利用网络资源构造一个大规模的基于移动的眼动跟踪数据集，它包含来自各种背景的大量的受试者，在可变照明条件和不受限制的头部运动下记录[7]。运用现有的智能算法得到一个可以进行卷积神经网络学习端到端的注视预测的后台决策网络。不依赖任何预先存在的系统，不需要头部姿态估计或其他手动设计的特征用于预测。使用只有双眼和脸部的特征训练网络，在这个领域的性能优于现有的眼睛跟踪方法。虽然现在的决策网络在精度方面实现了很先进的性能，但是数据输入的大小和参数的数量使得难以在移动设备上实时使用。为了解决这个问题，需要培养学习得到一个更小更快的网络，在移动设备上实现实时性能，使得精度损失进一步降低。

3.3 大规模数据集

为了达到这一方案的预测效果，首先要进行的是数据集的建立。网络上相关的研究中有许多公开的注视数据集[8]。总结对比这些相关的数据集，分析出有些早期的数据集不包含显著性的头部姿势变化或具有粗略的注视点采样密度。需要对这些数据进行筛选，使得到的数据具有随机分布特点。虽然一些现代数据集遵循类似的方法，但它们的规模（尤其是参与者的数量）相当有限。大多数现有的眼动追踪数据集已经由邀请实验室参与者的研究人员收集，这一过程导致数据缺乏变化，并且成本高且效率不高。因此需要大量的进行数据收集和筛选分析。大规模数据可以通过卷积神经网络有效地识别人脸（他们的眼睛）上的细粒度差异，从而做出准确的预测。

收集眼动跟踪数据应该注意的方面：

1）可扩展性。数据应该是自然条件下的使得用户具有灵活性；

2）可靠性。运用现有的智能移动设备真实的应用图像而非设计处理过的图像；

3）变异性。尽量使数据具有较大的变异性，使得模型更加稳健，适应各种环境下的操作。

4 结束语

文章介绍了一种针对移动设备的用户注视行为推测解决方案。首先建立一个大规模眼动跟踪数据集，收集大量的注视数据。大型数据集的重要性，以及具有大量各种数据以能够训练用于眼睛跟踪的鲁棒模型。然后，训练得到一个深层卷积神经网络，用于预测注视。通过仔细的评估，利用深度学习可以鲁棒地预测注视，达到一个较好的水平。此外，虽然眼睛跟踪已经存在了几个世纪，相信这种新方案的策略可以作为下一代眼动跟踪解决方案的关键基准。希望能通过这方面的研究，使人机交互得到更好的发展。

参考文献：

[1] 崔耀视控人机交互系统技术研究与实现[D].西安，西安电子科技大学，2013.

[2] 迟健男，王志良，张闯.视线追踪[M].北京：机械工业出版社， 2011.

[3] Alireza Fathi， Yin Li， and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer Vision–ECCV 2012. Springer， 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https：//hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance （2016） Accessed： 2016-02-26.

[5] Francisco J Parada， Dean Wyatte， Chen Yu， Brandi Emerick， and Thomas Busey，2015.Expert Eyes： Open-source， high-definition eyetracking Behavior research methods ，2015.

[6] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究 [D].山东：山东大学，2012.

[7] Lu F， Okabe T， Sugano Y， et al. Learning gaze biases with head motion for head pose-free gaze estimation. Image and Vision Computing， 2014.

[8] Zhou B， Khosla A，Lapedriz A， et al. Places2：A large-scale database for scene understanding. arXiv， 2016. 3