赞
踩
本文为翻译搬砖和总结一些自己的心得体会。
作者:
发布于2013年
眼动研究正被用于人机交互(HCI)研究。视线跟踪是计算机视觉领域中最具挑战性的问题之一。本文的目的是对远程视线跟踪这一持续发展的最新研究进行综述。本概述包括基本定义和术语、该领域的最新进展以及该领域未来发展的需要。
关键词:远程视线跟踪,单摄像机和多摄像机眼动仪,视频眼动仪。
脸是心灵的指标,眼睛是心灵的窗口。眼动提供了一个丰富的信息窗口,可以了解一个人的思想和意图。因此,对眼球运动的研究可以根据人们的视线位置来确定他们在想什么。眼睛跟踪是眼睛运动/活动的测量,而视线(视点)跟踪是关于头部/视觉场景的眼睛跟踪数据的分析。这一领域的研究经常交替使用眼睛跟踪、视线跟踪或视线跟踪这三个术语。眼动追踪主要用于嗜睡检测[Picot等人(2010)]、各种临床条件的诊断,甚至虹膜识别[Xu等人(2006)]。但是,视线跟踪方法可以用在我们使用眼睛的所有方式中,举几个例子,肢体残疾患者的眼睛类型[Majaranta等人(2002)]、认知和行为疗法[Riquier等人(2006)]、视觉搜索[Greene等人(2001)]、营销/广告[Rayner等人(2001年)]、神经科学[Snoddery等人(2001,心理学[Rayner(1998)]和人机交互(HCI)[Goldberg等人(2002);Jacob(1990)]。
通常使用眼睛和头部位置的积分来计算视线在视觉场景中的位置。简单的眼动仪只报告视线相对于头部的方向(使用头戴式系统、电极、巩膜线圈)或眼球的固定位置(需要头部固定的系统)。这种眼睛跟踪系统被称为侵入式或侵入式系统,因为一些特殊的接触装置附接到皮肤或眼睛以捕捉用户的视线[Duchowsky(2007)]。与用户和眼动仪设备没有任何物理接触的系统称为非侵入系统或远程系统[Morimoto和Mimica(2005)]。
一种记录眼睛位置和运动的方法称为眼动描记术。有四种不同的方法来跟踪眼睛的运动[COGAIN(2005)]。
在这种方法中,在眼睛周围的皮肤上安装传感器,以测量眼睛旋转时存在的电场。通过记录眼睛周围皮肤电位的微小差异,可以估计眼睛的位置。通过仔细放置电极,可以分别记录水平和垂直运动。然而,当没有眼球运动时,信号可能会改变。这种技术不太适合日常使用,因为它需要电极与使用者紧密接触,但仍然被临床医生频繁使用。然而,这是一种廉价、简单且具有侵入性的记录大眼球运动的方法。这种方法的最大优点是即使在眼睛闭着的情况下,例如在睡觉时,也能够检测眼睛的运动[Mazo等人(2002)]。名为MONEOG的项目[http://www.metrovision.fr],来自Metro Vision Systems和Eagle Eyes[http://www.bc.edu/eagleeyes]来自美国机会基金会(Opportunity Foundation of America)的研究人员使用了electro-H.R.Chennamma等人/印度计算机科学与工程杂志(IJCSE)ISSN:0976-5166Vol。4第5号2013年10月-11月388眼动仪成功用于视线跟踪。鹰眼一直在帮助身体严重残疾的人通过只移动眼睛来控制电脑。
当线圈在磁场中移动时,磁场在线圈中感应出电压。如果线圈连接到眼睛上,则会产生眼睛位置的信号。为了测量人眼的运动,在一个改进的隐形眼镜中嵌入了一小圈金属丝。在引入局部麻醉剂后将其插入眼睛。隐形眼镜中的集成镜子允许测量反射光。或者,隐形眼镜中的集成线圈允许检测线圈在磁场中的方向。这种方法的优点是高精度和几乎无限的时间分辨率。它的缺点是它是一种侵入性的方法,需要将东西放入眼睛。据我们所知,迄今为止,这种眼动追踪方法还没有用于通过凝视进行HCI。这种方法主要用于医学和心理学研究。Chronos愿景[http://www.chronos-vision.de]和Skalar Medical[http://www.nzbri.org/research/labs/eyelab/]已经使用巩膜搜索线圈方法进行相对于头部位置的眼睛跟踪。
红外眼科照相术测量反射红外光的强度。在这种眼睛跟踪方法中,眼睛由红外光照射,红外光由权杖反射。从眼睛表面反射回来的IR光量之间的差异携带关于眼睛位置变化的信息。光源和传感器可以放置在球形玻璃上。因此,这是一种侵入性方法。红外眼科照相术比电眼照相术噪声小,但对外界光张力的变化更敏感。这种方法的主要缺点是,它只能测量沿水平轴约±35度和沿垂直轴约±20度的眼球运动。然而,可以在JAZZ novo和saccadometer研究系统中找到应用程序[http://www.ober-consulting.com]. 这些系统设计用于在磁共振成像(MRI)检查期间测量眼球运动。其优点包括能够在黑暗中测量眼球运动。利用图像处理软件,红外眼动仪正用于凝视交互。红外眼科摄影有三种类型:角膜反射、浦肯野图像和瞳孔轨迹。这些原理已在许多商用眼动仪中得到利用,即Intelligaze IG-30[http://www.alea-technologies.com],EyeMax系统[http://www.dynavoxtech.com],EyeTech数字系统[http://www.eyetechds.com]和SeeTech[http://www.see-tech.de].
基于视频的眼动追踪是商业眼动仪中使用最广泛的方法。直到最近,视线跟踪还是一项非常复杂且昂贵的任务,仅限于实验室研究。然而,快速的技术进步(提高了处理器速度,先进的数字视频处理)降低了成本,大大提高了视线跟踪设备的效率。视频眼科照相术使用单个或多个摄像机,利用从捕获的图像获得的信息来确定眼睛的运动。基于视频的眼睛跟踪系统可以是有创的或无创的。根据所使用的光的种类,每个类别又分为另外两类:可见光或红外光。侵入式系统或头戴式系统通常由一个或多个摄像机组成[Duchowsky(2007)]。非侵入性或远程系统是人机交互(HCI)最令人兴奋的主题[Huchuan等人(2012);Morimoto和Mimica(2005)]。在本文中,我们主要研究基于视频的远程眼睛跟踪系统。令人惊讶的是,发现各种各样的视线跟踪系统用于相同的目的,即检测视线点[Hansen和Ji.(2010);Böhme等人(2006);Orman等人(2011);Černy,M.(2011)和Mohamed等人(2008)]。然而,它们的基础似乎是相同的;当眼睛在3D空间中旋转或平移时,相机捕获的眼睛的图像将改变。文献中出现的远程眼动追踪系统可分为:;单摄像机眼动仪和多摄像机眼动器。下一节重点介绍眼动仪系统的硬件设置,而不是一些繁琐的数学细节。
大多数基于视频的眼动仪通过红外光源照亮眼睛来工作。这种光在眼睛的角膜上产生闪光,称为角膜反射。在现有的大多数工作中,闪烁被用作视线估计的参考点。当眼睛或头部移动时,瞳孔闪烁差异向量保持不变。当头部移动时,闪光明显会改变位置,但当改变视线方向时,闪光会改变位置就不那么明显了。我们在Merchant等人1974年的最初工作中发现,使用单个摄像机、一组镜子和单个照明源来产生所需效果[Merchant et al.(1974)]。一些商业系统的技术基于一台摄像机和一台H.R.Chennamma等人/印度计算机科学与工程杂志(IJCSE)ISSN:0976-5166卷。4 No.5 2013年10月-11月389红外光,例如LC的跟踪器[http://www.eyegaze.com]或ASL[http://www.a-s-l.com].
一些系统包括第二种照明[http://www.eyetechds.com]. Yasuk Sugano等人提出了一种使用增量学习方法在监视器上安装单个摄像机的视线估计系统。该系统还通过使用3D刚性面部网格来估计人的头部姿势[Sugano等人(2008)]。Ohno等人开发了一种具有单闪光的单摄像机系统[Ohno等,(2002)]。Matsumoto等人提出了一种使用单个立体系统来计算3D头部姿势并估计眼球的3D位置的系统[Matsumota等人(2000)]。Wang和Sung(2002)也提出了类似的方法。Nitschke等人提出了一种通过使用单个摄像机和显示器作为光源的眼睛姿态估计模型[Christian等人(2011)]。Paul Smith等人描述了一种用单个摄像机监控驾驶员警觉的头部/眼睛运动的系统[Paul史密斯等人(2000)]。Hirotake等人提出了一种基于使用单个摄像机的面部特征跟踪的远程视线估计方法[Yamazoe等人(2008)]。Wang等人仅通过使用一个基于虹膜检测的摄像机引入了视线估计方法[Wang等人(2003)]。Chi Jian nan等人提出了一种基于有源红外源和相机的粒子滤波的瞳孔跟踪方法[Chi等人(2011)]。Laura Sesma等人提出了一种基于网络摄像头且没有红外光的视线跟踪系统,这是拓宽眼动跟踪系统应用的搜索目标[Sesma等(2012)]。Xiao Hui Yang等人仅使用一台摄像机和四个IR光源,并使用视频帧的灰度分布来获得角膜闪烁和瞳孔中心[Yang等人(2012)]。
上述固定式单摄像机系统的主要困难在于捕获足够高分辨率图像所需的有限视场。通过向设置中添加多个光源,将比使用单个光源提供更好的结果。第一个具有高精度(约1度)和良好的用户移动容忍度的单摄像机远程眼动仪是一个商业系统(Tobii:http://www.tobii.se]但实施细节尚不可用。一些学术团体已经建立了单摄像机系统[Hennessey等人(2006);Guestrin和Eizenman(2006));Meyer等人(2006年)]。Ohno等人用两个光源和一个相机改进了他们的系统[Ohno(2006)]。Morimoto等人介绍了一种用于从单个相机和至少两个光源计算眼睛的3D位置及其注视方向的方法[Morimotoet al.(2002)]。作者认为它允许头部自由运动。Tomono等人开发了一种实时成像系统,该系统由具有3个CCD和两个光源的单个摄像机组成[Tomono等(1989)]。摄像头位于屏幕中心略下方。将四个光源放置在平面(屏幕)的拐角处,以便能够比较和交叉比率方法[Hansen等人(2010);Flavio等人(2012)]。Xiaohui等人提出了一种用于远程视线跟踪的智能控制方案,包括一个普通分辨率相机和四个近红外光源[Xiaohui等人(2010)]。
需要大视场以允许头部自由运动,但需要有限的视场来捕捉足够高分辨率的眼睛图像,以提供可靠的视线估计。利用多个摄像机通过广角镜头摄像机或可移动的窄角镜头摄像机来实现这些目标。文献中的多个相机系统为每只眼睛使用单独的相机,或使用一个相机进行头部位置跟踪,以补偿头部姿势变化。然后结合所有摄像机的信息来估计注视点。朱等人提出了一种眼睛注视跟踪系统,其中两个摄像机安装在监视器屏幕下,一个红外照明器安装在一个摄像机的前面,以在眼睛图像中产生闪光。因此,可以从捕获的眼睛图像中提取瞳孔闪烁矢量。此外,两个摄像机都经过校准,以形成立体视觉系统,从而可以计算瞳孔中心的3D坐标。所计算的3D瞳孔中心将与所提取的2D瞳孔闪烁矢量连接,以用作凝视映射函数的输入[Zhu等人(2006)]。Baymer和Flickner展示了一个由四个摄像机组成的系统:两个立体广角摄像机和两个立体窄视场摄像机。位于监视器下角附近的两个窄视场摄像机捕捉眼睛的高分辨率图像,用于视线跟踪。由于视野狭窄,快速头部运动将超过摇头。因此,在高性能检流计上使用旋转镜来控制平移和倾斜。两个广角系统位于监视器屏幕中央底部的正下方。立体基线是垂直定向的,因为这优化了中央面部特征(主要是水平边缘)的立体匹配[Beymer和Flickner(2003)]。Brolly等人提出了类似的系统,但与他们的系统不同,他们使用一个窄视场摄像机而不是两个[Brolly和Mulligan(2004)]。Ohno和Mukawa实施了一个自由头部注视跟踪系统。眼睛定位单元有一个由两个NTSC摄像机组成的立体摄像机组。它们被放置在显示器上。视线跟踪单元有一个近红外敏感NTSC相机,放置在摇摄支架上。近红外LED阵列也放置在相机下方。然而,可以通过改变立体相机的焦距和会聚角来扩大可测量区域[Ohno.和Mukawa(2004)]。Shih等人提出了一种由一对立体相机和三个IR LED组成的系统[Shih和Liu(2004)]。Ke Zhang等人利用一对立体相机和两个点光源开发了一种简化的3D视线跟踪技术[Ke等人(2010)]。Yoo和Chung使用了五个红外光和两个相机[Yoo H.R.Chennamma等人/印度计算机科学与工程杂志(IJCSE)ISSN:0976-5166 Vol.4 No.5 Oct-11 2013 390和Chun,(2005)]。Reale等人提出了一种双摄像机系统,该系统从固定的广角摄像机检测面部,使用基于地形特征的眼睛检测器估计眼睛区域的大致位置,并引导另一个活动的平移-倾斜变焦摄像机聚焦于该眼睛区域[Hung和Yin(2010)]。
视频眼科摄影系统从一个或多个摄像机获得信息(图像数据)。第一步是检测图像中的眼睛位置。基于从眼睛区域和可能的头部姿势获得的信息,可以估计视线方向。人眼最重要的部分是:瞳孔——让光线进入眼睛的光圈,虹膜——控制瞳孔直径的有色肌肉群,以及覆盖眼睛其余部分的白色保护组织。由于一些独特的问题,包括照明、视角、眼睛遮挡、头部姿势等,眼睛检测和跟踪仍然是一项极具挑战性的任务。基于视频的眼睛跟踪通常使用两种成像过程:可见光和红外光谱成像。红外眼睛跟踪通常使用亮瞳孔或暗瞳孔技术[Morimoto等人(2002)]。本文主要研究基于图像数据分析的视线估计方法。这些方法大致分为基于特征的视线估计和基于外观的视线估计[Hansen和Ji.(2010)]。
基于特征的方法探索人眼的特征,以识别眼睛的一组独特特征,例如轮廓(边缘和瞳孔轮廓)、眼角和角膜反射是凝视估计的常见特征。基于特征的方法的目的是识别通常对照明和视点变化不太敏感的眼睛的信息局部特征[Iannizzotto和La Rosa(2011)]。这些系统在室外或强环境光下存在性能问题。此外,当没有准确的虹膜和瞳孔特征时,视线估计的准确性会降低。存在两种基于特征的方法[Hansen和Ji(2010)]:基于模型(几何)和基于插值(基于回归)。
基于模型的方式使用眼睛的显式几何模型来估计3D视线方向向量。大多数基于3D模型(或几何)的方法依赖于度量信息,因此需要摄像机校准和光源、摄像机和监视器位置和方向的全局几何模型(眼睛外部)。大多数基于模型的方法遵循一种常见的策略:首先在3D中重建眼睛的光轴:然后重建视觉轴:最后通过将视觉轴与场景几何体相交来估计注视点。光轴的重建是通过估计角膜和瞳孔中心来完成的。通过定义视线方向向量并将其与场景中对象的信息相结合,可以估计视线点[Hansen和Ji.(2010)]。对于基于3D模型的方法,视线方向被估计为从眼球中心到虹膜中心的矢量[Yamazoe等人(2008);Taba(2012);Sigut和Sidha(2011);Yang等人(2012)、Hung和Yin(2010);Nagamatsu等人(2010)、model和Eizenman(2010)]。
这些方法假设从图像特征到视线坐标(2D或3D)的映射具有特定的参数形式,例如多项式或非参数形式,如在神经网络中。自从在第一个基于视频的眼动仪中使用简单的线性映射函数[Merchant等人(1974)]以来,多项式表达式已成为最流行的映射技术之一[Brolly和Mulligan(2004);Cerrolaza等人(2012);Morimoto和Mimica(2005);Cerlolaza等(2012)]。基于插值的方法避免显式建模人眼的几何和生理,而是将注视点描述为图像特征的一般函数。校准数据用于通过数值拟合过程(例如多重线性回归)计算映射函数的未知系数。作为参数表达式的替代,基于神经网络的眼动仪[Baluja和Pomerleau(1994);Demjen等人(2011);Torricelli等人(2008)]采用非参数形式来实现从图像特征到视线坐标的映射。在这些方法中,视线跟踪是通过提取特定面部点的坐标并将其通过经过训练的神经网络发送来完成的,神经网络的输出是用户注视的点的坐标。
基于外观的方法直接基于光度外观检测和跟踪眼睛。基于外观的技术使用图像内容通过将图像数据映射到屏幕坐标来估计视线方向[Javier等人(2009);Lu等人(2011)]。主要的基于外观的方法[Sheela和Vijaya(2011)]基于可变形模型[Rikert和Jones(1998)]、灰度单位图像[Yang(2012)]、外观流形[Kar Han等人(2002)]、高斯插值[Sugano等人(2012)]和交叉比[Flavio等人H.R。Chennamma等人/印度计算机科学与工程杂志(IJCSE)ISSN:0976-5166卷。4第5号,2013年10月至11月391(2012)]。基于外观的方法通常不需要校准相机和几何数据,因为映射是直接在图像内容上进行的。
在介绍了不同的眼睛跟踪方法后,我们对基于非接触视频的视线跟踪进行了综述。本文的主要目的是综述基于非接触视频的视线跟踪的最新进展。尽管视线跟踪已有100年的研究历史,但它还没有被标准化。眼动追踪的未来发展需要集中在标准化使用什么眼动指标、如何引用这些指标以及如何在界面设计的背景下解释这些指标[Poole等人(2004)]。例如,目前还没有固定时间的最低标准。应减少设备的侵入性,使用户感觉更舒适。数据采集的稳健性和准确性需要提高,视线跟踪系统需要变得更便宜,以使其成为小型商业机构和研究实验室可行的可用性工具。
这篇综述较为全面的介绍了各种眼动跟踪方法、各种眼动仪,以及各种视线跟踪方法,总体上是一篇较为完整的文章。但其原理介绍部分较为粗糙,只是罗列别人的论文而不介绍具体内容,不够全面,不能让人读完此篇无需再读其它综述。
原文地址:https://arxiv.org/abs/1312.6410
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。