当前位置: 茂名热线网 -> 娱乐

人工智能眼镜追踪从百万合成图像学习眼睛凝视的无监督域适应方法

时间:2018-10-20 07:44   来源:网络整理   关键词:   作者:笑笑

摘要:随着图形引擎的当代进步,深度学习社区的最新趋势是在自动注释的模拟示例上训练模型并在测试时间应用于实际数据。这减轻了手动注释的负担。然而,从图形引擎到现实世界的图像之间存在分布的固有差异。这种域差异恶化了在合成实例上训练的模型的测试时间性能。在本文中,我们针对眼睛注视估计的特殊用例,针对各种下游HCI任务的必要组件,针对合成域和真实域的无监督对抗性特征适应来解决该问题。我们最初学习从3D游戏引擎渲染的注释合成样本的凝视估计器,然后通过零和minmax对抗游戏,根据最近的生成性广告网络范例,针对域辨别器调整未注释的真实样本的特征。这种对抗性适应迫使两个域的特征难以区分,这使我们能够使用在合成域上训练的回归模型用于实际样本。在具有挑战性的MPIIGaze现实生活数据集中,我们的表现优于通过可观的边际训练手动注释的实际样本的最新完全监督方法,并且与SimGAN的当前基准方法相比,适应后相对增益也提高了13%[31]。

1简介

深度学习模型当代成功的一个主要原因是大量注释数据集的可用性。不可否认的是,如果没有丰富的标记数据,深度学习就无法在诸如物体识别[13,18],物体检测[8,12,24],动作识别等众多领域中达到目前的成功顶峰[23,19]。 ,39]。 Imagenet [27],MS-COCO [20],PASCAL VOC [5],YouTube-8M [1]等大型数据集在这一进展中发挥了至关重要的作用。这些数据集通常包含数百万个需要时间和金钱的注释。小时问题是“我们能否以更聪明的方式训练深网?”现在非常流行的一种方法是从视频游戏引擎中采用自动标记数据生成。随着图形研究的快速发展,现代引擎可以呈现高质量的视觉样本。例如,[15,19,25]的近期作品显示了从视频游戏中收集无限量的模拟驾驶场景数据的可能性。自动无人机[30]和卡车驾驶[14]也有类似的努力。

虽然从模拟数据中学习的前景可能看起来很有希望,但我们退后一步并问:“这真的是免费的午餐吗?”仿真引擎的样本来自与现实样本相比的不同分布。因此,与仅在常规真实样本上训练的模型相比,预期在合成数据上训练的辨别模型在现实世界中执行次优。有两种方法可以解决这个问题,即:

a)提高图形引擎本身的保真度 - 这需要大量计算上昂贵的优化并且非常耗时

b)将实际和合成样本投影到域不变表示空间。在本文中,我们重点关注从Unity游戏引擎生成的合成样本中学习凝视估计的特定用例的第二个方面,并应用于MPIIGaze的现实“野外”凝视数据。

我们将上述问题作为无监督域适应问题提出,并利用最近的生成网络(GAN)概念[9]来匹配合成和实际样本的特征分布。这是一个3阶段过程,如图3所示。我们认为深度神经由两个模块组成,特征代表和凝视回归。在无监督的域自适应中,我们假设存在来自源域的标记数据,在我们的例子中它是模拟/合成域。我们在UnityEyes上训练一个Source gaze Estimator(SE)。在Stage2中,我们修复SE并初始化权重为SE的目标代表。但是,目标域中没有可用的标签。因此,目标和源网络的中间特征被馈送到对抗域分类器,该分类器基于特征来预测类别归属。域分类器中的渐变用于更新目标要素。该步骤将实际样品的特征分布推向合成样品。在Stage3中,Target Representer的特征与Source Estimator的回归部分结合使用,以预测实际测试数据的注视。假设在阶段2中,真实样本和合成样本的特征变得难以区分,因此使用来自源域的更高阶回归特定的完全连接层是有意义的。我们表明,在领域适应后,我们的模型实现了43%的相对改进,相比之下,最先进的技术实现了30%的相对改进Shrivastava等人的方法。 [31](SimGAN)关于具有挑战性的MPI-IGaze真实凝视数据集。

贡献:

这是对模拟和真实世界样本中3D眼睛注视估计应用未经监测(无实际数据注释)对抗特征自适应的首次演示,

引入了数据驱动的自适应特征重要性学习框架,用于将动态重要性分配给深度神经网络的不同层以进行适应,

与对抗适应中的“梯度逆转”[6]的通常趋势相反,我们根据经验表明,适应前的冷冻源分布表现出更好的后适应性能与目前最先进的SimGAN方法改善30%相比,我们在适应后改善了43%[31]

本文的其余部分安排如下。在第二节2,我们简要总结了一些关于无监督域适应和跨域学习的最新研究成果。秒。关于我们提出的方法的3个细节在第二节4,我们提供了凝视预测器和域鉴别器网络的详细描述以及其他相关的培训细节。图5与我们的实验结果有关,最后我们将结束本文的未来范围。

2相关工作

2.1无监督域适应

特征级别的域适应是计算机视觉中最近的一种兴趣。与我们的方法密切相关的是Ganin等人的Domain Adversarial Networks [6]的概念。学习域不变特征。源网络和目标网络共享用于特征适配的初始几层。源网络在源任务上进行训练,同时域分类器区分两类特征。我们的方法在基本上与[6]不同,因为我们最初修正源分布并将其视为静态分布,我们尝试通过随机训练来近似动态目标分布。我们的方法更符合GAN的原始配方[9],其中生成器的目标是近似自然的平稳分布(在我们的例子中,合成样本的特征分布)。 Kamnitsas等人也利用[6]的类似方法。 [16]对于跨不同数据集的脑损伤分割,据报道,同时训练源损失与域对抗性损失需要非常具体地安排每个组件的训练。如图3所示,我们的三阶段训练非常直接,不需要检查单个组件来触发/抑制任何训练组件。 Ghiffary等人[7]通过最小化来自两个域的样本的特征之间的最大均值差异(MMD)度量[11]来替换域分类丢失的最大化来扩展DANN。

使用深度学习的另一个特征适应范例是修复两个域的特征表示,然后找到一些子空间来对齐域[4,10]。这种策略最近也应用于CORAL [35]的深度特征,它最小化了源域的协方差特征矩阵和目标协方差矩阵的线性投影之间的Frobenius范数。

2.2跨越合成和真实领域的学习从模拟/合成数据中学习近来一直是一个活跃的研究领域。 Wood等人[40]使用Unity游戏引擎生成100万个合成眼睛样本,以学习凝视估计并在基于外观的凝视估计方面实现最先进的性能。来自视频游戏的合成数据正在积极地用于街道视频的语义理解[15,19,25]。这特别有用,因为收集街头视频是乏味的,有时甚至是不可能的。例如,在[19]中,作者模拟了视频游戏中的车祸,以便在现实生活中进行预测。这些方法特别针对此类人工数据进行了培训,无法访问真实数据集。最近,Shrivastava等人[31](SimGAN)提出了一种对抗像素域适应,以利用来自合成域和真实域的样本。他们的想法是使用“像素级精炼器”网络来对抗来自UnityEyes的带注释的合成数据,以便在视觉上与MPIIGaze的真实样本区别开来。预期在这样的变换图像数据集上训练的回归模型在实际样本上表现更好。同时,Bousmalis等人提出了类似的方法。 [3]用于具有对抗性损失的像素级域适应。在我们调整两个域的特征表示而不是像素空间的意义上,我们对[3,31]采取互补的方法。我们的直觉是,两个领域之间视觉属性的紧密结合可能不一定表明判别任务的密切表现[28]。因此,代替像素空间适应,更直观地适应与手头任务直接相关的辨别特征。我们的方法鼓励两个域的特征相似,不仅基于视觉外观,还利用源域上的标记数据来学习任务特定的可转移特征。这应该有助于在适应后获得更好的相对改善,实际上我们将在第二节中看到。 5.6我们的方法在适应后实现了43%的相对改善,相比之下[30]为30%。

5.6与最先进的技术进行比较

在表3中,我们将我们的方法与MPIIGaze测试集上最新的最新方法进行了比较。我们分两部分报告结果。第一部分包括在手动注视的凝视数据集上进行训练的方法。令人鼓舞的是,我们的方法没有涉及任何人类注释,明显超过了这些完全监督的方法。施奈德等人[29]提出了一种流形对齐方法,用于学习人员独立,无校准的注视估计,使用各种低级特征,如局部二值模式(LBP),离散余弦变换(DCT)和不同的回归框架,如回归森林,支持向量回归(SVR)对哥伦比亚凝视数据集[32]进行了培训。在表3中,我们使用SVR报告了它们的最佳结果。在[21]中,Lu等人利用自适应线性回归将高维眼睛特征映射到低维度凝视位置。 ALR有助于通过l1优化选择稀缺的训练样例以进行高保真注视估计。 Sugano等人[34]从50名受试者的头部和眼部姿势读数中创建了一个巨大的3D重建完全校准的眼睛注视数据集。校准包括160个不同的凝视方向和8个头部姿势,总共64,000个眼睛样本。接下来,他们在渲染的3D凝视模型上学习随机森林回归模型,以预测与主题无关的3D凝视。张等人[41]发布了迄今为止最大的真人眼睛注视数据集,MPIIGaze。作者训练了多模态深度神经网络由头部姿势和眼睛注视的标记信息组成。

在第二部分中,我们比较了使用仅由自动渲染引擎生成的标签的模型。开创性的工作Wood等人[40]发布UnityEyes合成3D眼睛注视数据集,实现9.9°误差;一个已经改进的4°com-相比张等人[41]最佳表现的全监督方法。截至今天,SimGAN [31]在UnityEyes和MPIIGaze上的对抗像素域适应性是MPIIGaze注视估计的基准。在改编之前,SimGAN的误差为11.2°,而适应后误差降至7.8° - 相对改善了30%。需要注意的是,我们有意保持凝视预测网络与SimGAN [31]相同,以便在适应前获得相同的基线性能。然而,SimGAN报告的11.2°的预适应误差是由我们公开的有限信息无法重现的。在适应之前,我们在MPIIGaze上获得了14.5°的平均误差。在适应性之后,我们的基于GAN和WGAN的模型分别实现了8.8°和8.2°的平均误差。因此,与适应前的性能相比,我们基于WGAN的框架实现了43%的相对改进;而SimGAN的相对改善率提高了30%。在图1中,我们可视化一些示例,示出在自适应之后,与自适应之前的向量相比,预测的注视向量更接近地面实况向量。

6讨论与结论

在本文中,我们提出了一种无监督的领域适应范例,用于学习通过利用大量完全未注释的真实凝视样本和一百万个自动标记图形引擎生成的合成样本池来预测真实生活中的“野外”3D眼睛凝视。 。与传统的“梯度逆转”[6]类型的对抗性改编相反,其中源和目标分布都是非平稳的并且同时更新,我们选择遵循更加“GAN”[9]类似的方法来修复源分布并试图用动态目标分布来近似这种静态分布。此外,与[37]的近期方法完全相反,其中作者主张仅调整深层神经网络的最后一层,我们表明,对于低水平和细粒度视觉应用,如凝视预测,它更为谨慎适应多深度(来自不同深度的对齐特征)特征表示。最后,我们发现,在没有任何先前假设适应层的重要性的情况下,共同学习每个层的相对重要性以及特征对齐是有益的。与最近的SimGAN基准(后适应后7.8°)相比,我们的方法实现了极具竞争力的绝对性能(后适应后8.2°)。然而,值得注意的是,与预先适应性能相比,我们的方法相对改善了43%,而SimGAN只有30%的相对改善。我们的研究结果表明,与在SimGAN中进行的绝对像素空间中的自适应相比,在特征空间中处理域自适应可能更为谨慎。由于我们的工作是跨Unity和MPII进行对抗性功能调整的第一次尝试,因此立即扩展将结合我们的方法和SimGAN的像素自适应方法。这两种方法彼此互补,因此它将是一个有趣的方法来制定像素和特征适应的联合优化。

原文标题:Unsupervised Domain Adaptation for Learning Eye Gaze from a Million Synthetic Images: An Adversarial Approach