转载:CVPR2018文章-微表情识别

CVPR2018文章-微表情识别

即使你看到的是微笑,背后隐藏的确实不为人知的抑郁

在维基百科中微表情是这么描述的:微表情是一种人类在试图隐藏某种情感时无意识做出的、短暂的面部表情。他们对应着七种世界通用的情感:厌恶、愤怒、恐惧、悲伤、快乐、惊讶和轻蔑。那么微表情识别在我们生活中有什么意义呢?仅仅在心理学上微表情就有着至关重要的作用,如发现“微笑抑郁症”患者,及时给予治疗。本文主要解读CVPR2018文章-微表情识别。

面部微观表情(ME)的识别对于研究人员在运动和有限数据库中的细微处理造成巨大挑战。 最近,人工技术已经在微型表达识别中取得了优异的性能,但是以区域特异性和繁琐的参数调谐为代价。 在文中,提出了一个丰富的长期递归卷积网络(ELRCN),首先通过CNN模块将每个微表情帧编码成特征向量,然后通过将特征向量通过一个长-短期记忆(LSTM)模块。 该框架包含两种不同的网络变体:(1)空间富集的输入数据的通道叠加;(2)用于时间富集的特征的功能性叠加。证明所提出的方法能够实现合理的良好性能,而不需要数据增强。 此外,我们还介绍了对预测微表情类别时CNN“看到”的框架和可视化进行的消融研究。

Handcrafted Features人工特征

文中对五年来解决ME识别问题提出的特征提取做了解读,如选择具有三个正交平面的局部二值模式(LBP-TOP)作为基线特征提取器;光学应变的光学流量的衍生物,利用光流的判别性;双重加权定向光流(Bi-WOOF)和面部动态地图等

深度神经网络

采用卷积神经网络(CNN)编码不同的表达状态(即起始,起始到顶点,顶点,顶点以抵消和抵消)。在空间学习期间优化若干目标函数以改善表达类别可分离性。之后,编码的特征被传递到长时间短期记忆(LSTM)网络以学习与时间尺度相关的特征。

提出的网络PROPOSED FRAMEWORK

文中提出了一种用于微表情识别的增强型长期递归卷积网络(ELRCN),该算法采用视觉识别和描述的长期循环卷积网络的架构[1],同时执行特征丰富来编码微妙的面部变化。 ELRCN模型包括深层次的空间特征提取器和表征时间动态的时间模块。 介绍了网络的两种变体:1)通过输入通道叠加来丰富空间维度,2)通过深度特征叠加来丰富时间维度。 图1通过预处理模块和两种学习模块变体提出了框架

CVPR2018文章-微表情识别

Preprocessing预处理

文中微表情视频首先使用TV-L1光流近似方法进行预处理,这有两个主要优点:更好的噪声鲁棒性和流动不连续性的保留。 光流以矢量化符号对对象的运动进行编码,指示运动的方向和强度或图像像素的“流动”。 光流的水平和垂直分量定义如下:

CVPR2018文章-微表情识别

其中dx和dy分别表示沿x和y维度的像素估计变化,而dt表示时间变化。 为了形成三维流动图像,我们连接水平和垂直流动图像,p和q以及光流量值,m = | v |。 由于运动变化非常微妙(不占用大范围的值),所以我们不需要对流图像进行归一化处理; 这也被经验证明,其性能下降可以忽略不计。

我们还通过计算光流的导数来获得光学应变。 通过采用光学应变,我们能够正确表征两个连续帧之间存在的可变形物体的微小移动量。 这由位移矢量描述,u = [u,v] T。有限应变张量定义为:

CVPR2018文章-微表情识别

每个像素的光学应变大小可以使用法向和剪切应变分量的平方和来计算:

CVPR2018文章-微表情识别

Spatial Learning空间学习

非线性函数的许多“层”的组合可以实现各种计算机视觉问题的突破性结果,例如对象识别和对象检测。 为了以顺序的方式利用深度卷积神经网络(CNN)的优点,输入数据x首先用CNN编码成固定长度的矢量φ(xt),其表示时间t处的空间特征。 随后,φ(xt)然后被传递到递归神经网络以学习时间动态。

在本文中,我们还假设通过使用原始输入样本的附加衍生信息,在涉及样本富集的过程中,我们可以最小化学习模型中的欠拟合,这反过来可以导致更高的识别性能。 图1描述了我们提出的两个可能的变体:空间维度浓缩(SE)和时间维度浓缩(TE)的我们提出的增强型长期递归卷积网络(ELRCN)的总体框架。

SE模型通过沿输入叠加光流图像(F∈R 3),光学应变图像(S∈R2)和灰度原始图像(R∈R2),使用更大的输入数据维度进行空间学习 通道,我们表示为xt =(Ft,St,Gt)。 因此,输入数据为224 * 224 * 5,这就需要从头开始训练VGG-Very-Deep-16(VGG16)模型。 最后的完全连接(FC)层将输入数据编码成4096个固定长度的矢量φ(xt)。

TE模型利用传递学习和来自VGG-Face模型的预训练权重,该模型在野外大规模标记人脸(LFW)数据集中进行训练,以进行人脸识别。 我们调整了VGG-Face的预训练权重的微观表达数据,以使模型更有效地学习和适应。 这也有助于更快地收敛,因为微表情和LFW数据都涉及面和它们的组件。 由于VGG-Faces模型需要224 * 224 * 3的输入,我们复制了S和G图像(R2→R3),以便它们符合所需的输入尺寸(如图1所示)。 在训练阶段,我们对每个输入数据在单独的VGG-16模型中进行微调,每个模型产生一个4096长度的特征向量φ(xt)在他们的最后FC层。 这导致12288长度的特征向量被传递到随后的循环网络。

时序学习Temporal Learning

文中使用一种流行的反复神经网络变体称为长短期记忆(LSTM)学习空间编码的顺序输入,φ(xt)。LSTM寻求学习权重参数W,其将先前时间步骤隐藏状态ht-1处的输入φ(xt)映射到输出zt并且更新隐藏状态ht。LSTM层可以按比例堆叠,然后是完全连接的层,其编码为较小的维度,y = WzZt + bz。最后,用softmax 对yt计算预测P(yt):

CVPR2018文章-微表情识别

通用网络配置

网络训练使用自适应时期或早期停止,最大设置为100个时期。 基本上,当损失评分停止改善时,每次折叠的训练将停止。 我们使用自适应矩估计(ADAM)作为优化器,学习率为10-5,衰减为10-6。 由于微观表达的微妙性导致学习困难,学习率被调整为小于典型比率。 对于时间学习,我们将LSTM层之后的FC层的数量固定为1。 这没有经过实验,因为文中的重点在于这些层中的复发层和单位的数量。

EVALUATION评估

Single Domain Experiment单畴实验

在这个实验中,CASME II数据库是我们评估领域的选择。 使用Leave-One-Subject-Out(LOSO)交叉验证进行培训,因为该方案可防止学习期间受试者的偏见。 表I比较了我们提出的方法与基线LBP-TOP方法的性能以及文献中最近的和相关的一些作品。 所提出的ELRCN方法的TE变量明显优于其SE对应方,这表明为每种类型的数据微调单独网络的重要性。

CVPR2018文章-微表情识别

表1:本文提出的方法与其他微表情识别方法的比较

Cross Domain Experiment跨域实验

测试我们的深度神经网络结构的稳健性和它从样本中学习显着特征的能力,我们使用由微表情大挑战(MEGC)20181-综合数据库评估(CDE)和Holdout数据库评估(HDE)。HDE和CDE分别是MEGC 2018中的任务A和B.CDE将两个数据库(CASME II和SAMM)组合在一起,这些数据库省略了第6和第7个目标类别,然后进行了LOSO评估,总计为47个主题。 HDE从相对的数据库中采集训练和测试集(即在CASME II上训练,在SAMM上测试,反之亦然)。

CVPR2018文章-微表情识别

CDE EVALUATION

CVPR2018文章-微表情识别

HDE EVALUATION

CVPR2018文章-微表情识别
CVPR2018文章-微表情识别

结论

作者提供的demo训练是可以跑通的,采用作者提供的数据集可跑出对应的模型,识别的准确率是40%~50%,单张图片预测速度为200ms~500ms之间。

参考网址

paper:https://arxiv.org/abs/1805.08417

GitHub:https://github.com/IcedDoggie/Micro-Expression-with-Deep-Learning

[1]J. Donahue, L. Anne Hendricks, S. Guadarrama,M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell,“Long-term recurrent convolutional networks for visual recognition and description,” in Proc. of IEEE CVPR, 2015,pp. 2625–2634.

推荐文章

沪公网安备 31010702002009号