Menu

Menu

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别

Original 王一鸣 Optica西光所分会 2022-10-11 09:00 Posted on 陕西

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
撰稿人 |  王一鸣

 

TITLE  |  基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别

01

 

论文导读

 

数据集在面部表情识别(FER)的发展中起着至关重要的作用,但由于文化和采集条件的不同,大多数数据集存在明显的不确定性和偏差。为了深入研究这些问题,本文首先进行了人脸检测和面部表情分类两组实验。他们基于三个数据集(CK+, FER2013和RAF – DB),提出了一种具有嵌入注意机制(DSA – CNN)的深度可分卷积神经网络用于表情识别。首先,在预处理阶段,从81个人脸标记点计算得到最大表情范围裁剪,以滤除非人脸干扰;然后,采用基于坐标挤压激励(CSE)注意的DSA – CNN进行特征提取。最后,为了进一步解决不平衡的类偏差和不确定性问题,本文提出了类加权交叉熵损失(CCE-loss)来缓解七个情感类之间的不平衡。然后,在标签修正阶段将CCE-loss与排序正则化损失(RR-loss)和自重要加权交叉熵损失 (SCE-loss)结合起来,共同指导网络的训练。在三个FER数据集上的大量实验表明,本文提出的方法最终优于大多数最先进的方法。

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图1 整体方法流程图

 

02

 

研究背景

 

面部表情是揭示一个人内心想法和感受的关键。随着新冠肺炎疫情在全球持续蔓延,失眠、焦虑、抑郁等精神疾病成为严重问题.因此,情感计算在我们的日常生活中变得越来越重要心理学家Mehrabian的研究表明55%的情感信息是通过面部表情传递的。然而,只有7%的信息是通过我们的日常交流传递的。因此,研究有限元识别(FER)对人机交互领域具有重要影响的交流具有重要意义在此基础上,出现并总结了许多优秀的研究项目。然而,实验室控制的FE数据库过于统一,无法反映复杂的场景。在这种背景下,越来越多的野生数据集从现实世界中被收集,如RAF – DB9、10和FER-2013.11。如图2所示,在深度学习FER任务中,数据注释是一个困难而严重的问题。

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图2  FER数据集可分为三类:确定面、不确定面和干扰因子

 

通常,FER任务包括三个阶段:人脸检测、特征提取和表情识别。面部检测已经得到了深入的研究,并应用于各个领域Dlib22和MTCNN23是在野生数据集等复杂场景中常用的人脸检测工具。然后,在检测到的边界框区域内的面可以进一步对齐和裁剪或向每个方向延伸。在特征提取方面,有两种特征类型:工程特征和基于学习的特征。此外,工程特征可分为基于纹理的特征、基于几何的特征和混合特征,混合特征是结合两个或多个工程特征。将传统卷积和深度可分卷积结合为一个模块,在情感和性别分类方面取得了较为理想的结果特征提取依赖于强大的网络结构,很多工作都是基于GAN,但对于不确定的人脸,生成的表情更加不确定。目前对有限元的研究大多还是基于实验室环境,对野外数据集和误差的讨论有限。因此,本文在研究中开展了以下研究,并进一步加强了对不确定野生数据集的处理。

 

03

 

方法原理

 

1.MERC预处理

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图3 MERC的计算过程

 

如图3所示预处理阶段。对于原始图像的输入,使用开源工具包Dlib-DNN进行人脸检测。此外,利用人脸对齐的81个面部标记点进行MERC的获取。人脸对齐可以进一步提高FER任务的性能。作者首先使用关键点在图像中对齐人脸,然后裁剪MERC区域作为输出图像。MERC也是下一节特征提取的输入图像。通过扩展的Dlib工具包,81个特征点被表示为

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
关键点坐标矩阵M是一个大小为81 × 2的二维数组,每一行mi代表一个地标点。作者从四个方向(上、下、左、右)选取人脸的边缘关键点,形成最大的外矩形。这样可以最大限度地保留表达丰富的区域。通过这一过程,MERC最大限度地解决了训练样本的干扰因素,有效地提高了表达式特征的模型学习效率。

 

2.基于CSE注意力的DSA – CNN结构

DSA – CNN的最终架构如图4所示,主网络由A和B两部分组成。A部分是一个用于浅层特征提取的主干CNN模块,它与两个传统CNN相结合,B部分是一个堆叠了6次的网络。叠数作为经验值,过小会导致拟合不足,否则会导致过拟合。注意到CSE注意块属于b部分。通过分析网络模型的发展,我们发现如果我们的网络足够深,经过多层卷积后,特征图会被严重侵蚀。为了使网络结构更加健壮,当我们用深度可分离卷积代替标准卷积时,计算量大大减少,本文使用的是DReLU函数。它增加的计算量很少,但显著增强了表示能力,特别是对于轻量级网络。

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图4  基于CSE注意块的DSA – CNN架构

 

04

 

图文结果

 

本文网络是用Pytorch实现的。有1个Nvidia Titan 2080 Ti GPU,将batch大小设置为64,默认运行300 epoch。权值衰减为0.00001,学习率是0.001。动量基于自适应矩估计(ADAM)优化算法,该算法用于更新网络权值,在实验中使用了称为泛洪的正则化方法。请注意,在将MERC数据发送到网络进行特征提取之前,图像的水平翻转默认为0.5。然后,在数据输入训练模型之前,利用在线增强技术进行批处理操作。使用python 3.8中的transform函数进行随机水平翻转。在每次迭代中,训练图像被分为两组,默认为70%的高重要度样本和30%的低重要度样本。因此,β这两组之间的比值,设为0.7。实验结果如下图所示:

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图5  对68和81个面部标记点进行对比分析

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图6   MERC对干扰因素的评价

 

基于嵌入注意机制的深度可分卷积神经网络的不确定偏倚面部表情识别
图7  与其他方法进行比较

 

05

 

论文总结

 

由于数据集的偏差和不确定性,本文提出了一种包含三个模块的方法来处理这些问题。首先,在预处理阶段提出了基于81个人脸标记点的MERC方法来过滤非人脸干扰。MERC方法证实了额头的纹理对表情也很重要。其次,在特征提取方面,提出了一种基于DSA – CNN的表情分类网络,并引入了注意块CSE,使特征提取更加有效。基于SENet,作者将该结构扩展为两个空间注意方向,以更准确地定位兴趣位置。为了更好地利用高、低层次的信息,在DSA – CNN中从浅层到深层不同层次应用了CSE块。希望CSE块能够成为各种网络架构的重要组成部分。最后,将LA模块用于低重要度不确定表情面。通过在实验室和野外采集的三个FER数据集(CK+、FER2013和RAF – DB)上的实验,验证了该方法的有效性。

 

文章链接

 

https://www.spiedigitallibrary.org/journals/journal-of-electronic-imaging/volume-31/issue-04/043056/Uncertain-and-biased-facial-expression-recognition-based-on-depthwise-separable/10.1117/1.JEI.31.4.043056.full?tab=ArticleLink

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。