基于人脸表情识别的课堂质量分析_戴海云.pdf

资源描述

1、第 51 卷收稿日期：2022年8月15日，修回日期：2022年9月27日作者简介：戴海云，女，硕士研究生，研究方向：计算机视觉。张明，男，副教授，研究方向：理论研究：机器学习、模式识别与人工智能、粗糙集决策支持理论研究等；工程应用研究：嵌入式智能终端硬件/软件开发，安卓与IOS系统应用开发。1引言目前将人脸表情识别作为课堂质量分析的研究还不够广泛。而且在现实中，课堂中往往缺乏老师与学生的沟通交流，只重视老师对课堂所教学的内容的同时，会忽视对课堂能给出直观感受的学生的反馈信息。虽然也有传统的课堂质量分析，比如专业人员进行人工记录或者学生课后问卷打分1，这些都带有主观因素和滞后性。全国都在推行素

2、质教育，而课堂作为教学最关键且最主要的方式，所以老师对学生的脸部表情的反馈更能够知道该学生对自己的教学是否适用。比如，老师在课堂上看见学生是眼睛张开，嘴角上扬，愉悦地望向自己，他应该就会知道这个学生对自己的教学内容有了理解，那么此刻老师就可以适时地进入下一个讲解，但若是看见学生眉毛紧皱，嘴角下拉，甚至是疲惫的状态，那么老师可以结合自己的多年教学经验得出此刻学生有疑惑或未理解，那么老师即可作调整。但是老师不会一直将注意力放在学生的表情和对其的分析上，也不能全面兼顾到全班所有同学基于人脸表情识别的课堂质量分析戴海云张明（江苏科技大学计算机科学与工程学院镇江212003）摘要课堂是教师授课与学生学习

3、的主阵地，所以课堂质量分析体现着一所学校的教学水准和教师授课于学生的的适用性的高低。然而，在当今教育业中，对于课堂质量的分析，每个学校或者每个教育机构都有着参差不齐的理论基础和评价方法，始终都没有达成一个统一且高效的标准。因此，对于结合人脸表情识别技术，研究出新的低成本或成本可控、高精度以及较高可靠性的课堂质量分析是我们现在亟需解决的难点问题。论文提出的一种基于视频序列表情识别的新模型，即特征融合-BiLSTM模型在常用的数据集中验证了表情识别的效果，并将其使用于论文给出的新的课堂质量分析体系中，结果显示可以为现阶段的课堂教学分析提供相对可靠的参照。关键词人脸表情识别；特征融合；BiLSTM；

4、课堂质量分析中图分类号TP301DOI：10.3969/j.issn.1672-9722.2023.03.033Classroom Quality Analysis Based on Facial Expression RecognitionDAI HaiyunZHANG Ming（School of Computer Science and Engineering，Jiangsu University of Science and Technology，Zhenjiang212003）AbstractClassroom is the main position for teachers to

5、 teach and students to learn，so the analysis of classroom quality reflects the teaching level of a school and the applicability of teachers to students.However，in todays education industry，for the analysis of classroom quality，every school or every educational institution has uneven theoretical foun

6、dations and evaluation methods，and has never reached a unified and efficient standard.Therefore，combining facial expression recognition technology to develop anew low-cost or cost-controllable，high-precision and high-reliability classroom quality analysis is a difficult problem that we urgently need

7、 to solve.This paper proposes a new model based on video sequence expression recognition，that is，the feature fusion-BiLSTM model，which verifies the effect of expression recognition in commonly used data sets，and uses it in the new classroom quality analysis system given in this article.The display c

8、an provide a relatively reliable reference for the current classroomteaching analysis.Key Wordsfacial expression recognition，feature fusion，BiLSTM，classroom quality analysisClass NumberTP301总第 401 期2023 年第 3 期计算机与数字工程Computer&Digital EngineeringVol.51 No.37162023 年第 3 期计算机与数字工程的表情变化，用计算机技术来作为辅助老师对自己

9、的学生的表情识别和记录，对课堂质量做出分析，从而调整教学进度和改善教学方法，那么是非常实时、客观且有意义的事情。2基于视频序列的表情识别模型在基于深度学习方法的静态表情识别2学习研究中，虽然取得了良好的识别效果，但是在课堂中学生的表情的发生是一个持续的过程，所以基于静态图像的表情识别忽略了表情的动态信息。为解决这一问题，本文提出了一种特征融合-BiLSTM模型用于视频序列人脸表情识别。该网络模型是融合了提取的空间信息和时序信息，再结合使用BiLSTM。2.1BiLSTM循环神经网络（RNN）和长短期记忆网络（LSTM）3两种模型对结果的预测仅仅是依赖当前状态的若干个前序

10、状态，是没有办法做到对后序信息的编码操作。但是，由前序若干状态和后序若干状态共同作为输入对结果的预测会更好。双向循环神经网络（Bi-directional Short-Term Memory，BiLSTM）4可满足以上叙述的要求。前序LSTM和后序LSTM共同组合成BiLSTM，其神经元状态不仅和上一刻的本身状态有关，而且和下一刻的自身状态也相关。能够从前序 LSTM提取到过去的特征，从后序LSTM提取到未来的特征。结构如图 1 所示。图中圆圈为逐点运作；蓝线为后向传播；绿线为前向传播。从双向层看，它从垂直向和水平向获得信息，最终再将上层的处理信息输出出来。2.2提取空间特征信息人脸表

11、情的特征是由表情图像的空间特征提供的。为了能提取出更多的更有效的表情特征，本文使用的空间特征提取网络是静态表情识别网络，如图2所示。此网络提供了卷积神经网络设计的一个关键点深度。同时将此网络结合 Inception结构，再进行分解卷积和维度，能较大程度地减少计算成本。实验证明此模型在提取静态表情特征中提供了良好的效果。yt-1ytyt+1tanhtanhtanhLSTMLSTMBidirectionallayertanhxt-1LSTMLSTMBidirectionallayertanhxtLSTMLSTMBidirectionallayertanhxt+1蓝线绿线图1BiLSTM结构soft

12、maxoutput:116output:11768FCFCoutput:55128CONVPOOLoutput:55768softmaxoutput:116output:112048FCoutput:8820482 Inception-Coutput:881280POOLReduction-Boutput:8812804 Inception-Boutput:1717768Reduction-A3 Inception-ACONVsoutput:1717768output:3535288图2静态表情识别网络2.3提取时间序列信息提取表情动态的特征是由时序信息提取网络完成的，如图3所示。图3的说明如

13、下：输入两张表情序列图片，这种方式的输入可以使用网络提取到短期记忆的带台信息，与上一节所说的空间信息提取不同的是，空间特征提取是给出详细的空间表情特征，此节所说的网络是将表情的时序性放于重心处。所以在时序信息网络的挑选中本文优先使用有最好识别效果的较浅的卷积神经网络。这个结构包含两层Conv，两层最大Pooling，而且在每个卷积层后都使用了批量正则化层（Batch Normalization，BN）5，批量正则化的优点在于能更快收敛到局部最优。模型的最后是一个全连接层，即FC。Deep Temporal NetworkConvPoolingPoolingConvFC128图3提取表情动态特征

14、717第 51 卷2.4特征融合-BiLSTM前两节提取到的表情空间特征和短期时序信息有相同的维度，就可以将两种特征进行融合。融合方法有三种，最大融合、连接融合和相加融合。经过在CK+数据集上进行十字交叉验证法，并重复3次，不同融合方法的识别效果如表1所示，根据结果最终采用连接融合特征。设PA和PB表示提取的空间特征的特征向量和提取的时序信息的特征向量，用L，W和D代表特征向量长、宽和通道数，Q则代表融合后的特征。在式（1）中，pA,PBRLWD,qcatRLW2D且1iW,1jW。qcatm,n,2r=pAm,n,r,qcatm,n,2r-1=pBm,n,r（1）上述融合特征之后，两个网络的

15、特征向量就被转换成时间序列。然而。这个是短期的时序信息，我们需要的是整个表情绪里的叠加时序信息，需要采用BiLSTM循环神经网络。整个过程表示如下：hft=(Afxt+Bfhft-1+ef)（2）het=(Aext+Behet-1+ee)（3）yt=(Cfhft+Cehet+ey)（4）在以上三个公式中，xt表示经过融合特征之后的向量，yt表示输出向量，hft,het代表前向传播隐含层和后向传播隐含层，表示sigmoid激活函数，e是偏置向量，A、B、C表示权重向量。表1不同融合方式的准确率Fusion_MethodMaxCatSumPrecision/%98.499.699.02.5实验结果

16、本文模型与其他模型分别在CK+数据集上进行对比试验，结果如表2所示，从表中可看出本文提出的模型比最新的模型的精确度提高了，说明特征融合-BiLSTM使得识别效果得到了提升。表2不同模型在CK+数据集上的识别效果ModelLomo6IDT+FV7DTAGN8ARDfee9PPDN10Model from this paperPrecision/%95.1595.8297.3497.8698.2698.58表 3表示本文的特征融合-BiLSTM 模型在数据集CK+上的混淆矩阵。可以看出，可能由于happy和angry两个表情特征比较明显，这两种的识别表现良好，而其他的就会较容易出现FN类型的错误。

17、表3特征融合-BiLSTM模型-数据集CK+混淆矩阵AngerDisgustFearHappySadSurprisedContemptAnger99.200.130.450.020.260.250.27Disgust0.0898.740.460.120.440.300.29Fear0.210.2697.320.080.490.350.37Happy0.050.100.2699.550.080.130.09Sad0.200.160.490.0698.120.220.19Surprised0.120.320.440.030.1898.570.17Contempt0.120.290.540.100.

18、310.1798.593课堂质量分析体系课堂质量分析直接反映学生课堂听讲状态和教师教学的适用性程度。实现课堂质量分析划分为两个部分，首先通过学生的课堂表情识别结果设计出学生表情分数，此表情分数决定听课状态分类，其次能给出一节课中全部学生的听课状态，最终通过与教师评分对比作验证。3.1学生表情-学生听课状态划分经查阅大量表情识别与教学相关的研究1115，得知表情体现的表情特征能反映处该表情的情绪，再结合真实的课堂环境，所以得出以下的学生表情-学习情绪的分类，见表4。对照学生表情及表情特征，本文将学习情绪分为7类，表情识别模型可以为每类学习情绪输出一个置信度，作为这个表情的的可能性，这一可能性作为

19、学生听课状态评分的标准。结合上面表格，去除与课堂无关的表情，将害怕权值设为零；将蔑视作为对听课状态很不好的判断，权值设置为-3；厌恶作为对听课状态不好的判断，权值设为-2；悲伤作为对听课状态较不好的判断，权值设为-1；听课状态较好、好、非常好依次对应生气、惊讶、开心，权值分别为1，2，3。最后得分取值在-33之间，再进行归一化，就可以得到学生a在时刻t时的表情分戴海云等：基于人脸表情识别的课堂质量分析7182023 年第 3 期计算机与数字工程数，见式（5）。Expre_Point(t)=xtEg(P(xt)3（5）E=happy,surprised,anger,fear,sad,disgus

20、t,contempt（6）g=|0P(x),xfear-1P(x),xsad-2P(x),xdisgust-3P(x),xcomtempt1P(x),xanger2P(x),xsurprised3P(x),xhappy（7）为得到全班所有学生一帧图片的表情分数，进行下一操作：累加所有学生的表情权重并求其平均值，见式（8），snt表示学生一帧画面识别到的学生数量。F(t)=1sntExpre_Pointt(t)snt（8）根据一节课的总时间，将所有时刻的分数累计取平均值，就可以得到一整节课的学生表情分数，因分布在-11之间，为了保证分数在010之间，将权值乘上5再加上基础分5分，见式（9）。Al

21、l_Point=5+5T1F(t)T（9）3.2课堂质量分析本文通过计算出一整节课中识别到的学生表情分数进而对课堂质量作划分，课堂质量分为四个层次，Very Good、Good、Not bad、Bad，见表5。表5课堂质量划分Classroom_QualityPointBad02.5Not Bad2.55.0Good5.07.5Very Good7.5104实验与结果为了验证本文提出的基于人脸表情识别的课堂质量分析是否合理，作者选择了高中学校的一节课进行分析，取其中20min的时长，一帧为间隔将视视频分为14400张图片，获取10000有效图片，并选择其中五名学生进行跟踪，将本文设计评分与教师

22、评分作对比并分析，结果见表6。表4学生表情-学习情绪S_ExpressionAngerDisgustFearHappySadSurprisedContemptExpression_feature眼睛瞪大，鼻孔变大，嘴紧闭或张开下眼皮有横纹，鼻子皱，嘴紧闭嘴角下拉眼睛睁大可能斜视，嘴张开下眼皮有皱纹，鱼尾纹向外扩张，嘴角向后并拉高上眼皮抬高，嘴角下拉眼睛睁大，上眼皮抬高，下眼皮下落，嘴张开，不紧张，不拉伸嘴角紧闭，嘴角一侧上扬Learning_Emotion疑惑的、思考不感兴趣排斥喜欢、理解疲惫兴奋、紧张厌倦表6教师评分-本文设计评分Student_NoStudent1Student2Stude

23、nt3Student4Student5Teacher A6.56.86.86.86.7Teacher B6.97.17.07.06.9Teacher C5.05.06.08.07.5Teacher D5.65.25.07.26.9T_Average6.06.0256.27.257.0All_Point6.66.96.86.96.6使用皮尔逊积矩相关系数来验证教师评分与本文设计评分的相关性。式（14）是皮尔逊积矩相关系数公式，式（10）和式（11）是教师评分和本文设计评分的平均值，式（12）和式（13）是教师评分和本文设计评分的标准差，sn为学生总数，ti是教师评分集合，si是本文设计评分的集合

24、。-教师评分=15(6.0+6.025+6.2+7.25+7)=6.495（10）-本文设计评分=15(6.6+6.9+6.8+6.9+6.6)=6.76（11）教师评分=1snt=1N(xt-x)2=0.616（12）本文设计评分=1snt=1N(xt-x)2=0.041（13）Person=Ni=1(ti-教师评分)(si-本文设计评分)sn教师评分本文设计评分=719第 51 卷0.360（14）据计算，两者相关系数大于零，说明本文设计评分和教师评分是存在相关性的，即本文针对基于人脸表情识别的课堂质量设计评分是合理的。5结语针对目前的课堂质量分析不多的情况，本文将智能视频技术以及人脸表情

25、识别技术应用到课堂质量分析中，为现在的不足提供一个相对可靠的分析依据。第一部分的工作落于对人脸表情识别算法的研究，提出了特征融合-BiLSTM模型，提高了识别准确率，也为课堂注量分析打下夯实基础；第二部分工作体现在本文提出的课堂质量评分，依据皮尔逊积矩相关系数，验证了其合理性。文中把较好的表情识别作为课堂质量分析的因素是相对可靠的，但是在课堂质量分析中，但还有一些问题需要深挖，比如人体姿态因素、评分应该分学科等。参考文献1Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional

26、neural networks J.Communications of the ACM，2017，60（6）：84-90.2 Szegedy，C，loffe，S，Vanhoucke，V.，et al.Inception-v4，inception-resnet and the impact of residual connections on learning C/The Association for the Advanceof Artificial Intelligence（AAAI）.San Francisco，California，USA.2017：4278-4284.3 Gers F

27、A，Schraudolph N N，Schmidhuber，Jrgen.Learning Precise Timing with LSTM Recurrent NetworksJ.Journal of Machine Learning Research，2003，3（1）：115-143.4Graves A，Jrgen Schmidhuber.Framewise phoneme classification with bidirectional LSTM and other neural network architectures J.Neural Networks，2005，18（5-6）：

28、602-610.5Ioffe S，Szegedy C.Batch Normalization：AcceleratingDeep Network Training by Reducing Internal CovariateShift J.Computer Science，2015.6Sikka，K.，Sharma，G.，Bartlett，M.Lomo：Latent ordinal model for facial analysis in videos C/The IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.L

29、as Vegas，NV，USA.2016：5580-5589.7Afshar S，Salah A A.Facial Expression Recognition in theWild Using Improved Dense Trajectories and Fisher Vector Encoding C/Computer Vision&Pattern RecognitionWorkshops.IEEE，2016：1517-1525.8Ofodile，I.，Kulkarni，K.，Corneau，et al.Automatic recognition of deceptive facial

30、expression of emotionEB/OL.http：/arxiv.org/pdf/1707.040661.pdf.20179Klser A，Marszalek M，Schmid C.A Spatio-Temporal Descriptor Based on 3D-Gradients C/British Machine Vision Conference，2010.10Taini M，Zhao G，Li S Z，et al.Facial expression recognition from near-infrared video sequencesC/19th Internatio

31、nal Conference on Pattern Recognition（ICPR2008），December 8-11，2008，Tampa，Florida，USA.IEEE Computer Society，2008.11赵明仁，王嘉毅.促进学生发展的课堂教学评价 J.教育理论与实践，2001：41-44.ZHAO Mingren，WANG Jiayi.Classroom teaching evaluation to promote student developmentJ.EducationalTheory and Practice，2001：41-44.12杨金朋，薛耀锋，李佳璇，等

32、.基于人脸表情识别的在线学习情感计算研究 J.中国教育技术装备，2017（18）：41-42，49.YANG Jinpeng，XUE Yaofeng，LI Jiaxuan，et al.Research on online learning emotion computing based on facial expression recognition J.China Educational Technology&Equipment，2017（18）：41-42，49.13冯满堂，马青玉，王瑞杰.基于人脸表情识别的智能网络教学系统研究 J.计算机技术与发展，2011，21（6）：193-196.

33、FENG Mantang，MA Qingyu，WANG Ruijie.Researchon Intelligent Network Teaching System Based on FacialExpression RecognitionJ.Computer Technology andDevelopment，2011，21（6）：193-196.14程萌萌，林茂松，王中飞.应用表情识别与视线跟踪的智能教学系统研究 J.中国远程教育，2013（5）：59-64.CHENG Mengmeng，LIN Maosong，WANG Zhongfei.Research on Intelligent Te

34、aching System Using FacialExpression Recognition and Sight TrackingJ.ChinaDistance Education，2013（5）：59-64.15孙波，刘永娜，陈玖冰，等.智慧学习环境中基于面部表情的情感分析 J.现代远程教育研究，2015（2）：96-103.SUN Bo，LIU Yongna，CHEN Jiubing，et al.Emotionanalysis based on facial expressions in smart learning environmentJ.Modern Distance Education Research，2015（2）：96-103.戴海云等：基于人脸表情识别的课堂质量分析720

展开阅读全文