CN113486744A

CN113486744A - 基于眼动和人脸表情范式的学生学习状态评估系统及方法

Info

Publication number: CN113486744A
Application number: CN202110705055.2A
Authority: CN
Inventors: 王荃; 卫晓洁; 党若琛; 胡炳樑
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-10-08
Anticipated expiration: 2041-06-24
Also published as: CN113486744B

Abstract

本发明涉及一种基于眼动和人脸表情范式的学生学习状态评估系统及方法，以解决现有学生学习状态评估方法无法获取学生真实状态的问题。该系统包括任务呈现模块、眼动数据采集装置、人脸表情采集装置、分析融合模块以及学习状态评估模块。任务呈现模块用于在显示屏上呈现学习状态测试实验的任务；眼动数据采集装置采集学生的眼动数据；人脸表情采集装置采集学生的人脸图像数据；分析融合模块用于统计分析得到学生的眼动指标和表情指标，并将眼动指标和表情指标融合为空间特征向量，通过决策树进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果；学习状态评估模块根据三方面的评估结果按照重要程度加权求得学习状态评估分数。

Description

基于眼动和人脸表情范式的学生学习状态评估系统及方法

技术领域

本发明涉及学生学习状态评估领域，具体涉及一种基于眼动和人脸表情范式的学生学习状态评估系统及方法。

背景技术

学生是学习的“主体”，学生“主动探究、主动建构新知”是认知和教学的规律。但无论公开课还是观摩课抑或“常态课”，观摩的老师，教研员或管理者，大多更关注课堂上的老师，对执教老师的评价占据着教学评价的主要位置。几乎很少见到从学生课堂学习状态的评价角度来评价老师的“教”。因此，要把目光投向教学评价应该注视的方向——学生学习状态。这样的评价视角是相对更科学的，体现了新的教学理念。

传统学生学习状态评估的方法有问卷调查、访谈以及观察等，然而很多学生由于各种原因往往不愿意配合或者故意隐瞒心理状态，无法获取学生真实的状态，因此需要一种学生无意识的采集系统对学生学习状态进行全面评估，为教学评估提供新的视角。

发明内容

本发明的目的是解决现有学生学习状态评估方法无法获取学生真实状态的问题，而提供一种基于眼动和人脸表情范式的学生学习状态评估系统及方法。

为达到上述目的，本发明所采用的技术方案是：

一种基于眼动和人脸表情范式的学生学习状态评估系统，其特殊之处在于：包括任务呈现模块、眼动数据采集装置、人脸表情采集装置、分析融合模块以及学习状态评估模块；

所述任务呈现模块用于在显示屏上呈现学习状态测试实验的任务；所述学习状态测试实验包括推理能力测试实验、情绪状态测试实验、专注状态测试实验；

所述眼动数据采集装置包括朝向学生脸部的眼动追踪仪，用于采集学生在实验过程中的眼动数据；

所述人脸表情采集装置包括朝向学生脸部的摄像头，用于采集学生在实验过程中的人脸图像数据；

所述分析融合模块包括眼动数据分析单元、人脸表情分析单元、眼动和表情融合单元；

所述眼动数据分析单元根据采集到的眼动数据统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标；

所述人脸表情分析单元对采集到的人脸图像数据进行表情分类，并统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标；

所述眼动和表情融合单元用于将推理能力测试实验的眼动指标和表情指标、情绪状态测试实验的眼动指标和表情指标、专注状态测试实验的眼动指标和表情指标分别融合为一个空间特征向量，并通过决策树对空间特征向量进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果；

所述学习状态评估模块根据推理能力、情绪状态、专注状态三方面的评估结果，按照重要程度加权求得学生的学习状态评估分数。

进一步地，所述推理能力测试实验具体为在显示屏上呈现一个不完整图形和包含图形缺失部分的多个选项，需要学生从多个选项中选出图形缺失部分；

所述情绪状态测试实验具体为在显示屏上呈现分布有多个图片的画面，所述多个图片分别反映不同类型情绪，供学生观看；

所述专注状态测试实验具体为在显示屏上播放老师讲授课件的视频，供学生观看。

进一步地，所述推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标具体为：

推理能力测试实验过程中学生的注视持续时间、扫视时间、注视次数、扫视次数；

情绪状态测试实验过程中学生观看每个图片区域的注视持续时间、扫视时间；

专注状态测试实验过程中学生的注视持续时间、注视次数、抬头率。

进一步地，所述推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标具体为：

推理能力测试实验过程中学生的疑惑表情率、高兴表情率；

情绪状态测试实验过程中学生的高兴表情率、伤心表情率、恐惧表情率；

专注状态测试实验过程中学生的疑惑表情率、高兴表情率。

进一步地，所述眼动追踪仪为桌面非接触式眼动追踪仪。

一种基于眼动和人脸表情范式的学生学习状态评估方法，采用上述基于眼动和人脸表情范式的学生学习状态评估系统，其特殊之处在于，包括以下步骤：

1)在显示屏上呈现学习状态测试实验的任务，由学生完成任务；

2)眼动数据采集装置采集学生在实验过程中的眼动数据；同时，人脸表情采集装置采集学生在实验过程中的人脸图像数据；

3)根据采集到的眼动数据统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标；同时，对采集到的人脸图像数据进行表情分类，并统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标；

4)将推理能力测试实验的眼动指标和表情指标、情绪状态测试实验的眼动指标和表情指标、专注状态测试实验的眼动指标和表情指标分别融合为一个空间特征向量，并通过决策树对空间特征向量进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果；

5)根据推理能力、情绪状态、专注状态三方面的评估结果，按照重要程度加权求得学生的学习状态评估分数。

进一步地，步骤3)中所述对采集到的人脸图像数据进行表情分类，具体按照以下步骤实施：

a)预处理：

将采集到的人脸图像进行人脸对齐，再将对齐后的人脸图像通过warp统一变成128×128像素大小；

b)基本特征学习：

使用卷积神经网络ResNet50作为特征提取器，对步骤a)处理后的人脸图像进行人脸表情特征提取，得到基本特征图F；

c)局部注意力特征提取：

将步骤b)得到的基本特征图F与通道数为M的1×1卷积核进行卷积，得到M个局部注意力掩模A，每个局部注意力掩模A关注一个特定的显著性人脸区域，将每个局部注意力掩模A与基本特征图F进行对应元素相乘，得到相应的局部注意力特征图F_A；

d)全局注意力特征提取：

将M个局部注意力掩模A通过通道方向的最大池化得到全局注意力掩模A_O，再将全局注意力掩模A_O与基本特征图F进行对应元素相乘，得到全局显著性特征图F_sal；

e)关联注意力特征提取：

e.1)将步骤d)得到的全局显著性特征图F_sal拉平为一个二维矩阵

使用1×1卷积核与二维矩阵

进行卷积，得到空间θ、

g和h上的注意力掩膜W_θ、

W_g和W_h；再将空间θ、

和g上的注意力掩膜W_θ、

和W_g分别与二维矩阵

进行对应元素相乘，得到三个全局注意力图θ(x)、

和g(x)；

e.2)计算θ(x)和

的点积，将点积结果输入到softmax激活函数以提取不同特征点的相关性γ，再将γ与g(x)进行加权求和得到结果为z，然后使用跳层连接空间h上的注意力掩膜W_h，将全局显著性特征图F_sal累加到W_h*z上，得到全局关联特征图F_S；

f)特征融合：

f.1)对所有的局部注意力特征图F_A和全局关联特征图F_S分别进行全局平均池化操作，得到M+1个注意力特征向量v；

f.2)将M+1个注意力特征向量v送入M+1个平行的全连接层进行进一步特征提取，得到M+1个注意力向量r；

f.3)将M+1个注意力向量r通过最大池化得到单个的特征表示向量ω,单个的特征表示向量ω再通过全连接层和softmax分类器进行分类，训练得到人脸表情识别模型；

g)损失函数优化：

g.1)将每个局部注意力掩模A归一化，对归一化后的局部注意力掩模通过最大池化操作，得到每个局部注意力掩模的最大值图；

g.2)计算理想情况下所有局部注意力掩模最大值图的和与实际情况下所有局部注意力掩膜最大值图的和的差值，得到局部注意力特征图F_A的约束项L_reg；

g.3)根据下式计算人脸表情识别模型的整体损失函数L，完成模型优化；

L＝L_cls+αL_reg

其中，L_cls是一个标准的交叉熵损失函数；

α为局部注意力特征图F_A约束项的参数；

h)将采集到的未知类型人脸图像数据输入到优化后的人脸表情识别模型中，得到表情分类结果。

进一步地，所述步骤4)具体按照以下步骤实施：

4.1)将推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标分别组成一个眼动特征向量；将推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标分别组成一个面部表情特征向量；将每个实验的眼动特征向量和面部表情特征向量融合为一个空间特征向量；

4.2)将步骤4.1)得到的三个空间特征向量作为输入，使用决策树进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果。

进一步地，步骤4)中所述推理能力、情绪状态、专注状态三方面的评估结果包括：

推理能力为强、中或弱；情绪状态为积极、中性或消极；专注状态为集中或分散。

本发明相比现有技术的有益效果是：

本发明提供的一种基于眼动和人脸表情范式的学生学习状态评估系统及方法，通过同步跟踪眼动情况和人脸表情，建立眼动、表情与学生学习状态之间的关联关系，从而实现非接触式地对学生学习状态的全面评估，评估结果更加准确真实。

眼动数据和人脸图像数据同步采集处理，无需对眼动和面部表情进行时间匹配，处理过程更加简单。

附图说明

图1是本发明基于眼动和人脸表情范式的学生学习状态评估系统的使用场景图；

图中，1-显示屏，2-眼动追踪仪。

图2a为推理能力测试实验任务呈现；

图2b为情绪状态测试实验任务呈现；

图2c为专注状态测试实验任务呈现；

图3是本发明基于眼动和人脸表情范式的学生学习状态评估方法的流程图；

图4为本发明基于眼动和人脸表情范式的学生学习状态评估方法中表情分类的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供的基于眼动和人脸表情范式的学生学习状态评估系统，包括任务呈现模块、眼动数据采集装置、人脸表情采集装置、分析融合模块以及学习状态评估模块。

任务呈现模块用于在显示屏1上呈现学习状态测试实验的任务。将学生的学习状态分为三个方面进行评价：包括推理能力、情绪状态、专注状态。相应地，学习状态测试实验包括推理能力测试实验、情绪状态测试实验、专注状态测试实验，其使用场景如图1所示。

推理能力测试实验具体为：在显示屏1上呈现注视点“+”后，呈现一个不完整图形和包含图形缺失部分的多个选项，需要学生经过推理用鼠标点击从多个选项中选出图形缺失部分，如图2a所示。

情绪状态测试实验具体为：在显示屏1上呈现注视点“+”后，呈现一张幻灯片，幻灯片上分布有反映四种不同类型情绪的四个图片，供学生观看。四种不同类型情绪分别为积极、中性、威胁、悲伤，如图2b所示。

专注状态测试实验具体为：在显示屏1上播放老师讲授课件的视频，供学生观看。视频呈现包括PowerPoint形式呈现教学内容和授课老师的实时窗口，呈现过程中伴随授课老师的讲解并对课件重点内容画圈和划线批注，如图2c所示。

眼动数据采集装置包括朝向学生脸部的眼动追踪仪2，用于采集学生在实验过程中的眼动数据。眼动追踪仪2为桌面非接触式眼动追踪仪，眼动追踪仪2固定在显示屏1的正下方，学生无需佩戴任何设备。

人脸表情采集装置包括朝向学生脸部的摄像头，用于采集学生在实验过程中的人脸图像数据。本实施例中，摄像头直接使用眼动追踪仪2的单灯双摄摄像头，其在对人眼视线进行追踪的同时，也对人脸图像进行拍摄，后期无需进行同步操作，且无需使用额外的摄像头，方便快捷。

分析融合模块包括眼动数据分析单元、人脸表情分析单元、眼动和表情融合单元。

眼动数据分析单元根据采集到的眼动数据统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标，具体为：推理能力测试实验过程中学生的注视持续时间、扫视时间、注视次数、扫视次数；情绪状态测试实验过程中学生观看每个图片区域的注视持续时间、扫视时间；专注状态测试实验过程中学生的注视持续时间、注视次数、抬头率。

人脸表情分析单元对采集到的人脸图像数据进行表情分类，并统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标，具体为：推理能力测试实验过程中学生的疑惑表情率、高兴表情率；情绪状态测试实验过程中学生的高兴表情率、伤心表情率、恐惧表情率；专注状态测试实验过程中学生的疑惑表情率、高兴表情率。

眼动和表情融合单元用于将推理能力测试实验的眼动指标和表情指标、情绪状态测试实验的眼动指标和表情指标、专注状态测试实验的眼动指标和表情指标分别融合为一个空间特征向量，并通过决策树对三个空间特征向量进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果。

学习状态评估模块根据推理能力、情绪状态、专注状态三方面的评估结果，按照重要程度加权求得学生的学习状态评估分数。

使用上述基于眼动和人脸表情范式的学生学习状态评估系统进行学习状态评估的方法流程如图3所示，包括以下步骤：

步骤1)在显示屏1上呈现学习状态测试实验的任务，由学生完成任务。

实验是在光线昏暗、隔音且无强电磁干扰的环境中进行的。在电脑显示屏1正下方放置一个桌面非接触式眼动追踪仪2，用于实时采集学生眼睛的运动状态和人脸图像。

实验开始前，将被试学生引导至相应实验位置处，被试学生坐在一张舒适的椅子上，保持视线在显示屏1正中，并与显示屏1中心距离约为60cm，头部放置在下巴托上，开始实验时被试学生需进行九点或五点校准。

推理能力测试实验开始后，在显示屏1上呈现注视点“+”，接着出现一个不完整图形和包含图形缺失部分的多个选项，学生经过推理用鼠标点击选出最符合图形缺失部分的选项。

情绪状态测试实验开始后，在显示屏1上呈现注视点“+”，接着出现一张幻灯片，幻灯片上分布有反映四种不同类型情绪的四个图片，分别为积极、中性、威胁、悲伤，由学生观看。

专注状态测试实验开始后，在显示屏1上播放老师讲授课件的视频，视频呈现包括PowerPoint形式呈现教学内容和授课老师的实时窗口，呈现过程中伴随授课老师的讲解并对课件重点内容画圈和划线批注，由学生观看。

步骤2)眼动数据采集装置采集学生在实验过程中的眼动数据；同时，人脸表情采集装置采集学生在实验过程中的人脸图像数据。

步骤3)根据采集到的眼动数据统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的眼动指标；同时，对采集到的人脸图像数据进行表情分类，并统计分析得到推理能力测试实验、情绪状态测试实验、专注状态测试实验的表情指标。

对学生推理能力的眼动数据评估，主要是对学生在推理能力测试实验过程中的注视持续时间、扫视时间、注视次数、扫视次数进行分析。注视持续时间指完成实验任务的总注视点持续时间，注视持续时间越长，表明推理时的心理加工时间越长，推理的难度越大；扫视时间反映了学生进行图形推理的加工难度，扫视时间越长，表明加工难度越大；注视次数越多，表明理解起来越困难；扫视次数反映学生进行图形推理时认知加工的效率，扫视次数越多，说明解决问题的效率越低。

对学生情绪状态的眼动数据评估，主要是从学生在情绪状态测试实验过程中观看每个类型图片区域的注视持续时间、扫视时间这两方面进行分析。消极的同学会花费更多的时间注视悲伤的图片，相反，积极的同学会花费更多的时间注视积极的图片。

对学生的课堂专注状态的眼动数据评估，主要是对学生在专注状态测试实验过程中的注视持续时间、注视次数、抬头率进行分析。注视持续时间表示学生对视频材料的投入度与加工程度，如果视线的停留时间越长，说明学生的投入度越高且加工程度越深；注视次数表示视频材料对学生注意力的引导，学生在视频学习内容中的注意力转移表现了学生在语义上联系各种类型的视频材料以达到综合理解的效果；抬头率主要是统计学生在视频学习过程中抬头和低头的次数，如果低头次数过多，说明学生对视频学习内容不感兴趣、无法专注于视频材料的学习。

对学生推理状态的人脸表情数据评估，主要是对学生在推理能力测试实验过程中的疑惑表情率、高兴表情率进行分析。

对学生情绪状态的人脸表情数据评估，主要是对学生在情绪状态测试实验过程中分析观看不同类型图片时的高兴表情率、伤心表情率和恐惧表情率。

对学生课堂专注状态的人脸表情数据评估，主要是对学生在专注状态测试实验过程中的疑惑表情率、高兴表情率进行分析。

对人脸表情进行识别并分类，采用基于局部-关联注意力网络的人脸表情识别算法，主要从人脸局部，以及局部的关联两方面对人脸进行建模，同时也考虑到人脸的全局信息。具体流程如图4所示，按照以下步骤实施：

a)预处理：

将采集到的人脸图像进行人脸对齐，再将对齐后的人脸图像通过warp统一变成128×128像素大小。

b)基本特征学习：

使用卷积神经网络ResNet50作为特征提取器，对步骤a)处理后的人脸图像进行人脸表情特征提取，得到基本特征图F。由于ResNet50最终的特征图的空间分辨率过小，每个像素的感受野过大，因此，使用ResNet50中conv3输出的特征图作为基本特征图，从而使得基本特征图有合适的空间分辨率以及感受野。

c)局部注意力特征提取：

使用局部注意力特征提取模块对人脸不同局部区域的信息进行特征提取。将步骤b)得到的基本特征图F与通道数为M的1×1卷积核进行卷积，得到M个局部注意力掩模A，每个局部注意力掩模A关注一个特定的显著性人脸区域，将每个局部注意力掩模A与基本特征图F进行对应元素相乘，得到相应的局部注意力特征图F_A。

d)全局注意力特征提取：

将M个局部注意力掩模A通过通道方向的最大池化得到全局注意力掩模A_O，再将全局注意力掩模A_O与基本特征图F进行对应元素相乘，得到全局显著性特征图F_sal。

e)关联注意力特征提取：

使用自注意力机制对不同局部特征之间的关联进行建模，同时将包含人脸信息的全局关联特征图F_S输出。步骤d)得到的全局显著性特征图F_sal被视为只包含人脸上所有显著性局部区域的特征图。

e.1)将全局显著性特征图F_sal拉平为一个二维矩阵

使用1×1卷积核与二维矩阵

进行卷积，得到空间θ、

g和h上的注意力掩膜W_θ、

W_g和W_h；再将空间θ、

和g上的注意力掩膜W_θ、

和W_g分别与二维矩阵

进行对应元素相乘，得到三个全局注意力图θ(x)、

和g(x)。

e.2)计算θ(x)和

的点积，通过计算不同空间特征点的内积得到它们之间的关联。将点积结果输入到softmax激活函数以提取不同特征点的相关性γ，再将γ与g(x)进行加权求和得到结果为z，然后使用跳层连接空间h上的注意力掩膜W_h，将全局显著性特征图F_sal累加到W_h*z上，得到全局关联特征图F_S。这一操作将全局显著性特征图F_sal从输入端直接传递到输出端，保留显著性特征图的信息。

f)特征融合：

将步骤e.2)得到的全局关联特征图F_S和步骤c)得到的局部注意力特征图F_A一起输入到特征融合。

f.1)对所有的局部注意力特征图F_A和全局关联特征图F_S分别进行全局平均池化操作，得到M+1个注意力特征向量v。

f.2)将M+1个注意力特征向量v送入M+1个平行的全连接层进行进一步特征提取，得到M+1个注意力向量r。

f.3)将M+1个注意力向量r通过最大池化得到单个的特征表示向量ω,单个的特征表示向量ω再通过全连接层和softmax分类器进行分类，训练得到人脸表情识别模型。

g)损失函数优化：

局部-关联注意力网络的训练是通过同时优化一个包含两部分的损失函数来实现的。第一部分是局部注意力特征图F_A的约束项，使得不同的局部注意力掩膜A能够关注不同的人脸区域。第二部分是一个标准的交叉熵损失函数，以使网络能够对表情正确分类。

g.1)将每个局部注意力掩模A归一化，对归一化后的局部注意力掩模通过最大池化操作，得到每个局部注意力掩模的最大值图。

g.2)理想情况下，所有局部注意力掩模的关注区域都彼此不同。此时，这M个局部注意力掩模的最大值图的和正好等于M。计算理想情况下所有局部注意力掩模最大值图的和与实际情况下所有局部注意力掩膜最大值图的和的差值，得到局部注意力特征图F_A的约束项L_reg。

g.3)根据下式计算人脸表情识别模型的整体损失函数L，可以在对人脸表情分类的同时防止不同的局部注意力图相互重叠在一起，完成模型优化；

L＝L_cls+αL_reg

其中，L_cls是一个标准的交叉熵损失函数；

α为局部注意力特征图F_A约束项的参数。

步骤4)将推理能力测试实验的眼动指标和表情指标、情绪状态测试实验的眼动指标和表情指标、专注状态测试实验的眼动指标和表情指标分别融合为一个空间特征向量，并通过决策树对空间特征向量进行分类计算，得到推理能力、情绪状态、专注状态三方面的评估结果。具体按照以下步骤实施：

评估结果包括：推理能力为强、中或弱；情绪状态为积极、中性或消极；专注状态为集中或分散。

步骤5)根据推理能力、情绪状态、专注状态三方面的评估结果，按照重要程度加权求得学生的学习状态评估分数。