CN113591699B

CN113591699B - 基于深度学习的在线视觉疲劳检测系统及方法

Info

Publication number: CN113591699B
Application number: CN202110869724.XA
Authority: CN
Inventors: 牛毅; 张子楠; 马明明; 李甫; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-02-09
Anticipated expiration: 2041-07-30
Also published as: CN113591699A

Abstract

本发明公开了一种基于深度学习的在线视觉疲劳检测系统，主要解决现有技术中获取操作员信息单一，系统运行实时性差和疲劳检测准确率低的问题，其包括数据采集模块、图像数据处理模块和疲劳检测模块，该数据采集模块，置于电脑显示器正下方，用于采集眼动数据、RGB图像和深度信息；该图像数据处理模块，用于对图像数据中人脸位置、人脸特征点的检测及特征点深度信息的提取；该疲劳检测模块，用于对眼动数据、人脸特征点数据及深度数据的特征提取、特征融合和分类，输出操作员的疲劳程度。本发明使用非接触式方法，减少了对操作员工作状态的影响，避免了手工特征的设计，提升了视觉疲劳检测的准确率。可用于在线实时检测操作员的视觉疲劳等级。

Description

基于深度学习的在线视觉疲劳检测系统及方法

技术领域

本发明属于计算机视觉及视频分析技术领域，更进一步涉及一种在线视觉疲劳检测系统及方法，可用于在线实时检测操作员的视觉疲劳等级。

背景技术

随着社会发展的不断进步，计算机的使用已经涉及到了各行各业，越来越多的工作岗位要求从业者熟练掌握计算机的相关技能，并且要求作业者长时间使用计算机。此类工作体力劳动量少，工作内容较为单调、重复，很容易引起操作员的视觉疲劳，造成操作员的工作能力下降，大大降低了其工作效率。并且，当人体持续出现视觉疲劳状态时，很容易导致操作员出现注意力不集中、眼干、眼涩、头晕等症状。因此，如何检测到操作员的视觉疲劳，并及时采取有效的干预方法，保证操作员始终能够保持一个较好的工作状态，从而提升操作员的任务效绩，是值得关注的一件事。现有技术用于视觉疲劳检测行为主要分为基于生理信息和基于视觉信息，其中，生理信息主要包括脑电信息和心率信息，视觉信息主要包括眼动信息和面部信息，基于生理信息的方法相较于基于视觉信息的方法能获得较高的视觉疲劳检测精度，但是相关设备采用了接触式甚至侵入式的方法，会干扰到作业员的工作状态，加重操作员的疲劳程度。

中科院微电子研究所昆山分所在其申请的专利文献“一种疲劳度检测方法及装置”(申请号：201811360966.0，申请公布号：CN109657550A，申请日：2018年11月15日)中公开了一种疲劳度检测方法及装置。该专利申请公开的方法包括首先拍摄视频片段，接着按照时间维度检测视频片段中的各人脸图像，然后提取各个人脸图像中多个区域的特征点，再根据该多个区域的特征点，计算各个时刻的眼睛闭合度、嘴巴张合度和点头频率，以及计算相应的阈值，来确定操作员的疲劳度。该方法存在的不足之处是：由于人工设计相关的特征及阈值，因此特征的好坏和阈值的大小会直接影响最终的疲劳检测结果。该专利公开的装置包括拍摄模块，检测模块，提取模块和确定模块。装置工作时，首先由拍摄模块拍摄视频片段；然后由检测模块按照时间维度检测拍摄模块拍摄的视频片段中的各人脸图像；接着由提取模块提取检测模块检测的各个人脸图像中多个区域的特征点；最后由确定模块根据提取模块提取的多个区域的特征点，确定相应人员的疲劳度。该系统存在两点不足之处：其一，由于该装置只有视频数据的输入，数据种类单一，缺乏其他有效信息，因此判断疲劳状态结果不准确，且易受光照因素的影响；其二，该装置只有2D空间中的图像数据的输入，缺少深度信息，因此不能表示人脸姿态信息。

南京理工大学在其申请的专利文献“伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统”(申请号：202010522475.2，申请公布号：CN111428699A，申请日：2020年06月10日)中公开了一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统。该专利申请公开的系统包括视频采集剪切模块，驾驶疲劳检测模块，显示模块。系统工作时，首先视频采集剪切模块采集驾驶员上半身信息的实时视频流，然后驾驶疲劳检测模块检测驾驶员的疲劳程度，最后由显示模块显示输入的视频图像信息和输出的驾驶疲劳检测状态信息与检测到驾驶疲劳后的警告信息。该系统在检测过程中存在的不足之处在于，由于只采集了视频流信息，信息种类单一，因此不能全面的检测操作员的疲劳状态。该专利申请公开的一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法，是先提取驾驶视频视频帧序列并进行处理；接着采用伪3D卷积模块进行时空特征学习；然后构建P3D-Attention模块，使用注意力机制在通道与特征图上施加关注；最后使用2D全局平均池化层，Softmax分类层进行分类。该方法由于直接对序列图像进行操作，因此会造成网络参数量较大，冗余信息多，实时性较差，如果要满足实时性，则对硬件设备要求较高。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于深度学习的在线视觉疲劳检测系统及方法，以获取操作员丰富的生理信息，提升计算效率，提高检测的实时性和疲劳检测的准确率。

实现本发明目的的思路是：对于接触式的视觉疲劳检测系统中设备与人体接触部分会增加操作员的疲劳程度问题，本发明通过采用非接触式硬件设备，减少对操作员工作状态的影响；对于非接触式视觉疲劳检测系统中数据单一的问题，本发明通过数据采集系统获取操作员的眼动数据，图像数据和深度数据，为判定视觉疲劳状态提供了更丰富的信息；对于视觉疲劳检测系统中难以满足实时性的问题，通过采用计算机视觉的方法将图像数据转化为文本数据，以提升计算效率；对于视觉疲劳检测系统中手工设计特征难度大的问题，通过采用深度学习的方法和端到端的方式，避免手工设计特征的方式，并极大提升了准确率。

根据上述思路，本发明的技术方案如下：

1.一种基于深度学习的在线视觉疲劳检测系统，包括数据采集模块、图像数据处理模块和疲劳检测模块，其特征在于：

所述数据采集模块，置于电脑显示器的正下方，其包括眼动数据采集子模块，RGB图像及深度数据采集子模块，分别用于眼动数据的采集及RGB图像和深度信息的采集，并将眼动数据采集子模块采集的眼动数据输入至疲劳检测模块，将RGB图像及深度数据采集子模块采集的RGB图像和深度信息输入至图像数据处理模块；

所述图像数据处理模块，包括人脸检测子模块，人脸特征点提取子模块与深度信息提取子模块，分别用于图像数据中人脸位置的检测、图像数据中人脸特征点的检测和特征点深度信息的提取，并将图像数据处理模块输出的人脸特征点数据以及深度数据输入至疲劳检测模块；

所述疲劳检测模块，其包括时序眼动网络、空间面部网络、空间深度网络、特征融合网络和视觉疲劳检测网络，且时序眼动网络、空间面部网络、空间深度网络三者并联后依次与特征融合网络和视觉疲劳检测网络级联，用于采用深度学习的方法对眼动数据、人脸特征点数据以及深度数据进行特征提取、特征融合和分类，输出操作员的疲劳程度。

进一步，所述疲劳检测模块中各网络的结构及参数如下：

所述时序眼动网络，其结构为，输入层→第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层；

所述空间面部网络，其结构为，输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→第5卷积层→第6卷积层；

所述空间深度网络，其结构为，输入层→第Ⅰ卷积层→第Ⅱ卷积层→第Ⅲ卷积层；

所述特征融合网络，其结构为，卷积层→第一全连接层→第二全连接层，其第一全连接层大小为l₁，第二全连接层大小为l₂；

所述视觉疲劳检测网络，包含一个Softmax函数，其输入大小为l₂的张量，输出大小为l₃的张量，取该输出张量中最大值的索引即为操作员的疲劳程度。

上述时序眼动网络、空间面部网络和空间深度网络中每个卷积层均使用大小为3的一维卷积核，卷积步长为1，特征融合网络中卷积层使用大小为1的一维卷积核，卷积步长为1。

2.一种利用权利要求1所述系统进行在线视觉疲劳的检测方法，其特征在于，包括：

1)采集数据：

1a)通过眼动数据采集子模块，获取大小为T_E×E的眼动数据，其中，E表示眼动数据的维度，T_E＝F_E×n，T_E表示眼动数据的帧数，F_E表示眼动仪的采样率，n表示采集的时间；

1b)通过RGB图像及深度数据采集子模块，获取大小为M×N×T_I的图像序列及大小为M×N×T_I的深度数据，其中，M表示图像的宽度，N表示图像的高度，T_I＝F_I×n，T_I表示图像序列的帧数，F_I表示每秒传输帧数FPS，n表示采集的时间；

2)处理图像数据：

2a)将RGB图像数据输入到人脸检测子模块，该子模块使用Dlib库中基于方向梯度直方图HOG和支持矢量机SVM方法的人脸检测算法，输出图像中标记人脸位置的矩形框左上角坐标P₁和矩形框右下角坐标P₂；

2b)将2a)输出的人脸位置数据输入到人脸特征点提取子模块，该子模块使用Dlib库中的基于梯度提升决策树GBDT的人脸特征点检测提取算法，检测68个人脸特征点坐标集合，提取该集合中包括双眼特征点及嘴部内侧特征点共20个特征点位置；

2c)将2b)获取的特征点位置输入到深度信息提取子模块，获得对应特征点位置的深度数据；

3)检测操作员疲劳程度：

3a)将1a)采集的眼动数据，2b)输出的人脸特征点数据和2c)中输出的深度数据分别输入到疲劳检测模块中的时序眼动网络、空间面部网络和空间深度网络中，使用深度学习方法，提取上述数据中的不同特征，即序列眼动特征x_g，空间面部特征x_i和空间深度特征x_d；

3b)将3a)中输出的不同特征输入到疲劳检测模块中的特征融合网络，输出融合特征；

3c)将3b)中输出的融合特征输入到疲劳检测模块中的视觉疲劳检测网络，输出操作员的疲劳程度。

本发明与现有技术相比，具有以下优点：

第一，保证操作员正常工作

由于本发明系统中采用了非接触式的数据采集模块，即将数据采集模块置于电脑显示器的正下方，保证了在不干扰操作员工作状态的情况下，采集操作员的有效数据，避免了对操作员的工作干扰。

第二，获取生理信息丰富

由于本发明的系统中采用眼动数据采集子模块以及RGB图像及深度数据采集子模块，同时获取操作人员的眼动数据、图像数据和深度数据，克服现有技术中由于只获取单一种类数据而造成的估计操作人员视觉疲劳程度偏差大的问题，增加了信息类别。

第三，检测准确率高

由于本发明的方法中使用深度学习的方法，实现端到端过程，克服了现有技术中因手工设计特征难度大而造成的视觉疲劳检测结果准确率低的问题，提高了检测准确率；

第四，运行实时性强

由于本发明的方法使用图像处理的方法，将图像数据处理问题转化为文本数据处理问题，克服了现有技术中因使用深度学习方法处理大量图像数据而造成系统运行实时性差的问题，提高了视觉疲劳检测运行的实时性。

附图说明

图1为本发明基于深度学习的在线视觉疲劳检测系统的结构示意图；

图2为本发明系统中疲劳检测模块的结构示意图；

图3为本发明基于深度学习的在线视觉疲劳检测方法实现流程图。

具体实施方式

以下结合附图与实施例，对本发明做进一步详细描述。

参照图1，对本发明的在线视觉疲劳检测系统，包括数据采集模块1，图像数据处理模块2，疲劳检测模块3。

所述数据采集模块1，置于电脑显示器的正下方，与操作员距离在65cm到85cm之间，主要由眼动数据采集子模块11，RGB图像及深度数据采集子模块12组成，其中：

该眼动数据采集子模块11，根据视觉疲劳检测系统所需的准确性，使用采样率为90Hz的Tobii Eye Tracker，采用传统瞳孔角膜反射技术PCCR遥测式眼动跟踪技术的改进版，使用图像传感器采集近红外光源在操作员眼睛的角膜和瞳孔上产生反射图像，经过该子模块内置的图像处理算法精确地计算出眼睛的空间位置和视线位置，其采集包括注视点坐标P_G(x,y)，左眼空间位置P_LE(x,y,z)，右眼空间位置P_RE(x,y,z)，头部位置P_H(x,y,z)，头部姿态R_H(x,y,z)的眼动数据；

该RGB图像及深度数据采集子模块12，使用Intel RealSense Depth CameraD435i，采集分辨率大小均为640×360的RGB图像数据和深度数据。

所述图像数据处理模块2，主要由人脸检测子模块21，人脸特征点提取子模块22与深度信息提取子模块23组成，其中：

该人脸检测子模块21，根据视觉疲劳检测系统所需的实时性，采用Dlib库中的基于HOG和SVM方法的人脸检测算法，获取RGB图像中操作员的人脸位置；

该人脸特征点提取子模块22，根据视觉疲劳检测系统所需的实时性，采用Dlib库中基于GBDT的人脸特征点检测提取算法，得到操作员的68个人脸特征点位置集合，输出该集合中包括双眼特征点及嘴部内侧特征点共20个特征点位置，其中，双眼特征点位置数据表示人体眼部的开合状态，嘴部内侧特征点位置数据表示人体嘴部的开合状态；

该深度信息提取子模块23，输出与提取特征点位置数据对应的大小为75×20的深度数据。

所述疲劳检测模块3，采用了一维卷积神经网络算法，使用端到端的方法，由输入数据直接得到操作员的疲劳程度，

参照图2，该疲劳检测模块包括序眼动网络31、空间面部网络32、空间深度网络33、特征融合网络34和视觉疲劳检测网络35，且时序眼动网络31、空间面部网络32、空间深度网络33三者并联后依次与特征融合网络34和视觉疲劳检测网络35级联，其中：

该时序眼动网络31，由输入层和5个卷积层依次级联组成，每个卷积层均使用大小为3的一维卷积核，卷积步长为1，输出序列眼动特征x_g；

该空间面部网络32，由输入层和6个卷积层依次级联组成，每个卷积层均使用大小为3的一维卷积核，卷积步长为1，输出生成空间面部特征x_i；

该空间深度网络33，由输入层和3个卷积层依次级联组成，每个卷积层均使用大小为3的一维卷积核，卷积步长为1，输出空间深度特征x_d；

该特征融合网络34，由1个卷积层和2个全连接层依次级联组成，卷积层使用大小为1的一维卷积核，卷积步长为1，输出融合特征x；

该视觉疲劳检测网络35，使用Softmax函数进行分类，输出操作员的疲劳程度。

下面结合附图3对本发明的在线视觉疲劳检测方法的步骤作进一步的描述。

步骤1，启动数据采集模块。

通过眼动数据采集子模块，获取大小为450×14的眼动数据，包括注视点坐标P_G(x,y)，左眼空间位置P_LE(x,y,z)，右眼空间位置P_RE(x,y,z)，头部位置P_H(x,y,z)，头部姿态R_H(x,y,z)；

通过RGB图像及深度数据采集子模块，获取大小为640×360×75的图像序列及大小为640×360×75的深度数据；

步骤2，提取采集图像数据中人脸的特征点和对应的深度信息。

将RGB图像数据输入到人脸检测子模块，该子模块使用Dlib库中基于方向梯度直方图HOG和支持矢量机SVM方法的人脸检测算法，输出图像中含有人脸的矩形框左上角坐标P₁和矩形框右下角坐标P₂；

将矩形框左上角坐标P₁和矩形框右下角坐标P₂输入到人脸特征点提取子模块，该子模块使用Dlib库中的基于梯度提升决策树GBDT的人脸特征点检测提取算法，获得68个人脸特征点位置集合，提取该集合中包括双眼特征点及嘴部内侧特征点共20个特征点位置，输出大小为40×75人脸特征点数据；

将人脸特征点数据输入到深度信息提取子模块，输出对应特征点位置的深度信息。

步骤3，检测操作员疲劳程度。

将眼动数据输入到时序眼动网络，输出序列眼动特征x_g；

将特征点位置数据输入到空间面部网络，输出空间面部特征x_i；

将深度数据输入到空间深度网络，输出空间深度特征x_d；

将序列眼动特征x_g，空间面部特征x_i和空间深度特征x_d输入到特征融合网络；

将序列眼动特征x_g与空间面部特征x_i进行拼接，输出一次拼接特征x_gi；

将一次拼接特征x_gi经过一个卷积层输出的结果与空间深度特征x_d拼接，输出二次拼接特征x_gid；

将二次拼接特征x_gid依次经过两个全连接层，输出融合特征x；

将融合特征x输入视觉疲劳检测网络，输出操作员的疲劳程度。

以上描述仅是本发明的一个具体实例，并不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的在线视觉疲劳检测系统，包括数据采集模块(1)、图像数据处理模块(2)和疲劳检测模块(3)，其特征在于：

所述数据采集模块(1)，置于电脑显示器的正下方，包括眼动数据采集子模块(11)，RGB图像及深度数据采集子模块(12)，其分别用于眼动数据的采集、及RGB图像和深度信息的采集，并将眼动数据采集子模块(11)采集的眼动数据输入至疲劳检测模块(3)，将RGB图像及深度数据采集子模块(12)采集的RGB图像和深度信息输入至图像数据处理模块(2)；

所述图像数据处理模块(2)，包括人脸检测子模块(21)，人脸特征点提取子模块(22)与深度信息提取子模块(23)，分别用于图像数据中人脸位置的检测、图像数据中人脸特征点的检测和特征点深度信息的提取，并将图像数据处理模块(2)输出的人脸特征点数据以及深度数据输入至疲劳检测模块(3)；

所述疲劳检测模块(3)，其包括时序眼动网络(31)、空间面部网络(32)、空间深度网络(33)、特征融合网络(34)和视觉疲劳检测网络(35)，且时序眼动网络(31)、空间面部网络(32)、空间深度网络(33)三者并联后依次与特征融合网络(34)和视觉疲劳检测网络(35)级联，用于采用深度学习的方法对眼动数据、人脸特征点数据以及深度数据进行特征提取、特征融合和分类，输出操作员的疲劳程度；

所述疲劳检测模块(3)中各网络的结构及参数如下：

所述时序眼动网络(31)，其结构为，输入层→第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层；

所述空间面部网络(32)，其结构为，输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→第5卷积层→第6卷积层；

所述空间深度网络(33)，其结构为，输入层→第Ⅰ卷积层→第Ⅱ卷积层→第Ⅲ卷积层；

所述特征融合网络(34)，其结构为，卷积层→第一全连接层→第二全连接层，其第一全连接层大小为l₁，第二全连接层大小为l₂；

所述视觉疲劳检测网络(35)，包含一个Softmax函数，其输入大小为l₂的张量，输出大小为l₃的张量，取输出张量中最大值的索引即为操作员的疲劳程度；

上述时序眼动网络(31)、空间面部网络(32)和空间深度网络(33)中每个卷积层均使用大小为3的一维卷积核，卷积步长为1，特征融合网络(34)中卷积层使用大小为1的一维卷积核，卷积步长为1。

(1)采集数据：

(1a)通过眼动数据采集子模块，获取大小为T_E×E的眼动数据，其中，E表示眼动数据的维度，T_E＝F_E×n，T_E表示眼动数据的帧数，F_E表示眼动仪的采样率，n表示采集的时间；

(1b)通过RGB图像及深度数据采集子模块，获取大小为M×N×T_I的图像序列及大小为M×N×T_I的深度数据，其中，M表示图像的宽度，N表示图像的高度，T_I＝F_I×n，T_I表示图像序列的帧数，F_I表示每秒传输帧数FPS，n表示采集的时间；

(2)处理图像数据：

(2a)将RGB图像数据输入到人脸检测子模块，该子模块使用Dlib库中基于方向梯度直方图HOG和支持矢量机SVM方法的人脸检测算法，输出图像中标记人脸位置的矩形框左上角坐标P₁和矩形框右下角坐标P₂；

(2b)将(2a)输出的人脸位置数据输入到人脸特征点提取子模块，该子模块使用Dlib库中的基于梯度提升决策树GBDT的人脸特征点检测提取算法，检测68个人脸特征点坐标集合，提取该集合中包括双眼特征点及嘴部内侧特征点共20个特征点位置；

(2c)将(2b)获取的特征点位置输入到深度信息提取子模块，获得对应特征点位置的深度数据；

(3)检测操作员疲劳程度：

(3a)将(1a)采集的眼动数据，(2b)输出的人脸特征点数据和(2c)中输出的深度数据分别输入到疲劳检测模块中的时序眼动网络(31)、空间面部网络(32)和空间深度网络(33)中，使用深度学习方法，提取眼动数据、人脸特征点数据和深度数据数据中的不同特征，即序列眼动特征x_g，空间面部特征x_i和空间深度特征x_d；

(3b)将(3a)中输出的不同特征输入到疲劳检测模块中的特征融合网络(34)，输出融合特征；

(3c)将(3b)中输出的融合特征输入到疲劳检测模块中的视觉疲劳检测网络(35)，输出操作员的疲劳程度。

3.根据权利要求2所述的方法，其特征在于，(1a)中采集的眼动数据，包括：注视点坐标P_G(x,y)，左眼空间位置P_LE(x,y,z)，右眼空间位置P_RE(x,y,z)，头部位置P_H(x,y,z)，头部姿态R_H(x,y,z)。

4.根据权利要求2所述的方法，其特征在于，(3b)中将(3a)中输出的不同特征输入到疲劳检测模块中的特征融合网络(34)，输出融合特征，是在三个不同特征进入该特征融合网络后，先将序列眼动特征x_g与空间面部特征x_i进行拼接，得到一次拼接特征x_gi；再将该一次拼接特征x_gi经过一个卷积层输出的结果与空间深度特征x_d拼接，得到二次拼接特征x_gid；该二次拼接特征x_gid依次经过两个全连接层，输出融合特征x。