CN112101123B

CN112101123B - 一种注意力检测方法及装置

Info

Publication number: CN112101123B
Application number: CN202010845697.8A
Authority: CN
Inventors: 周鲁平; 胡晓华
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-05-28
Anticipated expiration: 2040-08-20
Also published as: CN112101123A

Abstract

本申请适用于图像处理技术领域，提供了一种注意力检测方法及装置。所述方法包括：获取关于用户的原始视频；所述原始视频包括多帧原始图像；将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；将所述关键点图像导入姿态识别网络，输出姿态信息；根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；基于所述原始视频以及所述用户状态，生成注意力检测结果，并输出所述注意力检测结果。本申请以关于用户的连续多帧原始图像作为判断基准，利用关键点提取网络以及姿态识别网络检测用户的注意力是否集中，并输出注意力检测结果，以提醒用户及时纠正。

Description

一种注意力检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种注意力检测方法及装置。

背景技术

随着教育信息化现代化的发展，现在越来越多的学生都在无人监督的情况下进行学习，例如网课，家中自习等。但是学生们在无人监督的情况下学习，容易因侥幸心理开小差，或因其他因素影响学生的注意力，进而影响学生的学习效果。而在无人监督的情况下，学生在学习期间无法全程集中注意力，在走神后难以及时回神，进而导致学习效果不佳，因此亟需一种注意力检测方法，能够检测学生的注意力是否集中，以来帮助学生在注意力不集中时及时纠正。

发明内容

有鉴于此，本申请实施例提供了一种注意力检测方法及装置，解决识别学生在学习时的注意力是否集中以提醒学生及时纠正的问题。

第一方面，本申请实施例提供了一种注意力检测方法，包括：获取关于用户的原始视频；所述原始视频包括多帧原始图像；将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；将所述关键点图像导入姿态识别网络，输出姿态信息；根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；基于所述原始视频以及所述用户状态，确定所述注意力检测结果，并输出所述注意力检测结果。

在第一方面的一种可能的实现方式中，所述获取关于用户的原始视频，包括：按预设的采集周期获取各个采集周期对应的原始视频。

示例性的，所述采集周期的时长为预设时长，具体可以为一分钟；所述原始视频包括多帧原始图像；一个采集周期对应的所述原始视频具体可以包括六十帧原始图像，也即所述采集周期内的一秒对应一帧所述原始图像。后续确定的用户状态即为所述采集周期对应的用户状态；后续确定的注意力检测结果即为所述采集周期对应的注意力检测结果。

应理解，通过调整所述采集周期的预设时长，本申请实施例提供的方法可以适用于实时监测用户注意力的应用场景，以便及时提醒用户纠正注意力不集中的问题。另外，通过收集各个采集周期对应的注意力检测结果，可以生成注意力分析报告，用于表征所述用户在获取所有原始视频期间的注意力情况；将所述注意力分析报告输出，以让所述用户(例如学生)或其他用户(例如学生的家长或老师)了解在获取所有原始视频期间(例如一堂课的时间)所述用户的注意力情况。

第二方面，本申请实施例提供了一种注意力检测装置，包括：原始视频获取模块，用于获取关于用户的原始视频；所述原始视频包括多帧原始图像；关键点提取模块，用于将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；姿态识别模块，用于将所述关键点图像导入姿态识别网络，输出姿态信息；状态确定模块，用于根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；检测结果生成模块，用于基于所述原始视频以及所述用户状态，生成注意力检测结果；检测结果输出模块，用于输出所述注意力检测结果。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请提供的注意力检测方法，相对于现有技术，以关于用户的关键点图像作为姿态识别网络的输入，输出姿态信息；基于连续多帧所述关键点图像对应的姿态信息之间的变化，确定用户的注意力是否集中，并输出注意力检测结果，以提醒用户及时纠正。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的检测方法的实现流程图；

图2是本申请一实施例提供的应用场景示意图；

图3是本申请第二实施例提供的关键点提取网络示意图；

图4是本申请第三实施例提供的检测方法的实现流程图；

图5是本申请第三实施例提供的旋转向量示意图；

图6是本申请第四实施例提供的检测方法的实现流程图；

图7是本申请第五实施例提供的检测方法的实现流程图；

图8是本申请第五实施例提供的确定用户状态的流程示意图；

图9是本申请第六实施例提供的检测方法的实现流程图；

图10是本申请一实施例提供的检测装置的结构示意图；

图11是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行本申请提供的方法的设备。优选地,该终端设备为智能教育终端设备,该终端设备能够获取关于用户的原始视频。图1示出了本申请第一实施例提供的方法的实现流程图，详述如下:

在S101中，获取关于用户的原始视频。

在本实施例中，所述原始视频包括多帧原始图像。一般地，通过摄像头获取关于用户的所述原始视频。示例性地，获取用户处于坐下状态时的原始视频，该摄像头应设置在能拍摄到所述用户处于坐下状态时的所在位置，例如目标桌子上或用户正在使用的设备(用户学习时观看的显示屏，或用户看书时放置书本的固定书本架)上。

在一种可能的实现方式中，上述获取关于用户的原始视频，具体可以为按预设的采集周期获取各个采集周期对应的原始视频。示例性的，所述采集周期的时长为预设时长，具体可以为一分钟；所述原始视频包括多帧原始图像；一个采集周期对应的所述原始视频具体可以包括六十帧原始图像，也即所述采集周期内的一秒对应一帧所述原始图像。后续确定的用户状态即为所述采集周期对应的用户状态；后续确定的注意力检测结果即为所述采集周期对应的注意力检测结果。

应理解，在上述可能的实现方式中，通过调整所述采集周期的预设时长，本申请实施例提供的方法可以适用于实时监测用户注意力的应用场景，以便及时提醒用户纠正注意力不集中的问题。另外，通过收集各个采集周期对应的注意力检测结果，可以生成注意力分析报告，用于表征所述用户在获取所有原始视频期间的注意力情况；将所述注意力分析报告输出，以让所述用户(例如学生)或其他用户(例如学生的家长或老师)了解在获取所有原始视频期间(例如一堂课的时间)所述用户的注意力情况。

在S102中，将多帧所述原始图像分别导入关键点提取网络，输出关键点图像。

在本实施例中，所述关键点提取网络用于提取所述原始图像中的关于所述用户的关键点特征信息；所述关键点图像包括所述原始图像内所有所述关键点特征信息。所述关键点提取网络可以为训练好的用于提取图像中关于目标对象的关键点识别网络，示例性地，所述关键点提取网络具体可以为OpenPose人体关键点识别模型，所述关键点包括左眼关键点、右眼关键点、鼻子关键点、左耳关键点、右耳关键点、左肩关键点、右肩关键点以及中部(脖子)关键点。

在一种可能实现的方式中，上述将多帧所述原始图像分别导入关键点提取网络，输出关键点图像，具体可以为：提取所述原始图像中关于所述用户的左眼关键点、右眼关键点、鼻子关键点、左耳关键点、右耳关键点、左肩关键点、右肩关键点以及中部(脖子)关键点的特征信息，并基于所述特征信息得到所述关键点图像。

在S103中，将所述关键点图像导入姿态识别网络，输出姿态信息。

在本实施例中，所述姿态识别网络是基于深度学习算法训练好的算法模型，以所述关键点图像为输入，以所述姿态信息为输出，用于基于所述关键点图像中各个关键点的特征信息确定所述姿态信息。所述姿态信息用于表征在所述原始图像中用户的姿态，示例性地，所述姿态信息可以包括低头、正常以及抬头等，用于表征在所述原始图像中用户人体正处于的坐姿情况。

在一种可能实现的方式中，上述将所述关键点图像导入姿态识别网络，输出姿态信息，具体可以为，提取所述关键点图像中各个关键点的特征信息，并根据所述姿态识别网络的内参数以及所述特征信息进行计算，得到所述姿态信息。

在S104中，根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态。

在本实施例中，所述原始视频包括多帧所述原始图像以及各帧所述原始图像的时间戳，每帧所述原始图像对应一个S103得到的所述姿态信息；所述用户状态用于表征在所述原始视频中所述用户的注意力集中或不集中。

在一种可能实现的方式中，上述根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态，具体可以为：基于各帧所述原始图像的时间戳，判断相邻的两帧所述原始图像的所述姿态信息是否相同；若所述原始图像与所述原始图像的上一帧原始图像的所述姿态信息不同，则将所述原始图像标记为注意力不集中，否则不标记；若所有被标记为注意力不集中的所述原始图像的个数，与所述原始视频的帧数的比值，大于或等于预设比值，则确定所述用户状态为注意力不集中，否则确定所述用户状态为注意力集中。

在S105中，基于所述原始视频以及所述用户状态，生成注意力检测结果，并输出所述注意力检测结果。

在本实施例中，所述注意力检测结果用于表征在获取所述原始视频的时间段内所述用户的注意力情况。具体地，基于所述原始视频的时间戳，确定所述原始视频的获取时间段，所述注意力检测结果用于表征在所述原始视频的获取时间段内，所述用户的用户状态为注意力集中或注意力不集中。示例性地，所述原始视频的起点时间戳为12:00:00，终点时间戳为12:01:00，确定所述原始视频的获取时间段为12:00:00-12:01:00，所述用户状态的值为1，表示所述用户状态为注意力不集中(0表示用户注意力集中)，则生成的注意力检测结果具体为“在12:00:00-12:01:00内，用户注意力不集中”。

在一种可能实现的方式中，上述输出所述注意力检测结果，具体可以为：在所述终端设备的显示模块显示所述注意力检测结果，或将所述注意力检测结果发送至用户终端以通知用户在所述原始视频的获取时间段内所述用户的注意力的具体情况。

在本实施例中，以关于用户的关键点图像作为姿态识别网络的输入，输出姿态信息；基于连续多帧所述关键点图像对应的姿态信息之间的变化，确定用户的注意力是否集中，并输出注意力检测结果，以提醒用户及时纠正。

图2示出了本申请一实施例提供的应用场景示意图。参见图2，在一种可能的应用场景中，图中的人体为学生，所述学生坐在椅子上，正在上一堂课；此时，通过本申请提供的检测方法，在桌子上设置包含摄像头的终端设备，以是该终端设备实施本申请提供的检测方法，也即通过该摄像头获取该学生的原始视频，根据该原始视频确定该学生在该原始视频获取期间的注意力集中情况。示例性地，以一分钟为采集周期，获取该学生在各个采集周期的原始视频，确定该学生在各个采集周期内注意力检测结果，将该注意力检测结果发送至教师终端，以告知教师；以四十分钟为一堂课，通过本申请提供的方法，可以实现教师监督该学生在该堂课的四十分钟内的注意力集中情况，具体为哪几分钟是注意力集中以及哪几分钟是注意力不集中。

图3示出了本申请第二实施例提供的关键点提取网络示意图。参见图3，相对于图1所述实施例，本实施例提供的方法S102包括S301～S302，具体详述如下：

进一步地，所述将多帧所述原始图像分别导入关键点提取网络，输出关键点图像，包括：

在S301中，将所述原始图像导入所述人体识别层，从所述原始图像中截取人体图像。

在本实施例中，参见图3，所述关键点提取网络包括人体识别层，将所述原始图像导入所述关键点提取网络时，首先将所述原始图像导入到所述人体识别层，以确定在所述原始图像内关于用户的人体图像。

在一种可能实现的方式中，上述将所述原始图像导入人体识别层，从所述原始图像中截取人体图像，具体可以为：对所述原始图像进行预处理，根据该预处理后的原始图像确定所述原始图像中的人体边缘轮廓信息，并根据该人体边缘轮廓信息，在所述原始图像内截取包含用户人脸以及上半身的人体图像。上述对所述原始图像进行预处理，具体可以为：对所述原始图像进行图像锐化处理等突出边缘轮廓的图像处理手段，得到预处理后的原始图像；上述根据该预处理后的原始图像确定所述原始图像中的人体边缘轮廓信息，具体可以为：将预处理后的原始图像导入训练好的用于确定人体边缘轮廓的人体识别模型中，得到人体边缘轮廓信息；上述根据该人体边缘轮廓信息，在所述原始图像内截取包含用户人脸以及上半身的人体图像，具体可以为：根据该人体边缘轮廓信息在所述原始图像上确定目标人体的边缘轮廓，并将该目标人体的边缘轮廓所围的区域截取出来，识别为所述人体图像。应理解，该人体识别模型可以是现有技术中训练好的可用于确认包含人体的图像内的人体边缘轮廓信息的模型，在此不再赘述。

在S302中，将所述人体图像导入所述关键点识别层，在所述人体图像上提取多个关键点，输出包含多个所述关键点的关键点图像。

在本实施例中，参见图3，所述关键点提取网络包括关键点识别层，在上述人体识别层输出所述人体图像时，将所述人体图像导入到所述关键点识别层，以确定在所述人体图像内关于多个关键点的关键点图像。。

在本实施例中，所述关键点识别层用于识别所述人体图像上关于所述用户的关键点，示例性地，所述关键点包括左眼关键点、右眼关键点、鼻子关键点、左耳关键点、右耳关键点、左肩关键点、右肩关键点以及中部(脖子)关键点。可选的，所述关键点提取层具体可以为OpenPose人体关键点识别模型，具体实现在此不再赘述。

在一种可能实现的方式中，上述分别将各帧所述人体图像导入关键点提取网络，输出关键点图像，具体可以为：提取所述人体图像中关于所述用户的左眼关键点、右眼关键点、鼻子关键点、左耳关键点、右耳关键点、左肩关键点、右肩关键点以及中部(脖子)关键点的特征信息，并基于所述特征信息得到所述关键点图像，具体地，将各个所述关键点按预设的连接关系连接起来，将各个所述关键点以及各个所述关键点的连接线从所述人体图像中提取出来，得到包含多个关键点的所述关键点图像(如图3所述)。

在本实施例中，在所述关键点提取网络中，设置人体识别层，可以去除所述原始图像中不重要的背景环境的特征信息，尽可能地只保留目标人体的特征信息，相当于对所述原始图像进行预处理，减少后续步骤要处理的图像的信息量(或减少后续步骤的计算量)以便于提高后续注意力检测的效率；设置关键点识别层，一来对不同目标人体(各种姿态或穿着各种服饰)的关键点的识别是可以实现的，在所述人体图像上提取所述关键点可以扩大注意力检测的适用人群，二来可以更进一步简化后续要处理的特征信息，只保留所述人体图像的所述关键点的特征信息，以便于后续提高注意力检测的效率，也提高了后续所述姿态识别网络的训练效率。

图4示出了本申请第三实施例提供的方法的实现流程图。参见图4，相对于图1所述实施例，本实施例提供的方法S103包括S401～S402，具体详述如下：

进一步地，所述将所述关键点图像导入姿态识别网络，输出姿态信息，包括：

在本实施例中，所述姿态信息包括头部旋转向量以及人体旋转向量；图5示出了，以所述头部旋转向量为例进行说明。参见图5，所述头部旋转向量指的是基于目标对象的头部朝向建立的头部三维坐标系(图中的x’轴、y’轴以及z’轴所构成的坐标系)与基于地面建立的标准三维坐标系(图中的x轴、y轴以及z轴所构成的坐标系)之间的旋转向量，所述头部三维坐标系与所述标准三维坐标系的中心(图中点O)相同。示例性地，所述头部旋转向量为(a，b，c)，所述a为以标准三维坐标系的x轴为旋转轴，所述标准三维坐标系进行旋转的角度值，所述b为以标准三维坐标系的y轴为旋转轴，所述标准三维坐标系进行旋转的角度值，所述c为以标准三维坐标系的z轴为旋转轴，所述标准三维坐标系进行旋转的角度值；应理解，所述标准三维坐标系经过上述三次旋转后，与所述头部三维坐标系重合。

在S401中，基于所述关键点图像中的人脸特征信息确定头部旋转向量。

在本实施例中，一般地，在确定所述头部旋转向量时所述关键点图像中的必要信息仅有位于目标对象头部上的关键点特征信息，也即所述人脸特征信息。在一种可能实现的方式中，上述基于所述关键点图像中的人脸特征信息确定头部旋转向量，具体可以为：提取所述关键点图像中的人脸特征信息，也即将所述关键点图像中位于目标对象头部上的各个人脸关键点的特征信息进行整合，所述人脸关键点具体可以为：左眼关键点、右眼关键点、鼻子关键点、左耳关键点以及右耳关键点；基于所述人脸特征信息以及所述姿态识别网络的内参数进行计算，得到所述头部旋转向量。

在S402中，基于所述关键点图像中的人体特征信息确定人体旋转向量。

在本实施例中，一般地，在确定所述人体旋转向量时所述关键点图像中的必要信息，也即所述人体特征信息，应包含所述关键点图像中位于目标对象人体上的人体关键点，示例性地，所述人体关键点包括鼻子关键点(用于描述人体的纵向，可被其他人体关键点替换)、左肩关键点、右肩关键点以及中部(脖子)关键点的特征信息。上述基于所述关键点图像中的人体特征信息确定人体旋转向量的实现方式，具体可参见S401的相关描述，在此不再赘述。

在本实施例中，通过该姿态识别网络分别计算得到能用于表征用户姿态的所述头部旋转向量以及所述人体旋转向量，可以更具体地描述所述用户姿态，即所述头部旋转向量用于描述用户头部姿态，所述人体旋转向量用于描述用户人体姿态，以便后确定用户状态时提供更详细的依据，提高检测精准度。另一方面，分别通过所述关键点图像中的部分特征信息计算所述头部旋转向量以及所述人体旋转向量，可以减少计算量，提高所述姿态识别网络的输出效率。

图6示出了本申请第四实施例提供的方法的实现流程图。参见图6，相对于图4所述实施例，本实施例提供的方法包括S601～S604，具体详述如下：

进一步地，所述获取关于用户的原始视频之前，还包括：

在S601中，获取训练图像集。

在本实施例中，所述训练图像集包括多个训练图像；一般地，通过摄像头获取所述训练图像集。应理解，为了保证训练后的所述姿态识别网络基于所述原始视频确定用户状态的精准度，所述摄像头应与获取原始视频的摄像头与目标对象的相对位置保持一致。

应理解，在获取所述训练图像集内各个训练图像时，应记录该训练图像获取时样本对象的姿态信息，以便后续为各个训练图像配置真值姿态信息。

在S602中，为各个训练图像配置真值姿态信息。

在本实施例中，所述真值姿态信息包括头部真值旋转向量以及人体真值旋转向量。在S601获取所述训练图像集内各个训练图像时，应记录该训练图像获取时样本对象的头部旋转向量以及人体旋转向量，作为所述头部真值旋转向量以及所述人体真值旋转向量。

在一种可能实现的方式中，先指示样本对象作出头部旋转向量为(a，b，c)以及人体旋转向量为(i，j，k)的坐姿动作，此时再采集关于样本对象的训练图像，并以(a，b，c)作为该训练图像对应的所述头部真值旋转向量，以(i，j，k)作为该训练图像对应的所述人体真值旋转向量。

在S603中，分别将各个所述训练图像导入关键点提取网络，输出关键点训练图像。

在本实施例中，由于S603的实现方式与图1所述的实施例中的S102的实现方式完全相同，具体阐述可以参见S102的相关描述，在此不再赘述。

在S604中，以所述关键点训练图像为输入，所述真值姿态信息为输出，基于深度学习算法训练所述姿态识别网络。

在本实施例中，所述真值姿态信息包括头部真值旋转向量以及人体真值旋转向量；所述深度学习算法可以是keras深度学习算法；所述姿态识别网络可以是预设的神经网络；上述以所述关键点训练图像为输入，所述真值姿态信息为输出，基于深度学习算法训练所述姿态识别网络，具体可以为：预设一个神经网络作为所述姿态识别网络，以所述关键点训练图像为输入，输出头部预测旋转向量以及人体预测旋转向量；以所述头部真值旋转向量以及所述人体真值旋转向量为真值，以所述头部预测旋转向量以及所述人体预测旋转向量为预测值，基于keras深度学习算法更新所述姿态识别网络的内参数。

应理解，所述姿态识别网络应包括两层并列的计算层，即头部旋转向量计算层以及人体旋转向量计算层。以图4所述实施例为参考，在上述训练过程中包括：以所述关键点训练图像的人脸特征信息为输入，以所述头部预测旋转向量为预测值，以所述头部真值旋转向量为真值，基于keras深度学习算法更新所述头部旋转向量计算层的参数；以所述关键点训练图像的人体特征信息为输入，以所述人体预测旋转向量为预测值，以所述人体真值旋转向量为真值，基于keras深度学习算法更新所述人体旋转向量计算层的参数。

应理解，上述获取的训练图像集，可将分出一部分所述训练图像作为验证图像集，用于在每个训练周期后确定所述姿态识别网络的正确率；若所述姿态识别网络的正确率高于或等于预设的标准正确率，则表示所述姿态识别网络训练完成。

在本实施例中，构建所述姿态识别网络并基于获取得到的训练图像集以及深度学习算法进行训练，训练后的所述姿态识别网络可实现上述S103的步骤，特别地，可实现以所述关键点图像为输入，输出头部旋转向量以及人体旋转向量，以便于后续确定用户状态。

图7示出了本申请第五实施例提供的方法的实现流程图。参见图7，相对于图4所述实施例，本实施例提供的方法S104包括S701～S703，具体详述如下：

进一步地，所述根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态，包括：

在S701中，基于所述头部旋转向量确定头部姿态。

在本实施例中，为了基于所述头部旋转向量区分所述用户的各个头部姿态，预先为所述头部旋转向量在各个方向上的旋转角度值设置阈值。在一种可能实现的方式中，上述基于所述头部旋转向量确定头部姿态，具体可以为：分别基于所述头部旋转向量的各个方向对应的旋转角度值，确定各个方向对应的子头部姿态；将三个方向对应的所述子头部姿态的集合识别为头部姿态。示例性地，所述头部旋转向量为(a，b，c)，以所述头部旋转向量的x轴对应的旋转角度值a为例进行说明：设置x轴对应的旋转角度值的两个阈值分别为a₁以及a₂，其中a₁以及a₂满足-90<a₁<0<a₂<90；当所述a处于区间[-90，a₁]时，确定x轴对应的子头部姿态A为抬头(具体可以用A＝-1表示)；当所述a处于区间[a₁，a₂]时，确定x轴对应的子头部姿态A为正常(具体可以用A＝0表示)；当所述a处于区间[a₂，90]时，确定x轴对应的子头部姿态A为低头(具体可以用A＝1表示)。应理解，对于所述头部旋转向量的y轴对应的旋转角度值b，设置两个阈值b₁以及b₂并确定子头部姿态B，以及对于头部旋转向量的z轴对应的旋转角度值c，设置两个阈值c₁以及c₂并确定子头部姿态C，均可参照上述步骤，在此不再赘述。至此，将三个方向对应的所述子头部姿态的集合识别为头部姿态，即所述头部姿态具体为(A，B，C)，应理解，所述头部姿态的3个子头部姿态分别有3种取值，即所述头部姿态一共有27种取值。

在S702中，基于所述人体旋转向量确定人体姿态。

在本实施例中，由于上述基于所述人体旋转向量确定人体姿态的实现方式与上述S701的实现方式完全相同，具体可参考上述S701基于所述头部旋转向量确定头部姿态的相关描述，在此不再赘述。需要说明的是，一般地，所述人体姿态以x轴为旋转轴的经过旋转后得到的姿态变化，会一定程度在所述头部姿态上体现，例如人体姿态为弯腰时一般会伴随着头部姿态为低头。因此，示例性地，在S702中可以不考虑x轴对应的子人体姿态，即所述人体姿态有2个子人体姿态，每个子人体姿态分别有3种取值，所述人体姿态一共有9种取值。

应理解，若需要输出所述原始视频的用户姿态的话，可基于所述原始视频内各个所述原始图像的所述头部姿态以及所述人体姿态，生成用户姿态，并输出所述用户姿态。可选地，将所述原始视频内所有所述原始图像对应的所述头部姿态中占比最高的头部姿态取值识别为所述原始视频对应的头部姿态；将所述原始视频内所有所述原始图像对应的所述人体姿态中占比最高的人体姿态取值识别为所述原始视频对应的人体姿态；基于所述头部姿态以及所述人体姿态，生成用户姿态，并输出所述用户姿态；参照上述可能实现的方式，所述头部姿态有27种取值，所述人体姿态一共有9种取值，则所述用户姿态有243种取值。

在S703中，根据所述原始视频内所有所述原始图像对应的头部旋转向量、头部姿态、人体旋转向量以及人体姿态，确定所述用户状态。

在本实施例中，所述用户姿态用于表征在所述原始视频中所述用户的注意力集中或不集中；所述原始视频内的每帧所述原始图像对应一个所述头部旋转向量、一个所述头部姿态、一个所述人体旋转向量以及一个所述人体姿态。

在一种可能实现的方式中，S703的具体实现步骤可以为：基于各帧所述原始图像的时间戳，比较相邻的两帧所述原始图像对应的所述头部旋转向量以及所述人体旋转向量的变化量，以判断所述相邻的两帧所述原始图像之间是否识别为存在足以构成注意力不集中的变化。具体地，所述原始图像的头部旋转向量以及人体旋转向量分别为(a_n，b_n，c_n)以及(i_n，j_n，k_n)，所述原始图像的上一帧原始图像的头部旋转向量以及人体旋转向量分别为(a_n-1，b_n-1，c_n-1)以及(i_n-1，j_n-1，k_n-1)，n为所述原始图像在所述原始视频内的帧序号；判断所述相邻的两帧所述原始图像之间是否识别为存在足以构成注意力不集中的变化时，一般不考虑人体旋转向量的x轴对应的旋转角度值i，即只考虑所述头部旋转向量的xyz轴以及所述人体旋转向量的yz轴这5个维度对应的旋转角度值的变化。具体理由参见上述S702的相关描述。

可选地，预先在各个维度上分别设置变化阈值，若存在一个维度上的变化大于或等于所述维度对应的变化阈值，则判断所述相邻的两帧所述原始图像之间存在足以构成注意力不集中的变化。具体地，以所述头部旋转向量的x轴对应的维度为例进行说明，若|a_n-a_n-1|大于或等于所述头部旋转向量的x轴对应的所述变化阈值，则将所述原始图像识别为改变帧图像，否则不识别。所述改变帧图像用于表征在该帧原始图像中用户注意力不集中。

可选地，计算所有维度上的平均变化值，预先设置平均变化阈值，若所述平均变化值大于或等于所述平均变化阈值，则判断所述相邻的两帧所述原始图像之间存在足以构成注意力不集中的变化，将所述原始图像识别为改变帧图像，否则不识别。所述平均变化值为各个维度上的变化值的平均值。

在另一种可能实现的方式中，上述据所述原始视频内所有所述原始图像对应的所述头部旋转向量、所述头部姿态、所述人体旋转向量以及所述人体姿态，确定用户状态，具体实现可参见图8，图8示出了本申请第五实施例提供的确定用户状态的流程示意图。参见图8，S703包括S7031～S7034，具体详述如下：

进一步地，所述根据所述原始视频内所有所述原始图像对应的头部旋转向量、头部姿态、人体旋转向量以及人体姿态，确定所述用户状态，包括：S7031和/或S7032和/或S7033，以及S7034。

在S7031中，若所述原始图像与所述原始图像的上一帧原始图像的头部旋转向量的差值大于或等于第一阈值，或所述原始图像与所述原始图像的上一帧原始图像的人体旋转向量的差值大于或等于第一阈值，则将所述原始图像识别为改变帧图像。

在本实施例中，具体地，所述原始图像的头部旋转向量以及人体旋转向量分别为(a_n，b_n，c_n)以及(i_n，j_n，k_n)，所述原始图像的上一帧原始图像的头部旋转向量以及人体旋转向量分别为(a_n-1，b_n-1，c_n-1)以及(i_n-1，j_n-1，k_n-1)，所述n为所述原始图像在所述原始视频内的帧序号且大于0。

一般地，在本实施例中不考虑人体旋转向量的x轴对应的旋转角度值i，即只考虑所述头部旋转向量的xyz轴以及所述人体旋转向量的yz轴这5个维度对应的旋转角度值的变化，具体可参见图8。

在S7032中，若所述原始图像对应的头部姿态与所述原始图像的上一帧原始图像对应的头部姿态不同，且所述原始图像与所述原始图像的上一帧原始图像的头部旋转向量的差值大于或等于第二阈值，则将所述原始图像识别为改变帧图像。

在本实施例中，所述第二阈值小于所述第一阈值。具体地，所述头部姿态共有27种不同的取值，参见图8，所述原始图像的头部姿态为p_n，所述原始图像的上一帧原始图像的头部姿态为p_n-1。

在S7033中，若所述原始图像对应的人体姿态与所述原始图像的上一帧原始图像对应的人体姿态不同，且所述原始图像与所述原始图像的上一帧原始图像的人体旋转向量的差值大于或等于所述第二阈值，则将所述原始图像识别为改变帧图像。

在本实施例中，具体地，所述人体姿态共有9种不同的取值，参见图8，所述原始图像的头部姿态为q_n，所述原始图像的上一帧原始图像的头部姿态为q_n-1。

一般地，在本实施例中不考虑人体旋转向量的x轴对应的旋转角度值i，即只考虑所述头部旋转向量的xyz轴以及所述人体旋转向量的yz轴这5个维度对应的旋转角度值的变化。

优选地，若满足q_n≠q_n-1，且存在|j_n-j_n-1|或|k_n-k_n-1|中任一差值大于或等于所述第二阈值，则将所述原始图像识别为改变帧图像，否则不识别。

在S7034中，若在所有所述原始图像中，所有所述改变帧图像的占比值大于或等于预设比例，则将所述用户状态识别为注意力不集中。

在本实施例中，具体地，所述原始视频内包含N帧所述原始图像，在所述原始视频内所述改变帧图像的帧数为M，则所述占比值为M/N，所述N大于所述M。若M/N大于或等于预设比例(例如40％)，则将所述用户状态识别为注意力不集中，否则将所述用户状态识别为注意力集中。

在本实施例中，从所述原始视频内识别出用于表征用户注意力不集中的改变帧图像，并基于所述改变帧图像的占比确定所述用户状态，以便于后续生成注意力检测结果。

在本实施例中，先确定头部姿态以及人体姿态，再依据所述头部姿态以及所述人体姿态从所述原始视频内识别出用于表征用户注意力不集中的改变帧图像，增加了识别所述改变帧图像的依据，提高了后续确定所述用户状态的精确度，以便于后续生成更为准确的注意力检测结果。

图9示出了本申请第六实施例提供的方法的实现流程图。参见图9，相对于上述任一所述实施例，本实施例提供的方法S105包括S901～S902，具体详述如下：

进一步地，所述输出所述注意力检测结果，包括：

在S901中，将所述注意力检测结果发送至用户终端。

在本实施例中，与所述用户终端建立连接，并将S105输出的所述注意力检测结果发送至用户终端。上述与所述用户终端建立连接，具体可以为通过搜寻可连接范围内的用户终端，与所述用户终端建立连接；也可以为通过中转服务器预所述用户终端建立连接。

在S902中，指示所述用户终端显示所述注意力检测结果。

在本实施例中，通过与所述用户终端建立连接，发送显示S901发送的所述注意力检测结果的请求，指示所述用户终端通过所述用户终端的显示模块对所述注意力检测结果进行显示，以告知用户。

在一种可能实现的方式中，所述用户终端可以是监督终端，所述监督终端可以是所述用户的监督人所使用的终端设备，将所述注意力检测结果发送至所述监督终端并指示所述监督终端显示所述注意力检测结果，以告知所述监督人。

在本实施例中，通过将所述注意力检测结果发送至用户终端，以告知用户，能让用户及时根据所述注意力检测结果来调整自己的状态，也能让用户终端保存所述注意力检测结果以便于用户随时能在所述用户终端上查看，还能让用户终端对接收到的所有所述注意力检测结果进行整合分析，得出让用户更易懂的有关用户注意力的分析报告。

对应于上文实施例所述的方法，图10示出了本申请一实施例提供的检测装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图10，该注意力检测装置包括：原始视频获取模块，用于获取关于用户的原始视频；所述原始视频包括多帧原始图像；关键点提取模块，用于将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；姿态识别模块，用于将所述关键点图像导入姿态识别网络，输出姿态信息；状态确定模块，用于根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；检测结果生成模块，用于基于所述原始视频以及所述用户状态，生成注意力检测结果；检测结果输出模块，用于输出所述注意力检测结果。

需要说明的是，上述装置之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图11示出了本申请一实施例提供的终端设备的结构示意图。如图11所示，该实施例的终端设备11包括：至少一个处理器110(图11中仅示出一个)处理器、存储器111以及存储在所述存储器111中并可在所述至少一个处理器110上运行的计算机程序112，所述处理器110执行所述计算机程序112时实现上述任意各个方法实施例中的步骤。

所述终端设备11可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器110、存储器111。本领域技术人员可以理解，图11仅仅是终端设备11的举例，并不构成对终端设备11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

应理解，当终端设备11具体为云端服务器等不具备获取所述原始视频的功能的计算设备时，可以获取从其他设备上传的所述原始视频，并基于从其他设备上传的所述原始视频实施本申请的检测方法。

所称处理器110可以是中央处理单元(Central Processing Unit，CPU)，该处理器110还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器111在一些实施例中可以是所述终端设备11的内部存储单元，例如终端设备11的硬盘或内存。所述存储器111在另一些实施例中也可以是所述终端设备11的外部存储设备，例如所述终端设备11上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器111还可以既包括所述终端设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种注意力检测方法，其特征在于，包括：

获取关于用户的原始视频；所述原始视频包括多帧原始图像；

将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；

将所述关键点图像导入姿态识别网络，输出姿态信息；

根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；

基于所述原始视频以及所述用户状态，生成注意力检测结果，并输出所述注意力检测结果；

所述姿态信息包括头部旋转向量以及人体旋转向量；所述将所述关键点图像导入姿态识别网络，输出姿态信息，包括：

基于所述关键点图像中的人脸特征信息确定头部旋转向量；

基于所述关键点图像中的人体特征信息确定人体旋转向量；

所述根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态，包括：

基于所述头部旋转向量确定头部姿态；

基于所述人体旋转向量确定人体姿态；

根据所述原始视频内所有所述原始图像对应的头部旋转向量、头部姿态、人体旋转向量以及人体姿态，确定所述用户状态；

所述根据所述原始视频内所有所述原始图像对应的头部旋转向量、头部姿态、人体旋转向量以及人体姿态，确定所述用户状态，包括：

若所述原始图像与所述原始图像的上一帧原始图像的头部旋转向量的差值大于或等于第一阈值，或所述原始图像与所述原始图像的上一帧原始图像的人体旋转向量的差值大于或等于第一阈值，则将所述原始图像识别为改变帧图像；

和/或，

若所述原始图像对应的头部姿态与所述原始图像的上一帧原始图像对应的头部姿态不同，且所述原始图像与所述原始图像的上一帧原始图像的头部旋转向量的差值大于或等于第二阈值，则将所述原始图像识别为改变帧图像；所述第二阈值小于所述第一阈值；

和/或，

若所述原始图像对应的人体姿态与所述原始图像的上一帧原始图像对应的人体姿态不同，且所述原始图像与所述原始图像的上一帧原始图像的人体旋转向量的差值大于或等于所述第二阈值，则将所述原始图像识别为改变帧图像；

若在所有所述原始图像中，所有所述改变帧图像的占比值大于或等于预设比例，则将所述用户状态识别为注意力不集中。

2.如权利要求1所述的检测方法，其特征在于，所述关键点提取网络包括人体识别层以及关键点识别层；所述将多帧所述原始图像分别导入关键点提取网络，输出关键点图像，包括：

将所述原始图像导入所述人体识别层，从所述原始图像中截取人体图像；

将所述人体图像导入所述关键点识别层，在所述人体图像上提取多个关键点，输出包含多个所述关键点的关键点图像。

3.如权利要求1所述的检测方法，其特征在于，所述获取关于用户的原始视频之前，还包括：

获取训练图像集；所述训练图像集包括多个训练图像；

为各个训练图像配置真值姿态信息；所述真值姿态信息包括头部真值旋转向量以及人体真值旋转向量；

分别将各个所述训练图像导入关键点提取网络，输出关键点训练图像；

以所述关键点训练图像为输入，所述真值姿态信息为输出，基于深度学习算法训练所述姿态识别网络。

4.如权利要求1-3任一项所述的检测方法，其特征在于，所述输出所述注意力检测结果，包括：

将所述注意力检测结果发送至用户终端；

指示所述用户终端显示所述注意力检测结果。

5.一种注意力检测装置，其特征在于，包括：

原始视频获取模块，用于获取关于用户的原始视频；所述原始视频包括多帧原始图像；

关键点提取模块，用于将多帧所述原始图像分别导入关键点提取网络，输出关键点图像；

姿态识别模块，用于将所述关键点图像导入姿态识别网络，输出姿态信息；

状态确定模块，用于根据所述原始视频内所有所述原始图像对应的姿态信息，确定用户状态；

检测结果生成模块，用于基于所述原始视频以及所述用户状态，生成注意力检测结果；

检测结果输出模块，用于输出所述注意力检测结果；

基于所述关键点图像中的人脸特征信息确定头部旋转向量；

基于所述关键点图像中的人体特征信息确定人体旋转向量；

基于所述头部旋转向量确定头部姿态；

基于所述人体旋转向量确定人体姿态；

和/或，

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。