CN115620402A

CN115620402A - 一种人货交互行为识别方法、系统及相关装置

Info

Publication number: CN115620402A
Application number: CN202211498078.1A
Authority: CN
Inventors: 冯昊; 冯雪涛
Original assignee: Zhejiang Lianhe Technology Co ltd
Current assignee: Zhejiang Shenxiang Intelligent Technology Co ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-01-17
Anticipated expiration: 2042-11-28
Also published as: CN115620402B

Abstract

本说明书一个或多个实施例公开了一种人货交互行为识别方法、系统及相关装置，该方法包括：根据图像信息先判断是否对目标货架有触摸行为发生，并根据发生触摸行为的目标顾客的数目，确定不同的识别方案：如果仅一个目标顾客发生触摸行为，则可以使用目标货架的称重信息识别目标顾客与目标货架的交互行为；如果有多个目标顾客发生触摸行为，则可以使用持货检测模型对每个目标顾客触摸前后的图像进行预测，并根据预测结果识别每个目标顾客与目标货架的交互行为。这样，可以根据图像信息确定的触摸行为，结合称重信息或是持货检测模型对目标顾客与目标货架的交互行为进行精确识别，提升识别精准度以及识别效率。

Description

一种人货交互行为识别方法、系统及相关装置

技术领域

本文件涉及计算机技术领域，尤其涉及一种人货交互行为识别方法、系统及相关装置。

背景技术

互联网应用、实体门店的物联网技术、人工智能以及自动化技术相融合的数字化门店应运而生。在目前的商场以及超市等购物场所中，普遍存在偷盗行为。现有的解决方案是通过监控手段进行监督防范，但是，由于顾客和商品较多，且视觉方案存在固有的限制，如人体的遮挡、商品自身的复杂性和背景的复杂性，致使无法准确识别顾客与货架之间的交互行为，例如是否拿了商品又放回的情况，进而增大嫌疑人排查任务。

发明内容

本说明书一个或多个实施例的目的是提供一种人货交互行为识别方法、系统及相关装置，以准确识别目标顾客与目标货架之间的交互行为。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

第一方面，提出了一种人货交互行为识别方法，包括：

接收基于目标货架所在拍摄场所采集的图像信息；

基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为；

如果检测到一个目标顾客的触摸行为，则查询所述触摸行为发生的起始时间至结束时间之内所述目标货架的称重信息，并基于所述称重信息识别该目标顾客与所述目标货架的交互行为；

如果检测到多个目标顾客的触摸行为，则根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，并基于预测结果识别每个目标顾客与所述目标货架的交互行为；

其中，所述持货检测模型是基于历史顾客分别与多个货架进行交互之前以及交互之后的历史手部图像训练得到。

第二方面，提出了一种人货交互行为识别装置，包括：

接收模块，用于接收基于目标货架所在拍摄场所采集的图像信息；

检测模块，用于基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为；

识别模块，如果所述检测模块在检测到一个目标顾客的触摸行为，则用于查询所述触摸行为发生的起始时间至结束时间之内所述目标货架的称重信息，并基于所述称重信息识别该目标顾客与所述目标货架的交互行为；

所述识别模块，如果所述检测模块检测到多个目标顾客的触摸行为，则用于根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，并基于预测结果识别每个目标顾客与所述目标货架的交互行为；

第三方面，提出了一种人货交互行为识别系统，包括：至少一个货架，每个货架均安装有用于称重该货架的称重装置；至少一个上位机，用于接收至少一个称重装置发送的称重信息；至少一个摄像机，用于从俯视角度或侧视角度采集货架的图像信息；以及分别与所述至少一个上位机和所述至少一个摄像机连接的中控服务器，所述中控服务器用于接收至少一个上位机上传的称重信息以及至少一个摄像机采集的图像信息，并执行第一方面所述的人货交互行为识别方法。

第四方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述的人货交互行为识别方法。

第五方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述的人货交互行为识别方法。

由以上说明书一个或多个实施例提供的技术方案可见，利用低成本的货架，以及称重装置、上位机和摄像机、中控服务器构成人货交互行为识别系统，并基于称重装置采集的目标货架的称重信息，以及摄像机采集的包含目标顾客的图像信息，通过上位机传输给中控服务器进行处理，具体根据图像信息先判断是否对目标货架有触摸行为发生，并根据发生触摸行为的目标顾客的数目，确定不同的识别方案：如果仅一个目标顾客发生触摸行为，则可以使用目标货架的称重信息识别目标顾客与目标货架的交互行为；如果有多个目标顾客发生触摸行为，则可以使用持货检测模型对每个目标顾客触摸前后的图像进行预测，并根据预测结果识别每个目标顾客与目标货架的交互行为。这样，可以根据图像信息确定的触摸行为，结合称重信息或是持货检测模型对目标顾客与目标货架的交互行为进行精确识别，提升识别精准度以及识别效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对一个或多个实施例或现有技术描述中所需要使用的附图做简单介绍，显而易见地，以下描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的人货交互行为识别系统的结构示意图。

图2a-图2b分别是本说明书实施例提供的摄像机与货架的安装位置示意图。

图3是本说明书实施例提供的一种人货交互行为识别方法的步骤示意图。

图4a是本说明书的一个实施例提供的基于手轨迹对关键点轨迹进行矫正的示意图。

图4b是本说明书的一个实施例提供的基于关键点轨迹对手轨迹进行矫正的示意图。

图5a-图5f分别是本说明书的一个实施例提供的为目标货架在触摸行为发生的起始时间至结束时间之内的重量值变化曲线示意图。

图6是本说明书实施例提供的一种人货交互行为识别方法流程示意图。

图7是本说明书实施例提供的一种人货交互行为识别装置的结构示意图。

图8是本说明书的一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的一个或多个实施例只是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

鉴于通过视觉算法对顾客是否拿取货品的识别并不准确，而无人超市设置的智能货架需要对每个货品都布置用于称重的压力传感器，这种智能货架的成本和运营成本都较高，无法在更多交互场景中使用，尤其是大型商超等场所。

为此，本说明书实施例利用低成本的货架，以及称重装置、上位机和摄像机、中控服务器构成人货交互行为识别系统，并基于称重装置采集的目标货架的称重信息，以及摄像机采集的包含目标顾客的图像信息，通过上位机传输给中控服务器进行处理，具体根据图像信息先判断是否对目标货架有触摸行为发生，并根据发生触摸行为的目标顾客的数目，确定不同的识别方案：如果仅一个目标顾客发生触摸行为，则可以使用目标货架的称重信息识别目标顾客与目标货架的交互行为；如果有多个目标顾客发生触摸行为，则可以使用持货检测模型对每个目标顾客触摸前后的图像进行预测，并根据预测结果识别每个目标顾客与目标货架的交互行为。这样，可以根据图像信息确定的触摸行为，结合称重信息或是持货检测模型对目标顾客与目标货架的交互行为进行精确识别，提升识别精准度以及识别效率。

应理解，本说明书所涉及的人货交互行为识别方案可以适用于各类设置有货架的普通超市、无人超市、大型卖场、大型商超等购物场所。或者，也可以适用于图书馆、书店、提供租赁服务或免费使用服务的服务站（租伞、租雨衣、免费借阅等）等公共场所。从而，利用视觉图像技术，赋能线下商超、门店、百货等零售行业的数字化，可以在这些场所实现对顾客与货架交互行为的准确识别，进而，精准排查嫌疑顾客，实现防盗损的目的。

参照图1所示，为本说明书实施例提供的人货交互行为识别系统的结构示意图。该人货交互行为识别系统可以包括：至少一个货架102，每个货架102均安装有用于称重该货架的称重装置（由压力传感器1042和信号处理电路1044构成）；至少一个上位机106，用于接收至少一个称重装置发送的称重信息；至少一个摄像机108，用于从俯视角度或者侧视角度采集货架102的图像信息；以及分别与所述至少一个上位机106和所述至少一个个摄像机108连接的中控服务器110，所述中控服务器110用于接收至少一个上位机106上传的称重信息以及至少一个摄像机108（图中示出2个）采集的图像信息，并执行本说明书中人货交互行为识别方法，以下详述。

货架102可以摆放在水平地面上，具体可通过加固元件对货架102进行加固，以防止货架102在顾客触摸或从其上面拿取货品时不会晃动，还要保证货架102不能因行人走动而晃动。货架102安装的称重装置可以是压力传感器1042和信号处理电路1044构成。即每个称重装置可以由多个压力传感器1042以及连接多个压力传感器1042的信号处理电路1044构成。具体地，在每个货架102的底部四个角落，分别安装有一个压力传感器1042，即这四个压力传感器1042分别安装在货架102与地面之间，货架102的全部重量产生的压力均压在四个压力传感器1042上。四个压力传感器1042与一个信号处理电路1044连接，信号处理电路1044将从压力传感器1042读出的模拟信号转换为数字信号，从而确定出货架102的称重信息。

其中，货架102不同于无人超市中的智能货架，该货架102是普通货架，仅在底部设置有压力传感器1042；其中，压力传感器1042可以是半桥式压力传感器或其它类型的压力传感器，本说明书并不对此进行限定，只要是能够获取货架102的压力值以传输给信号处理电路1044得到货架102的称重信息即可。

上位机106可以是低成本计算机（如单片机等），该计算机具有与信号处理电路1044连接的能力（如通过通用输入输出GPIO接口，晶体管-晶体管逻辑TTL接口，串口等接口），同时具备与中控服务器110连接的能力（如通过Wifi，蓝牙，有线网络等方式连接）。一个上位机106可以处理来自多个货架102的称重信息，并将称重信息根据需要传递给中控服务器110。

其实，上位机106可以提供http服务，当中控服务器110查询货架102的称重信息时，中控服务器110可以给出所询问货架102的序号，上位机106通过http服务将该序号对应的货架102的称重信息传输给中控服务器110。其实，并不限于通过http的方式输出称重信息，其他方式还可以包括telnet/ssh等多种通信方式。http方式是一个实施例，上位机106的工作流程如下：上位机106等待来自中控服务器110的查询请求，当收到中控服务器110的查询请求后，查询请求应包括对哪个货架查询重量，上位机106从压力传感器1042所连接的信号处理电路1044读取称重信息，并返回给中控服务器110。

摄像机108与中控服务器110通过网络连接，摄像机可以安装在货架102的正上方，参照图2a所示，摄像机108在俯视安装模式下，垂直向下安装，摄像机108的镜头中心与货架102平面垂直；或者安装在货架102的侧面，参照图2b所示，摄像机侧视安装在货架102过道中间的一侧，斜向下安装。本说明书中安装的摄像机108的数目可以有两个，为了采集全方位角度的图像信息，还可以在其它位置增设安装摄像机108。其中，摄像机108可以是普通摄像机，也可以是红外摄像机或具备其它采集以及处理功能的摄像机。应理解，针对每个货架102设置的摄像机108都可以设置有相应的编号，便于为采集的图像数据或图像信息进行标识，区分属于不同货架102的图像信息。

中控服务器110从上位机106获取货架102的称重信息，中控服务器110也需要从摄像机108获取图像信息，综合评估目标顾客是否触摸目标货架，以及是否从目标货架拿取货品以及在多目标顾客触摸目标货架时识别哪位顾客拿取货品。

参照图3所示，为本说明书实施例提供的一种人货交互行为识别方法的步骤示意图，该方法可以包括以下步骤：

步骤302：接收基于目标货架所在拍摄场所采集的图像信息。

具体地，可以周期性采集目标货架所在拍摄场所设置的摄像机所采集的图像信息，该图像信息可以是由多个图像数据组成，这些图像数据可以是包含一个目标顾客或多个目标顾客的人体图像。

步骤304：基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为；如果未检测到触摸行为，则不做处理，否则，执行以下步骤306或步骤308。

可选地，步骤304在基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为时，可以基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位；如果有目标顾客的关键部位与所述目标货架之间的距离小于第一阈值，则确定该目标顾客触碰所述目标货架。

关键点检测算法和关键点追踪算法以人体图像为输入，输出手、肩膀、脚、头等人体关键部位的位置（以关键部位的中心点确定的关键点的位置），并将属于同一人的关键部位相互连接。但是，关键点检测算法和关键点追踪算法容易受到周围环境的影响（如手臂被遮挡、手臂外观与背景相似等）而发生位置抖动，使触摸时刻难以判断。手检测算法以人体图像（视频）为输入，检测人体图像中手部的位置。但人体图像中可能存在别人的手部，导致将错误的手部与人体进行关联。所以，本说明书实施例采用手检测算法和手追踪算法和关键点检测算法和关键点追踪算法结合的方式，对图像信息中包含的目标顾客的关键部位进行追踪定位。如果图像信息的某个图像帧中目标顾客的关键部位与目标货架之间的距离小于第一阈值，则确定目标顾客触碰目标货架。其中，第一阈值可以是基于反复触碰试验确定的一个取值范围，例如，[0,2） cm。反之，如果目标顾客的关键部位与目标货架之间的距离大于等于第一阈值，则可以确定目标顾客未触碰目标货架。应理解，这里的取值范围仅是举例说明，具体的取值应当根据不同适用场所设置的触碰条件进行灵活调整。

进一步，在基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位时，可以分别确定手轨迹和关键点轨迹，再基于手轨迹和关键点轨迹对目标顾客的手部进行追踪定位。具体地：将所述图像信息的每个图像帧输入关键点检测模型，得到每个目标顾客的关键部位集合，所述关键部位集合关联有目标顾客的标识信息和手部；将所述图像信息中每个图像帧得到的属于同一个目标顾客的关键部位集合汇集成轨迹，得到每个目标顾客的关键点轨迹；将所述图像信息的每个图像帧输入手检测模型，得到每个手部的定位框；基于对所述图像信息中每个图像帧得到的定位框进行追踪定位，得到每个手部的手轨迹；基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位。所涉及的目标顾客的标识信息可以是人脸信息。

其中，关键点检测模型，可以是针对历史人体图像作为训练样本，标注每个历史人体图像中关键部位（例如左手、右手、左脚、右脚、左肩、右肩等18个点）的位置，输入预设模型进行反复训练，得到关键点检测模型。手检测模型，可以是针对历史人体图像作为训练样本，标注每个历史人体图像中手部的位置，输入预设模型进行反复训练，得到手检测模型。这样，每个图像帧都可以分别输入关键点检测模型和手检测模型，得到关键部位集合和手部定位框；相应地，图像信息中视频图像就可以得到相应目标顾客的关键点轨迹和手轨迹。

进一步，在基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位时，如果在检测到连续N个图像帧中，目标顾客的关键点轨迹中手部对应的关键点与手轨迹中定位框的中心之间的距离不大于第二阈值，则确定该目标顾客的关键点轨迹与该目标顾客的手轨迹绑定，以在目标顾客的关键点轨迹中除手部以外的关键点丢失后，将丢失前的关键点轨迹与丢失后的手轨迹拼接以对目标顾客的手部进行追踪定位；其中，所述N为大于等于2的正整数，所述第二阈值为所述手轨迹中定位框的长边取平均后均值的一半。参照图4a所示，为基于手轨迹对关键点轨迹进行矫正的示意图。图4a上方矩形框为手部的定位框，这些定位框通过箭头连接形成手部轨迹；图4a下方折线视为手臂的多个关键点连接成的手臂简图，这些手臂简图形成关键点轨迹。默认关键点轨迹关联有对应的目标顾客，但是，当某个关键点发生漂移或是手臂被遮挡而导致关键点丢失，则可以在丢失的时间段用手轨迹替代。该图4a中，假设示出了5帧构成的关键点轨迹和手轨迹，则在第2帧-第4帧，关键点部分消失，那么，在该时间段可以手轨迹替代。从而，使用手轨迹对关键点轨迹进行矫正，以便于准确追踪定位目标顾客的手部。

在将丢失前的关键点轨迹与丢失后的手轨迹拼接以对目标顾客的手部进行追踪定位之后，如果在检测到连续M个图像帧中，目标顾客的关键点轨迹中手部对应的关键点与手轨迹中定位框的中心之间的距离大于第二阈值，则恢复追踪所述目标顾客的关键点轨迹，或是，确定所述目标顾客的关键点轨迹与其它手轨迹绑定，其中，所述M为大于等于2的正整数，所述M大于N。实际上，当检测到目标顾客的关键点轨迹中手部对应的关键点与手轨迹中定位框的中心之间的距离大于第二阈值，则说明此时绑定的关键点轨迹和手轨迹可能不属于同一个目标顾客，则可以解绑恢复追踪目标顾客的关键点轨迹，或是，重新将目标顾客的关键点轨迹与其它满足上述不大于第二阈值的手轨迹进行绑定。

在基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位时，如果检测到手轨迹断裂，基于与该手轨迹对应的手部关联的目标顾客的关键点轨迹，估计手部对应的关键点的位置；基于估计结果将断裂的手轨迹拼接以对目标顾客的手进行追踪定位。参照图4b所示，由于遮挡等因素，特别是当手部伸进货架后手部不可见，同一只手部的手轨迹可能断裂，即参照图4b中在第3帧发生断裂。而关键点检测算法通过手臂趋势，可以估计出手部的位置，从而代替手检测的结果，这样，就可以利用关键点轨迹中关键点预估出手部的位置，从而将两条断裂的手轨迹连接。通过关键点轨迹对手轨迹进行矫正，以便于基于正确完整的手轨迹准确追踪定位目标顾客的手部。

步骤306：如果检测到一个目标顾客的触摸行为，则查询所述触摸行为发生的起始时间至结束时间之内所述目标货架的称重信息，并基于所述称重信息识别该目标顾客与所述目标货架的交互行为。

参照图5a-图5f所示，分别为目标货架在触摸行为发生的起始时间至结束时间之内的重量值变化曲线；结合这些曲线，可以识别该目标顾客与所述目标货架的交互行为，如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值下降，则确定该目标顾客从所述目标货架取货，如图5a；如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值不变，则确定该目标顾客仅触摸所述目标货架，如图5b；如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值上升，则确定该目标顾客在所述目标货架放货，如图5c；如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更大的货品，如图5d；如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量相等的货品，如图5e；如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更小的货品，如图5f。从而，在确定目标顾客与目标货架发生触摸行为之后，进一步根据目标货架的称重信息中重量变化曲线，具体识别目标顾客是从目标货架取货、换货还是放货或仅触摸等交互行为；这样，在准确识别具体的交互行为之后，便于基于识别到的交互行为确定目标顾客是否手持货品，提升排查效率和速度。

步骤308：如果检测到多个目标顾客的触摸行为，则根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，并基于预测结果识别每个目标顾客与所述目标货架的交互行为；其中，所述持货检测模型是基于历史顾客分别与多个货架进行交互之前以及交互之后的历史手部图像训练得到。

考虑到针对多个目标顾客触碰目标货架的情况，可能会存在手部交叉或同时拿货，或一个拿货一个放货的情况，那么，就无法根据称重信息准确识别交互行为。为此，可以根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间以及在触摸行为发生的结束时间的手持状态进行预测，具体可以获取所述多个目标顾客中每个目标顾客的第一图像以及第二图像；将所述第一图像和所述第二图像分别输入持货检测模型，得到每个目标顾客的预测结果；其中，所述第一图像是针对每个目标顾客在触摸行为发生的起始时间采集的手部图像，所述第二图像是针对每个目标顾客在触摸行为发生的结束时间采集的手部图像。

进而，在通过持货检测模型确定每个目标顾客在触碰前以及触碰后的手持状态后，可以针对任一目标顾客：从目标顾客的预测结果中确定根据第一图像预测的第一预测结果和根据第二图像预测的第二检测；如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客从所述目标货架取货；如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客在所述目标货架放货；如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客仅触摸所述目标货架；如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客在所述目标货架换货。

参照图6所示，为本说明书实施例提供的人货交互行为识别的流程示意图。

步骤602：接收基于目标货架所在拍摄场所采集的图像信息。

步骤604：基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位。

步骤606：如果有目标顾客的关键部位与所述目标货架之间的距离小于第一阈值，则确定该目标顾客触碰所述目标货架。

步骤608：如果检测到一个目标顾客的触摸行为，基于所述称重信息识别该目标顾客与所述目标货架的交互行为。

步骤610：如果检测到多个目标顾客的触摸行为，根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间以及在触摸行为发生的结束时间的手持状态进行预测。

步骤612：基于预测结果识别每个目标顾客与所述目标货架的交互行为。

其中，上述步骤602-步骤612的具体实现以及所达到的技术效果均可参照步骤302-步骤308。

通过上述技术方案，利用低成本的货架，以及称重装置、上位机和摄像机、中控服务器构成人货交互行为识别系统，并基于称重装置采集的目标货架的称重信息，以及摄像机采集的包含目标顾客的图像信息，通过上位机传输给中控服务器进行处理，具体根据图像信息先判断是否对目标货架有触摸行为发生，并根据发生触摸行为的目标顾客的数目，确定不同的识别方案：如果仅一个目标顾客发生触摸行为，则可以使用目标货架的称重信息识别目标顾客与目标货架的交互行为；如果有多个目标顾客发生触摸行为，则可以使用持货检测模型对每个目标顾客触摸前后的图像进行预测，并根据预测结果识别每个目标顾客与目标货架的交互行为。这样，可以根据图像信息确定的触摸行为，结合称重信息或是持货检测模型对目标顾客与目标货架的交互行为进行精确识别，提升识别精准度以及识别效率。

参照图7所示，为本说明书实施例提供的人货交互行为识别装置，该装置700可以包括：

接收模块702，用于接收基于目标货架所在拍摄场所采集的图像信息，所述图像信息中包含至少一个目标顾客的图像数据；

检测模块704，用于基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为；

识别模块706，如果所述检测模块704在检测到一个目标顾客的触摸行为，则用于查询所述触摸行为发生的起始时间至结束时间之内所述目标货架的称重信息，并基于所述称重信息识别该目标顾客与所述目标货架的交互行为；

所述识别模块706，如果所述检测模块704检测到多个目标顾客的触摸行为，则用于根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，并基于预测结果识别每个目标顾客与所述目标货架的交互行为；

可选地，作为一个实施例，所述检测模块704在基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为时，具体用于：

基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位；如果有目标顾客的关键部位与所述目标货架之间的距离小于第一阈值，则确定该目标顾客触碰所述目标货架。

在本说明书实施例的一种具体实现方式中，所述检测模块704在基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位时，具体用于：

将所述图像信息的每个图像帧输入关键点检测模型，得到每个目标顾客的关键部位集合，所述关键部位集合关联有目标顾客的标识信息和手部；将所述图像信息中每个图像帧得到的属于同一个目标顾客的关键部位集合汇集成轨迹，得到每个目标顾客的关键点轨迹；将所述图像信息的每个图像帧输入手检测模型，得到每个手部的定位框；基于对所述图像信息中每个图像帧得到的定位框进行追踪定位，得到每个手部的手轨迹；基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位。

在本说明书实施例的再一种具体实现方式中，所述检测模块704在基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位时，具体用于：

在检测到连续N个图像帧中，目标顾客的关键点轨迹中手部对应的关键点与手轨迹中定位框的中心之间的距离不大于第二阈值，则确定该目标顾客的关键点轨迹与该目标顾客的手轨迹绑定，以在目标顾客的关键点轨迹中除手部以外的关键点丢失后，将丢失前的关键点轨迹与丢失后的手轨迹拼接以对目标顾客的手部进行追踪定位；其中，所述N为大于等于2的正整数，所述第二阈值为所述手轨迹中定位框的长边取平均后均值的一半。

在本说明书实施例的再一种具体实现方式中，所述检测模块704在将丢失前的关键点轨迹与丢失后的手轨迹拼接以对目标顾客的手部进行追踪定位之后，还用于：

在检测到连续M个图像帧中，目标顾客的关键点轨迹中手部对应的关键点与手轨迹中定位框的中心之间的距离大于第二阈值，则恢复追踪所述目标顾客的关键点轨迹，或是，确定所述目标顾客的关键点轨迹与其它手轨迹绑定，其中，所述M为大于等于2的正整数，所述M大于N。

在检测到手轨迹断裂时，基于与该手轨迹对应的手部关联的目标顾客的关键点轨迹，估计手部对应的关键点的位置；基于估计结果将断裂的手轨迹拼接以对目标顾客的手进行追踪定位。

在本说明书实施例的再一种具体实现方式中，识别模块706在基于所述称重信息识别该目标顾客与所述目标货架的交互行为时，具体用于：

确定所述称重信息中目标货架在触摸行为发生的起始时间至结束时间之内的重量值；如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值下降，则确定该目标顾客从所述目标货架取货；如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值不变，则确定该目标顾客仅触摸所述目标货架；如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值上升，则确定该目标顾客在所述目标货架放货；如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更大的货品；如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量相等的货品；如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更小的货品。

在本说明书实施例的再一种具体实现方式中，识别模块706在根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测时，具体用于：

获取所述多个目标顾客中每个目标顾客的第一图像以及第二图像；将所述第一图像和所述第二图像分别输入持货检测模型，得到每个目标顾客的预测结果；其中，所述第一图像是针对每个目标顾客在触摸行为发生的起始时间采集的手部图像，所述第二图像是针对每个目标顾客在触摸行为发生的结束时间采集的手部图像。

在本说明书实施例的再一种具体实现方式中，识别模块706在基于预测结果识别每个目标顾客与所述目标货架的交互行为时，具体用于：

针对任一目标顾客：从目标顾客的预测结果中确定根据第一图像预测的第一预测结果和根据第二图像预测的第二检测；如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客从所述目标货架取货；如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客在所述目标货架放货；如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客仅触摸所述目标货架；如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客在所述目标货架换货。

图8是本说明书的一个实施例电子设备的结构示意图。请参考图8，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成人货交互行为识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

接收基于目标货架所在拍摄场所采集的图像信息，所述图像信息中包含至少一个目标顾客的图像数据；基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为；如果检测到一个目标顾客的触摸行为，则查询所述触摸行为发生的起始时间至结束时间之内所述目标货架的称重信息，并基于所述称重信息识别该目标顾客与所述目标货架的交互行为；如果检测到多个目标顾客的触摸行为，则根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，并基于预测结果识别每个目标顾客与所述目标货架的交互行为；其中，所述持货检测模型是基于历史顾客分别与多个货架进行交互之前以及交互之后的历史手部图像训练得到。

上述如本说明书图3或图6所示实施例揭示的装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图3或图6的方法，并实现相应装置在图3或图6所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图3或图6所示实施例的方法，并具体用于执行以下方法：

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述一个或多个实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种人货交互行为识别方法，包括：

接收基于目标货架所在拍摄场所采集的图像信息；

2.如权利要求1所述的人货交互行为识别方法，基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为，包括：

基于手检测算法和手追踪算法以及关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位；

如果有目标顾客的关键部位与所述目标货架之间的距离小于第一阈值，则确定该目标顾客触碰所述目标货架。

3.如权利要求2所述的人货交互行为识别方法，基于手检测算法和手追踪算法以及关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位，包括：

将所述图像信息的每个图像帧输入关键点检测模型，得到每个目标顾客的关键部位集合，所述关键部位集合关联有目标顾客的标识信息和手部；将所述图像信息中每个图像帧得到的属于同一个目标顾客的关键部位集合汇集成轨迹，得到每个目标顾客的关键点轨迹；

将所述图像信息的每个图像帧输入手检测模型，得到每个手部的定位框；基于对所述图像信息中每个图像帧得到的定位框进行追踪定位，得到每个手部的手轨迹；

基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位。

4.如权利要求3所述的人货交互行为识别方法，基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位，包括：

5.如权利要求4所述的人货交互行为识别方法，在将丢失前的关键点轨迹与丢失后的手轨迹拼接以对目标顾客的手部进行追踪定位之后，所述方法还包括：

6.如权利要求3所述的人货交互行为识别方法，基于所述关键点轨迹和所述手轨迹对目标顾客的手部进行追踪定位，包括：

在检测到手轨迹断裂时，基于与该手轨迹对应的手部关联的目标顾客的关键点轨迹，估计手部对应的关键点的位置；

基于估计结果将断裂的手轨迹拼接以对目标顾客的手进行追踪定位。

7.如权利要求1-6任一项所述的人货交互行为识别方法，基于所述称重信息识别该目标顾客与所述目标货架的交互行为，包括：

确定所述称重信息中目标货架在触摸行为发生的起始时间至结束时间之内的重量值；

如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值下降，则确定该目标顾客从所述目标货架取货；

如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值不变，则确定该目标顾客仅触摸所述目标货架；

如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值上升，则确定该目标顾客在所述目标货架放货；

如果起始时间的第一重量值大于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更大的货品；

如果起始时间的第一重量值等于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量相等的货品；

如果起始时间的第一重量值小于结束时间的第二重量值，且在该时间段之内重量值先上升后下降，则确定该目标顾客从所述目标货架更换了质量更小的货品。

8.如权利要求1-6任一项所述的人货交互行为识别方法，根据持货检测模型对所述多个目标顾客在触摸行为发生的起始时间的手持状态以及在触摸行为发生的结束时间的手持状态进行预测，包括：

获取所述多个目标顾客中每个目标顾客的第一图像以及第二图像；

将所述第一图像和所述第二图像分别输入持货检测模型，得到每个目标顾客的预测结果；

其中，所述第一图像是针对每个目标顾客在触摸行为发生的起始时间采集的手部图像，所述第二图像是针对每个目标顾客在触摸行为发生的结束时间采集的手部图像。

9.如权利要求8所述的人货交互行为识别方法，基于预测结果识别每个目标顾客与所述目标货架的交互行为，包括：

针对任一目标顾客：

从目标顾客的预测结果中确定根据第一图像预测的第一预测结果和根据第二图像预测的第二检测；

如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客从所述目标货架取货；

如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客在所述目标货架放货；

如果第一预测结果为所述目标顾客未手持货品，第二预测结果为所述目标顾客未手持货品，则确定所述目标顾客仅触摸所述目标货架；

如果第一预测结果为所述目标顾客手持货品，第二预测结果为所述目标顾客手持货品，则确定所述目标顾客在所述目标货架换货。

10.一种人货交互行为识别装置，包括：

11.如权利要求10所述的人货交互行为识别装置，所述检测模块在基于所述图像信息检测是否有目标顾客触碰所述目标货架的触摸行为时，具体用于：

基于手检测算法和手追踪算法和关键点检测算法和关键点追踪算法对所述图像信息中包含的目标顾客的关键部位进行追踪定位；

12.一种人货交互行为识别系统，包括：至少一个货架，每个货架均安装有用于称重该货架的称重装置；至少一个上位机，用于接收至少一个称重装置发送的称重信息；至少一个摄像机，用于从俯视角度或侧视角度采集货架的图像信息；以及分别与所述至少一个上位机和所述至少一个摄像机连接的中控服务器，所述中控服务器用于接收至少一个上位机上传的称重信息以及至少一摄像机采集的图像信息，并执行权利要求1-9任一项所述的人货交互行为识别方法。

13.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-9任一项所述的人货交互行为识别方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1-9任一项所述的人货交互行为识别方法。