CN107909038B

CN107909038B - 一种社交关系分类模型训练方法、装置、电子设备及介质

Info

Publication number: CN107909038B
Application number: CN201711136951.1A
Authority: CN
Inventors: 吴斌; 吕金娜; 刘宇; 贾丙静; 周鹏鹏; 张云雷; 宁念文; 卜尧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2022-01-28
Anticipated expiration: 2037-11-16
Also published as: CN107909038A

Abstract

本发明实施例提供了一种社交关系分类模型训练方法、装置、电子设备及介质，方法包括；根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练；利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对训练集中的视频所包含人物的社交关系进行分类，得到第二预测的分类结果和与第二预测的分类结果对应的分类概率；根据分类概率和训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型。应用本发明实施例可以对视频中包含的待分类人物的进行社交关系分类。

Description

一种社交关系分类模型训练方法、装置、电子设备及介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种社交关系分类模型训练方法、装置、电子设备及介质。

背景技术

社交关系是社交网络中人与人连接和交互的纽带，也是社交网络中信息传播的基础。社交关系的研究为我们对用户关系的形成机理、用户的交互模式和动态机制的理解提供了一个机会。因此，识别出人与人之间的社交关系是十分必要的。通常来说社交关系包括主观关系和客观关系，其中，主观关系包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系和自信关系；客观关系包括：工作关系、家庭关系和其他关系。

目前，随着数码相机、智能手机等设备的普及，产生的图片数据越来越多，为了识别图片中包含的人物的社交关系，通常会利用社交关系分类模型训练，如空间卷积网络模型，根据图片中包含的人物之间的相关特征，如人物之间的相对位置、人物姿势、人物表情、人物衣着等特征进行图片所包含人物的社交关系进行分类。利用空间卷积网络模型对图片中包含的人物关系进行社交关系分类的流程如下：先将若干个包含待进行社交关系分类人物影像的图片作为一个数据集，利用该数据集训练空间卷积网络模型，再利用训练好的空间卷积网络模型对图片中包含的人物进行社交关系的分类。如果数据集中的图片之间没有关联性导致图片中缺少社交关系分类的依据。例如，没有背景一样的多张图片、或者没有人物衣着相近/一样的两张图片、或者图片中仅包含一个待进行社交关系分类人物的影像，进而导致利用这样的图片无法进行社交关系分类模型的训练。因此，用于分类模型训练的数据集中的图片之间要具有关联性。

但是，在实际应用中，随着智能手机的普及以及支持视频分享功能社交软件的广泛应用，产生的视频数据越来越多，而将视频切分成一帧的图片后，切分后的图片可能会不具备关联性，因此，用现有数据集训练出来的空间卷积网络模型不能实现对视频中的包含的待分类人物的社交关系的分类，因此，对视频中包含的待分类人物的进行社交关系分类是亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种社交关系分类模型训练方法、装置、电子设备及介质，以实现视频中包含的待分类人物的进行社交关系分类。具体技术方案如下：

第一方面，本发明实施例提供了一种社交关系分类模型训练方法，所述方法包括；

根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，直至分别利用空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第一预测的分类结果与所述真实的分类结果一致，其中，所述分类结果包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系、上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系；

利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类，得到第二预测的分类结果和与所述第二预测的分类结果对应的分类概率；

根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致。

可选的，在本发明实施例的一种具体实施方式中，所述根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，包括：

获取所述训练集中的视频所包含人物的社交关系的至少两个真实的分类结果；

利用多标签分类函数分别替换所述空间卷积网络模型、时间卷积网络模型和音频分类网络模型中对应的分类函数；

根据所述训练集中的视频所包含人物的社交关系的至少两个真实的分类结果，分别对替换分类函数后的空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练。

针对训练集中的每一视频片段，将所述视频片段按照播放顺序拆分成单帧图像序列；将所述单帧图像序列切分成至少两个图像序列片段，并将与每一个图像序列片段对应的视频所包含人物的社交关系真实的分类结果作为所述图像序列片段所包含人物的社交关系真实的分类结果；根据所述图像序列片段所包含人物的社交关系真实的分类结果，对空间卷积网络模型进行训练；

针对训练集中的每一视频片段，获取所述视频片段的光流图片，将所述光流图片按照播放顺序拆分成单帧光流图片序列；将所述单帧光流图片序列切分成至少两个光流图像序列片段，并将与每一个光流图像序列片段对应的视频所包含人物的社交关系真实的分类结果作为所述光流图像序列片段所包含人物的社交关系真实的分类结果；根据所述光流图像序列片段所包含人物的社交关系真实的分类结果，对时间卷积网络模型进行训练；

针对训练集中的每一视频片段，获取所述视频片段的音频图片，并将所述视频片段所包含人物的社交关系真实的分类结果作为所述音频图片所包含人物的社交关系真实的分类结果；根据所述音频图片所包含人物的社交关系真实的分类结果，对音频分类网络模型进行训练。

可选的，在本发明实施例的一种具体实施方式中，所述方法还包括：

获取训练完成后的逻辑回归模型对应的各个分类结果对应的融合权重；

将所述融合权重输入逻辑回归模型；

针对每一待分类视频，利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述待分类视频所包含人物的社交关系进行分类，得到所述待分类视频所包含人物的社交关系对应的第四预测的分类结果和与所述第四预测的分类结果对应的分类概率；

将所述分类概率输入到已输入融合权重后的逻辑回归模型中，以使所述已输入融合权重后的逻辑回归模型对所述待分类视频所包含人物的社交关系进行分类。

第二方面，本发明实施例还提供了一种社交关系分类模型训练装置，所述装置包括；第一训练模块、第一分类模块和第二训练模块，其中，

所述第一训练模块，用于根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，直至分别利用空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第一预测的分类结果与所述真实的分类结果一致，其中，所述分类结果包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系、上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系；

所述第一分类模块，用于利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类，得到第二预测的分类结果和与所述第二预测的分类结果对应的分类概率；

所述第二训练模块，用于根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致。

可选的，在本发明实施例的一种具体实施方式中，所述第一训练模块，还用于：

可选的，在本发明实施例的一种具体实施方式中，所述装置还包括：获取模块、第一输入模块、第二分类模块和第二输入模块，其中，

所述获取模块，用于获取训练完成后的逻辑回归模型对应的各个分类结果对应的融合权重；

所述第一输入模块，用于将所述融合权重输入逻辑回归模型；

所述第二分类模块，用于针对每一待分类视频，利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述待分类视频所包含人物的社交关系进行分类，得到所述待分类视频所包含人物的社交关系对应的第四预测的分类结果和与所述第四预测的分类结果对应的分类概率；

所述第二输入模块，用于将所述分类概率输入到已输入融合权重后的逻辑回归模型中，以使所述已输入融合权重后的逻辑回归模型对所述待分类视频所包含人物的社交关系进行分类。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

本发明实施例提供的一种社交关系分类模型训练方法、装置、电子设备及介质，在进行社交关系分类模型训练时，时间卷积网络模型可以根据视频中所包含的含待进行社交关系分类的人物的运动特征进行分类，因此，当视频中的图片仅包含其中一个待进行社交关系分类的人物的影像时，时间卷积网络模型可以根据该图片与其他图片的相关系，对待进行社交关系分类的人物的社交关系进行分类，因此，也可以利用该图片对分类模型进行训练，相对于现有技术，应用本发明实施列可以对视频中包含的待分类人物的进行社交关系分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种社交关系分类模型训练方法的流程示意图；

图2为本发明实施例提供的一种社交关系分类模型训练方法的原理示意图；

图3为本发明实施例提供的训练集中主观关系的时长分布图；

图4为本发明实施例提供的训练集中客观分类结果的时长分布图；

图5为本发明实施例提供的训练集中主观分类结果的视频个数示意图；

图6为本发明实施例提供的训练集中客观关系的视频个数示意图；

图7为本发明实施例提供的另一种社交关系分类模型训练方法的流程示意图；

图8为应用本发明实施例提供的一种社交关系分类模型对测试集中的视频片段进行分类的准确率的示意图；

图9为应用本发明实施例提供的一种社交关系分类模型对测试集中的视频片段进行主观关系分类的准确率的示意图，

图10为本发明实施例提供的一种社交关系分类模型训练装置的结构示意图；

图11为本发明实施例提供的另一种社交关系分类模型训练装置的结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种社交关系分类模型训练方法、装置、电子设备及介质，下面首先就本发明实施例提供了一种社交关系分类模型训练方法进行介绍。

图1为本发明实施例提供的一种社交关系分类模型训练方法的流程示意图，图2为本发明实施例提供的一种社交关系分类模型训练方法的原理示意图；如图1和图2所示，所述方法包括；

S101：根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，直至分别利用空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第一预测的分类结果与所述真实的分类结果一致，其中，所述分类结果包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系、上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系。

示例性的，训练集中包含1062段视频片段，每个视频片段时长为3-50秒；且每个视频片段中均包含待进行社交关系分类的人物的交互关系的内容。如图3-图6所示，图3为本发明实施例提供的训练集中主观关系的时长分布图，在图3中，自信分类结果对应的总时长约为12000秒，内向分类结果对应的总时长约为8000秒；外向分类结果对应的总时长约为4500秒；友好分类结果对应的总时长约为27000秒；温柔分类结果对应的总时长约为13000秒；信任分类结果对应的总时长约为19000秒；竞争分类结果对应的总时长约为14000秒；支配分类结果对应的总时长约为7000秒。图4为本发明实施例提供的训练集中客观分类结果的时长分布图，在图4中，敌对分类结果对应的总时长约为4000秒；友好分类结果对应的总时长约为14000秒；兄弟姐妹分类结果对应的总时长约为2000秒；夫妻分类结果对应的总时长约为6500秒；亲子分类结果对应的总时长约为4000秒；服务分类结果对应的总时长约为1500秒；同事分类结果对应的总时长约为6500秒；上下级分类结果对应的总时长约为7500秒。图5为本发明实施例提供的训练集中主观分类结果的视频个数示意图，在图5中，支配分类结果的视频片段的数量占训练集中视频片段总数量的10％；竞争分类结果的视频片段的数量占训练集中视频片段总数量的13％；信任分类结果的视频片段的数量占训练集中视频片段总数量的21％；温柔分类结果的视频片段的数量占训练集中视频片段总数量的16％；友好分类结果的视频片段的数量占训练集中视频片段总数量的16％；外向分类结果的视频片段的数量占训练集中视频片段总数量的5％；内向关系的视频片段的数量占训练集中视频片段总数量的8％；自信分类结果的视频片段的数量占训练集中视频片段总数量的11％。图6为本发明实施例提供的训练集中客观关系的视频个数示意图，在图6中，上下级分类结果的视频片段的数量占训练集中视频片段总数量的16％；同事分类结果的视频片段的数量占训练集中视频片段总数量的12％；服务分类结果的视频片段的数量占训练集中视频片段总数量的2％；亲子分类结果的视频片段的数量占训练集中视频片段总数量的11％；夫妻分类结果的视频片段的数量占训练集中视频片段总数量的13％；兄弟姐妹分类结果的视频片段的数量占训练集中视频片段总数量的2％；友好分类结果的视频片段的数量占训练集中视频片段总数量的35％；敌对分类结果的视频片段的数量占训练集中视频片段总数量的9％。

在图2中，201为训练集中包含的视频片段；202为空间卷积网络模型的原理过程；203为时间卷积网络的原理过程。例如，视频片段可以为包含人物A和人物B的视频片段1、包含人物C和人物D的视频片段2、包含人物E和人物F的视频片段3、···、包含人物X和人物Y的视频片段1062。视频片段中人物的社交关系分类包括主观关系和客观关系，其中，主观关系包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系；客观关系包括：上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系。

以视频片段1对空间卷积网络模型的训练为例对训练过程进行说明：可以将空间卷积网络的基础学习率设置为0.001，将学习率变化参数设置为0.01，然后将视频片段1输入到空间卷积网络模型中，空间卷积网络模型根据视频片段1中包含的人物的空间特征进行提取，并根据提取的空间特征计算视频片段1对应的各个分类结果的第一预测概率；经该概率与视频片段1的真实分类结果进行比较，若差别大于设定的阈值，依据学习变化率进行迭代，进行再一次的分类结果的预测，进而得到新的第一预测概率，直至得到正确的分类结果为止，也就是说直至第一预测的分类结果与所述真实的分类结果一致，最后得到利用视频片段1训练好的空间卷积网络模型。

类似的，使用上述方法对时间卷积网络模型和音频分类网络模型进行训练。在实际应用中，音频分类网络模型可以为Google Net(谷歌网络模型)，进而得到利用视频片段1训练好的时间卷积网络模型和音频分类网络模型。

再利用训练集中的其他视频片段，如视频片段2、视频片段3、···、视频片段1062等对时间卷积网络模型和音频分类网络模型进行训练，得到训练好的空间卷积网络模型、训练好的时间卷积网络模型和训练好的音频分类网络模型。

可以理解的是，空间卷积网络模型是利用视频中包含的人物的空间特征对人物的社交关系进行分类的模型，例如，空间特征可以为表情、姿势以及背影等特征；时间卷积网络模型是利用视频中包含的人物的时间特征对人物的社交关系进行分类的模型，例如，时间特征可以为人物的表情变化特征、动作变化特征等特征；音频分类网络模型是利用视频中包含的人物的音频特征对人物的社交关系进行分类的模型，例如，音频特征可以为人物说话的频域特征、人物说话的音调特征等特征。

S102：利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类，得到第二预测的分类结果和与所述第二预测的分类结果对应的分类概率。

示例性的，利用S101步骤中训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对训练集中的各个视频片段所包含人物的社交关系进行分类，得到空间卷积网络模型、时间卷积网络模型和音频分类网络模型分类的每个视频片段第二预测的分类结果mⁱ，

其中，mⁱ为第i个分类模型对视频片段进行分类得到的各个分类结果对应的第二预测的分类结果；i为分类模型的编号；C为分类结果的编号。mⁱ为一个由各个分类模型对视频片段1进行分类得到的各个分类结果对应的分类概率构成的一维矩阵。

以视频片段1为例，如果将空间卷积网络模型、时间卷积网络模型和音频分类网络模型按照1、2、3的顺序进行编号，则m¹为利用空间卷积网络模型对视频片段1进行分类得到的第二预测的分类结果；如果各个分类结果的分类概率按照支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系、上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系进行排序，则m¹具体可以为[0.72,0.12，0.23，…，0.61]。

相应的，m²为利用时间卷积网络模型对视频片段1进行分类得到的第二预测的分类结果；m³为利用音频分类网络模型对视频片段1进行分类得到的第二预测的分类结果。视频片段1对应的第二预测结果可以为：pry_y＝H(m¹,m²,m³)。

类似的，再利用时间卷积网络模型和音频分类网络模型对训练集中的其他视频片段，如视频片段2、视频片段3、···、视频片段1062等中包含的人物进行社交关系的分类。在对所有的视频片段进行分类后，所有的视频片段对应的第二预测的分类结果为：

其中，

为所有的视频片段对应的第二预测的分类结果；N为训练集中视频片段的数量，N的取值为1062；T为转置矩阵的符号。

S103：根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致。

示例性的，将S102步骤中得到的所有的视频片段对应的第二预测的分类结果作为输入，输入到逻辑回归模型中，以对逻辑回归模型进行训练，训练的过程可以为：

逻辑回归模型(Logistic Regression Mode)是机器学习中的一种分类模型，由于算法的简单和高效，在实际中应用非常广泛。逻辑回归的模型是一个非线性模型，又称逻辑回归函数。

假设我们的样本是{x,y}，y是0或者1，表示正类或者负类，x是m维的样本特征向量。那么这个样本x属于正类，也就是y＝1的“概率”可以通过下面的逻辑函数来表示：

其中，P为概率；θ是模型参数，也就是回归系数；σ是sigmoid函数。实际上这个函数是由下面的对数几率，也就是，x属于正类的可能性和负类的可能性的比值的对数，变换得到的：

对该公式求解，得到针对一个视频片段的模型参数的矩阵，该矩阵是由该视频片段对应的多个解构成的一维矩阵。

在实际应用中，可以W表示测试集中所有视频片段的模型参数的集合，由于本步骤中对应有空间卷积网络分类模型、时间卷积网络分类模型和音频分类网络模型；且采用了n个视频片段进行训练，因此W为包含m*n*C个元素的矩阵。术语“测试集中所有视频片段的模型参数的集合”是指“每个类的最佳融合权重的集合”

利用逻辑回归模型确定每个类的最佳融合权重的表达式为：

其中，W为每个类的最佳融合权重的集合；argmin为目标函数取最小值时的变量值的求值函数；exp为以自然常数e为底的指数函数；log为对数函数；w₁为分类为1的分类结果的权重；C为分类结果的个数；N为视频片段的个数；y_n,C为预先标记好的分类结果的真实的分类结果；

为第n个视频片段对应的第二预测的分类结果；w_C为分类为C的分类结果的权重。

将训练好的空间卷积网络模型、时间卷积网络模型、音频分类网络模型以及逻辑回归模型作为最终的分类模型，对包含待进行社交关系分类的人物的视频片段进行社交关系分类。

应用本发明图1所示实施例，在进行社交关系分类模型训练时，时间卷积网络模型可以根据视频中所包含的含待进行社交关系分类的人物的运动特征进行分类，因此，当视频中的图片仅包含其中一个待进行社交关系分类的人物的影像时，时间卷积网络模型可以根据该图片与其他图片的相关系，对待进行社交关系分类的人物的社交关系进行分类，因此，也可以利用该图片对分类模型进行训练，相对于现有技术，应用本发明实施列可以对视频中包含的待分类人物的进行社交关系分类。

应用本发明图1所示实施例，在进行社交关系分类模型训练时，使用逻辑回归模型对对空间卷积网络模型、时间卷积网络模型和音频分类网络模型的分类结果进行融合，空间卷积网络模型可以根据待进行社交关系分类的人物的空间特征进行分类；时间卷积网络模型可以根据待进行社交关系分类的人物的运动特征进行分类，音频分类网络模型可以根据待进行社交关系分类的人物的音频特征进行分类，相对于现有技术仅使用空间卷积网络模型对待进行社交关系分类的人物的社交关系进行分类，从更多的方面对待进行社交关系分类的人物的社交关系进行分类，可以对视频中包含的待分类人物的进行社交关系分类。

图7为本发明实施例提供的另一种社交关系分类模型训练方法的流程示意图，如图7所示，本发明图7所示实施例在本发明图1所示实施例的基础上增加了以下步骤：

S104：获取训练完成后的逻辑回归模型对应的各个分类结果对应的融合权重。

示例性的，根据S103步骤中训练好的逻辑回归模型中获取各个分类结果对应的融合权重W，W为每个类的最佳融合权重的集合，是一个一维向量。

S105：将所述融合权重输入逻辑回归模型。

示例性的，将S104步骤中获得的融合权重W输入到逻辑回归模型中，以获得用于对含有待进行社交关系分类的人物的视频片段进行社交关系分类的逻辑回归模型。

S106：针对每一待分类视频，利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述待分类视频所包含人物的社交关系进行分类，得到所述待分类视频所包含人物的社交关系对应的第四预测的分类结果和与所述第四预测的分类结果对应的分类概率。

示例性的，针对测试集中的各个视频片段，利用S101训练好的空间卷积网络模型、时间卷积网络模型以及S103步骤中训练好的逻辑回归模型，对各个视频片段中包含的待进行社交关系分类的人物之间的社交关系进行分类。例如，测试集中的视频片段x对应的第四预测的分类结果可以为视频片段1对应的第二预测结果可以为：pry_y_x＝H(m¹,m²,m³)。

类似的，如果测试集中包含L个视频片段，则获得的第四预测的分类结果为：

S107：将所述分类概率输入到已输入融合权重后的逻辑回归模型中，以使所述已输入融合权重后的逻辑回归模型对所述待分类视频所包含人物的社交关系进行分类。

示例性的，将S106步骤中得到的第四预测的分类结果中的分类概率输入到S105步骤中得到的逻辑回归模型中，利用该逻辑回归模型对测试集中的L个视频片段中包含的待进行社交关系分类的人物之间的社交关系进行分类。

图8为应用本发明实施例提供的一种社交关系分类模型对测试集中的视频片段进行客观关系分类的准确率的示意图，如图8所示，显然，应用本发明图1所示实施例进行主观社交关系分类的准确率高于应用现有技术进行社交关系分类的准确率。

图9为应用本发明实施例提供的一种社交关系分类模型对测试集中的视频片段进行主观关系分类的准确率的示意图，如图9所示，显然，应用本发明图1所示实施例进行客观社交关系分类的准确率高于应用现有技术进行社交关系分类的准确率。

在实际应用中，还可以使用宏观F1值、微观F1值、准确率和次准确率对现有技术和本发明图7所示实施例的效果进行评价：

其中，i为第i个分类结果；FN为被判定为负样本，但事实上是正样本的样本；FP为被判定为正样本，但事实上是负样本的样本；TP为被判定为正样本，事实上也是正样本的样本。

其中，F_{1_macro}为宏观F1值；F_{1_micro}为微观F1值；C为分类结果的总数。

其中，Accuracy为被评价分类模型的准确率；TN：被判定为负样本，事实上也是负样本的样本；Np为所有的正样本数目；Nn为所有的负样本数目。

其中，Subaccuracy为次准确率；n为视频片段的数量；n(x_k)为预测的第n个视频片段的第c个分类的分类结果；Y_c为第c个分类的真实的分类结果；如果n(x_k)和Y_c相同，则I(n(x_c)＝Y_c)＝1，否则等于0，n为分类总数。这个评价指标表示预测的类别与真实类别完全一致才算预测对。

表1为利用本发明图7所示实施例得到的预测评价指标与应用现有技术得到的预测评价指标的对比表，如表1所示：

表1

从表1可知，应用本发明图7所示实施例可以将针对主观关系的分类结果的微观F1值从0.709提高到0.7824；宏观F1值从0.6136提高到0.6538；准确率从0.6782提高到0.7206；次准确率从0.3219提高到0.4818。

应用本实施例可以将针对客观关系的分类结果的微观F1值从0.6022提高到0.6988；宏观F1值从0.4890提高到0.6278；准确率从0.5331提高到0.6024；次准确率从0.3066提高到0.5213。

应用本发明图7所示实施例，使用训练好的空间卷积网络模型、时间卷积网络模型、逻辑回归模型对测试集中视频片段中人物的社交关系进行分类，相对于现有技术中仅使用空间卷积网络模型对测试集中视频片段中人物的社交关系进行分类，可以提高视频片段中人物的社交关系的准确率。

在本发明实施例的一种具体实施方式中，S101可以包括以下步骤：

S101A(图中未示出)：获取所述训练集中的视频所包含人物的社交关系的至少两个真实的分类结果。

示例性的，以视频片段1为例，视频片段中人物的社交关系进行分类的过程为例：视频片段1所包含人物的社交关系的所有的真实的分类结果可以为，信任、外向和友好，所包含人物的社交关系的所有的真实的分类结果是在构建训练集时预先分类好的。获取视频片段1所包含人物的社交关系的所有的真实的分类结果中的至少两个作为，训练集中的视频所包含人物的社交关系的至少两个真实的分类结果。在实际应用中，可以随机选择至少两个也可以选择视频片段1的所有的真实的分类结果作为，训练集中的视频所包含人物的社交关系的至少两个真实的分类结果。

类似的，对于训练集中的其他视频片段也按照对视频片段1的处理方法进行处理。

S101B(图中未示出)：利用多标签分类函数分别替换所述空间卷积网络模型、时间卷积网络模型和音频分类网络模型中对应的分类函数。

示例性的，利用多标签分类函数，例如交叉熵损失函数(Sigmoid Cross EntropyLoss Function)分别替换所述空间卷积网络模型、时间卷积网络模型和音频分类网络模型中对应的分类函数，例如，可以替换柔性最大损失函数(Softmax loss Function)，得到替换后的空间卷积网络模型、时间卷积网络模型和音频分类网络模型。

S101C(图中未示出)：根据所述训练集中的视频所包含人物的社交关系的至少两个真实的分类结果，分别对替换分类函数后的空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练。

示例性的，可以将空间卷积网络的基础学习率设置为0.001，将学习率变化参数设置为0.01，然后将S101A步骤中得到的视频片段1输入到S101B步骤中得到的空间卷积网络模型中。空间卷积网络模型根据视频片段1中包含的人物的空间特征进行提取，并根据提取的空间特征计算视频片段1对应的各个分类结果的第一预测概率；经该概率与视频片段1的真实分类结果进行比较，若差别大于设定的阈值，依据学习变化率进行迭代，进行再一次的分类结果的预测，进而得到新的第一预测概率，直至得到正确的分类结果为止，也就是说直至第一预测的分类结果与所述真实的分类结果一致，最后得到利用视频片段1训练好的空间卷积网络模型。如图2所示，在图2中，204为训练集中的视频所包含人物的社交关系的至少两个真实的分类结果。

类似的，使用上述方法对S101B步骤中得到的时间卷积网络模型和S101B步骤中得到的音频分类网络模型进行训练。

如图8所示，显然，应用本发明图7所示实施例进行主观社交关系分类的准确率高于应用现有技术进行社交关系分类的准确率。

如图9所示，显然，应用本发明图7所示实施例进行客观社交关系分类的准确率高于应用现有技术进行社交关系分类的准确率。

表2为利用本实施例得到的预测评价指标与应用现有技术得到的预测评价指标的对比表，如表2所示：

表2

从表2可知，应用本实施例可以将针对主观关系的分类结果的微观F1值从0.709提高到0.8119；宏观F1值从0.6136提高到0.6683；准确率从0.6782提高到0.7436；次准确率从0.3219提高到0.5213。

应用本实施例可以将针对客观关系的分类结果的微观F1值从0.6022提高到0.7019；宏观F1值从0.4890提高到0.6383；准确率从0.5331提高到0.6136；次准确率从0.3066提高到0.5291。

应用本发明上述实施例，使用多标签优化函数对空间卷积网络模型、时间卷积网络模型进行优化，相对于现有技术中仅使用空间卷积网络模型对测试集中视频片段中人物的社交关系进行分类，可以进一步提高视频片段中人物的社交关系的准确率。

在本发明实施例的一种具体实施方式中，S101还包括：

S101D(图中未示出)：针对训练集中的每一视频片段，将所述视频片段按照播放顺序拆分成单帧图像序列；将所述单帧图像序列切分成至少两个图像序列片段，并将与每一个图像序列片段对应的视频所包含人物的社交关系真实的分类结果作为所述图像序列片段所包含人物的社交关系真实的分类结果；根据所述图像序列片段所包含人物的社交关系真实的分类结果，对空间卷积网络模型进行训练。

示例性的，以视频片段1中包含304帧图像为例，将视频片段1中的视频帧按照播放顺序拆分成单帧图像序列，得到的视频片段1对应的单帧图像序列为：帧1、帧2、帧3、帧4、···、帧302、帧303、帧304。将视频片段1对应的单帧图像序列平均拆分为13个图像序列片段：图像序列片段1包含帧1-帧13共13帧图像；图像序列片段2包含帧14-帧26共13帧图像；依此类推。在实际应用中，由于视频片段1中包含的图像数量不是13的整数倍，可以将帧300-帧304共计5帧图像作为图像序列片段13中的图像。如图2所示，在图2中，205为切分后的图像序列片段。

可以理解的是，训练集中的每一视频片段包含的单帧图像的数量包括但不仅限于304帧，且对各个视频片段进行拆分后得到的图像序列片段包括但不仅限于13个。另外，对各个视频片段进行拆分的方式包括但不仅限于平均拆分，还可以以随机拆分的方式将视频片段1拆分成若干个图像序列片段。

可以将空间卷积网络的基础学习率设置为0.001，将学习率变化参数设置为0.01，然后将视频片段1输入到空间卷积网络模型中，空间卷积网络模型根据视频片段1中包含的人物的空间特征进行提取，并根据提取的空间特征计算视频片段1对应的各个分类结果的预测概率；经该概率与视频片段1的真实分类结果进行比较，若差别大于设定的阈值，依据学习变化率进行迭代，进行再一次的分类结果的预测，进而得到新的预测概率，直至得到正确的分类结果为止，最后得到利用视频片段1训练好的空间卷积网络模型。

S101E(图中未示出)：针对训练集中的每一视频片段，获取所述视频片段的光流图片，将所述光流图片按照播放顺序拆分成单帧光流图片序列；将所述单帧光流图片序列切分成至少两个光流图像序列片段，并将与每一个光流图像序列片段对应的视频所包含人物的社交关系真实的分类结果作为所述光流图像序列片段所包含人物的社交关系真实的分类结果；根据所述光流图像序列片段所包含人物的社交关系真实的分类结果，对时间卷积网络模型进行训练。

示例性的，利用光流提取算法提取出视频片段1对应的光流图像，以视频片段1中包含80帧光流图像为例，将视频片段1中的光流图像拆分成单帧光流图片序列，得到的视频片段1对应的单帧光流图片序列为：光流图像2、光流图像3、光流图像4、···、光流图像78、光流图像79、光流图像80。将视频片段1对应的单帧图像序列平均拆分为10个光流图像序列片段：光流图像序列片段1包含光流图像1-光流图像13共13幅光流图像；光流图像序列片段2包含光流图像14-光流图像26共13幅光流图像；依此类推。

类似的，根据上述步骤获得的13个光流图像序列片段，采用与S101D中相同的训练方法训练时间卷积网络模型。

S101F(图中未示出)：针对训练集中的每一视频片段，获取所述视频片段的音频图片，并将所述视频片段所包含人物的社交关系真实的分类结果作为所述音频图片所包含人物的社交关系真实的分类结果；根据所述音频图片所包含人物的社交关系真实的分类结果，对音频分类网络模型进行训练。

示例性的，针对训练集中的每一视频片段，利用音频提取算法提取出视频片段对应的音频图片，采用与S101D中相同的训练方法训练音频分类网络模型。类似的，再利用训练集中的其他视频片段，按照上述方法对音频分类网络模型进行训练。

在利用对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练时，如果将空间卷积网络模型、时间卷积网络模型和音频分类网络模型按照1、2、3的顺序进行编号；则m¹为利用空间卷积网络模型对视频片段1进行分类得到的预测的分类结果。由于视频片段1被切分成了13个图像序列片段，因此可以将13个图像序列片段对应每一分类结果预测的分类概率的平均值，作为空间卷积网络模型对视频片段1进行分类后对应该分类结果预测的分类概率。类似的，可以将10个光流图像序列片段对应每一分类结果预测的分类概率的平均值，作为时间卷积网络模型对视频片段1进行分类后对应该分类结果预测的分类概率；将音频图片分类结果预测的分类概率，作为音频分类网络模型对视频片段1进行分类后对应该分类结果预测的分类概率。

应用本发明上述实施例，将训练集中的视频切分成图像序列片段、单帧光流图片序列以及音频图片，可以提高人物的社交关系分类的准确率。

与本发明图1所示实施例相对应，本发明实施例还提供了一种社交关系分类模型训练装置。

图10为本发明实施例提供的一种社交关系分类模型训练装置的结构示意图，如图10所示，所述装置包括；第一训练模块1001、第一分类模块1002和第二训练模块1003，其中，

所述第一训练模块1001，用于根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，直至分别利用空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第一预测的分类结果与所述真实的分类结果一致，其中，所述分类结果包括：支配关系、竞争关系、信任关系、温柔关系、友好关系、外向关系、内向关系、自信关系、上下级关系、同事关系、服务关系、亲子关系、夫妻关系、兄弟姐妹关系、友好关系以及敌对关系；

所述第一分类模块1002，用于利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述训练集中的视频所包含人物的社交关系进行分类，得到第二预测的分类结果和与所述第二预测的分类结果对应的分类概率；

所述第二训练模块1003，用于根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致。

应用本发明图10所示实施例，在进行社交关系分类模型训练时，时间卷积网络模型可以根据视频中所包含的含待进行社交关系分类的人物的运动特征进行分类，因此，当视频中的图片仅包含其中一个待进行社交关系分类的人物的影像时，时间卷积网络模型可以根据该图片与其他图片的相关系，对待进行社交关系分类的人物的社交关系进行分类，因此，也可以利用该图片对分类模型进行训练，相对于现有技术，应用本发明实施列可以对视频中包含的待分类人物的进行社交关系分类。

与本发明图7所示实施例相对应，本发明实施例还提供了另一种社交关系分类模型训练装置的结构。

图11为本发明实施例提供的另一种社交关系分类模型训练装置的结构示意图，如图11所示，发明图11所示实施例在本发明图10所示实施例的基础上增加了获取模块1004、第一输入模块1005、第二分类模块1006和第二输入模块1007，其中，

所述获取模块1004，用于获取训练完成后的逻辑回归模型对应的各个分类结果对应的融合权重；

所述第一输入模块1005，用于将所述融合权重输入逻辑回归模型；

所述第二分类模块1006，用于针对每一待分类视频，利用训练好的空间卷积网络模型、时间卷积网络模型和音频分类网络模型对所述待分类视频所包含人物的社交关系进行分类，得到所述待分类视频所包含人物的社交关系对应的第四预测的分类结果和与所述第四预测的分类结果对应的分类概率；

所述第二输入模块1007，用于将所述分类概率输入到已输入融合权重后的逻辑回归模型中，以使所述已输入融合权重后的逻辑回归模型对所述待分类视频所包含人物的社交关系进行分类。

应用本发明图11所示实施例，使用训练好的空间卷积网络模型、时间卷积网络模型、逻辑回归模型对测试集中视频片段中人物的社交关系进行分类，相对于现有技术中仅使用空间卷积网络模型对测试集中视频片段中人物的社交关系进行分类，可以提高视频片段中人物的社交关系的准确率。

在本发明实施例的一种具体实施方式中，所述第一训练模块1001，还用于：

与本发明图1所示实施例相对应，本发明实施例还提供了一种电子设备。图12为本发明实施例提供的一种电子设备的结构示意图，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信；

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器上所存放的程序时，实现如下步骤：

应用本发明图12所示实施例，在进行社交关系分类模型训练时，时间卷积网络模型可以根据视频中所包含的含待进行社交关系分类的人物的运动特征进行分类，因此，当视频中的图片仅包含其中一个待进行社交关系分类的人物的影像时，时间卷积网络模型可以根据该图片与其他图片的相关系，对待进行社交关系分类的人物的社交关系进行分类，因此，也可以利用该图片对分类模型进行训练，相对于现有技术，应用本发明实施列可以对视频中包含的待分类人物的进行社交关系分类。

与本发明图1所示实施例相对应，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络模型处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质、系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种社交关系分类模型训练方法，其特征在于，所述方法包括；

根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致；

其中，所述根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，包括：

根据所述训练集中的视频所包含人物的社交关系的至少两个真实的分类结果，分别对替换分类函数后的空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练；

所述方法还包括：

将所述融合权重输入逻辑回归模型；

2.根据权利要求1所述的方法，其特征在于，所述根据训练集中的视频所包含人物的社交关系真实的分类结果，分别对空间卷积网络模型、时间卷积网络模型和音频分类网络模型进行训练，包括：

3.一种社交关系分类模型训练装置，其特征在于，所述装置包括；第一训练模块、第一分类模块和第二训练模块，其中，

所述第二训练模块，用于根据所述分类概率和所述训练集中的视频所包含人物的社交关系真实的分类结果，训练逻辑回归模型，直至利用所述逻辑回归模型对所述训练集中的视频所包含人物的社交关系进行分类得到的第三预测的分类结果与所述真实的分类结果一致；

其中，所述第一训练模块，还用于：

所述装置还包括：获取模块、第一输入模块、第二分类模块和第二输入模块，其中，

4.根据权利要求3所述的装置，其特征在于，所述第一训练模块，还用于：

5.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1、2任一所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1、2任一所述的方法步骤。