CN112487239B

CN112487239B - 视频检索方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN112487239B
Application number: CN202011364213.4A
Authority: CN
Inventors: 贺峰; 汪琦; 冯知凡; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2024-04-05
Anticipated expiration: 2040-11-27
Also published as: CN112487239A

Abstract

本申请公开了视频检索方法、模型训练方法、装置、设备及计算机存储介质，涉及NLP(Natural Language Processing，自然语言处理)、人工智能、大数据、计算机视觉、智能搜索、知识图谱和深度学习领域。具体实现方案为：从检索文本中提取文本特征；从待分析视频中提取视觉特征；根据所述文本特征和所述视觉特征，得到所述检索文本和所述视频的特征相似度以及所述视频与所述检索文本中包含的概念的概念置信度；根据所述特征相似度和所述概念置信度，确定所述视频在所述检索文本对应的检索结果中的排序。

Description

视频检索方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及智能搜索和知识图谱技术领域。

背景技术

互联网(internet)，又称国际网络，指的是网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络。随着计算机技术的发展，世界逐渐进入互联网时代。

互联网时代的一个显著的特征就是数据地成倍增长，而视频数据也不例外，面对日益增长的视频库，需要的是一种高效并且精确的检索技术。

发明内容

本申请提供了一种视频检索方法、模型训练方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种视频检索方法，包括：

从检索文本中提取文本特征；

从待分析视频中提取视觉特征；

根据文本特征和视觉特征，得到检索文本和视频的特征相似度，以及视频与检索文本中包含的概念的概念置信度；

根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序。

根据本申请的另一方面，提供了一种模型训练方法，包括：

获取用于训练模型的正样本和负样本；正样本包括视频及视频的标注概念，负样本包括视频及任意一个与标注概念不同的其它概念；

将正样本和负样本输入待训练的视频概念感知模型，得到标注概念与视频的第一概念相关性以及其它概念与视频的第二概念相关性；

根据第一概念相关性和第二概念相关性，训练待训练的视频概念感知模型，得到视频概念感知模型。

根据本申请的另一方面，提供了一种视频检索装置，包括：

文本特征模块，用于从检索文本中提取文本特征；

视觉特征模块，用于从待分析视频中提取视觉特征；

特征处理模块，用于根据文本特征和视觉特征，得到检索文本和视频的特征相似度以及视频与检索文本中包含的概念的概念置信度；

排序模块，用于根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序。

根据本申请的又一方面，提供了一种模型训练装置，包括：

样本模块，用于获取用于训练模型的正样本和负样本；正样本包括视频及视频的标注概念，负样本包括视频及任意一个与标注概念不同的其它概念；

概念模块，用于将正样本和负样本输入待训练的视频概念感知模型，得到标注概念与视频的第一概念相关性以及其它概念与视频的第二概念相关性；

训练模块，用于根据第一概念相关性和第二概念相关性，训练待训练的视频概念感知模型，得到视频概念感知模型。

根据本申请的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

根据本申请的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

根据本申请实施例，能够根据检索文本和视频的特征相似度以及视频与检索文本中包含的概念的概念置信度，确定视频在检索文本对应的检索结果中的排序，不仅考虑了文本本身，还考虑了文本中的概念，从而能够得到更为精确的排序结果，避免用户因为检索结果不符合理想预期而反复检索，提高了视频检索的效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的视频检索方法流程示意图；

图2是根据本申请一实施例的模型训练方法流程示意图；

图3是根据本申请一示例的视频检索方法主要数据流程示意图；

图4是根据本申请一示例的模型训练方法主要数据流程示意图；

图5是根据本申请另一实施例的视频检索装置主要组成部分示意图；

图6是根据本申请另一实施例的视频检索装置主要组成部分示意图；

图7是根据本申请另一实施例的视频检索装置主要组成部分示意图；

图8是根据本申请另一实施例的视频检索装置主要组成部分示意图；

图9是根据本申请另一实施例的视频检索装置主要组成部分示意图；

图10是根据本申请另一实施例的模型训练装置主要组成部分示意图；

图11是根据本申请一示例的视觉特征模型示意图；

图12是根据本申请一示例的文本特征模型示意图；

图13是根据本申请一示例的知识体系示意图；

图14A、14B是根据本申请效果示意图；

图15是用来实现本申请实施例的信息推荐方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例首先提供一种视频检索方法，如图1所示，包括：

步骤S11：从检索文本中提取文本特征；

步骤S12：从待分析视频中提取视觉特征；

步骤S13：根据文本特征和视觉特征，得到检索文本和视频的特征相似度，以及视频与检索文本中包含的概念的概念置信度；

步骤S14：根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序。

本实施例中，检索文本可以是用于检索视频的文本。具体可以是一个词语、多个词语、一句短语或者一个长句。

文本特征可以是文本的特征向量，具体可以通过文本处理模型获得。也可以根据设定的规则，将文本转换为特征向量，作为文本特征。

从待分析视频中提取视觉特征，具体可以是从根据检索文本检索得到的某个视频中，提取视频帧；然后从每个视频帧中，提取视觉特征。

本实施例中，视觉特征可以包括体现的视频帧的内容。

待分析视频可以是视频库中的视频，也可以是根据检索文本进行初步检索得到的视频。

比如，两段10s的视频中，其中一个视频10s的内容均是车辆，另外一个视频前3s的内容是同样的车辆，但后7s为与车辆无关的内容，则这两个视频整体上不相同，从而这两个视频的视觉特征可以不同。

检索文本和视频的特征相似度，具体可以是检索文本的文本特征和视频的视觉特征之间的相似度。

比如，若视频全部内容都是车辆，但是检索文本的文本特征是“轮船”，那么检索文本的文本特征和视频的视觉特征之间的相似度为一个较小的数值。

检索文本中包含的概念，具体可以是检索文本中具有特定含义的字或字的组合。

比如，检索文本为“汽车的发动机”，那么其中可以包含两个概念“汽车”和“发动机”。

再如，检索文本为“车联网”，那么，其中包含的概念可以是“车”、“网”、“车联网”，也可以仅包含“车联网”这一个概念。

视频与检索文本中包含的概念的概念置信度，具体可以是视频与检索文本中包含的概念的相关程度。

例如，某个10s的视频中，全部内容均为车辆，则该视频与检索文本中“车辆”这一概念的概念置信度较高。若某个10s的视频中，仅1s的内容为车辆，则该视频与检索文本中“车辆”这一概念的概念置信度较低。

根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序，可以是综合考虑特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序。

例如，检索文本为“组合跳舞”，其中包含“组合”和“跳舞”两个概念，但是，视频仅包含“组合”，不包含“跳舞”，视频的内容是“组合唱歌”。那么，即使在特征相似度较高的情况下，该视频的排序也应当比以“组合跳舞”为内容的视频靠后。

也可以是根据特征相似度和概念置信度中的至少一个，确定视频在检索文本对应的检索结果中的排序。

根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序，可以是根据特征相似度和概念置信度，确定检索文本和视频的相关程度，后续结合其它检索结果和检索文本的相关程度，确定视频在检索文本对应的检索结果中的排序。

确定视频在检索文本对应的检索结果中的排序，可以是根据视频与检索文本的相关程度，将相关程度高的视频排序调整为靠前。也可以是将相关程度低的视频排序调整为靠前。

本申请实施例中，能够根据检索文本和视频的特征相似度以及视频与检索文本中包含的概念的概念置信度，确定视频在检索文本对应的检索结果中的排序，不仅考虑了文本本身，还考虑了文本中的概念，从而能够得到更为精确的排序结果，避免用户因为检索结果不符合理想预期而反复检索，提高了视频检索的效率。

在一种实施方式中，获取检索文本中的文本特征，包括：

获取检索文本中的概念的上位概念和/或近义概念和/或下位概念；

根据检索文本中的概念，以及上位概念和/或近义概念和/或下位概念，获得文本特征。

本实施例中，概念的上位概念，可以包括概念的类别词等。

比如，“小汽车”的上位概念可以为“机动车”。“互联网”的上位概念可以包括“网络”。

概念的近义概念，可以是与概念指代同一种物体或者含义的概念。

比如，“计算机”的近义概念可以是“电脑”。

概念的下位概念，可以是包含在概念类别中的概念，比如，“宝马”可以包含在“汽车”的类别中。

根据检索文本中的概念和上位概念，获得文本特征，具体可以是利用模型根据检索文本中的概念和上位概念，获得文本特征。

本实施例中，根据检索文本中的概念和上位概念和/或近义概念和/或下位概念，获得文本特征，从而避免了本身具有对应关系，却因为文字内容不同，而被认为视频与检索文本不相关的情况。比如，检索文本为“车辆”，检索结果中的视频为某品牌车辆相关的视频，则认为检索文本和视频是相关的。

在一种实施方式中，根据文本特征和视觉特征，计算检索文本和视频的特征相似度，包括：

计算文本特征的特征向量和视觉特征的特征向量的向量相似度；

将向量相似度作为特征相似度。

本实施例中，直接采用文本特征和视觉特征的特征向量计算特征相似度，能够获得从整体上反应检索文本和视频的相关程度的重要参数，从而能够保证判断结果的整体准确程度。

在一种实施方式中，根据文本特征和视觉特征，计算视频与检索文本中包含的概念的概念置信度，包括：

将视觉特征输入视频概念感知模型，得到概念词典中所有概念与视频的概念置信度；

根据文本特征和概念词典中所有概念与视频的概念置信度，得到检索文本中包含的概念的概念置信度。

本实施例中，概念词典中所有概念与视频的概念的置信度，可以是概念词典中每一个概念，与视频的概念的相关程度。比如，视频是关于“办公楼”的视频，那么概念词典中的“楼”、“建筑物”等概念，与该视频的概念置信度较高。“居民楼”等概念，与该视频的概念置信度较低。

根据文本特征和概念词典中所有概念与视频的概念置信度，得到检索文本中包含的概念的概念置信度，例如可以是将概念词典中检索文本所包含的概念对应的置信度，作为概念置信度。

本实施例中，能够根据视觉特征得到概念词典中所有概念与视频的概念置信度，进而得到检索文本中包含的概念的概念置信度，从而在判断视频与检索文本相关性的时候，能够将概念置信度作为重要的判断因素之一，提高判断结果的准确性。

在一种实施方式中，根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序，包括：

根据特征相似度和概念置信度，计算视频与检索文本的相似度；

根据视频与检索文本的相似度，确定视频在检索文本对应的检索结果中的排序。

本实施例中，根据特征相似度和概念置信度，计算视频与检索文本的总相似度，从而，总相似度体现了视频和检索文本在特征和概念两方面的相关情况，对于评价视频和检索文本的相似状况，能够提供更准确的参考信息。

在一种实施方式中，根据特征相似度和概念置信度，计算视频与检索文本的相似度，包括：

将特征相似度和概念置信度的加权和，作为视频与检索文本的相似度。

本实施例中，为特征相似度和概念置信度赋予不同的权重，将二者的加权和作为视频与检索文本的相似度，从而，在计算相似度时，给予特征相似度和概念置信度以适当的重视程度，能够获得更准确的相似度计算结果。

本申请实施例还提供一种模型训练方法，如图2所示，包括：

步骤S21：获取用于训练模型的正样本和负样本；正样本包括视频及视频的标注概念，负样本包括视频及任意一个与标注概念不同的其它概念；

步骤S22：将正样本和负样本输入待训练的视频概念感知模型，得到标注概念与视频的第一概念相关性以及其它概念与视频的第二概念相关性；

步骤S23：根据第一概念相关性和第二概念相关性，训练待训练的视频概念感知模型，得到视频概念感知模型。

本申请任意实施例提供的模型训练方法得到的视频概念感知模型，可以应用于本申请任意实施例提供的视频检索方法，对视频与概念的概念置信度进行计算。

本实施例中，第一概念相关性可以对应概念感知模型训练完成后输出的概念置信度。

与标注概念不同的其它概念，具体可是与标注概念相反或含义存在明显差别的概念。

本实施例中，利用正样本和负样本训练模型，使得模型在处理输入数据时，针对与标注概念相同的概念，输出较高的置信度；针对与标注概念不同的概念，输出较低的置信度。从而训练得到的视频概念感知模型，能够准确地输出表示视频与概念相关程度的概念置信度。

同时，通过本申请实施例的概念感知模块，能够针对检索文本的视频检索结果，判断检索工具对某个具体概念的检索能力较弱，可以针对性地对检索工具进行改善。比如，检索文本为“A舞蹈家扇子舞”，检索结果中排序靠前的视频为“A舞蹈家”其它舞蹈的视频，则可以确定，检索工具在执行检索操作时，对“扇子舞”这一概念识别程度较低，可以针对性地改善检索工具，使得检索工具能够检索出“A舞蹈家扇子舞”的视频。

在一种实施方式中，标注概念包括至少一个目标概念以及目标概念的上位概念。

本实施例中，标注概念包括目标概念以及目标概念的上位概念，从而，视频概念感知模型不仅能够针对与视频中的概念相同的概念，输出较高的置信度；也能够针对视频中概念的上位概念，输出较高的置信度。大程度提高了输出结果的准确性。

本申请一种示例中，如图3所示，视频检索方法包括对视频和检索文本两方面分析，计算过程如下：

首先，对检索文本进行概念知识的泛化。例如，将“保时捷”挂载到知识体系之中，并将“保时捷”的上位概念“汽车”融入到“保时捷”本身的表示之中，并通过文本编码器编码归一之后的文本，得到文本的表示Embedding_text；

然后，选择一个待分析的视频(Video)，进行视觉帧特征提取(Frame LevelFeature)，使用视频编码器得到视频的视觉表示Embedding_video；并进行文本特征提取(WordLevel Feature)，通过视频的视觉表示Embedding_video去预测检索文本中的概念，得到每个概念的概念置信度；

通过一个相似度衡量函数，计算Embedding_text和Embedding_video的特征相似性，得到了该条视频和检索文本的相似性关系。

通过视频概念感知模块和跨模态对齐这两个模块，对概念置信度和特征相似度进行加权和归一，得到了概念层面的视频的视觉和检索文本的相似性关系；

遍历视频库中的每一个视频，计算概念置信度和特征相似度的加权得分，直到计算出所有的视频和检索文本的相似度得分；

对所有视频的得分进行排序，得到了最后的基于相似度的排序。

本申请一种示例中，视频概念感知模型的训练方法包括图4所示的过程：

将训练数据输入待训练模型后，通过模型的Resnet(残差网络)层提取的视频帧特征和文本特征。在本示例中，将文本的One-hot(独热编码)表示。

采用下述公式计算损失值：

concept_prob＝MLP(x_{video_emb})；

all_loss＝

emb_sim_loss+BCE_LOSS(concept_prob,concept_in_text)；

其中，为Embedding_video，/>为Embedding_text。上标neg表示负样本。

其中BCE_LOSS的计算方式如下：

BCE_LOSS＝-[target*log(y)+(1-target)log(1-y)]，其中，y为概念的预测结果向量；target为标注结果的向量。

利用all_loss公式计算的损失值，对待训练的概念感知模型进行优化，得到概念感知模型。

本申请实施例可以应用于NLP、人工智能、大数据、计算机视觉、智能搜索、知识图谱和深度学习领域。

本申请实施例还以提供一种视频检索装置，如图5所示，包括：

文本特征模块51，用于从检索文本中提取文本特征；

视觉特征模块52，用于从待分析视频中提取视觉特征；

特征处理模块53，用于根据文本特征和视觉特征，得到检索文本和视频的特征相似度，以及视频与检索文本中包含的概念的概念置信度；

排序模块54，用于根据特征相似度和概念置信度，确定视频在检索文本对应的检索结果中的排序。

在一种实施方式中，如图6所示文本特征模块51包括：

概念单元61：用于获取检索文本中的概念的上位概念和/或近义概念和/或下位概念；

概念处理单元62，用于根据检索文本中的概念，以及上位概念和/或近义概念和/或下位概念，获得文本特征。

在一种实施方式中，如图7所示，特征处理模块53包括：

向量相似度单元71，用于计算文本特征的特征向量和视觉特征的特征向量的向量相似度；将向量相似度作为特征相似度。

在一种实施方式中，如图8所示，特征处理模块53还包括：

概念感知单元81，用于将视觉特征输入视频概念感知模型，得到概念词典中所有概念与视频的概念置信度；

概念置信度单元82，用于根据文本特征和概念词典中所有概念与视频的概念置信度，得到检索文本中包含的概念的概念置信度。

在一种实施方式中，如图9所示，排序模块54包括：

相似度单元91，用于根据特征相似度和概念置信度，计算视频与检索文本的相似度；

相似度处理单元92，用于根据视频与检索文本的相似度，确定视频在检索文本对应的检索结果中的排序。

在一种实施方式中，相似度单元还用于：

本申请实施例还提供一种模型训练装置，如图10所示，包括：

样本模块101，用于获取用于训练模型的正样本和负样本；正样本包括视频及视频的标注概念，负样本包括视频及任意一个与标注概念不同的其它概念；

概念模块102，用于将正样本和负样本输入待训练的视频概念感知模型，得到标注概念与视频的第一概念相关性以及其它概念与视频的第二概念相关性；

训练模块103，用于根据第一概念相关性和第二概念相关性，训练待训练的视频概念感知模型，得到视频概念感知模型。

在本申请一种示例中，视频检索装置包括知识归一模块、视觉和文本特征抽取模块、跨模态对齐模块、视频概念感知模块和相似性融合模块。其中，视觉和文本特征抽取模块包括如图11所示的视觉特征模型和12所示的文本特征模型。将视频帧和检索文本分别输入视觉特征模型和文本特征模型，分别获得视觉特征和文本特征的向量。

对于图11所示的视觉特征模型，将视频帧输入image CNN(图像卷积神经网络)，经过前向GRU(Gated Recurrent Unit，门控循环单元)111和反向GUR112，输入后续的卷积核，最后得出各视觉特征。

对于图12所示的文本特征模型，输入具体语句，然后经过编码单元(One-hotencoding，独热编码)进行编码，后续经过词向量镶嵌单元(Word embedding)进行词向量镶嵌处理，经过前向GRU(Gated Recurrent Unit，门控循环单元)121和反向GUR122，输入后续的卷积核，最后得出各视文本特征。

图11和图12所示的实施例中，k表示卷积核窗口大小，C₂、C₄、C₅表示卷积核大小，n、m表示卷积核数目。f_v ⁽¹⁾表示bow(词袋)计算，f_v ⁽²⁾表示GRU计算，f_v ⁽³⁾表示GRU-CNN计算。

知识归一模块将文本中的概念挂载到知识体系当中，通过概念模块将文本中所有的概念识别出来，例如“法拉利”“保时捷”等。知识归一模块还通过知识体系挂载工具，将所有的概念挂载到知识体系中，如图13所示。然后，知识归一模块将概念和上位拼接到一起，输入到文本编码器中。

跨模态对齐模块得到Embedding_text和Embedding_video的结果后，通过cos作为相似度的度量得到文本和视频的相似性，具体计算如下所示：

sim_emb＝cos(Embedding_text,Embedding_video)；

视频概念感知模块在得到Embedding_video的结果后，通过一个全链接层去预测视频中可能出现的概念，具体计算如下所示：

concept_prob＝MLP(Embedding_video)；

其中concept_prob是模型预测的视频中出现的概念的概率分布，进一步取出文本中相应概念的概率值之后得到了模型预测的与检索文本相关概念的概率大小concept_prob_text，这个概率值也一定程度代表了视频和文本的相似性。

为了解决样本均衡的问题，需要对其概率进一步的归一化，具体步骤如下：

首先，检索概念词典中所有的概念，并得到所有相关视频中该概念的预测值。然后针对每个概念的置信度的预测值列表，计算每个概念的预测值的均值mu和方差sigma。

然后，可以得到归一化的过程，以概念“保时捷”的概念为例：

concept_prob__norm保时捷＝(concept_prob_norm保时捷-mu_保时捷)/sigma保时捷

最终，以归一化之后的得分作为概念置信度。

通过视频概念感知模块和相似性融合模块的计算，系统得到了视频和文本在两个角度上的度量，最后通过一个融合因子a将这两个相似性融合到一起，得到最终的相似性结果final_sim：

final_sim＝(1-a)*sim_emb+a*concept_prob_norm。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图15所示，是根据本申请实施例的视频检索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图15所示，该电子设备包括：一个或多个处理器1501、存储器1502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图15中以一个处理器1501为例。

存储器1502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频检索方法。

存储器1502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频检索方法对应的程序指令/模块(例如，附图5所示的文本特征模块51、视觉特征模块52、特征处理模块53和排序模块54)。处理器1501通过运行存储在存储器1502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频检索方法。

存储器1502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频检索的电子设备的使用所创建的数据等。此外，存储器1502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1502可选包括相对于处理器1501远程设置的存储器，这些远程存储器可以通过网络连接至视频检索的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频检索方法的电子设备还可以包括：输入装置1503和输出装置1504。处理器1501、存储器1502、输入装置1503和输出装置1504可以通过总线或者其他方式连接，图15中以通过总线连接为例。

输入装置1503可接收输入的数字或字符信息，以及产生与视频检索的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

一般情况下，大多数视频检索系统往往依赖于成对的视频和与视频相关的文本描述，假如每个和保时捷相关视频中的描述都没有出现“汽车”的话，输入“汽车”将无法结果到“保时捷”相关的视频，这大大降低了整个视频检索系统的召回率，影响用户的体验。通过本申请实施例，能够将“保时捷”和“汽车”的概念绑定在一起，使得上下位概念和相似概念之间获得了彼此之间的关系，改善了上述的问题。

同时，本申请实施例有利于对视频检索系统进行改善。本申请实施例通过引入概念感知模型，引入了更细粒度的监督信号，从系统表现层面就已经获取了成功。

同时本申请实施例提供的概念感知模型输出的概念感知的结果，提供了一种可解释性的思路，当系统的检索结果出现错误时，概念感知模型的输出结果可以直观的告诉我们错误的原因，例如是视频中的物体没有识别出来还是动作没有识别出来等。如图14A所示，相似query(检索文本)和视频的匹配度很低，相似度sim＝0.21，但是因为仅仅有检索文本和视频的特征相似度信息很难去分析问题；在引入概念感知模块后，例如图14B，概念“人”相似度为0.87，概念“讲话”相似度为0.12，可以分析出是编码器并没有检测到讲话这个动作，之后便可以对视频检索系统做针对性的改进和迭代。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频检索方法，包括：

从检索文本中提取文本特征；

从待分析视频中提取视觉特征；

根据所述文本特征和所述视觉特征，得到所述检索文本和所述视频的特征相似度，以及所述视频与所述检索文本中包含的概念的概念置信度，所述检索文本中的概念为所述检索文本中具有特定含义的字或字的组合，所述概念置信度为所述视频与所述检索文本中包含的概念的相关程度；

根据所述特征相似度和所述概念置信度，确定所述视频在所述检索文本对应的检索结果中的排序；

所述从检索文本中提取文本特征，包括：

获取所述检索文本中的概念的上位概念和/或近义概念和/或下位概念，所述上位概念包括所述概念的类别词，所述近义概念为与所述概念指代同一种物体或者含义的概念，所述下位概念为包含在所述概念的类别中的概念；

根据所述检索文本中的概念，以及所述上位概念和/或近义概念和/或下位概念，获得所述文本特征；

根据所述文本特征和所述视觉特征，得到所述视频与所述检索文本中包含的概念的概念置信度，包括：

将所述视觉特征输入视频概念感知模型，得到概念词典中所有概念与所述视频的概念置信度；

根据所述文本特征和所述概念词典中所有概念与所述视频的概念置信度，得到所述视频与所述检索文本中包含的概念的概念置信度；

所述视频概念感知模型通过以下方式训练得到：

获取用于训练模型的正样本和负样本；所述正样本包括视频及视频的标注概念，所述负样本包括视频及任意一个与标注概念不同的其它概念；

将所述正样本和负样本输入待训练的视频概念感知模型，得到所述标注概念与该视频的第一概念相关性以及所述其它概念与该视频的第二概念相关性；

根据所述第一概念相关性和所述第二概念相关性，训练所述待训练的视频概念感知模型，得到视频概念感知模型。

2.根据权利要求1所述的方法，其中，所述根据所述文本特征和所述视觉特征，得到所述检索文本和所述视频的特征相似度，包括：

计算所述文本特征的特征向量和所述视觉特征的特征向量的向量相似度；

将所述向量相似度作为所述特征相似度。

3.根据权利要求1或2所述的方法，其中，所述根据所述特征相似度和所述概念置信度，确定所述视频在所述检索文本对应的检索结果中的排序，包括：

根据所述特征相似度和所述概念置信度，计算所述视频与所述检索文本的相似度；

根据所述视频与所述检索文本的相似度，确定所述视频在所述检索文本对应的检索结果中的排序。

4.根据权利要求3所述的方法，其中，所述根据所述特征相似度和所述概念置信度，计算所述视频与所述检索文本的相似度，包括：

将所述特征相似度和所述概念置信度的加权和，作为所述视频与所述检索文本的相似度。

5.根据权利要求1所述的方法，其中，所述标注概念包括至少一个目标概念以及所述目标概念的上位概念。

6.一种视频检索装置，包括：

文本特征模块，用于从检索文本中提取文本特征；

视觉特征模块，用于从待分析视频中提取视觉特征；

特征处理模块，用于根据所述文本特征和所述视觉特征，得到所述检索文本和所述视频的特征相似度，以及所述视频与所述检索文本中包含的概念的概念置信度，所述检索文本中的概念为所述检索文本中具有特定含义的字或字的组合，所述概念置信度为所述视频与所述检索文本中包含的概念的相关程度；

排序模块，用于根据所述特征相似度和所述概念置信度，确定所述视频在所述检索文本对应的检索结果中的排序；

所述文本特征模块包括：

概念单元：用于获取所述检索文本中的概念的上位概念和/或近义概念和/或下位概念，所述上位概念包括所述概念的类别词，所述近义概念为与所述概念指代同一种物体或者含义的概念，所述下位概念为包含在所述概念的类别中的概念；

概念处理单元，用于根据所述检索文本中的概念，以及所述上位概念和/或近义概念和/或下位概念，获得所述文本特征；

所述特征处理模块还包括：

概念感知单元，用于将所述视觉特征输入视频概念感知模型，得到概念词典中所有概念与所述视频的概念置信度；

概念置信度单元，用于根据所述文本特征和所述概念词典中所有概念与所述视频的概念置信度，得到所述视频与所述检索文本中包含的概念的概念置信度；

所述装置还包括：

样本模块，用于获取用于训练模型的正样本和负样本；所述正样本包括视频及视频的标注概念，所述负样本包括视频及任意一个与标注概念不同的其它概念；

概念模块，用于将所述正样本和负样本输入待训练的视频概念感知模型，得到所述标注概念与该视频的第一概念相关性以及所述其它概念与该视频的第二概念相关性；

训练模块，用于根据所述第一概念相关性和所述第二概念相关性，训练所述待训练的视频概念感知模型，得到视频概念感知模型。

7.根据权利要求6所述的装置，其中，所述特征处理模块包括：

向量相似度单元，用于计算所述文本特征的特征向量和所述视觉特征的特征向量的向量相似度；将所述向量相似度作为所述特征相似度。

8.根据权利要求6或7所述的装置，其中，所述排序模块包括：

相似度单元，用于根据所述特征相似度和所述概念置信度，计算所述视频与所述检索文本的相似度；

相似度处理单元，用于根据所述视频与所述检索文本的相似度，确定所述视频在所述检索文本对应的检索结果中的排序。

9.根据权利要求8所述的装置，其中，所述相似度单元还用于：

10.根据权利要求6所述的装置，其中，所述标注概念包括至少一个目标概念以及所述目标概念的上位概念。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。