CN106294344B - 视频检索方法和装置 - Google Patents
视频检索方法和装置 Download PDFInfo
- Publication number
- CN106294344B CN106294344B CN201510241286.7A CN201510241286A CN106294344B CN 106294344 B CN106294344 B CN 106294344B CN 201510241286 A CN201510241286 A CN 201510241286A CN 106294344 B CN106294344 B CN 106294344B
- Authority
- CN
- China
- Prior art keywords
- semantic
- semantic concept
- video
- concept
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种视频检索方法和装置,其中视频检索方法包括:根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念;至少根据所述语义概念群序列检索视频。本申请提供的技术方案可更好满足视频复杂查询的实际应用需求。
Description
技术领域
本申请涉及视频检索技术领域,特别是涉及一种视频检索方法和装置。
背景技术
随着计算机和网络技术的快速发展,互联网上以视频为代表的多媒体数据量急剧增加,越来越多的人通过在搜索引擎上输入视频查询信息来检索所需的视频。然而,要实现快速、准确的视频检索极具挑战。
基于视频的语义概念检测的检索方法是视频检索常用的方法之一,该方法通常借助机器学习手段实现视频底层特征到简单语义概念之间的映射,比如采集某个语义概念的正、负样例,提取底层视觉特征,训练一个二分类的分类模型,用作简单语义概念检测器,基于该简单语义概念检测器的视频概念检测结果并利用检测到的简单语义概念对视频内容进行索引,然后将给定的视频查询信息映射到一组简单语义概念,即“视频查询信息—简单语义概念”映射,之后再对这些简单语义概念的检测结果进行组合以返回查询结果,从而实现基于语义概念的视频检索。进一步的,也可采用上述方法将查询映射到的多个简单语义概念组合成一个语义概念群,基于语义概念群对应的语义概念群分类检测模型进行视频检索。
发明内容
在下文中给出了关于本申请的简要概述,以便提供关于本申请的某些方面的基本理解。应当理解,这个概述并不是关于本申请的穷举性概述。它并不是意图确定本申请的关键或重要部分,也不是意图限定本申请的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本申请提供一种视频检索方法和装置。
一方面,本申请实施例提供了一种视频检索方法,包括:
根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念;
至少根据所述语义概念群序列检索视频。
结合本申请实施例提供的任一种视频检索方法,可选的,根据所述视频查询信息确定所述至少二个简单语义概念中不同简单语义概念之间的时序信息,包括:对所述视频查询信息包括的不同分句分别进行词性统计分析;根据词性统计分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。
结合本申请实施例提供的任一种视频检索方法,可选的,至少根据所述语义概念群序列检索视频,包括:至少根据所述语义概念群序列确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,以得到检索结果。
结合本申请实施例提供的任一种视频检索方法,可选的,至少根据所述语义概念群序列确定视频库包括的任一视频分别与所述视频查询信息的语义相似性和时序相似性,包括:根据所述视频库中的任一视频包括的关键帧序列中各关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、所述任一视频包括的多个关键帧之间的时序信息、以及所述语义概念群序列,确定所述任一视频与所述视频查询信息的语义相似性和时序相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,确定所述任一视频与所述视频查询信息的语义相似性和时序相似性之前,还包括:确定所述任一视频的至少二个相邻的关键帧为一关键帧序列。
结合本申请实施例提供的任一种视频检索方法,可选的,至少根据所述语义概念群序列确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,包括:至少根据所述语义概念群序列采用启发式法在所述视频库包括的多个视频中确定第一训练样例集;根据所述第一训练样例集构建与所述视频查询信息对应的第一隐马尔科夫模型;确定所述视频库包括的多个视频各自对应的第二隐马尔科夫模型分别与所述第一隐马尔科夫模型之间的概率分布距离,以得到所述视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,所述概率分布距离包括:KL散度。
结合本申请实施例提供的任一种视频检索方法,可选的,确定所述视频库包括的任一视频对应的第二隐马尔科夫模型与所述第一隐马尔科夫模型之间的概率分布距离之前,还包括:根据所述视频库中的任一视频包括的多个关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、以及所述任一视频包括的多个关键帧之间的时序信息,确定所述任一视频对应的第二隐马尔科夫模型。
结合本申请实施例提供的任一种视频检索方法,可选的,至少根据所述语义概念群序列检索视频之前,还包括:确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,至少根据所述语义概念群序列检索视频之前,还包括:确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,所述确定视频库包括的多个视频分别与语义概念群集包括的任一语义概念群的语义相似性,包括:采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一语义概念群的语义相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测之前,还包括:从至少一种数据源的多个视频包括的各关键帧各自分别与简单语义概念集包括的多个简单语义概念的语义相似性,确定已标注的多个第二训练样例;从所述视频库包括的多个视频中确定未标注的多个第二训练样例;根据各所述第二训练样例分别确定所述任一语义概念群的语义概念群分类检测模型。
结合本申请实施例提供的任一种视频检索方法,可选的,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之后,还包括:根据所述任一视频包括的多个相邻的关键帧各自与所述任一语义概念群的语义相似性,对所述多个相邻的关键帧进行关联处理。
结合本申请实施例提供的任一种视频检索方法,可选的,确定视频库包括的多个视频分别与简单语义概念集包括的任一简单语义概念的语义相似性,包括:采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一简单语义概念的语义相似性。
结合本申请实施例提供的任一种视频检索方法,可选的,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之前,还包括:从至少一种数据源获取所述任一简单语义概念的多个第三训练样例;对所述多个第三训练样例的至少部分进行标注;根据至少部分完成标注的所述多个第三训练样例确定所述任一简单语义概念对应的简单语义概念分类检测模型。
结合本申请实施例提供的任一种视频检索方法,可选的,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之后,还包括:根据所述任一视频包括的多个相邻的关键帧各自与所述任一简单语义概念的语义相似性,对所述多个相邻的关键帧进行关联处理。
另一方面,本申请实施例还提供了一种视频检索装置,包括:
一语义概念群序列确定模块,用于根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念;
一视频检索模块,用于至少根据所述语义概念群序列检索视频。
结合本申请实施例提供的另一种视频检索装置,可选的,所述简单语义信息确定子模块包括:一词性统计分析单元,用于对所述视频查询信息包括的不同分句分别进行词性统计分析;一第二时序信息确定单元,用于根据词性统计分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。
结合本申请实施例提供的另一种视频检索装置,可选的,所述视频检索模块包括:一视频检索子模块,用于至少根据所述语义概念群序列确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,以得到检索结果。
结合本申请实施例提供的另一种视频检索装置,可选的,所述视频检索子模块包括:一第一视频检索单元,用于根据所述视频库中的任一视频包括的关键帧序列中各关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、所述任一视频包括的多个关键帧之间的时序信息、以及所述语义概念群序列,确定所述任一视频与所述视频查询信息的语义相似性和时序相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述视频检索子模块还包括:一关键帧序列确定单元,用于在所述第一视频检索单元确定所述任一视频与所述视频查询信息的语义相似性和时序相似性之前,确定所述任一视频的至少二个相邻的关键帧为一关键帧序列。
结合本申请实施例提供的另一种视频检索装置,可选的,所述视频检索子模块包括:一第一训练样例集确定单元,用于至少根据所述语义概念群序列采用启发式法在所述视频库包括的多个视频中确定第一训练样例集;一第一隐马尔科夫模型构建单元,用于根据所述第一训练样例集构建与所述视频查询信息对应的第一隐马尔科夫模型;一概率分布距离确定单元,用于确定所述视频库包括的多个视频各自对应的第二隐马尔科夫模型分别与所述第一隐马尔科夫模型之间的概率分布距离,以得到所述视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述概率分布距离包括:KL散度。
结合本申请实施例提供的另一种视频检索装置,可选的,所述视频检索子模块还包括:一第二隐马尔科夫模型确定单元,用于在所述概率分布距离确定单元确定所述视频库包括的任一视频对应的第二隐马尔科夫模型与所述第一隐马尔科夫模型之间的概率分布距离之前,根据所述视频库中的任一视频包括的多个关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、以及所述任一视频包括的多个关键帧之间的时序信息,确定所述任一视频对应的第二隐马尔科夫模型。
结合本申请实施例提供的另一种视频检索装置,可选的,所述装置还包括:一语义概念群集信息确定模块,用于确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述装置还包括:一简单语义概念集信息确定模块,用于确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述语义概念群集信息确定模块包括:一语义概念群集信息确定子模块,用于在确定视频库包括的多个视频分别与语义概念群集包括的任一语义概念群的语义相似性期间,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一语义概念群的语义相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述语义概念群集信息确定模块还包括:一第二训练样例确定子模块,用于从至少一种数据源的多个视频包括的各关键帧各自分别与简单语义概念集包括的多个简单语义概念的语义相似性,确定已标注的多个第二训练样例;以及从所述视频库包括的多个视频中确定未标注的多个第二训练样例;一第一检测模型确定子模块,用于根据各所述第二训练样例分别确定所述任一语义概念群的语义概念群分类检测模型。
结合本申请实施例提供的另一种视频检索装置,可选的,所述语义概念群集信息确定模块还包括:一第一关键帧关联处理子模块,用于根据所述任一视频包括的多个相邻的关键帧各自与所述任一语义概念群的语义相似性,对所述多个相邻的关键帧进行关联处理。
结合本申请实施例提供的另一种视频检索装置,可选的,所述简单语义概念集信息确定模块包括:一简单语义概念集信息确定子模块,用于在确定视频库包括的多个视频分别与简单语义概念集包括的任一简单语义概念的语义相似性期间,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一简单语义概念的语义相似性。
结合本申请实施例提供的另一种视频检索装置,可选的,所述简单语义概念集信息确定子模块包括:一第三训练样例获取单元,用于从至少一种数据源获取所述任一简单语义概念的多个第三训练样例;一第三训练样例标注单元,用于对所述多个第三训练样例的至少部分进行标注;一第二检测模型确定单元,用于根据至少部分完成标注的所述多个第三训练样例确定所述任一简单语义概念对应的简单语义概念分类检测模型。
结合本申请实施例提供的另一种视频检索装置,可选的,所述简单语义概念集信息确定模块还包括:一第二关键帧关联处理子模块,用于根据所述任一视频包括的多个相邻的关键帧各自与所述任一简单语义概念的语义相似性,对所述多个相邻的关键帧进行关联处理。
本申请实施例提供的技术方案根据所述视频查询信息确定所述语义概念群序列,至少根据所述语义概念群序列检索视频,由此基于检索得到反映视频与所述视频查询信息包括语义和时序在内的整体相关程度的检索结果。也就是说,本申请实施例提供的技术方案将视频查询信息表示的多种语义以及多种语义之间的时序信息共同作为视频检索的依据,时序信息在一定程度上体现了检索对象的场景变换等信息,使得得到的检索结果体现了视频与所述视频查询信息之间包括语义和时序在内的整体相关程度,有利于提高检索结果的准确性,更好满足视频复杂查询的实际应用需求。
通过以下结合附图对本申请的可选实施例的详细说明,本申请的这些以及其它的优点将更加明显。
附图说明
本申请可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本申请的可选实施例和解释本申请的原理和优点。在附图中:
图1为本申请实施例提供的一种视频检索方法的流程图;
图2为本申请实施例提供的第一种视频检索装置的逻辑框图;
图3为本申请实施例提供的一种语义概念群序列确定模块的逻辑框图;
图4为本申请实施例提供的一种视频检索模块的逻辑框图;
图5为本申请实施例提供的第二种视频检索装置的逻辑框图;
图6为本申请实施例提供的第三种视频检索装置的逻辑框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本申请实施例的理解。
具体实施方式
在下文中将结合附图对本申请的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本申请,在附图和说明中仅仅描述了与根据本申请的方案密切相关的装置结构和/或处理步骤,而省略了对与本申请关系不大的、本领域普通技术人员已知的部件和处理的表示和描述。
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本申请的具体实施方式作进一步详细说明。以下实施例用于说明本申请,但不用来限制本申请的范围。
本领域技术人员可以理解,本申请中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
图1为本申请实施例提供的一种视频检索方法的流程图。本申请实施例提供的视频检索方法的执行主体为某一视频检索装置,该视频检索装置的设备表现形式不受限制,例如所述视频检索装置可为某一独立的设备;或者,所述视频检索装置可作为某一功能模块集成在某一电子设备中,所述电子设备可包括但不限于智能终端、搜索引擎设备、服务器等等,本申请实施例对此并不限制。具体而言,如图1所示,本申请实施例提供的一种视频检索方法包括:
S101:根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念。
S102:至少根据所述语义概念群序列检索视频。
本申请实施例提供的技术方案可能用到的术语中:
(1)简单语义概念集包括多个简单语义概念,简单语义概念集中的每个简单语义概念相当于一传统的基本语义概念,例如,词网(WordNet)可作为简单语义概念集的可选表现形式,该词网包括的各单词可相当于各简单语义概念;简单语义概念集中的各简单语义概念分别存在各自对应的简单语义概念分类检测模型,基于各简单语义概念分类检测模型可对视频进行检测,以确定各简单语义概念分别与该视频(如视频的各关键帧)的语义相似性。
(2)语义概念群集包括多个语义概念群,语义概念群集中每个语义概念群包括至少二个简单语义概念,也就是说,二个或二个以上的简单语义概念组合对应的语义相当于语义概念群集中的某个语义概念群对应的语义;语义概念群集中的各语义概念群分别存在各自对应的语义概念群分类检测模型,基于各语义概念群分类检测模型可对视频进行检测,以确定各语义概念群分别与该视频(如视频的各关键帧)的语义相似性。
(3)所述语义概念群序列根据视频查询信息确定,确定的所述语义概念序列包括:至少二个语义概念群以及所述至少二个语义概念群中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念,也就是说,所述语义概念序列中的语义概念群存在包括一个简单语义概念的情形以及包括至少二个简单语义概念的情形,相当于可将所述语义概念群序列中的每个语义概念群和简单语义概念集中的简单语义概念或者语义概念群集中的语义概念群建立关联,并体现了所述至少二个语义概念群中不同语义概念群之间的时序信息。
(4)视频是视频查询信息的对象,在本申请中“视频”的含义应作广义理解,是镜头、场景和短视频等的统称,也就是说,视频涉及到的时间跨度可大可小,包括的镜头或场景的数量也不受限制,一视频中可能局部和视频查询信息相同,也可能整体和视频查询信息相关等等。在实际应用中,可采用但不限于镜头、场景之一或相结合等方案,对视频的整体或局部进行处理,例如:对于较短的视频,不进行分割;对于较长的视频,进行镜头检测,之后再进行聚类得到场景;对于视频再次进行子镜头分割的情形,可从每个子镜头中抽取关键帧。每个视频可用至少一关键帧或至少一关键帧序列表示。
本申请发明人在实践本申请实施例的过程中发现,基于语义进行视频检索,通常是将各个简单语义概念单独进行考虑进行语义相似性检索。对于较长的视频查询信息,可从中提取出多个简单语义概念,并将该多个简单语义概念作为一个语义概念群进行视频检索。上述方法在视频查询信息较不复杂的情形下可获得较好的检索结果,但如果视频查询信息较复杂,例如视频查询信息包括场景变化等情形,如“一个男人走出车,走进银行”等复杂的视频查询信息,如果独立考虑各简单语义概念或语义概念群,检索结果欠佳。
为了支持复杂查询,本申请实施例提供的技术方案根据所述视频查询信息确定所述语义概念群序列,至少根据所述语义概念群序列检索视频,由此基于检索得到反映视频与所述视频查询信息之间包括语义和时序在内的整体相关程度。也就是说,本申请实施例提供的技术方案将视频查询信息表示的多种语义以及多种语义之间的时序信息共同作为视频检索的依据,时序信息在一定程度上体现了检索对象的场景变换等信息,使得得到的检索结果体现了视频与所述视频查询信息之间包括语义和时序在内的整体相关程度,有利于提高检索结果的准确性,更好满足视频复杂查询的实际应用需求。
所述视频查询信息可为用户在线输入的某一查询式,或者,预先设置的某一查询信息等。通过对所述视频查询信息的关键词、词性、语法、分句等至少之一的分析,可确定与所述视频查询信息对应的语义概念群序列,所述语义概念群序列的具体确定方法非常灵活,本申请实施例对此并不限制。
可选的,所述语义概念群序列的确定方法包括:根据所述视频查询信息确定至少二个简单语义概念及其中不同简单语义概念之间的时序信息;确定所述至少二个语义概念群,其中,所述至少二个语义概念群中同一语义概念群包括的简单语义概念对应的时序信息相同、不同语义概念群中包括的简单语义概念对应的时序信息不同;根据所述至少二个语义概念群及其中不同语义概念群之间的时序信息确定所述语义概念群序列。该方案相当于从所述视频查询信息中确定简单语义概念及其相应的时序信息,并根据时序信息对确定的简单语义概念群进行组合为语义概念群,这样就可得到所述至少二个语义概念群及其中不同语义概念群对应的时序信息,也即得到所述语义概念群序列,采用该语义概念群序列进行视频检索,有利于建立所述视频查询信息的高层语义和视频内容的底层信息之间的关联,使得检索结果可反映视频和所述视频查询信息的包括语义和时序在内的整体相关程度,由此提高检索结果的准确性。
可选的,根据所述视频查询信息确定所述至少二个简单语义概念,包括:提取所述视频查询信息的至少二个关键词;至少根据所述至少二个关键词,分别确定所述视频查询信息与简单语义概念集包括的多个简单语义概念的语义相似性;确定所述简单语义概念集中语义相似性满足预定条件的所述至少二个简单语义概念。该方案可有效提取所述视频查询信息中的语义概念。可根据实际检索的需要将所述视频查询信息中的实词和/或虚词作为关键词,所述实词可包括但不限于名词、动词、形容词、代词、数量词等,所述虚词可包括但不限于介词、连词等。由于实词具有实在的意义,将视频查询信息中的实词提取出来作为关键词,可更好表示所述视频查询信息的语义。在提取所述视频查询信息的所述至少二个关键词之后,可采用但不限于现有的集成语义本体的匹配方法,将视频查询信息Q中抽取的每个关键词与简单语义概念集Ω中的各简单语义概念分别关联到词网(WordNet),分别计算视频查询信息Q中抽取的每个关键词与简单语义概念集Ω中的各简单语义概念之间的距离(如WordNet distance或者Google distance),根据距离确定视频查询信息Q分别与简单语义概念集Ω中的各简单语义概念的语义相似性;之后可根据预定条件在简单语义概念集Ω确定至少二个简单语义概念,所述预定条件可根据实际需要灵活确定,如所述预定条件可包括但不限于语义相似性的阈值ζ,将语义相似性大于该阈值的简单语义概念抽取出来以作为语义概念群确定的基础,以视频查询信息为“一名男子走出车,走进银行”为例,可提取“男子”、“车”、“银行”三个关键词,根据该三个关键词确定简单语义概念集中与视频查询信息的语义相似性较大的m个简单语义概念<C1,C2,…,Cm>,其中,所述关键词和简单语义概念可能相同也可能是存在关联的相应关系,可以理解,二者可以是一一对应的,但并非要求必须是一一对应的。
实际应用中,如果所述视频查询信息包括明显的时序信息,该情形提取时序信息较为简单;如果所述视频查询信息未包括明显的时序信息,则需要通过对所述视频查询信息本身进行词、词性、语法等分析,以得到所述视频查询信息隐含的时序信息。
可选的,根据所述视频查询信息确定所述至少二个简单语义概念中不同简单语义概念之间的时序信息,包括:分析所述视频查询信息包括的连词;根据所述连词的分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。连词是用来连接词与词、词组与词组或句子与句子、表示并列、承接等某种逻辑关系的虚词。如果所述视频查询信息中包括有连词,可对连词表示的逻辑关系进行分析,以确定该连词表示如并列、承接等逻辑关系,这样结合所述至少二个简单语义概念各自对应的关键词在所述视频查询信息中的语序,即可确定所述至少二个简单语义概念中不同简单语义概念的时序信息,以视频查询信息为“一名男子走出车然后走进银行”为例,可确定出的简单概念包括“男子”、“车”、“银行”,基于连词“然后”进行时序信息的分析,可将对应相同时序信息的简单语义概念聚合为同一语义概念群、将对应不同时序信息的简单语义概念聚合为不同语义概念群,得到的一语义概念序列可表示为“<男子,车>,<银行>”。该方案简单易实现,分析结果的准确性高。
可选的,根据所述视频查询信息确定所述至少二个简单语义概念中不同简单语义概念之间的时序信息,包括:对所述视频查询信息包括的不同分句分别进行词性统计分析;根据词性统计分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。例如,可从视频查询信息包括的每一分句提取词性直方图等特征,利用统计学习等方法建立一分类器,判断所述视频查询信息不同分句之间是否存在时序关系,如果存在,则根据时序关系将确定出的所述至少二个简单语义概念中,对应相同时序信息的简单语义概念聚合为同一语义概念群、将对应不同时序信息的简单语义概念聚合为不同语义概念群,进而得到所述语义概念序列。该方案可有效提取视频查询信息中隐含的时序信息。
获取到与所述视频查询信息对应的语义概念群序列之后,可至少根据所述语义概念群序列检索视频,例如,可至少根据所述语义概念群序列确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,以得到检索结果。视频库包括多个视频。每个视频与视频查询信息的语义相似性,主要是从语义概念群自身匹配的角度,确定视频的关键帧对应的语义概念与视频查询信息的相关程度;每个视频与视频查询信息的时序相关性,主要是从不同语义概念群之间的时序匹配的角度,确定视频的关键帧序列中不同关键帧分别对应的语义概念之间时序关系与视频查询信息的相关程度。例如,以视频查询信息为“一名男子走出车,走进银行”为例:可是从视频的关键帧对应的语义概念与语义概念群“<男子,车>”或“<银行>”匹配的角度,反映视频与视频查询信息的语义相关性;可从视频的关键帧序列中不同关键帧分别对应与语义概念出现的顺序与语义概念群序列中不同语义概念群的时序“<男子,车>,<银行>”匹配的角度,反映视频与视频查询信息的时序相关性。可见,该方案在对视频库进行视频检索期间,是将视频查询信息表示的多种语义以及多种语义之间的时序信息共同作为视频检索的依据,使得得到的检索结果不仅体现了视频与所述视频查询信息的语义相似性,还体现了视频与所述视频查询信息的时序相似性,也即体现了视频与视频查询信息之间包括语义和时序在内的整体相关程度,有利于提高检索结果的准确性,更好满足视频复杂查询的实际应用需求。
本申请实施例提供的技术方案从语义和时序二种维度确定检索结果,其具体检索的实现手段非常灵活。
可选的,可根据所述视频库中的任一视频包括的关键帧序列中各关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、所述任一视频包括的多个关键帧之间的时序信息、以及所述语义概念群序列,确定所述任一视频与所述视频查询信息的语义相似性和时序相似性。视频库中每个视频可表示为至少一个关键帧或者至少一个关键帧序列,每个视频的关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性可预先获取,每个视频不同关键帧之间的时序信息已知,结合上述信息可确定每个视频分别与所述语义概念群序列包括的至少二个语义概念群及其中不同语义概念群之间的时序信息的相关性,进而得到每个视频与所述视频查询信息的语义相似性和时序相似性。例如采用统计学习的方法,将视频包括的关键帧序列中各关键帧分别对应的简单语义概念或语义概念群,分别与所述语义概念群序列包括的至少二个语义概念群进行比较,并且根据不同关键帧之间的时序信息确定视频中相应关键帧各自对应的简单语义概念或语义概念群之间的时序信息,将该时序信息与所述语义概念群序列包括的所述至少二个语义概念群中不同语义概念群之间的时序信息进行比较,根据各种比较结果的统计值或加权统计值,得到每个视频与所述视频查询信息的语义相似性和时序相似性。该方案将视频库中的视频与简单语义概念集中的简单语义概念和/或语义概念群中的语义概念群的语义相似性,作为视频检索的中间特征,并结合时序信息进行检索,使得视频不同关键帧对应的简单语义概念或语义概念群之间建立关联,由此缩小视频的底层特征和视频查询信息的高层语义之间的语义鸿沟,提高视频检索结果的准确性。
进一步可选的,视频检索期间,可确定所述任一视频的至少二个相邻的关键帧为一关键帧序列,该方案相当于采用滑动窗口的统计学习方式,如基于滑动窗口在视频中确定一关键帧序列,基于该关键帧序列与所述语义概念群序列进行相应比较,比较完成之后,可将滑动窗口后移以确定另一关键帧序列,然后再基于该关键帧序列与所述语义概念群序列进行相应比较,综合各次比较结果可得每个视频与所述视频查询信息的语义相似性和时序相似性。其中,相邻两次确定关键帧序列各自包括的关键帧可完全不同或者也可部分相同。采用该方案有利于在视频库的各视频中确定长度相似或相同的关键帧序列作为相似性检索对象,统一比较标准,进而有利于提高检索结果的准确性。
可选的,也可基于建模的方式确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,以提高检测结果的准确性,建模方法如可包括S201-S203。
S201:至少根据所述语义概念群序列采用启发式法在所述视频库包括的多个视频中确定第一训练样例集。
可根据预先获取的各视频的简单语义概念集中多个简单语义概念的语义相似性和/或语义概念群集中多个语义概念群的语义相似性,采用启发式法收集所述语义概念群序列对应的第一训练样例集,所述第一样例集包括多个正样例和多个负样例,所述第一训练样例集中,正样例是指语义相似性和时序相似性都很高的视频,负样例是指语义相似性和时序相似性中至少之一较低的视频。
以语义概念群序列“<男子,车>,<银行>”为例,采用启发式法进行样例收集,其中正样例的收集例如:若某视频中前面部分关键帧中“{男子,车}”检测置信度很高(如高于某一阈值或排序前几位)、且该视频中后面部分关键帧中“{银行}”检测置信度也很高,则可将该视频作为正样例。反之,若某视频中前面部分关键帧中“{男子,车}”检测置信度不高(如低于某一阈值或排序靠后等),和/或,该视频中后面部分关键帧中“{银行}”检测置信度不高,则可将该视频作为负样例。
S202:根据所述第一训练样例集构建与所述视频查询信息对应的第一隐马尔科夫模型。
将所述第一训练样例集包括的各样例分别通过一关键帧序列表示,可选的,每个关键帧序列中的每个关键帧对应一个语义概念群(如“{男子,车}”)或对应一个简单语义概念(如“{银行}”)。
隐马尔可夫模型(Hidden Markov Model,简称HMM)是基于马尔可夫链的一种统计模型,常用来对序列数据建模。本申请实施例可将所述第一训练样例集包括的各样例各自对应的关键帧序列分别采用隐马尔科夫模型H表示,每个隐马尔科夫模型可采用“两个状态集三个概率矩阵”的五元组表示,所述五元组包括:隐含状态集、可观测状态集、初始概率矩阵、隐含状态之间转移概率矩阵、混淆矩阵(Confusion Matrix,也可称为观测状态转移概率矩阵);可选的,语义概念(如简单语义概念和/或语义概念群)对应隐含状态集中的隐含状态,语义概念对应的视频底层特征对应可观测状态集的可观测状态,初始概率矩阵可根据需要赋值(如平均或随机赋值),不同语义概念之间的转移概率可通过隐含状态之间转移概率矩阵反映。这样,就可采用但不限于现有Baum-welch算法来训练所述第一训练样例集包括的各样例各自对应的隐马尔科夫模型,由此得到与所述视频查询信息对应的隐马尔科夫模型(不妨称为第一隐马尔科夫模型)。
S203:确定所述视频库包括的多个视频各自对应的第二隐马尔科夫模型分别与所述第一隐马尔科夫模型之间的概率分布距离,以得到所述视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性。
所述视频库中的视频包括的关键帧序列可分别通过隐马尔科夫模型表达,视频对应的隐马尔科夫模型不妨称为第二隐马尔科夫模型。通过比较视频库中多个视频各自对应的第二隐马尔科夫模型分别与所述视频查询信息对应的第一隐马尔科夫模型之间的概率分布距离,可得到所述视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,也就是说,所述概率分布距离的大小一定程度上反映了各视频的底层特征和所述视频查询信息的高层语义之间的语义相似性和时序相似性。
所述概率分布距离可包括但不限于KL散度(Kullback–Leibler Divergence,简称KLD),采用KL散度可便于进行二个隐马尔科夫模型的相似性度量,具体可根据下式确定二个隐马尔科夫模型之间的KL散度,例如可采用下式确定的上界作为第一隐马尔科夫模型和第二隐马尔科夫模型之间的距离:
式(1)中,Hu表示与所述视频查询信息对应的第一隐马尔科夫模型,Hv表示与某一视频的关键帧序列对应的第二隐马尔科夫模型,KLD(Hu,Hv)表示从该第一隐马尔科夫模型到该第二隐马尔科夫模型之间的KL散度,S表示隐状态总数;第i个隐状态由一个包含K个高斯分量的混合高斯模型进行表示{πi1,πi2,…,πiK;μi1,μi2,…,μiK;Σi1,Σi2,…,ΣiK},其中,πie表示第i个隐状态对应的高斯混合模型中的第e个高斯分量的系数,表示第i个隐状态对应的高斯混合模型u中的第e个高斯分量的均值向量,表示表示第i个隐状态对应的高斯混合模型v中的第e个高斯分量的均值向量,Σie表示表示第i个隐状态对应的高斯混合模型中的第e个高斯分量的协方差矩阵。
进一步的,可对所述第一训练样例集包括各样例,如各正样例和各负样例进行标号,结合正负样例的标号信息对上述式(1)进行改进,改进的KLD确定公式如下:
式(2)中,A可根据实际需要设置为单位矩阵;或者,A可基于语义近邻保持准则而进行优化学习得到的包含所述第一训练样例集中正负样例的标号信息的转换矩阵,如可使用机器学习领域现有的梯度下降方法来对A进行优化求解,以实现正负样例的最大间隔区分。该方案结合所述第一训练样例的正负样例的标号信息确定KL散度,增加了区分型,使得对于每个视频(视频片段)根据公式(2)确定的KL散度所找到的近邻与该视频片段的相关性标号一致(即同为相关或不相关)。该过程可使得视频片断与查询相关、不相关的判断不易被混淆,从而获得更高的检索精度。
采用KL散度作为所述概率分布距离实现方式简单。此外,还可采用其他距离,如KL散度平均值或加权值作为所述概率分布距离,换而言之,二个隐马尔科夫模型之间的KL散度确定具有不对称性,即从A隐马尔可夫模型到B隐马尔科夫模型之间的KL散度,和从B隐马尔可夫模型到A隐马尔科夫模型之间的KL散度可能不同,可将二个KL散度分别计算出来并求取平均值或加权值等,将平均值或加权值所述概率分布距离,以度量二个隐马尔科夫模型之间的语义相关性和时序相关性,进而有利于提高检索结果的准确性。
本申请实施例提供的技术方案中,视频库中各视频对应的第二隐马尔科夫模型可在离线阶段预先获取,也可以在在线阶段获取,实现方式非常灵活,本申请实施例对此并不限制。可选的,确定所述视频库包括的任一视频对应的第二隐马尔科夫模型与所述第一隐马尔科夫模型之间的概率分布距离之前,还包括:根据所述视频库中的任一视频包括的多个关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、以及所述任一视频包括的多个关键帧之间的时序信息,确定所述任一视频对应的第二隐马尔科夫模型。所述任一视频对应的第二隐马尔科夫模型可采用“两个状态集三个概率矩阵”的五元组表示,所述五元组包括:隐含状态集、可观测状态集、初始概率矩阵、隐含状态之间转移概率矩阵、混淆矩阵;可选的,语义概念(如简单语义概念和/或语义概念群)对应隐含状态集中的隐含状态,语义概念对应的视频底层特征对应可观测状态集的可观测状态,初始概率矩阵可根据需要赋值(如平均或随机赋值),不同语义概念之间的转移概率可通过隐含状态之间转移概率矩阵反映。该方案可将视频库中任一视频的各关键帧与语义概念(如简单语义概念和/或语义概念群)的语义相关性作为中间特征、并结合该视频不同关键帧之间的时序信息,对该视频的关键帧序列进行隐马尔科夫模型的表示,方法简单易实现,视频表示为隐马尔科夫模型(第二隐马尔科夫模型)之后便于与所述复杂查询信息对应的第一隐马尔科夫模型进行概率分布距离的度量。
采用本申请实施例提供的任一技术方案得到的作为检索对象的各视频分别与所述视频查询信息之间的语义相关性和时序相关性,即为检索结果。得到所述检索结果之后,可输出检索结果,其中,检索结果的输出方式可根据实际需要确定,本申请实施例对此并不限制,例如,可将各视频分别与所述视频查询信息之间的语义相关性和时序相关性直接进行输出,或者,可将各视频分别与所述视频查询信息之间的语义相关性和时序相关性进行排序后全部或部分输出,或者,可根据各视频分别与所述视频查询信息之间的语义相关性和时序相关性用某一参数值表示,根据参数值的大小进行直接输出或排序输出,等等,实现方式非常灵活。
此外,本申请实施例提供的技术方案中,所述简单语义概念集、所述语义概念群集、以及所述简单语义概念集包括的多个简单语义概念和/或所述语义概念群集包括的多个语义概念群与视频的关键帧之间的语义相关性,可预先获取,如可采用已有上述相应信息的视频库数据,或者,可在基于所述视频查询信息进行相应的视频检索之前确定,本申请实施例对此并不限制。
可选的,至少根据所述语义概念群序列检索视频之前,还包括:确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性。该方案在基于所述视频查询信息进行相应的视频检索之前确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性,因此,可将该语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
其中,所述确定视频库包括的多个视频分别与语义概念群集包括的任一语义概念群的语义相似性,可包括:采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一语义概念群的语义相似性。该方案得到的语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
语义概念群集中的各语义概念群分别存在各自对应的语义概念群分类检测模型,基于各语义概念群分类检测模型可对视频进行检测,以确定各语义概念群分别与该视频(如视频的各关键帧)的语义相似性。语义概念群集中的任一语义概念群对应的语义概念检测模型可采用现有的相应语义概念群对应的分类器等语义概念检测模型,也可根据实际需要构建更高性能的语义概念检测模型以提高检测结果的准确性。
例如,可结合语义概念群包括的多个简单语义概念分别对应的简单语义概念分类检测模型构建该语义概念群对应的语义概念检测模型。可选的,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测之前,还包括:从至少一种数据源的多个视频包括的各关键帧各自分别与简单语义概念集包括的多个简单语义概念的语义相似性,确定已标注的多个第二训练样例;从所述视频库包括的多个视频中确定未标注的多个第二训练样例;根据各所述第二训练样例分别确定所述任一语义概念群的语义概念群分类检测模型。
对所述语义概念群集中任一语义概念群的所述第二训练样例集包括多个正样例和多个负样例,所述第二训练样例集中,正样例为包括与该语义概念群中的各简单语义概念对应(如语义相似性较高)的关键帧的视频,所述负样例为至少未包括与该语义概念群中的至少一简单语义概念对应的关键帧的视频。所述第二训练样例集中正负样例的数据源可为一种或多种,所述数据源可包括但不限于互联网和/或待检索的视频库,从至少一种数据源的多个视频包括的各关键帧各自分别与简单语义概念集包括的多个简单语义概念的语义相似性,确定多个已标注的多个第二训练样例;再从所述视频库包括的多个视频中确定未标注的多个第二训练样例;未标注的第二训练样例的数量远大于已标注的第二训练样例的数量,即对少量的第二训练样例进行精确标注,未标注和已标注的各第二训练样例即为所述第二训练样例集,根据所述第二训练样例集的各第二训练样例分别确定该语义概念群的语义概念群分类检测模型。该方案可丰富样例获取的数据源,并可将少量精确标注的样例和未标注的样例结合作为语义概念群分类检测模型的训练样例集,有利于采用较少的处理量获取性能较高的检测器。
可选的,可采用下式确定任一语义概念群对应的语义概念群分类检测模型;
式(3)中:f1,f2,…,ft表示某语义概念群包括的t个简单语义概念各自对应的简单语义概念分类检测模型;g表示该语义概念群对应的语义概念群分类检测模型;权值向量β=(β1,β2,…,βt),这t个权值向量可用来自动调节各个语义概念检测器在语义概念群检测中的作用大小;η1、η2、η3和η4为四个非负权重参数,且D(g,fq)表示语义概念群分类检测模型g与该语义概念群包括的第q个简单语义概念的模型fq之间的偏差;L(g,ZL,yb)表示语义概念群分类检测模型g在已标注的第二训练样例数据(ZL,yb)的损失项;R3(g,ZL,ZU)表示语义概念群分类检测模型g在已标注的第二训练样例数据(ZL,yb)和未标注的第二训练样例数据ZU上的正则化;R4(β)表示对权值向量的正则化;R5(g)表示对整个模型复杂度的正则化。
采用式(3)所建立的语义概念群分类检测模型表征了语义概念群所包括的多个简单语义概念的公有信息,更能符合语义概念群的语义特点。
进一步的,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之后,还可包括:根据所述任一视频包括的多个相邻的关键帧各自与所述任一语义概念群的语义相似性,对所述多个相邻的关键帧进行关联处理。视频库中的各视频的长短不尽相同,有的视频的时间跨度较大,视频中在某一时段内可能存在多个相邻的关键帧分别与某一语义概念群具有较高的语义相似性,为此,可将与相同语义概念群分别具有较高语义相关性高的多个关键帧进行关联,这样,基于该视频与该语义概念群的语义相似性进行所述语义概念群序列检索的中间特征时,可将关联的多个关键帧作为整体进行比较,以提高检索的速度。
可选的,至少根据所述语义概念群序列检索视频之前,还包括:确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性。该方案在基于所述视频查询信息进行相应的视频检索之前确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性,因此,可将该语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
其中,确定视频库包括的多个视频分别与简单语义概念集包括的任一简单语义概念的语义相似性,可包括:采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一简单语义概念的语义相似性。该方案得到的语义相似性可作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
简单语义概念集中的各简单语义概念分别存在各自对应的简单语义概念分类检测模型,基于各简单语义概念分类检测模型可对视频进行检测,以确定各简单语义概念分别与该视频(如视频的各关键帧)的语义相似性。简单语义概念集中的任一简单语义概念对应的简单语义概念分类检测模型可采用现有公共的相应简单语义概念对应的检测器(如Columbia374、Vireo374等),也可根据实际需要构建更高性能的简单语义概念分类检测模型以提高检测结果的准确性。
例如,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之前,还可包括:从至少一种数据源获取所述任一简单语义概念的多个第三训练样例;对所述多个第三训练样例的至少部分进行标注;根据至少部分完成标注的所述多个第三训练样例确定所述任一简单语义概念对应的简单语义概念分类检测模型。
对所述简单语义概念集中任一简单语义概念的所述第三训练样例集包括多个正样例和多个负样例,所述第三训练样例集中,正样例为包括与该简单语义概念对应(如语义相似性较高)的关键帧的视频,所述负样例为未包括与该简单语义概念对应的关键帧的视频。所述第三训练样例集中正负样例的数据源可为一种或多种,多种数据源主要指通过图像检索以及视频检索等多种渠道获得简单语义概念的训练样例,在对训练样例进行视频底层特征提取时,可采用单不限于多模态的特征进行视频内容的描述,所述多模态的特征可包括但不限于以下至少之一或任意组合:从视频的关键帧所提取的颜色直方图、边缘直方图、小波纹理特征、视觉词袋等特征;从视频的镜头中抽取的移动向量特征;对视频的音频片段中抽取的Mel倒谱系数进行高斯混合模型建模后得到的超向量特征。获取训练样例之后,可对所述第三训练样例集包括的各样例少量进行精确标注,之后再基于所述第三训练样例集训练该简单语义概念对应的简单语义概念分类检测模型。
例如,对于简单语义概念,可由人工标注一部分高精度样例(XL,y),其中1≤r≤N,N表示所述一部分高精度样例的个数;表示所述一部分高精度样例的标号,yr等于1时表示样例是正样例,yr等于-1时表示样例是负样例。之后,可采用下式所示的正则化统计学习方法对简单语义概念对应的最终简单语义概念检测模型f进行学习:
式(3)中:权值向量w=(w1,w2,…,wn),λ和μ表示两个权重参数,可在试验中根据数据的大体情况进行预先设置;L(f,XL,y)表示模型f在高精度样例(XL,y)上的损失项;R1(w)表示权值向量的正则化;R2(f0)表示对待学习的新模型f0复杂度的正则化。
基于公式(3)学习得到f0和w后,即可下式得到简单语义概念对应的最终的简单语义概念检测模型:
式(4)中,ws为模型fs的权值,f表示简单语义概念对应的最终的简单语义概念检测模型,该模型可表示为所述已有的n-k个简单语义概念C的检测模型、所学习的k种不同数据来源的概念检测模型的加权和以及一项待学习的新模型f0的组合。
该方案可丰富样例获取的数据源,并可将少量精确标注的样例和未标注的样例结合作为简单语义分类检测模型的训练样例集,有利于采用较少的处理量获取性能较高的检测器。
进一步的,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的任一视频的多个关键帧进行检测之后,还可包括:根据所述任一视频包括的多个相邻的关键帧各自与所述任一简单语义概念的语义相似性,对所述多个相邻的关键帧进行关联处理。视频库中的各视频的长短不尽相同,有的视频的时间跨度较大,视频中在某一时段内可能存在多个相邻的关键帧分别与某一简单语义概念具有较高的语义相似性,为此,可将与相同简单语义概念分别具有较高语义相关性高的多个关键帧进行关联,这样,基于该视频与该简单语义概念的语义相似性进行语义概念群建模和/或语义概念群序列检索的中间特征时,可将关联的多个关键帧作为整体进行比较,以提高检索的速度。
本领域技术人员可以理解,在本申请具体实施方式的上述任一方法中,各步骤的序号大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请具体实施方式的实施过程构成任何限定。此外,即便在某一步骤的序号内描述获取的多个信息,并不意味着这些信息是同步获取的,应以其功能和内在逻辑确定,而不应对本申请具体实施方式的实施过程构成任何限定。
图2为本申请实施例提供的一种视频检索装置的逻辑框图。如图2所示,本申请实施例提供的视频检索装置包括:一语义概念群序列确定模块21和一视频检索模块22。
语义概念群序列确定模块21用于根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念。
视频检索模块22用于至少根据所述语义概念群序列检索视频。
本申请实施例提供的技术方案根据所述视频查询信息确定所述语义概念群序列,至少根据所述语义概念群序列检索视频,由此基于检索得到反映视频与所述视频查询信息的语义相似性和时序相似性的检索结果。也就是说,本申请实施例提供的技术方案将视频查询信息表示的多种语义以及多种语义之间的时序信息共同作为视频检索的依据,时序信息在一定程度上体现了检索对象的场景变换等信息,使得得到的检索结果体现了视频与所述视频查询信息之间包括语义和时序在内的整体相关程度,有利于提高检索结果的准确性,更好满足视频复杂查询的实际应用需求。
所述视频检索装置的设备表现形式不受限制,例如所述视频检索装置可为某一独立的设备;或者,所述视频检索装置可作为某一功能模块集成在某一电子设备中,所述电子设备可包括但不限于智能终端、搜索引擎设备、服务器等等,本申请实施例对此并不限制。
可选的,如图3所示,所述语义概念群序列确定模块21包括:一简单语义信息确定子模块211、一语义概念群确定子模块212和一语义概念群序列确定子模块213。简单语义信息确定子模块211用于根据所述视频查询信息确定至少二个简单语义概念及其中不同简单语义概念之间的时序信息;语义概念群确定子模块212用于确定所述至少二个语义概念群,其中,所述至少二个语义概念群中同一语义概念群包括的简单语义概念对应的时序信息相同、不同语义概念群中包括的简单语义概念对应的时序信息不同;语义概念群序列确定子模块213用于根据所述至少二个语义概念群及其中不同语义概念群之间的时序信息确定所述语义概念群序列。该方案相当于从所述视频查询信息中确定简单语义概念及其相应的时序信息,并根据时序信息对确定的简单语义概念群进行组合为语义概念群,这样就可得到所述至少二个语义概念群及其中不同语义概念群对应的时序信息,也即得到所述语义概念群序列,采用该语义概念群序列进行视频检索,有利于建立所述视频查询信息的高层语义和视频内容的底层信息之间的关联,使得检索结果可反映视频和所述视频查询信息之间包括语义和时序之间的整体的相关程度,由此提高检索结果的准确性。
可选的,所述简单语义信息确定子模块211包括:一关键词提取单元2111、一简单语义相似性确定单元2112和一简单语义概念确定单元2113。关键词提取单元2111用于提取所述视频查询信息的至少二个关键词;简单语义相似性确定单元2112用于至少根据所述至少二个关键词,分别确定所述视频查询信息与简单语义概念集包括的多个简单语义概念的语义相似性;简单语义概念确定单元2113用于确定所述简单语义概念集中语义相似性满足预定条件的所述至少二个简单语义概念。该方案可有效提取所述视频查询信息中的语义概念。可选的,所述关键词包括实词,由于实词具有实在的意义,将视频查询信息中的实词提取出来作为关键词,可更好表示所述视频查询信息的语义。
可选的,所述简单语义信息确定子模块211包括:一连词分析单元2114和一第一时序信息确定单元2115。连词分析单元2114用于分析所述视频查询信息包括的连词;第一时序信息确定单元2115用于根据所述连词的分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。该方案简单易实现,分析结果的准确性高。
可选的,所述简单语义信息确定子模块211包括:一词性统计分析单元2116和一第二时序信息确定单元2117。词性统计分析单元2116用于对所述视频查询信息包括的不同分句分别进行词性统计分析;第二时序信息确定单元2117用于根据词性统计分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。该方案可有效提取视频查询信息中隐含的时序信息。
可选的,如图4所示,所述视频检索模块22包括:一视频检索子模块221。视频检索子模块221用于至少根据所述语义概念群序列确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,以得到检索结果。该方案在对视频库进行视频检索期间,是将视频查询信息表示的多种语义以及多种语义之间的时序信息共同作为视频检索的依据,使得得到的检索结果不仅体现了视频与所述视频查询信息的语义相似性,还体现了视频与所述视频查询信息的时序相似性,即体现了视频和视频查询信息之间包括语义和时序在内的整体相关程度,有利于提高检索结果的准确性,更好满足视频复杂查询的实际应用需求。
可选的,所述视频检索子模块221包括:一第一视频检索单元2211。第一视频检索单元2211用于根据所述视频库中的任一视频包括的关键帧序列中各关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、所述任一视频包括的多个关键帧之间的时序信息、以及所述语义概念群序列,确定所述任一视频与所述视频查询信息的语义相似性和时序相似性。该方案将视频库中的视频与简单语义概念集中的简单语义概念和/或语义概念群中的语义概念群的语义相似性,作为视频检索的中间特征,并结合时序信息进行检索,使得视频不同关键帧对应的简单语义概念或语义概念群之间建立关联,由此缩小视频的底层特征和视频查询信息的高层语义之间的语义鸿沟,提高视频检索结果的准确性。
可选的,所述视频检索子模块221还包括:一关键帧序列确定单元2212。关键帧序列确定单元2212用于在所述第一视频检索单元确定所述任一视频与所述视频查询信息的语义相似性和时序相似性之前,确定所述任一视频的至少二个相邻的关键帧为一关键帧序列。采用该方案有利于在视频库的各视频中确定长度相似或相同的关键帧序列作为相似性检索对象,统一比较标准,进而有利于提高检索结果的准确性。
可选的,所述视频检索子模块221包括:一第一训练样例集确定单元2213、一第一隐马尔科夫模型构建单元2214和一概率分布距离确定单元2215。第一训练样例集确定单元2213用于至少根据所述语义概念群序列采用启发式法在所述视频库包括的多个视频中确定第一训练样例集;第一隐马尔科夫模型构建单元2214用于根据所述第一训练样例集构建与所述视频查询信息对应的第一隐马尔科夫模型;概率分布距离确定单元2215用于确定所述视频库包括的多个视频各自对应的第二隐马尔科夫模型分别与所述第一隐马尔科夫模型之间的概率分布距离,以得到所述视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性。该方案基于隐马尔科夫模型建模的方式确定视频库包括的多个视频分别与所述视频查询信息的语义相似性和时序相似性,有利于提高检测结果的准确性。可选的,所述概率分布距离包括:KL散度,以便于进行二个隐马尔科夫模型的相似性度量。
可选的,所述视频检索子模块221还包括:一第二隐马尔科夫模型确定单元2216。第二隐马尔科夫模型确定单元2216用于在所述概率分布距离确定单元确定所述视频库包括的任一视频对应的第二隐马尔科夫模型与所述第一隐马尔科夫模型之间的概率分布距离之前,根据所述视频库中的任一视频包括的多个关键帧与语义概念群集包括的多个语义概念群和/或简单语义概念集包括的多个简单语义概念的语义相似性、以及所述任一视频包括的多个关键帧之间的时序信息,确定所述任一视频对应的第二隐马尔科夫模型。该方案简单易实现,视频表示为隐马尔科夫模型(第二隐马尔科夫模型)之后便于与所述复杂查询信息对应的第一隐马尔科夫模型进行概率分布距离的度量。
本申请实施例提供的技术方案中,所述简单语义概念集、所述语义概念群集、以及所述简单语义概念集包括的多个简单语义概念和/或所述语义概念群集包括的多个语义概念群与视频的关键帧之间的语义相关性,可预先获取,如可采用已有上述相应信息的视频库数据,或者,可在基于所述视频查询信息进行相应的视频检索之前确定,本申请实施例对此并不限制。
可选的,如图5所示,所述视频检索装置还包括:一语义概念群集信息确定模块23。语义概念群集信息确定模块23用于确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性。该方案在基于所述视频查询信息进行相应的视频检索之前确定视频库包括的多个视频分别与语义概念群集包括的多个语义概念群的语义相似性,因此,可将该语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
可选的,所述语义概念群集信息确定模块23包括:一语义概念群集信息确定子模块231。语义概念群集信息确定子模块231用于在确定视频库包括的多个视频分别与语义概念群集包括的任一语义概念群的语义相似性期间,采用与所述语义概念群集包括的任一语义概念群对应的语义概念群分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一语义概念群的语义相似性。该方案得到的语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
可选的,所述语义概念群集信息确定模块23还包括:一第二训练样例确定子模块232和一第一检测模型确定子模块233。第二训练样例确定子模块232用于从至少一种数据源的多个视频包括的各关键帧各自分别与简单语义概念集包括的多个简单语义概念的语义相似性,确定已标注的多个第二训练样例;以及从所述视频库包括的多个视频中确定未标注的多个第二训练样例;第一检测模型确定子模块233用于根据各所述第二训练样例分别确定所述任一语义概念群的语义概念群分类检测模型。该方案可丰富样例获取的数据源,并可将少量精确标注的样例和未标注的样例结合作为语义概念群分类检测模型的训练样例集,有利于采用较少的处理量获取性能较高的检测器。
可选的,所述语义概念群集信息确定模块23还包括:一第一关键帧关联处理子模块234。第一关键帧关联处理子模块234用于根据所述任一视频包括的多个相邻的关键帧各自与所述任一语义概念群的语义相似性,对所述多个相邻的关键帧进行关联处理。基于该视频与该语义概念群的语义相似性进行所述语义概念群序列检索的中间特征时,可将关联的多个关键帧作为整体进行比较,以提高检索的速度。
可选的,所述视频检索装置还包括:一简单语义概念集信息确定模块24。简单语义概念集信息确定模块24用于确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性。该方案在基于所述视频查询信息进行相应的视频检索之前确定视频库包括的多个视频分别与简单语义概念集包括的多个简单语义概念的语义相似性,因此,可将该语义相似性作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
可选的,所述简单语义概念集信息确定模块24包括:一简单语义概念集信息确定子模块241。简单语义概念集信息确定子模块241用于在确定视频库包括的多个视频分别与简单语义概念集包括的任一简单语义概念的语义相似性期间,采用与所述简单语义概念集包括的任一简单语义概念对应的简单语义概念分类检测模型,分别对所述视频库包括的多个视频各自的多个关键帧进行检测,以得到所述多个视频各自的多个关键帧分别与所述任一简单语义概念的语义相似性。该方案得到的语义相似性可作为后续根据所述语义概念群序列检索视频的中间特征,由此提高视频在线检索的速度。
可选的,所述简单语义概念集信息确定子模块24包括:一第三训练样例获取单元242、一第三训练样例标注单元243和一第二检测模型确定单元244。第三训练样例获取单元242用于从至少一种数据源获取所述任一简单语义概念的多个第三训练样例;第三训练样例标注单元243用于对所述多个第三训练样例的至少部分进行标注;第二检测模型确定单元244用于根据至少部分完成标注的所述多个第三训练样例确定所述任一简单语义概念对应的简单语义概念分类检测模型。该方案可丰富样例获取的数据源,并可将少量精确标注的样例和未标注的样例结合作为简单语义分类检测模型的训练样例集,有利于采用较少的处理量获取性能较高的检测器。
可选的,所述简单语义概念集信息确定模块24还包括:一第二关键帧关联处理子模块245。第二关键帧关联处理子模块245用于根据所述任一视频包括的多个相邻的关键帧各自与所述任一简单语义概念的语义相似性,对所述多个相邻的关键帧进行关联处理。基于该视频与该简单语义概念的语义相似性进行语义概念群建模和/或语义概念群序列检索的中间特征时,可将关联的多个关键帧作为整体进行比较,以提高检索的速度。
图6为本申请实施例提供的第三种视频检索装置的结构示意图,本申请具体实施例并不对视频检索装置600的具体实现方式做限定。如图6所示,视频检索装置600可以包括:
处理器(Processor)610、通信接口(Communications Interface)620、存储器(Memory)630、以及通信总线640。其中:
处理器610、通信接口620、以及存储器630通过通信总线640完成相互间的通信。
通信接口620,用于与比如终端、第三方设备、信息源等通信。
处理器610,用于执行程序632,具体可以执行上述任一视频检索方法实施例中的相关步骤。
例如,程序632可以包括程序代码,所述程序代码包括计算机操作指令。
处理器610可能是一个中央处理器(Central Processing Unit,简称CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器630,用于存放程序632。存储器630可能包含随机存取存储器(RandomAccess Memory,简称RAM),也可能还包括非易失性存储器(Non-volatile memory),例如至少一个磁盘存储器。
例如,在一种可选的实现方式中,处理器610通过执行程序632可执行以下步骤:根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念;至少根据所述语义概念群序列检索视频。在其他可选的实现方式中,处理器610通过执行程序632还可执行上述其他任一实施例提及的步骤,在此不再赘述。
程序632中各步骤的具体实现可以参见上述实施例中的相应步骤、模块、子模块、单元中对应的描述,在此不再赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在本申请上述各实施例中,实施例的序号和/或先后顺序仅仅便于描述,不代表实施例的优劣。对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的装置、方法、系统等实施例中,显然,各部件(系统、子系统、模块、子模块、单元、子单元等)或各步骤是可以分解、组合和/或分解后重新组合的。这些分解和/或重新组合应视为本申请的等效方案。同时,在上面对本申请具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
最后应说明的是:以上实施方式仅用于说明本申请,而并非对本申请的限制,有关技术领域的普通技术人员,在不脱离本申请的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请的范畴,本申请的专利保护范围应由权利要求限定。
Claims (10)
1.一种视频检索方法,其特征在于,包括:
根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念,所述简单语义概念为基本语义概念;
至少根据所述语义概念群序列检索视频。
2.根据权利要求1所述的方法,其特征在于,所述根据视频查询信息确定语义概念群序列,包括:
根据所述视频查询信息确定至少二个简单语义概念及其中不同简单语义概念之间的时序信息;
确定所述至少二个语义概念群,其中,所述至少二个语义概念群中同一语义概念群包括的简单语义概念对应的时序信息相同、不同语义概念群中包括的简单语义概念对应的时序信息不同;
根据所述至少二个语义概念群及其中不同语义概念群之间的时序信息确定所述语义概念群序列。
3.根据权利要求2所述的方法,其特征在于,根据所述视频查询信息确定所述至少二个简单语义概念,包括:
提取所述视频查询信息的至少二个关键词;
至少根据所述至少二个关键词,分别确定所述视频查询信息与简单语义概念集包括的多个简单语义概念的语义相似性;
确定所述简单语义概念集中语义相似性满足预定条件的所述至少二个简单语义概念。
4.根据权利要求3所述的方法,其特征在于,所述关键词包括实词。
5.根据权利要求2-4任一所述的方法,其特征在于,根据所述视频查询信息确定所述至少二个简单语义概念中不同简单语义概念之间的时序信息,包括:
分析所述视频查询信息包括的连词;
根据所述连词的分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。
6.一种视频检索装置,其特征在于,包括:
一语义概念群序列确定模块,用于根据视频查询信息确定语义概念群序列,所述语义概念群序列包括:至少二个语义概念群及其中不同语义概念群之间的时序信息,所述至少二个语义概念群中每个语义概念群包括至少一个简单语义概念,所述简单语义概念为基本语义概念;
一视频检索模块,用于至少根据所述语义概念群序列检索视频。
7.根据权利要求6所述的装置,其特征在于,所述语义概念群序列确定模块包括:
一简单语义信息确定子模块,用于根据所述视频查询信息确定至少二个简单语义概念及其中不同简单语义概念之间的时序信息;
一语义概念群确定子模块,用于确定所述至少二个语义概念群,其中,所述至少二个语义概念群中同一语义概念群包括的简单语义概念对应的时序信息相同、不同语义概念群中包括的简单语义概念对应的时序信息不同;
一语义概念群序列确定子模块,用于根据所述至少二个语义概念群及其中不同语义概念群之间的时序信息确定所述语义概念群序列。
8.根据权利要求7所述的装置,其特征在于,所述简单语义信息确定子模块包括:
一关键词提取单元,用于提取所述视频查询信息的至少二个关键词;
一简单语义相似性确定单元,用于至少根据所述至少二个关键词,分别确定所述视频查询信息与简单语义概念集包括的多个简单语义概念的语义相似性;
一简单语义概念确定单元,用于确定所述简单语义概念集中语义相似性满足预定条件的所述至少二个简单语义概念。
9.根据权利要求8所述的装置,其特征在于,所述关键词包括实词。
10.根据权利要求7-9任一所述的装置,其特征在于,所述简单语义信息确定子模块包括:
一连词分析单元,用于分析所述视频查询信息包括的连词;
一第一时序信息确定单元,用于根据所述连词的分析结果确定所述至少二个简单语义概念中不同简单语义概念的时序信息。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510241286.7A CN106294344B (zh) | 2015-05-13 | 2015-05-13 | 视频检索方法和装置 |
US15/570,964 US10713298B2 (en) | 2015-05-13 | 2016-05-10 | Video retrieval methods and apparatuses |
PCT/CN2016/081486 WO2016180308A1 (en) | 2015-05-13 | 2016-05-10 | Video retrieval methods and apparatuses |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510241286.7A CN106294344B (zh) | 2015-05-13 | 2015-05-13 | 视频检索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294344A CN106294344A (zh) | 2017-01-04 |
CN106294344B true CN106294344B (zh) | 2019-06-18 |
Family
ID=57248806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510241286.7A Active CN106294344B (zh) | 2015-05-13 | 2015-05-13 | 视频检索方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10713298B2 (zh) |
CN (1) | CN106294344B (zh) |
WO (1) | WO2016180308A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10051344B2 (en) * | 2016-09-27 | 2018-08-14 | Clarifai, Inc. | Prediction model training via live stream concept association |
CN109902699B (zh) * | 2017-12-08 | 2023-07-11 | 北京邮电大学 | 一种信息处理方法、装置和计算机存储介质 |
CN108460122B (zh) * | 2018-02-23 | 2021-09-07 | 武汉斗鱼网络科技有限公司 | 基于深度学习的视频搜索方法、存储介质、设备及系统 |
US20200151837A1 (en) * | 2018-11-08 | 2020-05-14 | Sony Interactive Entertainment LLC | Method for performing legal clearance review of digital content |
CN110245567B (zh) * | 2019-05-16 | 2023-04-07 | 达闼机器人股份有限公司 | 避障方法、装置、存储介质及电子设备 |
US11595434B2 (en) * | 2019-05-30 | 2023-02-28 | Morgan State University | Method and system for intrusion detection |
CN110503076B (zh) * | 2019-08-29 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频分类方法、装置、设备和介质 |
US11302361B2 (en) | 2019-12-23 | 2022-04-12 | Samsung Electronics Co., Ltd. | Apparatus for video searching using multi-modal criteria and method thereof |
JP7416091B2 (ja) * | 2020-01-13 | 2024-01-17 | 日本電気株式会社 | 映像検索システム、映像検索方法、及びコンピュータプログラム |
CN111460808B (zh) * | 2020-03-23 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 同义文本识别及内容推荐方法、装置及电子设备 |
JPWO2022070340A1 (zh) * | 2020-09-30 | 2022-04-07 | ||
CN112487239B (zh) * | 2020-11-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 视频检索方法、模型训练方法、装置、设备及存储介质 |
CN112651324A (zh) * | 2020-12-22 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 视频帧语义信息的提取方法、装置及计算机设备 |
US20220207066A1 (en) * | 2020-12-29 | 2022-06-30 | Jio Platforms Limited | System and method for self-generated entity-specific bot |
CN114697761B (zh) * | 2022-04-07 | 2024-02-13 | 脸萌有限公司 | 一种处理方法、装置、终端设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281520A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 基于非监督学习和语义匹配特征交互式体育视频检索方法 |
CN102902821A (zh) * | 2012-11-01 | 2013-01-30 | 北京邮电大学 | 基于网络热点话题的图像高级语义标注、检索方法及装置 |
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146349B2 (en) * | 2000-11-06 | 2006-12-05 | International Business Machines Corporation | Network for describing multimedia information |
GB0406512D0 (en) | 2004-03-23 | 2004-04-28 | British Telecomm | Method and system for semantically segmenting scenes of a video sequence |
US8572088B2 (en) | 2005-10-21 | 2013-10-29 | Microsoft Corporation | Automated rich presentation of a semantic topic |
US9020263B2 (en) * | 2008-02-15 | 2015-04-28 | Tivo Inc. | Systems and methods for semantically classifying and extracting shots in video |
WO2009117830A1 (en) | 2008-03-27 | 2009-10-01 | Hotgrinds Canada | System and method for query expansion using tooltips |
US20100125575A1 (en) * | 2008-11-17 | 2010-05-20 | Yahoo! Inc. | Searching document collections using semantic roles of keywords |
US8218859B2 (en) * | 2008-12-05 | 2012-07-10 | Microsoft Corporation | Transductive multi-label learning for video concept detection |
US9183466B2 (en) * | 2013-06-15 | 2015-11-10 | Purdue Research Foundation | Correlating videos and sentences |
CN103488781B (zh) | 2013-09-30 | 2017-06-23 | 北京奇虎科技有限公司 | 提供信息搜索的方法、搜索引擎服务器 |
US10282672B1 (en) * | 2014-06-26 | 2019-05-07 | Amazon Technologies, Inc. | Visual content analysis system with semantic framework |
-
2015
- 2015-05-13 CN CN201510241286.7A patent/CN106294344B/zh active Active
-
2016
- 2016-05-10 WO PCT/CN2016/081486 patent/WO2016180308A1/en active Application Filing
- 2016-05-10 US US15/570,964 patent/US10713298B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281520A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 基于非监督学习和语义匹配特征交互式体育视频检索方法 |
CN102902821A (zh) * | 2012-11-01 | 2013-01-30 | 北京邮电大学 | 基于网络热点话题的图像高级语义标注、检索方法及装置 |
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
Non-Patent Citations (1)
Title |
---|
基于本体概念群组划分的语义距离计算方法;彭志平等;《模式识别与人工智能》;20110415;第24卷(第2期);第194-200页 |
Also Published As
Publication number | Publication date |
---|---|
US20180293246A1 (en) | 2018-10-11 |
US10713298B2 (en) | 2020-07-14 |
WO2016180308A1 (en) | 2016-11-17 |
CN106294344A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294344B (zh) | 视频检索方法和装置 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
Fang et al. | From captions to visual concepts and back | |
KR102513089B1 (ko) | 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 | |
CN107085585B (zh) | 用于图像搜索的准确的标签相关性预测 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113806482B (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN107168992A (zh) | 基于人工智能的文章分类方法及装置、设备与可读介质 | |
CN111344697A (zh) | 用于机器视觉模型的基于复杂度的渐进式训练 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN105701514A (zh) | 一种用于零样本分类的多模态典型相关分析的方法 | |
CN108090216A (zh) | 一种标签预测方法、装置及存储介质 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN112329460A (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
WO2023000725A1 (zh) | 电力计量的命名实体识别方法、装置和计算机设备 | |
CN110147841A (zh) | 基于弱监督及无监督部件检测和分割的细粒度分类方法 | |
CN105718940A (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN109684477A (zh) | 一种专利文本特征提取方法及系统 | |
CN113158777B (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN110347825A (zh) | 一种短英文影评分类方法及装置 | |
CN114529552A (zh) | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN117011539A (zh) | 目标检测方法、目标检测模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |