CN104396262A

CN104396262A - 同步电影概要

Info

Publication number: CN104396262A
Application number: CN201380033497.0A
Authority: CN
Inventors: 利昂内尔·瓦瑟; 杰奎因·扎佩达; 路易斯·舍瓦利耶; 帕特里克·佩雷斯; 皮埃尔·赫利尔
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2012-06-25
Filing date: 2013-06-18
Publication date: 2015-03-04
Also published as: WO2014001137A1; US20150179228A1; JP2015525411A; EP2865186A1; KR20150023492A

Abstract

本发明涉及一种用于提供(104)视听对象的概要的方法。该方法包括以下步骤：从该视听对象捕获(101)信息；识别(102)该视听对象；确定(103)所捕获的信息相对于该视听对象的时间索引；以及提供(104)所识别的视听对象的一部分的概要，这一部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

Description

同步电影概要

技术领域

本发明涉及一种用于提供视听对象的概要的方法。

背景技术

可能发生以下情况：观众错过正在重放的视听对象的开始。面对该问题，观众想要知道错过的内容。美国专利申请11/568，122通过以下方式来解决此问题：使用将节目映射到新段空间的概要功能并根据内容部分是内容流的开始部分、中间部分还是结尾部分来提供针对节目的内容流的一部分的自动概要。

本发明的一个目的是向终端用户提供更好地适应(tailored to)终端用户实际错过的内容的概要。

发明内容

为了这个目的，本发明提出了一种用于提供视听对象的概要的方法，所述方法包括以下步骤：

(i)从所述视听对象捕获信息，所述信息允许识别所述视听对象并允许确定相对于所述视听对象的时间索引；

(ii)识别所述视听对象；

(iii)确定所捕获的信息相对于所述视听对象的所述时间索引；以及

(iv)提供所识别的视听对象的一部分的概要，所述部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

所述时间索引的确定使得能够准确地评估视听对象中用户已经错过的部分，并生成和提供适应错过部分的概要。因此，向用户提供了概要，所述概要包含与用户错过的内容有关的并且以所确定的时间索引为界的信息。例如，在所提供的概要中不公开视听对象的剧透。

本发明还涉及一种方法，其中：

数据库被提供，所述数据库包括所识别的视听对象的编有时间索引的图像的数据；

所捕获的信息是所述视听对象在所述捕获时的图像的数据；以及

所述时间索引是在所述视听对象在所述捕获时的图像的数据与所述数据库中的所识别的视听对象的编有时间索引的图像的数据之间进行相似性匹配时确定的。

优选地，所述视听对象的图像的数据的属性和所识别的视听对象的编有时间索引的图像的数据的属性是签名属性。

使用签名的优点具体地包括数据变得比原始数据更轻(lighter)，因此允许更快的识别和更快的匹配。

备选地，本发明涉及一种方法，其中：

数据库被提供，所述数据库包括所识别的视听对象的编有时间索引的音频信号的数据；

所捕获的信息是所述视听对象在所述捕获时的音频信号的数据；以及

所述时间索引是在所述视听对象在所述捕获时的音频信号的数据与所述数据库中的所识别的视听对象的编有时间索引的音频信号的数据之间进行相似性匹配时确定的。

优选地，所述视听对象的音频信号的数据的属性和所识别的视听对象的编有时间索引的音频信号的数据的属性是签名属性。

有利地，所述捕获步骤是由移动设备执行的。

有利地，所述识别步骤、所述确定步骤和所述提供步骤是在专用服务器上执行的。

以此方式，在捕获侧需要更少的处理功率，并且加速了提供概要的过程。

为了更好地理解，现在将参考附图在以下描述中更详细地解释本发明。应当理解的是，本发明不限于所述的实施例，并且在不脱离由所附权利要求所限定的本发明的范围的前提下，还可以适当地组合和/或修改所指定的特征。

附图说明

图1示出了根据本发明的方法的示例性流程图。

图2示出了根据本发明的允许方法的实现的装置的示例。

具体实施方式

参考图2，示出了被配置为实现本发明的方法的示例性装置。该装置包括：渲染设备201、捕获设备202和数据库204以及可选的专用服务器205。将参考图1中的流程图和图2中的装置更详细地解释本发明的方法的第一优选实施例。

渲染设备201用于渲染视听对象。例如，视听对象是电影，并且渲染设备201是显示器。然后，由装配有捕获装置的捕获设备202捕获101所渲染的视听对象的信息(例如正在显示的电影的图像的数据)。这种设备202是例如装配有数字摄相头的移动电话。所捕获的信息用于识别102视听对象并确定103相对于该视听对象的时间索引。随后，提供104所识别的视听对象的一部分的概要，其中对象的这一部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

具体地，经由例如网络203向数据库204发送所捕获的信息(即电影的图像的数据)。数据库204包括所识别的视听对象(例如在本优选实施例中，电影集合)的编有时间索引的图像的数据。优选地，视听对象的图像的数据和数据库中的所识别的视听对象的编有时间索引的图像的数据是图像的签名。例如，这种签名可以使用关键点描述符(例如SIFT描述符)来提取。然后，在视听对象在捕获时的图像的数据与数据库204中编有时间索引的图像的数据之间(即在图像的签名之间)进行相似性匹配时，执行识别102视听对象和确定103所捕获的信息的时间索引的步骤。识别对于视听对象在捕获时的图像在数据库204中最相似的编有时间索引的图像，从而允许识别视听对象并确定所捕获的信息相对于视听对象的时间索引。于是，获得所识别的视听对象的一部分的概要并将其提供104给用户，所识别的视听对象的这一部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

视听对象的图像的数据(例如图像签名)可以直接由装配有捕获装置的捕获设备202或备选地在专用服务器205上捕获。类似地，识别102视听对象、确定103所捕获的信息的时间索引和提供104概要的步骤可以备选地在专用服务器205上执行。

直接在设备202上执行图像签名捕获的优点是：在存储器方面，向专用服务器205发送的数据的重量更轻。

在专用服务器205上执行签名捕获的优点是：签名的属性可以在服务器侧控制。因此，视听对象的图像的签名的属性和数据库204中编有时间索引的图像的签名的属性是相同的并可以直接进行比较。

数据库204可以位于专用服务器205之内。当然，数据库204也可以位于专用服务器205之外。

在以上优选实施例中，所捕获的信息是图像的数据。以更一般的方式，信息可以是能够由拥有自适应捕获装置的捕获设备202捕获的任意数据，只要所捕获的数据能够实现识别102视听对象以及确定103所捕获的信息相对于视听对象的时间索引。

在针对本发明的方法的第二优选实施例中，所捕获的信息是视听对象在捕获时的音频信号的数据。该信息可以由装配有麦克风或扬声器的移动设备捕获。视听对象的音频信号的数据可以是音频信号的签名，然后将该签名匹配到与数据库204中包含的音频签名集合中最相似的音频签名。因此，相似性匹配用于识别102视听对象并确定103所捕获的信息相对于视听对象的时间索引。随后，提供104所识别的视听对象的一部分的概要，其中对象的这一部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

现在将描述数据库204和所识别的视听对象的一部分的概要的示例。在现有和/或公共数据库的帮助下，执行离线处理以生成数据库204。现在将解释用于大量电影集合的示例性数据库，但本发明不限于以下描述。

对于数据库204的概要数据库，生成整个电影的临时同步概要。这例如取决于现有提要，例如可以在因特网电影数据库(IMDB)上得到的那些提要。可以直接根据电影的名称取回这种提要。可以通过使用例如给定电影的音轨的录制将给定电影的文本描述与给定电影的视听对象进行同步，来执行同步。于是，执行从录制和文本描述中提取的文字和概念的匹配，从而得到电影的同步提要。当然可以手动地获得同步提要。

可选地，还提取额外信息。脸部检测和集群处理应用于整个电影，从而提供在电影中可见的脸部的集群。每个集群由于对应于相同人物的脸部组成。该集群处理可以使用M. Everingham、J.Sivic和A.Zisserman的““Hello！My nameis...Buffy”-Automatic naming ofcharacters in TV video”Proceedings of the 17^th British Machine VisionConference(BMVC 2006)中详述的技术进行。然后获得与关联于特定人物的存在的电影时间码列表相关联的人物列表。可以将所获得的集群与给定电影的IMDB人物列表进行匹配，以获得更好的集群结果。该匹配过程可以包括手动步骤。

所获得的同步提要概要和集群列表被存储到数据库204中。数据库204中的电影被划分为多个帧，并提取每个帧。然后对电影的帧编索引以便于同步后处理，例如确定103所捕获的信息相对于电影的时间索引。备选地，替代提取电影的每一帧，通过适当的欠采样来提取仅一部分帧，以减少要处理的数据量。对于每个所提取的帧，生成图像签名，例如基于关键点描述的指纹。以高效的方式给那些关键点及其相关联的描述编索引，这可以使用H. Jégou、M. Douze和C.Schmid在“Hamming embedding and weak geometric consistency for large scaleimage search-ECCV， October 2008”中所描述的技术来完成。然后将与图像签名相关联的电影的帧存储到数据库204中。

为了获得所识别的视听对象(例如电影)的一部分的概要，由捕获设备202捕获视听对象的信息(例如其图像的数据)。然后向数据库204发送该信息，并与数据库204进行比较以识别视听对象。例如，在数据库204中识别与所捕获的信息相对应的电影的帧。所识别的帧有利于所捕获的信息与数据库204中的同步提要概要之间的匹配，从而确定所捕获的信息相对于电影的时间索引。然后向用户提供电影的一部分的同步概要，其中电影的这一部分被包括在所识别的电影的开始与所确定的时间索引之间。例如，概要可以通过在移动设备202上显示并由用户阅读来提供。可选地，概要可以包括在电影的这一部分中出现的人物的集群列表。

Claims

1.一种用于提供(104)视听对象的概要的方法，包括以下步骤：

(i)从所述视听对象捕获(101)信息，所述信息允许识别所述视听对象并允许确定相对于所述视听对象的时间索引；

(ii)识别(102)所述视听对象；

(iii)确定(103)所捕获的信息相对于所述视听对象的所述时间索引；以及

(iv)提供(104)所识别的视听对象的一部分的概要，所述部分被包括在所识别的视听对象的开始与所确定的时间索引之间。

2.根据权利要求1所述的方法，其中：

数据库(204)被提供，所述数据库(204)包括所识别的视听对象的编有时间索引的图像的数据；

所述时间索引是在所述视听对象在所述捕获时的图像的数据与所述数据库(204)中的所识别的视听对象的编有时间索引的图像的数据之间进行相似性匹配时确定的。

3.根据权利要求2所述的方法，其中：

所述视听对象的图像的数据的属性和所识别的视听对象的编有时间索引的图像的数据的属性是签名属性。

4.根据权利要求1所述的方法，其中：

数据库(204)被提供，所述数据库(204)包括所识别的视听对象的编有时间索引的音频信号的数据；

所述时间索引是在所述视听对象在所述捕获时的音频信号的数据与所述数据库(204)中的所识别的视听对象的编有时间索引的音频信号的数据之间进行相似性匹配时确定的。

5.根据权利要求2所述的方法，其中：

所述视听对象的音频信号的数据的属性和所识别的视听对象的编有时间索引的音频信号的数据的属性是签名属性。

6.根据前述权利要求中任一项所述的方法，其中，所述捕获(101)步骤是由移动设备(202)执行的。

7.根据前述权利要求中任一项所述的方法，其中，所述识别(102)步骤、所述确定(103)步骤和所述提供(104)步骤是在专用服务器(205)上执行的。