CN109389088B

CN109389088B - 视频识别方法、装置、机器设备以及计算机可读存储介质

Info

Publication number: CN109389088B
Application number: CN201811191485.1A
Authority: CN
Inventors: 陆康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2022-05-24
Anticipated expiration: 2038-10-12
Also published as: CN109389088A

Abstract

本发明揭示了一种视频识别方法、装置和机器设备。所述方法包括：在视频播放客户端播放视频的过程中，视频识别客户端接收对所播放视频进行识别的用户指令；响应所述用户指令在播放的视频中获取至少一帧视频图像；提取视频图像的特征获得特征信息；根据所述特征信息进行检索获得所播放视频的源视频信息，所述源视频信息用于描述所播放视频的出处。由此，对于用户而言，能够对所见视频即时实现源视频的搜索，为随处可见的视频播放达成了高效快速的源视频识别，并且由于仅需要对播放的视频获取视频片段即可，能够适用于所有场景下用户所看到视频的源视频搜索，通用性强，且增强了视频业务的交互性能，实现用户所见即识别。

Description

视频识别方法、装置、机器设备以及计算机可读存储介质

技术领域

本发明涉及互联网应用技术领域，特别涉及一种视频识别方法、装置、机器设备以及计算机可读存储介质。

背景技术

随着视频应用技术在互联网络的发展，越来越多的视频业务在诸多场景进行着视频播放，与此相对应的，用户在诸多场景的停留都将观看到播放的视频。例如，在用户所持有终端设备中，所停留应用场景下播放的视频；用户所停留现实场景通过显示设备播放的视频等。

用户会在很多场景下看到各种视频业务呈现的视频。无论是在所运行应用的场景下，还是现实场景，用户的停留都不可避免的加入到一视频片段的观看中。而对此视频片段，无法通过视频识别而获知来源，即无法获知此视频片段来自于哪一完整视频，以及其它所相关的源视频信息。

现有视频识别的实现，往往仅限于视频内容的识别。例如，识别一帧视频内容而获得相应的内容标注，但是仅限于此，仍然无法获知当前所播放出来的视频是来自于哪一个完整视频，源视频信息无从获知。用户面对于看到的视频，只能通过文字描述或者截图等形式在互联网络中发起提问，广泛征集网友回复以获得视频出处等源视频信息。此过程无法预见是否会有网友回复，并且无法获知回复的准确性，整个过程不可控。

因此，亟待为随处可见的视频播放提供一视频识别的实现，以为用户解决当前所观看到的视频无法高效快速识别出源视频的困境。

发明内容

为了解决相关技术中无法识别所播放视频出处的技术问题，本发明提供一种视频识别方法、装置、机器设备以及计算机可读存储介质，能够为视频播放实现高效快速的源视频识别。

一种视频识别方法，所述方法包括：

在视频播放客户端播放视频的过程中，视频识别客户端接收对所述视频进行识别的用户指令；

响应所述用户指令，所述视频识别客户端在播放的所述视频中获取至少一帧视频图像；

提取所述视频图像的特征，获得特征信息；

根据所述特征信息进行检索，获得所播放视频的源视频信息，所述源视频信息用于描述所播放视频的出处。

一种视频识别方法，所述方法包括：

服务器根据视频识别客户端对视频进行识别的用户指令，获得所述视频中至少一帧视频图像的特征信息，所述用户指令是在所进行的视频播放中对视频所触发生成的；

在以特征信息为索引项的倒排索引数据中，进行所述特征信息的检索，获得源视频信息；

所述服务器向所述视频识别客户端反馈所述源视频信息，使所述视频识别客户端获得所播放视频出处。

一种视频识别装置，，所述装置包括：

指令接收模块，用于在视频播放客户端播放视频的过程中，接收对所述视频进行识别的用户指令；

图像获取模块，用于响应所述用户指令，在播放的所述视频中获取至少一帧视频图像；

提取模块，用于提取所述视频图像的特征，获得特征信息；

检索模块，用于根据所述特征信息进行检索，获得所播放视频的源视频信息，所述源视频信息用于描述所播放视频的出处。

一种视频识别装置，所述装置包括：

特征获取模块，用于根据视频识别客户端对视频进行识别的用户指令，获得所述视频中至少一帧视频图像的特征信息，所述用户指令是在视频识别客户端所进行的视频播放中对视频所触发生成的；

数据检索模块，用于在以特征信息为索引项的倒排索引数据中，进行所述特征信息的检索，获得源视频信息；

反馈模块，用于向所述视频识别客户端反馈所述源视频信息，使所述视频识别客户端获得所播放视频出处。

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成如前所述的视频识别方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

对于所面对的视频播放，在视频播放客户端播放视频的过程中，用户在选择对所见到的视频识别其所来自的完整视频之时，通过本发明示例性实施例实现的视频识别客户端将会接收得到对该视频进行识别的用户指令，在此，将响应用户指令而在播放的视频中获取至少一帧视频图像，对获取的至少一帧视频图像进行特征提取得到特征信息，最后根据特征信息进行检索获得所播放视频的源视频信息，源视频信息用于描述所播放视频的出处，即指示了视频所来自的完整视频，由此，对于用户而言，能够对所见视频即时实现源视频的搜索，为随处可见的视频播放达成了高效快速的源视频识别，并且由于仅需要从播放的视频中获取至少一帧视频图像即可，能够适用于所有场景下用户所看到视频的源视频搜索，通用性强，且增强了视频业务的交互性能，实现用户所见即识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种装置的框图

图3是根据一示例性实施例示出的一种视频识别方法的流程图；

图4是根据一示例性实施例示出的对步骤350进行描述的流程图；

图5是根据一示例性实施例示出的一种视频识别方法的流程图；

图6是根据一示例性实施例示出的对服务器为用户终端的视频识别进行预处理，构建以特征信息为索引项的倒排索引数据步骤进行描述的流程图；

图7是根据一示例性实施例示出的第一个层次为字幕特征所对应的视频识别实现示意图；

图8是根据图7对应实施例示出的应用第一层次和第二层次特征实现视频识别的应用示意图；

图9是根据一示例性实施例示出的一种视频识别装置的框图；

图10是根据一示例性实施例示出的被配置于服务器的视频识别装置的框图；

图11是根据一示例性实施例示出的对预处理模块进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。在一个示例性实施例中，该实施环境包括视频识别客户端110、视频播放客户端130以及提供视频识别服务的服务器150。

视频识别客户端110可以运行于智能手机等用户手持的终端设备。视频识别客户端110与视频播放客户端130可集成在一起，也可分开设置。

在一示例性实施例中，集成在一起的视频识别客户端110和视频播放客户端130可以运行于一个终端设备上，并且二者相互配合在此终端设备上实现了既可进行视频播放又可识别所播放视频的应用。

而在另一示例性实施例中，视频识别客户端110和视频播放客户端130分开设置，相互独立，不再配置于同一应用中。分开设置的视频识别客户端110和视频播放客户端130可分别设置在同一个终端设备上，也可设置在不同的终端设备上。

用户通过终端设备上运行的视频识别客户端110对视频播放客户端130播放的视频发起视频识别，视频识别客户端110对视频播放客户端130所播放的视频获取至少一帧视频图像，并以此为依据从服务器150获得源视频信息。

由此，对于用户而言，实时为其所见获得出处，增强了用户与所播放视频之间的交互性能，为随处可见的视频播放提供了搜索工具。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示实施环境中的终端设备。例如，终端设备是智能手机、平板电脑等用户手持的终端设备、各种摄像机等。

参照图2，装置200至少包括以下组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202至少包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202至少包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204至少由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图4、图5、图6、图7、图8和图9任一所示方法中的全部或者部分步骤。

电源组件206为装置200的各种组件提供电力。电源组件206至少包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214检测到装置200的打开/关闭状态，组件的相对定位，传感器组件214还检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中，该传感器组件214还包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件216还包括近场通信(Near Field Communication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio FrequencyIdentification，简称RFID)技术，红外数据协会(Infrared Data Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置200被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种视频识别方法的流程图。在一个示例性实施例中，该视频识别方法，如图3所示，至少包括以下步骤。

在步骤310中，在视频播放客户端播放视频的过程中，视频识别客户端接收对该视频进行识别的用户指令。

其中，面对于当前所正在进行的视频播放，即在视频播放客户端播放视频的过程中，用户可为此而选择进行视频识别，以获知当前所观看视频的出处等源视频相关的信息。应当理解。对于用户而言，所观看到的视频，往往是一完整视频的小部分存在，或者是对完整视频所截取的短视频，甚至于一帧视频图像等，难以通过所观看得到的视频内容而获知视频所相关信息。

在此应当说明的是，对于视频播放客户端播放的视频，所指的源视频是所对应的完整视频，在一种情况下所播放的视频即为所在的完整视频；而在另一种情况下也可以是所播放视频来自的完整视频，这是对于截取的短视频而言的，所播放的视频仅仅是从完整视频截取的短视频，在此不进行限定，所播放的视频可以是源视频的一部分或者全部。

对于视频播放客户端进行的视频播放，终端设备所运行的视频识别客户端将随着用户操控而对视频触发进行识别，与此相对应的，视频识别客户端将感知用户选择而接收到对所播放视频进行识别的用户指令。

相对于运行了视频识别客户端的终端设备，进行视频播放的主体将是其它设备，例如，用户所停留的大屏幕，当然，进行视频播放的主体也可以是运行了视频识别客户端的终端设备本身，以对终端设备自身播放的视频发起识别，在此不进行限定。

对所播放视频进行识别的用户指令，将随着用户操控的进行而获得。在一个示例性实施例中，步骤310包括：在视频播放客户端进行的视频播放过程中，视频识别客户端通过用户操控的触发对视频播放客户端播放的视频发起视频识别，生成对该视频进行识别的用户指令。而在一个示例性实施例中，视频播放客户端和视频识别客户端设置于同一终端设备或者不同终端设备。

随着用户对视频发起识别，将对终端设备或者其它设备中视频播放客户端播放的视频操控视频识别客户端生成对视频进行识别的用户指令，在用户指令的控制下对视频进行片段捕获。由此对于用户而言，通过在视频识别客户端随手进行的视频捕获即可实现视频识别，简单高效，不再需要依赖于向网友提问的方式，避免向网友提问的方式中问题得到解答的时间周期没有保证的困境，本发明通过所实现视频识别客户端随手发起视频捕获进而实现视频识别的方式，处理时耗低，反馈快速。

对所播放视频进行识别的用户指令，将用于指示视频播放过程中至少一帧视频图像的获取。至少一帧视频图像的获取存在着诸多方式，不同的视频播放状况适用于不同的视频图像获取方式，因此，用户指令所指示进行的视频片段获取也各不相同。

在一个示例性实施例的具体实现中，视频播放客户端进行着视频播放，例如，前述所指的大屏幕便通过视频播放客户端进行着视频的播放。

在步骤330中，响应用户指令，视频识别客户端在播放的视频中获取至少一帧视频图像。

其中，视频识别客户端对视频播放客户端所播放视频进行识别的用户指令，用于指示视频播放过程中至少一帧视频图像的获取，即获取所播放视频中的至少一帧视频图像。此视频图像的帧数不限，所对应获得的至少一帧视频图像，所对应的存在形态包括单帧视频图像以及若干帧视频图像所构成的视频片段。而此视频片段的长短不限，只要是所需要识别视频的片段即可。当然，所获取视频片段的时长越长，越有利于精准识别视频。

响应用户指令对视频播放进行的至少一帧视频图像获取，在一个示例性实施例中，可以是拍摄所播放视频的方式，例如，拍摄大屏幕上播放的视频，以此来获得识别大屏幕所播放视频的单帧视频图像，或者视频片段。而在另一个示例性实施例中，对视频播放客户端所播放视频的至少一帧视频图像的获取也可通过视频录制的方式实现。例如，对于终端设备自身运行视频播放客户端而播放的视频，可对此进行录制，以获得可供识别所播放视频的视频片段，当然，也可对此进行屏幕截取而获得单帧视频图像。

因此，根据视频播放的不同状况而在用户指令的控制下发起不同的至少一帧视频图像获取过程，以适应于不同视频播放场景下的视频识别。在此，对于用户指令而言，其所指示进行的至少一帧视频图像获取，与触发生成用户指令的用户操控相关。例如，用户抬手识别大屏幕所播放的视频时，将对此视频触发进行拍摄识别，与此相对应的，所生成的用户指令也将控制进行视频片段的拍摄。

又例如，对于终端设备自身所进行的视频播放而言，如需要进行视频识别，则在用户操控下对此视频触发进行录制识别；与此相对应的，所生成的用户指令也将控制进行视频片段的录制。

通过响应用户指令而对视频播放获取包括视频片段在内的至少一帧视频图像，保证了用户得以随时随手发起所播放视频的识别，以此来保证所播放视频被识别的可能性，为获得当前所播放视频的相关信息提供入口。

获取的至少一帧视频图像是对应于播放的视频的，也就是说，至少一帧视频图像的获得是面向于当前所播放的视频的，即对播放的视频而获取到的至少一帧视频图像，其可为单幅视频图像，亦可为一视频片段，即多幅视频图像构成的视频图像序列。

获取的至少一帧视频图像，将作为视频识别的依据，是视频识别所输入数据的存在形式，在此基础之上方可借助于视频片段进行所需要的数据处理。

在一个示例性实施例中，步骤330包括：根据用户指令控制视频识别客户端进行所播放视频的图像拍摄，获得对应于视频的至少一帧视频图像。

其中，在此示例性实施例中，将通过视频识别客户端调用摄像头进行拍摄的方式来获得所需要用户所观看到视频的至少一帧视频图像，以此来为用户识别视频。

在此过程的实现中，随着视频识别客户端被触发拍摄，将在用户操控下对所播放视频进行一时间长度下的拍摄，得到的单帧视频图像或者视频片段便是对应于所播放视频，即从中获得的。而此时间长度，可以是指定的时间长度，也可以是指定最短时间长度之外的任意时间长度，在此不进行限定。

在步骤350中，提取视频图像的特征，获得特征信息。

其中，在通过前述步骤对所播放视频获得至少一帧视频图像之后，即可对获得的至少一帧视频图像进行特征提取，以通过所提取的特征信息来表征获得的至少一帧视频图像。

提取的特征信息，包括字幕特征和/或图像特征等各种类型的特征。无论何种类型的特征，都是匹配于获取的至少一帧视频图像的。获取的至少一帧视频图像中，如若以视频片段的形式存在，则此视频片段由多帧视频图像组成，因此，此视频片段是对应于一图像序列的，此图像序列由此视频片段的多帧视频图像顺序排列所构成。

对此视频片段进行特征提取所得到的特征信息，用于对视频片段所对应图像序列进行描述，以此来表征出视频的特征，从而与其它视频存在区分性，得以准确表征所对应的视频；而对单帧视频图像所提取的特征信息，与之相类似，也进行着单帧视频图像在内容上的描述，也将以此来视频识别客户端当前进行的视频识别中表征视频。特征信息中，无论何种类型的特征，都将在多个维度上进行所获取至少一帧视频图像的描述，进而区分视频。

在一个示例性实施例中，所进行的特征提取，可按照所进行视频识别的配置而提取所指定一种或指定几种类型的特征，以此来获得包含一种或几种特征的特征信息，但任意一种特征都是与获取的至少一帧视频图像所匹配的。

在另一个示例性实施例中，所进行的特征提取，也可先提取耗时较短或者复杂度较低的一种特征，在此种特征无法成功提取之后，再提取其它种类的特征，以此来保证视频识别的处理效率和响应速度。

例如，对于字幕特征和图像特征，如果能够从获取的至少一帧视频图像中识别出字幕，则首先对此视频图像进行字幕特征提取，以此来获得特征信息即可；如果不能从获取的至少一帧视频图像中识别出字幕，则对视频图像进行图像特征提取，虽较为复杂，但也能够保证视频识别的进行，通过此方式来兼顾和保证处理速度以及视频的成功识别。

在步骤370中，根据特征信息进行检索，获得所播放视频的源视频信息，源视频信息用于描述所播放视频的出处。

其中，从视频中至少一帧视频图像获得的特征信息，将在指定维度上进行视频片段描述，因此，能够以特征信息表征视频片段，为所表征视频片段进行所播放视频的检索。

应当说明的是，根据特征信息进行检索，则是在以特征为索引项而构建得到的倒排索引数据中进行的，实质即为特征信息的索引检索。此倒排索引数据是对以特征为索引项，视频信息为索引值面向于海量视频所构建的。

对于根据特征信息所进行的检索而言，所有特征都索引到的视频信息即为当前所播放视频的源视频信息。

在一个示例性实施例中，视频信息，以及为所播放视频所识别得到的源视频信息，都记录了完整视频所相关的信息，例如，视频名称、属性等，在此不进行限定。但是对于用户所观看到的视频而言，通过视频识别的实现，得以获知当前所观看视频是出自于哪一完整视频，不再需要通过文字描述或者截图向网友提问的方式获知出处，整个过程可控且方便快捷。

在一个示例性实施例中，步骤370包括：视频识别客户端将提取的特征信息传送至服务器，通过服务器进行特征信息检索，获得所播放视频的源视频信息。

其中，对于用户所随手发起的视频识别，终端设备上运行的视频识别客户端将通过服务器访问而获得服务器反馈的源视频信息，进而即可方便快捷的为视频播放客户端播放的视频获知视频出处。

服务器为所存在的海量视频进行了倒排索引数据的构建和存储，所构建的倒排索引数据将以特征作为索引项，以此来服务于视频识别客户端依据特征信息进行的检索，并且随着视频的新增而不断更新倒排索引数据。对于服务器所进行的倒排索引数据构建和更新而言，互联网络中存在的每一视频，相对于所进行的视频识别而言，都将是作为完整视频而存在的，因此，服务器都将对每一视频构建倒排索引数据，以便于视频识别中特征信息检索的进行。

由此，服务器也将随着互联网络中视频的新增而不断进行着倒排索引数据的更新。

终端设备上视频识别客户端通过自身所进行的视频片段或者单帧视频图像捕捉，而获得至少一帧视频图像，在此基础之上，进行特征提取得到特征信息，此时，视频识别客户端即可发起服务器访问，在服务器所存储的倒排索引数据检索得到源视频信息。

当然，应当理解的，视频识别客户端并不限于需要进行服务器中的检索，也可将通过倒排索引数据的本地存储而在本地进行特征信息的检索，当然，也可仅将常用视频，或者热门视频所对应的倒排索引数据存储于本地，以便于支持视频识别客户端性能且提高处理效率，在此不进行限定。

在一个示例性实施例中，特征信息包括字幕特征，步骤350包括：对至少一帧视频图像进行字幕特征的提取，获得至少一帧视频图像中的字幕特征。

其中，字幕特征是指视频图像的字幕。字幕特征将从字幕这一维度描述所获取的至少一帧视频图像，故通过字幕特征能够准确表征获取的至少一帧视频图像，并且得以实现特征的快速提取。

在一个示例性实施例中，很多视频，例如，电视剧和电影这一类视频，其视频片段都是带有字幕的，因此，能够从中提取出字幕特征。所进行的字幕特征提取可通过至少一帧视频图像中每一帧视频图像上的文本识别实现。

在另一个示例性实施例中，特征信息包括图像特征，步骤350包括：对至少一帧视频图像进行图像特征提取，获得至少一帧视频图像中的图像特征序列。

其中，无论字幕特征还是图像特征，都用于进行视频内容描述。并非所有视频都有字幕，大量的非电视剧和非电影视频是没有配字幕的，对于此，字幕特征的处理是无法解决的，仅进行字幕特征的处理将无法获得所需要的特征信息，需要引入图像特征。

通过所进行的图像特征提取，将获取的整个视频图像提炼为一图像特征序列，以此来为用户所看到的视频检索出完整视频。进一步说明的，所指的图像特征序列，是按照视频图像的每帧内容提取特征，并顺序排列所得到的。

在一个示例性实施例中，图像特征作为内容特征，所进行的图像特征提取可通过多个方面对视频内容进行描述，因此，图像特征可以包括抽取视频内容而获得的色彩、纹理、形状、运动多个方面的内容特征，甚至于视频内容中对象之间的空间关系以及场景、行为、情感等语义特征，在此不进行限定。

除此之外，对于视频片段的特征提取，还可以是对关键帧所进行的特征提取，关键帧反映了一段视频的主要内容，因此，可以在视频复杂度高或者视频片段过长的情况下，对关键帧进行特征提取。

在另一个示例实施例中，前述所进行的字幕特征提取和图像特征提取，将通过步骤350还包括的以下步骤实现控制。

图4是根据一示例性实施例示出的对步骤350进行描述的流程图。在一个示例性实施例中，如图4所示，步骤350包括：

在步骤351中，根据视频识别客户端是否能够从视频图像中识别出字幕，控制跳转进入所述字幕特征或图像特征的提取，在字幕能够被识别时控制跳转进入步骤353，反之则控制跳转进入步骤355。

在步骤353中，对至少一帧视频图像进行字幕特征的提取，获得至少一帧视频图像中的字幕特征。

在步骤355中，对至少一帧视频图像进行图像特征提取，获得至少一帧视频图像的图像特征序列。

其中，对于所获得的至少一帧视频图像，如果能够从中识别出字幕，则执行步骤353，所执行的特征提取为字幕特征提取，由此获得的特征信息即为字幕特征；如果并不能够识别出字幕，则执行步骤355，所执行的特征提取是图像特征提取，由此获得的特征信息即为图像特征。

由此，将在步骤351的控制下，首先进行字幕特征提取，优先使用字幕特征进行特征信息的检索。字幕特征，无论是对于倒排索引数据的存储，还是终端设备向服务器进行的特征信息传送，都有明显优点，即前后端传输数据量少，存储压力小，索引的检索耗时也非常小。

但是，并非所有视频都有字幕，因此，仅仅是字幕特征是无法完全解决视频识别的需求的，故需引入其它特征。

由此，将在步骤351的控制下，进行特征提取，以此来灵活适应于各种视频的识别，增强自适应性。

通过如上所述的示例性实施例，为用户实现了随手即可所见视频识别的应用，由此，对于用户而言，仅需要在应用内捕捉视频片段就能够识别得到所见视频的出处，即来自于哪一完整视频，让用户方便、快速地查询到目前看到的视频来自于哪个源视频。

下述为本发明在服务器中的方法实现，即应用于图1所示实施环境中服务器的视频识别方法。图5是根据一示例性实施例示出的一种视频识别方法的流程图。在一个示例性实施例中，如图5所示，该视频识别方法，至少包括以下步骤。

在步骤410中，服务器根据视频识别客户端对视频进行识别的用户指令，获得视频中至少一帧视频图像的特征信息，用户指令是在视频播放客户端所进行的视频播放中对视频所触发生成的。

其中，服务器作为视频识别的后端，用于为前端的视频识别客户端实现检索，进而向视频识别客户端反馈所请求识别视频的源视频信息。服务器随着视频识别客户端的访问而获得视频识别客户端进行视频识别所对应的特征信息。

特征信息对应于视频识别客户端请求识别视频所获取的至少一帧视频图像，特征信息是对此至少一帧视频图像进行内容上的描述，因此，服务器根据视频识别客户端对视频进行识别的用户指令，获得特征信息之后，所进行的检索是至少一帧视频图像的内容检索，是基于内容进行的视频检索。

服务器是面向于海量视频识别客户端的，任一视频识别客户端随着用户操控而对所进行的视频播放发起视频识别之后，便进行所生成用户指令的响应获得特征信息，此特征信息被传送至服务器，以请求服务器进行视频检索。

在步骤430中，在以特征信息为索引项的倒排索引数据中，进行特征信息的检索，获得源视频信息。

其中，服务器进行着倒排索引数据的存储，以为视频识别客户端提供视频检索服务。倒排索引数据，是服务器对所能够获得的视频构建的。每一条倒排索引数据都对应于一视频，以通过所构建的索引而映射至此视频的视频信息。实现视频识别客户端的视频识别，将以特征为索引项，视频信息为索引值来构建倒排索引数据，在此所指的特征，将是与视频识别客户端所提取得到的特征信息相匹配的。

服务器为视频识别客户端所检索得到的视频信息即为向此视频识别客户端反馈的源视频信息。

在步骤450中，服务器向视频识别客户端反馈源视频信息，使视频识别客户端获得所播放视频出处。

通过此示例性实施例中，实现了服务器一侧的视频检索，进而为用户侧所运行的视频识别应用提供支持。

在另一个示例性实施例中，该视频识别方法还包括：服务器为视频识别客户端的视频识别进行视频所相关的预处理，对此视频构建以特征信息为索引项的倒排索引数据。

其中，服务器需要为视频识别客户端实现视频检索，为此，需要基于互联网络中存在的视频而进行预处理，以此来构建得到倒排索引数据。具体而言，针对于所能够从互联网络中获得的每一视频，都为此而进行所对应倒排索引数据的构建。对每一视频，与视频识别客户端所进行视频识别相适应的，也都相应进行特征提取，以得到此视频的特征信息，应当理解，所得到的特征信息即为此视频的特征，能够在一个维度上对此视频进行表征。

由此，对每一视频得到的特征信息，并获取视频信息，进而以特征信息为索引项，视频信息为索引值而构建得到此视频对应的倒排索引数据。

对于视频识别客户端请求进行视频识别所捕捉得到的视频片段而言，其特征信息必将与一视频所对应特征信息相匹配，所匹配的特征信息对应的索引值即为所识别视频的源视频信息。

图6是根据一示例性实施例示出的对服务器为视频识别客户端的视频识别进行视频所相关的预处理，对此视频构建以特征信息为索引项的倒排索引数据步骤进行描述的流程图。在一个示例性实施例中，如图6所示，服务器为视频识别客户端的视频识别进行视频所相关的预处理，对此视频构建以特征信息为索引项的倒排索引数据步骤至少包括：

在步骤501中，服务器进行视频信息的爬取，获得互联网络中分别对应于视频的视频信息。

在步骤503中，为每一视频以所对应特征信息构建视频信息的倒排索引，形成以特征信息为索引项且面向于所有视频进行检索的倒排索引数据。

其中，倒排索引数据中被检索到的视频信息为视频识别客户端所识别视频的源视频信息。

服务器面向于互联网络，进行着互联网络中视频信息的爬取，以对互联网络中存在的视频都构建倒排索引数据，通过所构建倒排索引数据来为任意视频的识别准确提供作为源视频信息的视频信息。

以用户停留大屏幕所播放视频的识别为例，结合上述方法实现进行阐述。

用户停留至一正在进行视频播放的大屏幕前，观看到此大屏幕播放的视频，此时，对于用户而言，如需获知此视频的出处，例如，此视频是来自于哪一完整视频，此视频对应的名称是什么等等视频信息，则只能通过文字描述或者视频截图发问，以寻求回复。

即便是在互联网络得到迅猛发展的今天，也无法保证用户能够快速从借助于互联网络而获得网友的回复，无论是时间还是结果都不可控，并且面对于诸多视频业务，用户难以获得视频业务中所播放视频的出处已经成为视频播放之后用户侧的瓶颈，用户缺乏搜索所播放视频出处的手段和途径。

而通过上述方法，为用户提供了运行于终端侧，例如智能手机等各种移动终端的应用，即本发明示例性实施例所实现的视频识别客户端，通过此应用的运行，用户得以对所见到的视频给予捕捉和识别，以方便快速准确的获得视频的出处，即获得视频所对应的源视频信息，无论是准确性还是时效性，均得到有效保障。

随着大屏幕的视频播放，用户对感兴趣的视频内容，可使用所携带智能手机中运行的视频识别客户端触发进行至少一帧视频图像，例如视频片段的拍摄，然后对所拍摄视频片段提取特征，所提取得到的特征便通过应用向后台进行查询，获得源视频信息的返回。

应当理解，对视频实现源视频的识别，是通过至少一帧视频图像实现识别的，通过拍摄的过程提取出特征，该特征表征出源视频的特征，从而与其它视频区开，对于特征，在此可考虑两个层次的特征，其中，第一个层次为字幕特征，第二个层次为图像特征。

图7是根据一示例性实施例示出的第一个层次为字幕特征所对应的视频识别实现示意图。正如前面描述所指出的，对于所进行的视频识别，是在前端和后端的配合下实现的，前端即为本发明所实现的应用，即用户app(Application)侧；后端则是本发明所实现的服务器，其一方面进行着服务端预处理710，另一方面则为用户app侧进行着后台索引查询730。

而对于用户app侧，仅需要通过所运行的应用拍摄视频片段，并从视频片段中识别出字幕即可，如步骤810至步骤830所描述的，由此即可获得服务器返回的源视频信息，进而获知所看到视频的出处。

对于所进行的视频识别而言，如果能够获得字幕特征，则仅需要根据字幕特征进行索引查询即可，而不再需要进行第二层次特征的提取，以保证较快的处理速度。

而对于第一层次的字幕特征，是作为优化使用的特征存在的，这是由于字幕特征无论是对服务器，还是视频识别客户端，以及服务器和视频识别客户端之间的交互，都有着诸多优势，例如，将得以保证前后端传输数据较少，服务器所进行的后台存储也由于仅仅需要进行字幕和视频信息的存储，存储压力不大，且检索的时间也非常短。

但是，在视频无字幕的情况下，不得不引入第二层次的特征，即图像特征。用于进行视频识别的图像特征，是对视频片段的每帧内容提取得到的，故随着图像特征的提取，将获得对应于视频片段中图像序列的图像特征序列。

图8是根据图7对应实施例示出的应用第一层次和第二层次特征实现视频识别的应用示意图。在图7对应实施例基础之上，对无法识别出字幕的视频片段，如步骤910所示的，将提取出视频片段的图像特征序列以发送至后台。

此时后台的服务器将对图像特征序列索引数据进行检索。与此相类似的，还存储着字幕倒排索引序列，以为第一层次的字幕特征实现检索。

无论是图像特征序列索引数据，还是字幕倒排索引数据，都是服务器所存储的倒排索引数据，也都是服务器通过预处理过程而构建且不断更新的。

如图8所示出的服务端预处理过程，在步骤1010中，服务器端进行着视频信息的爬取，对于所爬取视频信息对应的视频，将执行步骤1030来判断视频是否有字幕，如果视频是有字幕的，则执行步骤1040建立字幕特征与视频信息的倒排索引即可，由此获得存储于服务器的字幕倒排索引数据。

但是，一旦视频不存在字幕，则执行步骤1050，进行对视频信息所对应视频进行图像特征序列的提取，进而执行步骤1070，生成索引，建立图像特征序列与视频信息的倒排索引，获得图像特征序列索引数据。

至此，对于用户而言，即可方便快速地查询到当前看到的视频来自于哪一源视频，且能够获得非常快的反馈速度。

下述为本发明装置实施例，用于执行本发明上述视频识别方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明视频的码率控制方法实施例。

图9是根据一示例性实施例示出的一种视频识别装置的框图。在一个示例性实施例中，如图9所示，该视频识别装置用于实现视频识别客户端，该视频识别装置包括但不限于：指令接收模块1110、片段获取模块1130、提取模块1150和检索模块1170。

指令接收模块1110，用于在视频播放客户端播放视频的过程中，接收对所述视频进行识别的用户指令。

图像获取模块1130，用于响应用户指令，在播放的所述视频中获取至少一帧视频图像。

提取模块1150，用于提取视频图像的特征，获得特征信息。

检索模块1170，用于根据特征信息进行检索，获得所播放视频的源视频信息，该源视频信息用于描述所播放视频的出处。

在一个示例性实施例中，指令接收模块1110进一步用于在视频播放客户端进行的视频播放过程中，视频识别客户端通过用户操控的触发对视频播放客户端播放的所述视频发起视频识别，生成对所述视频进行识别的用户指令，所述视频播放客户端和视频识别客户端设置于同一终端设备或者不同终端设备。

在一个示例性实施例中，图像获取模块1130进一步用于根据所述用户指令控制所述视频识别客户端进行所播放视频的图像拍摄，获得对应于所述视频的至少一帧视频图像。

在另一个示例性实施例中，特征信息包括字幕特征，提取模块1150还用于对所述至少一帧视频图像进行字幕特征的提取，获得所述至少一帧视频图像中的字幕特征。

进一步的，特征信息包括图像特征，提取模块1150还用于对所述至少一帧视频图像进行图像特征提取，获得所述至少一帧视频图像中的图像特征序列。

更进一步的，进行特征提取得到的特征信息包括字幕特征或图像特征，提取模块1150还用于根据视频识别客户端是否能够从视频图像中识别出字幕，控制跳转进入所述字幕特征或图像特征的提取，在字幕能够被识别时控制跳转进入字幕特征的提取，反之则控制跳转进入图像特征的提取。

在另一个示例性实施例中，检索模块1170还用于将提取的所述特征信息传送至服务器，通过所述服务器进行所述特征信息检索，获得所播放视频的源视频信息。

图10是根据一示例性实施例示出的被配置于服务器的视频识别装置的框图。在一个示例性实施例中，如图10所示，该视频识别装置包括但不限于：特征获取模块1210、数据检索模块1230和反馈模块1250。

特征获取模块1210，用于根据视频识别客户端对视频进行识别的用户指令，获得此视频中至少一帧视频图像的特征信息，所述用户指令是在视频播放客户端所进行的视频播放中对视频所触发生成的；

数据检索模块1230，用于在以特征信息为索引项的倒排索引数据中，进行所述特征信息的检索，获得源视频信息；

反馈模块1250，用于向所述视频识别客户端反馈所述源视频信息，使所述视频识别客户端获得所播放视频出处。

在另一个示例性实施例中，该视频识别装置还包括预处理模块，预处理模块用于为视频识别客户端的视频识别进行视频所相关的预处理，对该视频构建以特征信息为索引项的倒排索引数据。

图11是根据一示例性实施例示出的对预处理模块进行描述的框图。在一个示例性实施例中，该预处理模块1310包括信息爬取单元1311和索引生成单元1313。

信息爬取单元1311，用于进行视频信息的爬取，获得互联网络中分别对应于视频的视频信息。

索引生成单元1313，用于为每一视频以所对应特征信息构建视频信息的倒排索引，形成以特征信息为索引项且面向于所有视频进行检索的倒排索引数据。

其中，倒排索引数据中被检索到的视频信息为视频识别客户端所识别源视频信息。

可选的，本发明还提供一种电子设备，该电子设备可以用于图1所示实施环境中，执行图3、图4和图5任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行实现前述所指的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关前述实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器204，上述指令可由装置200的处理器218执行以完成上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

在视频播放客户端播放视频的过程中，视频识别客户端接收对所述视频进行识别的用户指令，所述用户指令用于指示执行播放过程中至少一帧视频图像的获取；

响应所述用户指令，所述视频识别客户端对播放的所述视频进行拍摄或录制，获取至少一帧视频图像；

对获取的所述至少一帧视频图像提取特征，获得特征信息，所述特征信息用于表征所述至少一帧视频图像在指定维度上的视频片段描述；

所述视频识别客户端根据所述特征信息对倒排索引数据进行检索，获得所述视频播放客户端所播放视频的源视频信息，所述源视频信息用于描述所播放视频的出处，每一视频都构建倒排索引数据，以能够匹配于视频识别客户端所提取特征信息的特征为索引项，视频信息为索引值，使所述倒排索引数据中构建的索引映射至所述视频的视频信息。

2.根据权利要求1所述的方法，其特征在于，所述在视频播放客户端播放视频的过程中，视频识别客户端接收对所述视频进行识别的用户指令，包括：

在所述视频播放客户端进行的视频播放过程中，所述视频识别客户端通过用户操控的触发对所述视频播放客户端播放的所述视频发起视频识别，生成对所述视频进行识别的用户指令。

3.根据权利要求1或2所述的方法，其特征在于，所述视频播放客户端和所述视频识别客户端设置于同一终端设备或者不同终端设备。

4.根据权利要求1所述的方法，其特征在于，所述响应所述用户指令，所述视频识别客户端对播放的所述视频进行拍摄或录制，获取至少一帧视频图像，包括：

根据所述用户指令控制所述视频识别客户端进行所播放视频的图像拍摄，获得对应于所述视频的至少一帧视频图像。

5.根据权利要求1所述的方法，其特征在于，所述特征信息包括字幕特征，所述对获取的至少一帧视频图像提取特征，获得特征信息，包括：

对所述至少一帧视频图像进行字幕特征的提取，获得所述至少一帧视频图像中的字幕特征。

6.根据权利要求1所述的方法，其特征在于，所述特征信息包括图像特征，所述对获取的至少一帧视频图像提取特征，获得特征信息，包括：

对所述至少一帧视频图像进行图像特征提取，获得所述至少一帧视频图像中的图像特征序列。

7.根据权利要求5或6所述的方法，其特征在于，所述对至少一帧视频图像提取特征，获得特征信息，还包括：

根据所述视频识别客户端是否能够从所述视频图像中识别出字幕，控制跳转进入所述字幕特征或图像特征的提取，在所述字幕能够被识别时控制跳转进入所述字幕特征的提取，反之则控制跳转进入所述图像特征的提取。

8.根据权利要求1所述的方法，其特征在于，所述视频识别客户端根据所述特征信息对倒排索引数据进行检索，获得所述视频播放客户端所播放视频的源视频信息，包括：

所述视频识别客户端将提取的所述特征信息传送至服务器，通过所述服务器对所述倒排索引数据进行所述特征信息的检索，获得所播放视频的源视频信息。

9.一种视频识别方法，其特征在于，所述方法包括：

服务器根据视频识别客户端对视频进行识别的用户指令，获得所述视频中至少一帧视频图像的特征信息，所述用户指令是在视频播放客户端所进行的视频播放中所述视频识别客户端对视频所触发生成的，用于指示执行播放过程中至少一帧视频图像的获取，所述特征信息用于表征所述至少一帧视频图像在指定维度上的视频片段描述；

在以特征为索引项的倒排索引数据中，进行所述特征信息的检索，获得源视频信息，每一视频都构建倒排索引数据，以能够匹配于视频识别客户端所提取特征信息的特征为索引项，视频信息为索引值，使所述倒排索引数据中构建的索引映射至所述视频的视频信息；

所述服务器向所述视频识别客户端反馈所述源视频信息，使所述视频识别客户端获得所述视频识别客户端所播放视频的出处。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

所述服务器为所述视频识别客户端的视频识别进行视频所相关的预处理，对所述视频构建以特征信息为索引项的倒排索引数据。

11.根据权利要求10所述的方法，其特征在于，所述服务器为所述视频识别客户端的视频识别进行视频所相关的预处理，对所述视频构建以特征信息为索引项的倒排索引数据，包括：

所述服务器进行视频信息的爬取，获得互联网络中分别对应于视频的视频信息；

为每一视频以所对应特征信息构建视频信息的倒排索引，形成以特征信息为索引项且面向于所有视频进行检索的倒排索引数据；

其中，所述倒排索引数据中被检索到的视频信息为视频识别客户端所识别视频的源视频信息。

12.一种视频识别装置，其特征在于，所述装置用于实现视频识别客户端，所述装置包括：

指令接收模块，用于在视频播放客户端播放视频的过程中，接收对所述视频进行识别的用户指令，所述用户指令用于指示执行播放过程中至少一帧视频图像的获取；

图像获取模块，用于响应所述用户指令，对播放的所述视频进行拍摄或录制，获取至少一帧视频图像；

提取模块，用于对获取的至少一帧视频图像提取特征，获得特征信息，所述特征信息用于表征所述视频图像在指定维度上的视频片段描述；

检索模块，用于根据所述特征信息对倒排索引数据进行检索，获得所述视频播放客户端所播放视频的源视频信息，所述源视频信息用于描述所播放视频的出处，每一视频都构建倒排索引数据，以能够匹配于视频识别客户端所提取特征信息的特征为索引项，视频信息为索引值，使所述倒排索引数据中构建的索引映射至所述视频的视频信息。

13.一种视频识别装置，其特征在于，所述装置用于为视频播放客户端实现服务器，所述装置包括：

特征获取模块，用于根据视频识别客户端对视频进行识别的用户指令，获得所述视频中至少一帧视频图像的特征信息，所述用户指令是在视频识别客户端所进行的视频播放中所述视频识别客户端对视频所触发生成的，用于指示执行播放过程中至少一帧视频图像的获取，所述特征信息用于表征所述至少一帧视频图像在指定维度上的视频片段描述；

数据检索模块，用于在以特征为索引项的倒排索引数据中，进行所述特征信息的检索，获得源视频信息，每一视频都构建倒排索引数据，以能够匹配于视频识别客户端所提取特征信息的特征为索引项，视频信息为索引值，使所述倒排索引数据中构建的索引映射至所述视频的视频信息；

反馈模块，用于向所述视频识别客户端反馈所述源视频信息，使所述视频识别客户端获得所述视频识别客户端所播放视频的出处。

14.一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成权利要求1-11任意一项所述的视频识别方法。