CN108307229B - 一种影音数据的处理方法及设备 - Google Patents
一种影音数据的处理方法及设备 Download PDFInfo
- Publication number
- CN108307229B CN108307229B CN201810107188.8A CN201810107188A CN108307229B CN 108307229 B CN108307229 B CN 108307229B CN 201810107188 A CN201810107188 A CN 201810107188A CN 108307229 B CN108307229 B CN 108307229B
- Authority
- CN
- China
- Prior art keywords
- audio
- content
- video
- sub
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims description 29
- 238000013136 deep learning model Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000004880 explosion Methods 0.000 description 24
- 230000015654 memory Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请提供了一种影音数据的处理方法及设备,该方案首先将影音数据对象分割为多个子对象,然后提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息,再根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,通过内容标签可以确定影音数据对象中各个子对象包含的具体内容,同时内容标签之间的关联也可以用于表示各部分内容之间的关联关系,进而可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种影音数据的处理方法及设备。
背景技术
随着智能设备以及音视频技术的发展,例如电影、电视剧等包含音频内容以及视频内容的影音数据对象产生和传播的速度大大加快,但是这些影音数据对象普遍独立存在,对于其中的内容缺乏统一识别及应用的方法与渠道。而目前的技术主要是技术通过视频/音频指纹以及对应的音频/视频库来进行视频/音频的识别,很难确定影音数据对象中具体包含的内容极其之间的关联关系,进而无法有效应用影音数据对象中的音视频内容。
申请内容
本申请的一个目的是提供一种影音数据的处理方法及设备,用以解决现有技术中难以确定影音数据对象中具体包含的内容极其之间的关联关系的问题。
为实现上述目的,本申请提供了一种影音数据的处理方法,该方法包括:
将影音数据对象分割为多个子对象;
提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息;
根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。
基于本申请的另一方面,还提供了一种影音数据的处理设备,该设备包括:
分割模块,用于将影音数据对象分割为多个子对象;
特征提取模块,用于提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息;
归类匹配模块,用于根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。
此外,本申请还提供了一种影音数据的处理设备,其中,该设备包括:
处理器;以及
存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行前述的影音数据的处理方法。
本申请提供的影音数据的处理方案中,首先将影音数据对象分割为多个子对象,然后提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息,再根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,通过内容标签可以确定影音数据对象中各个子对象包含的具体内容,同时内容标签之间的关联也可以用于表示各部分内容之间的关联关系,进而可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请实施例提供的一种影音数据的处理方法的处理流程图;
图2示出了采用本申请实施例提供的方法对影音数据对象进行处理时的整体流程示意图;
图3示出了本申请实施例提供的一种影音数据的处理设备的结构示意图;
图4示出了本申请实施例提供的另一种影音数据的处理设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了一种影音数据的处理方法,该方法可以对确定影音数据对象中各个子对象包含的具体内容,可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种影音数据的处理方法,该方法包括如下步骤:
步骤S101,将影音数据对象分割为多个子对象。本申请实施例中的所述影音数据对象是指包含音视频数据的文件或者数据流,其具体内容可以是一部电影、电视剧等。所述子对象是指影音数据对象的其中一部分内容,例如对于一部时长120分钟的电影为例,可以根据时长平均分割为多个片段,每个片段即为一个子对象。
在本申请的一些实施例中,对影音数据对象进行分割时可以通过时空切片(spatio-temporal slice)聚类的方式,即根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类,并基于聚类结果,确定多个子对象。所述时空切片是指由视频图像序列的连续帧中相同位置的像素条带按照时序组成的图像,由于类似内容的画面在视觉上会有一定的相似性,通过时空切片聚类的方式对影音数据对象进行分割可以使得分割出每个子对象中的影音数据都属于类似的内容。
例如,一段视频中的画面包含3部分内容,第一部分为室内场景中两个人物对话的画面,第二部分为室外场景中关于园林景色的画面,第三部分则是室外场景发生爆炸的画面。由于这三部分画面在视觉上会有很大差别,因此通过时空切片聚类的方式可以准确的将所述该段视频划分为三个部分,每个部分所包含的视频帧即为一个聚类结果,其所对应的视频及音频即为一个子对象。
在实际场景中,由于每个画面的实际情况会更加复杂,基于时空切片的聚类结果也可能会出现误差,例如第一部分关于室内场景中两个人物对话的画面可能会由于人物的移动,导致其中某一部分的画面内容发生较大改变,使得该第一部分被划分为两个聚类结果,或者也有可能第二部分和第三部分的画面被划分为一个聚类结果。由此,在基于聚类结果,确定多个子对象时,可以根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。例如,通过设定动态阈值,使得进行聚类时的相似度阈值可以动态调整,从而对初步的聚类结果进行合并或者继续拆分,使得最终的聚类结果更加准确。
步骤S102,提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息。
在处理关于视频的部分时,基于每个子对象中的视频内容进行处理,例如对于一部电影,在分割为多个片段之后,对每个片段中的视频内容进行特征提取,即可获取其特征信息。在本申请的一些实施例中,可以先从所述子对象的视频内容中提取关键帧,然后对关键帧进行处理,获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息。
其中,关键帧指图像运动或变化中的关键动作所处的帧,能够反映视频图像序列实际表达的内容,例如对于一个关于爆炸的视频内容,其关键帧可以是表示爆炸起因(例如撞击发生时)帧、爆炸火焰生成时的帧、爆炸火焰最大时的帧、以及爆炸火焰消失时的帧等等。由于关键帧已经能够较好地反映视频内容的实际含义,因此通过将关键帧的视频特征信息作为所述子对象中关于视频内容的视频特征信息,可以减少处理运算量,提高处理速度。
所述视频特征信息可以是纹理、色彩、形状或者空间关系等图像特征,在实际场景中,可以根据场景需要选取适用于当前场景的一种或多种图像特征来作为视频特征信息,以提高处理的准确性。对于获取到的视频特征信息可以采用多维向量集的形式来记录。
而处理关于音频的部分时,则可以基于每个子对象中的音频内容进行处理。例如对于一部电影,在分割为多个片段之后,对每个片段中的音频内容进行特征提取,即可获取其特征信息。对于一般的影音数据对象,其音频内容包含多种类型,例如人物的声音、音效、环境音、背景音乐等等。以室内场景中两个人物对话的视频内容为例,其对应的音频内容可能包含两个人物的说话声、两个人物在走动时的脚步声、房间外车辆开过的声音、以及背景音乐等,这些音频内容会对应于不同波段的不同波形。由此本申请的一些实施例中,在提取音频特征时,可以在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集,这些音频集可以是人声/音效集、环境音集或者背景音乐集等等。对于这些音频集,可以分别提取其中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息。对于获取到的音频特征信息可以采用多维向量集的形式来记录。
在实际场景中,对子对象中的音频内容进行处理时,可以先将音频内容从所述子对象中分离出来。同时,为提高音频特征提取时的准确性,在不同的波段进行波形识别之前,可以先对所述子对象的音频内容进行降噪处理。
步骤S103,根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。所述内容标签是用于表示子对象实际所包含的影音内容的信息,可以根据用户的需求从各个调度描述影音内容,例如用于描述包含的内容、所处的场景或者对应的情感等。
在本申请的一些实施例中,可以采用深度学习的方式来完成内容标签的识别,在进行影音数据的处理之前,可以构建一深度学习模型,通过标注过内容标签的音频内容和视频内容作为训练集,对深度学习模型进行训练,使其可以用于子对象内容标签的识别。例如,若需要使得本申请实施例提供的方案可以识别某一电影中的片段是否有关于爆炸的内容,则可以提供各类关于爆炸的视频和音频作为训练集,该训练集中包含关于这些视频的视频特征信息和关于这些音频的音频特征信息,且已经标注其内容标签为爆炸。在训练样本足够的前提下,深度学习模型可以对输入的未标注过内容标签的视频特征信息或音频特征信息进行识别,确定其内容标签是否可以是爆炸,从而确定该电影片段所对应的内容。
本申请的另一实施例中,在确定子对象的内容标签之后,可以根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。例如,对于一部电影,可以将所有关于爆炸的片段归类为爆炸片段的集合,将所有关于人物打斗的片段也可以单独归类为一个集合。
实际场景中,在对子对象进行归类时,可以基于外部输入或者预设的归类条件,例如可以获取用户输入的关键词,根据关键词来选取匹配的内容标签,进而得到合适的内容集合。以电影为例,若需要生成该电影的预告片,则可以将采用本申请实施例提供的方案将该电影分割为多个片段,然后生成每个片段对应的内容标签。用户可以根据实际的需要输入相应的关键词,来选取生成预告片需要的片段,例如用户需要生成风格比较温情的预告片,则可以选取符合该风格的内容标签所对应的片段,作为用于生成预告片的素材,形成一个片段集合。同理,若用户需要生成打斗内容比较多的预告片,也可以选取对应内容标签的片段。
对于音频内容和视频内容,可以单独设定其标签,即可以分为视频内容标签和音频内容标签,两者相互对应,均关联于分割获得的影音数据对象的子对象。由此,在基于内容标签进行归类时,可以单独根据音频或者视频,也可以同时结合音频和视频来进行分类,从而生成用户需要的集合,集可以根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或音频内容集。
图2示出了采用本申请实施例提供的方法对影音数据对象进行处理时的整体流程示意图,该整体流程包括如下处理步骤:
S201,首先基于视频内容进行分割,分割为多个子对象。
S202,对于分割后的视频内容进行视频特征提取,得到视频特征信息。
S203,同时对音视频进行分离,得到分割后的视频所对应的音频内容。
S204,对音频内容进行降噪,消除噪声。
S205,在不同波段识别波形,分离出不同类型的音频,例如分离人声/音效等。
S206,对不同类型的音频进行音频特特征提取,得到音频特征信息。
S207,将视频特征信息和音频特征信息输入深度学习模型进行处理。
S208,根据深度学习的处理结果,识别内容标签,归类为多个视频内容集和音频内容集。
基于同一发明构思,本申请实施例中还提供了影音数据的处理设备,所述设备对应的方法是前述实施例中的方法,并且其解决问题的原理与该方法相似。
本申请实施例提供了一种影音数据的处理设备,该设备可以对确定影音数据对象中各个子对象包含的具体内容,可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。该设备的具体实现可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图3示出了本申请实施例提供的一种影音数据的处理设备,该设备包括分割模块310、特征提取模块320和归类匹配模块330。所述分割模块310用于将影音数据对象分割为多个子对象。本申请实施例中的所述影音数据对象是指包含音视频数据的文件或者数据流,其具体内容可以是一部电影、电视剧等。所述子对象是指影音数据对象的其中一部分内容,例如对于一部时长120分钟的电影为例,可以根据时长平均分割为多个片段,每个片段即为一个子对象。
在本申请的一些实施例中,分割模块310对影音数据对象进行分割时可以通过时空切片(spatio-temporal slice)聚类的方式,即根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类,并基于聚类结果,确定多个子对象。所述时空切片是指由视频图像序列的连续帧中相同位置的像素条带按照时序组成的图像,由于类似内容的画面在视觉上会有一定的相似性,通过时空切片聚类的方式对影音数据对象进行分割可以使得分割出每个子对象中的影音数据都属于类似的内容。
例如,一段视频中的画面包含3部分内容,第一部分为室内场景中两个人物对话的画面,第二部分为室外场景中关于园林景色的画面,第三部分则是室外场景发生爆炸的画面。由于这三部分画面在视觉上会有很大差别,因此通过时空切片聚类的方式可以准确的将所述该段视频划分为三个部分,每个部分所包含的视频帧即为一个聚类结果,其所对应的视频及音频即为一个子对象。
在实际场景中,由于每个画面的实际情况会更加复杂,基于时空切片的聚类结果也可能会出现误差,例如第一部分关于室内场景中两个人物对话的画面可能会由于人物的移动,导致其中某一部分的画面内容发生较大改变,使得该第一部分被划分为两个聚类结果,或者也有可能第二部分和第三部分的画面被划分为一个聚类结果。由此,在基于聚类结果,确定多个子对象时,可以根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。例如,通过设定动态阈值,使得进行聚类时的相似度阈值可以动态调整,从而对初步的聚类结果进行合并或者继续拆分,使得最终的聚类结果更加准确。
特征提取模块320用于提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息。由于涉及视频和音频的处理,所述特征提取模块可以包含视频特征提取子模块和音频特征提取子模块。
在处理关于视频的部分时,基于每个子对象中的视频内容进行处理,例如对于一部电影,在分割为多个片段之后,对每个片段中的视频内容进行特征提取,即可获取其特征信息。在本申请的一些实施例中,可以先从所述子对象的视频内容中提取关键帧,然后对关键帧进行处理,获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息。
其中,关键帧指图像运动或变化中的关键动作所处的帧,能够反映视频图像序列实际表达的内容,例如对于一个关于爆炸的视频内容,其关键帧可以是表示爆炸起因(例如撞击发生时)帧、爆炸火焰生成时的帧、爆炸火焰最大时的帧、以及爆炸火焰消失时的帧等等。由于关键帧已经能够较好地反映视频内容的实际含义,因此通过将关键帧的视频特征信息作为所述子对象中关于视频内容的视频特征信息,可以减少处理运算量,提高处理速度。
所述视频特征信息可以是纹理、色彩、形状或者空间关系等图像特征,在实际场景中,可以根据场景需要选取适用于当前场景的一种或多种图像特征来作为视频特征信息,以提高处理的准确性。对于获取到的视频特征信息可以采用多维向量集的形式来记录。
而处理关于音频的部分时,则可以基于每个子对象中的音频内容进行处理。例如对于一部电影,在分割为多个片段之后,对每个片段中的音频内容进行特征提取,即可获取其特征信息。对于一般的影音数据对象,其音频内容包含多种类型,例如人物的声音、音效、环境音、背景音乐等等。以室内场景中两个人物对话的视频内容为例,其对应的音频内容可能包含两个人物的说话声、两个人物在走动时的脚步声、房间外车辆开过的声音、以及背景音乐等,这些音频内容会对应于不同波段的不同波形。由此本申请的一些实施例中,在提取音频特征时,可以在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集,这些音频集可以是人声/音效集、环境音集或者背景音乐集等等。对于这些音频集,可以分别提取其中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息。对于获取到的音频特征信息可以采用多维向量集的形式来记录。
在实际场景中,本申请实施例提供的设备还可以包括降噪模块、音视频分离模块等,其中降噪模块用于对子对象中的音频内容进行处理时,可以先将音频内容从所述子对象中分离出来。同时,为提高音频特征提取时的准确性,在不同的波段进行波形识别之前,音视频分离模块可以先对所述子对象的音频内容进行降噪处理。
归类匹配模块330根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。所述内容标签是用于表示子对象实际所包含的影音内容的信息,可以根据用户的需求从各个调度描述影音内容,例如用于描述包含的内容、所处的场景或者对应的情感等。
在本申请的一些实施例中,归类匹配模块330可以采用深度学习的方式来完成内容标签的识别,在进行影音数据的处理之前,可以构建一深度学习模型,通过标注过内容标签的音频内容和视频内容作为训练集,对深度学习模型进行训练,使其可以用于子对象内容标签的识别。例如,若需要使得本申请实施例提供的方案可以识别某一电影中的片段是否有关于爆炸的内容,则可以提供各类关于爆炸的视频和音频作为训练集,该训练集中包含关于这些视频的视频特征信息和关于这些音频的音频特征信息,且已经标注其内容标签为爆炸。在训练样本足够的前提下,深度学习模型可以对输入的未标注过内容标签的视频特征信息或音频特征信息进行识别,确定其内容标签是否可以是爆炸,从而确定该电影片段所对应的内容。
本申请的另一实施例中,归类匹配模块330在确定子对象的内容标签之后,可以根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。例如,对于一部电影,可以将所有关于爆炸的片段归类为爆炸片段的集合,将所有关于人物打斗的片段也可以单独归类为一个集合。
实际场景中,在对子对象进行归类时,可以基于外部输入或者预设的归类条件,例如可以获取用户输入的关键词,根据关键词来选取匹配的内容标签,进而得到合适的内容集合。以电影为例,若需要生成该电影的预告片,则可以将采用本申请实施例提供的方案将该电影分割为多个片段,然后生成每个片段对应的内容标签。用户可以根据实际的需要输入相应的关键词,来选取生成预告片需要的片段,例如用户需要生成风格比较温情的预告片,则可以选取符合该风格的内容标签所对应的片段,作为用于生成预告片的素材,形成一个片段集合。同理,若用户需要生成打斗内容比较多的预告片,也可以选取对应内容标签的片段。
对于音频内容和视频内容,可以单独设定其标签,即可以分为视频内容标签和音频内容标签,两者相互对应,均关联于分割获得的影音数据对象的子对象。由此,在基于内容标签进行归类时,可以单独根据音频或者视频,也可以同时结合音频和视频来进行分类,从而生成用户需要的集合,集可以根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或音频内容集。
综上所述,本申请提供的影音数据的处理方案中,首先将影音数据对象分割为多个子对象,然后提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息,再根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,通过内容标签可以确定影音数据对象中各个子对象包含的具体内容,同时内容标签之间的关联也可以用于表示各部分内容之间的关联关系,进而可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个如图4所示的设备,该设备包括存储有机器可读指令的一个或多个机器可读介质410和用于执行机器可读指令的处理器420,其中,当该机器可读指令被该处理器执行时,使得所述设备执行基于前述根据本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (15)
1.一种影音数据的处理方法,其中,该方法包括:
根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类;
基于聚类结果,确定多个子对象;
从所述子对象的视频内容中提取关键帧,所述关键帧为图像运动或变化中的关键动作所处的帧;
获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息;
在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集;
分别提取所述音频集中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息;
根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签;
根据输入的关键词确定匹配的内容标签,并基于所述内容标签所对应的子对象生成所述影音数据对象的预告片。
2.根据权利要求1所述的方法,其中,基于聚类结果,确定多个子对象,包括:
根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。
3.根据权利要求1所述的方法,其中,在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集之前,还包括:
对所述子对象的音频内容进行降噪处理。
4.根据权利要求1所述的方法,其中,提取所述子对象中关于音频内容的音频特征信息之前,还包括:
从所述子对象中分离出所述音频内容。
5.根据权利要求1所述的方法,其中,根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,包括:
将所述视频特征信息和音频特征信息输入深度学习模型,获取每个子对象的内容标签,其中,所述深度学习模型基于标注过内容标签的音频内容和视频内容进行训练获得。
6.根据权利要求1所述的方法,其中,该方法还包括:
根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。
7.根据权利要求6所述的方法,其中,所述内容标签包括视频内容标签和音频内容标签;
根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,获取分类对象集,包括:
根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或视频内容集。
8.一种影音数据的处理设备,其中,该设备包括:
分割模块,用于根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类;基于聚类结果,确定多个子对象;
特征提取模块,用于从所述子对象的视频内容中提取关键帧,所述关键帧为图像运动或变化中的关键动作所处的帧;获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息;以及在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集;分别提取所述音频集中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息;
归类匹配模块,用于根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,根据输入的关键词确定匹配的内容标签,并基于所述内容标签所对应的子对象生成所述影音数据对象的预告片。
9.根据权利要求8所述的设备,其中,所述分割模块,用于根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。
10.根据权利要求8所述的设备,其中,该设备还包括:
降噪模块,用于在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集之前,对所述子对象的音频内容进行降噪处理。
11.根据权利要求8所述的设备,其中,该设备还包括:
音视频分离模块,用于从所述子对象中分离出所述音频内容。
12.根据权利要求8所述的设备,其中,根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,包括:
将所述视频特征信息和音频特征信息输入深度学习模型,获取每个子对象的内容标签,其中,所述深度学习模型基于标注过内容标签的音频内容和视频内容进行训练获得。
13.根据权利要求8所述的设备,其中,所述归类匹配模块,还用于根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。
14.根据权利要求13所述的设备,其中,所述内容标签包括视频内容标签和音频内容标签;
所述归类匹配模块,用于根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或视频内容集。
15.一种影音数据的处理设备,其中,该设备包括:
处理器;以及
存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810107188.8A CN108307229B (zh) | 2018-02-02 | 2018-02-02 | 一种影音数据的处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810107188.8A CN108307229B (zh) | 2018-02-02 | 2018-02-02 | 一种影音数据的处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108307229A CN108307229A (zh) | 2018-07-20 |
CN108307229B true CN108307229B (zh) | 2023-12-22 |
Family
ID=62850942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810107188.8A Active CN108307229B (zh) | 2018-02-02 | 2018-02-02 | 一种影音数据的处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108307229B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101920B (zh) * | 2018-08-07 | 2021-06-25 | 石家庄铁道大学 | 视频时域单元分割方法 |
CN109120996B (zh) * | 2018-08-31 | 2021-08-13 | 深圳市万普拉斯科技有限公司 | 视频信息识别方法、存储介质及计算机设备 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN109587568A (zh) * | 2018-11-01 | 2019-04-05 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、计算机可读存储介质 |
CN110234038B (zh) * | 2019-05-13 | 2020-02-14 | 特斯联(北京)科技有限公司 | 一种基于分布式存储的用户管理方法 |
CN110324726B (zh) * | 2019-05-29 | 2022-02-18 | 北京奇艺世纪科技有限公司 | 模型生成、视频处理方法、装置、电子设备及存储介质 |
CN110213670B (zh) * | 2019-05-31 | 2022-01-07 | 北京奇艺世纪科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN110677716B (zh) * | 2019-08-20 | 2022-02-01 | 咪咕音乐有限公司 | 音频处理方法、电子设备和存储介质 |
CN110930997B (zh) * | 2019-12-10 | 2022-08-16 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN111008287B (zh) * | 2019-12-19 | 2023-08-04 | Oppo(重庆)智能科技有限公司 | 音视频处理方法、装置、服务器及存储介质 |
CN113163272B (zh) * | 2020-01-07 | 2022-11-25 | 海信集团有限公司 | 视频剪辑方法、计算机设备及存储介质 |
CN111770375B (zh) | 2020-06-05 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN112487248B (zh) * | 2020-12-01 | 2024-09-06 | 重庆市易平方科技有限公司 | 视频文件的标签生成方法、装置、智能终端及存储介质 |
CN113095231B (zh) * | 2021-04-14 | 2023-04-18 | 上海西井信息科技有限公司 | 基于分类对象的视频识别方法、系统、设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040041127A (ko) * | 2004-04-23 | 2004-05-14 | 학교법인 한국정보통신학원 | 디지털 티비 방송의 시청자 맞춤형 비디오 요약 제공시스템 |
US6829781B1 (en) * | 2000-05-24 | 2004-12-07 | At&T Corp. | Network-based service to provide on-demand video summaries of television programs |
CN1938714A (zh) * | 2004-03-23 | 2007-03-28 | 英国电讯有限公司 | 用于对视频序列的场景进行语义分段的方法和系统 |
CN100538698C (zh) * | 2004-01-14 | 2009-09-09 | 三菱电机株式会社 | 概要再现装置和概要再现方法 |
JP2010039877A (ja) * | 2008-08-07 | 2010-02-18 | Nippon Telegr & Teleph Corp <Ntt> | 要約コンテンツ生成装置および要約コンテンツ生成プログラム |
CN103299324A (zh) * | 2010-11-11 | 2013-09-11 | 谷歌公司 | 使用潜在子标记来学习用于视频注释的标记 |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
US9002175B1 (en) * | 2013-03-13 | 2015-04-07 | Google Inc. | Automated video trailer creation |
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN105611413A (zh) * | 2015-12-24 | 2016-05-25 | 小米科技有限责任公司 | 一种添加视频段类别标记的方法和装置 |
US9635337B1 (en) * | 2015-03-27 | 2017-04-25 | Amazon Technologies, Inc. | Dynamically generated media trailers |
CN106649713A (zh) * | 2016-12-21 | 2017-05-10 | 中山大学 | 一种基于内容的电影可视化处理方法及其系统 |
CN106779073A (zh) * | 2016-12-27 | 2017-05-31 | 西安石油大学 | 基于深度神经网络的媒体信息分类方法及装置 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
CN107436921A (zh) * | 2017-07-03 | 2017-12-05 | 李洪海 | 视频数据处理方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195038B2 (en) * | 2008-10-24 | 2012-06-05 | At&T Intellectual Property I, L.P. | Brief and high-interest video summary generation |
US8769584B2 (en) * | 2009-05-29 | 2014-07-01 | TVI Interactive Systems, Inc. | Methods for displaying contextually targeted content on a connected television |
US9313535B2 (en) * | 2011-02-03 | 2016-04-12 | Ericsson Ab | Generating montages of video segments responsive to viewing preferences associated with a video terminal |
US10134440B2 (en) * | 2011-05-03 | 2018-11-20 | Kodak Alaris Inc. | Video summarization using audio and visual cues |
US9667937B2 (en) * | 2013-03-14 | 2017-05-30 | Centurylink Intellectual Property Llc | Auto-summarizing video content system and method |
US11055340B2 (en) * | 2013-10-03 | 2021-07-06 | Minute Spoteam Ltd. | System and method for creating synopsis for multimedia content |
-
2018
- 2018-02-02 CN CN201810107188.8A patent/CN108307229B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6829781B1 (en) * | 2000-05-24 | 2004-12-07 | At&T Corp. | Network-based service to provide on-demand video summaries of television programs |
CN100538698C (zh) * | 2004-01-14 | 2009-09-09 | 三菱电机株式会社 | 概要再现装置和概要再现方法 |
CN1938714A (zh) * | 2004-03-23 | 2007-03-28 | 英国电讯有限公司 | 用于对视频序列的场景进行语义分段的方法和系统 |
KR20040041127A (ko) * | 2004-04-23 | 2004-05-14 | 학교법인 한국정보통신학원 | 디지털 티비 방송의 시청자 맞춤형 비디오 요약 제공시스템 |
JP2010039877A (ja) * | 2008-08-07 | 2010-02-18 | Nippon Telegr & Teleph Corp <Ntt> | 要約コンテンツ生成装置および要約コンテンツ生成プログラム |
CN103299324A (zh) * | 2010-11-11 | 2013-09-11 | 谷歌公司 | 使用潜在子标记来学习用于视频注释的标记 |
US9002175B1 (en) * | 2013-03-13 | 2015-04-07 | Google Inc. | Automated video trailer creation |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
US9635337B1 (en) * | 2015-03-27 | 2017-04-25 | Amazon Technologies, Inc. | Dynamically generated media trailers |
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN105611413A (zh) * | 2015-12-24 | 2016-05-25 | 小米科技有限责任公司 | 一种添加视频段类别标记的方法和装置 |
CN106649713A (zh) * | 2016-12-21 | 2017-05-10 | 中山大学 | 一种基于内容的电影可视化处理方法及其系统 |
CN106779073A (zh) * | 2016-12-27 | 2017-05-31 | 西安石油大学 | 基于深度神经网络的媒体信息分类方法及装置 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN107436921A (zh) * | 2017-07-03 | 2017-12-05 | 李洪海 | 视频数据处理方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
NVPS:一个多模态的新闻视频处理系统;谢毓湘, 栾悉道, 吴玲达, 老松杨;情报学报(04);全文 * |
Personalized video summary using visual semantic annotations and automatic speech transcriptions;B.L. Tseng 等;《IEEE》;全文 * |
基于情感的视频摘要研究;兰怡洁;《中国优秀硕士学位论文电子期刊》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108307229A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108307229B (zh) | 一种影音数据的处理方法及设备 | |
Afouras et al. | Self-supervised learning of audio-visual objects from video | |
Chung et al. | Out of time: automated lip sync in the wild | |
Hong et al. | Dynamic captioning: video accessibility enhancement for hearing impairment | |
EP2641401B1 (en) | Method and system for video summarization | |
Ejaz et al. | Efficient visual attention based framework for extracting key frames from videos | |
US7555149B2 (en) | Method and system for segmenting videos using face detection | |
EP3813376A1 (en) | System and method for generating localized contextual video annotation | |
Hong et al. | Video accessibility enhancement for hearing-impaired users | |
Feng et al. | Self-supervised video forensics by audio-visual anomaly detection | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN108833973A (zh) | 视频特征的提取方法、装置和计算机设备 | |
US20140181668A1 (en) | Visual summarization of video for quick understanding | |
US20110304774A1 (en) | Contextual tagging of recorded data | |
US20120033949A1 (en) | Video Skimming Methods and Systems | |
US11057457B2 (en) | Television key phrase detection | |
CN110914872A (zh) | 用认知洞察力导航视频场景 | |
El Khoury et al. | Audiovisual diarization of people in video content | |
US10904476B1 (en) | Techniques for up-sampling digital media content | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
Coutrot et al. | An audiovisual attention model for natural conversation scenes | |
CN108615532B (zh) | 一种应用于声场景的分类方法及装置 | |
CN113343831A (zh) | 视频中说话人分类方法、装置、电子设备和存储介质 | |
CN111836118B (zh) | 视频处理方法、装置、服务器及存储介质 | |
Li et al. | What's making that sound? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |