CN106649713A - 一种基于内容的电影可视化处理方法及其系统 - Google Patents
一种基于内容的电影可视化处理方法及其系统 Download PDFInfo
- Publication number
- CN106649713A CN106649713A CN201611188828.XA CN201611188828A CN106649713A CN 106649713 A CN106649713 A CN 106649713A CN 201611188828 A CN201611188828 A CN 201611188828A CN 106649713 A CN106649713 A CN 106649713A
- Authority
- CN
- China
- Prior art keywords
- information
- film
- video
- plot
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012800 visualization Methods 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 40
- 239000012634 fragment Substances 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims 3
- 238000012216 screening Methods 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于内容的电影可视化处理方法及其系统,其中,该方法包括:提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息;根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。在本发明实施例中,通过视频语义分割和情节概括,多角度、集中地呈现电影内容和整体结构,用户交互友好,有效帮助用户快速抓住电影重要情节,理解电影风格、主题,提高用户筛选电影的效率和使用体验感。
Description
技术领域
本发明涉及数据挖掘、信息可视化技术领域,尤其涉及一种基于内容的电影可视化处理方法及其系统。
背景技术
近年来,随着多媒体技术和互联网技术的迅速发展,电影产量一直保持着快速增长态势,各类电影资源极大丰富。用户要在庞大数量的电影中选出自己喜欢的电影,只能通过文字剧情介绍,电影的海报等进行了解。但是,简单的文字剧情介绍或者海报往往不能让用户对影片有一个整体全面的认识,用户还是不易筛选出自己喜欢的电影。
为了满足信息时代快速有效的获取或筛选信息的需求,越来越多的人开始关注信息可视化,并开始探索可视化在各个领域中的应用,各种创新型可视化案例纷纷涌现,数据信息可视化的理论研究和实践也趋于成熟,可视化已然成为各个领域处理数据信息的一种高效方法。在数据信息爆炸的信息时代中,随着网络技术和多媒体技术的高速发展,视频成为获取信息的重要来源,视频作为承载信息内容最丰富的一种媒介形式,相对于其他的媒介而言,视频传递的信息内容更为生动、直观和有效,因此,用户更加青睐于在视频中获取信息内容。
为了解决这个问题,需要从电影视频中挖掘能充分反映电影主题的信息,并生动形象展示给用户。但是,电影视频数据单元关系不明确,视频数据内容提取困难,存在语义鸿沟等问题,加大了挖掘电影有用信息的难度,使得用户了解电影内容、筛选电影的效率以及用户体验度大大降低。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于内容的电影可视化处理方法及其系统,通过视频语义分割和情节概括,多角度、集中地呈现电影内容和整体结构,提高用户筛选电影的效率和使用体验感。
为了解决上述问题,本发明提出了一种基于内容的电影可视化处理方法,所述方法包括:
提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
优选地,所述提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息的步骤,包括:
根据用户在电影库检索的视频结果获取电影基本帧序列信息;
对所述电影基本帧序列信息提取对应的视频结构化信息,所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;
根据用户在电影库检索的电影结果分离出电影的音频信息,对所述音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。
优选地,所述根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节的步骤,包括:
根据所述语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据所述词汇表以及词频构建视频特征向量;
对所述视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据所述视频特征向量计算相邻文本块间的相似度;
根据所述相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
优选地,所述概括语义主题,归纳电影情节信息的步骤,包括:
计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
根据所述关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
根据所述各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
优选地,所述根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面的步骤,包括:
构建电影可视化框架;
将所述电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入所述电影可视化框架;
将已填入内容的电影可视化框架进行显示,生成可视化界面。
相应地,本发明还提供一种基于内容的电影可视化处理系统,所述系统包括:
信息提取模块,用于提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
情节归纳模块,用于根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
界面生成模块,用于根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
优选地,所述提取模块包括:
帧序列信息获取单元,用于根据用户在电影库检索的视频结果获取电影基本帧序列信息;
结构化信息提取单元,用于对所述电影基本帧序列信息提取对应的视频结构化信息,所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;
音频信息处理单元,用于根据用户在电影库检索的电影结果分离出电影的音频信息,对所述音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
生成单元,用于将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。
优选地,所述情节归纳模块包括:
视频特征向量构建单元,用于根据所述语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据所述词汇表以及词频构建视频特征向量;
相似度计算单元,用于对所述视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据所述视频特征向量计算相邻文本块间的相似度;根据所述相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
情节分割单元,用于根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
优选地,所述情节归纳模块还包括:
权值计算单元,用于计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
关键词获取单元,用于根据所述关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
归纳单元,用于根据所述各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
优选地,所述界面生成模块包括:
构建单元,用于构建电影可视化框架;
填入单元,用于将所述电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入所述电影可视化框架;
显示单元,用于将已填入内容的电影可视化框架进行显示,生成可视化界面。
在本发明实施例中,通过视频语义分割和情节概括,多角度、集中地呈现电影内容和整体结构,用户交互友好,有效帮助用户快速抓住电影重要情节,理解电影风格、主题,提高用户筛选电影的效率和使用体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于内容的电影可视化处理方法的流程示意图;
图2是本发明实施例中获取音视频结构化内容信息的过程示意图;
图3是本发明实施例中将电影分割为内容独立的情节的过程示意图;
图4是本发明实施例中构建可视化框架及生成可视化界面的过程示意图;
图5是本发明实施例中可视化界面的示意图;
图6是本发明实施例的基于内容的电影可视化处理系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于内容的电影可视化处理方法的流程示意图,如图1所示,该方法包括:
S1,提取电影的音视频信息,对音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
S2,根据电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
S3,根据电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
具体地,如图2所示,S1进一步包括:
S11,根据用户在电影库检索的视频结果获取电影基本帧序列信息;
S12,对电影基本帧序列信息提取对应的视频结构化信息,该视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;具体实施中,提取对应的视频结构化信息的过程包括:镜头分割、关键帧提取、OCR识别、场景检测、人脸识别等;
S13,根据用户在电影库检索的电影结果分离出电影的音频信息,对音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
S14,将视频结构化信息和语音文本信息组成音视频结构化内容信息。
具体地,在S12中,利用基于色彩直方图的镜头分割算法对电影进行镜头分割处理,获取电影镜头信息;通过计算图像之间相似程度的大小对各个镜头内部视频序列进行KNN聚类分组,记录每个分组中最接近类中心的帧信息,对电影进行关键帧检测处理,获取电影关键帧序列;利用基于HMM和BAYes等统计方法的场景检测算法对电影进行场景检测处理,获取电影场景信息;利用基于PCA的人脸识别算法对电影进行人物检测处理,获取电影人物信息;分别记录以上信息对应的时间线信息。
如图3所示,S2进一步包括:
S21,根据语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据词汇表以及词频构建视频特征向量;
S22,对视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据视频特征向量计算相邻文本块间的相似度;
S23,根据相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
S24,根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
具体实施中,从电影中分离出音频信息,过滤掉静音和噪音;使用音频分类器对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人,获取音频对应的人物信息;利用ASR语音识别技术对纯语音信息做文字转化处理,获取处理后文本信息。
根据语音转换的文本信息进行去停词,提取主干处理,统计文本信息出现的词,得到视频的词汇表;
将文本信息预分割为文本小块,根据视频词汇表统计每个文本小块在词汇表中出现词的词频,提取每个文本小块bag-of-word特征,该特征每一维度代表词汇表中的一个词,每一维度的值代表文本小块在该维度对应词的词频;对特征进行归一化处理;
根据以下公式计算相邻文本块V1、V2特征相似度:
其中n表示bag-of-word特征维度,Wt、v1、Wt、v1分别表示V1、V2在t维度上的值。文本小块相似度反应了相邻两块间的内容联系的紧密程度;
定义每一个文本块的相似度分数为s(c)=sim(p)+sim(f),其中sim(p)表示当前块与其相邻上一块的相似度,sim(f)表示当前块与其相邻下一块的相似度;文本小块相似度分数即为该块与其相邻两块相似度之和,反应了该文本小块与其上下文联系的紧密程度。
根据公式depthscore(c)=(s(p)-s(c))+(s(f)-s(c))计算每一文本块的深度分数,其中s(p)为上一块相似度分数,s(c)为当前块相似度分数,s(f)为下一块相似度分数;深度分数显示了当前文本块与其相邻块间相似度分数上的差异,如果一个文本块的深度分数相当大,则说明该文本块的相似度分数远小于其相邻块,而相似度分数反应了文本块与其上下文间内容联系的紧密程度,即表明该文本块与其上下文联系的紧密程度远小于其相邻文本块,所以该文本块的位置就是视频语义边界。
由于可能存在过度分割或者分割不足的问题,需要自适应处理来避免以上问题,首先确定深度分数阈值,深度分数大于阈值的位置就是视频语义边界,找到语义边界对应的时间戳,将电影分割成语义独立的片段,每一个片段对应电影的一个情节。
进一步地,概括语义主题,归纳电影情节信息的步骤,包括:
计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
根据关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
根据各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
对各个情节进行去停词,提取主干,根据公式CW=a1K+a2T+a3L计算词的权重,其中K是根据TFIDF特征计算的权值,TFIDF表是在当前情节词频高而在其他情节词频低的词为关键词;T代表题名词权值,在标题中出现的词的权值应该被加大;L是根据词位置计算的权值,出现在首句或尾句的词的权值应该被加大;a1、a2、a3是调节参数,实际分别取0.5、0.3、0.2,取CW最大的15个词作为该片段的关键词;
根据以下公式计算片段中各个句子权值:
其中CWt表示该句第t个词的权值,n为该句子包含词的总数;
权值最大的句子词语平均权值最高,包含的单位信息量最大,能较好的反应该段情节主题,所以选择权值最大的句子概括该段情节。
如图4所示,S3进一步包括:
S31,构建电影可视化框架;
S32,将电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入电影可视化框架;
S33,将已填入内容的电影可视化框架进行显示,生成可视化界面。
如图5所示,电影可视化框架及可视化界面说明如下:
(1)将电影可视化页面纵向等分成2部分;上半部为:电影播放区域A、关键帧可视化区域B、关键词可视化区域C;下半部为:时间轴及电影语义分割可视化区域D和电影情节归纳可视化区域E;
(2)时间轴及电影语义分割可视化区域D用于展示电影的时间线信息以及电影语义分割信息,时间轴根据电影情节分成若干段,每段对应一个情节,用户可以清楚掌握电影结构;
(3)电影情节归纳可视化区域E在时间轴下方,用于展示该段电影情节的主题信息,用户能对该段电影情节主题有一个清晰的认识;
(4)电影播放区域A用于播放电影视频;
(5)将上半部的右半部分按3:2比例分为两部分,左边为关键帧可视化区域B,用于展示电影各个情节关键帧信息,用户通过浏览关键帧图像信息,能快速捕捉到电影人物、场景、动作等精彩镜头;右边为关键词可视化区域C,用于展示电影各个情节关键词信息,关键词很好地反映了该段情节电影的内容,用户能通过关键词快速对电影情节内容有一个大致的了解。
具体显示过程如下:
(1)将电影视频数据填入电视播放区域A;
(2)将时间轴信息及电影语义边界信息填入时间轴及电影语义分割可视化区域D;将各个情节的主题信息填入电影情节归纳可视化区域E;用户点击时间轴电影播放进度会跳到该段情节起始时间开始播放;用户点击主题信息,相应主题信息会高亮显示;
(3)将第一个情节的关键帧信息填入关键帧可视化区域B,关键帧可视化区域B通过用户点击时间轴不同的分段显示对应情节的关键帧信息;用户鼠标移到相应的关键词对应的关键帧,该关键词对应的关键帧高亮显示;
(4)将第一个情节的关键词信息填入关键词可视化区域C,关键词可视化区域C通过用户点击时间轴不同的分段显示对应情节的关键词信息。
相应地,本发明实施例还提供一种基于内容的电影可视化处理系统,如图6所示,该系统包括:
信息提取模块1,用于提取电影的音视频信息,对音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
情节归纳模块2,用于根据电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
界面生成模块3,用于根据电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
进一步地,提取模块1包括:
帧序列信息获取单元,用于根据用户在电影库检索的视频结果获取电影基本帧序列信息;
结构化信息提取单元,用于对电影基本帧序列信息提取对应的视频结构化信息,该视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;
音频信息处理单元,用于根据用户在电影库检索的电影结果分离出电影的音频信息,对音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
生成单元,用于将视频结构化信息和语音文本信息组成音视频结构化内容信息。
情节归纳模块2包括:
视频特征向量构建单元,用于根据语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据词汇表以及词频构建视频特征向量;
相似度计算单元,用于对视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据视频特征向量计算相邻文本块间的相似度;根据相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
情节分割单元,用于根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
情节归纳模块2还包括:
权值计算单元,用于计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
关键词获取单元,用于根据关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
归纳单元,用于根据各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
界面生成模块3包括:
构建单元,用于构建电影可视化框架;
填入单元,用于将电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入电影可视化框架;
显示单元,用于将已填入内容的电影可视化框架进行显示,生成可视化界面。
具体地,本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述,这里不再赘述。
在本发明实施例中,通过视频语义分割和情节概括,多角度、集中地呈现电影内容和整体结构,用户交互友好,有效帮助用户快速抓住电影重要情节,理解电影风格、主题,提高用户筛选电影的效率和使用体验感。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的基于内容的电影可视化处理方法及其系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于内容的电影可视化处理方法,其特征在于,所述方法包括:
提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
2.如权利要求1所述的基于内容的电影可视化处理方法,其特征在于,所述提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息的步骤,包括:
根据用户在电影库检索的视频结果获取电影基本帧序列信息;
对所述电影基本帧序列信息提取对应的视频结构化信息,所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;
根据用户在电影库检索的电影结果分离出电影的音频信息,对所述音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。
3.如权利要求2所述的基于内容的电影可视化处理方法,其特征在于,所述根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节的步骤,包括:
根据所述语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据所述词汇表以及词频构建视频特征向量;
对所述视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据所述视频特征向量计算相邻文本块间的相似度;
根据所述相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
4.如权利要求3所述的基于内容的电影可视化处理方法,其特征在于,所述概括语义主题,归纳电影情节信息的步骤,包括:
计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
根据所述关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
根据所述各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
5.如权利要求2所述的基于内容的电影可视化处理方法,其特征在于,所述根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面的步骤,包括:
构建电影可视化框架;
将所述电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入所述电影可视化框架;
将已填入内容的电影可视化框架进行显示,生成可视化界面。
6.一种基于内容的电影可视化处理系统,其特征在于,所述系统包括:
信息提取模块,用于提取电影的音视频信息,对所述音视频信息进行结构化处理,获取对应的音视频结构化内容信息;
情节归纳模块,用于根据所述电影音视频结构化内容信息检测电影语义边界,将电影分割为内容独立的情节,并概括语义主题,归纳电影情节信息;
界面生成模块,用于根据所述电影语义边界、归纳的电影情节信息,以及对应的音视频信息构建可视化框架,生成可视化界面。
7.如权利要求6所述的基于内容的电影可视化处理系统,其特征在于,所述提取模块包括:
帧序列信息获取单元,用于根据用户在电影库检索的视频结果获取电影基本帧序列信息;
结构化信息提取单元,用于对所述电影基本帧序列信息提取对应的视频结构化信息,所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息;
音频信息处理单元,用于根据用户在电影库检索的电影结果分离出电影的音频信息,对所述音频信息进行静音与噪音的过滤,对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息;对于纯语音音频信息,根据时间线和视频中的人物信息识别其对应的说话人;对纯语音信息做文字转化处理,获取处理后的语音文本信息;
生成单元,用于将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。
8.如权利要求7所述的基于内容的电影可视化处理系统,其特征在于,所述情节归纳模块包括:
视频特征向量构建单元,用于根据所述语音文本信息进行去停词、提取主干处理,得到视频的词汇表,并根据所述词汇表以及词频构建视频特征向量;
相似度计算单元,用于对所述视频结构化信息进行预划分处理,获得若干个长度相当的文本块,根据所述视频特征向量计算相邻文本块间的相似度;根据所述相邻文本块间的相似度比较相邻文本块的相似度差异,计算每个文本块代表该文本块可能成为语义边界的深度分数,搜索深度分数峰值,确定语义边界时间戳;
情节分割单元,用于根据边界时间戳将电影分割成语义独立的片段,每个片段对应电影一个情节。
9.如权利要求8所述的基于内容的电影可视化处理系统,其特征在于,所述情节归纳模块还包括:
权值计算单元,用于计算各个情节每个关键词的权值,提取各个情节关键词获取关键词信息;
关键词获取单元,用于根据所述关键词的权值计算各个情节每个句子权值,提取各个情节关键句,获取关键词信息;
归纳单元,用于根据所述各个情节关键句概括情节语义主题,归纳电影情节,获取情节主题信息。
10.如权利要求6所述的基于内容的电影可视化处理系统,其特征在于,所述界面生成模块包括:
构建单元,用于构建电影可视化框架;
填入单元,用于将所述电影的视频、电影语义边界,归纳的电影情节信息,以及对应的关键帧信息、关键词信息填入所述电影可视化框架;
显示单元,用于将已填入内容的电影可视化框架进行显示,生成可视化界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611188828.XA CN106649713B (zh) | 2016-12-21 | 2016-12-21 | 一种基于内容的电影可视化处理方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611188828.XA CN106649713B (zh) | 2016-12-21 | 2016-12-21 | 一种基于内容的电影可视化处理方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649713A true CN106649713A (zh) | 2017-05-10 |
CN106649713B CN106649713B (zh) | 2020-05-12 |
Family
ID=58834729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611188828.XA Active CN106649713B (zh) | 2016-12-21 | 2016-12-21 | 一种基于内容的电影可视化处理方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649713B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107968959A (zh) * | 2017-11-15 | 2018-04-27 | 广东广凌信息科技股份有限公司 | 一种教学视频的知识点分割方法 |
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108307229A (zh) * | 2018-02-02 | 2018-07-20 | 新华智云科技有限公司 | 一种影音数据的处理方法及设备 |
CN109145152A (zh) * | 2018-06-28 | 2019-01-04 | 中山大学 | 一种基于查询词的自适应智能生成图文视频缩略图方法 |
CN109754786A (zh) * | 2017-11-06 | 2019-05-14 | 奥迪股份公司 | 用于车辆的语音控制装置 |
CN110110326A (zh) * | 2019-04-25 | 2019-08-09 | 西安交通大学 | 一种基于主题信息的文本切割方法 |
CN110209877A (zh) * | 2018-02-06 | 2019-09-06 | 上海全土豆文化传播有限公司 | 视频分析方法及装置 |
CN110263650A (zh) * | 2019-05-22 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 行为类别检测方法、装置、电子设备和计算机可读介质 |
CN111339359A (zh) * | 2020-02-18 | 2020-06-26 | 中山大学 | 一种基于九宫格的视频缩略图自动生成方法 |
CN108566567B (zh) * | 2018-04-25 | 2020-09-01 | 中影数字巨幕(北京)有限公司 | 电影剪辑方法及装置 |
CN111680516A (zh) * | 2020-06-04 | 2020-09-18 | 宁波浙大联科科技有限公司 | Pdm系统产品设计需求信息语义分析提取方法及系统 |
CN112040313A (zh) * | 2020-11-04 | 2020-12-04 | 中山大学深圳研究院 | 一种视频内容结构化方法、装置、终端设备及介质 |
CN112218102A (zh) * | 2020-08-29 | 2021-01-12 | 上海量明科技发展有限公司 | 视频内容发包制作方法、客户端及系统 |
CN112399262A (zh) * | 2020-10-30 | 2021-02-23 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083473A1 (en) * | 2000-12-21 | 2002-06-27 | Philips Electronics North America Corporation | System and method for accessing a multimedia summary of a video program |
CN102523536A (zh) * | 2011-12-15 | 2012-06-27 | 清华大学 | 视频语义可视化方法 |
CN102902756A (zh) * | 2012-09-24 | 2013-01-30 | 南京邮电大学 | 一种基于故事情节的视频摘要提取方法 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN103905742A (zh) * | 2014-04-10 | 2014-07-02 | 北京数码视讯科技股份有限公司 | 视频文件的切分方法及装置 |
CN104199933A (zh) * | 2014-09-04 | 2014-12-10 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
CN105868292A (zh) * | 2016-03-23 | 2016-08-17 | 中山大学 | 一种视频可视化处理方法及系统 |
-
2016
- 2016-12-21 CN CN201611188828.XA patent/CN106649713B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083473A1 (en) * | 2000-12-21 | 2002-06-27 | Philips Electronics North America Corporation | System and method for accessing a multimedia summary of a video program |
CN102523536A (zh) * | 2011-12-15 | 2012-06-27 | 清华大学 | 视频语义可视化方法 |
CN102902756A (zh) * | 2012-09-24 | 2013-01-30 | 南京邮电大学 | 一种基于故事情节的视频摘要提取方法 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN103905742A (zh) * | 2014-04-10 | 2014-07-02 | 北京数码视讯科技股份有限公司 | 视频文件的切分方法及装置 |
CN104199933A (zh) * | 2014-09-04 | 2014-12-10 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
CN105868292A (zh) * | 2016-03-23 | 2016-08-17 | 中山大学 | 一种视频可视化处理方法及系统 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754786A (zh) * | 2017-11-06 | 2019-05-14 | 奥迪股份公司 | 用于车辆的语音控制装置 |
CN107968959A (zh) * | 2017-11-15 | 2018-04-27 | 广东广凌信息科技股份有限公司 | 一种教学视频的知识点分割方法 |
CN107968959B (zh) * | 2017-11-15 | 2021-02-19 | 广东广凌信息科技股份有限公司 | 一种教学视频的知识点分割方法 |
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108172241B (zh) * | 2017-12-27 | 2020-11-17 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108307229A (zh) * | 2018-02-02 | 2018-07-20 | 新华智云科技有限公司 | 一种影音数据的处理方法及设备 |
CN108307229B (zh) * | 2018-02-02 | 2023-12-22 | 新华智云科技有限公司 | 一种影音数据的处理方法及设备 |
CN110209877A (zh) * | 2018-02-06 | 2019-09-06 | 上海全土豆文化传播有限公司 | 视频分析方法及装置 |
CN108566567B (zh) * | 2018-04-25 | 2020-09-01 | 中影数字巨幕(北京)有限公司 | 电影剪辑方法及装置 |
CN109145152B (zh) * | 2018-06-28 | 2021-09-17 | 中山大学 | 一种基于查询词的自适应智能生成图文视频缩略图方法 |
CN109145152A (zh) * | 2018-06-28 | 2019-01-04 | 中山大学 | 一种基于查询词的自适应智能生成图文视频缩略图方法 |
CN110110326A (zh) * | 2019-04-25 | 2019-08-09 | 西安交通大学 | 一种基于主题信息的文本切割方法 |
CN110263650A (zh) * | 2019-05-22 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 行为类别检测方法、装置、电子设备和计算机可读介质 |
CN110263650B (zh) * | 2019-05-22 | 2022-02-22 | 北京奇艺世纪科技有限公司 | 行为类别检测方法、装置、电子设备和计算机可读介质 |
CN111339359A (zh) * | 2020-02-18 | 2020-06-26 | 中山大学 | 一种基于九宫格的视频缩略图自动生成方法 |
CN111680516A (zh) * | 2020-06-04 | 2020-09-18 | 宁波浙大联科科技有限公司 | Pdm系统产品设计需求信息语义分析提取方法及系统 |
CN112218102A (zh) * | 2020-08-29 | 2021-01-12 | 上海量明科技发展有限公司 | 视频内容发包制作方法、客户端及系统 |
CN112218102B (zh) * | 2020-08-29 | 2024-01-26 | 上海量明科技发展有限公司 | 视频内容发包制作方法、客户端及系统 |
CN112399262A (zh) * | 2020-10-30 | 2021-02-23 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
CN112399262B (zh) * | 2020-10-30 | 2024-02-06 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
CN112040313B (zh) * | 2020-11-04 | 2021-04-09 | 中山大学深圳研究院 | 一种视频内容结构化方法、装置、终端设备及介质 |
CN112040313A (zh) * | 2020-11-04 | 2020-12-04 | 中山大学深圳研究院 | 一种视频内容结构化方法、装置、终端设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106649713B (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649713A (zh) | 一种基于内容的电影可视化处理方法及其系统 | |
Truong et al. | Video abstraction: A systematic review and classification | |
CN103646094B (zh) | 实现视听类产品内容摘要自动提取生成的系统及方法 | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
Alatan et al. | Multi-modal dialog scene detection using hidden Markov models for content-based multimedia indexing | |
JP4920395B2 (ja) | 動画要約自動作成装置、方法、及びコンピュータ・プログラム | |
US8873861B2 (en) | Video processing apparatus and method | |
Jiang et al. | Automatic consumer video summarization by audio and visual analysis | |
JP2004229283A (ja) | ニュースビデオにおいてニュース司会者の遷移を識別する方法 | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
US7349477B2 (en) | Audio-assisted video segmentation and summarization | |
JP2010011409A (ja) | 映像ダイジェスト装置及び映像編集プログラム | |
JP6389296B1 (ja) | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム | |
Chen et al. | Incorporating audio cues into dialog and action scene extraction | |
CN110287376B (zh) | 一种基于剧本和字幕分析的抽取重要电影片段的方法 | |
JP2010039877A (ja) | 要約コンテンツ生成装置および要約コンテンツ生成プログラム | |
Azab et al. | Speaker naming in movies | |
KR102267725B1 (ko) | 데이터베이스 구축 방법 및 장치 | |
Qu et al. | Semantic movie summarization based on string of IE-RoleNets | |
Favre et al. | PERCOLI: a person identification system for the 2013 REPERE challenge | |
Bechet et al. | Detecting person presence in tv shows with linguistic and structural features | |
Petersohn | Logical unit and scene detection: a comparative survey | |
Snoek | The authoring metaphor to machine understanding of multimedia | |
Smith et al. | Multimodal video characterization and summarization | |
Liu et al. | Integrating multiple feature fusion for semantic event detection in soccer video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |