CN108664470A - 视频标题信息量的度量方法、可读存储介质及电子设备 - Google Patents
视频标题信息量的度量方法、可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN108664470A CN108664470A CN201810428803.5A CN201810428803A CN108664470A CN 108664470 A CN108664470 A CN 108664470A CN 201810428803 A CN201810428803 A CN 201810428803A CN 108664470 A CN108664470 A CN 108664470A
- Authority
- CN
- China
- Prior art keywords
- video title
- word
- cross reference
- reference file
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种视频标题信息量的度量方法,包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。本发明还涉及相关的计算机可读存储介质和电子设备。
Description
技术领域
本发明涉及数据处理的技术领域,更具体地,涉及一种视频标题信息量的度量方法以及相关的计算机可读存储介质和电子设备。
背景技术
网站上视频的标题一般由用户在上传时填写,通过填写一些有意义的文字使得视频观看者能够通过标题快速的获取信息。标题的质量是视频质量的一部分,一个能够包含更多视频内容信息的标题可以吸引更多用户观看,因此对视频标题的信息量进行度量是非常重要的。目前,现有技术中并无对视频标题信息量进行度量的实现方案。
发明内容
针对上述问题,为了对视频标题信息量进行度量,作为本发明的一个方面,提出了一种视频标题信息量的度量方法,其中,该方法包括以下步骤:
S1、将待度量的视频标题文本切分为一个或多个单独的词语;
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。
在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
在一些实施例中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp:
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs:
其中,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
在一些实施例中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。
在一些实施例中,若Mi=0,则
在一些实施例中,所述参照文本为人民日报文本。
本发明的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令在由处理器执行时,实现如前任一项所述的视频标题信息量的度量方法的步骤。
本发明另一方面提供了一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,以执行如上任一项所述的视频标题信息量的度量方法的步骤。
基于上述技术方案可知,本发明至少取得了以下有益效果中的一个:
本发明提供的视频标题信息量的度量方法及相关的可读存储介质和电子设备,基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方式,可以方便、简洁、直观地完成视频标题信息量的度量;同时还选用了参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
附图说明
图1为根据本发明的实施例的视频标题信息量的度量方法的流程图。
图2为根据本发明的实施例的计算机可读存储介质的示意图;
图3为根据本发明的实施例的电子设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
参照图1,示出了根据本发明的一个实施例的视频标题信息量的度量方法的流程图,包括以下步骤:
S1、将待度量的视频的标题文本切分为一个或多个单独的词语。在对需要度量的某一视频的标题文本进行信息量的度量时,首先需要把待度量的视频的标题文本进行切分,比如可以将具有较长字符串的标题文本按照语义关系切分成一个或多个单独的词语。
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在参照文本中出现的概率。通过选用参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵。
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
如上在步骤S2中所述的所有视频标题文本和参照文本可以根据实际统计需求进行确定。例如,所有视频标题文本可以为一个视频网站中的全部视频标题文本;也可以综合考虑多个视频网站中的全部视频标题文本作为所有视频标题文本。在待度量的视频的标题属于较常规领域的情况下,上述参照文本可以为较为通用的文本,例如人民日报文本;当待度量的视频的标题涉及较特殊的领域时,上述参照文本可以为涉及相关领域的文本,例如,对于科普类视频的标题,可以选取相关科普文献或期刊文本作为参照文本。
本发明的实施例基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方法,可以方便、简洁、直观地完成视频标题信息量的度量。
“信息熵”的概念最初由香农提出,香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。
然而对于视频标题来说,并不是视频标题包括的词语越多则该视频标题质量越高、包含的信息量越多。本发明的实施例中将信息熵除以视频标题文本切分后得到的词语个数作为平均信息熵,以更加客观地反映视频标题的信息量。通过采用平均信息熵,使得视频标题中信息熵较高的词语占的比重越大,其包含的信息量越多。
其中,所述所有视频标题文本实质上为一个包括了所有视频标题文本的文本库;所述参照文本实质上为参照文本的文本库。
在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。例如,对于标题“视频标题信息量的度量方法”,则将其切分为“视频”、“标题”、“信息量”、“度量”和“方法”,而去除了无意义的助词“的”。通过去除无意义的词语,优化了度量结果。
在一些实施例中,所述参照文本为人民日报文本。人民日报文本属于较通用的文本,而视频标题文本具有较高的专业性。因此,计算得到的在所有视频标题文本中的平均信息熵表示视频标题在较专业的领域中的信息量;在人民日报文本中的平均信息熵表示视频标题在通用领域中的信息量。对二者进行综合考虑,使得视频标题信息量度量结果更加客观可信。
在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
需要说明的是,N表示的并不是所有视频标题文本中出现的所有词语的个数,而是所有词语中的每个词语出现的次数之和。
同样,M表示并不是参照文本中出现的所有词语的个数,而是所有词语中的每个词语出现的次数之和。
pi表示的是视频标题中第i个词语在所有视频标题文本中出现的次数在所有视频标题文本中出现的词语的总出现次数中的占比;si表示的是视频标题中第i个词在参照文本中出现的次数在参照文本中出现的词语的总出现次数中的占比。
在一些实施例中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp:
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs:
在此,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
在一些实施例中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。其中w1和w2根据业务经验确定,因度量对象为视频标题,一般情况下,各词语在所有视频标题文本中的平均信息熵的权重应较高。
通过以上公式,能方便、简洁、直观地完成视频标题信息量的度量。H的值越大,则表示视频标题所包含的信息量越多。
在一些实施例中,若Mi=0,即第i个词语在参照文本中没有出现时,令在这种情况下,可能某些专业性较高的词语并未在参照文本中出现,此时优选方案是进行平滑处理,即给si赋一个定值。
下面对一个具体实施例进行说明:
例如,一个视频的标题经过分词生成了三个词语a,b和c。a,b和c在所有视频标题文本中出现的次数分别是10次、50次和100次,所有视频标题文本中出现的词语的总出现次数为100000次。
词语a,b和c在人民日报文本中出现的次数分别是500次、200次和1000次,人民日报文本中出现的词语的总出现次数为1000000次。
设置权重系数w1=0.6,w2=0.4
于是:
计算得到的H值越大,则表示视频标题所包含的信息量越多,进一步可据此判断视频标题本文的质量较好,因此可以根据上述H值判断相关视频的标题本文的质量的好坏。当然,根据本发明的方法不仅用于对视频的标题信息的质量进行判断,还可用于对直播间、文档等的标题名称的质量进行评价。
本发明的实施例基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方式,可以方便、简洁、直观地完成视频标题信息量的度量;并且去除了无意义的词语,优化了度量结果;同时还选用了参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
基于同一发明构思,参考图2所示,本发明的实施例还提供一种计算机可读存储介质201,其上存储有可执行指令202,可执行指令202在由一个或多个处理器执行时,可以实现如上实施例的任一种所述的视频标题信息量的度量方法的步骤。
基于同一发明构思,参考图3所示,本发明的实施例还提供一种电子设备301,其包括:存储器302,用于存储可执行指令;以及处理器303,用于执行存储器302中存储的可执行指令,以执行根据如上实施例的任一种所述的视频标题信息量的度量方法的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种视频标题信息量的度量方法,包括以下步骤:
S1、将待度量的视频标题文本切分为一个或多个单独的词语;
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
2.根据权利要求1所述的方法,其中,步骤S1还包括去除所述词语中的无意义词语的步骤。
3.根据权利要求1所述的方法,其中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
4.根据权利要求3所述的方法,其中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp:
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs:
其中,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
5.根据权利要求4所述的方法,其中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。
6.根据权利要求3所述的方法,其中,若Mi=0,则
7.根据权利要求1-6中任一项所述的方法,其中,所述参照文本为人民日报文本。
8.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令在由处理器执行时,实现根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。
9.一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,以执行根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810428803.5A CN108664470B (zh) | 2018-05-04 | 2018-05-04 | 视频标题信息量的度量方法、可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810428803.5A CN108664470B (zh) | 2018-05-04 | 2018-05-04 | 视频标题信息量的度量方法、可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108664470A true CN108664470A (zh) | 2018-10-16 |
CN108664470B CN108664470B (zh) | 2022-06-17 |
Family
ID=63778659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810428803.5A Active CN108664470B (zh) | 2018-05-04 | 2018-05-04 | 视频标题信息量的度量方法、可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664470B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109729348A (zh) * | 2019-03-07 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 一种确定视频质量的方法、装置及设备 |
CN112528598A (zh) * | 2020-12-07 | 2021-03-19 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
US20110219004A1 (en) * | 2010-03-08 | 2011-09-08 | Alibaba Group Holding Limited | Determining word information entropies |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN107526792A (zh) * | 2017-08-15 | 2017-12-29 | 南通大学附属医院 | 一种中文问句关键词快速提取方法 |
CN107797990A (zh) * | 2017-10-18 | 2018-03-13 | 渡鸦科技(北京)有限责任公司 | 用于确定文本核心语句的方法和装置 |
-
2018
- 2018-05-04 CN CN201810428803.5A patent/CN108664470B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
US20110219004A1 (en) * | 2010-03-08 | 2011-09-08 | Alibaba Group Holding Limited | Determining word information entropies |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN107526792A (zh) * | 2017-08-15 | 2017-12-29 | 南通大学附属医院 | 一种中文问句关键词快速提取方法 |
CN107797990A (zh) * | 2017-10-18 | 2018-03-13 | 渡鸦科技(北京)有限责任公司 | 用于确定文本核心语句的方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109729348A (zh) * | 2019-03-07 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 一种确定视频质量的方法、装置及设备 |
CN109729348B (zh) * | 2019-03-07 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 一种确定视频质量的方法、装置及设备 |
CN112528598A (zh) * | 2020-12-07 | 2021-03-19 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
CN112528598B (zh) * | 2020-12-07 | 2022-04-05 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108664470B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9953010B2 (en) | Template-based page layout for hosted social magazines | |
US9146915B2 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
US8553930B1 (en) | Crowd source content editing | |
CN106548375B (zh) | 用于构建产品画像的方法和装置 | |
CN107832469B (zh) | 一种企业logo图像的生成方法及装置 | |
US20130259377A1 (en) | Conversion of a document of captured images into a format for optimized display on a mobile device | |
CN103699521A (zh) | 文本分析方法及装置 | |
US20130227407A1 (en) | Method and device for displaying an electronic document | |
CN106528894B (zh) | 设置标签信息的方法及装置 | |
CN106227834A (zh) | 多媒体资源的推荐方法及装置 | |
JP2016042349A (ja) | 章・セクションの自動分割方法 | |
JP2018081727A5 (zh) | ||
US20160323232A1 (en) | Aggregating content associated with topics in a social network | |
Aliata et al. | Modern office technology and the performance of the professional secretary in contemporary organisation in Ghana | |
CN104915359A (zh) | 主题标签推荐方法及装置 | |
CN108664470A (zh) | 视频标题信息量的度量方法、可读存储介质及电子设备 | |
CN108717469B (zh) | 一种帖子排序方法、装置、设备及计算机可读存储介质 | |
CN109949090B (zh) | 客户推荐方法、装置、电子设备及介质 | |
Richardson et al. | The Effect of display size on reading and manipulating electronic text | |
CN116384362A (zh) | 一种演示文稿的生成方法、装置、电子设备及存储介质 | |
CN108121693B (zh) | 一种幻灯片美化方法及装置 | |
US10025763B2 (en) | Masking an object in hypertext markup language | |
CN111435405A (zh) | 一种文章关键句自动标注方法及装置 | |
CN110597980B (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
US11934437B2 (en) | Stance detection and summarization for data sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |