CN112256891A - 多媒体资源的推荐方法、装置、电子设备及存储介质 - Google Patents
多媒体资源的推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112256891A CN112256891A CN202011157425.5A CN202011157425A CN112256891A CN 112256891 A CN112256891 A CN 112256891A CN 202011157425 A CN202011157425 A CN 202011157425A CN 112256891 A CN112256891 A CN 112256891A
- Authority
- CN
- China
- Prior art keywords
- area
- target image
- additional information
- key
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims description 39
- 210000000746 body region Anatomy 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 29
- 238000003709 image segmentation Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 35
- 201000004681 Psoriasis Diseases 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000000611 regression analysis Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种多媒体资源的推荐方法、装置、电子设备及存储介质。该方法包括:通过从多媒体资源中获取目标图像;从所述目标图像中提取附加信息区域以及关键区域;根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合;对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数;根据所述目标图像的观感分数,对所述多媒体资源进行推荐。本公开通过综合考虑附加信息区域与关键区域的物体结构关系和空间位置关系,确定附加信息区域对关键区域的影响,提升观感分数预测的准确性,从而确保对多媒体资源进行准确的推荐。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种多媒体资源的推荐方法、装置、电子设备及存储介质。
背景技术
随着多媒体技术和计算机网络的飞速发展,出现了短视频技术。通过短视频技术,用户可以将多媒体资源进行发布,且每个多媒体资源都设有对应的封面图片,封面图片的质量是吸引用户点击多媒体资源的重要因素。
关于封面图片的质量问题,占比比较大的一类问题称为“文字牛皮癣”。比如,封面图片中的文字遮挡了用户关键区域(如脸部),或者封面图片上添加有大量文字。在传统技术中,一般通过文字检测算法对封面图片进行文字区域检测,并依据文字区域在封面图片的占比识别“文字牛皮癣”对多媒体资源的影响。
然而,传统技术中,通过文字区域在封面图片的占比无法准确识别出“文字牛皮癣”对多媒体资源的影响,从而导致对多媒体资源的推荐不准确。
发明内容
本公开提供一种多媒体资源的推荐方法、装置、电子设备及存储介质,以至少解决相关技术中通过文字区域在封面图片的占比无法准确识别出“文字牛皮癣”对多媒体资源的影响,从而导致对多媒体资源的推荐不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体资源的推荐方法,包括:
从多媒体资源中获取目标图像;
从所述目标图像中提取目标区域,所述目标区域包括附加信息区域以及关键区域,所述附加信息区域为所述目标图像中用于展示附加信息的区域,所述关键区域为浏览或者查看目标图像时所关注的重点区域或者为所述目标图像中展示关键信息的区域;
根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域和所述关键区域的物体结构关系和空间位置关系;
对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,所述观感分数用于表征所述附加信息对所述关键区域的影响程度;
根据所述目标图像的观感分数,对所述多媒体资源进行推荐。
在其中一个实施例中,所述目标区域还包括主体区域,所述主体区域为所述目标图像中用于展示主体对象的区域;所述从所述目标图像中提取目标区域,包括:
对所述目标图像进行文字识别处理,得到所述附加信息区域;
对所述目标图像进行图像分割,得到所述主体区域和所述关键区域;
所述根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,包括:
根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域、所述关键区域以及所述主体区域的物体结构关系和空间位置关系。
在其中一个实施例中,所述对所述目标图像进行文字识别处理,得到所述附加信息区域,包括:
对所述目标图像进行编码处理和解码处理,得到若干个候选的检测框;
对所述若干个候选的检测框进行筛选,得到若干个目标检测框;
对所述若干个目标检测框对应的区域进行连通域的提取,并获取所述连通域的外接矩形框;
对所述连通域的外接矩形框进行合并处理,得到所述附加信息区域。
在其中一个实施例中,所述通过对所述目标图像进行图像分割,得到所述主体区域和所述关键区域,包括:
对所述目标图像进行图像分割,得到主体区域的高层语义特征以及所述主体区域;
通过注意力模型对所述主体区域的高层语义特征进行聚焦处理,确定所述关键区域在所述主体区域中的位置;
根据所述关键区域在所述主体区域中的位置,从所述主体区域中提取所述关键区域。
在其中一个实施例中,所述根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合,包括:
确定所述附加信息区域、所述关键区域以及所述主体区域之间的物体结构关系;
按照预设规则对所述目标图像进行宫格划分,得到所述目标图像的宫格分布信息;
根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系;
根据所述物体结构关系以及所述空间位置关系,生成所述目标图像的特征集合。
在其中一个实施例中,所述根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系,包括:
根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息;
根据所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息,得到所述附加信息区域与所述主体区域的交并比、所述附加信息区域与所述关键区域的交并比以及所述关键区域与所述主体区域的交并比。
在其中一个实施例中,所述特征集合还包括所述附加信息区域的个数;所述对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,包括:
根据所述附加信息区域的个数以及所述第一位置信息,确定所述附加信息对所述目标图像的覆盖情况;
根据所述附加信息对所述目标图像的覆盖情况,确定所述目标图像的观感分数。
在其中一个实施例中,所述对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,包括:
对所述目标图像的特征集合进行回归分析,得到所述目标图像的观感分数。
根据本公开实施例的第二方面,提供一种多媒体资源的推荐装置,包括:
目标图像获取模块,被配置为执行从多媒体资源中获取目标图像,所述目标图像为将附加信息合成至原始图像所得到的图像;
目标区域提取模块,被配置为执行从所述目标图像中提取目标区域,所述目标区域包括附加信息区域以及关键区域,所述附加信息区域为所述目标图像中用于展示附加信息的区域,所述关键区域为浏览或者查看目标图像时所关注的重点区域或者为所述目标图像中展示关键信息的区域;
特征集合生成模块,被配置为执行根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合;
特征集合分析模块,被配置为执行对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,所述观感分数用于表征所述附加信息对所述关键区域的影响程度;
多媒体资源推荐模块,被配置为执行根据所述目标图像的观感分数,对所述多媒体资源进行推荐。
在其中一个实施例中,所述目标区域还包括主体区域,所述主体区域为所述目标图像中用于展示主体对象的区域;所述目标区域提取模块包括文字处理单元和图像分割单元;
所述文字处理单元,被配置为执行对所述目标图像进行文字识别处理,得到所述附加信息区域;
所述图像分割单元,被配置为执行对所述目标图像进行图像分割,得到所述主体区域和所述关键区域;
所述特征集合生成模块,还被配置为执行根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合。
在其中一个实施例中,所述文字处理单元,该被配置为执行对所述目标图像进行编码处理和解码处理,得到若干个候选的检测框;对所述若干个候选的检测框进行筛选,得到若干个目标检测框;对所述若干个目标检测框对应的区域进行连通域的提取,并获取所述连通域的外接矩形框;对所述连通域的外接矩形框进行合并处理,得到所述附加信息区域。
在其中一个实施例中,所述图像分割单元,还被配置为执行对所述目标图像进行图像分割,得到主体区域的高层语义特征以及所述主体区域;通过注意力模型对所述主体区域的高层语义特征进行聚焦处理,确定所述关键区域在所述主体区域中的位置;根据所述关键区域在所述主体区域中的位置,从所述主体区域中提取所述关键区域。
在其中一个实施例中,所述特征集合生成模块,还被配置为执行确定所述附加信息区域、所述关键区域以及所述主体区域之间的物体结构关系;按照预设规则对所述目标图像进行宫格划分,得到所述目标图像的宫格分布信息;根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系;根据所述物体结构关系以及所述空间位置关系,生成所述目标图像的特征集合。
在其中一个实施例中,所述特征集合生成模块,还被配置为执行根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息;根据所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息,得到所述附加信息区域与所述主体区域的交并比、所述附加信息区域与所述关键区域的交并比以及所述关键区域与所述主体区域的交并比。
在其中一个实施例中,所述特征集合还包括所述附加信息区域的个数;特征集合分析模块,还被配置为执行根据所述附加信息区域的个数以及所述第一位置信息,确定所述附加信息对所述目标图像的覆盖情况;根据所述附加信息对所述目标图像的覆盖情况,确定所述目标图像的观感分数。
在其中一个实施例中,所述特征集合分析模块,还被配置为执行对所述目标图像的特征集合进行回归分析,得到所述目标图像的观感分数。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面的任一项实施例中所述的多媒体资源的推荐方法。
根据本公开实施例的第四方面,一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备/服务器能够执行如第一方面的任一项实施例中所述的多媒体资源的推荐方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行第一方面的任一项实施例中所述的多媒体资源的推荐方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过从多媒体资源中获取目标图像;从所述目标图像中提取附加信息区域以及关键区域;根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合;对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数;根据所述目标图像的观感分数,对所述多媒体资源进行推荐。本公开通过综合考虑附加信息区域与关键区域的物体结构关系和空间位置关系,确定附加信息区域对关键区域的影响,提升观感分数预测的准确性,从而确保对多媒体资源进行准确的推荐。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多媒体资源的推荐方法的应用环境图。
图2是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图。
图3是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图。
图4a是根据一示例性实施例示出的步骤S310的流程图。
图4b是根据一示例性实施例示出的提取前景文字区域的流程图。
图5a是根据一示例性实施例示出的步骤S320的流程图。
图5b是根据一示例性实施例示出的提取主体区域及关键区域的流程图。
图6是根据一示例性实施例示出的步骤S330的流程图。
图7是根据一示例性实施例示出的步骤S630的流程图。
图8是根据一示例性实施例示出的步骤S240的流程图。
图9a是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图。
图9b是根据一示例性实施例示出的决策树模型的网络结构图。
图10是根据一示例性实施例示出的一种多媒体资源的推荐装置的框图。
图11是根据一示例性实施例示出的一种电子设备的内部结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所提供的多媒体资源的推荐方法,可以应用于如图1所示的应用环境中。包括:终端110、第一电子设备120以及第二电子设备130。第一电子设备120和第二电子设备130是指具有较强的数据存储和计算能力的电子设备,例如第一电子设备120、第二电子设备130可以是PC(Personal Computer,个人计算机)或服务器,且第一电子设备120以及第二电子设备130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
其中,终端110安装和运行有浏览器、社交应用、直播应用、购物应用或者支付应用中至少一种。第一电子设备120根据用户账号所对应的观看历史、搜索历史等用户数据,向用户账号对应的终端110推送相似的多媒体资源。终端110上安装的应用程序的显示界面(比如同城页面、推荐页面、发现页面等)展示第一电子设备120推送的多媒体资源。第二电子设备130可以用于构建全卷积分割网络等机器学习模型,并通过第二电子设备130对构建的机器学习模型进行训练,可以将完成训练的机器学习模型部署在第一电子设备120上。可以理解的是,第一电子设备120是综合考量用户数据和多媒体资源的观感质量等因素向终端110推送多媒体资源。本公开所涉及的多媒体资源的推荐方法主要针对多媒体资源的观感质量。第一电子设备120从多媒体资源中获取目标图像,目标图像为将附加信息合成至原始图像所得到的图像;从目标图像中提取目标区域,目标区域包括附加信息区域以及关键区域,附加信息区域为目标图像中用于展示附加信息的区域,关键区域为浏览或者查看目标图像时所关注的重点区域或者为目标图像中展示关键信息的区域;根据附加信息区域在目标图像中的第一位置信息,以及关键区域在目标图像中的第二位置信息,生成目标图像的特征集合;对目标图像的特征集合进行分析,得到目标图像的观感分数,观感分数用于表征附加信息对关键区域视觉效果的影响程度;根据目标图像的观感分数,对多媒体资源进行推荐。
图2是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图,如图2所示,多媒体资源的推荐方法用于第一电子设备120中,包括以下步骤:
在步骤S210中,从多媒体资源中获取目标图像。
其中,多媒体资源可以为文本资源、视频资源、音频资源、图片资源或者网页资源中至少一项。原始图像可以是多媒体资源所包含的图片,也可以是用于表征多媒体资源的图片,比如是多媒体资源的封面图片、视频资源或者图片资源的关键帧图像等。附加信息可以是添加在原始图像上的图片、动画、文字、表情包等信息,比如,附加信息是文字说明信息,将文字说明信息添加至原始图像,通过添加的文字说明信息可以明确表达多媒体资源的部分信息。
具体地,多媒体资源具有对应的目标图像,且目标图像可以用于表征多媒体资源所携带的主要信息或者概括信息,目标图像也可以用于展示多媒体资源的作者意在告知公众的信息。一方面,在对多媒体资源进行处理时,从第一电子设备本地或者与第一电子设备网络连接的服务器获取多媒体资源,然后从多媒体资源中获取目标图像。另一方面,事先从多媒体资源中获取目标图像,将目标图像保存在第一电子设备本地或者与第一电子设备网络连接的服务器,在对多媒体资源进行处理时,获取该目标图像。
在步骤S220中,从目标图像中提取目标区域。
其中,目标区域包括附加信息区域以及关键区域。附加信息区域为目标图像中用于展示附加信息的区域。关键区域是从目标图像中选择的一个图像区域,该关键区域可以是用户浏览或者查看目标图像时所关注的重点(比如感兴趣区域),比如,目标图像是一张人物照片,且照片中人物的面部可以是感兴趣区域。该关键区域也可以是目标图像中展示关键信息的区域,比如,目标图像是一张模特照片,目标图像主要展示模特身上的衣服,则且照片中衣服对应区域可以是关键区域。具体地,目标图像包括附加信息区域和关键区域。附加信息是多媒体资源的作者意在告知公众的信息,而关键区域展示的信息是用户所关注的重点。在对多媒体资源进行处理时,由于目标图像是原始图像添加附加信息得到的图像,需要考虑关键区域所展示的信息在目标图像中是否可以完整地呈现给用户,即附加信息对关键区域的展示是否有影响。因此,为了分析附加信息区域对关键区域是否有影响,可以通过机器学习模型从目标图像中提取附加信息区域和关键区域。机器学习模型可以是全卷积分割网络(Fully Convolutional Networks,FCN)。示例性地,由于附加信息区域可能覆盖关键区域,或者附加信息区域可能覆盖了目标图像的大部分区域,会降低目标图像的观感质量,因此,基于附加信息区域带给用户的不良感受,可以将附加信息区域称为牛皮癣。若附加信息为文字信息,附加信息区域可以称为文字牛皮癣,该目标图像可以称为牛皮癣图片。从目标图像中提取附加信息区域和关键区域的机器学模型,可以称为牛皮癣识别模型。需要说明的是,在解决问题的实际过程中,会存在其他类型牛皮癣,比如表情包牛皮癣等。
在步骤S230中,根据附加信息区域在目标图像中的第一位置信息,以及关键区域在目标图像中的第二位置信息,生成目标图像的特征集合。
其中,所述特征集合中的特征用于表征所述附加信息区域和所述关键区域的物体结构关系和空间位置关系。目标图像的特征集合包括附加信息区域的特征数据、关键区域的特征数据以及附加信息区域与关键区域之间的关系。附加信息区域的特征数据可以是附加信息区域的视觉语义,也可以是附加信息区域的分布信息。关键区域的特征数据可以是关键区域的视觉语义,也可以是关键区域的分布信息。
具体地,将目标图像输入至第一机器学习模型,通过第一机器学习模型从目标图像中提取附加信息区域,且第一机器学习模型输出附加信息区域在目标图像中的第一位置信息。将目标图像输入至第二机器学习模型,通过第二机器学习模型从目标图像中提取关键区域,且第二机器学习模型输出关键区域在目标图像中的第二位置信息。根据附加信息区域在目标图像中的第一位置信息可以确定附加信息区域的分布信息。根据关键区域在目标图像中的第二位置信息可以确定关键区域的分布信息。利用附加信息区域的分布信息、附加信息区域的视觉语义、关键区域的分布信息以及关键区域的视觉语义,构建目标图像的特征集合。可以理解的是,第一机器学习模型与第二机器学习模型可以构成牛皮癣识别模型。
在步骤S240中,对目标图像的特征集合进行分析,得到目标图像的观感分数。
其中,观感分数用于表征附加信息对关键区域视觉效果的影响程度。比如,利用附加信息区域对关键区域的覆盖面积或者附加信息区域与关键区域的位置关系,判断附加信息对关键区域视觉效果的负面影响。若覆盖面积越大,则附加信息对关键区域视觉效果的负面影响越大,且观感分数越高;若覆盖面积越小,则附加信息对关键区域视觉效果的负面影响越小,且观感分数越低。若附加信息区域与关键区域的位置关系越近,附加信息对关键区域视觉效果的负面影响越大,观感分数越高;若附加信息区域与关键区域的位置关系越远,附加信息对关键区域视觉效果的负面影响越小,观感分数越高。可以理解的是,牛皮癣图片的观感分数较高,目标图像的牛皮癣越严重。
具体地,目标图像的特征集合可以包括附加信息区域的分布信息、附加信息区域的视觉语义、关键区域的分布信息以及关键区域的视觉语义等元素。利用特征集合中的各元素进行迭代运算,结合迭代运算的结果以及特征集合中的各个元素进行分析,得到各个元素与附加信息对关键区域的影响程度之间的概率关系,将概率关系表达为观感分数。观感分数越高,附加信息对关键区域视觉效果的负面影响越大。
在步骤S250中,根据目标图像的观感分数,对多媒体资源进行推荐。
具体地,对目标图像的特征集合进行分析,得到目标图像的观感分数。由于目标图像可以表征多媒体资源,在用户打开多媒体资源前,通过目标图像向用户展示该多媒体资源,可见,目标图像的质量影响着用户的观感指标。因此,第一电子设备依据目标图像的观感分数向终端推送多媒体资源。示例性地,终端安装有某款短视频应用程序(比如快手应用程序),该应用程序设有关注页面、发现页面(即推荐页面)、同城页面中的至少一种,这些页面可以是该应用程序的首页或者特定页面。为了提升用户的观感指标,对于观感分数较高的多媒体资源进行曝光流量的抑制,即减少观感分数较高的多媒体资源在关注页面、发现页面、同城页面中的至少一种页面的出现。
在传统技术中,通过文字区域在封面图片的占比无法准确出识别“文字牛皮癣”对多媒体资源的影响程度,那么,根据文字区域在全图的占比所得到的观感分数也是不准确的。比如在短视频场景中,仅通过文字区域的占比无法准确的描述文字区域是否对封面图片或者视频的观感造成影响。比如自拍类型的短视频,在视频图片的人物脸部添加一行文字,添加的文字区域在视频图片中的占比很低,仅仅根据占比确定的观感分数并不能真实地反应文字区域对视频图片视觉效果的影响程度,即不能准确反映用户的观感。因此,传统技术中根据封面图片的观感分数对多媒体资源进行推荐时,由于观感分数的不准确导致对多媒体资源推荐不准确的技术问题。而上述多媒体资源的推荐方法中,通过从多媒体资源中获取目标图像;从目标图像中提取附加信息区域以及关键区域;根据附加信息区域在目标图像中的第一位置信息,以及关键区域在目标图像中的第二位置信息,生成目标图像的特征集合;对目标图像的特征集合进行分析,得到目标图像的观感分数;根据目标图像的观感分数,对多媒体资源进行推荐。本实施例中通过综合考虑附加信息区域与关键区域的物体结构关系和空间位置关系,提升了观感分数的准确性,从而根据目标图像的观感分数对多媒体资源推荐时,解决了多媒体资源推荐不准确的技术问题,进而提升了终端显示界面所展示的目标图像的观感质量。
在一示例性实施例中,目标区域还包括主体区域,主体区域为目标图像中用于展示主体对象的区域。如图3所示,在步骤S220中,从目标图像中提取目标区域,具体可以通过以下步骤实现:
在步骤S310中,对目标图像进行文字识别处理,得到附加信息区域。
其中,附加信息是文字信息,附加信息区域包括但不限于用户通过banner(横跨于网页上的矩形公告牌)添加的文字、用户通过其他工具自行编辑添加在目标图像上的文字、非出现在目标图像背景中的文字以及非出现在主体区域中自带的文字。具体地,为了从目标图像中提取附加信息区域,对目标图像进行文字识别处理,识别出目标图像中所有的文字信息,识别得到的文字信息可能包括原始图像自身所携带的文字,并不是用户添加至原始图像的文字。因此,为了确保提取到准确的附加信息区域,对识别到的文字信息进行过滤,得到添加至原始图像的附加信息,即获取识别到的附加信息,进一步地,从目标图像中提取附加信息区域,并得到附加信息区域在目标图像中的第一位置信息。
在步骤S320中,对目标图像进行图像分割,得到主体区域和关键区域。
其中,图像分割是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标或者关键目标的技术和过程。具体地,目标图像包括主体区域和关键区域,比如目标图像是人物自拍,主体区域可以是人体,关键区域可以是脸部。可以通过图像分割模型对目标图像进行分割,从目标图像中提取得到主体区域和关键区域,并得到关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息。
在步骤S230中,根据附加信息区域在目标图像中的第一位置信息,以及关键区域在目标图像中的第二位置信息,生成目标图像的特征集合,具体可以通过以下步骤实现:
在步骤S330中,根据附加信息区域在目标图像中的第一位置信息、关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息,生成目标图像的特征集合。
其中,特征集合中的特征用于表征所述附加信息区域、所述关键区域以及所述主体区域的物体结构关系和空间位置关系。具体地,从目标图像中提取附加信息区域,并得到附加信息区域在目标图像中的第一位置信息。通过图像分割模型对目标图像进行分割,从目标图像中提取得到主体区域和关键区域,并得到关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息。根据附加信息区域在目标图像中的第一位置信息可以确定附加信息区域的分布信息。根据关键区域在目标图像中的第二位置信息可以确定关键区域的分布信息。根据主体区域在目标图像中的第二位置信息可以确定主体区域的分布信息。利用附加信息区域的分布信息、附加信息区域的视觉语义、关键区域的分布信息、关键区域的视觉语义、主体区域的分布信息以及主体区域的视觉语义,构建目标图像的特征集合。
上述多媒体资源的推荐方法中,通过从目标图像提取附加信息区域、主体区域和关键区域,并根据附加信息区域、主体区域和关键区域在目标图像中的位置信息生成目标图像的特征集合,可以得到主体区域与附加信息区域之间的关系、主体区域与关键区域的关系,实现了目标图像特征集合的全方位构建,为后续观感分数的准确预测提供良好的数据基础,从而可以解决多媒体资源推荐不准确的技术问题,进而提升了终端显示界面所展示的目标图像的观感质量。
在一示例性实施例中,如图4a所示,在步骤S310中,对目标图像进行文字识别处理,得到附加信息区域,具体可以通过以下步骤实现:
在步骤S410中,对目标图像进行编码处理和解码处理,得到若干个候选的检测框。
具体地,将目标图像输入至全卷积分割网络,全卷积分割网络包括编码部分和解码部分,通过全卷积分割网络对目标图像进行编码处理和解码处理,将目标图像的文字识别出来,得到若干个候选的检测框。
在步骤S420中,对若干个候选的检测框进行筛选,得到若干个目标检测框。
具体地,附加信息中的文字与原始图像自身所携带的文字具有不同的特征,比如字体的大小不同,则两者各自的检测框的面积大小也是不同。可以根据检测框的面积对若干个候选的检测框进行筛选,得到附加信息文字所对应的目标检测框。
在步骤S430中,对若干个目标检测框对应的区域进行连通域的提取,并获取连通域的外接矩形框。
具体地,将附加信息文字所对应的目标检测框进行连通,得到对应的连通域,并提取该连通域。每个连通域对应有外接矩形框,因此,获取该连通域的外接矩形框。
在步骤S440中,对连通域的外接矩形框进行合并处理,得到附加信息区域。
具体地,各附加信息可对应至少一个连通域,且每个连通域对应有外接矩形框,将各个外接矩形框进行NMS合并处理,从而得到附加信息区域。
示例性地,附加信息为目标图像中的前景文字,附加信息区域为前景文字区域。图4b示例性示出的模型提取前景文字区域的流程图。前景文字区域的提取方法为采用FCN网络。将目标图像输入至FCN网络,对输入的目标图像进行编码处理和解码处理,得到候选的前景文字区域(即候选显著区域),然后通过连通域提取、计算外接矩形框、NMS合并等后处理流程得到最终的前景文字区域。
上述多媒体资源的推荐方法中,通过对目标图像进行编码处理和解码处理,得到若干个候选的检测框;对若干个候选的检测框进行筛选,得到若干个目标检测框;对若干个目标检测框对应的区域进行连通域的提取,并获取连通域的外接矩形框;对连通域的外接矩形框进行合并处理,得到附加信息区域。本实施例可以确保从目标图像中提取准确的附加信息区域,提升目标图像特征集合的准确性,从而可以准确地识别出附加信息区域对关键区域的覆盖情况进而可以准确地预测观感分数。
在一示例性实施例中,如图5a所示,在步骤S320中,通过对目标图像进行图像分割,得到主体区域和关键区域,具体可以通过以下步骤实现:
在步骤S510中,对目标图像进行图像分割,得到主体区域的高层语义特征以及主体区域。
其中,图像的高层语义特征指的是所能看到的东西,比如一张人脸图片,提取低层特征可以理解为提取到脸的轮廓,那么高层语义特征则为一张人脸。可见,高层语义特征的语义信息比较丰富,但是目标位置比较粗略。愈高层特征包含的高层语义性愈强、分辨能力也愈强。具体地,将目标图像输入至全卷积分割网络,全卷积分割网络包括编码部分和解码部分,编码部分和解码部分分别包括若干层次的卷积层,通过全卷积分割网络对目标图像进行编码处理和解码处理,得到主体区域的高层语义特征以及主体区域。
在步骤S520中,通过注意力模型对主体区域的高层语义特征进行聚焦处理,确定关键区域在主体区域中的位置。
在步骤S530中,根据关键区域在主体区域中的位置,从主体区域中提取关键区域。
其中,注意力模型是借鉴视觉注意力机制而产生的,视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。具体地,高层语义特征的语义信息比较丰富,但是目标位置比较粗略。因此,基于视觉注意力机制对主体区域的高层语义特征进行聚焦处理,确定关键区域在主体区域中的位置。从而根据关键区域在主体区域中的位置,从主体区域中提取关键区域。
关键区域可以是感兴趣区域,以此为例进行示例性地说明,主体区域及感兴趣区域是通过在FCN网络的基础上添加视觉注意力机制实现端到端双区域的提取,注意力机制主要是利用主体区域的特征来影响感兴趣区域的提取。图5b示例性示出的模型提取主体区域及感兴趣区域的流程图。进一步地,注意力机制的引入是在模型的训练阶段。在训练(training)阶段,可以将感兴趣区域标注出来(即视觉感兴趣区域的矩形框的位置信息bbox),利用标注的感兴趣区域指导模型的学习。
上述多媒体资源的推荐方法中,通过对目标图像进行图像分割,得到主体区域的高层语义特征以及主体区域;通过注意力模型对主体区域的高层语义特征进行聚焦处理,确定关键区域在主体区域中的位置;根据关键区域在主体区域中的位置,从主体区域中提取关键区域。可以得到主体区域与关键区域的关系,为构建目标图像的特征集合提供更全面且准确的数据素材,对全面且准确的特征集合进行分析,得到准确的观感分数,精确地评估附加信息区域对目标图像观感质量的影响,为后续对观感质量不佳的多媒体资源进行曝光流量的抑制提供了可靠的参考依据。
在一示例性实施例中,如图6所示,在步骤S330中,根据附加信息区域在目标图像中的第一位置信息、关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息,生成目标图像的特征集合,具体可以通过以下步骤实现:
在步骤S610中,确定附加信息区域、关键区域以及主体区域之间的物体结构关系。
其中,物体结构关系是指目标图像中所包括的物体结构体的关系。比如,目标图像为人物自拍照片,那么照片中的人体和脸部、人物衣服上的文字属于同一个物体结构体,而用户添加的banner文字则属于另外一个物体结构体。具体地,首先从目标图像中提取附加信息区域、关键区域以及主题区域,然后对目标图像进行观感质量的分析时,需要知悉附加信息区域、关键区域以及主题区域的视觉语义。由于目标图像是通过将附加信息合成至原始图像所得到的图像,则附加信息属于一个视觉语义,而原始图像属于另一个视觉语义。从而可以得知:在目标图像中,附加信息区域与原始图像属于不同的物体结构体。从目标图像中提取得到的关键区域以及主题区域与原始图像属于同一物体结构体,从而确定了附加信息区域、关键区域以及主体区域之间的物体结构关系。
在步骤S620中,按照预设规则对目标图像进行宫格划分,得到目标图像的宫格分布信息。
其中,宫格划分将目标图像在第一方向和/或第二方向上进行若干份的等分,第一方向与第二方向相互垂直。预设规则可以是对目标图像进行划分所遵守的规则。具体地,按照预设规则对目标图像进行宫格划分,得到目标图像的宫格分布信息。比如,将目标图像在长和宽的方向进行三等分,则将目标图像划分为9个矩形,得到目标图像的九宫格分布,该九宫格分布可以用于计算附加信息区域、关键区域以及主体区域在目标图像中的分布。
在步骤S630中,根据第一位置信息、第二位置信息、第三位置信息以及目标图像的宫格分布信息,确定附加信息区域、关键区域以及主体区域之间的空间位置关系。
具体地,从目标图像中提取附加信息区域,并得到附加信息区域在目标图像中的第一位置信息。通过图像分割模型对目标图像进行分割,从目标图像中提取得到主体区域和关键区域,并得到关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息。根据第一位置信息、第二位置信息、第三位置信息以及目标图像的宫格分布信息,确定附加信息区域、关键区域以及主体区域在目标图像中的分布信息。根据附加信息区域、关键区域以及主体区域在目标图像中的分布信息,确定附加信息区域、关键区域以及主体区域之间的空间位置关系。
在步骤S640中,根据物体结构关系以及空间位置关系,生成目标图像的特征集合。
具体地,在已知附加信息区域、关键区域以及主体区域之间的物体结构关系以及空间位置关系的前提下,可以基于目标图像中各个区域之间的物体结构关系以及空间位置关系,构建目标图像的特征集合。
上述多媒体资源的推荐方法中,通过确定附加信息区域、关键区域以及主体区域之间的物体结构关系和空间位置关系,从而根据物体结构关系以及空间位置关系,构建目标图像的特征集合。本实施例中构建的特征集合包括附加信息区域、关键区域以及主体区域之间的物体结构关系和空间位置关系,可以全面的反映各个区域之间的关系,为分析目标图像的观感质量提供全面且准确的数据基础,提升观感分数预测的准确性。
在一示例性实施例中,如图7所示,在步骤S630中,根据第一位置信息、第二位置信息、第三位置信息以及目标图像的宫格分布信息,确定附加信息区域、关键区域以及主体区域之间的空间位置关系,具体可以通过以下步骤实现:
在步骤S710中,根据第一位置信息、第二位置信息、第三位置信息以及宫格分布信息,确定附加信息区域、关键区域以及主体区域各自的宫格分布信息。
具体地,从目标图像中提取附加信息区域,并得到附加信息区域在目标图像中的第一位置信息。通过图像分割模型对目标图像进行分割,从目标图像中提取得到主体区域和关键区域,并得到关键区域在目标图像中的第二位置信息以及主体区域在目标图像中的第三位置信息。将第一位置信息与目标图像的宫格分布信息进行比对,确定附加信息区域的宫格分布信息。将第二位置信息与目标图像的宫格分布信息进行比对,确定关键区域的宫格分布信息。将第三位置信息与目标图像的宫格分布信息进行比对,确定主体区域的宫格分布信息。
在步骤S720中,根据附加信息区域、关键区域以及主体区域各自的宫格分布信息,得到附加信息区域与主体区域的交并比、附加信息区域与关键区域的交并比以及关键区域与主体区域的交并比。
其中,交并比(Intersection over Union,IOU)为两个矩形框面积的交集和并集的比值。具体地,根据附加信息区域的宫格分布信息以及主体区域的宫格分布信息,获取附加信息区域与主体区域的交集和并集,并根据附加信息区域与主体区域的交集与并集得到附加信息区域与主体区域的交并比。根据附加信息区域的宫格分布信息以及关键区域的宫格分布信息,获取附加信息区域与关键区域的交集和并集,并根据附加信息区域与关键区域的交集与并集得到附加信息区域与关键区域的交并比。根据关键区域的宫格分布信息以及主体区域的宫格分布信息,获取关键区域与主体区域的交集和并集,并根据关键区域与主体区域的交集与并集得到关键区域与主体区域的交并比。
上述多媒体资源的推荐方法中,在第一位置信息、第二位置信息、第三位置信息以及宫格分布信息的基础上,得到附加信息区域、关键区域以及主体区域各自的宫格分布信息,并进而确定附加信息区域与主体区域的交并比、附加信息区域与关键区域的交并比以及关键区域与主体区域的交并比。通过这些特征进一步地丰富目标图像的特征集合,基于目标图像的特征集合可以更加准确的得到这三个区域与目标图像的观感质量之间的概率关系,进一步地提升观感分数的准确性。
在一示例性实施例中,特征集合还包括附加信息区域的个数。如图8所示,在步骤S240中,对目标图像的特征集合进行分析,得到目标图像的观感分数,具体可以通过以下步骤实现:
在步骤S810中,根据附加信息区域的个数以及第一位置信息,确定附加信息对目标图像的覆盖情况。
具体地,从目标图像中提取附加信息区域,可以得到附加信息区域的第一位置信息以及附加信息区域的个数。从而根据附加信息区域的个数以及附加信息区域的第一位置信息得到附加信息区域在目标图像中的占比,即确定附加信息对目标图像的覆盖情况。
在步骤S820中,根据附加信息对目标图像的覆盖情况,确定目标图像的观感分数。
具体地,附加信息对目标图像的覆盖情况影响目标图像的观感质量,因此,附加信息对目标图像的覆盖情况会影响目标图像的观感分数,则可以根据附加信息对目标图像的覆盖情况,确定目标图像的观感分数。比如,若目标图像中具有多个附加信息区域,根据各个附加信息区域的第一位置信息,确定附加信息区域在目标图像的占比,若占比较大,则附加信息覆盖大部分目标图像,这将严重影响目标图像的视觉效果,从而目标图像的观感分数较高。
本实施例中,通过根据附加信息区域的个数以及第一位置信息,确定附加信息对目标图像的覆盖情况。根据附加信息对目标图像的覆盖情况,确定目标图像的观感分数。从附加信息区域的个数以及各附加信息区域的位置信息两方面着手,全方位的考虑可能影响目标图像视觉效果的因素,确定目标图像特征集合的全面,为观感分数的预测提供数据基础。
图9a是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图,如图9a所示,多媒体资源的推荐方法用于第一电子设备120中,包括以下步骤:
在步骤S902中,从多媒体资源中获取目标图像。
在步骤S904中,对目标图像进行文字识别处理,得到附加信息区域。
具体地,对目标图像进行编码处理和解码处理,得到若干个候选的检测框;对若干个候选的检测框进行筛选,得到若干个目标检测框;对若干个目标检测框对应的区域进行连通域的提取,并获取连通域的外接矩形框;对连通域的外接矩形框进行合并处理,得到附加信息区域。
在步骤S906中,对目标图像进行图像分割,得到主体区域和关键区域。
具体地,对目标图像进行图像分割,得到主体区域的高层语义特征以及主体区域;通过注意力模型对主体区域的高层语义特征进行聚焦处理,确定关键区域在主体区域中的位置;根据关键区域在主体区域中的位置,从主体区域中提取关键区域。
在步骤S908中,确定附加信息区域、关键区域以及主体区域之间的物体结构关系。
在步骤S910中,按照预设规则对目标图像进行宫格划分,得到目标图像的宫格分布信息。
在步骤S912中,根据第一位置信息、第二位置信息、第三位置信息以及目标图像的宫格分布信息,确定附加信息区域、关键区域以及主体区域之间的空间位置关系。
具体地,根据第一位置信息、第二位置信息、第三位置信息以及宫格分布信息,确定附加信息区域、关键区域以及主体区域各自的宫格分布信息;根据附加信息区域、关键区域以及主体区域各自的宫格分布信息,得到附加信息区域与主体区域的交并比、附加信息区域与关键区域的交并比以及关键区域与主体区域的交并比。
在步骤S914中,根据物体结构关系以及空间位置关系,生成目标图像的特征集合。
在步骤S916中,对目标图像的特征集合进行回归分析,得到目标图像的观感分数。
具体地,通过决策树模型对目标图像的特征集合进行回归分析,得到目标图像的观感分数。图9b示出决策树模型的网络结构图。进一步地,特征集合还包括附加信息区域的个数;则可以根据附加信息区域的个数以及第一位置信息,确定附加信息对目标图像的覆盖情况;根据附加信息对目标图像的覆盖情况,确定目标图像的观感分数。
在步骤S918中,根据目标图像的观感分数,对多媒体资源进行推荐。
示例性地,多媒体资源可以是短视频,目标图像可以是短视频的封面,附加信息是短视频封面上添加的文字,且封面上添加的文字称为文字牛皮癣。附加信息区域是前景文字区域,关键区域为视觉关键区域,主体区域为封面内容主体区域。首先通过文字区域检测算法、主体区域检测算法、视觉关键区域检测算法提取前景文字区域、封面内容主体区域以及视觉关键区域;然后通过特征抽象模块进行计算,得到三个特征区域间的视觉语义和空间位置关系,基于得到的视觉语义和空间位置关系生成特征集合;最后通过决策树模型预测文字牛皮癣的观感分数。图5b同样也示出了短视频封面文字牛皮癣识别系统的框图。因此该识别系统主要包括特征区域提取模块、特征抽象模块以及基于决策树的文字牛皮癣观感估计模型。其中,征区域提取模块被配置为执行前景文字区域提取、主体区域提取、视觉关键区域提取。特征抽象模块被配置为执行计算特征区域间的视觉语义和空间位置关系,并基于计算得到的视觉语音和空间位置关系构建特征集合。基于决策树的文字牛皮癣观感估计模型被配置为执行基于构建的特征集合预测文字牛皮癣的观感分数。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
图10是根据一示例性实施例示出的一种多媒体资源的推荐装置的框图。参照图10,该装置包括目标图像获取模块1002、目标区域提取模块1004、特征集合生成模块1006、特征集合分析模块1008和多媒体资源推荐模块1010。
目标图像获取模块1002,被配置为执行从多媒体资源中获取目标图像;
目标区域提取模块1004,被配置为执行从所述目标图像中提取目标区域,所述目标区域包括附加信息区域以及关键区域,所述附加信息区域为所述目标图像中用于展示附加信息的区域,所述关键区域为浏览或者查看目标图像时所关注的重点区域或者为所述目标图像中展示关键信息的区域;
特征集合生成模块1006,被配置为执行根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域和所述关键区域的物体结构关系和空间位置关系;
特征集合分析模块1008,被配置为执行对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,所述观感分数用于表征所述附加信息对所述关键区域的影响程度;
多媒体资源推荐模块1010,被配置为执行根据所述目标图像的观感分数,对所述多媒体资源进行推荐。
在一示例性实施例中,所述目标区域还包括主体区域,所述主体区域为所述目标图像中用于展示主体对象的区域。所述目标区域提取模块1004包括文字处理单元和图像分割单元;其中:
所述文字处理单元,被配置为执行对所述目标图像进行文字识别处理,得到所述附加信息区域;
所述图像分割单元,被配置为执行对所述目标图像进行图像分割,得到所述主体区域和所述关键区域;
所述特征集合生成模块1006,还被配置为执行根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域、所述关键区域以及所述主体区域的物体结构关系和空间位置关系。
在一示例性实施例中,所述文字处理单元,该被配置为执行对所述目标图像进行编码处理和解码处理,得到若干个候选的检测框;对所述若干个候选的检测框进行筛选,得到若干个目标检测框;对所述若干个目标检测框对应的区域进行连通域的提取,并获取所述连通域的外接矩形框;对所述连通域的外接矩形框进行合并处理,得到所述附加信息区域。
在一示例性实施例中,所述图像分割单元,还被配置为执行对所述目标图像进行图像分割,得到主体区域的高层语义特征以及所述主体区域;通过注意力模型对所述主体区域的高层语义特征进行聚焦处理,确定所述关键区域在所述主体区域中的位置;根据所述关键区域在所述主体区域中的位置,从所述主体区域中提取所述关键区域。
在一示例性实施例中,所述特征集合生成模块1006,还被配置为执行确定所述附加信息区域、所述关键区域以及所述主体区域之间的物体结构关系;按照预设规则对所述目标图像进行宫格划分,得到所述目标图像的宫格分布信息;根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系;根据所述物体结构关系以及所述空间位置关系,生成所述目标图像的特征集合。
在一示例性实施例中,所述特征集合生成模块1006,还被配置为执行根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息;根据所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息,得到所述附加信息区域与所述主体区域的交并比、所述附加信息区域与所述关键区域的交并比以及所述关键区域与所述主体区域的交并比。
在一示例性实施例中,所述特征集合还包括所述附加信息区域的个数;所述特征集合分析模块1008,还被配置为执行根据所述附加信息区域的个数以及所述第一位置信息,确定所述附加信息对所述目标图像的覆盖情况;根据所述附加信息对所述目标图像的覆盖情况,确定所述目标图像的观感分数。
在一示例性实施例中,所述特征集合分析模块1008,还被配置为执行对所述目标图像的特征集合进行回归分析,得到所述目标图像的观感分数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种用于执行多媒体资源处理方法的设备1100的框图。例如,设备1100可以为一服务器。参照图11,设备1100包括处理组件1120,其进一步包括一个或多个处理器,以及由存储器1122所代表的存储器资源,用于存储可由处理组件1120的执行的指令,例如应用程序。存储器1122中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1120被配置为执行指令,以执行上述多媒体资源的推荐方法。
设备1100还可以包括一个电源组件1124被配置为执行设备1100的电源管理,一个有线或无线网络接口1126被配置为将设备1100连接到网络,和一个输入输出(I/O)接口1128。设备1100可以操作基于存储在存储器1122的操作系统,例如Window11 11erver,MacO11 X,Unix,Linux,FreeB11D或类似。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器1122,上述指令可由设备1100的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种多媒体资源的推荐方法,其特征在于,包括:
从多媒体资源中获取目标图像;
从所述目标图像中提取目标区域,所述目标区域包括附加信息区域以及关键区域,所述附加信息区域为所述目标图像中用于展示附加信息的区域,所述关键区域为浏览或者查看目标图像时所关注的重点区域或者为所述目标图像中展示关键信息的区域;
根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域和所述关键区域的物体结构关系和空间位置关系;
对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,所述观感分数用于表征所述附加信息对所述关键区域的影响程度;
根据所述目标图像的观感分数,对所述多媒体资源进行推荐。
2.根据权利要求1所述的多媒体资源的推荐方法,其特征在于,所述目标区域还包括主体区域,所述主体区域为所述目标图像中用于展示主体对象的区域;所述从所述目标图像中提取目标区域,包括:
对所述目标图像进行文字识别处理,得到所述附加信息区域;
对所述目标图像进行图像分割,得到所述主体区域和所述关键区域;
所述根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,包括:
根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域、所述关键区域以及所述主体区域的物体结构关系和空间位置关系。
3.根据权利要求2所述的多媒体资源的推荐方法,其特征在于,所述对所述目标图像进行文字识别处理,得到所述附加信息区域,包括:
对所述目标图像进行编码处理和解码处理,得到若干个候选的检测框;
对所述若干个候选的检测框进行筛选,得到若干个目标检测框;
对所述若干个目标检测框对应的区域进行连通域的提取,并获取所述连通域的外接矩形框;
对所述连通域的外接矩形框进行合并处理,得到所述附加信息区域。
4.根据权利要求2所述的多媒体资源的推荐方法,其特征在于,所述通过对所述目标图像进行图像分割,得到所述主体区域和所述关键区域,包括:
对所述目标图像进行图像分割,得到主体区域的高层语义特征以及所述主体区域;
通过注意力模型对所述主体区域的高层语义特征进行聚焦处理,确定所述关键区域在所述主体区域中的位置;
根据所述关键区域在所述主体区域中的位置,从所述主体区域中提取所述关键区域。
5.根据权利要求2所述的多媒体资源的推荐方法,其特征在于,所述根据所述附加信息区域在所述目标图像中的第一位置信息、所述关键区域在所述目标图像中的第二位置信息以及所述主体区域在所述目标图像中的第三位置信息,生成所述目标图像的特征集合,包括:
确定所述附加信息区域、所述关键区域以及所述主体区域之间的物体结构关系;
按照预设规则对所述目标图像进行宫格划分,得到所述目标图像的宫格分布信息;
根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系;
根据所述物体结构关系以及所述空间位置关系,生成所述目标图像的特征集合。
6.根据权利要求5所述的多媒体资源的推荐方法,其特征在于,所述根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述目标图像的宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域之间的空间位置关系,包括:
根据所述第一位置信息、所述第二位置信息、所述第三位置信息以及所述宫格分布信息,确定所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息;
根据所述附加信息区域、所述关键区域以及所述主体区域各自的宫格分布信息,得到所述附加信息区域与所述主体区域的交并比、所述附加信息区域与所述关键区域的交并比以及所述关键区域与所述主体区域的交并比。
7.根据权利要求1至6任一项所述的多媒体资源的推荐方法,其特征在于,所述特征集合还包括所述附加信息区域的个数;所述对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,包括:
根据所述附加信息区域的个数以及所述第一位置信息,确定所述附加信息对所述目标图像的覆盖情况;
根据所述附加信息对所述目标图像的覆盖情况,确定所述目标图像的观感分数。
8.一种多媒体资源的推荐装置,其特征在于,包括:
目标图像获取模块,被配置为执行从多媒体资源中获取目标图像;
目标区域提取模块,被配置为执行从所述目标图像中提取目标区域,所述目标区域包括附加信息区域以及关键区域,所述附加信息区域为所述目标图像中用于展示附加信息的区域,所述关键区域为浏览或者查看目标图像时所关注的重点区域或者为所述目标图像中展示关键信息的区域;
特征集合生成模块,被配置为执行根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合,所述特征集合中的特征用于表征所述附加信息区域和所述关键区域的物体结构关系和空间位置关系;
特征集合分析模块,被配置为执行对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数,所述观感分数用于表征所述附加信息对所述关键区域的影响程度;
多媒体资源推荐模块,被配置为执行根据所述目标图像的观感分数,对所述多媒体资源进行推荐。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的多媒体资源的推荐方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的多媒体资源的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157425.5A CN112256891A (zh) | 2020-10-26 | 2020-10-26 | 多媒体资源的推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157425.5A CN112256891A (zh) | 2020-10-26 | 2020-10-26 | 多媒体资源的推荐方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256891A true CN112256891A (zh) | 2021-01-22 |
Family
ID=74262309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011157425.5A Pending CN112256891A (zh) | 2020-10-26 | 2020-10-26 | 多媒体资源的推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256891A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428899A (zh) * | 2021-12-17 | 2022-05-03 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、装置、电子设备及存储介质 |
CN115080865A (zh) * | 2022-08-19 | 2022-09-20 | 山东智豆数字科技有限公司 | 基于多维数据分析的电商数据运营管理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496025A (zh) * | 2011-12-07 | 2012-06-13 | 方正国际软件有限公司 | 一种文档中含有人物肖像的图像检测方法及系统 |
CN104835134A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 一种计算商品图像牛皮癣分值的方法和装置 |
CN107545271A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置和系统 |
CN108494996A (zh) * | 2018-05-14 | 2018-09-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN108765380A (zh) * | 2018-05-14 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN111428060A (zh) * | 2020-03-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种媒体内容推荐的方法以及相关装置 |
WO2020177584A1 (zh) * | 2019-03-01 | 2020-09-10 | 华为技术有限公司 | 一种图文排版方法及其相关装置 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111814569A (zh) * | 2020-06-12 | 2020-10-23 | 深圳禾思众成科技有限公司 | 一种人脸遮挡区域的检测方法及系统 |
-
2020
- 2020-10-26 CN CN202011157425.5A patent/CN112256891A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496025A (zh) * | 2011-12-07 | 2012-06-13 | 方正国际软件有限公司 | 一种文档中含有人物肖像的图像检测方法及系统 |
CN104835134A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 一种计算商品图像牛皮癣分值的方法和装置 |
CN107545271A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置和系统 |
CN108494996A (zh) * | 2018-05-14 | 2018-09-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN108765380A (zh) * | 2018-05-14 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
WO2020177584A1 (zh) * | 2019-03-01 | 2020-09-10 | 华为技术有限公司 | 一种图文排版方法及其相关装置 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN111428060A (zh) * | 2020-03-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种媒体内容推荐的方法以及相关装置 |
CN111814569A (zh) * | 2020-06-12 | 2020-10-23 | 深圳禾思众成科技有限公司 | 一种人脸遮挡区域的检测方法及系统 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
Non-Patent Citations (1)
Title |
---|
郭燕飞;刘宏哲;袁家政;王雪峤;: "基于前馈上下文和形状先验的平面标注方法", 计算机科学, no. 12, 15 December 2018 (2018-12-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428899A (zh) * | 2021-12-17 | 2022-05-03 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、装置、电子设备及存储介质 |
CN115080865A (zh) * | 2022-08-19 | 2022-09-20 | 山东智豆数字科技有限公司 | 基于多维数据分析的电商数据运营管理系统 |
CN115080865B (zh) * | 2022-08-19 | 2022-11-04 | 山东智豆数字科技有限公司 | 基于多维数据分析的电商数据运营管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776676B (zh) | 信息推荐方法、装置、计算机可读介质及电子设备 | |
EP2587826A1 (en) | Extraction and association method and system for objects of interest in video | |
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN113965777B (zh) | 组合数字视频内容的方法及系统 | |
CN113766299B (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN111814817A (zh) | 视频分类方法、装置、存储介质及电子设备 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN111314732A (zh) | 确定视频标签的方法、服务器及存储介质 | |
CN114339362B (zh) | 视频弹幕匹配方法、装置、计算机设备和存储介质 | |
CN110019867A (zh) | 图像搜索方法、系统和索引构建方法和介质 | |
CN112256891A (zh) | 多媒体资源的推荐方法、装置、电子设备及存储介质 | |
Xu et al. | Identifying semantic blocks in Web pages using Gestalt laws of grouping | |
JP6498674B2 (ja) | マルチメディア資産の中のオブジェクトを注釈付けするための方法 | |
Kerbiche et al. | A robust video watermarking based on feature regions and crowdsourcing | |
CN113297525B (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN118015644B (zh) | 基于图片和文字的社交媒体关键词数据分析方法及装置 | |
CN111597361B (zh) | 多媒体数据处理方法、装置、存储介质及设备 | |
Shi et al. | Objective object segmentation visual quality evaluation: Quality measure and pooling method | |
CN113395584A (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
Hipiny et al. | Who danced better? ranked tiktok dance video dataset and pairwise action quality assessment method | |
CN112333554B (zh) | 多媒体数据的处理方法、装置、电子设备以及存储介质 | |
CN113821677A (zh) | 一种生成封面图像的方法、装置、设备及存储介质 | |
Balasundaram et al. | Unsupervised learning‐based recognition and extraction for intelligent automatic video retrieval | |
CN114842488A (zh) | 图像标题文本确定方法、装置、电子设备及存储介质 | |
CN113704400A (zh) | 虚假新闻识别方法、装置、设备及芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |