CN110852047A - 一种文本配乐方法、装置、以及计算机存储介质 - Google Patents
一种文本配乐方法、装置、以及计算机存储介质 Download PDFInfo
- Publication number
- CN110852047A CN110852047A CN201911089616.XA CN201911089616A CN110852047A CN 110852047 A CN110852047 A CN 110852047A CN 201911089616 A CN201911089616 A CN 201911089616A CN 110852047 A CN110852047 A CN 110852047A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- music
- information
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 39
- 238000012545 processing Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本配乐方法、装置、以及计算机存储介质,所述方法涉及人工智能领域中的自然语言处理方向,所述方法包括:获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,以提升文本配乐的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种文本配乐方法、装置、以及计算机存储介质。
背景技术
用户在阅读段落、文章、或者在聊天应用中互动聊天等过程中,播放合适的背景音乐能够给用户营造良好的阅读体验,并实现显著增加用户阅读时长、以及用户交互次数等效果。但是,目前为文本配乐需要作者在编辑文本时,自行选择适合该文本或用户的背景音乐,这种文本配乐方法,不仅消耗的成本高,并且选择出的背景音乐未必准确。
发明内容
本申请实施例提供一种文本配乐方法、装置、以及计算机存储介质,可以提升文本配乐的准确性。
本申请实施例提供一种文本配乐方法,包括:
获取样本文本、以及所述样本文本对应多维度的样本特征信息;
基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息;
基于所述样本特征信息、以及所述用户反馈信息,获取每个维度用户反馈信息对应的损失;
基于所述每个维度用户反馈信息对应的损失,对所述文本配乐模型进行训练,得到训练后文本配乐模型;
基于所述训练后文本配乐模型预测待配乐文本的目标配乐。
相应的,本申请实施例还提供一种文本配乐装置,包括:
获取模型,用于获取样本文本、以及所述样本文本对应多维度的样本特征信息;
第一预测模型,用于基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息;
损失获取模型,用于基于所述样本特征信息、以及所述用户反馈信息,获取每个维度用户反馈信息对应的损失;
训练模型,用于基于所述每个维度用户反馈信息对应的损失,对所述文本配乐模型进行训练,得到训练后文本配乐模型;
第二预测模型,用于基于所述训练后文本配乐模型预测待配乐文本的目标配乐。
可选的,在一些实施例中,所述获取模块可以包括获取子模块和提取子模块,如下:
获取子模块,用于获取样本文本、以及所述样本文本对应的多种样本配乐信息;
提取子模块,用于提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息。
则此时,所述提取子模块,具体可以用于基于预设数据库,提取所述样本配乐信息对应的样本配乐特征信息,提取所述样本文本的特征,得到所述样本文本对应的样本文本特征信息。
可选的,在一些实施例中,所述第一预测模块可以包括第一预测子模块、第二预测子模块和融合子模块,如下:
第一预测子模块,用于基于所述线性子模型、以及所述样本属性信息,预测浏览用户针对所述样本文本的属性预测信息;
第二预测子模块,用于基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息;
融合子模块,用于融合所述属性预测信息、以及所述标签预测信息,得到多维度的用户反馈信息。
则此时,所述第二预测子模块,具体可以用于将所述样本标签信息转换为样本标签特征向量,基于所述深度神经网络子模型、以及所述样本标签特征向量,预测浏览用户针对所述样本文本的标签预测信息。
可选的,在一些实施例中,所述第二预测模块可以包括第三预测子模块和确定子模块,如下:
第三预测子模块,用于基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息;
确定子模块,用于根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐。
则此时,所述第三预测子模块,具体可以用于获取待配乐文本、以及所述待配乐文本对应的多个文本特征,获取音乐库、以及所述音乐库中多首音乐对应的音乐特征,基于所述训练后文本配乐模型、所述文本特征、以及所述音乐特征,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息。
则此时,所述确定子模块,具体可以用于对所述音乐库中每首音乐对应的多维度的目标用户反馈信息进行加权融合,得到每首音乐对应的融合后用户反馈信息,根据所述融合后用户反馈信息,从所述音乐库的多首音乐中确定所述待配乐文本的目标配乐。
此外,本申请实施例还提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种文本配乐方法中的步骤。
本申请实施例可以获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,以提升文本配乐的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本配乐系统的场景示意图;
图2是本申请实施例提供的文本配乐方法的第一流程图;
图3是本申请实施例提供的文本配乐方法的第二流程图;
图4是本申请实施例提供的应用训练后文本配乐模型的流程图;
图5是本申请实施例提供的文本配乐模型训练流程图;
图6是本申请实施例提供的文本配乐装置的结构示意图;
图7是本申请实施例提供的网络设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种文本配乐方法,该文本配乐方法的执行主体可以是本申请实施例提供的文本配乐装置,或者集成了该文本配乐装置的网络设备,其中该文本配乐装置可以采用硬件或者软件的方式实现。其中,网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。
请参阅图1,图1为本申请实施例提供的文本配乐方法的应用场景示意图,以文本配乐装置集成在网络设备中为例,网络设备可以获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。
本申请实施例提供的文本配乐方法涉及人工智能领域中的计算机视觉方向。本申请实施例可以通过图像处理技术,将特征图组中的多张特征图与基准特征图对齐,进而识别出待处理视频图像对应的像素类型信息。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
请参阅图2,图2为本申请实施例提供的文本配乐方法的流程示意图,具体通过如下实施例进行说明:
201、获取样本文本、以及样本文本对应多维度的样本特征信息。
其中,样本文本可以为已经配乐完毕,能够作为样本进行模型训练的文本。其中,文本是一种书面语言的表现形式,具有完整、系统含义的一个句子或者多个句子的组合都可以称为文本。文本可以是一个句子、一个段落或者一篇文章,等等。样本文本的种类可以有多种,比如,样本文本可以为作者在公众号、小程序中撰写的完整的文章、可以为用户摘抄或者撰写的一部分段落、或者还可以为用户通过聊天应用进行的对话、聊天等等。
其中,样本特征信息可以为与样本文本相关的,可以用于模型训练的特征信息,为了使得训练后的模型能够更准确的确定出与文本相匹配的音乐,可以利用多个维度的样本特征信息对模型进行训练。比如,样本特征信息可以包括样本文本匹配的样本音乐对应的特征信息、浏览样本文本的用户群体对应的特征信息、与样本文本发表有关的发表内容对应的特征信息,等等。
在实际应用中,比如,对模型进行训练之前,可以对训练样本进行确定,从数据库中抽取若干文本作为样本文本,并获取与该样本文本匹配的样本音乐对应的样本特征信息、浏览过样本文本的用户群体对应的样本特征信息、以及样本文本发表的时间、平台等发表内容对应的样本特征信息,等等。为了考虑用户阅读配乐后文本的体验等因素,可以收集浏览过样本文本用户的多种样本反馈信息作为优化目标,进行模型的优化,该样本反馈信息可以通过训练样本的标签形式进行体现。如该样本反馈信息可以包括用户平均浏览时长、用户评论次数、用户打赏金额、用户分享次数中的一种或几种,等等。
在一实施例中,样本反馈信息可以不仅限于上述提及的多种反馈信息,还可以根据实际情况或者通过作者指定等,将其他种类的样本反馈信息作为优化目标,进行模型的优化。
在一实施例中,为了提升模型的建模能力,需要获取多个维度的样本特征信息,因此可以通过获取到与样本文本对应的多种样本配乐信息,进而对样本配乐信息进行特征提取,得到样本特征信息。具体地,步骤“获取样本文本、以及所述样本文本对应多维度的样本特征信息”,可以包括:
获取样本文本、以及所述样本文本对应的多种样本配乐信息;
提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息。
其中,样本配乐信息可以为样本文本对应的与配乐相关的信息,为了提升模型的建模能力,可以获取样本文本对应的多个维度的样本配乐信息。比如,样本配乐信息可以包括音乐维度的样本配乐信息,也即与该样本文本匹配的样本音乐、用户维度的样本配乐信息,也即浏览过该样本文本的用户群体、以及上下文维度的样本配乐信息,也即样本文本发表的时间、平台等信息。
在实际应用中,比如,可以从数据库中抽取若干文本作为样本文本,然后获取与该样本文本匹配的样本音乐、浏览过该样本文本的用户群体、以及该样本文本发表的时间、平台等样本配乐信息。其中,与该样本文本匹配的样本音乐的数目不限,如样本文本为“新年快乐”时,样本音乐可以为《新年到》、《过新年》、《新年好》等等多首与新年相关的歌曲。其中,浏览过该样本文本的用户群体可以为多个浏览过该样本文本的用户,通过将多个浏览过该样本文本的用户对应的信息作为训练样本,可以优化用户对于文本配乐的整体感受,以免模型被单个用户的行为所扰动。获取到样本配乐信息后,可以对样本配乐信息进行特征提取,得到样本特征信息。
在一实施例中,样本配乐信息不仅可以包括音乐维度、用户维度、以及上下文维度,还可以根据实际情况,添加其他维度的样本配乐信息作为训练样本,以便进行模型的训练。
在一实施例中,由于样本配乐信息中包括多个维度,针对不同维度的样本配乐信息进行特征提取的方法也不同,因此,可以根据样本配乐信息的种类,利用不同的特征提取方法提取样本特征信息。具体地,步骤“提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息”,可以包括:
基于预设数据库,提取所述样本配乐信息对应的样本配乐特征信息;
提取所述样本文本的特征,得到所述样本文本对应的样本文本特征信息。
其中,预设数据库可以为预先建立的,与样本配乐信息相关的数据库,通过查找预设数据库,可以达到获取样本配乐信息对应的样本特征信息的目的。比如,预设数据库中可以包括音乐曲库、音乐评论库、用户画像库等等。其中,音乐曲库可以为包括多首样本音乐的曲库。音乐评论库可以为包括用户对样本音乐的评论信息的数据库。用户画像库可以为包括多个用户对应的用户信息的数据库。
其中,样本特征信息可以包括样本文本特征信息、以及样本配乐特征信息。
其中,样本文本特征信息可以为根据样本文本提取出的特征信息,比如,样本文本特征信息可以包括文本标签信息、上下文属性信息,等等。
其中,文本标签信息可以为通过文本的形式表示样本文本的特征的标签,比如,样本文本对应的文本标签信息可以为“情感类”,表示该样本文本为情感类的文本。样本文本对应的文本标签信息还可以为“历史类”、“八卦类”,等等。
其中,上下文属性信息可以为通过具体类别的形式表示样本文本的特征的属性信息,比如,样本文本对应的上下文属性信息可以为“发表时间2019年1月1日”,表示该样本文本的发表时间为2019年1月1日,又比如,样本文本对应的上下文属性信息还可以为“发表平台xx网站”,表示该样本文本的发表平台为xx网站。
其中,样本配乐特征信息可以为根据样本配乐信息提取出的特征信息,比如,样本配乐特征信息可以包括音乐标签信息、音乐属性信息、读者群标签信息、读者群属性信息,等等。
其中,音乐标签信息可以为通过文本的形式表示与样本文本匹配的样本音乐的特征的标签,比如,样本音乐对应的音乐标签信息可以为“爵士乐”,表示与样本文本匹配的样本音乐为爵士乐。样本音乐对应的音乐标签信息还可以为“伤感”、“器乐”、“失恋时听”、“安静”,等等。
其中,音乐属性信息可以为通过具体类别的形式表示与样本文本匹配的样本音乐的特征的属性信息,比如,样本音乐对应的音乐属性信息可以为“时长20min”,表示与样本文本匹配的样本音乐的时长为20分钟。样本音乐对应的音乐属性信息还可以为“类别国语”、“调式C大调”,等等。
其中,读者群标签信息可以为通过文本的形式表示浏览样本文本的用户群的特征的标签,比如,用户群对应的读者群标签信息可以为“中年人”,表示浏览该样本文本的用户群多为中年人。用户群对应的读者群标签信息还可以为“二次元”、“耍酷”,等等。
其中,读者群属性信息可以为通过具体类别的形式表示浏览样本文本的用户群的特征的属性信息,比如,用户群对应的读者群属性信息可以为“平均年龄28岁”,表示浏览样本文本的用户群的平均年龄为28岁。用户群对应的读者群属性信息还可以为“平均身高170cm”、“主要城市北京/上海”,等等。
在实际应用中,比如,如图5所示,获取到样本文本、与样本文本匹配的样本音乐、浏览样本文本的用户群后,可以通过查找音乐曲库、以及音乐评论库中的歌曲名、歌词、音乐评论等,获取到音乐标签信息;通过查找音乐曲库获取到音乐属性信息;通过查找用户画像库中用户看过的文章、发表的评论等,获取到读者群标签信息;通过用户画像库获取到读者群属性信息。
由于样本文本是不断增加的,因此没有通过预先建立样本文本库获取文本标签信息,而是通过对作为训练样本的样本文本进行挖掘,获取文本标签信息。由于上下文属性信息也是根据样本文本获取到的,因此也可以通过对作为训练样本的样本文本进行挖掘,获取上下文属性信息。
202、基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息。
其中,文本配乐模型可以为能够为待配乐文本匹配目标音乐的网络模型。本申请实施例不对文本配乐模型的种类进行限定,只要是有监督模型,能够为待配乐文本匹配目标音乐的,都可以作为本申请实施例中的文本配乐模型。比如,文本配乐模型可以为wide&deep模型,其中,wide&deep模型是一种通过结合线性模型的记忆能力、以及深度神经网络模型的泛化能力,用于分类和回归的模型,wide&deep模型中包括线性子模型、以及深度神经网络子模型,线性子模型部分是简单的浅层模型,如逻辑回归、svm(Support VectorMachine,支持向量机)等,可以用于处理数值型、类别型等的非文本特征。深度神经网络子模型部分是DNN(Deep Neural Networks,深度神经网络),可以用于处理标签词,提取特征向量并进行前向传播。在wide&deep模型的训练过程中,同时对两个子模型的参数进行优化,从而达到整体模型的预测能力最优。
其中,用户反馈信息是与用户在背景音乐下阅读文本后的反馈相关的信息,比如,用户反馈信息可以包括用户平均浏览时长、用户评论次数、用户打赏金额、用户分享次数中的一种或几种,等等。
在实际应用中,比如,获取到多个维度的样本特征信息后,可以将多个维度的样本特征信息输入至文本配乐模型中,并基于该文本配乐模型,预测浏览样本文本的用户针对样本文本的多维度的用户反馈信息,该用户反馈信息可以包括用户平均浏览时长、用户评论次数、用户打赏金额、用户分享次数中的一种或几种,等等。
在一实施例中,当文本配乐模型为wide&deep模型时,由于文本配乐模型包括线性子模型、以及深度神经网络子模型,因此,需要对样本特征信息进行分类,然后输入模型。具体地,步骤“基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息”,可以包括:
基于所述线性子模型、以及所述样本属性信息,预测浏览用户针对所述样本文本的属性预测信息;
基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息;
融合所述属性预测信息、以及所述标签预测信息,得到多维度的用户反馈信息。
其中,样本特征信息包括样本标签信息、以及样本属性信息。
其中,样本标签信息可以为通过文本的形式表示样本特征的标签,比如,样本标签信息可以包括音乐标签信息、读者群标签信息、文本标签信息,等等。
其中,样本属性信息可以为通过具体类别的形式表示样本特征的属性信息,比如,样本属性信息可以包括音乐属性信息、读者群属性信息、上下文属性信息,等等。
其中,文本配乐模型包括线性子模型、以及深度神经网络子模型。
其中,线性子模型部分是简单的浅层模型,如逻辑回归、svm等,可以用于处理数值型、类别型等的非文本特征。线性子模型具有记忆能力,即能够从历史数据中发现特征之间的相关性。
其中,深度神经网络子模型部分是DNN,可以用于处理标签词,提取特征向量并进行前向传播。深度神经网络子模型通过embedding(嵌入)方法,使用低维稠密特征作为输入,可以更好的泛化训练样本中未出现过的特征组合。
在实际应用中,比如,如图5所示,可以将样本特征信息分为样本标签信息、以及样本属性信息,将样本属性信息输入至线性子模型中,预测浏览用户针对样本文本的属性预测信息,将样本标签信息输入至深度神经网络子模型,预测浏览用户针对样本文本的标签预测信息,然后将属性预测信息、以及标签预测信息进行融合,得到多维度的用户反馈信息。
在一实施例中,在深度神经网络子模型中,可以通过将样本标签信息转换为向量形式,进行用户反馈信息的预测。具体地,步骤“基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息”,可以包括:
将所述样本标签信息转换为样本标签特征向量;
基于所述深度神经网络子模型、以及所述样本标签特征向量,预测浏览用户针对所述样本文本的标签预测信息。
其中,深度神经网络子模型包括嵌入层、以及隐藏层。
其中,嵌入层为位于深度神经网络子模型中,用于处理稀疏特征的网络结构,通过embedding(嵌入)算法的权重矩阵计算来降低维度,从而达到对稀疏特征进行降维的目的。
其中,隐藏层位于深度神经网络子模型中,深度神经网络子模型中除输入层和输出层以外的其他各层都为隐藏层,隐藏层不直接接受外界的信号,也不直接向外界发送信号。隐藏层通过对输入特征进行多层次的抽象,最终将输入特征线性划分为不同类型的数据。
在实际应用中,比如,可以将样本标签信息输入至深度神经网络子模型,通过嵌入层将样本标签信息转换为样本标签特征向量,该样本标签特征向量可以表示为向量的形式,然后通过隐藏层,预测浏览用户针对样本文本的标签预测信息。
203、基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失。
其中,目标函数可以为机器学习中用于达到需要的目标的函数。在机器学习中,为了完成某个目标,需要构造目标函数,然后让函数取极大值或者极小值,从而得到机器学习算法的模型参数。
其中,由于有监督模型在模型训练的时候需要有目标函数,本申请实施例中为了将多种用户反馈情况考虑到模型中,因此可以借鉴多任务学习的框架,设立多个目标函数。比如,本申请实施例可以围绕“用户在背景音乐下阅读文本后的反馈”这一核心思想构建目标函数,构建出的目标函数都是与用户阅读后行为相关的。如目标函数可以根据用户平均浏览时长、用户评论次数、用户打赏金额、用户分享次数等构建。其中,本申请实施例中不对目标函数进行限制,只要是满足核心思想的目标函数都可以,目标函数的种类可以根据实际情况进行调整。
在实际应用中,比如,基于文本配乐模型获取到多个维度的用户反馈信息之后,可以根据用户反馈信息、以及样本特征信息对应的样本反馈信息,构建多个维度的用户反馈信息对应的多个目标函数,然后对目标函数进行求解,得到求解后的结果。
204、基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型。
在实际应用中,比如,对多个目标函数进行求解后,可以根据目标函数的求解结果,对文本配乐模型中的参数进行调整,以达到对文本配乐模型进行训练的目的,当文本配乐模型训练至收敛时,可以得到训练后文本配乐模型。
205、基于训练后文本配乐模型预测待配乐文本的目标配乐。
在实际应用中,比如,文本配乐模型经过训练得到训练后文本配乐模型之后,可以利用该训练后文本配乐模型预测待配乐文本的目标配乐。
在一实施例中,可以通过预测音乐库中每首音乐针对待配乐文本的目标用户反馈信息,进而从音乐库中确定目标配乐。具体地,步骤“基于所述训练后文本配乐模型预测待配乐文本的目标配乐”,可以包括:
基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息;
根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐。
在实际应用中,比如,可以获取音乐库,该音乐库中包括多首音乐,训练后文本配乐模型可以从音乐库中确定出目标配乐。还可以获取需要进行文本配乐的待配乐文本,然后使得训练后文本配乐模型,根据音乐库、以及待配乐文本中的信息,分别预测音乐库中每首音乐针对待配乐文本,产生的目标用户反馈信息,然后根据获取到的目标用户反馈信息,从音乐库中确定待配乐文本的目标配乐。
在一实施例中,可以通过提取待配乐文本、以及音乐库对应的特征,方便训练后文本配乐模型进行目标用户反馈信息的预测。具体地,步骤“基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息”,可以包括:
获取待配乐文本、以及所述待配乐文本对应的多个文本特征;
获取音乐库、以及所述音乐库中多首音乐对应的音乐特征;
基于所述训练后文本配乐模型、所述文本特征、以及所述音乐特征,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息。
在实际应用中,比如,如图4所示,可以通过预设的音乐曲库、以及音乐评论库,获取音乐库中每首音乐对应的音乐标签信息、以及音乐属性信息。在作者写完一篇待配乐文本后,可以通过与模型训练时相同的方法获取该待配乐文本对应的文本特征,该文本特征可以包括文本特征信息、读者群特征信息、作者特征信息、以及上下文特征信息,具体地,该文本特征可以包括文本标签信息、读者群标签信息、读者群属性信息、上下文属性信息、以及作者特征信息。然后将音乐库中每首音乐对应的音乐标签信息、音乐库中每首音乐对应的音乐属性信息、待配乐文本对应的文本标签信息、待配乐文本对应的读者群标签信息、以及待配乐文本对应的上下文属性信息输入至训练后文本配乐模型中,预测出音乐库中每首音乐针对待配乐文本的多维度的目标用户反馈信息,如用户平均浏览时长、用户评论次数、用户打赏金额、用户分享次数中的一种或几种。
其中,在模型训练阶段,只有与样本文本匹配的样本音乐,才与样本文本一起输入模型中进行模型训练。而在模型使用阶段,可以将音乐库中的每首音乐都与待配乐文本一起输入模型中,进行用户反馈信息的预测,通过这种方法,可以预测到播放音乐库中每首音乐作为待配乐文本的背景音乐时,可能产生的目标用户反馈信息的情况。
在一实施例中,为了提升目标音乐选取的灵活性,可以根据作者的设置,基于作者更关心的用户反馈信息进行目标音乐的选取。具体地,步骤“根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐”,可以包括:
对所述音乐库中每首音乐对应的多维度的目标用户反馈信息进行加权融合,得到每首音乐对应的融合后用户反馈信息;
根据所述融合后用户反馈信息,从所述音乐库的多首音乐中确定所述待配乐文本的目标配乐。
在实际应用中,比如,当基于训练后文本配乐模型,获取到音乐库中每首音乐对应的多维度的目标用户反馈信息后,如获取到音乐库中每首音乐对应的目标用户平均浏览时长、目标用户评论次数、目标用户打赏金额、目标用户分享次数之后,可以根据作者的指定,对音乐库中的多首音乐进行排序,并推荐目标配乐。
比如,获取到音乐库中每首音乐对应的目标用户平均浏览时长、目标用户评论次数、目标用户打赏金额、目标用户分享次数之后,作者更希望提升用户的打赏金额,此时,作者可以设置为按照目标用户打赏金额进行推荐,系统可以根据音乐库中每首音乐预测出的目标用户打赏金额的数值,对音乐库中的多首音乐进行排序,然后将其中目标用户打赏金额数值高的一首或者几首音乐作为目标配乐推荐给作者,作者可以从推荐的目标配乐中选取待配乐文本的配乐。这样,作者能够轻易地了解到为待配乐文本匹配哪些背景音乐,可能会得到更多的打赏。目标用户反馈信息的类型可以根据实际情况进行调整,如可以删除掉作者不关心的用户反馈信息,或者添加新的用户反馈信息。
又比如,获取到音乐库中每首音乐对应的目标用户平均浏览时长、目标用户评论次数、目标用户打赏金额、目标用户分享次数之后,作者还可以设置作者本身对于每种用户反馈信息的关注程度,如作者可以将目标用户分享次数设置为最高的关注程度,其次为目标用户打赏金额,再其次为目标用户评论次数,再其次为目标用户平均浏览时长。然后,系统可以根据作者对每种用户反馈信息设置的关注程度,为每种用户反馈信息设置对应的权重,关注度高的用户反馈信息可以给予更高的权重,如可以将目标用户分享次数的权重设置为40%,将目标用户打赏金额的权重设置为30%,将目标用户评论次数的权重设置为20%,将目标用户平均浏览时长的权重设置为10%,然后根据权重,对多种目标用户反馈信息进行加权融合,得到每首音乐对应的融合后用户反馈信息,然后根据融合后用户反馈信息对音乐库中的多首音乐进行排序,并将融合后用户反馈信息较大的一首或几首音乐作为目标配乐推荐给作者,作者可以从推荐的目标配乐中选取待配乐文本的配乐。这样,作者能够根据自己对不同用户反馈信息的关注程度,进行目标音乐的选取。
在一实施例中,作者可以不仅可以指定作者本身针对每种用户反馈信息的关注程度的排序,还可以直接指定每种用户反馈信息的权重,如作者可以直接对每种用户反馈信息的权重进行设置。另外,系统对权重的分配不仅限于上述的权重数值,只要保证能够达到作者要求的权重都可以。
该文本配乐方法可以应用在文本配乐场景中,一方面能够节省作者的时间,辅助作者寻找到与待配乐文本最匹配的目标音乐,一方面还能够通过系统的智能推荐,为作者寻找到更多潜在的可以作为背景音乐的目标音乐。
在一实施例中,该文本配乐方法不仅能够应用于文本配乐的场景中,还可以应用于多模态闲聊系统中,比如,在用户通过聊天应用进行聊天时,系统可以自动地推荐音乐或者有声读物供用户选择,用户就可以根据系统的推荐,在聊天时播放与当前聊天内容匹配的音乐或者有声读物,如当用户在聊天系统中输入“生日快乐”时,系统可以自动推荐《祝你生日快乐》、《生日快乐》、《生日》等与生日快乐相关的歌曲,这样用户可以选择一首歌曲进行播放,大大提升了聊天时的用户体验。
由上可知,本申请实施例可以获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,提升了文本配乐模型的建模能力。根据该文本配乐模型对待配乐文本匹配音乐,不仅能够辅助作者寻找到合适的背景音乐,节省作者的时间,而且能够为作者寻找更多潜在的能够作为背景音乐的音乐,使得作者选取目标音乐的行为更加灵活,并且提升了为待配乐文本匹配音乐的准确性。
根据前面实施例所描述的方法,以下将以该文本配乐装置具体集成在网络设备举例作进一步详细说明。
参考图3,本申请实施例的文本配乐方法的具体流程可以如下:
301、网络设备获取训练样本,训练样本中包括样本文本、与样本文本匹配的样本音乐、以及浏览过样本文本的样本读者群。
在实际应用中,比如,可以从数据库中抽取的已经配乐完成的文本作为样本文本,并获取与该样本文本匹配的歌曲作为样本音乐、以及浏览过该样本文本的样本读者群的信息,该样本文本、样本音乐、以及样本读者群可以共同构成一个训练样本。
在一实施例中,可以通过丰富训练样本的方式,提升文本配乐模型的准确程度,因此,可以从数据库中获取多个样本文本,以便构成多个训练样本,进行文本配乐模型的训练。另外,与一个样本文本匹配的样本音乐不仅限于一首,也即样本音乐不仅限于历史作为样本文本背景音乐的一首音乐,还可以将与样本文本内容相关,能够作为该样本文本背景音乐的多首音乐都作为样本音乐,以丰富训练样本。同时,为了避免由于单个读者的个别行为,影响模型训练的效果,因此,样本读者群信息可以包括多个浏览过该样本文本的读者,通过扩大样本读者群的数目,保证样本读者群的一般性、以及准确性。
在一实施例中,为了在文本配乐模型训练过程中,可以根据经过文本配乐模型预测得到的多种用户反馈信息,与真实的样本反馈信息,进行多个维度上目标函数的构建,并通过多个维度上的目标函数进行目标优化,因此,在训练阶段,需要收集浏览过样本文本的读者阅读后的多种样本反馈信息,该收集到的信息为样本文本对应的真实的样本反馈信息,如读者平均浏览时长、读者评论次数、读者打赏金额、以及读者分享次数。这些真实的样本反馈信息可以作为训练模型的标签进行体现。
302、网络设备获取样本特征信息,样本特征信息包括音乐标签信息、读者群标签信息、文本标签信息、音乐属性信息、读者群属性信息、以及上下文属性信息。
在实际应用中,比如,获取到样本文本、样本音乐、以及样本读者群之后,可以通过查找预先设定好的音乐曲库、音乐评论库、以及读者画像库,获取音乐标签信息、读者群标签信息、音乐属性信息、读者群属性信息。由于数据库中的样本文本是不停增加的,因此不需要预先建立数据库,而是直接对样本文本进行挖掘,得到文本标签信息、以及上下文属性信息。
比如,如图5所示,可以查找音乐曲库、以及音乐评论库,通过音乐的音乐名、歌词、音乐评论等,对音乐标签信息进行挖掘;通过查找音乐曲库,得到音乐属性信息;查找读者画像库,通过读者看过的文章、发表的评论等文本中挖掘得到读者群标签信息、以及读者群属性信息。
其中,标签信息是利用文本形式表示的特征,标签信息可以表示为词语的形式,比如,音乐标签信息可以为“爵士乐”、“伤感”、“器乐”、“失恋时听”、“安静”,等等;读者群标签信息可以为“二次元”、“中年人”、“耍酷”,等等;文本标签信息可以为“情感类”、“历史类”、“八卦类”,等等。
其中,属性信息是利用具体类别形式表示的特征,可以通过“特征名特征值”的形式表示,比如,音乐属性信息可以为“时长20min”、“类别国语”、“调式C大调”,等等;读者群属性信息可以为“平均年龄28岁”、“平均身高170cm”、“主要城市北京/上海”,等等;上下文属性信息可以为“发表时间2019年1月1日”、“发表平台xx网站”,等等。
303、网络设备将样本特征信息输入至文本配乐模型中,预测出样本文本对应多维度的用户反馈信息。
在实际应用中,比如,当文本配乐模型为wide&deep模型时,由于wide&deep模型中包括wide部分、以及deep部分,其中,deep部分是深度神经网络,用于处理标签信息等文本特征,做embedding并前向传播,wide部分是简单的浅层模型,如逻辑回归、svm等,用于处理属性信息等非文本特征。因此,可以将样本特征信息划分为样本标签信息、以及样本属性信息,其中,样本标签信息中包括音乐标签信息、读者群标签信息、以及文本标签信息;样本属性信息中包括音乐属性信息、读者群属性信息、以及上下文属性信息。
然后,将样本标签信息输入至wide&deep模型中的deep部分,通过嵌入算法将样本标签信息转化为向量形式的样本标签特征向量,然后通过多层神经网络预测出样本标签信息对应的标签预测信息。将样本属性信息输入至wide&deep模型中的wide部分,通过wide部分的线性模型预测出样本属性信息对应的属性预测信息。然后将获取到的标签预测信息和属性预测信息进行融合,得到多维度的用户反馈信息。
其中,本申请实施例中不对文本配乐模型的结构或者类型进行限制,只要是有监督模型,能够预测出样本文本对应多维度的用户反馈信息的网络模型都可以。
304、网络设备根据多维度的用户反馈信息、以及训练样本对应的样本标签,构建多个目标函数。
在实际应用中,由于在网络模型进行训练的过程中,需要利用目标函数使得模型获取到需要的目标。因此,本申请实施例可以借鉴多任务学习的框架,围绕“用户在背景音乐下阅读文章后的反馈”这一核心思想,构建多个与用户阅读后行为相关的目标函数。
比如,获取到多维度的用户反馈信息后,可以将其与训练样本标签对应的样本反馈信息进行比较,并根据多维度的用户反馈信息、以及训练样本对应的样本反馈信息,构建多个维度的目标函数,其中,每个目标函数代表对一种用户反馈信息进行优化,也即,多个目标函数分别代表对读者平均浏览时长、读者评论次数、读者打赏金额、读者分享次数等用户反馈信息进行优化。为了提升文本配乐模型的灵活性,目标函数的种类可以根据实际情况进行调整,只要满足“用户在背景音乐下阅读文章后的反馈”这一核心思想的目标函数,都可以纳入系统之中。
305、网络设备求解多个目标函数,并根据求解结果调整文本配乐模型的参数,得到训练后文本配乐模型。
在实际应用中,比如,构建出多个目标函数后,可以对多个目标函数进行求解,并根据求解目标函数的求解结果,对文本配乐模型中的参数进行调整,直至文本配乐模型收敛,得到训练后文本配乐模型。
306、网络设备获取待配乐文本对应的文本特征、以及音乐库中每首音乐对应的音乐特征。
在实际应用中,比如,模型训练完毕得到训练后文本配乐模型后,可以利用该训练后文本配乐模型对待配乐文本进行目标配乐的预测。可以获取需要匹配背景音乐的待配乐文本,并挖掘该待配乐文本对应的文本特征,该文本特征可以包括待配乐文本对应的文本标签信息、读者群标签信息、读者群属性信息、上下文属性信息、以及作者特征信息。并且可以获取音乐库,该音乐库中包括多首音乐,然后根据预设的音乐曲库、音乐评论库、以及读者画像库,挖掘音乐库中每首音乐对应的音乐特征,该音乐特征可以包括音乐库中每首音乐对应的音乐标签信息、以及音乐属性信息。
307、网络设备将文本特征和音乐特征输入至训练后文本配乐模型中,预测得到多维度的目标用户反馈信息。
在实际应用中,比如,可以将待配乐文本对应的文本特征、以及音乐库中每首音乐对应的音乐特征输入至训练后文本配乐模型中,然后,基于训练后文本配乐模型预测出音乐库中每首音乐针对待配乐文本的多维度的目标用户反馈信息。
如音乐库中包括音乐1、音乐2、音乐3…等多首音乐,训练后文本配乐模型可以分别预测出音乐1作为待配乐文本的背景音乐时多维度的目标用户反馈信息;音乐2作为待配乐文本的背景音乐时多维度的目标用户反馈信息;音乐3作为待配乐文本的背景音乐时多维度的目标用户反馈信息...。其中,该多维度的目标用户反馈信息包括读者平均浏览时长、读者评论次数、读者打赏金额、以及读者分享次数。
其中,在训练文本配乐模型时,作为训练样本输入的音乐为与样本文本匹配的样本音乐,而在应用训练后文本配乐模型进行信息预测时,输入的音乐不仅限于与待配乐文本匹配的音乐,而是可以将音乐库中所有的音乐都输入,此时,可以获取到音乐库中每首音乐针对待配乐文本的多维度的目标用户反馈信息。
308、网络设备根据目标用户反馈信息,从音乐库的多首音乐中确定目标配乐。
在实际应用中,比如,获取到音乐库中每首音乐针对待配乐文本的多维度的目标用户反馈信息之后,可以为待配乐文本的作者提供多种排序方法,当待配乐文本的作者更关注用户打赏金额时,可以按照用户打赏金额的数值,对音乐库中的多首音乐进行排序,并将音乐库中的一首或者几首音乐作为目标配乐推荐给作者,以便作者从中选取更合适的音乐作为待配乐文本的背景音乐。
在一实施例中,又比如,获取到音乐库中每首音乐针对待配乐文本的多维度的目标用户反馈信息之后,可以按照待配乐文本的作者指定的权重,对多维度的目标用户反馈信息进行融合,得到融合后用户反馈信息,然后根据融合后用户反馈信息的数值,对音乐库中的多首音乐进行排序,并将音乐库中的一首或者几首音乐作为目标配乐推荐给作者,以便作者从中选取更合适的音乐作为待配乐文本的背景音乐。
由上可知,本申请实施例可以通过网络设备获取训练样本,训练样本中包括样本文本、与样本文本匹配的样本音乐、以及浏览过样本文本的样本读者群,获取样本特征信息,样本特征信息包括音乐标签信息、读者群标签信息、文本标签信息、音乐属性信息、读者群属性信息、以及上下文属性信息,将样本特征信息输入至文本配乐模型中,预测出样本文本对应多维度的用户反馈信息,根据多维度的用户反馈信息、以及训练样本对应的样本标签,构建多个目标函数,求解多个目标函数,并根据求解结果调整文本配乐模型的参数,得到训练后文本配乐模型,获取待配乐文本对应的文本特征、以及音乐库中每首音乐对应的音乐特征,将文本特征和音乐特征输入至训练后文本配乐模型中,预测得到多维度的目标用户反馈信息,根据目标用户反馈信息,从音乐库的多首音乐中确定目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,提升了文本配乐模型的建模能力。根据该文本配乐模型对待配乐文本匹配音乐,不仅能够辅助作者寻找到合适的背景音乐,节省作者的时间,而且能够为作者寻找更多潜在的能够作为背景音乐的音乐,使得作者选取目标音乐的行为更加灵活,并且提升了为待配乐文本匹配音乐的准确性。
为了更好地实施以上方法,本申请实施例还可以提供一种文本配乐装置,该文本配乐装置具体可以集成在网络设备中,该网络设备可以包括服务器、终端等,其中,终端可以包括:手机、平板电脑、笔记本电脑或个人计算机(PC,Personal Computer)等。
例如,如图6所示,该文本配乐装置可以包括获取模块61、第一预测模块62、损失获取模块63、训练模块64和第二预测模块65,如下:
获取模块61,用于获取样本文本、以及所述样本文本对应多维度的样本特征信息;
第一预测模块62,用于基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息;
损失获取模块63,用于基于所述样本特征信息、以及所述用户反馈信息,获取每个维度用户反馈信息对应的损失;
训练模块64,用于基于所述每个维度用户反馈信息对应的损失,对所述文本配乐模型进行训练,得到训练后文本配乐模型;
第二预测模块65,用于基于所述训练后文本配乐模型预测待配乐文本的目标配乐。
在一实施例中,所述获取模块61可以包括获取子模块611和提取子模块612,如下:
获取子模块611,用于获取样本文本、以及所述样本文本对应的多种样本配乐信息;
提取子模块612,用于提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息。
在一实施例中,所述提取子模块612可以具体用于:
基于预设数据库,提取所述样本配乐信息对应的样本配乐特征信息;
提取所述样本文本的特征,得到所述样本文本对应的样本文本特征信息。
在一实施例中,所述第一预测模块62可以包括第一预测子模块621、第二预测子模块622和融合子模块623,如下:
第一预测子模块621,用于基于所述线性子模型、以及所述样本属性信息,预测浏览用户针对所述样本文本的属性预测信息;
第二预测子模块622,用于基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息;
融合子模块623,用于融合所述属性预测信息、以及所述标签预测信息,得到多维度的用户反馈信息。
在一实施例中,所述第二预测子模块622可以具体用于:
将所述样本标签信息转换为样本标签特征向量;
基于所述深度神经网络子模型、以及所述样本标签特征向量,预测浏览用户针对所述样本文本的标签预测信息。
在一实施例中,所述第二预测模块65可以包括第三预测子模块651和确定子模块652,如下:
第三预测子模块651,用于基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息;
确定子模块652,用于根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐。
在一实施例中,所述第三预测子模块651可以具体用于:
获取待配乐文本、以及所述待配乐文本对应的多个文本特征;
获取音乐库、以及所述音乐库中多首音乐对应的音乐特征;
基于所述训练后文本配乐模型、所述文本特征、以及所述音乐特征,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息。
在一实施例中,所述确定子模块652可以具体用于:
对所述音乐库中每首音乐对应的多维度的目标用户反馈信息进行加权融合,得到每首音乐对应的融合后用户反馈信息;
根据所述融合后用户反馈信息,从所述音乐库的多首音乐中确定所述待配乐文本的目标配乐。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例可以通过获取模块61获取样本文本、以及样本文本对应多维度的样本特征信息,通过第一预测模块62基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,通过损失获取模块63基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,通过训练模块64基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,通过第二预测模块65基于训练后文本配乐模型预测待配乐文本的目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,提升了文本配乐模型的建模能力。根据该文本配乐模型对待配乐文本匹配音乐,不仅能够辅助作者寻找到合适的背景音乐,节省作者的时间,而且能够为作者寻找更多潜在的能够作为背景音乐的音乐,使得作者选取目标音乐的行为更加灵活,并且提升了为待配乐文本匹配音乐的准确性。
本申请实施例还提供一种网络设备,该网络设备可以集成本申请实施例所提供的任一种文本配乐装置。
例如,如图7所示,其示出了本申请实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器71、一个或一个以上计算机可读存储介质的存储器72、电源73和输入单元74等部件。本领域技术人员可以理解,图7中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器71是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器72内的软件程序和/或模块,以及调用存储在存储器72内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器71可包括一个或多个处理核心;优选的,处理器71可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器71中。
存储器72可用于存储软件程序以及模块,处理器71通过运行存储在存储器72的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器72可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器72还可以包括存储器控制器,以提供处理器71对存储器72的访问。
网络设备还包括给各个部件供电的电源73,优选的,电源73可以通过电源管理系统与处理器71逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源73还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元74,该输入单元74可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器71会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器72中,并由处理器71来运行存储在存储器72中的应用程序,从而实现各种功能,如下:
获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例可以获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。该方案可以通过将样本文本对应的多维度的样本特征信息作为模型输入,并设定多个优化目标,提升了文本配乐模型的建模能力。根据该文本配乐模型对待配乐文本匹配音乐,不仅能够辅助作者寻找到合适的背景音乐,节省作者的时间,而且能够为作者寻找更多潜在的能够作为背景音乐的音乐,使得作者选取目标音乐的行为更加灵活,并且提升了为待配乐文本匹配音乐的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机设备,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本配乐方法中的步骤。例如,该指令可以执行如下步骤:
获取样本文本、以及样本文本对应多维度的样本特征信息,基于文本配乐模型、以及样本特征信息,预测浏览用户针对样本文本的多维度的用户反馈信息,基于样本特征信息、以及用户反馈信息,获取每个维度用户反馈信息对应的损失,基于每个维度用户反馈信息对应的损失,对文本配乐模型进行训练,得到训练后文本配乐模型,基于训练后文本配乐模型预测待配乐文本的目标配乐。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本配乐方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本配乐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本配乐方法、装置、以及计算机存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本配乐方法,其特征在于,包括:
获取样本文本、以及所述样本文本对应多维度的样本特征信息;
基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息;
基于所述样本特征信息、以及所述用户反馈信息,获取每个维度用户反馈信息对应的损失;
基于所述每个维度用户反馈信息对应的损失,对所述文本配乐模型进行训练,得到训练后文本配乐模型;
基于所述训练后文本配乐模型预测待配乐文本的目标配乐。
2.根据权利要求1所述的文本配乐方法,其特征在于,获取样本文本、以及所述样本文本对应多维度的样本特征信息,包括:
获取样本文本、以及所述样本文本对应的多种样本配乐信息;
提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息。
3.根据权利要求2所述的文本配乐方法,其特征在于,所述样本特征信息包括样本文本特征信息、以及样本配乐特征信息;
提取所述样本文本、以及所述样本配乐信息的特征,得到多维度的样本特征信息,包括:
基于预设数据库,提取所述样本配乐信息对应的样本配乐特征信息;
提取所述样本文本的特征,得到所述样本文本对应的样本文本特征信息。
4.根据权利要求1所述的文本配乐方法,其特征在于,所述样本特征信息包括样本标签信息、以及样本属性信息;
所述文本配乐模型包括深度神经网络子模型、以及线性子模型;
基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息,包括:
基于所述线性子模型、以及所述样本属性信息,预测浏览用户针对所述样本文本的属性预测信息;
基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息;
融合所述属性预测信息、以及所述标签预测信息,得到多维度的用户反馈信息。
5.根据权利要求4所述的文本配乐方法,其特征在于,基于所述深度神经网络子模型、以及所述样本标签信息,预测浏览用户针对所述样本文本的标签预测信息,包括:
将所述样本标签信息转换为样本标签特征向量;
基于所述深度神经网络子模型、以及所述样本标签特征向量,预测浏览用户针对所述样本文本的标签预测信息。
6.根据权利要求1所述的文本配乐方法,其特征在于,基于所述训练后文本配乐模型预测待配乐文本的目标配乐,包括:
基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息;
根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐。
7.根据权利要求6所述的文本配乐方法,其特征在于,基于所述训练后文本配乐模型、音乐库、以及待配乐文本,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息,包括:
获取待配乐文本、以及所述待配乐文本对应的多个文本特征;
获取音乐库、以及所述音乐库中多首音乐对应的音乐特征;
基于所述训练后文本配乐模型、所述文本特征、以及所述音乐特征,预测所述音乐库中每首音乐针对所述待配乐文本的多维度的目标用户反馈信息。
8.根据权利要求6所述的文本配乐方法,其特征在于,根据所述目标用户反馈信息,从所述音乐库中确定所述待配乐文本的目标配乐,包括:
对所述音乐库中每首音乐对应的多维度的目标用户反馈信息进行加权融合,得到每首音乐对应的融合后用户反馈信息;
根据所述融合后用户反馈信息,从所述音乐库的多首音乐中确定所述待配乐文本的目标配乐。
9.一种文本配乐装置,其特征在于,包括:
获取模型,用于获取样本文本、以及所述样本文本对应多维度的样本特征信息;
第一预测模型,用于基于文本配乐模型、以及所述样本特征信息,预测浏览用户针对所述样本文本的多维度的用户反馈信息;
损失获取模型,用于基于所述样本特征信息、以及所述用户反馈信息,获取每个维度用户反馈信息对应的损失;
训练模型,用于基于所述每个维度用户反馈信息对应的损失,对所述文本配乐模型进行训练,得到训练后文本配乐模型;
第二预测模型,用于基于所述训练后文本配乐模型预测待配乐文本的目标配乐。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-8任一项所述的文本配乐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089616.XA CN110852047A (zh) | 2019-11-08 | 2019-11-08 | 一种文本配乐方法、装置、以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089616.XA CN110852047A (zh) | 2019-11-08 | 2019-11-08 | 一种文本配乐方法、装置、以及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852047A true CN110852047A (zh) | 2020-02-28 |
Family
ID=69600183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911089616.XA Pending CN110852047A (zh) | 2019-11-08 | 2019-11-08 | 一种文本配乐方法、装置、以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852047A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782858A (zh) * | 2020-03-31 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 音乐匹配的方法和装置 |
CN113377971A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源生成方法、装置、电子设备以及存储介质 |
CN113573143A (zh) * | 2021-07-21 | 2021-10-29 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
CN113744071A (zh) * | 2021-08-03 | 2021-12-03 | 北京搜狗科技发展有限公司 | 评论信息的处理方法、装置、电子设备及存储介质 |
CN117093718A (zh) * | 2023-10-20 | 2023-11-21 | 联通沃音乐文化有限公司 | 基于云算力和大数据技术的知识图谱海量非结构化集成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391980A (zh) * | 2014-12-08 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 生成歌曲的方法和装置 |
US20180032305A1 (en) * | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-creation of soundtracks for text |
US20180190249A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Machine Learning to Generate Music from Text |
CN109063163A (zh) * | 2018-08-14 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
CN109166564A (zh) * | 2018-07-19 | 2019-01-08 | 平安科技(深圳)有限公司 | 为歌词文本生成乐曲的方法、装置及计算机可读存储介质 |
CN109299290A (zh) * | 2018-12-07 | 2019-02-01 | 广东小天才科技有限公司 | 一种基于知识图谱的配乐推荐方法及电子设备 |
CN109388731A (zh) * | 2018-08-31 | 2019-02-26 | 昆明理工大学 | 一种基于深度神经网络的音乐推荐方法 |
CN109587554A (zh) * | 2018-10-29 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 视频数据的处理方法、装置及可读存储介质 |
-
2019
- 2019-11-08 CN CN201911089616.XA patent/CN110852047A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391980A (zh) * | 2014-12-08 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 生成歌曲的方法和装置 |
US20180032305A1 (en) * | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-creation of soundtracks for text |
US20180190249A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Machine Learning to Generate Music from Text |
CN109166564A (zh) * | 2018-07-19 | 2019-01-08 | 平安科技(深圳)有限公司 | 为歌词文本生成乐曲的方法、装置及计算机可读存储介质 |
CN109063163A (zh) * | 2018-08-14 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
CN109388731A (zh) * | 2018-08-31 | 2019-02-26 | 昆明理工大学 | 一种基于深度神经网络的音乐推荐方法 |
CN109587554A (zh) * | 2018-10-29 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 视频数据的处理方法、装置及可读存储介质 |
CN109299290A (zh) * | 2018-12-07 | 2019-02-01 | 广东小天才科技有限公司 | 一种基于知识图谱的配乐推荐方法及电子设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782858A (zh) * | 2020-03-31 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 音乐匹配的方法和装置 |
CN111782858B (zh) * | 2020-03-31 | 2024-04-05 | 北京沃东天骏信息技术有限公司 | 音乐匹配的方法和装置 |
CN113377971A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源生成方法、装置、电子设备以及存储介质 |
CN113377971B (zh) * | 2021-05-31 | 2024-02-27 | 北京达佳互联信息技术有限公司 | 多媒体资源生成方法、装置、电子设备以及存储介质 |
CN113573143A (zh) * | 2021-07-21 | 2021-10-29 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
CN113573143B (zh) * | 2021-07-21 | 2023-09-19 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
CN113744071A (zh) * | 2021-08-03 | 2021-12-03 | 北京搜狗科技发展有限公司 | 评论信息的处理方法、装置、电子设备及存储介质 |
CN117093718A (zh) * | 2023-10-20 | 2023-11-21 | 联通沃音乐文化有限公司 | 基于云算力和大数据技术的知识图谱海量非结构化集成方法 |
CN117093718B (zh) * | 2023-10-20 | 2024-04-09 | 联通沃音乐文化有限公司 | 基于云算力和大数据技术的知识图谱海量非结构化集成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717017B (zh) | 一种处理语料的方法 | |
WO2022078102A1 (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN111444357B (zh) | 内容信息确定方法、装置、计算机设备及存储介质 | |
CN112131472B (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
CN108875090B (zh) | 一种歌曲推荐方法、装置和存储介质 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
Shen et al. | Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords | |
CN118103834A (zh) | 一种信息获取方法以及装置 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN110851650B (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
US9129216B1 (en) | System, method and apparatus for computer aided association of relevant images with text | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN113254711A (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN111291564B (zh) | 一种用于词向量获取的模型训练方法、装置和存储介质 | |
Song et al. | Text sentiment analysis based on convolutional neural network and bidirectional LSTM model | |
He et al. | Deep learning in natural language generation from images | |
Yang | [Retracted] Research on Music Content Recognition and Recommendation Technology Based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021493 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |