CN113658577B

CN113658577B - 一种语音合成模型训练方法、音频生成方法、设备及介质

Info

Publication number: CN113658577B
Application number: CN202110937782.1A
Authority: CN
Inventors: 徐东; 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-06-14
Anticipated expiration: 2041-08-16
Also published as: CN113658577A

Abstract

本申请公开了一种语音合成模型训练方法、音频生成方法、设备及介质，包括：获取训练样本集；输入至语音合成模型；提取文本样本的文字内容特征向量、表述方式特征向量；提取语音样本的语音特征向量以及确定对应的风格向量；基于风格向量、文字内容特征向量、表述方式特征向量确定文本样本的预测梅尔频谱；利用预测梅尔频谱和语音样本的真实梅尔频谱确定梅尔频谱损失，利用风格向量和标签信息确定风格向量损失；基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，当所述综合训练损失收敛，得到训练后语音合成模型和训练后风格向量。能够提升训练得到的语音合成模型对不同表述方式的区分效果，从而提升合成语音的自然度，以及用户体验。

Description

一种语音合成模型训练方法、音频生成方法、设备及介质

技术领域

本申请涉及语音合成技术领域，特别涉及一种语音合成模型训练方法、音频生成方法、设备及介质。

背景技术

随着深度神经网络技术的发展，在语音合成领域出现越来越强大的声学模型和声码器，前者用于将文本序列生成为梅尔频谱，后者用于将梅尔频谱生成高质量的语音。目前，在语音合成领域，对于表述方式的差异，比如，旁白或者对话，现有的模型训练很难达到良好的区分效果，因此合成语音的自然度较低，用户体验不佳。综上，在实现本发明的过程中，发明人发现，现有技术中至少存在训练得到的语音合成模型难以区分不同的表述方式，合成的语音自然度，用户体验不佳的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音合成模型训练方法、设备及介质，能够提升训练得到的语音合成模型对不同表述方式的区分效果，从而提升合成语音的自然度，以及用户体验。其具体方案如下：

第一方面，本申请提供了一种语音合成模型训练方法，包括：

获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签；

将所述训练样本集输入至语音合成模型；

提取所述文本样本的文字内容特征向量以及表述方式特征向量；

提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量；

基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱；

利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失；

基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失；

当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

可选的，所述获取训练样本集，包括：

获取长句文本样本、单句文本样本、所述长句文本样本对应的语音样本、所述单句文本样本对应的语音样本以及标签信息，得到训练样本集；

其中，所述长句文本样本为包含多个单句文本以及相邻两个单句文本之间的停顿标注信息的文本样本。

可选的，所述获取长句文本样本、单句文本样本，包括：

将原始文本以预设标点符号拆分为单句文本；

确定所述单句文本的结尾标点符号的符号类型；

对所述单句文本进行分词和词性标注，得到所述单句文本的分词和词性；

基于所述分词和词性标注所述单句文本中所述分词的停顿等级，以及基于所述符号类型标注所述单句文本结尾的停顿等级，得到单句文本样本；

将所述单句文本样本逐句拼接，在拼接的过程中，判断当前拼接句子的字符个数是否达到预设字符数阈值，若没有达到，则将当前待拼接的单句文本样本拼接至所述拼接句子，直到当前拼接句子的字符个数达到所述预设字符阈值，则将当前拼接句子作为长句文本样本，并开始拼接下一个拼接句子，直到满足拼接结束条件。

可选的，所述将原始文本以预设标点符号拆分为单句文本之后，还包括：

将不含第一目标字符的所述单句文本剔除；其中，所述第一目标字符包括汉字、数字以及字母；

将剩余的所述单句文本中的第二目标字符剔除；其中，所述第二目标字符为不包含有效信息的字符。

可选的，获取标签信息，包括：

判断所述文本样本中引号的性质，若所述性质为表示对话，则确定引号内文本的所述表述方式标签为对话类型。

可选的，所述判断所述单句文本中引号的性质，包括：

判断引号前是否存在冒号，若存在，则判定引号的性质为表示对话；

或，判断引号前是否存在指定文字，若存在，则判定引号的性质为表示对话；其中，所述指定文字为表示所述指定文字后为对话类型文字的文字；

或，分析引号内文本的词性，若引号内文本包括动词，则判定引号的性质为表示对话。

可选的，所述基于所述风格向量、所述文字内容特征向量以及表述方式特征向量确定所述文本样本对应的预测梅尔频谱，包括：

基于所述风格向量对应的权重参数、所述文字内容特征向量对应的权重参数、所述表述方式特征向量对应的权重参数，对所述风格向量、所述文字内容特征向量以及所以表述方式特征向量进行拼接，得到拼接向量；

基于注意力机制确定所述拼接向量对应的预测梅尔频谱。

可选的，所述基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，包括：

基于所述梅尔频谱损失对应的权重参数、所述风格向量损失对应的权重参数，对所述梅尔频谱损失、所述风格向量损失进行加权计算，得到综合训练损失。

第二方面，本申请公开了一种音频生成方法，包括：

获取待合成语音的目标文本，以及所述目标文本的目标标签信息；其中，所述目标标签信息包括表述方式标签；

将所述目标文本以及所述目标标签信息输入至前述训练后语音合成模型；

提取所述目标文本的文本内容特征向量，以及基于所述表述方式标签提取所述目标文本的表述方式特征向量；

基于所述目标标签信息以及所述训练后语音合成模型对应的训练后风格向量确定目标风格向量；

基于所述目标风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述目标文本对应的目标预测梅尔频谱；

利用所述目标预测梅尔频谱合成相应的预测语音。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的语音合成模型训练方法和/或前述的语音生成方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的语音合成模型训练方法和/或前述的语音生成方法。

可见，本申请先获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签，之后将所述训练样本集输入至语音合成模型，提取所述文本样本的文字内容特征向量以及表述方式特征向量，提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量，然后基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱，利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失，基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。也即，本申请利用包括表述方式标签的标签信息以及文本样本、语音样本对语音合成模型进行训练，在训练的过程中，提取了文字内容特征向量和表述方式特征向量，利用语音样本对应的风格向量、文字内容特征向量和表述方式特征向量确定预测梅尔频谱，进而确定损失，当损失收敛，得到训练后语音合成模型，这样，在训练过程中，考虑了表述方式特征，能够提升训练得到的语音合成模型对不同表述方式的区分效果，从而提升合成语音的自然度，以及用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的语音合成模型训练方案所适用的系统框架示意图；

图2为本申请公开的一种语音合成模型训练方法流程图；

图3为本申请公开的一种具体的语音合成模型训练方法示意图；

图4为本申请公开的一种具体的语音合成模型训练方法流程图；

图5为本申请公开的一种具体的训练样本集获取流程图；

图6为本申请公开的一种具体的语音合成模型训练方法流程图；

图7为本申请公开的一种具体的语音合成模型预测示意图；

图8为本申请公开的一种语音合成模型训练装置结构示意图；

图9为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在语音合成领域，对于表述方式的差异，比如，旁白或者对话，现有的模型训练很难达到良好的区分效果，因此合成语音的自然度较低，用户体验不佳。为此，本申请提供了一种语音合成模型训练方案，能够提升训练得到的语音合成模型对不同表述方式的区分效果，从而提升合成语音的自然度，以及用户体验。

本申请的语音合成模型训练方案中，采用的系统框架图可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，PC)，此处不做限定。后台服务器可以为云端服务器或者非云端服务器。

本申请中，后台服务器执行的步骤，包括获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签；将所述训练样本集输入至语音合成模型；提取所述文本样本的文字内容特征向量以及表述方式特征向量；提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量；基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱；利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失；基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失；当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

其中，用户端用于将用户指定的需要进行语音合成的文本内容传输给后台服务器，以便后台服务器在获取到文本内容时，利用训练后语音合成模型模型以及训练后风格向量确定文本内容的预测梅尔频谱，进而合成语音，并将语音传输至用户端播放。

参见图2所示，本申请实施例公开了一种语音合成模型训练方法，包括：

步骤S11：获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签。

在具体的实施方式中，所述表述方式标签可以为对话类型，也即，对文本样本中的表述方式为对话的文字内容进行标注，得到对话类型的表达方式标签。进一步的，可以，对文本样本中的表述方式为非对话的文字内容进行标注，得到旁白类型的表述方式标签，也可以不标注旁白。比如，可以用1对文本样本中的表述方式为对话的文字内容进行标注，作为对话类型的标签，用0对文本样本中的表述方式为非对话的文字内容进行标注，作为旁白类型的标签，也即，本申请实施例中，可以将非对话的文字内容的表述方式确定为旁白类型，当然，也可以不标注旁白，只标注表述方式为对话的文字内容即可，这样也可以区分出文字内容的表述方式为旁白还是对话。

另外，在具体的实施方式中，所述标签信息还可以包括说话人标签、情绪标签、语速标签等。

并且，在具体的实施方式中，获取标签信息的具体过程包括：

进一步的，在具体的实施方式中，可以判断引号前是否存在冒号，若存在，则判定引号的性质为表示对话；或，判断引号前是否存在指定文字，若存在，则判定引号的性质为表示对话；其中，所述指定文字为表示所述指定文字后为对话类型文字的文字；或，分析引号内文本的词性，若引号内文本包括动词，则判定引号的性质为表示对话。

需要指出的是，引号的性质是除了表示对话之外，还可以标注强调、特殊称谓等，一般在朗读时，对于表示对话类型的引号，会在话语开始前有一些停顿，而在表示强调的引号，则以重音强调，一般不会停顿较长时间。因此，需要尽可能的准确判断引号是否表示话语。本实施例可以通过以上3种方式判断，但具体的引号性质判断方式包括但不限于以上3种方式。并且，在具体的实施方式中，可以先判断引号前是否有冒号，若有，则判定引号的性质为表示对话，若没有，则继续判断引号前的文字是否是如“道，说，讲，陈述，挑明，告诉”等明确为对话类型的文字，若有，则判定引号的性质为表示对话，若没有则通过分析引号内的文本词性，对于只有名词类型的则判定是强调，对于存在动词类型的判定为对话类型。

步骤S12：将所述训练样本集输入至语音合成模型。

步骤S13：提取所述文本样本的文字内容特征向量以及表述方式特征向量。

也即，语音合成模型在编码阶段提取的文本特征向量包括文字内容特征向量以及表述方式特征向量，其中，文字内容特征向量代表文本的内容信息，即具体表述了什么文字信息，表述方式特征向量代表文本的表述方式，即是以旁白的形式表述还是以对话的形式表述。

步骤S14：提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量。

在具体的实施方式中，通过多头注意力机制获取所述语音特征向量在不同信息维度的令牌，然后对各令牌进行加权计算，得到所述所述语音特征向量对应的风格向量。

需要指出的是，语音特征向量包含语音样本的各类信息，通过多头注意力机制获得的语音特征向量在不同维度的令牌，相当于语音在各个维度的分支向量，代表如停顿、音色、语义、情感等方面的信息，通过权重加权，可以将令牌合并得到风格向量。

步骤S15：基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱。

在具体的实施方式中，可以基于所述风格向量对应的权重参数、所述文字内容特征向量对应的权重参数、所述表述方式特征向量对应的权重参数，对所述风格向量、所述文字内容特征向量以及所以表述方式特征向量进行拼接，得到拼接向量；基于注意力机制确定所述拼接向量对应的预测梅尔频谱。

其中，所述风格向量对应的权重参数、所述文字内容特征向量对应的权重参数、所述表述方式特征向量对应的权重参数均为可学习参数，在训练过程中更新。

当然，在一些实施例中，也可以根据风格向量，对文字内容特征向量以及所以表述方式特征向量进行拼接，得到拼接向量。

步骤S16：利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失。

在具体的实施方式中，可以利用梅尔频谱损失、风格向量损失更新模型参数。

步骤S17：基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失。

在具体的实施方式中，可以基于所述梅尔频谱损失对应的权重参数、所述风格向量损失对应的权重参数，对所述梅尔频谱损失、所述风格向量损失进行加权计算，得到综合训练损失。

其中，梅尔频谱损失对应的权重参数、风格向量损失对应的权重参数可以为根据经验预先配置的参数，也可以为可学习参数。

在另一种具体的实施方式中，可以将所述梅尔频谱损失和所述风格向量损失直接相加，得到综合训练损失。

需要指出的是，确定综合训练损失的损失包括但不限于梅尔频谱损失以及风格向量损失，还可以包括根据实际需求计算的其他损失。

步骤S18：当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

例如，参见图3所示，本申请实施例公开了一种具体的语音合成模型训练方法示意图。语音合成模型包括语音编码器、GST(即Global Style Token，全局风格符号)模块、文本编码器、表述方式编码器、注意力机制、解码器。首先，分别通过文本编码器和表述方式编码器实现提取文本的文字内容特征向量和表述方式特征向量；通过语音编码器提取语音的语音特征向量，然后通过GST模块的多头注意力机制，获得语音向量在不同维度的令牌，然后通过权重加权，将这些令牌结果合并得到风格向量。之后，评估风格向量的准确性，通过标签信息和当前的风格向量确定风格向量损失；评估预测的梅尔频谱效果，对输入的训练语音提取梅尔频谱，作为真实的梅尔频谱，接着计算模型预测的梅尔频谱与真实梅尔频谱的差值，得到梅尔频谱损失，然后将风格向量损失、梅尔频谱损失反馈给语音合成模型，用于模型训练过程中调整权重参数，直至预测效果与真实效果接近一致。其中，预测梅尔频谱，是指解码器对输入的文本向量和风格向量进行条件控制后的处理结果，代表的是声学模型的输出，也即，预测梅尔频谱是基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定的梅尔频谱。

需要指出的是，在端到端语音合成的Tacotron2模型的基础上，添加了GST模块进行风格化，使得合成的语音更加的有韵律表现力，训练时，通过大量成对的文本/语音数据，分别对文本提取音素/音调等文本向量，对语音提取韵律向量，对韵律向量采用多头注意力机制学习得到风格向量，并与文本向量进行拼接后送入注意力机制模型。训练结束后，GST模块提取了数据集中音频的全局风格特征，如韵律停顿等信息，存储在风格向量中，在进行语音合成时，即可使用得到的风格向量进行语音合成。其中，韵律停顿为将文本有声化后，文本中的字、词、句的停顿时长。本申请实施例在Tacotron2模型和GST模块的基础上，引入了表述方式编码器，用于在训练时对旁白和对话进行区分，这样，模型在训练阶段可以对旁白和对话进行建模，区分旁白和对话，更加符合日常表达习惯，合成语音也更加的自然。

可见，本申请实施例先获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签，之后将所述训练样本集输入至语音合成模型，提取所述文本样本的文字内容特征向量以及表述方式特征向量，提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量，然后基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱，利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失，基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。也即，本申请利用包括表述方式标签的标签信息以及文本样本、语音样本对语音合成模型进行训练，在训练的过程中，提取了文字内容特征向量和表述方式特征向量，利用语音样本对应的风格向量、文字内容特征向量和表述方式特征向量确定预测梅尔频谱，进而确定损失，当损失收敛，得到训练后语音合成模型，这样，在训练过程中，考虑了表述方式特征，能够提升训练得到的语音合成模型对不同表述方式的区分效果，从而提升合成语音的自然度，以及用户体验。

参见图4所示，本申请实施例公开了一种具体的语音合成模型训练方法，包括：

步骤S21：获取长句文本样本、单句文本样本、所述长句文本样本对应的语音样本、所述单句文本样本对应的语音样本以及标签信息，得到训练样本集。

参见图5所示，本申请实施例公开了一种具体的训练样本集获取流程图，在具体的实施方式中，获取长句文本样本、单句文本样本的具体过程包括，包括：

步骤S31：将原始文本以预设标点符号拆分为单句文本。

其中，原始文本为未经处理的文本，文本类型包括但不限于小说文本、资讯、对话等，可以为长篇文本，也可以为小段文本。预设标点符号可以包括逗号、句话、感叹号、省略号等。

也即，本申请实施例可以将原始文本以每句话之间的标点符号为分隔符逐句拆分，比如，原始文本为“大家好，请多多指教。”拆分后的单句文本分别为“大家好，”和“请多多指教。”

在具体的实施方式中，可以将不含第一目标字符的所述单句文本剔除；其中，所述第一目标字符包括汉字、数字以及字母。

进一步的，将剩余的所述单句文本中的第二目标字符剔除；其中，所述第二目标字符为不包含有效信息的字符。

也即，本申请实施例可以剔除无效字符，获得拆分后的单句文本之后，判断每个单句文本是否含有第一目标字符，对于不包含第一目标字符的文本予以剔除，比如，文本中仅包含“￥(。|”等，则剔除该单句文本。进一步的，将剩余的单句文本中的无效字符剔除，即不含合成语音的有效信息的字符。在剔除了无效文本以及剩余单句文本中的无效字符后，即可对当前的单句文本进行后续处理，这样，可以避免无效文本以及无效字符的影响。

另外，本申请实施例中，获取标签信息具体的过程可以包括：判断所述单句文本中引号的性质，若所述性质为表示对话，则确定引号内文本的所述表述方式标签为对话类型。

也即，本申请实施例可以在拆分出单句文本并剔除无效文本以及无效字符后对单句文本中的引号性质进行判断。具体的判断方式可以参考前述实施例公开的内容，在此不再进行赘述。

步骤S32：确定所述单句文本的结尾标点符号的符号类型。

需要指出的是，单句文本的结尾标点符号通常为相邻两个单句之间的标点，确定结尾标点符号的符号类型可以用于进行句间停顿处理。

步骤S33：对所述单句文本进行分词和词性标注，得到所述单句文本的分词和词性。

需要指出的是，分词是指通过分词将每句话中的词、短语拆分出来，词性标注是指将每个词的词性预测出来。比如，“你吃饭了吗？”，经过分词后得到“你吃饭了吗？”，其中“吃饭”是一个单独的词语；经过词性标注得到分词后的每一个字、词语的词性，比如“你”属于代词。在具体的实施方式中，可以利用，比如“结巴”(jieba)分词等分词工具进行分词，得到单句文本的分词，包括句子中的字、词、短语，以及词性。

步骤S34：基于所述分词和词性标注所述单句文本中所述分词的停顿等级，以及基于所述符号类型标注所述单句文本结尾的停顿等级，得到单句文本样本。

在具体的实施方式中，可以根据停顿长短，划分停顿等级，比如分为4个等级，用#1，#2，#3，#4来表示。对于单句文本的分词，韵律词，韵律短语，语调短语的等级分别为“#1”，“#2”，“#3”。通过判断句间的标点符号，给予文本对应的停顿级别，级别越高，停顿越久，逗号停顿较短，句号停顿较长，两句之间是逗号，则在第一句的结尾标注“#3”，两句之间是句号，则在第一句的结尾标注“#4”。通过这种标注方式，实现文本的句间停顿可控，达到停顿有长有短的效果。

步骤S35：将所述单句文本样本逐句拼接，在拼接的过程中，判断当前拼接句子的字符个数是否达到预设字符数阈值，若没有达到，则将当前待拼接的单句文本样本拼接至所述拼接句子，直到当前拼接句子的字符个数达到所述预设字符阈值，则将当前拼接句子作为长句文本样本，并开始拼接下一个拼接句子，直到满足拼接结束条件。

其中，拼接结束条件可以为拼接完全部的单句文本样本，或长句文本样本的数量达到预设数量，得到了充足的样本，则结束拼接。

这样，获得字符数接近并且都达到预设字符数阈值的长句文本样本，这些拼接的长句文本样本，相比单句文本，具有句间停顿的韵律信息，能够更好的体现句子之间的停顿。

另外，在具体的实施方式中，如果存在单句文本的字符数大于预设阈值，也即单句文本过长，可以丢弃或者拆分。

步骤S22：将所述训练样本集输入至语音合成模型。

步骤S23：提取所述文本样本的文字内容特征向量以及表述方式特征向量。

步骤S24：提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量。

步骤S25：基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱。

步骤S26：利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失。

步骤S27：基于所述梅尔频谱损以及所述风格向量损失确定综合训练损失。

关于上述步骤S23至步骤S27的具体实现方式可以参考前述实施例公开的内容，在此不再进行赘述。

步骤S28：判断综合训练损失是否收敛。

步骤S29：若是，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

否则，利用综合训练损失更新语音合成模型，并从训练样本集中确定出另外的文本样本、语音样本以及标签信息，并执行上述步骤S23至S28。

也即，本申请实施例利用训练样本集对语音合成模型进行训练，并在训练过程中确定出综合训练损失，当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

可见，本申请实施例获取的训练样本集中获取长句文本样本、单句文本样本、所述长句文本样本对应的语音样本、所述单句文本样本对应的语音样本，包括丰富的单句内的韵律停顿信息以及单句间的韵律停顿信息，使模型能够更好的获取韵律停顿信息，从而提升模型性能。

参见图6所示，本申请实施例公开了一种具体的音频生成方法，包括：

步骤S41：获取待合成语音的目标文本，以及所述目标文本的目标标签信息；其中，所述目标标签信息包括表述方式标签。

其中，所述表述方式标签的获取过程可以参考前述实施例公开的内容，在此不再进行赘述。所述目标标签信息还可以包括情绪标签、语速标签等。

步骤S42：将所述目标文本以及所述目标标签信息输入至本申请实施例公开的训练后语音合成模型。

步骤S43：提取所述目标文本的文本内容特征向量，以及基于所述表述方式标签提取所述目标文本的表述方式特征向量；

步骤S44：基于所述目标标签信息以及所述训练后语音合成模型对应的训练后风格向量确定目标风格向量；

步骤S45：基于所述目标风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述目标文本对应的目标预测梅尔频谱。

在具体的实施方式中，可以对所述文本内容特征向量、所述表述方式特征向量以及所述目标风格向量进行拼接，得到拼接向量；基于注意力机制确定该拼接向量对应的目标预测梅尔频谱。

例如，参见图7所示，本申请实施例公开了一种具体的语音合成模型预测示意图。

输入目标文本以及目标标签信息，文本编码器提取文本内容特征向量，表述方式编码器基于表述方式标签提取表述方式特征向量，利用训练后风格向量和目标标签信息确定目标风格向量，对目标风格向量、文本内容特征向量、表述方式特征向量进行拼接，得到拼接向量，通过注意力机制、解码器得到拼接向量对应的预测梅尔频谱。

需要指出的是，对于模型训练，在一种具体的实施方式中，可以获取多个说话人对应的训练样本集；利用每个说话人对应的训练样本集分别输入对应的语音合成模型进行训练，得到每个说话人对应的训练后语音合成模型。因此，在音频生成时，获取用户输入的目标文本和说话人信息，根据所述说话人信息确定出对应的训练后语音合成模型，确定目标文本的目标标签信息，包括表述方式标签等，无需说话人标签，将目标文本和目标标签信息输入至该训练后语音合成模型，以生成说话人信息对应的语音。

在另一种具体的实施方式中，可以获取多个说话人对应的训练样本集，将多个说话人对应的训练样本集输入至同一训练后语音合成模型进行训练，得到每个说话人对应的训练后语音合成模型。由于利用多个说话人对应的训练样本集训练同一模型，所以训练样本集包括说话人标签。在音频生成时，获取用户输入的目标文本和说话人信息，确定目标标签信息，该目标标签信息包括利用说话人信息确定的说话人标签，将目标标签信息和目标文本输入至训练后语音合成模型，以生成说话人信息对应的语音。

当然，在一些实施例中，可以利用所述训练后语音合成模型，并基于目标标签信息生成风格向量，基于生成的风格向量、文本内容特征向量、表述方式特征向量确定目标预测梅尔频谱，无需使用训练后风格向量，

步骤S46：利用所述目标预测梅尔频谱合成相应的预测语音。

在具体的实施方式中，可以通过相位预测或者神经网络声码器合成相应的预测语音。

其中，通过相位预测的方法，包括但不限于通过葛氏林氏算法(Griffin-Lim信号估计算法)，该方法可以通过将输入的频谱(幅度谱，没有相位信息)预测出相位信息，然后通过迭代的方式，不断缩小预测相位对应的逆傅里叶变化的频谱与输入频谱的差异，获得最终的预测语音信号，该方法相对简单，但预测语音的音质较差。通过神经网络声码器的方案，是指通过深度神经网络建立频谱与语音之间的联系，进行预测，输出的语音音质较高，但算法复杂度较大。

下面，以某款语音合成APP为例，对本申请的技术方案进行说明。

这款APP的后台服务器先获取大量的小说文本、咨询文本，得到原始文本，将原始文本以预设标点符号拆分为单句文本，剔除无效文本以及有效文本中的无效字符，然后判断剩余单句文本中引号的性质，若为表示对话，则确定引号内文本的表述方式标签为对话类型，确定剩余的有效单句文本的结尾标点符号的符号类型，以及对剩余的单句文本进行分词和词性标注，基于分词和词性标注单句文本中分词的停顿等级，以及基于符号类型标注单句文本结尾的停顿等级，得到单句文本样本，进一步的，将所述单句文本样本逐句拼接，在拼接的过程中，判断当前拼接句子的字符个数是否达到预设字符数阈值，若没有达到，则将当前待拼接的单句文本样本拼接至所述拼接句子，直到当前拼接句子的字符个数达到所述预设字符阈值，则将当前拼接句子作为长句文本样本，并开始拼接下一个拼接句子，直到满足拼接结束条件，这样得到长句文本样本以及单句文本样本以及表述方式标签，进而获取相应的语音样本，得到训练样本集。将所述训练样本集输入至语音合成模型；提取所述文本样本的文字内容特征向量以及表述方式特征向量；提取所述文本样本对应的语音样本的语音特征向量，并通过多头注意力机制确定所述语音特征向量对应的风格向量；基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱；利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失；基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

其中，用户端安装这款语音合成APP，用户通过这款APP将需要进行语音合成的文本内容传输给后台服务器，后台服务器在获取到文本内容时，利用训练后语音合成模型模型以及训练后风格向量确定文本内容的预测梅尔频谱，进而合成语音，并将语音传输至用户端播放。

参见图8所示，本申请实施例公开了一种语音合成模型训练装置，包括：

训练样本集获取模块11，用于获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签；

训练样本集输入模块12，用于将所述训练样本集输入至语音合成模型；

文本特征提取模块13，用于提取所述文本样本的文字内容特征向量以及表述方式特征向量；

语音特征提取模块14，用于提取所述文本样本对应的语音样本的语音特征向量；

风格向量确定模块15，用于并通过多头注意力机制确定所述语音特征向量对应的风格向量；

预测梅尔频谱确定模块16，用于基于所述风格向量、所述文字内容特征向量以及所述表述方式特征向量确定所述文本样本对应的预测梅尔频谱；

损失确定模块17，用于利用所述预测梅尔频谱和所述语音样本对应的真实梅尔频谱确定梅尔频谱损失，以及利用所述风格向量和所述标签信息确定风格向量损失；基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失；

训练后模型确定模块18，用于当所述综合训练损失收敛，则将当前的语音合成模型确定为训练后语音合成模型，以及将当前的风格向量确定为训练后风格向量。

其中，训练样本集获取模块11，具体用于获取长句文本样本、单句文本样本、所述长句文本样本对应的语音样本、所述单句文本样本对应的语音样本以及标签信息，得到训练样本集；其中，所述长句文本样本为包含多个单句文本以及相邻两个单句文本之间的停顿标注信息的文本样本。

在具体的实施方式中，训练样本集获取模块11包括：

单句样本获取子模，用于将原始文本以预设标点符号拆分为单句文本；确定所述单句文本的结尾标点符号的符号类型；对所述单句文本进行分词和词性标注，得到所述单句文本的分词和词性；基于所述分词和词性标注所述单句文本中所述分词的停顿等级，以及基于所述符号类型标注所述单句文本结尾的停顿等级，得到单句文本样本；

长句样本获取子模块，用于将所述单句文本样本逐句拼接，在拼接的过程中，判断当前拼接句子的字符个数是否达到预设字符数阈值，若没有达到，则将当前待拼接的单句文本样本拼接至所述拼接句子，直到当前拼接句子的字符个数达到所述预设字符阈值，则将当前拼接句子作为长句文本样本，并开始拼接下一个拼接句子，直到满足拼接结束条件。

所述装置还包括：

无效文本体剔除模块，用于将不含第一目标字符的所述单句文本剔除；其中，所述第一目标字符包括汉字、数字以及字母；

无效字符剔除模块，用于将剩余的所述单句文本中的第二目标字符剔除；其中，所述第二目标字符为不包含有效信息的字符。

在具体的实施方式中，训练样本集获取模块11，包括：

标签信息获取子模块，用于判断所述文本样本中引号的性质，若所述性质为表示对话，则确定引号内文本的所述表述方式标签为对话类型。

进一步的，在具体的实施方式中，标签信息获取子模块，具体用于：

预测梅尔频谱确定模块16，具体用于基于所述风格向量对应的权重参数、所述文字内容特征向量对应的权重参数、所述表述方式特征向量对应的权重参数，对所述风格向量、所述文字内容特征向量以及所以表述方式特征向量进行拼接，得到拼接向量；基于注意力机制确定所述拼接向量对应的预测梅尔频谱。

进一步的，本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的语音合成模型训练方法和/或音频生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及训练数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中训练数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的语音合成模型训练方法和/或音频生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的语音合成模型训练方法和/或音频生成方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种语音合成模型训练方法、音频生成方法、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

获取训练样本集；其中，所述训练样本集包括文本样本、所述文本样本对应的语音样本以及标签信息，并且，所述标签信息包括表述方式标签；表述方式标签用于区分文字内容的表述方式为对话还是旁白；

将所述训练样本集输入至语音合成模型；

2.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述获取训练样本集，包括：

3.根据权利要求2所述的语音合成模型训练方法，其特征在于，所述获取长句文本样本、单句文本样本，包括：

将原始文本以预设标点符号拆分为单句文本；

确定所述单句文本的结尾标点符号的符号类型；

4.根据权利要求3所述的语音合成模型训练方法，其特征在于，所述将原始文本以预设标点符号拆分为单句文本之后，还包括：

5.根据权利要求1所述的语音合成模型训练方法，其特征在于，获取标签信息，包括：

6.根据权利要求5所述的语音合成模型训练方法，其特征在于，所述判断所述文本样本中引号的性质，包括：

7.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述基于所述风格向量、所述文字内容特征向量以及表述方式特征向量确定所述文本样本对应的预测梅尔频谱，包括：

基于注意力机制确定所述拼接向量对应的预测梅尔频谱。

8.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述基于所述梅尔频谱损失以及所述风格向量损失确定综合训练损失，包括：

9.一种音频生成方法，其特征在于，包括：

获取待合成语音的目标文本，以及所述目标文本的目标标签信息；其中，所述目标标签信息包括表述方式标签；表述方式标签用于区分文字内容的表述方式为对话还是旁白；

将所述目标文本以及所述目标标签信息输入至如权利要求1至8任一项所述的训练后语音合成模型；

利用所述目标预测梅尔频谱合成相应的预测语音。

10.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的语音合成模型训练方法和/或如权利要求9所述的音频生成方法。

11.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的语音合成模型训练方法和/或如权利要求9所述的音频生成方法。