CN111986646B

CN111986646B - 一种基于小语料库的方言合成方法及系统

Info

Publication number: CN111986646B
Application number: CN202010825021.2A
Authority: CN
Inventors: 石强
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2023-12-15
Anticipated expiration: 2040-08-17
Also published as: CN111986646A

Abstract

本发明提供了一种基于小语料库的方言合成方法及系统，所述方法执行以下步骤：步骤1：基于普通话语料生成基础模型；步骤2：获取方言训练语料；步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。根据本发明的方法，使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型，这样可以在没有足够方言训练语料的情况下，达到高似然度的方言语音合成效果。

Description

一种基于小语料库的方言合成方法及系统

技术领域

本发明涉及语音合成技术领域，特别涉及一种基于小语料库的方言合成方法及系统。

背景技术

目前，常见的语音合成方法，采用基于Tacotron2模型和Wavenet生码器的端到端的语音合成系统，其使用Tacotron2系统是根据文本信息预处理产生的编码串，来生成梅尔频谱，并将梅尔频谱作为Wavenet声码器的输入，来生成出对应语音输出。

然而，现在基于Tacotron2模型和Wavenet生码器的端到端的语音合成系统，通常需要很大的数据量来使得模型收敛，以达到比较理想的语音合成效果。但在汉语合成领域，相较于普通话，方言由于其语言学特性，其训练语料的获取成本和难度更高，如此就很难收集到足够的数据量来训练端到端语音合成系统。

发明内容

本发明提供一种基于小语料库的方言合成方法及系统，用以在没有足够方言训练语料的情况下，获得高似然度的方言语音合成效果。

本发明提供了一种基于小语料库的方言合成方法，所述方法执行以下步骤：

步骤1：基于普通话语料生成基础模型；

步骤2：获取方言训练语料；

步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。

进一步地，在所述步骤1中，所述基于普通话语料生成基础模型执行以下步骤：

步骤S11：使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型；

步骤S12：将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。

进一步地，在所述步骤2中，所述方言训练语料包括：方言语音音频和/或方言拼音序列。

进一步地，所述步骤2：获取方言训练语料执行以下步骤：

步骤S21：选择母语为目标方言的声优进行录制，得到所述方言语音音频；

步骤S22：使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列。

进一步地，在所述步骤S22中，所述自建方言词典是通过以下步骤构建的：

步骤S221：根据语言学信息对普通话的声韵集合进行扩展；

步骤S222：使用五度法对普通话的声调种类进行扩展。

进一步地，所述步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型执行以下步骤：

步骤S31：将所述方言拼音序列作为Tacotron2模型的输入，将梅尔频谱序列作为所述Tacotron2模型的输出；

步骤S32：将所述梅尔频谱序列作为所述Wavenet声码器的输入，所述Wavenet声码器对所述梅尔频谱序列进行特征建模，输出对应的音频。

本发明实施例提供的一种基于小语料库的方言合成方法，具有以下有益效果：使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型，这样可以在没有足够方言训练语料的情况下，达到高似然度的方言语音合成效果。

本发明还提供一种基于小语料库的方言合成系统，包括：

基础模型生成模块，用于基于普通话语料生成基础模型；

方言训练语料获取模块，用于获取方言训练语料：

方言模型训练模块，用于基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。

进一步地，所述基础模型生成模块具体用于：

使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型，将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。

进一步地，所述方言训练语料获取模块所获取的所述方言训练语料包括：方言语音音频和/或方言拼音序列。

进一步地，所述方言训练语料获取模块包括：

方言语音音频获取单元，用于选择母语为目标方言的声优进行录制，得到所述方言语音音频；

方言拼音序列获取单元，用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列。

本发明实施例提供的一种基于小语料库的方言合成系统，具有以下有益效果：使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型，这样可以在没有足够方言训练语料的情况下，达到高似然度的方言语音合成效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于小语料库的方言合成方法的流程示意图；

图2为本发明实施例中一种基于小语料库的方言合成系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于小语料库的方言合成方法，如图1所示，所述方法执行以下步骤：

步骤1：基于普通话语料生成基础模型；

步骤2：获取方言训练语料；

上述技术方案的工作原理为：发明人经过研究发现，在汉语合成领域，相较于普通话，方言由于其语言学特性，其训练语料的获取成本和难度更高，如此就很难收集到足够的数据量来训练端到端语音合成系统。

本发明将知识蒸馏原理应用到端到端语音合成系统的训练中，在获取原始训练数据后，首先利用原始训练数据对老师模型进行训练，然后将利用老师模型预测的特征参数作为训练数据，对学生模型进行训练；最终使用训练好的学生模型学生模型来做声学特征参数的预测，以进行端到端语音合成。

上述技术方案的有益效果为：使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型，这样可以在没有足够方言训练语料的情况下，达到高似然度的方言语音合成效果。

在一个实施例中，在所述步骤1中，所述基于普通话语料生成基础模型执行以下步骤：

上述技术方案的工作原理为：首先使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型；然后将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为基础模型。

上述技术方案的有益效果为：提供了基于普通话语料生成基础模型的具体步骤。

在一个实施例中，在所述步骤2中，所述方言训练语料包括：方言语音音频和/或方言拼音序列。

上述技术方案的工作原理为：方言训练语料与普通话的训练语料类似，包含如下两个部分：方言语音音频、方言拼音序列。本发明在一种实施方式中，方言训练语料包括方言语音音频；本发明在另一实施方式中，方言训练语料包括方言拼音序列；本发明在又一实施方式中所述方言训练语料包括：方言语音音频和方言拼音序列两者。

具体而言，所述步骤2：获取方言训练语料执行以下步骤：

在步骤S21中的声优是指配音演员，即用声音来进行表演的人。

上述技术方案的有益效果为：提供了获取方言训练语料的具体步骤。

在一个实施例中，在所述步骤S22中，所述自建方言词典是通过以下步骤构建的：

步骤S221：根据语言学信息对普通话的声韵集合进行扩展；

步骤S222：使用五度法对普通话的声调种类进行扩展。

上述技术方案的工作原理为：由于方言的特殊性，不能使用普通话的拼音来覆盖所有的方言读音，所以在本发明中根据语言学对普通话的声韵集合进行了扩展，并且使用五度法扩展了声调种类。

其中，步骤S221中的语言学信息是相对声学信息而言的，声学信息对应于人类说话的发音习惯，语言学信息对应于人类说话的文本信息习惯，其与具体的说话内容相关。

在步骤S222中，五度法指的是，先用一根竖线作为比较线，分成四等分，由低向高标上1、2、3、4、5，依次表示低、半低、中、半高、高，在直线的左边用横线，斜线、曲线来表示普通话四个调值的高低升降变化。高而平的线表示阴平，以55来表示；由中向高变化的线表示阳平，用35来代表：先降后升的线表示上声，用214来表示；由高而低的线表示去声，用51来代表。

上述技术方案的有益效果为：提供了构建自建方言词典的具体步骤。

在一个实施例中，所述步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型执行以下步骤：

上述技术方案的工作原理为：根据迁移学习的思想，使用步骤2中获得的方言训练语料，对步骤1中获得的基础模型进行重新训练，来获得方言的Tacotron2+Wavenet模型。

具体地，Tacotron2模型实现方言拼音序列到梅尔频谱的转化，将梅尔频谱序列输入到声码器，通过声码器提取特征并输出音频。

上述技术方案的有益效果为：提供了基于方言训练语料对基础模型进行训练，得到方言语音合成模型的具体步骤。

如图2所示，本发明实施例提供了一种基于小语料库的方言合成系统，包括：

基础模型生成模块201，用于基于普通话语料生成基础模型；

方言训练语料获取模块202，用于获取方言训练语料：

方言模型训练模块203，用于基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。

上述技术方案的工作原理为：本发明使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型。具体而言，基础模型生成模块201基于普通话语料生成基础模型；方言训练语料获取模块202获取方言训练语料：方言模型训练模块203基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。

在一个实施例中，所述基础模型生成模块201具体用于：

上述技术方案的工作原理为：基础模型生成模块201首先使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型；然后将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为基础模型。

上述技术方案的有益效果为：借助于基础模型生成模块，可以基于普通话语料生成基础模型。

在一个实施例中，所述方言训练语料获取模块202所获取的所述方言训练语料包括：方言语音音频和/或方言拼音序列。

具体而言，所述方言训练语料获取模块202包括：

其中，方言语音音频获取单元所选择的母语为目标方言的声优是指配音演员，即用声音来进行表演的人。

上述技术方案的有益效果为：借助于方言语音音频获取单元和方言拼音序列获取单元，可以实现方言训练语料的获取。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于小语料库的方言合成方法，其特征在于，所述方法执行以下步骤：

步骤1：基于普通话语料生成基础模型；

步骤2：获取方言训练语料；

步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型；

在所述步骤1中，所述基于普通话语料生成基础模型执行以下步骤：

步骤S11：使用大量的普通话语料，训练基于Tacotron2模型和Wavenet声码器的端到端语音合成模型；

步骤S12：将训练好的基于Tacotron2模型和Wavenet声码器的端到端语音合成模型作为所述基础模型；

在所述步骤2中，所述方言训练语料包括：方言语音音频和/或方言拼音序列；

所述步骤2：获取方言训练语料执行以下步骤：

步骤S22：使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列；

在所述步骤S22中，所述自建方言词典是通过以下步骤构建的：

步骤S221：根据语言学信息对普通话的声韵集合进行扩展；

步骤S222：使用五度法对普通话的声调种类进行扩展。

2.如权利要求1所述的方法，其特征在于，所述步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型执行以下步骤：

3.一种基于小语料库的方言合成系统，其特征在于，包括：

基础模型生成模块，用于基于普通话语料生成基础模型；

方言训练语料获取模块，用于获取方言训练语料：

方言模型训练模块，用于基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型；

所述基础模型生成模块具体用于：

使用大量的普通话语料，训练基于Tacotron2模型和Wavenet声码器的端到端语音合成模型，将训练好的基于Tacotron2模型和Wavenet声码器的端到端语音合成模型作为所述基础模型；

所述方言训练语料获取模块所获取的所述方言训练语料包括：方言语音音频和/或方言拼音序列；

所述方言训练语料获取模块包括：

方言拼音序列获取单元，用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列；所述自建方言词典通过以下步骤构建：

根据语言学信息对普通话的声韵集合进行扩展；

使用五度法对普通话的声调种类进行扩展。