WO2022116487A1

WO2022116487A1 - 基于生成对抗网络的语音处理方法、装置、设备及介质

Info

Publication number: WO2022116487A1
Application number: PCT/CN2021/096660
Authority: WO
Inventors: 郑振鹏; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-01
Filing date: 2021-05-28
Publication date: 2022-06-09
Also published as: CN112397057A; CN112397057B

Abstract

涉及语音处理技术领域，一种基于生成对抗网络的语音处理方法、装置、设备及介质，其中方法包括获取待处理语音段，按照预设长度对待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记（S1）；将切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和降噪的语音信号对应的语音端点信息（S2）；将降噪的语音信号与对应的语音端点信息进行结合，形成待拼接的语音信号（S3）；将待拼接的语音信号按照切割次序标记进行拼接，得到重塑语音信号（S4）。还涉及区块链技术，待处理语音段存储于区块链中。通过将降噪的语音信号和语音端点信息进行结合，有效提高了语音处理的准确度。

Description

基于生成对抗网络的语音处理方法、装置、设备及介质

本申请要求于2020年12月01日提交中国专利局、申请号为202011387380.0，发明名称为“基于生成对抗网络的语音处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于生成对抗网络的语音处理方法、装置、设备及介质。

背景技术

语音处理包括语音增强(Speech Enhancement)和语音端点检测(Voice Activity Detection)等步骤。语音增强旨在去除掉混在语音信号的背景噪声，通过去除掉背景噪声，可以获取更加清晰的语音信号，利于后续的任务获取较好的表现效果。语音端点检测旨在获取语音端的起始端点，通过消除掉非语音，可以减少后续的计算，提高后续语音系统的鲁棒性和准确性。但实际环境的背景噪声过大给语音处理都带来了巨大挑战。

为了解决实际环境中背景噪声过大的问题，现有方法是通过将带有背景噪音的待处理语音输入到生成对抗网络中，再通过生成对抗网络中判别器对待处理语音进行判别，然后通过对判别结果进行训练，以达到去除背景噪声的目的。但是，发明人意识到这种方法在语音处理中，由于是直接将待处理语音进行直接对判别，容易导致判别结果误差相差较大，从而导致最终语音处理噪声的效果不够明显，使得语音处理准确度较低。现亟需一种能够提高语音处理准确度的方法。

发明内容

本申请实施例的目的在于提出一种基于生成对抗网络的语音处理方法、装置、设备及介质，以提高语音处理的准确度。

第一方面，本申请实施例提供一种基于生成对抗网络的语音处理方法，其包括：

获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。

第二方面，本申请实施例还提供一种基于生成对抗网络的语音处理装置，其包括：

待处理语音段获取模块，用于获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

切割语音段输入模块，用于将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

待拼接的语音信号模块，用于将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

重塑语音信号获取模块，用于将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。

第三方面，本申请实施例还提供一种计算机设备，其包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使得所述处理器执行如下步骤：

本申请实施例提供了一种基于生成对抗网络的语音处理方法、装置、设备及介质。本申请实施例通过将经过语音增强后的降噪的语音信号和经过语音检测后的语音端点信息，进行结合，得到能够被语音增强和被端点检测后的重塑语音信号，进而有利于对重塑语音信号的语音判断，有效提高了语音处理的准确度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于生成对抗网络的语音处理方法的应用环境示意图；

图2根据本申请实施例提供的基于生成对抗网络的语音处理方法的一实现流程图；

图3是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的一实现流程图；

图4是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的又一实现流程图；

图5是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的又一实现流程图；

图6是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的又一实现流程图；

图7是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的又一实现流程图；

图8是本申请实施例提供的基于生成对抗网络的语音处理方法中子流程的又一实现流程图；

图9是本申请实施例提供的基于生成对抗网络的语音处理装置示意图；

图10是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本申请进行详细说明。

请参阅图1，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于生成对抗网络的语音处理方法一般由服务器执行，相应地，基于生成对抗网络的语音处理装置一般配置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参阅图2，图2示出了基于生成对抗网络的语音处理方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本申请的方法并不以图2所示的流程顺序为限，该方法包括如下步骤：

S1：获取待处理语音段，按照预设长度对待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记。

具体的，在需要对待处理语音段进行语音处理时，服务器首先会获取待处理语音段，并且根据预设长度对待处理语音段，按照从语音开始阶段到语音结束的顺序进行切割，并且在语音切割的同时，对切割次序进行标记，从而得到切割语音段和切割次序标记。

其中，切割次序标记是待处理语音段在被切割时，每段切割语音段对应的标记。

例如，待处理语音段时长为500秒，服务器按照2秒的长度对待处理语音段，从语音开始阶段到语音结束的顺序进行切割，并且在切割次序上进行标记，得到250段切割语音段和250段切割语音段对应的切割次序标记。如从待处理语音段0到2秒的切割语音段，其对应切割次序标记为1。

需要说明的是，预设长度根据实际情况进行设定，此处不做限定。在一具体的实施例中预设长度为2秒。

S2：将切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和降噪的语音信号对应的语音端点信息。

具体的，服务器将切割语音段输入到训练好的生成对抗网络中，通过训练好的生成对抗网络中的生成器对切割语音段，进行语音增强处理，产生被增强的语音信号，即为降噪的语音信号，实际上每个降噪的语音信号为每个切割语音段对应的采样点；再将被增强的语音信号输入到训练好的生成对抗网络的判别器中，通过训练好的生成对抗网络的判别器对降噪的语音信号进行判定，输出降噪的语音信号对应的语音端点信息，也即输出降噪的语音信号是否为真实语音信号的概率值。

其中，降噪的语音信号是切割语音段经过语音增强后，对应得到能够被增强的语音采样信号；语音端点信息是对应降噪的语音信号是否为真实语音信号的概率值，通过概率值判断为是否为真实语音，也即得到的判断结果为真实语音或非真实语音。

其中，生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型。该模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。其中，此处的生成模型对应本申请中的生成对抗网络中的生成器，用于输出切割语音信号被语音增强后，得到的降噪的语音信号；此处的判别模型对应本申请中的生成对抗网络中的判别器，用于输出判别结果。

S3：将降噪的语音信号与对应的语音端点信息进行结合，形成待拼接的语音信号。

具体的，由于降噪的语音信号是切割语音段经过语音增强后，对应得到能够被增强的语音信号，而语音端点信息是对应降噪的语音信号是否为真实语音信号的概率值，通过概率值判断为是否为真实语音，还是非语音。由于实际上每个降噪的语音信号为每个切割语音段对应的采样点，而语音端点信息为每个的采样点对应的概率值，通过将降噪的语音信号与语音端点信息的结果进行结合，形成待拼接的语音信号。也即每个待拼接的语音信号能够得到被语音增强，同时每个待拼接的语音信号含有是否为真实语音的概率值，即得到的每个待拼接的语音信号能够同时被语音增强和被语音检测。

S4：将待拼接的语音信号按照切割次序标记进行拼接，得到重塑语音信号。

具体的，将待拼接的语音信号从每一段语音开始到语音结束，按照切割次序标记进行拼接，得到重塑语音信号。其中，该重塑语音信号是通过了语音增强和语音端点检测，并且通过语音增强和语音端点检测进行结合，实现了去除噪音，提高语音处理准确度的目的。

本实施例中，通过获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号，通过将经过语音增强后的降噪的语音信号和经过语音检测后的语音端点信息，进行结合，得到能够被语音增强和被端点检测后的重塑语音信号，进而有利于对重塑语音信号的语音判断，有效提高了语音处理的准确度。请参阅图3，图3示出了步骤S1之前的一种具体实施方式，该实施例包括：

S2A:获取预设的噪音语音信号和目标语音信号，并按照预设长度对噪音语音信号和目标语音信号进行切割，得到噪音语音段和目标语音段。

具体的，在生成对抗网络的训练过程中，首先会获取噪音语音信号和目标语音信号，再将其输入到生成对抗网络中进行训练。

需要说明的是，对噪音语音信号和目标语音信号进行切割的预设长度，与对步骤S1中对待处理语音段进行切割的预设长度可以为不同的长度，但是最佳的实施效果为将两者的预设长度设置为相同长度。另外，在对噪音语音信号和目标语音信号进行切割时，会设置噪音语音段和目标语音段各自重叠部分，而对待处理语音段进行切割不需要设置重叠部分。这是因为在生成对抗网络的模型训练的时候设置重叠部分，可以增加训练数据，使模型学习到更好的网络参数，而在进行待处理语音的处理过程时，只需要对每一个采样点经过一次处理，即可完成语音处理任务。

S2B:按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据。

具体的，采用随机抽取不放回的方式，抽取噪音语音段和目标语音段，以保证随机抽取到噪音语音段和目标语音段不具有重复性，有利于生成对抗网络的模型训练。

S2C:将训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据观测语音段与判别结果，计算损失函数值，得到目标损失。

具体的，由于训练数据包括随机抽取到的噪音语音段和目标语音段，将噪音语音段输入到生成对抗网络的生成器中，生成观测语音段，再将噪音语音段、目标语音段输入到生成对抗网络的判别器中，得到各自的判别结果。再根据观测语音段与判别结果，计算损失函数值，得到目标损失。

其中，判别结果是将训练数据输入到生成对抗网络的判别器中，通过判别器对训练数据进行判别，得到每个训练数据是真实语音还是噪音，若是真实语音，则判别结果为1，若是噪音，则判别结果为0。并且由于训练数据不是单一的，所以判别结果中存在大量的判别结果1和0，这有利于计算判别结果的损失函数值。

S2D:根据目标损失更新生成对抗网络的参数，得到训练好的生成对抗网络。

具体的，通过步骤S2C获取到的目标损失，将其对应更新生成对抗网络的生成器参数和判别器参数，最终得到训练好的生成对抗网络。

在本实施中，获取预设的噪音语音信号和目标语音信号，并按照预设长度对噪音语音信号和目标语音信号进行切割，得到噪音语音段和目标语音段，然后按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据，再将训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据观测语音段与判别结果，计算损失函数值，得到目标损失，最后根据目标损失更新生成对抗网络的参数，得到训练好的生成对抗网络，使得根据噪音语音段和目标语音段训练生成对抗网络，有利于后续输出降噪的语音信号和所述降噪的语音信号对应的语音端点信息，从而提高语音处理的准确度。

请参阅图4，图4示出了步骤S2C的一种具体实施方式，步骤S2C中将训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据观测语音段与判别结果，计算损失函数值，得到目标损失的具体实现过程，详叙如下：

S2C1:将训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成观测语音段，并计算观测语音段和训练数据中的目标语音段的损失函数值，得到第一损失值。

具体的，将训练数据中的噪音语音段输入到生成对抗网络的生成器中，能够得到被检测和被语音增强的语音信号，即观测语音段。再通过损失函数，计算观测语音段和训练数据中的目标语音段的损失函数值，得到第一损失值，通过第一损失值能够判别观测语音段与目标语音段的偏离程度，第一损失值值越大，说明观测语音段和目标语音段越不相似，也即两者的偏离程度越大；在本申请中，对生成对抗网络进行训练，使其能够最大程度辨别噪音和真实语音，也即得到的第一损失值越大，说明对生成对抗网络的训练越接近完成。所以，第一损失值在后续步骤中用来更新生成器参数。

S2C2:将训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算第一判别结果的损失函数值，得到第二损失值。

具体的，通过判别器对训练数据中的噪音语音段进行判别，得到每个训练数据中的噪音语音段是真实语音或是噪音，若是真实语音，则第一判别结果为1，若是噪音，则第一判别结果为0。由于训练数据的噪音语音段不是单一的，所以第一判别结果中存在大量的判别结果1和0，从而进行计算第一判别结果的损失函数值，得到第二损失值。

S2C3:将训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算第二判别结果的损失函数值，得到第三损失值。

具体的，通过判别器对训练数据中的目标语音段进行判别，得到每个训练数据中的目标语音段是真实语音或是噪音，若是真实语音，则第二判别结果为1，若是噪音，则第二判别结果为0。由于训练数据的目标语音段不是单一的，所以第二判别结果中存在大量的判别结果1和0，从而进行计算第二判别结果的损失函数值，得到第三损失值。

S2C4:将第一损失值、第二损失值以及第三损失值作为目标损失。

具体的，将第一损失值、第二损失值以及第三损失值作为目标损失，对后续的生成对抗网络的参数进行更新。

本实施例中，通过将训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成观测语音段，并计算观测语音段和训练数据中的目标语音段的损失函数值，得到第一损失值，将训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算第一判别结果的损失函数值，得到第二损失值，将训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算第二判别结果的损失函数值，得到第三损失值，将第一损失值、第二损失值以及第三损失值作为目标损失，实现通过不同的数据进行计算损失函数值，便于后续更新生成对抗网络的参数，从而实现提高语音处理的准确度。

请参阅图5，图5示出了步骤S2D的一种具体实施方式，步骤S2D中根据目标损失更新生成对抗网络的参数，得到训练好的生成对抗网络的具体实现过程，详叙如下：

S2D1:根据第一损失值，更新生成对抗网络的生成器参数。

具体的，由于第一损失值是通过生成器生成观测语音段，并通过计算观测语音段和训练数据中的目标语音段的损失函数值而得来的，故此，根据第一损失值，更新生成对抗网络的生成器参数。这有利于对生成对抗网络参数的更新。

S2D2:根据第二损失值和第三损失值，更新生成对抗网络的判别器参数。

具体的，由于第二损失值和第三损失值都是判别器生成的判定结果而计算得来的，通过其来更新生成对抗网络的判别器参数，有利于对生成对抗网络参数的更新。

S2D3:当第一损失值达到预设阈值时，停止更新生成对抗网络的参数，得到训练好的生成对抗网络。

具体的，通过第一损失值、第二损失值以及第三损失值对生成对抗网络的网络参数进行更新，若第一损失值没有达到预设阈值时，则按照以上步骤S2C1至步骤S2C3重新产生第一损失值、第二损失值以及第三损失值，并对生成对抗网络的网络参数进行更新，直至第一损失值达到预设阈值时，说明训练的生成对抗网络充分具备对噪音语音信号和目标语音信号的识别。故当第一损失值达到预设阈值时，停止更新生成对抗网络的参数，得到训练好的生成对抗网络。

需要说明的是，预设阈值根据实际情况进行设定，此处不做限定。在一具体实施例中，预设阈值为0.95。

本实施例中，根据第一损失值，更新生成对抗网络的生成器参数，根据第二损失值和第三损失值，更新生成对抗网络的判别器参数，当第一损失值达到预设阈值时，停止更新生成对抗网络的参数，得到训练好的生成对抗网络。实现对生成对抗网络的更新，有利于提高语音处理的准确度。

请参阅图6，图6示出了步骤S2的一种具体实施方式，步骤S2中根将切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和降噪的语音信号对应的语音端点信息的具体实现过程，详叙如下：

S21:将切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对切割语音段生成序列矩阵特征。

具体的，编码-解码模型(Encoder-decoder)包括编码和解码等功能。编码由一个编码器将输入序列转化成一个固定维度的稠密向量，解码阶段将这个激活状态生成目标译文。在本实施例中，通过生成器的编码-解码模型先对切割语音段生成一序列稠密向量，再通过将这一序列稠密向量转化成矩阵形式的序列矩阵特征。

其中，序列矩阵特征是通过生成器的编码-解码模型对切割语音段编码和解码后生成的，其用来代表切割语音段的特征信息。例如，某一序列特征Y，其包含的特征信息有特征信息y1、特征信息y2、特征信息y3、特征信息y4，则该序列特征为Y＝{y1、y2、y3、y4}。

S22:按照跳跃连接的方式，将同等大小的序列矩阵特征进行结合，得到目标特征。

具体的，由于随着生成对抗网络模型训练网络深度的增加，容易出现梯度爆炸和梯度消失的情况，这种情况下不利于对生成对抗网络模型的训练，故引进跳跃连接的方式，建立浅层网络信息与深层网络信息的传递通道，将同等大小的序列矩阵特征进行结合，得到目标特征，解决梯度爆炸和梯度消失。

其中，同等大小的序列矩阵特征是指宽度和高度一致的序列矩阵特征。

进一步的，在生成器的整个网络中，是通过卷积神经网络进行构建。其中，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

其中，跳跃连接(Skip Connection)的方式是通过建立浅层网络信息与深层网络信息的传递通道，将同等大小的序列矩阵特征进行结合，以解决生成对抗网络模型训练出现梯度爆炸和梯度消失的问题。

S23:将目标特征输入到生成器的全连接层网络中，得到降噪的语音信号。

具体的，由于生产器整个网络是由卷积神经网络进行构建的，该卷积神经网络还包含一个2层的全连接网络，该全连接层网络的输入信号为隐藏向量和编码-解码模型最后一层，既输入量为目标特征。通过此全连接层用于产生语音端点结果，即在本实施例中，通过将目标特征输入到生成器的全连接层网络中，得到降噪的语音信号，实现了获取被增强的语音信号。

S24:将降噪的语音信号输入到训练好的生成对抗网络的判别器中，得到降噪的语音信号对应的语音端点信息。

具体的，通过训练好的生成对抗网络的判别器对降噪的语音信号的判别，输出每一个降噪的语音信号对应的语音端点信息，进而判断每一个降噪的语音信号为真实语音的概率。

本实施例中，通过将切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对切割语音段生成序列矩阵特征，按照跳跃连接的方式，将同等大小的序列矩阵特征进行结合，得到目标特征，将目标特征输入到生成器的全连接层网络中，得到降噪的语音信号，再将降噪的语音信号输入到训练好的生成对抗网络的判别器中，得到降噪的语音信号对应的语音端点信息，实现了降噪的语音信号和降噪的语音信号对应的语音端点信息的获取，便于后续进行重塑语音信号，进而提高语音处理的准确度。

请参阅图7，图7示出了步骤S22的一种具体实施方式，步骤S22中按照跳跃连接的方式，将同等大小的序列矩阵特征进行结合，得到目标特征的具体实现过程，详叙如下：

S221:遍历序列矩阵特征，获取同等大小的序列矩阵特征，作为目标矩阵，其中，目标矩阵的宽度和高度一致。

具体的，为了解决生成对抗网络模型训练过程中，出现梯度爆炸和梯度消失的问题，通过遍历浅层网络层和深层网络层的序列矩阵特征，获取等大小的序列矩阵特征，作为目标矩阵。该目标矩阵的宽度和高度是一致的。

S222:通过跳跃连接的方式，将目标矩阵进行结合，得到目标特征。

具体的，通过跳跃连接的方式，建立全连接网络的浅层网络层和深层网络层的传递通道，将目标矩阵进行结合，得到目标特征。

本实施例中，通过遍历序列矩阵特征，获取同等大小的序列矩阵特征，作为目标矩阵，通过跳跃连接的方式，将目标矩阵进行结合，得到目标特征，解决了生成对抗网络模型训练过程中，出现梯度爆炸和梯度消失的问题，有利于生成对抗网络的训练，进而有利于提高语音处理的准确度。

请参阅图8，图8示出了步骤S4的一种具体实施方式，步骤S4中将待拼接的语音信号按照切割次序标记进行拼接，得到重塑语音信号的具体实现过程，详叙如下：

S41:按照切割次序标记从小到大的次序，将待拼接的语音信号进行排列，得到语音序列。

具体的，由于切割次序标记是按照从待处理语音开始阶段到结束进行标记的，所以将按照切割次序标记从小到大次序，将待拼接的语音信号进行排列，得到语音序列。

S42:根据语音序列，将待拼接的语音信号的首尾进行拼接，得到重塑语音信号。

具体的，将将待拼接的语音信号的首尾进行拼接，形成完整的重塑语音信号，该重塑语音信号是通过了语音增强和语音端点检测，并且通过语音增强和语音端点检测进行结合，实现了去除噪音，提高语音处理准确度的目的。

本实施例中，按照切割次序标记从小到大次序，将待拼接的语音信号进行排列，得到语音序列，并根据语音序列，将待拼接的语音信号的首尾进行拼接，得到重塑语音信号，实现了对语音处理的目的，并且重塑语音信号具备语音增强和语音端点检测的特点，有利于语音处理的准确度。

需要强调的是，为进一步保证上述待处理语音段的私密和安全性，上述待处理语音段还可以存储于一区块链的节点中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图9，作为对上述图2所示方法的实现，本申请提供了一种基于生成对抗网络的语音处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，本实施例的基于生成对抗网络的语音处理装置包括：待处理语音段获取模块51、切割语音段输入模块52、待拼接的语音信号模块53以及重塑语音信号获取模块54，其中：

待处理语音段获取模块51，用于获取待处理语音段，按照预设长度对待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

切割语音段输入模块52，用于将切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和降噪的语音信号对应的语音端点信息；

待拼接的语音信号模块53，用于将降噪的语音信号与对应的语音端点信息进行结合，形成待拼接的语音信号；

重塑语音信号获取模块54，用于将待拼接的语音信号按照切割次序标记进行拼接，得到重塑语音信号。

进一步的，在切割语音段输入模块52之前，基于生成对抗网络的语音处理装置还包括：

语音切割模块，用于获取预设的噪音语音信号和目标语音信号，并按照预设长度对噪音语音信号和目标语音信号进行切割，得到噪音语音段和目标语音段；

训练数据获取模块，用于按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据；

目标损失获取模块，用于将训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据观测语音段与判别结果，计算损失函数值，得到目标损失；

参数更新模块，用于根据目标损失更新生成对抗网络的参数，得到训练好的生成对抗网络。

进一步的，目标损失获取模块包括：

第一损失值计算单元，用于将训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成观测语音段，并计算观测语音段和训练数据中的目标语音段的损失函数值，得到第一损失值；

第二损失值计算单元，用于将训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算第一判别结果的损失函数值，得到第二损失值；

第三损失值计算单元，用于将训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算第二判别结果的损失函数值，得到第三损失值；

目标损失定义单元，用于将第一损失值、第二损失值以及第三损失值作为目标损失。

进一步的，参数更新模块包括：

生成器参数更新单元，用于根据第一损失值，更新生成对抗网络的生成器参数；

判别器参数更新单元，用于根据第二损失值和第三损失值，更新生成对抗网络的判别器参数；

更新停止单元，用于当第一损失值达到预设阈值时，停止更新生成对抗网络的参数，得到训练好的生成对抗网络。

进一步的，切割语音段输入模块52包括：

序列矩阵特征单元，用于将切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对切割语音段生成序列矩阵特征；

目标特征获取单元，用于按照跳跃连接的方式，将同等大小的序列矩阵特征进行结合，得到目标特征；

降噪的语音信号单元，用于将目标特征输入到生成器的全连接层网络中，得到降噪的语音信号；

语音端点信息单元，用于将降噪的语音信号输入到训练好的生成对抗网络的判别器中，得到降噪的语音信号对应的语音端点信息。

进一步的，目标特征获取单元包括：

目标矩阵获取子单元，用于遍历序列矩阵特征，获取同等大小的序列矩阵特征，作为目标矩阵，其中，目标矩阵的宽度和高度一致；

目标特征获取子单元，用于通过跳跃连接的方式，将目标矩阵进行结合，得到目标特征。

进一步的，重塑语音信号获取模块54包括：

语音序列获取单元，用于按照切割次序标记从小到大的次序，将待拼接的语音信号进行排列，得到语音序列；

语音信号重塑单元，用于根据语音序列，将待拼接的语音信号的首尾进行拼接，得到重塑语音信号。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有三种组件存储器61、处理器62、网络接口63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

其中，存储器61中存储有计算机可读指令，处理器62执行计算机可读指令时可实现上述基于生成对抗网络的语音处理方法的任意实施例的所有步骤。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器61至少包括一种类型的可读存储介质，计算机可读存储介质可以是非易失性，也可以是易失性，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器61可以是计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，存储器61也可以是计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器61还可以既包括计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，存储器61通常用于存储安装于计算机设备6的操作系统和各类应用软件，例如基于生成对抗网络的语音处理方法的计算机可读指令等。此外，存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备6的总体操作。本实施例中，处理器62用于运行存储器61中存储的计算机可读指令或者处理数据，例如运行一种基于生成对抗网络的语音处理方法的计算机可读指令。

网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，计算机可读指令可被至少一个处理器执行，以使至少一个处理器执行上述基于生成对抗网络的语音处理方法的任意实施例的所有步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种基于生成对抗网络的语音处理方法，包括：

获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。
根据权利要求1所述的基于生成对抗网络的语音处理方法，其中，在所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息之前，所述方法还包括：

获取预设的噪音语音信号和目标语音信号，并按照所述预设长度对所述噪音语音信号和所述目标语音信号进行切割，得到噪音语音段和目标语音段；

按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据；

将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失；

根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求2所述的基于生成对抗网络的语音处理方法，其中，所述将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失，包括：

将所述训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成所述观测语音段，并计算所述观测语音段和所述训练数据中的目标语音段的损失函数值，得到第一损失值；

将所述训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算所述第一判别结果的损失函数值，得到第二损失值；

将所述训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算所述第二判别结果的损失函数值，得到第三损失值；

将所述第一损失值、所述第二损失值以及所述第三损失值作为所述目标损失。
根据权利要求3所述的基于生成对抗网络的语音处理方法，其中，所述根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络，包括：

根据所述第一损失值，更新所述生成对抗网络的生成器参数；

根据所述第二损失值和所述第三损失值，更新所述生成对抗网络的判别器参数；

当所述第一损失值达到预设阈值时，停止更新所述生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求1所述的基于生成对抗网络的语音处理方法，其中，所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息，包括：

将所述切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对所述切割语音段生成序列矩阵特征；

按照跳跃连接的方式，将同等大小的所述序列矩阵特征进行结合，得到目标特征；

将所述目标特征输入到所述生成器的全连接层网络中，得到所述降噪的语音信号；

将所述降噪的语音信号输入到所述训练好的生成对抗网络的判别器中，得到所述降噪的语音信号对应的语音端点信息。
根据权利要求5所述的基于生成对抗网络的语音处理方法，其中，所述按照跳跃连接的方式，将同等大小的所述序列矩阵特征进行结合，得到目标特征，包括：

遍历所述序列矩阵特征，获取同等大小的所述序列矩阵特征，作为目标矩阵，其中，所述目标矩阵的宽度和高度一致；

通过跳跃连接的方式，将所述目标矩阵进行结合，得到所述目标特征。
根据权利要求1所述的基于生成对抗网络的语音处理方法，其中，所述将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号，包括：

按照所述切割次序标记从小到大的次序，将所述待拼接的语音信号进行排列，得到语音序列；

根据所述语音序列，将所述待拼接的语音信号的首尾进行拼接，得到所述重塑语音信号。
一种基于生成对抗网络的语音处理装置，包括：

待处理语音段获取模块，用于获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

切割语音段输入模块，用于将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

待拼接的语音信号模块，用于将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

重塑语音信号获取模块，用于将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。
根据权利要求9所述的计算机设备，其中，在所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息之前，所述计算机设备还包括：

获取预设的噪音语音信号和目标语音信号，并按照所述预设长度对所述噪音语音信号和所述目标语音信号进行切割，得到噪音语音段和目标语音段；

按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据；

将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失；

根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求10所述的计算机设备，其中，所述将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失，包括：

将所述训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成所述观测语音段，并计算所述观测语音段和所述训练数据中的目标语音段的损失函数值，得到第一损失值；

将所述训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算所述第一判别结果的损失函数值，得到第二损失值；

将所述训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算所述第二判别结果的损失函数值，得到第三损失值；

将所述第一损失值、所述第二损失值以及所述第三损失值作为所述目标损失。
根据权利要求11所述的计算机设备，其中，所述根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络，包括：

根据所述第一损失值，更新所述生成对抗网络的生成器参数；

根据所述第二损失值和所述第三损失值，更新所述生成对抗网络的判别器参数；

当所述第一损失值达到预设阈值时，停止更新所述生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求9所述的计算机设备，其中，所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息，包括：

将所述切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对所述切割语音段生成序列矩阵特征；

按照跳跃连接的方式，将同等大小的所述序列矩阵特征进行结合，得到目标特征；

将所述目标特征输入到所述生成器的全连接层网络中，得到所述降噪的语音信号；

将所述降噪的语音信号输入到所述训练好的生成对抗网络的判别器中，得到所述降噪的语音信号对应的语音端点信息。
根据权利要求13所述的计算机设备，其中，所述按照跳跃连接的方式，将同等大小的所述序列矩阵特征进行结合，得到目标特征，包括：

遍历所述序列矩阵特征，获取同等大小的所述序列矩阵特征，作为目标矩阵，其中，所述目标矩阵的宽度和高度一致；

通过跳跃连接的方式，将所述目标矩阵进行结合，得到所述目标特征。
根据权利要求9所述的计算机设备，其中，所述将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号，包括：

按照所述切割次序标记从小到大的次序，将所述待拼接的语音信号进行排列，得到语音序列；

根据所述语音序列，将所述待拼接的语音信号的首尾进行拼接，得到所述重塑语音信号。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使得所述处理器执行如下步骤：

获取待处理语音段，按照预设长度对所述待处理语音段进行切割，并对切割次序进行标记，得到切割语音段和切割次序标记；

将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息；

将所述降噪的语音信号与所述对应的语音端点信息进行结合，形成待拼接的语音信号；

将待拼接的语音信号按照所述切割次序标记进行拼接，得到重塑语音信号。
根据权利要求16所述的计算机可读存储介质，其中，在所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息之前，所述计算机可读存储介质还包括：

获取预设的噪音语音信号和目标语音信号，并按照所述预设长度对所述噪音语音信号和所述目标语音信号进行切割，得到噪音语音段和目标语音段；

按照随机抽取不放回的方式，抽取噪音语音段和目标语音段，作为训练数据；

将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失；

根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求17所述的计算机可读存储介质，其中，所述将所述训练数据输入生成对抗网络中，生成观测语音段和判别结果，并根据所述观测语音段与所述判别结果，计算损失函数值，得到目标损失，包括：

将所述训练数据中的噪音语音段输入到生成对抗网络的生成器中，生成所述观测语音段，并计算所述观测语音段和所述训练数据中的目标语音段的损失函数值，得到第一损失值；

将所述训练数据中的噪音语音段输入到生成对抗网络的判别器中，得到第一判别结果，并计算所述第一判别结果的损失函数值，得到第二损失值；

将所述训练数据中的目标语音段输入到生成对抗网络的判别器中，得到第二判别结果，并计算所述第二判别结果的损失函数值，得到第三损失值；

将所述第一损失值、所述第二损失值以及所述第三损失值作为所述目标损失。
根据权利要求18所述的计算机可读存储介质，其中，所述根据所述目标损失更新生成对抗网络的参数，得到所述训练好的生成对抗网络，包括：

根据所述第一损失值，更新所述生成对抗网络的生成器参数；

根据所述第二损失值和所述第三损失值，更新所述生成对抗网络的判别器参数；

当所述第一损失值达到预设阈值时，停止更新所述生成对抗网络的参数，得到所述训练好的生成对抗网络。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述切割语音段输入到训练好的生成对抗网络中，得到降噪的语音信号和所述降噪的语音信号对应的语音端点信息，包括：

将所述切割语音段输入到训练好的生成对抗网络中，通过生成器的编码-解码模型对所述切割语音段生成序列矩阵特征；

按照跳跃连接的方式，将同等大小的所述序列矩阵特征进行结合，得到目标特征；

将所述目标特征输入到所述生成器的全连接层网络中，得到所述降噪的语音信号；

将所述降噪的语音信号输入到所述训练好的生成对抗网络的判别器中，得到所述降噪的语音信号对应的语音端点信息。