Nothing Special   »   [go: up one dir, main page]

CN111276119A - 语音生成方法、系统和计算机设备 - Google Patents

语音生成方法、系统和计算机设备 Download PDF

Info

Publication number
CN111276119A
CN111276119A CN202010052356.5A CN202010052356A CN111276119A CN 111276119 A CN111276119 A CN 111276119A CN 202010052356 A CN202010052356 A CN 202010052356A CN 111276119 A CN111276119 A CN 111276119A
Authority
CN
China
Prior art keywords
voice
spectrogram
attribute
user
edited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010052356.5A
Other languages
English (en)
Other versions
CN111276119B (zh
Inventor
马坤
赵之砚
施奕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010052356.5A priority Critical patent/CN111276119B/zh
Publication of CN111276119A publication Critical patent/CN111276119A/zh
Application granted granted Critical
Publication of CN111276119B publication Critical patent/CN111276119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种语音生成方法,所述方法包括:获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及根据所述目标语音频谱图生成用于输出的语音信号。本发明实施例可以实现以指定的语音风格属性输出具有指定的语音风格的语音。

Description

语音生成方法、系统和计算机设备
技术领域
本发明实施例涉及语音合成领域,尤其涉及一种语音生成方法、系统、计算机设备及计算机可读存储介质。
背景技术
语音合成技术是人工智能领域的重要能力,更真实自然更有情绪感染力的合成语音,可以极大的提高用户的服务体验,这对于人工智能来说,代表了最高水平的发展。而实际应用中,在与用户交互过程中,合成语音通常保持呈现一种固定风格的合成效果,用户体验极差。因为现行的语音合成系统,大部分都是基于训练数据集的语音训练的TTS模型,只能输出一种固定风格的合成语音。
因此,为使得在智能语音对话中可以控制计算机设备以指定的语音模式输出语音数据,从而进一步提高了业务流程的工作效率,成为了当前要解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种语音生成方法、系统、计算机设备及计算机可读存储介质,以解决当前语音合成系统合成的风格语音风格单一的技术问题。
为实现上述目的,本发明实施例提供了一种语音生成方法,所述方法步骤包括:
获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;
从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;
获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及
根据所述目标语音频谱图生成用于输出的语音信号。
示例性的,将所述用户音频数据转化成用户语音频谱图,包括:
提取所述用户音频数据的用户频谱信息;
根据所述用户频谱信息生成对应于时域的第一波形图;
将所述第一波形图进行分帧处理,得到多个第一单帧波形图;
对每个第一单帧波形图进行傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅;及
合成所述多个第一一维灰度振幅图,以得到所述用户语音频谱图。
示例性的,从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,包括:
通过目标生成器提取所述用户语音频谱图的语音属性,得到所述用户音频数据对应的所述用户语音属性;
其中,所述目标生成器是预先训练好的目标GAN模型中的生成器,所述目标生成器包括空间注意力网络和属性编辑网络,所述空间注意力网络用于确定语音频谱图的属性区域,所述属性编辑网络用于对所述属性区域的语音频谱图进行语音属性编辑和语音属性提取。
示例性的,所述方法还包括所述GAN模型的训练步骤:
获取样本频谱图及样本频谱图对应的样本属性标签,其中,所述样本频谱图包括语音频谱图;
将所述样本频谱图和所述样本属性标签输入到GAN模型;
通过所述空间注意力网络确定所述样本频谱图所属的样本属性区域;
将所述样本属性区域内的样本频谱图和所述样本属性标签输入到所述属性编辑网络中,得到所述样本频谱图对应的生成频谱图;
将所述样本频谱图和所述生成频谱图输入到所述GAN模型的判别器中,通过所述判别器中的真假分类器判断所述生成频谱图是否符合语音频谱图的图形分布;
如果所述生成频谱图符合所述用户语音频谱图的图形分布,则通过所述判别器中的属性分类器预测所述语音频谱图的样本语音属性;及
对比所述样本语音属性与所述样本属性标签的属性差异性,并根据所述属性差异性调整GAN模型的参数,以得到目标GAN模型。
示例性的,所述获取待编辑音频数据,并将所述第二频谱信息生成待编辑语音频谱图,包括:
提取所述待编辑音频数据的待编辑频谱信息;
根据所述待编辑频谱信息生成对应于时域的第二波形图;
将所述第二波形图进行分帧处理,得到多个第二单帧波形图;
对每个第二单帧波形图进行傅里叶变换操作,以得到多个第二单帧频谱图,其中,每个第二单帧频谱图的横轴用于表示频率,每个第二单帧频谱图的纵轴用于表示振幅;
将每个第二单帧频谱图的进行反转操作和灰度操作,以得到多个第二一维灰度振幅图,其中,所述反转操作用于调换第二单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第二单帧频谱图中的振幅;及
合成所述多个第二一维灰度振幅图,以得到待编辑语音频谱图。
示例性的,根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图,包括:
根据所述用户语音属性和映射关系图,获取与所述用户语音属性所对应的目标语音属性;及
将所述目标语音属性和所述待编辑语音频谱图输入到目标生成器中,以得到目标语音频谱图。
示例性的,将所述目标语音属性和所述待编辑语音频谱图输入到目标生成器中,以得到目标语音频谱图,包括:
通过所述空间注意力网络确定所述待编辑语音频谱图所属的目标属性区域;
将所述目标属性区域内的待编辑语音频谱图和所述目标语音属性输入到所述属性编辑网络中,得到所述目标语音频谱图,其中,所述目标语音频谱图为携带有所述目标语音属性的待编辑语音频谱图。
为实现上述目的,本发明实施例还提供了一种语音生成系统,包括:
第一获取模块,用于获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;
属性提取模块,用于从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;
第二获取模块,用于获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
语音编辑获取模块,用于根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及
语音生成模块,用于根据所述目标语音频谱图生成用于输出的语音信号。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的语音生成方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的语音生成方法的步骤。
本发明实施例提供的语音生成方法、系统、计算机设备及计算机可读存储介质,为语音合成风格属性提供了有效的语音生成方法;本发明可以分析用户语音的用户语音风格属性,并根据用户语音风格属性编辑与用户语音对应的待编辑语音,使得待编辑语音具有用户语音风格属性,实现以指定的语音风格属性输出具有指定的语音风格的语音。
附图说明
图1为本发明实施例语音生成方法的流程示意图。
图2为图1中步骤S102的具体流程示意图。
图3为发明实施例语音生成方法的用户语音频谱图。
图4为发明实施例语音生成方法的第一波形图。
图5为发明实施例语音生成方法的傅里叶变换操作图。
图6为发明实施例语音生成方法的反转操作图。
图7为发明实施例语音生成方法的灰度操作图。
图8为图1中步骤S104的具体流程示意图。
图9为图1中步骤S106的具体流程示意图。
图10为图9中步骤S106b的具体流程示意图。
图11为本发明语音生成系统实施例二的程序模块示意图。
图12为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之语音生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图。
所述用户音频数据是指用户终端采集或存储的音频信息,所述音频信息可以是一段语音、音效和/或音乐的频率和幅度变化信息,也可以是用户在用户终端录制的某段声音对应的信号,例如,所述用户音频数据可以从语音通话中获取,所述语音通话可以是手机通话、微信通话以及视频通话等;所述用户音频数据为用户自己在语音通话中产生的音频数据。在用户通话时获取用户的用户音频数据,并将用户音频数据转化成语音频谱图。
示例性的,如图2所示,所述步骤S100可以进一步包括:
步骤S100a,提取所述用户音频数据的用户频谱信息。
步骤S100b,根据所述用户频谱信息生成对应于时域的第一波形图。
步骤S100c,将所述第一波形图进行分帧处理,得到多个第一单帧波形图。
步骤S100d,对每个第一单帧波形图进行傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅。
步骤S100e,将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅。
步骤S100f,合成所述多个第一一维灰度振幅图,以得到所述用户语音频谱图。
如图3-7所示,所述用户语音频谱图(Spectrogram)是反映信号频率与能量的关系的图像,所述第一波形图(Wave)是根据所述用户频谱信息生成的一段连续的声音波形信号图。在本发明实施例中,所述用户语音频谱图可以通过处理所述用户频谱信息得到。例如,首先将所述用户频谱信息转化为对应于所述用户频谱信息时域的第一波形图,并将所述第一波形图划分为时长相等的多个第一单帧波形图,对每个所述第一单帧波形图进行连续采样得到多个采样点,然后再对该多个采样点做FFT(傅里叶变换)操作,以得到多个第一单帧频谱图(Spectrum),将每个第一单帧频谱图进行反转操作和灰度操作即可得到第一一维灰度振幅图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅(Amplitude);最终将多个第一一维灰度振幅图拼接即可得到用户频谱信息对应的用户语音频谱图。例如,当多个采样点为4096个采样点,每个第一单帧波形图的时长为1/10秒(s),第一波形图对应的用户语音频谱图中的每个点对应的数值为相应频率的振幅。因此,所述用户频谱信息对应的所述用户语音频谱图反映的即是音频在时间上的频率分布情况。
步骤S102,从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性。
通过语音频谱图提取用户语音属性,例如风格属性:喜悦、愤怒等,也可以是其他属性,如语速、性别等。
示例性的,所述步骤S102可以进一步包括:通过目标生成器提取所述用户语音频谱图的语音属性,得到所述用户音频数据对应的所述用户语音属性;
其中,所述目标生成器是预先训练好的目标GAN模型中的生成器,所述目标生成器包括空间注意力网络和属性编辑网络,所述空间注意力网络用于确定语音频谱图的属性区域,所述属性编辑网络用于对所述属性区域的语音频谱图进行语音属性编辑和语音属性提取。
步骤S104,获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图。
所述待编辑音频数据为可以从语音通话中获取,所述语音通话可以是手机通话、微信通话以及视频通话等;所述待编辑音频数据为用户通话对象在语音通话中产生的音频数据。例如,在用户通话时获取用户对象的待编辑音频数据,并将用户音频数据转化成语音频谱图。
示例性的,如图8所示,所述步骤S104还可以进一步包括:
步骤S104a,提取所述待编辑音频数据的待编辑频谱信息。
步骤S104b,根据所述待编辑频谱信息生成对应于时域的第二波形图。
步骤S104c,将所述第二波形图进行分帧处理,得到多个第二单帧波形图。
步骤S104d,对每个第二单帧波形图进行傅里叶变换操作,以得到多个第二单帧频谱图,其中,每个第二单帧频谱图的横轴用于表示频率,每个第二单帧频谱图的纵轴用于表示振幅。
步骤S104e,将每个第二单帧频谱图的进行反转操作和灰度操作,以得到多个第二一维灰度振幅图,其中,所述反转操作用于调换第二单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第二单帧频谱图中的振幅。
步骤S104f,合成所述多个第二一维灰度振幅图,以得到待编辑语音频谱图。
所述待编辑语音频谱图是反映信号频率与能量的关系的图像,所述第二波形图是根据所述待编辑频谱信息生成的一段连续的声音波形信号图。在本发明实施例中,所述待编辑语音频谱图可以通过处理所述待编辑频谱信息得到。例如,首先将所述待编辑频谱信息转化为对应于所述待编辑频谱信息时域的第二波形图,并将所述第二波形图划分为时长相等的多个第二单帧波形图,对每个所述第二单帧波形图进行连续采样得到多个采样点,然后再对该多个采样点做FFT(傅里叶变换)操作,以得到多个第二单帧频谱图,将每个第二单帧频谱图进行反转操作和灰度操作即可得到第二一维灰度振幅图,其中,每个第二单帧频谱图的横轴用于表示频率,每个第二单帧频谱图的纵轴用于表示振幅;最终将多个第二一维灰度振幅图拼接即可得到待编辑频谱信息对应的待编辑语音频谱图。例如,当多个采样点为4096个采样点,每个第二单帧波形图的时长为1/10秒(s),第二波形图对应的待编辑语音频谱图中的每个点对应的数值为相应频率的振幅。因此,所述待编辑频谱信息对应的所述待编辑语音频谱图反映的即是音频在时间上的频率分布情况。
步骤S106,根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图。
为了更好地与用户互动,当所述用户语音属性为“愤怒”时,则将“温柔”的用户语音属性与所述待编辑语音频谱图结合,生成带有“温柔”属性的目标语音频谱图,即可以结合上下文情景,与用户进行交互对话的时候更真实自然,具有情绪化的拟人化的感染力。
示例性的,如图9所示,所述步骤S106还可以进一步包括:
步骤S106a,根据所述用户语音属性和映射关系图,获取与所述用户语音属性所对应的目标语音属性。
步骤S106b,将所述目标语音属性和所述待编辑语音频谱图输入到目标生成器中,以得到目标语音频谱图。
示例性的,所述配置的映射关系图的步骤,包括:将多个真实语音频谱图输入到目标生成器中,以得到每个用户语音频谱图对应的一个或多个语音属性;将一个或多个语音属性与指定的另一个语音属性生成映射关系图,将所述映射关系保存至数据库。
示例性的,所述语音生成模型根据通话中通话对象语的语音风格,确定与所述通话对象语匹配的目标语音风格,并生成与所述通话对象语匹配的目标语音风格的最终语音频谱图。
示例性的,如图10所示,所述步骤S106b还可以进一步包括:
步骤S106b1,通过所述空间注意力网络确定所述待编辑语音频谱图所属的目标属性区域;
步骤S106b2,将所述目标属性区域内的待编辑语音频谱图和所述目标语音属性输入到所述属性编辑网络中,得到所述目标语音频谱图,其中,所述目标语音频谱图为携带有所述目标语音属性的待编辑语音频谱图。
在一些实施例中,所述目标生成器G可以以目标语音属性c为条件将输入待编辑语音频谱图I转换为编辑后的目标语音频谱图
Figure BDA0002371627650000101
如,
Figure BDA0002371627650000102
所述目标生成器G包含两部分,分别为属性编辑网络是一种具有图像风格属性迁移能力的神经网络Fm,例如,所述属性编辑网络可以根据给定内容的频谱图A和具有属性风格的频谱图B,生成一张具有频谱图A中内容和频谱图B中属性风格的频谱图C;空间注意力网络是一种具有注意力能力的卷积神经网络Fa;其中,所述属性编辑网络专注于如何编辑,而所述空间注意力网络专注于在哪里编辑。例如,所述属性编辑网络将待编辑语音频谱图I和目标语音属性c作为输入,输出一个编辑过的目标语音频谱图Ia,如,Ia=Fm(I,c);所述空间注意力网络将待编辑语音频谱图I作为输入,预测一个空间注意力maskb,用于将属性编辑网络的操作限制在目标属性区域:b=Fa(I);理想情况下,b中的风格属性相关区域的注意力值应该为1,其他区域为0。在实践中,在经过风格属性的注意力值是0和1之间的连续值。因此,注意力值不为0的区域被视为风格属性相关区域,而剩余的注意力值为0的区域被视为风格属性无关区域。
步骤S108,根据所述目标语音频谱图生成用于输出的语音信号。
通过信号重建语音算法,把目标语音频谱图重新构建成的具有指定语音风格的语音信号输出。
示例性的,所述方法还包括所述GAN模型的训练步骤(1)~(7)。
示例性的,所述GAN模型还包括判别器,所述判别器包括真假分类器Dsrc和属性分类器Dcls;其中,所述真假分类器Dsrc和所述属性分类器Dcls都是带有Softmax函数的卷积神经网络CNN。所述真假分类器Dsrc和属性分类器Dcls可以共享开始的一部分卷积层,后面跟着不同的全连接层,以便进行不同的分类。例如,所述真假分类器的输出Dsrc(I)表示待编辑语音频谱图I是真实的概率,而属性分类器的输出Dcls(c|I)表示待编辑语音频谱图I带有声音风格属性c的概率,其中c∈0,1是二进制的,c为1时,表示待编辑语音频谱图I含有声音风格属性c,c为0时,表示待编辑语音频谱图I不含有声音风格属性c。输入的待编辑语音频谱图可以是真实的语音转化得到语音频谱图或机器生成的语音转化得到语音频谱图。
(1)获取样本频谱图及样本频谱图对应的样本属性标签,其中,所述样本频谱图包括语音频谱图;(2)将所述样本频谱图和所述样本属性标签输入到GAN模型;(3)通过所述空间注意力网络确定所述样本频谱图所属的样本属性区域;(4)将所述样本属性区域内的样本频谱图和所述样本属性标签输入到所述属性编辑网络中,得到所述样本频谱图对应的生成频谱图;(5)将所述样本频谱图和所述生成频谱图输入到所述GAN模型的判别器中,通过所述判别器中的真假分类器判断所述生成频谱图是否符合语音频谱图的图形分布;(6)如果所述生成频谱图符合所述用户语音频谱图的图形分布,则通过所述判别器中的属性分类器预测所述语音频谱图的样本语音属性;及(7)对比所述样本语音属性与所述样本属性标签的属性差异性,并根据所述属性差异性调整GAN模型的参数,以得到目标GAN模型。
在一些实施例中,所述GAN模型在空间注意力网络(attention mask)的指导下,并在最终编辑过的目标语音频谱图
Figure BDA0002371627650000111
中,风格属性相关区域被朝着目标风格属性编辑而其他区域保持不变:
Figure BDA0002371627650000121
为了使编辑后的目标语音频谱图
Figure BDA0002371627650000122
更接近真实的语音频谱图,这里可以通过一个对抗损失(adversarial loss)函数来调整真假分类器:
Figure BDA0002371627650000123
为了使
Figure BDA0002371627650000124
正确地带有目标风格属性c,使用一个风格属性分类损失函数来驱使属性分类器关于
Figure BDA0002371627650000125
的风格属性预测接近目标值c:
Figure BDA0002371627650000126
为了保持声音风格属性无关区域不变,使用一个重建损失(reconstructionloss)函数:
Figure BDA0002371627650000127
其中,cg是输入待编辑语音频谱图I的原始风格属性,λ1和λ2是两个平衡参数。其中,λ1(dual reconstruction loss)的目的是使编辑过的目标语音频谱图
Figure BDA0002371627650000128
与待编辑语音频谱图I相似;λ2(identity reconstruction loss)的目的是使输入待编辑语音频谱图I在以它自身的声音风格属性cg进行编辑时不被修改。
最后对生成器G进行优化:
Figure BDA0002371627650000129
对于整个这种带了空间注意力网络的对抗生成网络GAN模型,生成器G和判别器D能以一种对抗的方式进行训练。
所述GAN模型还包括判别器,所述判别器包括真假分类器Dsrc和属性分类器Dcls。其中,优化真假(real/fake)分类器的损失函数是标准交叉熵损失(standard cross-entropyloss)函数:
Figure BDA00023716276500001210
其中,I是待编辑语音频谱图,
Figure BDA00023716276500001211
是目标语音频谱图。
优化属性分类器的损失函数也是标准交叉熵损失:
Figure BDA00023716276500001212
其中,cg是待编辑语音频谱图I的人工标注风格属性。
判别器D的总体损失函数可以表示为:
Figure BDA0002371627650000131
通过最小化该损失函数,获得的判别器D可以很好地将待编辑语音频谱图从目标语音频谱图中分开,并正确预测
Figure BDA0002371627650000132
含有c的概率。
实施例二
图11为本发明语音生成系统实施例二的程序模块示意图。语音生成系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述语音生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述语音生成系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
第一获取模块200,用于获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图。
示例性的,所述判断模块200还用于:提取所述用户音频数据的用户频谱信息;
根据所述用户频谱信息生成对应于时域的第一波形图;将所述第一波形图进行分帧处理,得到多个第一单帧波形图;对每个第一单帧波形图进行傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅;及合成所述多个第一一维灰度振幅图,以得到所述用户语音频谱图。
属性提取模块202,用于从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性。
示例性的,所述属性提取模块202还用于:通过GAN模型分析所述用户语音频谱图,得到所述用户音频数据的用户语音属性;所述GAN模型包括生成器和判别器,所述生成器包括空间注意力网络和属性编辑网络,所述判别器包括真假分类器和属性分类器
示例性的,所述属性提取模块202还用于:通过所述空间注意力网络确定所述用户语音频谱图所属的目标属性区域;将所述目标属性区域内的用户语音频谱图输入到所述属性编辑网络中,得到带用户语音属性的生成语音频谱图;将所述生成语音频谱图和用户语音频谱图输入到所述判别器中,通过所述判别器中的真假分类器判断所述生成语音频谱图是否符合用户语音频谱图的图形分布;及如果所述生成语音频谱图符合所述用户语音频谱图的图形分布,则通过所述判别器中的属性分类器预测所述用户语音频谱图的语音属性,得到所述用户语音属性。
第二获取模块204,用于获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
示例性的,所述第二获取模块204还用于:提取所述待编辑音频数据的待编辑频谱信息;根据所述待编辑频谱信息生成对应于时域的第二波形图;将所述第二波形图进行分帧处理,得到多个第二单帧波形图;对每个第二单帧波形图进行傅里叶变换操作,以得到多个第二单帧频谱图,其中,每个第二单帧频谱图的横轴用于表示频率,每个第二单帧频谱图的纵轴用于表示振幅;将每个第二单帧频谱图的进行反转操作和灰度操作,以得到多个第二一维灰度振幅图,其中,所述反转操作用于调换第二单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第二单帧频谱图中的振幅;及合成所述多个第二一维灰度振幅图,以得到待编辑语音频谱图。
语音编辑模块206,用于根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图。
示例性的,所述语音编辑模块206还用于:根据所述用户语音属性和映射关系图,获取与所述用户语音属性映射的语音属性确定所述用户语音属性所对应的目标语音属性;及根据所述目标语音属性编辑所述待编辑语音频谱图,以得到目标语音频谱图
语音生成模块208,用于根据所述目标语音频谱图生成用于输出的语音信号。
实施例三
参阅图12,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及语音生成系统20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的语音生成系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行语音生成系统20,以实现实施例一的语音生成方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图12仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的语音生成系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图11示出了本发明实施例二之所述实现语音生成系统20的程序模块示意图,该实施例中,所述语音生成系统20可以被划分为第一获取模块200、属性提取模块202、第二获取模块204、语音编辑模块206和语音生成模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述语音生成系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于语音生成系统20,被处理器执行时实现实施例一的语音生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音生成方法,其特征在于,所述方法包括:
获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;
从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;
获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及
根据所述目标语音频谱图生成用于输出的语音信号。
2.如权利要求1所述的语音生成方法,其特征在于,将所述用户音频数据转化成用户语音频谱图,包括:
提取所述用户音频数据的用户频谱信息;
根据所述用户频谱信息生成对应于时域的第一波形图;
将所述第一波形图进行分帧处理,得到多个第一单帧波形图;
对每个第一单帧波形图进行傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅;及
合成所述多个第一一维灰度振幅图,以得到所述用户语音频谱图。
3.如权利要求1所述的语音生成方法,其特征在于,从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,包括:
通过目标生成器提取所述用户语音频谱图的语音属性,得到所述用户音频数据对应的所述用户语音属性;
其中,所述目标生成器是预先训练好的目标GAN模型中的生成器,所述目标生成器包括空间注意力网络和属性编辑网络,所述空间注意力网络用于确定语音频谱图的属性区域,所述属性编辑网络用于对所述属性区域的语音频谱图进行语音属性编辑和语音属性提取。
4.如权利要求3所述的语音生成方法,其特征在于,所述方法还包括所述GAN模型的训练步骤:
获取样本频谱图及样本频谱图对应的样本属性标签,其中,所述样本频谱图包括语音频谱图;
将所述样本频谱图和所述样本属性标签输入到GAN模型;
通过所述空间注意力网络确定所述样本频谱图所属的样本属性区域;
将所述样本属性区域内的样本频谱图和所述样本属性标签输入到所述属性编辑网络中,得到所述样本频谱图对应的生成频谱图;
将所述样本频谱图和所述生成频谱图输入到所述GAN模型的判别器中,通过所述判别器中的真假分类器判断所述生成频谱图是否符合语音频谱图的图形分布;
如果所述生成频谱图符合所述用户语音频谱图的图形分布,则通过所述判别器中的属性分类器预测所述语音频谱图的样本语音属性;及
对比所述样本语音属性与所述样本属性标签的属性差异性,并根据所述属性差异性调整GAN模型的参数,以得到目标GAN模型。
5.如权利要求1所述的语音生成方法,其特征在于,所述获取待编辑音频数据,并将所述第二频谱信息生成待编辑语音频谱图,包括:
提取所述待编辑音频数据的待编辑频谱信息;
根据所述待编辑频谱信息生成对应于时域的第二波形图;
将所述第二波形图进行分帧处理,得到多个第二单帧波形图;
对每个第二单帧波形图进行傅里叶变换操作,以得到多个第二单帧频谱图,其中,每个第二单帧频谱图的横轴用于表示频率,每个第二单帧频谱图的纵轴用于表示振幅;
将每个第二单帧频谱图的进行反转操作和灰度操作,以得到多个第二一维灰度振幅图,其中,所述反转操作用于调换第二单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第二单帧频谱图中的振幅;及
合成所述多个第二一维灰度振幅图,以得到待编辑语音频谱图。
6.如权利要求1所述的语音生成方法,其特征在于,根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图,包括:
根据所述用户语音属性和映射关系图,获取与所述用户语音属性所对应的目标语音属性;及
将所述目标语音属性和所述待编辑语音频谱图输入到目标生成器中,以得到目标语音频谱图。
7.如权利要求6所述的语音生成方法,其特征在于,将所述目标语音属性和所述待编辑语音频谱图输入到目标生成器中,以得到目标语音频谱图,包括:
通过所述空间注意力网络确定所述待编辑语音频谱图所属的目标属性区域;
将所述目标属性区域内的待编辑语音频谱图和所述目标语音属性输入到所述属性编辑网络中,得到所述目标语音频谱图,其中,所述目标语音频谱图为携带有所述目标语音属性的待编辑语音频谱图。
8.一种语音生成系统,其特征在于,包括:
第一获取模块,用于获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;
属性提取模块,用于从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;
第二获取模块,用于获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
语音编辑获取模块,用于根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及
语音生成模块,用于根据所述目标语音频谱图生成用于输出的语音信号。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的语音生成方法的步骤。
CN202010052356.5A 2020-01-17 2020-01-17 语音生成方法、系统和计算机设备 Active CN111276119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010052356.5A CN111276119B (zh) 2020-01-17 2020-01-17 语音生成方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010052356.5A CN111276119B (zh) 2020-01-17 2020-01-17 语音生成方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN111276119A true CN111276119A (zh) 2020-06-12
CN111276119B CN111276119B (zh) 2023-08-22

Family

ID=71001048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010052356.5A Active CN111276119B (zh) 2020-01-17 2020-01-17 语音生成方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN111276119B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768756A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112185338A (zh) * 2020-09-30 2021-01-05 北京大米科技有限公司 音频处理方法、装置、可读存储介质和电子设备
CN112562728A (zh) * 2020-11-13 2021-03-26 百果园技术(新加坡)有限公司 生成对抗网络训练方法、音频风格迁移方法及装置
CN112699726A (zh) * 2020-11-11 2021-04-23 中国科学院计算技术研究所数字经济产业研究院 图像增强方法、真伪商品鉴别方法及设备
CN114299969A (zh) * 2021-08-19 2022-04-08 腾讯科技(深圳)有限公司 音频合成方法、装置、设备及介质
US12100383B1 (en) * 2022-02-14 2024-09-24 Amazon Technologies, Inc. Voice customization for synthetic speech generation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785823A (zh) * 2019-01-22 2019-05-21 中财颐和科技发展(北京)有限公司 语音合成方法及系统
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法
CN110211563A (zh) * 2019-06-19 2019-09-06 平安科技(深圳)有限公司 面向情景及情感的中文语音合成方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785823A (zh) * 2019-01-22 2019-05-21 中财颐和科技发展(北京)有限公司 语音合成方法及系统
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法
CN110211563A (zh) * 2019-06-19 2019-09-06 平安科技(深圳)有限公司 面向情景及情感的中文语音合成方法、装置及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768756A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN111768756B (zh) * 2020-06-24 2023-10-20 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112185338A (zh) * 2020-09-30 2021-01-05 北京大米科技有限公司 音频处理方法、装置、可读存储介质和电子设备
CN112185338B (zh) * 2020-09-30 2024-01-23 北京大米科技有限公司 音频处理方法、装置、可读存储介质和电子设备
CN112699726A (zh) * 2020-11-11 2021-04-23 中国科学院计算技术研究所数字经济产业研究院 图像增强方法、真伪商品鉴别方法及设备
CN112699726B (zh) * 2020-11-11 2023-04-07 中国科学院计算技术研究所数字经济产业研究院 图像增强方法、真伪商品鉴别方法及设备
CN112562728A (zh) * 2020-11-13 2021-03-26 百果园技术(新加坡)有限公司 生成对抗网络训练方法、音频风格迁移方法及装置
CN114299969A (zh) * 2021-08-19 2022-04-08 腾讯科技(深圳)有限公司 音频合成方法、装置、设备及介质
CN114299969B (zh) * 2021-08-19 2024-06-11 腾讯科技(深圳)有限公司 音频合成方法、装置、设备及介质
US12100383B1 (en) * 2022-02-14 2024-09-24 Amazon Technologies, Inc. Voice customization for synthetic speech generation

Also Published As

Publication number Publication date
CN111276119B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111276119B (zh) 语音生成方法、系统和计算机设备
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
EP4425482A2 (en) Model training and tone conversion method and apparatus, device, and medium
CN112071300B (zh) 语音会话方法、装置、计算机设备和存储介质
WO2024055752A9 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN110930975B (zh) 用于输出信息的方法和装置
CN114400005A (zh) 语音消息生成方法和装置、计算机设备、存储介质
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN116092503B (zh) 联合时域和频域的伪造语音检测方法、装置、设备及介质
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN111862931B (zh) 一种语音生成方法及装置
CN115294947A (zh) 音频数据处理方法、装置、电子设备及介质
CN114282046A (zh) 一种风格语料获取方法及相关方法和设备
CN114333758A (zh) 语音合成方法、装置、计算机设备、存储介质和产品
CN113012706B (zh) 一种数据处理方法、装置及电子设备
CN117640695B (zh) 基于通讯标识信息的物联网通信平台和物联网通信方法
CN117877517B (zh) 基于对抗神经网络的环境音生成方法、装置、设备及介质
CN115457969B (zh) 基于人工智能的语音转换方法、装置、计算机设备及介质
CN112489633B (zh) 语音特征编码网络的训练方法、装置及存储介质
CN118447820A (zh) 一种基于风格的语音转换方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant