Nothing Special   »   [go: up one dir, main page]

CN105206258B - 声学模型的生成方法和装置及语音合成方法和装置 - Google Patents

声学模型的生成方法和装置及语音合成方法和装置 Download PDF

Info

Publication number
CN105206258B
CN105206258B CN201510680816.8A CN201510680816A CN105206258B CN 105206258 B CN105206258 B CN 105206258B CN 201510680816 A CN201510680816 A CN 201510680816A CN 105206258 B CN105206258 B CN 105206258B
Authority
CN
China
Prior art keywords
data
personalized
acoustic model
text
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510680816.8A
Other languages
English (en)
Other versions
CN105206258A (zh
Inventor
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510680816.8A priority Critical patent/CN105206258B/zh
Publication of CN105206258A publication Critical patent/CN105206258A/zh
Priority to US15/758,214 priority patent/US10614795B2/en
Priority to PCT/CN2016/090044 priority patent/WO2017067246A1/zh
Application granted granted Critical
Publication of CN105206258B publication Critical patent/CN105206258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种声学模型的生成方法和装置及语音合成方法和装置,该声学模型的生成方法包括:获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。该方法能够实现声学模型的快速生成,并且可以满足用户的个性化需求。

Description

声学模型的生成方法和装置及语音合成方法和装置
技术领域
本发明涉及语音合成技术领域,尤其涉及一种声学模型的生成方法和装置及语音合成方法和装置。
背景技术
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。在语音合成时,首先需要对输入的文本进行处理,包括预处理、分词、词性标注、注音、韵律层级预测等,然后通过声学模型生成声学参数,最后利用声学参数直接通过声码器合成声音或者从录音语料库中挑选单元进行拼接。
现有技术中,声学模型的生成流程耗费时间长,也不能满足个性化需求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种声学模型的生成方法,该方法可以提高生成声学模型的速度,并且可以满足用户的个性化需求。
本发明的另一个目的在于提出一种声学模型的生成装置。
本发明的另一个目的在于提出一种语音合成方法。
本发明的另一个目的在于提出一种语音合成装置。
为达到上述目的,本发明第一方面实施例提出的声学模型的生成方法,包括:获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
本发明第一方面实施例提出的声学模型的生成方法,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。
为达到上述目的,本发明第二方面实施例提出的声学模型的生成装置,包括:第一获取模块,用于获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;第二获取模块,用于获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;生成模块,用于根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
本发明第二方面实施例提出的声学模型的生成装置,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。
为达到上述目的,本发明第三方面实施例提出的语音合成方法,包括:对输入文本进行处理,得到处理后的文本;获取预先生成的个性化声学模型;根据所述个性化声学模型和处理后的文本进行声学参数生成;根据生成的声学参数进行语音合成,得到个性化合成语音;其中,所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
本发明第三方面实施例提出的语音合成方法,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
为达到上述目的,本发明第四方面实施例提出的语音合成装置,包括:处理模块,用于对输入文本进行处理,得到处理后的文本;获取模块,用于获取预先生成的个性化声学模型;生成模块,用于根据所述个性化声学模型和处理后的文本进行声学参数生成;合成模块,用于根据生成的声学参数进行语音合成,得到个性化合成语音;其中,所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
本发明第四方面实施例提出的语音合成装置,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的声学模型的生成方法的流程示意图;
图2是本发明另一实施例提出的声学模型的生成方法的流程示意图;
图3是本发明另一实施例提出的声学模型的生成方法的流程示意图;
图4是本发明实施例中说话人模型的训练过程和识别过程的示意图;
图5是本发明另一实施例提出的语音合成方法的流程示意图;
图6是本发明另一实施例提出的语音合成方法的流程示意图;
图7是本发明另一实施例提出的声学模型的生成装置的结构示意图;
图8是本发明另一实施例提出的声学模型的生成装置的结构示意图;
图9是本发明另一实施例提出的语音合成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的声学模型的生成方法的流程示意图,该方法包括:
S11:获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的。
例如,参见图2,获取个性化数据时,可以具体包括:
S21:获取个性化语音数据。
个性化语音数据是能够满足用户个性化需求的语音数据。
个性化语音数据可以仅包括目标发音人的语音数据,或者,可以包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据。
目标发音人的语音数据例如为:用户自己的语音数据、用户的家人或朋友的语音数据,或者,明星的语音数据等。
通过样本采集可以获取到个性化语音数据。
与普通声学模型训练时通常采集的几千句样本相比,当个性化语音数据仅是目标发音人的语音数据时,采集的目标发音人的语音数据的样本量在几百句或几十句的规模,当个性化语音数据还包括相似发音人的语音数据时,可以进一步降低目标发音人的语音数据的样本量,例如采集几句。
S22:对个性化语音数据进行数据加工。
数据加工例如包括:降噪处理和切分处理等。具体的降噪规则和切分规则可以预先设置。
S23:对数据加工后的个性化语音数据进行特征提取。
例如,提取的特征包括:谱、基频、时长等声学特征。
通过S21-S23可以获取到根据个性化语音数据处理后得到的个性化数据。
另外,个性化数据还包括个性化文本标注数据,相应的,参见图2,还包括:
S24:获取个性化文本标注数据。
其中,个性化文本标注数据是根据与上述的个性化语音数据对应的个性化文本进行标注后得到的。具体的,在采集个性化语音数据时,同时获取相应的个性化文本数据,可以在已有的数据库中查找是否存在个性化文本数据对应的标注数据,如果存在,则可以直接从已有的数据库中获取相应的标注数据作为个性化文本标注数据,如果不存在,则可以采用人工标注或自动标注的方式,获取个性化文本标注数据,自动标注的方式例如结合语音识别、自动边界切分等技术实现。
文本标注数据例如包括对文本的拼音、韵律层级标注等。
通过S21-S23以及S24可以实现个性化数据的获取。
S12:获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的。
其中,可以采用通常的大规模样本训练的方式生成基准声学模型。
在模型训练时,为了解决通常采用的决策树模型训练方式存在的参数不够连贯造成的合成语音不自然的问题,本实施例中,采用神经网络进行模型训练,神经网络例如为LSTM网络结构或者双向LSTM网络结构,LSTM(Long-Short Term Memory)是一种时间递推神经网络。相应的,生成的声学模型可以称为神经网络声学模型。
以神经网络模型训练为例,参见图2,生成基准神经网络声学模型时,可以具体包括:
S25:获取大规模语音数据。
S26:获取大规模文本标注数据。
其中,大规模语音数据和大规模文本标注数据是相互对应的,规模较大,且具有较好的音子覆盖和韵律覆盖能力,能够描述较多的语音现象。
S27:对大规模语音数据进行特征提取。
例如提取谱、基频、时长等声学特征。
S28:根据提取的特征以及大规模文本标注数据进行神经网络模型训练,生成基准神经网络声学模型。
S13:根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
与直接根据样本训练生成模型不同的是,本实施例中,在获取个性化数据后,可以根据该个性化数据对已有的基准声学模型进行自适应模型训练,从而可以不需要较大的样本规模。
例如,参见图2,在自适应模型训练时也可以采用自适应神经网络模型训练(S29),从而生成个性化神经网络声学模型。
在基准声学模型的基础上,利用加工好的个性化声音数据,通过自适应技术,实现对模型参数的全局性修改,将其声音特点从基准声学参数所对应的发音人,自适应为个性化声音。由于神经网络模型的更新,是整个网络参数的全局更新,所以,可以实现用较少的录音数据,实现个性化声学模型的训练,大大降低了对录音数据的规模要求,从几千句的规模降低到几百句甚至几十句。而且,基准声学模型所覆盖的语言现象,也会较好地体现在生成的个性化声学模型之中。
本实施例中,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。另外,通过大规模样本生成基准声学模型,可以保证根据该基准声学模型生成的个性化声学模型的准确性和可靠性。进一步的,在模型训练时采用神经网络模型训练方式,可以提高模型参数的连贯性,从而提高合成语音的自然性。
图3是本发明另一实施例提出的声学模型的生成方法的流程示意图,该方法包括:
S31:获取目标发音人的语音数据。
目标发音人的语音数据例如:用户自己的语音数据、用户的家人或朋友的语音数据,或者,明星的语音数据等。
本实施例中,为了降低对目标发音人的语音数据的样本采集量,通过获取与目标发音人语音相似的相似发音人的语音数据,以丰富样本量。
相应的,该方法还可以包括:确定与目标发音人语音相似的相似发音人。
参见图3,确定相似发音人的流程可以包括:
S32:对所述目标发音人的语音数据进行特征提取。
例如,提取MFCC、PLP、fbank等特征。
S33:根据提取得到的目标发音人的特征,以及预设生成的多说话人模型,确定与目标发音人语音相似的发音人。
其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行模型训练后生成的。
例如,基于一个预先训练好的多说话人模型,利用说话人识别技术,计算目标说话人与数据库中说话人的语音相似程度,挑选出与目标说话人非常接近(比如,超过某个预设的门限值则认为相似)的一个或者多个发音人。
多说话人模型的训练和识别流程可以参见图4,例如,在训练阶段,包括样本的特征提取(S41),之后可以根据提取的特征训练生成多说话人模型。在识别阶段,对于当前输入的目标发音人的语音数据,可以先进行特征提取(S41),再根据提取出的特征在多说话人模型中找到匹配的发音人(S42),之后再经过相似度判定(S43),如计算匹配值是否大于门限值等,从而确定出相似发音人。多说话人模型的训练算法可以采用GMM-UBM、SVM、SVM-GMM、JFA、i-vector等方法。
S34:获取相似发音人的语音数据作为相似语音数据。
例如,多说话人语音数据库中关联保存发音人与语音数据,因此,在确定出相似发音人后,根据该关联关系可以从多说话人语音数据库中获取相似发音人的语音数据。
S35:对目标发音人的语音数据和相似发音人的语音数据进行数据加工。
数据加工例如包括:降噪、切分等。
S36:对数据加工后的语音数据进行特征提取。
例如,提取谱、基频、时长等声学特征。
S37:从预先生成的多说话人语音数据库中,获取与相似语音数据对应的文本标注数据。
例如,多说话人语音数据库中关联保存语音数据和文本标注数据,因此,在获取到相似发音人的语音数据后,根据该关联关系可以获取相应的文本标注数据。
S38:从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式,获取与目标发音人的语音数据对应的文本标注数据。
例如,如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据,则从多说话人语音数据库中获取。或者,如果不能在多说话人语音数据库中找到目标发音人对应的文本标注数据,则可以采用人工标注或自动标注方式获取目标发音人的语音数据对应的文本标注数据,自动标注的方式例如结合语音识别、自动边界切分等技术实现。
一些实施例中,如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据,则在人工标注或自动标注后,该方法还可以包括;
将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。
新的个性化语音数据,可以加入到多说话人数据库中,不断丰富数据库的内容,并不断更新说话人模型。不断更新的数据库和说话人模型,可以参与到之后其他个性化声学模型训练的过程当中。可以想见,随着个性化声学模型的不断生成,可用的语音数据会越来越多,效果越来越好,这种不断迭代优化的方式,将大大改善个性化声学模型的表现力,满足用户的需求,提升其满意度。
S39:获取预先生成的基准声学模型,并根据提取后的声学特征以及目标发音人的语音数据对应的文本标注数据以及相似发音人的语音数据对应的文本标注数据对所述基准声学模型进行自适应模型训练,生成个性化声学模型。
其中,基准声学模型的生成流程可以参见图2所示实施例,在此不再赘述。
在获取个性化数据后,可以根据该个性化数据对基准声学模型进行自适应模型训练,以生成个性化声学模型。其中,个性化数据包括:对目标发音人的语音数据和相似发音人的语音数据进行数据加工和特征提取后的数据,以及,目标发音人的语音数据对应的文本标注数据和相似发音人的语音数据对应的文本标注数据。
目标发音人的个性化语音、与目标发音人相似的其他发音人语音数据,经过降噪、自动切分、特征提取等步骤后,就可以与对应的文本一起,在预先训练好的基准模型上,进行自适应模型训练了。所谓的对应文本,是指目标发音人语音所对应的标注文本、与目标发音人相似的其他发音人语音数据对应的标注文本。从而,构建出上下文信息与声学参数之间的对应关系,即个性化声学模型。所构建的声学模型,是在一个覆盖丰富语言现象的基准模型基础上,利用目标发音人的个性化声音,以及与目标发音人相似的声音共同自适应生成的,从而解决了目标发音人数据不易采集、或者采集难度大的问题,从而实现目标说话人仅仅需要几句话,即可训练出非常接近的个性化声学模型。由于加入了与目标说话人非常相似的语音数据,所以自适应训练的效果更加稳定,应用到语音合成系统中,所生成的语音效果也更好。
本实施例中,通过对说话人的特征进行分析,利用一个大规模的多说话人数据库,提取出与目标说话人相似的语音数据,共同参与自适应模型训练,从而可以大大降低对目标个性化语音数据的数量要求,同时能保证声学模型很好地反映目标个性化声音的特点,从而达到快速实现个性化语音合成系统的目的。随着大说话人语音数据库的不断丰富,其效果会持续改善,具有非常好的扩展性。
在得到个性化声学模型后,可以将该个性化声学模型用于语音合成,以合成个性化语音。
图5是本发明另一实施例提出的语音合成方法的流程示意图,该方法包括:
S51:对输入文本进行处理,得到处理后的文本。
例如,参见图6,处理流程可以包括:文本预处理(S61)、分词(S62)、词性标注(S63)、注音(S64)、韵律预测(S65)等。
S52:获取预先生成的个性化声学模型。
其中,个性化声学模型可以采用上述实施例生成,在此不再赘述。
S53:根据所述个性化声学模型和处理后的文本进行声学参数生成。
S54:根据生成的声学参数进行语音合成,得到个性化合成语音。
声学参数生成及语音合成的原理可以采用已有方式,与已有方式不同的是,本实施例采用个性化声学模型以区分于已有方式的普通声学模型。
本实施例中,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
图7是本发明另一实施例提出的声学模型的生成装置的结构示意图,该装置70包括:第一获取模块71、第二获取模块72和生成模块73。
第一获取模块71,用于获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;
一些实施例中,所述第一获取模块71具体用于:
获取个性化语音数据,对所述个性化语音数据进行数据加工,以及,对数据加工后的个性化语音数据进行特征提取;以及,
获取与所述个性化语音数据对应的个性化文本标注数据,所述个性化文本标注数据是对所述个性化语音数据对应的个性化文本进行标注后得到的。
个性化语音数据是能够满足用户个性化需求的语音数据。
个性化语音数据可以仅包括目标发音人的语音数据,或者,可以包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据。
目标发音人的语音数据例如为:用户自己的语音数据、用户的家人或朋友的语音数据,或者,明星的语音数据等。
通过样本采集可以获取到个性化语音数据。
与普通声学模型训练时通常采集的几千句样本相比,当个性化语音数据仅是目标发音人的语音数据时,采集的目标发音人的语音数据的样本量在几百句或几十句的规模,当个性化语音数据还包括相似发音人的语音数据时,可以进一步降低目标发音人的语音数据的样本量,例如采集几句。
数据加工例如包括:降噪处理和切分处理等。具体的降噪规则和切分规则可以预先设置。
例如,提取的特征包括:谱、基频、时长等声学特征。
其中,个性化文本标注数据是根据与上述的个性化语音数据对应的个性化文本进行标注后得到的。具体的,在采集个性化语音数据时,同时获取相应的个性化文本数据,可以在已有的数据库中查找是否存在个性化文本数据对应的标注数据,如果存在,则可以直接从已有的数据库中获取相应的标注数据作为个性化文本标注数据,如果不存在,则可以采用人工标注或自动标注的方式,获取个性化文本标注数据,自动标注的方式例如结合语音识别、自动边界切分等技术实现。
文本标注数据例如包括对文本的拼音、韵律层级标注等。
当所述个性化语音数据包括:目标发音人的语音数据和相似发音人的语音数据时,所述获取模块71用于获取个性化语音数据,包括:
获取目标发音人的语音数据;
确定与目标发音人语音相似的相似发音人;
获取相似发音人的语音数据作为相似语音数据。
目标发音人的语音数据例如:用户自己的语音数据、用户的家人或朋友的语音数据,或者,明星的语音数据等。
本实施例中,为了降低对目标发音人的语音数据的样本采集量,通过获取与目标发音人语音相似的相似发音人的语音数据,以丰富样本量。
一些实施例中,所述获取模块71用于确定与目标发音人语音相似的相似发音人,包括:
对所述目标发音人的语音数据进行特征提取;
根据提取得到的目标发音人的特征,以及预设生成的多说话人模型,确定与目标发音人语音相似的发音人,其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行模型训练后生成的。
例如,提取MFCC、PLP、fbank等特征。
例如,基于一个预先训练好的多说话人模型,利用说话人识别技术,计算目标说话人与数据库中说话人的语音相似程度,挑选出与目标说话人非常接近(比如,超过某个预设的门限值则认为相似)的一个或者多个发音人。
多说话人模型的训练和识别流程可以参见图4,例如,在训练阶段,包括样本的特征提取(S41),之后可以根据提取的特征训练生成多说话人模型。在识别阶段,对于当前输入的目标发音人的语音数据,可以先进行特征提取(S41),再根据提取出的特征在多说话人模型中找到匹配的发音人(S42),之后再经过相似度判定(S43),如计算匹配值是否大于门限值等,从而确定出相似发音人。多说话人模型的训练算法可以采用GMM-UBM、SVM、SVM-GMM、JFA、i-vector等方法。
例如,多说话人语音数据库中关联保存发音人与语音数据,因此,在确定出相似发音人后,根据该关联关系可以从多说话人语音数据库中获取相似发音人的语音数据。
所述与所述个性化语音数据对应的个性化文本标注数据包括:与所述目标发音人的语音数据对应的文本标注数据,以及,与所述相似语音数据对应的文本标注数据,所述获取与所述个性化语音数据对应的个性化文本标注数据,包括:
从预先生成的多说话人语音数据库中,获取与相似语音数据对应的文本标注数据;
从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式,获取与目标发音人的语音数据对应的文本标注数据,自动标注的方式例如结合语音识别、自动边界切分等技术实现。
例如,多说话人语音数据库中关联保存语音数据和文本标注数据,因此,在获取到相似发音人的语音数据后,根据该关联关系可以获取相应的文本标注数据。
例如,如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据,则从多说话人语音数据库中获取。或者,如果不能在多说话人语音数据库中找到目标发音人对应的文本标注数据,则可以采用人工标注或自动标注的方式获取目标发音人的语音数据对应的文本标注数据,自动标注的方式例如结合语音识别、自动边界切分等技术实现。
一些实施例中,参见图8,当与目标发音人的语音数据对应的文本标注数据是采用人工标注或自动标注方式得到的,所述装置还包括:
保存模块74,用于将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。
新的个性化语音数据,可以加入到多说话人数据库中,不断丰富数据库的内容,并不断更新说话人模型。不断更新的数据库和说话人模型,可以参与到之后其他个性化声学模型训练的过程当中。可以想见,随着个性化声学模型的不断生成,可用的语音数据会越来越多,效果越来越好,这种不断迭代优化的方式,将大大改善个性化声学模型的表现力,满足用户的需求,提升其满意度。
第二获取模块72,用于获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;
其中,可以采用通常的大规模样本训练的方式生成基准声学模型。
在模型训练时,为了解决通常采用的决策树模型训练方式存在的参数不够连贯造成的合成语音不自然的问题,本实施例中,采用神经网络进行模型训练,神经网络例如为LSTM网络结构或者双向LSTM网络结构,LSTM(Long-Short Term Memory)是一种时间递推神经网络。相应的,生成的声学模型可以称为神经网络声学模型。
以神经网络模型训练为例,生成基准神经网络声学模型的流程可以参见图2,在此不再赘述。
生成模块73,用于根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
与直接根据样本训练生成模型不同的是,本实施例中,在获取个性化数据后,可以根据该个性化数据对已有的基准声学模型进行自适应模型训练,从而可以不需要较大的样本规模。
例如,参见图2,在自适应模型训练时也可以采用自适应神经网络模型训练(S29),从而生成个性化神经网络声学模型。
在基准声学模型的基础上,利用加工好的个性化声音数据,通过自适应技术,实现对模型参数的全局性修改,将其声音特点从基准声学参数所对应的发音人,自适应为个性化声音。由于神经网络模型的更新,是整个网络参数的全局更新,所以,可以实现用较少的录音数据,实现个性化声学模型的训练,大大降低了对录音数据的规模要求,从几千句的规模降低到几百句甚至几十句。而且,基准声学模型所覆盖的语言现象,也会较好地体现在生成的个性化声学模型之中。
本实施例中,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。另外,通过大规模样本生成基准声学模型,可以保证根据该基准声学模型生成的个性化声学模型的准确性和可靠性。进一步的,在模型训练时采用神经网络模型训练方式,可以提高模型参数的连贯性,从而提高合成语音的自然性。
图9是本发明另一实施例提出的语音合成装置的结构示意图,该装置90包括:处理模块91、获取模块92、生成模块93和合成模块94。
处理模块91,用于对输入文本进行处理,得到处理后的文本;
例如,参见图6,处理流程可以包括:文本预处理(S61)、分词(S62)、词性标注(S63)、注音(S64)、韵律预测(S65)等。
获取模块92,用于获取预先生成的个性化声学模型;
其中,个性化声学模型可以采用上述实施例生成,在此不再赘述。
生成模块93,用于根据所述个性化声学模型和处理后的文本进行声学参数生成;
合成模块94,用于根据生成的声学参数进行语音合成,得到个性化合成语音;
声学参数生成及语音合成的原理可以采用已有方式,与已有方式不同的是,本实施例采用个性化声学模型以区分于已有方式的普通声学模型。
本实施例中,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种声学模型的生成方法,其特征在于,包括:
获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的,所述个性化语音数据包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据;
获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;
根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型;
所述获取个性化数据,包括:
获取目标发音人的语音数据;
对所述目标发音人的语音数据进行特征提取;
根据提取的特征,在预设生成的多说话人模型中获取匹配发音人;
当所述匹配发音人与所述目标发音人的相似度大于门限值时,确定所述匹配发音人为相似发音人;
从多说话人语音数据库中获取所述相似发音人的语音数据作为相似语音数据;
其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行算法训练后生成的。
2.根据权利要求1所述的方法,其特征在于,所述获取个性化数据,包括:
获取个性化语音数据,对所述个性化语音数据进行数据加工,以及,对数据加工后的个性化语音数据进行特征提取;以及,
获取与所述个性化语音数据对应的个性化文本标注数据,所述个性化文本标注数据是对所述个性化语音数据对应的个性化文本进行标注后得到的。
3.根据权利要求2所述的方法,其特征在于,所述与所述个性化语音数据对应的个性化文本标注数据包括:与所述目标发音人的语音数据对应的文本标注数据,以及,与所述相似语音数据对应的文本标注数据;
所述获取与所述个性化语音数据对应的个性化文本标注数据,包括:
从预先生成的多说话人语音数据库中,获取与相似语音数据对应的文本标注数据;
从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式,获取与目标发音人的语音数据对应的文本标注数据。
4.根据权利要求3所述的方法,其特征在于,当与目标发音人的语音数据对应的文本标注数据是采用人工标注或自动标注方式得到的,所述方法还包括:
将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基准声学模型是基准神经网络模型,所述自适应模型训练是自适应神经网络模型训练,所述个性化声学模型是个性化神经网络模型。
6.一种语音合成方法,其特征在于,包括:
对输入文本进行处理,得到处理后的文本;
获取预先生成的个性化声学模型;
根据所述个性化声学模型和处理后的文本进行声学参数生成;
根据生成的声学参数进行语音合成,得到个性化合成语音;
其中,所述个性化声学模型采用如权利要求1-5任一项所述的方法生成。
7.一种声学模型的生成装置,其特征在于,包括:
第一获取模块,用于获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的,所述个性化语音数据包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据;
第二获取模块,用于获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;
生成模块,用于根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型;
其中,所述第一获取模块用于获取个性化语音数据,包括:
获取目标发音人的语音数据;
对所述目标发音人的语音数据进行特征提取;
根据提取的特征,在预设生成的多说话人模型中获取匹配发音人;
当所述匹配发音人与所述目标发音人的相似度大于门限值时,确定所述匹配发音人为相似发音人;
从多说话人语音数据库中获取所述相似发音人的语音数据作为相似语音数据;
其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行算法训练后生成的。
8.一种语音合成装置,其特征在于,包括:
处理模块,用于对输入文本进行处理,得到处理后的文本;
获取模块,用于获取预先生成的个性化声学模型;
生成模块,用于根据所述个性化声学模型和处理后的文本进行声学参数生成;
合成模块,用于根据生成的声学参数进行语音合成,得到个性化合成语音;
其中,所述个性化声学模型采用如权利要求1-5任一项所述的方法生成。
CN201510680816.8A 2015-10-19 2015-10-19 声学模型的生成方法和装置及语音合成方法和装置 Active CN105206258B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510680816.8A CN105206258B (zh) 2015-10-19 2015-10-19 声学模型的生成方法和装置及语音合成方法和装置
US15/758,214 US10614795B2 (en) 2015-10-19 2016-07-14 Acoustic model generation method and device, and speech synthesis method
PCT/CN2016/090044 WO2017067246A1 (zh) 2015-10-19 2016-07-14 声学模型的生成方法和装置及语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510680816.8A CN105206258B (zh) 2015-10-19 2015-10-19 声学模型的生成方法和装置及语音合成方法和装置

Publications (2)

Publication Number Publication Date
CN105206258A CN105206258A (zh) 2015-12-30
CN105206258B true CN105206258B (zh) 2018-05-04

Family

ID=54953888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510680816.8A Active CN105206258B (zh) 2015-10-19 2015-10-19 声学模型的生成方法和装置及语音合成方法和装置

Country Status (3)

Country Link
US (1) US10614795B2 (zh)
CN (1) CN105206258B (zh)
WO (1) WO2017067246A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206258B (zh) 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN107545889B (zh) 2016-06-23 2020-10-23 华为终端有限公司 适用于模式识别的模型的优化方法、装置及终端设备
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN108172218B (zh) * 2016-12-05 2021-01-12 中国移动通信有限公司研究院 一种语音建模方法及装置
CN106531150B (zh) * 2016-12-23 2020-02-07 云知声(上海)智能科技有限公司 一种基于深度神经网络模型的情感合成方法
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法
CN107103903B (zh) 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107331384B (zh) * 2017-06-12 2018-05-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN108172209A (zh) * 2018-01-09 2018-06-15 上海大学 构建语音偶像方法
CN110399547B (zh) * 2018-04-17 2022-03-04 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和存储介质
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109634404A (zh) * 2018-11-01 2019-04-16 济南奥维信息科技有限公司济宁分公司 一种基于吹气的可控交互界面的系统和方法
JP6737320B2 (ja) * 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
CN109447234B (zh) * 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
CN109599095B (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
US20220013106A1 (en) * 2018-12-11 2022-01-13 Microsoft Technology Licensing, Llc Multi-speaker neural text-to-speech synthesis
CN110570843B (zh) * 2019-06-28 2021-03-05 北京蓦然认知科技有限公司 一种用户语音识别方法和装置
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统
KR102680097B1 (ko) * 2019-11-01 2024-07-02 삼성전자주식회사 전자 장치 및 그 동작 방법
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
US11430424B2 (en) * 2019-11-13 2022-08-30 Meta Platforms Technologies, Llc Generating a voice model for a user
CN112837674B (zh) * 2019-11-22 2024-06-11 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备
CN112863476B (zh) * 2019-11-27 2024-07-02 阿里巴巴集团控股有限公司 个性化语音合成模型构建、语音合成和测试方法及装置
CN112885326A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 个性化语音合成模型创建、语音合成和测试方法及装置
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
CN111429927B (zh) * 2020-03-11 2023-03-21 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
CN111477210A (zh) * 2020-04-02 2020-07-31 北京字节跳动网络技术有限公司 语音合成方法和装置
CN111930900B (zh) * 2020-09-28 2021-09-21 北京世纪好未来教育科技有限公司 标准发音生成方法及相关装置
US20220310058A1 (en) * 2020-11-03 2022-09-29 Microsoft Technology Licensing, Llc Controlled training and use of text-to-speech models and personalized model generated voices
CN112466294B (zh) * 2020-11-24 2021-12-14 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
CN112365876B (zh) * 2020-11-27 2022-04-12 北京百度网讯科技有限公司 语音合成模型的训练方法、装置、设备以及存储介质
CN113327577B (zh) * 2021-06-07 2024-01-16 北京百度网讯科技有限公司 语音合成方法、装置和电子设备
CN113488020B (zh) * 2021-07-02 2024-04-12 科大讯飞股份有限公司 语音合成方法和相关设备、装置、介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US8332225B2 (en) 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US9424837B2 (en) * 2012-01-24 2016-08-23 Auraya Pty Ltd Voice authentication and speech recognition system and method
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN105206258B (zh) 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法

Also Published As

Publication number Publication date
US20180211649A1 (en) 2018-07-26
CN105206258A (zh) 2015-12-30
WO2017067246A1 (zh) 2017-04-27
US10614795B2 (en) 2020-04-07

Similar Documents

Publication Publication Date Title
CN105206258B (zh) 声学模型的生成方法和装置及语音合成方法和装置
US10902841B2 (en) Personalized custom synthetic speech
CN105185372B (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN112689871A (zh) 使用神经网络以目标讲话者的话音从文本合成语音
CN104934028B (zh) 用于语音合成的深度神经网络模型的训练方法及装置
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
Kshirsagar et al. Visyllable based speech animation
CN105529023B (zh) 语音合成方法和装置
EP3915108B1 (en) Real-time generation of speech animation
CN106688034A (zh) 具有情感内容的文字至语音转换
US8447603B2 (en) Rating speech naturalness of speech utterances based on a plurality of human testers
Fernández-Baena et al. Gesture synthesis adapted to speech emphasis
US9147166B1 (en) Generating dynamically controllable composite data structures from a plurality of data segments
US9484045B2 (en) System and method for automatic prediction of speech suitability for statistical modeling
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
Chakhtouna et al. Improving speech emotion recognition system using spectral and prosodic features
Morrison et al. Voting ensembles for spoken affect classification
CN112750184B (zh) 数据处理、动作驱动与人机交互方法及设备
Kostuchenko et al. Assessment of syllable intelligibility based on convolutional neural networks for speech rehabilitation after speech organs surgical interventions
Kirandzhiska et al. Sound features used in emotion classification
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
CN115273806A (zh) 歌曲合成模型的训练方法和装置、歌曲合成方法和装置
Peng et al. Speech emotion recognition of merged features based on improved convolutional neural network
KR102623459B1 (ko) 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템
Larisa et al. Speech emotion recognition using 1D/2D convolutional neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant