CN112002304B - 语音合成方法及装置 - Google Patents
语音合成方法及装置 Download PDFInfo
- Publication number
- CN112002304B CN112002304B CN202010880919.XA CN202010880919A CN112002304B CN 112002304 B CN112002304 B CN 112002304B CN 202010880919 A CN202010880919 A CN 202010880919A CN 112002304 B CN112002304 B CN 112002304B
- Authority
- CN
- China
- Prior art keywords
- information
- tone
- initial consonant
- voice
- shortcut
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 230000001960 triggered effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 239000000243 solution Substances 0.000 description 3
- 229910000906 Bronze Inorganic materials 0.000 description 2
- 201000007201 aphasia Diseases 0.000 description 2
- 239000010974 bronze Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种通过在智能设备(包括:各种电脑和移动设备)上实现即时发音的语音合成方法,可以让失语者(无法正常讲话的人)通过敲击键盘与普通人进行语音交流。该编码方案比较简单,就算不使用快捷键的情况下,使用者只需要在键盘上先后敲击三个字母,就能发出一个标准的中文单字音。其中第一个字母标注该发音的声母,第二个字母标注该发音的韵母,第三个字母除了标注好该发音的音调外,还能根据在语句中的位置,标注该发音的轻重长短。如果结合本专利的快捷键和词语编码方法,速度会更快,能够让使用者通过敲击键盘,以普通人的语速和别人进行语音交流。
Description
技术领域
本发明涉及语音生成技术,尤其涉及一种语音合成方法及装置。
本发明涉及电脑输入法和语音合成技术,完整的描述应当是:及时语音合成输入法编码方案。
背景技术
目前市场上已有的语音合成系统都是基于文字转语音的技术(称为TTS,从文本到语音Text To Speech),需要先输入一段文字,然后将这一段文字转换为语音,无法做到同步或者及时发音。
换句话说,如果让一个失语者通过敲击键盘发出语音与普通人交流时,需要先通过键盘输入文字,再使用目前的语音转换系统将整句文字转换成语音发出,该种方式虽然能够解决失语者与常人间的语音交流问题,但是需要将文字作为介质再转换成语音,使得该种方式语音合成方式效率较低,有延时,无法做到及时同步。
发明内容
本发明实施例提供一种语音合成方法及装置,在语音合成的过程中以声码为媒介,不需要文字为媒介,效率较高,语音的输出时刻与使用者的想法产生的时刻能够及时同步。
如果需要同步及时的语音合成,就需要使用本专利的输入法。相对于其他输入法,本专利涉及的输入法准确来讲,是一种配音输入法,即通过敲击键盘,输出语音。相对于本专利的输入法,其它输入法可称之为:配字输入法,即通过敲击键盘,输出文字。
本发明提供一种及时语音合成输入法编码方案,基本方法是在键盘上,先后敲击三个字母,发一个中文语音。扩展方法是使用快捷键和词语输入法,能够平均敲击1.5-2个键,就能发一个中文语音,从而实现使用者可以以正常的语速,通过敲击键盘与别人交流。
本发明实施例的第一方面,提供一种语音合成方法,包括:
接收使用者输入的声母信息;
接收使用者输入的韵母信息;
接收使用者输入的声调信息以及音调的轻重长短信息;
将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息;
获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置。
可选地,在第一方面的一种可能实现方式中,在所述接收使用者输入的声母信息的步骤前,还包括:
在一输入设备上分别设置声母信息接收区、韵母信息接收区以及声调信息接收区;
当所述输入设备被第一次触发时,所述声母信息接收区获取声母信息;
当所述输入设备被第二次触发时,所述韵母信息接收区获取韵母信息;
当所述输入设备被第三次触发时,所述声调信息接收区获取声调信息。
可选地,在第一方面的一种可能实现方式中,其中,所述声调信息接收区包括句首区、句尾区、词首区、词尾区以及单字区;
所述句首区、句尾区、词首区、词尾区以及单字区分别具有声调的标记位信息;
所述将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息包括:
将所述声母中的声母和韵母信息中的韵母进行排序生成单字拼音,基于声调信息中的标记位信息以及音调的轻重长短信息对单字拼音进行匹配,生成声码信息。
可选地,在第一方面的一种可能实现方式中,在所述获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置的步骤后,还包括:
将所述语音信息基于一扬声装置进行播放。
可选地,在第一方面的一种可能实现方式中,将所述语音信息基于一扬声装置进行播放包括:
接收使用者选定的语音库;
将所述语音信息和语音库信息进行匹配生成播放信息,将播放信息发送至所述扬声装置处进行播放。
可选地,在第一方面的一种可能实现方式中,在接收使用者输入的声母信息后,还包括:
接收使用者输入的快捷信息,在一输入设备上分别设置声母信息接收区以及快捷信息接收区;
基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置;
接收使用者输入的快捷字确认信息后,获取与所述快捷字信息对应的语音信息,其中所述语音信息与所述快捷字信息预先对应设置。
可选地,在第一方面的一种可能实现方式中,在所述基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置后,还包括:
再次接收使用者输入的快捷信息;
将再次接收到声母信息以及快捷信息,基于再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息生成快捷词组信息,其中所述再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息与所述快捷词组信息预先对应设置;
接收使用者输入的快捷词组确认信息后,获取与所述快捷词组信息对应的语音信息。
可选地,在第一方面的一种可能实现方式中,在接收使用者输入的声母信息后,还包括:
获取与所述声母信息具有关联的语音信息,其中所述声母信息与具有关联的语音信息预先对应设置。
本发明实施例的第二方面,提供一种语音合成装置,包括:
声母信息接收模块,用于接收使用者输入的声母信息;
韵母信息接收模块,用于接收使用者输入的韵母信息;
声调及声调的轻重长短信息模块,用于接收使用者输入的声调信息以及音调的轻重长短信息;
声码信息生成模块,将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息;
语音信息生成模块,用于获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置。
本发明实施例的第三方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
本发明提供的一种语音合成方法及装置,使用者可以通过输入设备直接输入想要发出的声音,不再需要以文字为媒介再进行语音转换,效率较高,语音的输出时刻与使用者的想法产生的时刻能够及时同步。
附图说明
图1为语音合成方法的第一种实施方式的流程图;
图2为声母信息接收区的第一种实施方式的示意图;
图3为韵母信息接收区的第一种实施方式的示意图;
图4为声调和长短轻重信息接收区的第一种实施方式的示意图;
图5为语音合成装置的第一种实施方式的结构图
图6为为“我是中国人”发音的操作流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本发明提供一种语音合成方法,如图1所示其结构示意图,包括:
S110、接收使用者输入的声母信息。其中接收设备可以是具有实体键盘或虚拟键盘的终端等等。在本发明中的声母信息包括如:b/p/m/l……等声母,以及能独立发音的韵母(如:a/e/o),共计23个字母。键盘中剩余的i/u/v(注:本文的v代指拼音的韵母ü)可分配给双声母zh/ch/sh。如图2所示其示意图。
S120、接收使用者输入的韵母信息。除了单韵母(a o e i u v)仍然按拼音规则正常输入外,其它多字母韵母输入方法如图3所示,具有以下的对应关系:
ai=b,an=c,ang=d,ao=f,
ei=h,en=n,eng=g,
ia=ua=j,ian=uai=k,iang=uang=l,iao=m,ie=p,in=q,ing=r,iu=s,
ong=iong=t,ou=w,
uan=x,ue=ve=y,ui=v,un=z,uo=o。
注:为了便于记忆,多字韵母与键盘的字母对应关系也是精心设计出来的,首先拼音韵母的顺序与英文26个字母的先后顺序大体保持一致。最多是两个多字母韵母共用一个键盘字母,而且保持相近的韵母共用一个字母,如:韵母ia和ua共用一个键j,经过科学测试,在实际应用中,共用韵母键不会出现冲突现象,即不会出现同一个声母加韵母拼出两个音的可能。
在汉语语音发音中,只有三个单字母韵母发音时,是只有单一的韵母a(对应汉字:啊)、e(对应汉字:饿)、o(对应汉字:哦),无法用声母+韵母的方法表示,本编码方式采用重叠字母方式编码:aa(拼音:a,对应汉字:啊)、ee(拼音:e,对应汉字:饿)、oo(拼音:o,对应汉字:哦)。
S130、接收使用者输入的声调以及语音的轻重长短信息。在以上的步骤中标注了一个发音的声母和韵母,按一般的拼音方法,第三键只需要五个字母就可以标注拼音的声调,剩下的21个字母可以起到别的作用。所以除了要标注声调外,本发明还标出该发音在整个词、语句中的位置,这样就可以根据一个发音在词句中的不同位置,调用同一个字的不同长短轻重发音。
可将键盘分为五个区域(与五笔输入法的横、竖、撇、捺、折五个区域的划分相一致,分别是:词首区、词尾区、句首区、句尾区和单字区),,如图4所示。在中文语言的发音中,同一个字在一句话的不同位置,其发音轻重和长短是不一样的,比如“我”这个字,在句首(如:我是中国人),发音最重,也最长;在句尾(如:把东西给我)发音稍重,稍长;在词首(如:这是我的)稍重、稍短;在词尾(这是给我的)最轻,最短;而单字区的发音是按字典的字一个一个读出的,不适合放在语句中,比较适合放在特殊语境下,来加强语气,比如朗读一本书的序言,作为标题的“序言”两个字,就可以使用单字区的发音朗读。
每个区域里的五个键分别代表标准的汉语普通话中的共有四个声调:阴平(一声)、阳平(二声)、上声(三声)、去声(四声)和轻声,如图4所示,注:在图上的英文字母键上,分别用·-/V\这五个符号,对应拼音的五个声调:轻声、一声、二声、三声和四声。设置每个区域这五个键的位置,是根据五种声调发音的频率,以及标准的打字指法来规划的。以词首区域的asdfg(键盘中部从左到右五个键)为例,a对应去声(四声),s对应上声(三声),d对应阳平(二声),f对应阴平(一声),g对应轻声。如果按标准的键盘打字指法,食指最灵活,使用频率也最高,负责敲击f键(一声)和g键(轻声),其次是小拇指使用频率较高,负责敲击a键(四声),注:专业统计显示,中文语音中,第四声的发音频率是最高的。第一声和第四声对应的按键确定后,中间d键和s键自然分配给第二声和第三声。其它区域的键盘布局与此类似,不再重复。
S140、将所述声母信息、韵母信息以及声调、语音长短和轻重信息基于声码规则进行融合生成声码信息。通过声码规则将声母信息、韵母信息以及声调信息进行融合得到声码信息,其中声码与拼音的区别在于:拼音包括声母、韵母和声调,而声码除了拼音的声母、韵母和声调外,还包括该音的长短和轻重,在本发明中,用五个区表示:句首,句尾,词首,词尾,单字。
S150、获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置。通过获取声码信息后得到对应的语音信息,进而发声。
通过本发明提供的以上方式,让失语者通过敲击键盘发语音,不再需要先用当下的输入法把汉字打出来,再使用语音合成系统转成声音,后者效率低,也无法进行人工干预,会出现同音字、多音字的读音错误。
使用本发明提供的方法,不但效率高(敲击三键能发出一个标准的单字语音),而且还能根据该语音所在的上下语句关系,自由选择五种发音,有利于提高语音连读时的自然度,或者表达特殊的意思。举例:同样一句话“我今天是来帮你的”,如果按正常语速甚至较轻较快的语速,是表达一种低姿态,真诚的感情;如果按放慢加重的语气来说,是表达一种高姿态,无奈的感情。其中“你”这个字的发音,在前者场景,可采用词尾区发音(最短最轻);在后者场景中,可采用单字区发音(最长最重)。
本发明的这种编码原理具有很强的扩展性,汉语发音不到1300个,其中有相当一部分还是不常用的各地方言和像声词。而我们这种编码方式,三个键的组合26*26*26=17576个,是汉语发音量的十几倍。足可以把各种地方方言、像声词和外文发音表达出来。比如,敲一面大的铜锣,或者是一个铜盆掉在地上发出的声音,如果使用“当”这个字发音,会让人理解为是一个小铜锣发出的声音,在许多评书里,都使用duang(拖长的第一声)来形象表达。可在新华字典中,既没有这个字,也没有这个发音。而使用本发明的声码,很容易也很准确地表达这个发音:dlv,其中d是声母,uang用l表示,v的意思是在单字区第一声(相对其它区域,这个区域的发音完整而且长)。
本发明编码原理扩展性强,还体现在可以实现其他语音合成系统无法做到的功能。比如同样一句话:“你怎么能这样”。想表达一种愤怒、激动的语气,音高会提高,每个字发得短而急,重音放在“你”字上;想表达一种语重心长的说教语气,音高会降低,重音和拖长音放在“这”字上。如果采用三键声码方式(音高低、声长短)无法表达使用者的本意,可切换到四键声码模式,用第四键来表示特殊的语境。如果还希望用本编码方式来唱歌,由于曲调中有着更复杂的音高低、长短,可以扩展到五键甚至六键声码模式来完成复杂的发音功能。
再比如说悄悄话的场景,这种发音方式的特点是声带不振动,声音比较轻弱,气流声大。只需要录制悄悄话语音库,在输入声码时,选择这个语音库就能完成。
本编码方案,对于阿拉伯数字、英文字母和叠音字的发音也有相应的快捷输入法规定:
每一次发音后输入的数字键就是数字本身的发音:
数字 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
拼音 | ling | yi | er | san | si | wu | liu | qi | ba | jiu |
声码 | lrd | yif | era | scf | sia | wus | lsa | qif | baf | jss |
每一次发音后输入的大写英文字母就是字母本身的英语发音快捷键,因为有些英文字母的发音无法使用拼音标音,在此不列出,其编码也非常简单,就是大写的单个英文字母。
每一次发音结束后输入的逗号,代表重复最后一个发音字,而且要发得短而轻。如在“她慢慢地走来”这句话中,“慢慢”的完整发音声码是:“mcamcm”,叠字发音编码是“mca,”
每一次发音后输入的空格不起到快捷或者确认发音的功能,而是起到分隔符的使用。如:wov xiz uaf。
进一步的,在所述接收使用者输入的声母信息的步骤前,还包括:
在一输入设备上分别设置声母信息接收区、韵母信息接收区以及声调信息接收区;
当所述输入设备被第一次触发时,所述声母信息接收区获取声母信息;
当所述输入设备被第二次触发时,所述韵母信息接收区获取韵母信息;
当所述输入设备被第三次触发时,所述声调信息接收区获取声调和语音长短和轻重信息。
在本步骤中,获取声母信、韵母信息以及声调信息的输入设备为同一个设备,通过触发次数来判断此时输入的信息为声母信息、韵母信息或者是声调信息。
进一步的,如图4所示,其中,所述声调信息接收区包括句首区、句尾区、词首区、词尾区以及单字区;
所述句首区、句尾区、词首区、词尾区以及单字区分别具有声调的标记位信息以及语音长短和轻重信息;
所述将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则和汉语发音规律进行融合生成声码信息包括:
将所述声母中的声母和韵母信息中的韵母进行排序生成单音组合,基于声调信息中的标记位信息以及语音长短和轻重信息对单字组合进行匹配,生成声码信息。
进一步的,在所述获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置的步骤后,还包括:
将所述语音信息基于一扬声装置进行播放。
进一步的,将所述语音信息基于一扬声装置进行播放包括:
接收使用者输入的声码信息;
将所述声码信息与预先存储好的语音库进行匹配,生成播放信息,将播放信息发送至所述扬声装置处进行播放。
进一步的,在接收使用者输入的声母信息后,还包括:
接收使用者输入的快捷信息,在一输入设备上分别设置声母信息接收区以及快捷信息接收区;
基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置;
接收使用者输入的快捷字确认信息后,获取与所述快捷字信息对应的语音信息,其中所述语音信息与所述快捷字信息预先对应设置。
在本实施例中,将26个字母都对应一个常用汉字发音,称为一级快捷键,原则是尽可能使用发音频率最高的单音,代词为主。其中,只有w这个快捷键没有给到“我”的发音,而是给到“胃”的发音,把“我”的发音给到不常用的o键上。见一级快捷键表。
本系统可以根据每个人的发音习惯来自己修改快捷键,以适应不同行业和人群的需要。
进一步的,在所述基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置后,还包括:
再次接收使用者输入的快捷信息;
将再次接收到声母信息以及快捷信息,基于再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息生成快捷词组信息,其中所述再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息与所述快捷词组信息预先对应设置;
接收使用者输入的快捷词组确认信息后,获取与所述快捷词组信息对应的语音信息。
进一步的,在接收使用者输入的声母信息后,还包括:
获取与所述声母信息具有关联的语音信息,其中所述声母信息与具有关联的语音信息预先对应设置。
本方法具有联想字词,每输入一键后,电脑都会使用0-9数字表示同音字词列在屏幕上,操作者只需要敲击这些数字,就可以快速完成单字或者是词组的发音。
另外,由于配音输入法的基本操作方式是敲击三键发出一个语音,所以无法直接敲击三键配出三个字的词组发音,也无法直接敲击四键配出四个字的词组发音。当需要以快捷方式输入三字词、四字词甚至更多字词的发音时,需要敲击二键后,增加一个连接码分号“;",告诉系统这是一个三个字以上的词,然后继续敲击词的余下快捷键,但需要每敲击两个键加一个分号。换句话说,在连续输入多字词时,每敲击第三键或者是3的倍数键时,必须使用分号。
举例:“太行山”的快捷键是:TH;S[
“澳大利亚”的快捷键:AD;LY[
中华人民共和国:ZH;RM;GH;G[
其中[为空格键,表示词组输入结束。
在一种可能的实施方式中,对于叠音字的编码,是用逗号来表示后一个重复的字发音,如:呵呵,编码是“hef,";呵呵呵,编码是“hef,,"。
本发明还提供一种语音合成装置,如图5所示,包括:
声母信息接收模块,用于接收使用者输入的声母信息;
韵母信息接收模块,用于接收使用者输入的韵母信息;
声调及声调的轻重长短信息模块,用于接收使用者输入的声调信息以及语音长短和轻重信息;
声码信息生成模块,将所述声母信息、韵母信息以及声调信息、语音长短和轻重信息基于声码规则进行融合生成声码信息;
语音信息生成模块,用于获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置。
本发明还提供一种语音合成系统,包括上述的语音合成装置,语音合成装置采集声母信息、韵母信息以及声调信息、语音长短和轻重信息后基于上述语音合成方法做成的语音软件调取语音数据库中的语音信息(音频信息),通过语音合成软件加工音频文件后控制与电脑等终端连接的扩音器进行播放。
如图6所示,为“我是中国人”发音的操作流程图。
本发明的实际应用领域及适用场景:
1.其它输入法的语音校对:由于本发明的打字同步发声特点,可以应用到其他输入法的边打字边语音校对工作中,特别是对于专业的五笔字形打字员,在快速盲打状态下,每打出一个字,就对应一个字的发音,可以实现辅助校对的功能。使用这一功能,并不需要使用者掌握本编码规则,所有输入法都可以挂上本编码和发音库。
2.失语者的语音交流:失语者通过一定的学习和训练,掌握本发明的操作方法,就可以通过敲击键盘,通过智能设备的发声器与普通人进行语音交流。
3.提高其他语音合成技术的自然度:目前市场上流行的语音合成技术(TTS),都是在现成文本的基础上,用人工智能根据语境来合成语音,虽然自然度有大幅提高,但个别字词发音不标准甚至是错误,虽然也做了部分人工干预功能,但也只是对同音、多音字加以区分,对错误发音加以纠正。对于因情感或者强调某个内容,而需要对部分语音变音的功能,现有的语音合成技术都无法实现。而本系统是一种完全人工干预的编码方式,可以作为这些语音合成技术的辅助干预功能,不但可以提高自然度,还可以充分表达作者的本意。
4.为常规的音频和视频节目配音:建立标准的语音库,为各种音频和音频节目配音和编辑,与传统的找播音员配音相比,采用这种编码配音方式最大的优势是编辑方便,只需要修改代码就行,不需要专业的编辑师在音频编辑软件操作,成本也会大大降低。
5.为多人广播剧配音(注:需要借助四码以上的编码方案):传统的广播剧一般都是在广播电台的录音棚里完成,需要专业的多名播音演员参与,后期还需要专业的录音、音频编辑师一起配合,才能完成,成本高、工期长。而采用本发明,一个人编码,在多个语音库切换,再结合一些变音插件,就可以完成一部广播剧的制作。
6.实现高难度的语音合成:诗朗诵和唱歌都不是常规的语音发音,采用本编码方案,使用四码以上的声码,可以更准确表现这些语境的音高、音长、音强等特点,从而实现最优的合成效果。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种语音合成方法,其特征在于,包括:
接收使用者输入的声母信息;
接收使用者输入的韵母信息;
接收使用者输入的声调信息以及音调的轻重长短信息;
将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息;
获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置;
在所述接收使用者输入的声母信息的步骤前,还包括:
在一输入设备上分别设置声母信息接收区、韵母信息接收区以及声调信息接收区;
当所述输入设备被第一次触发时,所述声母信息接收区获取声母信息;
当所述输入设备被第二次触发时,所述韵母信息接收区获取韵母信息;
当所述输入设备被第三次触发时,所述声调信息接收区获取声调信息;
其中,所述声调信息接收区包括句首区、句尾区、词首区、词尾区以及单字区;
所述句首区、句尾区、词首区、词尾区以及单字区分别具有声调的标记位信息;
所述将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息包括:
将所述声母中的声母和韵母信息中的韵母进行排序生成单字拼音,基于声调信息中的标记位信息以及音调的轻重长短信息对单字拼音进行匹配,生成声码信息。
2.根据权利要求1所述的语音合成方法,其特征在于,
在所述获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置的步骤后,还包括:
将所述语音信息基于一扬声装置进行播放。
3.根据权利要求1所述的语音合成方法,其特征在于,
将所述语音信息基于一扬声装置进行播放包括:
接收使用者选定的语音库;
将所述语音信息和语音库信息进行匹配生成播放信息,将播放信息发送至所述扬声装置处进行播放。
4.根据权利要求1所述的语音合成方法,其特征在于,
在接收使用者输入的声母信息后,还包括:
接收使用者输入的快捷信息,在一输入设备上分别设置声母信息接收区以及快捷信息接收区;
基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置;
接收使用者输入的快捷字确认信息后,获取与所述快捷字信息对应的语音信息,其中所述语音信息与所述快捷字信息预先对应设置。
5.根据权利要求4所述的语音合成方法,其特征在于,
在所述基于所述声母信息和快捷信息生成快捷字信息,其中所述声母信息和快捷信息与快捷字信息预先对应设置后,还包括:
再次接收使用者输入的快捷信息;
将再次接收到声母信息以及快捷信息,基于再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息生成快捷词组信息,其中所述再次接收到的声母信息以及快捷信息与前一次接收到的声母信息以及快捷信息与所述快捷词组信息预先对应设置;
接收使用者输入的快捷词组确认信息后,获取与所述快捷词组信息对应的语音信息。
6.根据权利要求1所述的语音合成方法,其特征在于,
在接收使用者输入的声母信息后,还包括:
获取与所述声母信息具有关联的语音信息,其中所述声母信息与具有关联的语音信息预先对应设置。
7.一种语音合成装置,其特征在于,包括:
在一输入设备上分别设置声母信息接收区、韵母信息接收区以及声调信息接收区;
当所述输入设备被第一次触发时,所述声母信息接收区获取声母信息;
当所述输入设备被第二次触发时,所述韵母信息接收区获取韵母信息;
当所述输入设备被第三次触发时,所述声调信息接收区获取声调信息;
其中,所述声调信息接收区包括句首区、句尾区、词首区、词尾区以及单字区;
所述句首区、句尾区、词首区、词尾区以及单字区分别具有声调的标记位信息;
声母信息接收模块,用于接收使用者输入的声母信息;
韵母信息接收模块,用于接收使用者输入的韵母信息;
声调及声调的轻重长短信息模块,用于接收使用者输入的声调信息以及音调的轻重长短信息;
声码信息生成模块,将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息;
语音信息生成模块,用于获取与所述声码信息对应的语音信息,其中所述声码信息和语音信息预先对应设置;
所述将所述声母信息、韵母信息、声调信息以及音调的轻重长短信息基于声码规则进行融合生成声码信息包括:
将所述声母中的声母和韵母信息中的韵母进行排序生成单字拼音,基于声调信息中的标记位信息以及音调的轻重长短信息对单字拼音进行匹配,生成声码信息。
8.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010880919.XA CN112002304B (zh) | 2020-08-27 | 2020-08-27 | 语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010880919.XA CN112002304B (zh) | 2020-08-27 | 2020-08-27 | 语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002304A CN112002304A (zh) | 2020-11-27 |
CN112002304B true CN112002304B (zh) | 2024-03-29 |
Family
ID=73471231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010880919.XA Active CN112002304B (zh) | 2020-08-27 | 2020-08-27 | 语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002304B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257221B (zh) * | 2021-07-06 | 2021-09-17 | 成都启英泰伦科技有限公司 | 一种基于前端设计的语音模型训练方法及语音合成方法 |
CN117672182B (zh) * | 2024-02-02 | 2024-06-07 | 江西拓世智能科技股份有限公司 | 一种基于人工智能的声音克隆方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149147A (zh) * | 1995-05-10 | 1997-05-07 | 关屹瀛 | 计算机音词调义汉字编码输入技术及键盘 |
CN1175726A (zh) * | 1997-08-20 | 1998-03-11 | 金太星 | 汉语的方块拼音字的电脑输入方法 |
CN1210295A (zh) * | 1997-05-27 | 1999-03-10 | 扶良文 | 中西文字编码智能输入方法及键盘 |
CN1213102A (zh) * | 1998-09-24 | 1999-04-07 | 陈云牧 | 汉语语素编码及其计算机键盘输入 |
CN1258037A (zh) * | 1999-12-13 | 2000-06-28 | 楼建芳 | 中文键盘及汉字语音码输入方法 |
KR20020021182A (ko) * | 2000-09-08 | 2002-03-20 | 류충구 | 성조 표현을 이용한 중국어 입력 시스템 및 그 방법 |
CN1384421A (zh) * | 2001-04-30 | 2002-12-11 | 刘东华 | 一种文字读音数字编码方法 |
WO2004010674A1 (en) * | 2002-07-18 | 2004-01-29 | Min-Kyum Kim | Apparatus and method for inputting alphabet characters |
WO2007104262A1 (fr) * | 2006-03-15 | 2007-09-20 | Chen Liang | Procede de saisie d'informations au moyen de lettres phonetiques chinoises |
CN101071337A (zh) * | 2007-06-02 | 2007-11-14 | 张先锋 | 一种拼音字母、数字的汉字输入法及键盘和屏幕的显示方法 |
CN101118463A (zh) * | 2006-08-04 | 2008-02-06 | 中国科学院软件研究所 | 用于数字键盘的汉语拼音输入方法 |
CN103054586A (zh) * | 2012-12-17 | 2013-04-24 | 清华大学 | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 |
CN103325372A (zh) * | 2013-05-20 | 2013-09-25 | 北京航空航天大学 | 基于改进声调核模型的汉语语音声调识别方法 |
CN108010516A (zh) * | 2017-12-04 | 2018-05-08 | 广州势必可赢网络科技有限公司 | 一种语义独立的语音情绪特征识别方法及装置 |
CN111124146A (zh) * | 2019-05-01 | 2020-05-08 | 王治阳 | 音素同声近位常用汉字码输入法 |
-
2020
- 2020-08-27 CN CN202010880919.XA patent/CN112002304B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149147A (zh) * | 1995-05-10 | 1997-05-07 | 关屹瀛 | 计算机音词调义汉字编码输入技术及键盘 |
CN1210295A (zh) * | 1997-05-27 | 1999-03-10 | 扶良文 | 中西文字编码智能输入方法及键盘 |
CN1175726A (zh) * | 1997-08-20 | 1998-03-11 | 金太星 | 汉语的方块拼音字的电脑输入方法 |
CN1213102A (zh) * | 1998-09-24 | 1999-04-07 | 陈云牧 | 汉语语素编码及其计算机键盘输入 |
CN1258037A (zh) * | 1999-12-13 | 2000-06-28 | 楼建芳 | 中文键盘及汉字语音码输入方法 |
KR20020021182A (ko) * | 2000-09-08 | 2002-03-20 | 류충구 | 성조 표현을 이용한 중국어 입력 시스템 및 그 방법 |
CN1384421A (zh) * | 2001-04-30 | 2002-12-11 | 刘东华 | 一种文字读音数字编码方法 |
WO2004010674A1 (en) * | 2002-07-18 | 2004-01-29 | Min-Kyum Kim | Apparatus and method for inputting alphabet characters |
WO2007104262A1 (fr) * | 2006-03-15 | 2007-09-20 | Chen Liang | Procede de saisie d'informations au moyen de lettres phonetiques chinoises |
CN101118463A (zh) * | 2006-08-04 | 2008-02-06 | 中国科学院软件研究所 | 用于数字键盘的汉语拼音输入方法 |
CN101071337A (zh) * | 2007-06-02 | 2007-11-14 | 张先锋 | 一种拼音字母、数字的汉字输入法及键盘和屏幕的显示方法 |
CN103054586A (zh) * | 2012-12-17 | 2013-04-24 | 清华大学 | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 |
CN103325372A (zh) * | 2013-05-20 | 2013-09-25 | 北京航空航天大学 | 基于改进声调核模型的汉语语音声调识别方法 |
CN108010516A (zh) * | 2017-12-04 | 2018-05-08 | 广州势必可赢网络科技有限公司 | 一种语义独立的语音情绪特征识别方法及装置 |
CN111124146A (zh) * | 2019-05-01 | 2020-05-08 | 王治阳 | 音素同声近位常用汉字码输入法 |
Also Published As
Publication number | Publication date |
---|---|
CN112002304A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022153569A (ja) | 多言語テキスト音声合成方法 | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
WO2017190674A1 (zh) | 一种音频数据的处理方法、装置及计算机存储介质 | |
JP2021196598A (ja) | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US6876967B2 (en) | Speech complementing apparatus, method and recording medium | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
JP6645063B2 (ja) | ターゲット文字列の推定 | |
CN112002304B (zh) | 语音合成方法及装置 | |
JP3723518B2 (ja) | 文字処理装置および方法 | |
JP2022133392A (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
CN113571037B (zh) | 一种汉语盲文语音合成方法及系统 | |
JP2005049655A (ja) | 文字データ修正装置、文字データ修正方法および文字データ修正プログラム | |
Liang et al. | A Taiwanese text-to-speech system with applications to language learning | |
JP2006337667A (ja) | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 | |
Yamamoto et al. | Livo: Sing a song with a vowel keyboard | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN112786002B (zh) | 一种语音合成方法、装置、设备及存储介质 | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
JP7165439B2 (ja) | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 | |
Jangtjik et al. | The Indonesian Language speech synthesizer based on the hidden Markov model | |
JP2002189490A (ja) | ピンイン音声入力の方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |