CN114863906B - 一种文本转语音处理的别名标记方法及装置 - Google Patents
一种文本转语音处理的别名标记方法及装置 Download PDFInfo
- Publication number
- CN114863906B CN114863906B CN202210791135.9A CN202210791135A CN114863906B CN 114863906 B CN114863906 B CN 114863906B CN 202210791135 A CN202210791135 A CN 202210791135A CN 114863906 B CN114863906 B CN 114863906B
- Authority
- CN
- China
- Prior art keywords
- alias
- text
- information
- alias information
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 title claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 abstract description 12
- 230000002596 correlated effect Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012958 reprocessing Methods 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文本转语音处理的别名标记方法及装置,包括:提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;在选中第一目标文本后,基于第一菜单项为第一目标文本添加别名信息,且别名信息以文本形式与第一目标文本进行关联呈现;在别名信息不符合要求的情况下,从别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为第二目标文本添加标记信息。本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。
Description
技术领域
本发明涉及语音转录技术领域,尤其涉及一种文本转语音处理的别名标记方法及装置。
背景技术
在文本合成语音音频软件中,可通过添加文本读音和韵律标记提高合成语音的准确率和自然度。
当原文本的部分内容与期望合成的语音发音内容不一致(口语、方言、通假字、缩略语等),同时又需要保留原文本不变的情况下,用户需要以标记的形式将期望的发音文字替换语音合成的内容。如果将发音替换文本直接在原文本上进行修改,容易造成文章中出现错别字或语意不通等情况,破坏合成文本的可读性、降低易懂度,降低语音合成效率,不利于原文本的保留追溯和二次语音合成使用。
现有技术中没有便于用户使用的别名添加方式,例如若通过标记的形式来添加别名,标记作为一个整体图形符号,显示标记的内容或类型,可以点击进行内容修改或删除,但该种方式不可对内容再次进行韵律或发音修正。
发明内容
本发明实施例提供一种文本转语音处理的别名标记方法及装置,用以提出一种别名添加方法,并且用户可以进一步对别名进行修正,解决了对文本标记的再处理问题。
本发明实施例提供一种文本转语音处理的别名标记方法,包括:
提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;
在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现;
在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息。
可选的,在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息。
可选的,在删除第一目标文本的情况下,同时删除关联的别名信息。
可选的,还包括:在文本转语音过程中,基于所述别名信息合成所需的音频。
可选的,所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。
可选的,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。
本发明实施例还提供一种文本转语音处理的别名标记装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例的别名标记方法的基本流程图;
图2为本申请实施例的标记菜单项;
图3为本申请实施例别名添加示例;
图4为本申请实施例对添加的别名信息进行二次标记的示例。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例的方案主要解决在添加别名的过程中,如果添加的别名在两个字以上,在替换后的文本中很容易出现机器合成语音韵律不自然的情况,而竞品软件的普遍标记设计方法均不能解决此问题。在保留标记图标的基础上,将别名的替换文本以文本形式加入原文本中,可以实现标记之内添加标记的功能。很好的解决了对文本标记的再处理问题。同时删除别名标记,可同时删除标记内的所有标记和内容。
具体的,本发明实施例提供一种文本转语音处理的别名标记方法,如图1所示,包括如下步骤:
在步骤S101中,提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项。具体的参见图2所示,在一些示例中,多个标记菜单项至少包括:停顿标记、连读标记、多音字标记、局部音量标记、重读标记、别名标记。
在步骤S102中,在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现。如图3所示,文本段“在中国境外的期货交易和衍生品交易及相关活动”其中“中国”的别名信息为“中华人民共和国”,本示例中将别名信息“中华人民共和国”以文本形式与第一目标文本“中国”关联显示。
在步骤S103中,在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息。在一些实施例中,所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。在一些实施例中,还包括:在文本转语音过程中,基于所述别名信息合成所需的音频。在语音合成过程中以别名信息“中华人民共和国”来合成所需的音频,而第一目标文本“中国”不发音。在一些示例中,在用户发现“中华人民共和国”存在发音或韵律问题的情况下,基于别名信息对应的文本添加标记,如图4所示,可以在别名信息的文本段“中华人民”添加停顿标记“无停顿”,来进一步改善语音合成的别名信息的韵律,提高语音合成的准确度。
本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。
在一些实施例中,在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息。进一步参考前述示例,本申请中别名信息是以文本形式与第一目标文本进行关联呈现,若用户发现程序提供的别名信息与期望的别名信息不一致的情况下,可以手动修改别名信息对应的文本信息,由此进一步提高别名添加的效率。
在一些实施例中,在删除第一目标文本的情况下,同时删除关联的别名信息。在一些应用场景中,例如若用户删除了第一目标文本,则对应的别名信息也同时删除,由此避免了用户需要二次操作去删除别名信息,提高了别名添加的效率。
在一些实施例中,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。通过不同的颜色进行呈现,能够便于用户审阅所添加的别名信息。
本申请的方案在保留别名标记图标的基础上,将别名的替换文本以文本形式加入原文本中,可以实现标记之内二次添加新的标记的功能。很好的解决了对文本标记的再处理问题。同时删除别名标记,可同时删除标记内的所有标记和内容,极大提高了文本添加别名的效率。
本发明实施例还提供一种文本转语音处理的别名标记装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (5)
1.一种文本转语音处理的别名标记方法,其特征在于,包括:
提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;
在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现;
在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息;在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息;
在文本转语音过程中,基于所述别名信息合成所需的音频;
所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。
2.如权利要求1所述的文本转语音处理的别名标记方法,其特征在于,在删除第一目标文本的情况下,同时删除关联的别名信息。
3.如权利要求1所述的文本转语音处理的别名标记方法,其特征在于,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。
4.一种文本转语音处理的别名标记装置,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本转语音处理的别名标记方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本转语音处理的别名标记方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210791135.9A CN114863906B (zh) | 2022-07-07 | 2022-07-07 | 一种文本转语音处理的别名标记方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210791135.9A CN114863906B (zh) | 2022-07-07 | 2022-07-07 | 一种文本转语音处理的别名标记方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863906A CN114863906A (zh) | 2022-08-05 |
CN114863906B true CN114863906B (zh) | 2022-10-28 |
Family
ID=82625946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210791135.9A Active CN114863906B (zh) | 2022-07-07 | 2022-07-07 | 一种文本转语音处理的别名标记方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863906B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092477A (zh) * | 2023-03-30 | 2023-05-09 | 北京中电慧声科技有限公司 | 一种基于语音合成系统标记记忆库的音频生成方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947947B2 (en) * | 2001-08-17 | 2005-09-20 | Universal Business Matrix Llc | Method for adding metadata to data |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP6728116B2 (ja) * | 2017-09-21 | 2020-07-22 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
CN108647197B (zh) * | 2018-05-08 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及存储介质 |
CN111142667A (zh) * | 2019-12-27 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种基于文本标记生成语音的系统和方法 |
CN113539235B (zh) * | 2021-07-13 | 2024-02-13 | 标贝(青岛)科技有限公司 | 文本分析与语音合成方法、装置、系统及存储介质 |
CN114023302B (zh) * | 2022-01-10 | 2022-05-24 | 北京中电慧声科技有限公司 | 文本语音处理装置及文本读音处理方法 |
-
2022
- 2022-07-07 CN CN202210791135.9A patent/CN114863906B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114863906A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5909667A (en) | Method and apparatus for fast voice selection of error words in dictated text | |
US6401067B2 (en) | System and method for providing user-directed constraints for handwriting recognition | |
EP1077403A1 (en) | Document read-aloud device, read-aloud control method, and recording medium | |
US20080034044A1 (en) | Electronic mail reader capable of adapting gender and emotions of sender | |
JP5874640B2 (ja) | 音声変換装置、携帯電話端末、音声変換方法およびプログラム | |
US20040044523A1 (en) | Information processing apparatus and method, and program | |
JP2000056792A (ja) | ユ―ザの発話を認識するための方法及び装置 | |
CN109933215B (zh) | 汉字拼音转换方法、装置、终端及计算机可读存储介质 | |
CN114863906B (zh) | 一种文本转语音处理的别名标记方法及装置 | |
US20170132216A1 (en) | Systems and methods for facilitating software infterface localization between multiple languages | |
CN111211970B (zh) | 一种邮件联系人添加方法、装置及存储介质 | |
CN112805734A (zh) | 用于唤起对发言禁止用语的注意的演讲辅助装置 | |
CN113220738B (zh) | 业务规则生成方法、装置、设备及存储介质 | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
JP4872323B2 (ja) | Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体 | |
JPWO2015162737A1 (ja) | 音訳作業支援装置、音訳作業支援方法及びプログラム | |
JP2006236315A (ja) | 符号化が利用できないときに外国語テキスト表示を実現する方法および装置 | |
CN114863907B (zh) | 一种文本转语音处理的标记方法及装置 | |
CN108805958A (zh) | 一种图片处理方法和装置 | |
JPH0630107B2 (ja) | 文書処理装置 | |
WO2016151761A1 (ja) | 音訳支援装置、音訳支援方法及び音訳支援プログラム | |
CN113378526A (zh) | Pdf段落处理方法、装置、存储介质及设备 | |
CN106250354A (zh) | 处理文书的信息处理装置、信息处理方法以及程序 | |
JP2010117529A (ja) | 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム | |
KR20210007726A (ko) | 인쇄물 주문 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |