Nothing Special   »   [go: up one dir, main page]

CN114863906B - 一种文本转语音处理的别名标记方法及装置 - Google Patents

一种文本转语音处理的别名标记方法及装置 Download PDF

Info

Publication number
CN114863906B
CN114863906B CN202210791135.9A CN202210791135A CN114863906B CN 114863906 B CN114863906 B CN 114863906B CN 202210791135 A CN202210791135 A CN 202210791135A CN 114863906 B CN114863906 B CN 114863906B
Authority
CN
China
Prior art keywords
alias
text
information
alias information
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210791135.9A
Other languages
English (en)
Other versions
CN114863906A (zh
Inventor
刘丹
汤跃忠
田野
杨静波
陈龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Research Institute Of China Electronics Technology Group Corp
Beijing Zhongdian Huisheng Technology Co ltd
Original Assignee
Third Research Institute Of China Electronics Technology Group Corp
Beijing Zhongdian Huisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Research Institute Of China Electronics Technology Group Corp, Beijing Zhongdian Huisheng Technology Co ltd filed Critical Third Research Institute Of China Electronics Technology Group Corp
Priority to CN202210791135.9A priority Critical patent/CN114863906B/zh
Publication of CN114863906A publication Critical patent/CN114863906A/zh
Application granted granted Critical
Publication of CN114863906B publication Critical patent/CN114863906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本转语音处理的别名标记方法及装置,包括:提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;在选中第一目标文本后,基于第一菜单项为第一目标文本添加别名信息,且别名信息以文本形式与第一目标文本进行关联呈现;在别名信息不符合要求的情况下,从别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为第二目标文本添加标记信息。本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。

Description

一种文本转语音处理的别名标记方法及装置
技术领域
本发明涉及语音转录技术领域,尤其涉及一种文本转语音处理的别名标记方法及装置。
背景技术
在文本合成语音音频软件中,可通过添加文本读音和韵律标记提高合成语音的准确率和自然度。
当原文本的部分内容与期望合成的语音发音内容不一致(口语、方言、通假字、缩略语等),同时又需要保留原文本不变的情况下,用户需要以标记的形式将期望的发音文字替换语音合成的内容。如果将发音替换文本直接在原文本上进行修改,容易造成文章中出现错别字或语意不通等情况,破坏合成文本的可读性、降低易懂度,降低语音合成效率,不利于原文本的保留追溯和二次语音合成使用。
现有技术中没有便于用户使用的别名添加方式,例如若通过标记的形式来添加别名,标记作为一个整体图形符号,显示标记的内容或类型,可以点击进行内容修改或删除,但该种方式不可对内容再次进行韵律或发音修正。
发明内容
本发明实施例提供一种文本转语音处理的别名标记方法及装置,用以提出一种别名添加方法,并且用户可以进一步对别名进行修正,解决了对文本标记的再处理问题。
本发明实施例提供一种文本转语音处理的别名标记方法,包括:
提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;
在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现;
在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息。
可选的,在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息。
可选的,在删除第一目标文本的情况下,同时删除关联的别名信息。
可选的,还包括:在文本转语音过程中,基于所述别名信息合成所需的音频。
可选的,所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。
可选的,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。
本发明实施例还提供一种文本转语音处理的别名标记装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例的别名标记方法的基本流程图;
图2为本申请实施例的标记菜单项;
图3为本申请实施例别名添加示例;
图4为本申请实施例对添加的别名信息进行二次标记的示例。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例的方案主要解决在添加别名的过程中,如果添加的别名在两个字以上,在替换后的文本中很容易出现机器合成语音韵律不自然的情况,而竞品软件的普遍标记设计方法均不能解决此问题。在保留标记图标的基础上,将别名的替换文本以文本形式加入原文本中,可以实现标记之内添加标记的功能。很好的解决了对文本标记的再处理问题。同时删除别名标记,可同时删除标记内的所有标记和内容。
具体的,本发明实施例提供一种文本转语音处理的别名标记方法,如图1所示,包括如下步骤:
在步骤S101中,提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项。具体的参见图2所示,在一些示例中,多个标记菜单项至少包括:停顿标记、连读标记、多音字标记、局部音量标记、重读标记、别名标记。
在步骤S102中,在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现。如图3所示,文本段“在中国境外的期货交易和衍生品交易及相关活动”其中“中国”的别名信息为“中华人民共和国”,本示例中将别名信息“中华人民共和国”以文本形式与第一目标文本“中国”关联显示。
在步骤S103中,在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息。在一些实施例中,所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。在一些实施例中,还包括:在文本转语音过程中,基于所述别名信息合成所需的音频。在语音合成过程中以别名信息“中华人民共和国”来合成所需的音频,而第一目标文本“中国”不发音。在一些示例中,在用户发现“中华人民共和国”存在发音或韵律问题的情况下,基于别名信息对应的文本添加标记,如图4所示,可以在别名信息的文本段“中华人民”添加停顿标记“无停顿”,来进一步改善语音合成的别名信息的韵律,提高语音合成的准确度。
本发明实施例的别名标记方法,通过将添加的别名信息以文本形式与第一目标文本进行关联呈现,由此可以进一步对别名信息进行二次修正,提高了别名标记的可用性和易用性,提高了文本合成语音的准确率。
在一些实施例中,在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息。进一步参考前述示例,本申请中别名信息是以文本形式与第一目标文本进行关联呈现,若用户发现程序提供的别名信息与期望的别名信息不一致的情况下,可以手动修改别名信息对应的文本信息,由此进一步提高别名添加的效率。
在一些实施例中,在删除第一目标文本的情况下,同时删除关联的别名信息。在一些应用场景中,例如若用户删除了第一目标文本,则对应的别名信息也同时删除,由此避免了用户需要二次操作去删除别名信息,提高了别名添加的效率。
在一些实施例中,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。通过不同的颜色进行呈现,能够便于用户审阅所添加的别名信息。
本申请的方案在保留别名标记图标的基础上,将别名的替换文本以文本形式加入原文本中,可以实现标记之内二次添加新的标记的功能。很好的解决了对文本标记的再处理问题。同时删除别名标记,可同时删除标记内的所有标记和内容,极大提高了文本添加别名的效率。
本发明实施例还提供一种文本转语音处理的别名标记装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本转语音处理的别名标记方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种文本转语音处理的别名标记方法,其特征在于,包括:
提供多个标记菜单项,每一个标记菜单项具有一类功能的标记工具,且多个标记菜单项至少包括用于别名标记的第一菜单项;
在选中第一目标文本后,基于所述第一菜单项为所述第一目标文本添加别名信息,且所述别名信息以文本形式与第一目标文本进行关联呈现;
在所述别名信息不符合要求的情况下,从所述别名信息对应的文本中选取第二目标文本,并基于选择的标记菜单项为所述第二目标文本添加标记信息;在所述别名信息不符合要求的情况下,直接修改所述别名信息对应的文本,以实现修改所述别名信息;
在文本转语音过程中,基于所述别名信息合成所需的音频;
所述别名信息对应的原文本不发音,且所述别名信息对应的原文本与所述别名信息同时显示。
2.如权利要求1所述的文本转语音处理的别名标记方法,其特征在于,在删除第一目标文本的情况下,同时删除关联的别名信息。
3.如权利要求1所述的文本转语音处理的别名标记方法,其特征在于,为所述第一目标文本添加的别名信息与第一目标文本以不同的颜色呈现。
4.一种文本转语音处理的别名标记装置,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本转语音处理的别名标记方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本转语音处理的别名标记方法的步骤。
CN202210791135.9A 2022-07-07 2022-07-07 一种文本转语音处理的别名标记方法及装置 Active CN114863906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210791135.9A CN114863906B (zh) 2022-07-07 2022-07-07 一种文本转语音处理的别名标记方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210791135.9A CN114863906B (zh) 2022-07-07 2022-07-07 一种文本转语音处理的别名标记方法及装置

Publications (2)

Publication Number Publication Date
CN114863906A CN114863906A (zh) 2022-08-05
CN114863906B true CN114863906B (zh) 2022-10-28

Family

ID=82625946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210791135.9A Active CN114863906B (zh) 2022-07-07 2022-07-07 一种文本转语音处理的别名标记方法及装置

Country Status (1)

Country Link
CN (1) CN114863906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092477A (zh) * 2023-03-30 2023-05-09 北京中电慧声科技有限公司 一种基于语音合成系统标记记忆库的音频生成方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947947B2 (en) * 2001-08-17 2005-09-20 Universal Business Matrix Llc Method for adding metadata to data
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6728116B2 (ja) * 2017-09-21 2020-07-22 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN108647197B (zh) * 2018-05-08 2021-07-27 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN111142667A (zh) * 2019-12-27 2020-05-12 苏州思必驰信息科技有限公司 一种基于文本标记生成语音的系统和方法
CN113539235B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 文本分析与语音合成方法、装置、系统及存储介质
CN114023302B (zh) * 2022-01-10 2022-05-24 北京中电慧声科技有限公司 文本语音处理装置及文本读音处理方法

Also Published As

Publication number Publication date
CN114863906A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
US5909667A (en) Method and apparatus for fast voice selection of error words in dictated text
US6401067B2 (en) System and method for providing user-directed constraints for handwriting recognition
EP1077403A1 (en) Document read-aloud device, read-aloud control method, and recording medium
US20080034044A1 (en) Electronic mail reader capable of adapting gender and emotions of sender
JP5874640B2 (ja) 音声変換装置、携帯電話端末、音声変換方法およびプログラム
US20040044523A1 (en) Information processing apparatus and method, and program
JP2000056792A (ja) ユ―ザの発話を認識するための方法及び装置
CN109933215B (zh) 汉字拼音转换方法、装置、终端及计算机可读存储介质
CN114863906B (zh) 一种文本转语音处理的别名标记方法及装置
US20170132216A1 (en) Systems and methods for facilitating software infterface localization between multiple languages
CN111211970B (zh) 一种邮件联系人添加方法、装置及存储介质
CN112805734A (zh) 用于唤起对发言禁止用语的注意的演讲辅助装置
CN113220738B (zh) 业务规则生成方法、装置、设备及存储介质
CN112101003A (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
JP4872323B2 (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
JPWO2015162737A1 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
JP2006236315A (ja) 符号化が利用できないときに外国語テキスト表示を実現する方法および装置
CN114863907B (zh) 一种文本转语音处理的标记方法及装置
CN108805958A (zh) 一种图片处理方法和装置
JPH0630107B2 (ja) 文書処理装置
WO2016151761A1 (ja) 音訳支援装置、音訳支援方法及び音訳支援プログラム
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
CN106250354A (zh) 处理文书的信息处理装置、信息处理方法以及程序
JP2010117529A (ja) 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム
KR20210007726A (ko) 인쇄물 주문 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant