Nothing Special   »   [go: up one dir, main page]

CN114023302A - 文本语音处理装置及文本读音处理方法 - Google Patents

文本语音处理装置及文本读音处理方法 Download PDF

Info

Publication number
CN114023302A
CN114023302A CN202210018912.6A CN202210018912A CN114023302A CN 114023302 A CN114023302 A CN 114023302A CN 202210018912 A CN202210018912 A CN 202210018912A CN 114023302 A CN114023302 A CN 114023302A
Authority
CN
China
Prior art keywords
text
pronunciation
option
speech
triggered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210018912.6A
Other languages
English (en)
Other versions
CN114023302B (zh
Inventor
刘丹
汤忠跃
杨静波
田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongdian Huisheng Technology Co ltd
Original Assignee
Beijing Zhongdian Huisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongdian Huisheng Technology Co ltd filed Critical Beijing Zhongdian Huisheng Technology Co ltd
Priority to CN202210018912.6A priority Critical patent/CN114023302B/zh
Publication of CN114023302A publication Critical patent/CN114023302A/zh
Application granted granted Critical
Publication of CN114023302B publication Critical patent/CN114023302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出了一种文本语音处理装置及文本读音处理方法,文本语音处理装置包括:文本显示区域和功能菜单,文本显示区域用于显示待语音处理的文本;功能菜单用于对文本的读音进行调整,功能菜单中包括第一功能选项,触发第一功能选项调出批量处理窗口,批量处理窗口中具有用于显示和选择待处理文字的所有读音的第一选择区域和用于输入读音第一输入区域,以及单一替换选项和全部替换选项,当触发全部替换选项时,对文本中所有相同的待处理文字的读音进行批量替换。本发明可以对文本中相同的多音字进行批量读音替换,且用户可以根据需求输入其他读音。另外,还可以通过不同程度的轻重音用来表现发言人的不同情感。

Description

文本语音处理装置及文本读音处理方法
技术领域
本发明涉及文字处理技术领域,尤其涉及一种文本语音处理装置及文本读音处理方法。
背景技术
语音合成软件支持将文本转化成音频文件,但是由于机器自动合成可能出现发音错误,如多音字或别名的发音与实际不符,此时就需要在文本中进行单独更改或全文批量更改来修正文字发音。
另外,目前语音合成软件支持将文本转为音频,但是目前的合成技术并不能自动根据文本进行情感发音。
发明内容
本发明要解决的技术问题是如何提高语音合成软件音频处理过程中文字读音的准确性和灵活性,提供一种文本语音处理装置及文本读音处理方法。
根据本发明实施例的文本语音处理装置,包括:
文本显示区域,用于显示待语音处理的文本;
功能菜单,用于对所述文本的读音进行调整,所述功能菜单中包括第一功能选项,触发所述第一功能选项调出批量处理窗口,所述批量处理窗口中具有第一选择区域和第一输入区域,所述第一选择区域用于显示和选择待处理文字的所有读音,所述第一输入区域用于输入读音;
所述批量处理窗口中还具有单一替换选项和全部替换选项,
当触发所述单一替换选项时,对所述文本中选中的待处理文字进行读音替换;当触发所述全部替换选项时,对所述文本中所有相同的待处理文字的读音进行批量替换。
根据本发明的一些实施例,在未对所述文本显示区域中的文字进行选取的情况下,触发所述第一功能选项时,调出全文查找选项,触发所述全文查找选项,调出所述批量处理窗口。
在本发明的一些实施例中,触发所述全文查找选项后,调出查找窗口,所述查找窗口具有查找输入框和搜索选项,在所述查找输入框输入待处理文字触发所述搜索选项,调出所述批量处理窗口。
根据本发明的一些实施例,在选取对所述文本中的文字的情况下,触发所述第一功能选项时,调出单一处理窗口,所述单一处理窗口具有第二选择区域和第二输入区域,所述第二选择区域用于显示和选择待处理文字的所有读音,所述第二输入区域用于输入读音。
在本发明的一些实施例中,所述单一处理窗口还包括:全文查找选项,触发所述全文查找选项,调出所述批量处理窗口。
根据本发明的一些实施例,所述批量处理窗口的显示位置可调节。
在本发明的一些实施例中,所述功能菜单还包括:第二功能选项,触发所述第二功能选项调出读音轻重调整列表,所述读音轻重调整列表包括多级语音轻重选项。
根据本发明的一些实施例,多级语音轻重选项包括“轻”、“较轻”、“正常”、“较重”及“重”。
在本发明的一些实施例中,在触发所述第二功能选项前,从待语音处理文本中选择待处理文字。
根据本发明实施例的文本的读音调整方法,所述方法采用如上所述的文本语音处理装置对文本的读音进行调整。
本发明提出的文本语音处理装置及文本读音处理方法具有如下优点:
本发明既可以对文本中的某个多音字进行单独的读音替换,也可以对文本中相同的多音字进行批量读音替换。而且,用户既可以方便、快捷地从第一选择区域选择该文字的读音;用户也可以根据自己需求输入其他读音。由此,提高了文本读音的准确性和灵活性。而且,用户可以通过不同程度的轻重音用来表现发言人的不同情感。
附图说明
图1为根据本发明实施例的文本语音处理装置;
图2为根据本发明实施例的文本语音处理装置在未对文本显示区域中的文字选取的情况下,触发第一功能选项时调出的全文查找选项示意图;
图3为根据本发明实施例的文本语音处理装置调出查找窗口时的示意图;
图4为根据本发明实施例的文本语音处理装置调出批量处理窗口时的示意图;
图5为根据本发明实施例的文本语音处理装置调出单一处理窗口时的示意图;
图6为根据本发明实施例的文本语音处理装置调出批量处理窗口时的示意图;
图7为根据本发明实施例的文本语音处理装置多音字语音修改后的示意图;
图8为根据本发明实施例的文本语音处理装置调出读音轻重调整列表时的示意图;
图9为根据本发明实施例的文本语音处理装置调整读音轻重后的示意图;
图10为根据本发明实施例的文本读音处理方法中多音字处理流程图。
文本语音处理装置100,
文本显示区域10,
功能菜单20,第一功能选项210,第二功能选项220,查找窗口222,批量处理窗口230,第一选择区域231,第一输入区域232,单一替换选项233,全部替换选项234,单一处理窗口240,第二选择区域241,第二输入区域242,读音轻重调整列表250。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
如图1所示,根据本发明实施例的文本语音处理装置100,包括:文本显示区域10和功能菜单20。
其中,文本显示区域10用于显示待语音处理的文本;
功能菜单20用于对文本的读音进行调整,功能菜单20中包括第一功能选项210,触发第一功能选项210调出批量处理窗口230,批量处理窗口230中具有第一选择区域231和第一输入区域232,第一选择区域231用于显示和选择待处理文字的所有读音,第一输入区域232用于输入读音;
需要说明的是,当文本中存在多音字时,第一选择区域231可以显示该多音字的所有读音,以供用户对该多音字选择对应的读音。例如,文本中具有多音字“行”时,第一选择区域231中会显示此文字的所有读音(hang2、hang4、heng2、xing2、xing4)。而且,本申请中的批量处理窗口230中还具有第一输入区域232,用于供用户输入其他读音。由此,用户可以根据实际需要输入对应的读音,以实现不同发音场景需求。例如,上文中的“行”,用户可以输入英文“can”的读音,当文本阅读到该文字时,替换为英文“can”的读音。用户也可以根据读音需求,输入文字对应的方言读音或其他读音,由此,提高了文本阅读的准确性和灵活性。
批量处理窗口230中还具有单一替换选项233和全部替换选项234,当触发单一替换选项233时,对文本中选中的待处理文字进行读音替换;当触发全部替换选项234时,对文本中所有相同的待处理文字的读音进行批量替换。
根据本发明实施例的文本语音处理装置100,既可以对文本中的某个多音字进行单独的读音替换,也可以对文本中相同的多音字进行批量读音替换。而且,用户既可以方便、快捷地从第一选择区域231选择该文字的读音;用户也可以根据自己需求输入其他读音。由此,提高了文本读音的准确性和灵活性。
根据本发明的一些实施例,结合图1和图2所示,在未对文本显示区域10中的文字进行选取的情况下,触发第一功能选项210时,调出全文查找选项,触发全文查找选项,调出批量处理窗口230。
在本发明的一些实施例中,结合图1和图3所示,触发全文查找选项后,调出查找窗口222,查找窗口222具有查找输入框和搜索选项,在查找输入框输入待处理文字触发搜索选项,调出批量处理窗口230。
例如,当在查找窗口222中输入“行”时,触发搜索选项,可以调出图4中所示的批量处理窗口230。
根据本发明的一些实施例,如图5所示,在选取对文本中的文字的情况下,触发第一功能选项210时,调出单一处理窗口240,单一处理窗口240具有第二选择区域241和第二输入区域242,第二选择区域241用于显示和选择待处理文字的所有读音,第二输入区域242用于输入读音。
在本发明的一些实施例中,单一处理窗口240还包括:全文查找选项,触发全文查找选项,调出批量处理窗口230。
根据本发明的一些实施例,批量处理窗口230的显示位置可调节。
在本发明的一些实施例中,如图8和图9所示,功能菜单20还包括:第二功能选项220,触发第二功能选项220调出读音轻重调整列表250,读音轻重调整列表250包括多级语音轻重选项。
根据本发明的一些实施例,如图8和图9所示,多级语音轻重选项包括“轻”、“较轻”、“正常”、“较重”及“重”。由此,用户可以根据发音需求,对文字读音的轻重进行调整,从而使文本阅读更加符合用户需求。
在本发明的一些实施例中,在触发第二功能选项220前,从待语音处理文本中选择待处理文字。
根据本发明实施例的文本的读音调整方法,方法采用如上的文本语音处理装置100对文本的读音进行调整。
下面参照附图以一个具体的实施例详细描述根据本发明的文本语音处理装置及文本读音处理方法。值得理解的是,下述描述仅是示例性描述,而不应理解为对本发明的具体限制。
目前有极少软件支持批量改变文字发音的功能,大多数软件只支持单次改变一个字的发音,本发明以更友好的操作解决批量改变文字发音的问题。
本发明第一方面是在语音合成软件文本修正页面,对合成有误的文字进行标记修正。流程图如图10所示。
结合图2所示,如未选中任何文字时点击“多音字”图标,下拉菜单中只有“全文查找”按钮,如图3所示,点击“全文查找”自动弹出批量替换读音的临时窗口。图4所示为在临时窗口中的搜索框内输入需要批量修改读音的文字,点击“搜索”按钮,临时窗口中出现此文字的所有发音和拼音输入框。文本中此相同文字都被选中,且第一个文字显示为特殊底色。
如图5所示,如用光标划选单个文字(如“行”)时,点击“多音字”图标,下拉菜单中会出现此文字的所有读音(hang2、hang4、heng2、xing2、xing4)、拼音输入框以及“全文查找”按钮。点击“全文查找”自动弹出图6中所示的批量替换读音的临时窗口。临时窗口中出现此文字的所有发音和拼音输入框。文本中此相同文字都被选中,且刚才选中的文字显示为特殊底色。
可以选择系统自动给出的读音,也可以在输入框中输入其他拼音,通过上下箭头按钮定位所要替换的文字,点击“替换”或“全部替换”完成拼音修正。如图7所示,完成操作后,点击临时窗口的关闭按钮关闭临时弹窗。
综上所述,本发明将批量更改读音功能藏在“多音字”功能中,不仅更符合用户的预期,还减少了界面上的工具图标数量、便于用户在简洁的界面上快速选择工具。
划选单个文字点击“多音字”-“全文查找”可自动搜索全文定位,减少了输入的时间,提高了用户的操作效率。
除文字本身多发音可供选择外,支持手动输入拼音,修正读音方式更灵活。
在查找全文文字时,操作框作为单独弹窗可以移动位置,不遮挡文本,使得操作更符合用户预期,便于使用。
本发明第二方面的内容是语音合成软件中通过调整文本的发音轻重,来体现句子含义和情感。
语音合成软件支持将文本转为音频,但是目前的合成技术并不能自动根据文本进行情感发音。在强调或喃喃细语时对文本进行标记,让机器按照标记的读法进行发音,来实现用户预想的朗读效果。
本发明是为了让机器合成语音可以通过人为的轻重读音设定,更全面、更丰富地表达情感,让机器合成语音达到更真实的效果。
如图8所示,选中需要修改读音轻重的文本,点击“重读”图标,在文本下方出现的下拉菜单中可以选择“轻”、“较轻”、“正常”、“较重”、“更重”。点选后,文本被标记、发音轻重被改变。
由此,对语音合成软件中文本可进行轻重音局部调整,且轻重音调整分为5个档位,分为“轻”、“较轻”、“正常”、“较重”、“更重”。不同程度的轻重音用来可以用来表现发言人的不同情感,比如通过轻读来表现心虚,通过重读来表现强调。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种文本语音处理装置,其特征在于,包括:
文本显示区域,用于显示待语音处理的文本;
功能菜单,用于对所述文本的读音进行调整,所述功能菜单中包括第一功能选项,触发所述第一功能选项调出批量处理窗口,所述批量处理窗口中具有第一选择区域和第一输入区域,所述第一选择区域用于显示和选择待处理文字的所有读音,所述第一输入区域用于输入读音;
所述批量处理窗口中还具有单一替换选项和全部替换选项,
当触发所述单一替换选项时,对所述文本中选中的待处理文字进行读音替换;当触发所述全部替换选项时,对所述文本中所有相同的待处理文字的读音进行批量替换。
2.根据权利要求1所述的文本语音处理装置,其特征在于,在未对所述文本显示区域中的文字进行选取的情况下,触发所述第一功能选项时,调出全文查找选项,触发所述全文查找选项,调出所述批量处理窗口。
3.根据权利要求2所述的文本语音处理装置,其特征在于,触发所述全文查找选项后,调出查找窗口,所述查找窗口具有查找输入框和搜索选项,在所述查找输入框输入待处理文字触发所述搜索选项,调出所述批量处理窗口。
4.根据权利要求1所述的文本语音处理装置,其特征在于,在选取对所述文本中的文字的情况下,触发所述第一功能选项时,调出单一处理窗口,所述单一处理窗口具有第二选择区域和第二输入区域,所述第二选择区域用于显示和选择待处理文字的所有读音,所述第二输入区域用于输入读音。
5.根据权利要求4所述的文本语音处理装置,其特征在于,所述单一处理窗口还包括:全文查找选项,触发所述全文查找选项,调出所述批量处理窗口。
6.根据权利要求1所述的文本语音处理装置,其特征在于,所述批量处理窗口的显示位置可调节。
7.根据权利要求1所述的文本语音处理装置,其特征在于,所述功能菜单还包括:第二功能选项,触发所述第二功能选项调出读音轻重调整列表,所述读音轻重调整列表包括多级语音轻重选项。
8.根据权利要求7所述的文本语音处理装置,其特征在于,多级语音轻重选项包括“轻”、“较轻”、“正常”、“较重”及“重”。
9.根据权利要求7所述的文本语音处理装置,其特征在于,在触发所述第二功能选项前,从待语音处理文本中选择待处理文字。
10.一种文本读音处理方法,其特征在于,所述方法采用如权利要求1-9中任一项所述的文本语音处理装置对文本的读音进行调整处理。
CN202210018912.6A 2022-01-10 2022-01-10 文本语音处理装置及文本读音处理方法 Active CN114023302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210018912.6A CN114023302B (zh) 2022-01-10 2022-01-10 文本语音处理装置及文本读音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210018912.6A CN114023302B (zh) 2022-01-10 2022-01-10 文本语音处理装置及文本读音处理方法

Publications (2)

Publication Number Publication Date
CN114023302A true CN114023302A (zh) 2022-02-08
CN114023302B CN114023302B (zh) 2022-05-24

Family

ID=80069706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210018912.6A Active CN114023302B (zh) 2022-01-10 2022-01-10 文本语音处理装置及文本读音处理方法

Country Status (1)

Country Link
CN (1) CN114023302B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863906A (zh) * 2022-07-07 2022-08-05 北京中电慧声科技有限公司 一种文本转语音处理的别名标记方法及装置
CN114863907A (zh) * 2022-07-07 2022-08-05 北京中电慧声科技有限公司 一种文本转语音处理的标记方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205600A (zh) * 2016-07-26 2016-12-07 浪潮电子信息产业股份有限公司 一种可交互中文文本语音合成系统及方法
CN110767209A (zh) * 2019-10-31 2020-02-07 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
CN112037756A (zh) * 2020-07-31 2020-12-04 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
WO2021212817A1 (zh) * 2020-04-20 2021-10-28 思必驰科技股份有限公司 用于语音对话的纠正方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205600A (zh) * 2016-07-26 2016-12-07 浪潮电子信息产业股份有限公司 一种可交互中文文本语音合成系统及方法
CN110767209A (zh) * 2019-10-31 2020-02-07 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
WO2021212817A1 (zh) * 2020-04-20 2021-10-28 思必驰科技股份有限公司 用于语音对话的纠正方法及装置
CN112037756A (zh) * 2020-07-31 2020-12-04 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863906A (zh) * 2022-07-07 2022-08-05 北京中电慧声科技有限公司 一种文本转语音处理的别名标记方法及装置
CN114863907A (zh) * 2022-07-07 2022-08-05 北京中电慧声科技有限公司 一种文本转语音处理的标记方法及装置
CN114863907B (zh) * 2022-07-07 2022-10-28 北京中电慧声科技有限公司 一种文本转语音处理的标记方法及装置

Also Published As

Publication number Publication date
CN114023302B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
US7277851B1 (en) Automated creation of phonemic variations
KR100378898B1 (ko) 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템
US7881928B2 (en) Enhanced linguistic transformation
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
CN114023302B (zh) 文本语音处理装置及文本读音处理方法
US20190362022A1 (en) Audio file labeling process for building datasets at scale
JP2007011358A (ja) 複合文字の音声認識によって支援された自動補完
JP2009186820A (ja) 音声処理システム、音声処理プログラム及び音声処理方法
CN112818089B (zh) 文本注音方法、电子设备及存储介质
Gibbon et al. Spoken language system and corpus design
CN108536656A (zh) 基于wfst的文本正则化方法及系统
US9679554B1 (en) Text-to-speech corpus development system
US20150293902A1 (en) Method for automated text processing and computer device for implementing said method
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
KR100769032B1 (ko) 텍스트 세그먼트의 합성된 발음을 위한 문자 대 사운드변환
JP2005049655A (ja) 文字データ修正装置、文字データ修正方法および文字データ修正プログラム
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2002297577A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及びプログラム
EP2755202A1 (en) Voice recognition device
JP2000003355A (ja) 中国語入力変換処理装置、同装置に用いられる新語登録方法及び記録媒体
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Dan

Inventor after: Tang Yuezhong

Inventor after: Yang Jingbo

Inventor after: Tian Ye

Inventor before: Liu Dan

Inventor before: Tang Zhongyue

Inventor before: Yang Jingbo

Inventor before: Tian Ye

GR01 Patent grant
GR01 Patent grant