CN108305611A - 文本转语音的方法、装置、存储介质和计算机设备 - Google Patents
文本转语音的方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN108305611A CN108305611A CN201710502271.0A CN201710502271A CN108305611A CN 108305611 A CN108305611 A CN 108305611A CN 201710502271 A CN201710502271 A CN 201710502271A CN 108305611 A CN108305611 A CN 108305611A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- sounding content
- sounding
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 102
- 238000006243 chemical reaction Methods 0.000 claims abstract description 50
- 239000000284 extract Substances 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种文本转语音的方法、装置、存储介质和计算机设备,所述方法包括:获取待发声内容;在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;确定与当前检测到的语音转换标签相对应的语音表达方式;按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。本申请提供的方案提高了文本转语音的效率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本转语音的方法、装置、存储介质和计算机设备。
背景技术
随着计算机技术的发展,通过语音方式进行信息输出的应用越来越广泛,如新闻信息播报,有声小说朗读,语音导航等。伴随着生活水平的提高,人们对由文本转化得到的语音已经不仅仅满足于清晰度,还要求准确度高。
然而,传统的文本转语音的技术中,在意图将文本转换为语音时,为了确保文本转语音的准确度,需要操作人员通过人工监听反复进行手工调整,以获得准确且通顺流畅的语音。传统的这种文本转语音的方法,需要大量的人工操作,耗时长,导致文本转语音的效率低。
发明内容
基于此,有必要针对传统文本转语音的方法在通过人工操作确保文本转语音的准确度时效率低问题,提供一种文本转语音的方法、装置、存储介质和计算机设备。
一种文本转语音的方法,所述方法包括:
获取待发声内容;
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定与当前检测到的语音转换标签相对应的语音表达方式;
按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
一种文本转语音的装置,所述装置包括:
获取模块,用于获取待发声内容;
检测模块,用于在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定模块,用于确定与当前检测到的语音转换标签相对应的语音表达方式;
转换模块,用于按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行以下步骤:
获取待发声内容;
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定与当前检测到的语音转换标签相对应的语音表达方式;
按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
获取待发声内容;
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定与当前检测到的语音转换标签相对应的语音表达方式;
按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
上述文本转语音的方法、装置、存储介质和计算机设备,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,即可自动检测待发声文本中包括的语音转换标签,并在检测到语音转换标签时,根据当前检测到的语音转换标签相对应的语音表达方式,将由当前检测到的语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
附图说明
图1为一个实施例中文本转语音的应用环境图;
图2为一个实施例中计算机设备的内部结构示意图;
图3为一个实施例中文本转语音的方法的流程示意图;
图4为另一个实施例中文本转语音的方法的流程示意图;
图5为一个实施例中文本转语音的方法的时序图;
图6为一个实施例中待发声内容的示意图;
图7为一个实施例中文本转语音的装置的结构框图;
图8为另一个实施例中文本转语音的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中文本转语音的方法的应用环境图。如图1所示,该应用环境包括用户110、智能语音设备120、被控对象130和服务器140。智能语音设备120可以通过网络与被控对象120或服务器140建立连接。智能语音设备120可通过执行文本转语音的方法,将转换得到的语音输出与用户110进行交互,其中,用于进行文本转语音的待发声内容可以是智能语音设备120本地已存储的,也可以是从服务器140上获取的。智能语音设备120可在与用户110进行交互后,获取控制命令,操控被控对象130。其中,智能语音设备120是具备语音识别能力的电子设备,可以是手机、平板电脑、个人数字助理、穿戴式设备或者智能音箱等。被控对象130可以是智能空调和智能冰箱等智能家居设备。图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定。
图2为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是图1中的智能语音设备120。参照图2,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、声音采集装置和扬声器。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种文本转语音方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本转语音的方法。声音采集装置可用于采集用户语音数据,扬声器可用于将文本转语音得到的语音输出。该计算机设备还可通过网络与服务器连接,接收服务器发送的待发声文本以进行文本转语音处理。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种文本转语音的方法。本实施例主要以该方法应用于上述图1中的智能语音设备120来举例说明。参照图3,该文本转语音的方法具体包括如下步骤:
S302,获取待发声内容。
其中,待发声内容是包括需要发声的文本的数据。具体地,待发声内容,可以是原始待发声文本,比如“今天天气很好”;也可以是添加标记的待发声文本,比如“jin今tian天tian天qi气hen很hao好”;还可以是待发声的多媒体文件,比如有声读物、音视频文件和广播剧等;还可以是原始待发声文本、添加标记的待发声文本以及待发声的多媒体文件之间的任意组合。
在一个实施例中,待发声内容可以是已经经过自动语音识别标记后的数据,智能语音设备在获取到待发声内容时,即可直接将待发声内容中的文本转化为语音。待发声内容也可以是未经过自动语音识别标记后的原始数据,智能语音设备在获取到待发声内容时,需对获取到的待发声内容进行自动语音识别并标记,再将标记后的待发声内容中的文本转化为语音。
在一个实施例中,智能语音设备可通过网络与服务器建立连接,接收服务器下发的待发声内容,以获取到待发声内容。智能语音设备还可通过网络或者点对点连接方式与其他电子设备连接,接收其他电子设备发送的待发声内容,以获取到待发声内容。
在一个实施例中,智能语音设备还可事先设置对应不同主题的待发声内容,将待发声内容存储在本地的数据库、缓存或者文件中,在需要时从本地的数据库、缓存或者文件中获取,以获取到待发声内容。
S304,在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签。
其中,待发声内容中的文本是需要转换为语音的文本。待发声内容中的文本具有固定的顺序,在进行文本转换为语音时,应当按照文本具有的固定的顺序依次进行,以保证转换后得到的语音继承文本所要表达的语义。
语音转换标签是用于对将文本转换为语音时进行表达方式标记的数据。语音转换标签通常为多个字符组成的字符串,具有特定的格式,且符合统一的标签协议。在本实施例中,智能语音设备可利用语音转换标签的格式从待发声内容中检测出语音转换标签。
具体地,智能语音设备在获取到待发声内容后,即可按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音。智能语音设备在按待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,可逐字符遍历待发声内容所包括的字符,在检测到遍历的多个字符组成的字符串符合语音转换标签的格式时,判定该字符串为语音转换标签,并提取该字符串。
S306,确定与当前检测到的语音转换标签相对应的语音表达方式。
其中,语音表达方式,是用于计算机设备在进行文本转语音用以正确表达文本语义的依据。比如,对应多种读音的字符当前应当选择的发音,以及对应多种读法的字符当前应当选择的读法等。语音转换标签中可包括反映语音表达方式的关键字。在本实施例中,智能语音设备可利用关键字匹配的方式确定当前检测到的语音转换标签相对应的语音表达方式。
具体地,标签协议开发人员在设计标签协议时,可预设各语音表达方式相应的关键字,用以生成包括反映语音表达方式的关键字的语音转换标签。智能语音设备在检测到语音转换标签时,可从语音转换标签中提取关键字,将提取的关键字与预设的关键字匹配。在匹配成功时,将相匹配的预设的关键字对应的语音表达方式作为当前检测到的语音转换标签相对应的语音表达方式。
S308,按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
具体地,智能语音设备在检测到语音转换标签时,确定该语音转换标签所标记的文本,再按照确定的语音表达方式将该文本转换为语音。在本实施例中,智能语音设备可根据语音表达方式确定文本的音素组成与韵律特征,按照韵律特征以及音素组成合成相应的音频数据,从而得到文本转换为的语音。
其中,韵律特征是指发声体发出声音的基础音调与节奏。在表达不同的情感特征时,对应不同的韵律特征。比如,文本“我今天好开心”,该文本反映的情感特征为开心,相应的韵律特征可设置为基础音调较高与节奏较快。文本“我今天好伤心”,该文本反映的情感特征为伤心,相应的韵律特征可设置为基础音调较低与节奏较慢。
其中,音素是语音中的最小的单位。在进行文本转语音时,需确定文本的音素组成。比如,多音字“行”对应读音“hang”与“xing”,在文本“银行”中“行”的正确读音应为“hang”,故在文本中会添加语音转换标签用于标识字符“行”的读音。智能语音设备在检测到“银行”中添加的语音转换标签时,会按照语音转换标签中规定的读音来将“银行”转换为语音。
在本实施例中,语音转换标签用于对待发声内容中不能唯一确定语音表达方式的文本进行标记,以保证在文本转语音时转换过程的准确性。
上述文本转语音的方法,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,即可自动检测待发声文本中包括的语音转换标签,并在检测到语音转换标签时,根据当前检测到的语音转换标签相对应的语音表达方式,将由当前检测到的语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
在一个实施例中,该文本转语音的方法还包括:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
其中,默认的语音表达方式是智能语音设备预先设置的语音表达方式,用于在文本未通过语音转换标签进行标记时进行文本转语音的依据。
具体地,智能语音设备可从待发声内容中的首个字符开始,逐个字符进行遍历,在遍历时判断遍历至的字符是否为语音转换标签的组成部分。若是,智能语音设备则提取符合语音转换标签的格式的字符串,以得到语音转换标签,按照语音转化标签相对应的语音表达方式,将由当前检测到的语音转换标签所标记的文本转换为语音。若否,则按照默认的语音表达方式将当前遍历至的字符转换为语音。
在本实施例中,对于在待发声内容中能唯一确定语音表达方式的文本不需要进行标记,直接按照默认的语音表达方式转换为语音,减少了不必要语音转换标签添加和检测的工作量,从而提高了文本转语音的效率。
在一个实施例中,步骤S304包括:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,则当检测到待发声内容中的检测开始标签时,从待发声内容中由检测开始标签起的文本开始检测语音转换标签,直至检测到待发声内容中的检测结束标签时停止检测语音转换标签。
其中,检测开始标签、检测结束标签和语音转换标签符合统一的标签协议,检测开始标签表示从待发声内容中由检测开始标签起的文本开始添加了语音转换标签。检测开始标签表示从待发声内容中由检测结束标签起的文本不再添加语音转换标签。
在一个实施例中,智能语音设备可在获取到待发声内容时,查找该待发声内容中的检测开始标签和检测结束标签,确定查找到的检测开始标签在待发声内容中的第一位置,及查找到的检测结束标签在待发声内容中的第二位置。智能语音设备可再按照待发声内容中的文本的顺序,将待发声内容中位于第一位置之前的文本依次转换为语音,再开始检测待发声内容中的语音转换标签,将未通过语音转换标签标记的文本按照默认的语音表达方式转换为语音,将通过语音转换标签标记的文本,按照标记所采用的语音转换标签相应的语音表达方式转换为语音,直至将待发声内容中位于第二位置之前的文本依次转换为语音后,结束检测待发声内容中的语音转换标签。
在一个实施例中,智能语音设备可在获取到待发声内容时,从待发声内容中的首个字符开始,逐个字符进行遍历,在遍历时判断遍历至的字符是否为检测开始标签的组成部分。若是,智能语音设备则开始检测待发声内容中的语音转换标签,将未通过语音转换标签标记的文本按照默认的语音表达方式转换为语音,将通过语音转换标签标记的文本。智能语音设备可同时异步检测待发声内容中的检测结束标签,在检测到检测结束标签时,结束检测待发声内容中的语音转换标签。
比如,假设检测开始标签为<speak>,检测结束标签为</speak>。那么智能语音设备在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,则当检测到待发声内容中的<speak>时,从待发声内容中由<speak>起的文本开始检测语音转换标签,直至检测到待发声内容中的</speak>时停止检测语音转换标签。
在上述实施例中,通过检测开始标签与检测结束标签标记获取待发声内容中包括语音转换标签的文本,仅在该文本处进行语音转换标签,避免了在没有语音转换标签的文本中仍进行语音转换标签检测而导致的资源浪费和耗时,提高了文本转语音的效率。
在一个实施例中,步骤S306包括:提取当前检测到的语音转换标签中反映语音表达方式的文本读音。步骤S308包括:按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
其中,文本读音是文本的发音。在进行文本转语音时,需按照文本的发音将文本转换为语音。
具体地,智能语音设备在获取到语音转换标签后,可在语音转换标签中,提取预设的文本读音所在位置处的字符,得到语音转换标签中反映语音表达方式的文本读音,再按照该文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
比如,假设当前检测到的语音转换标签为<pronunce language='chinese'pr='háng'>行</pronunce>,该语音转换标签中反映语音表达方式的文本语音为“háng”,该语音转换标签所标记的文本为“行”。那么,智能语音设备可从该语音转换标签中提取文本读音“háng”,将“行”按照“háng”转换为语音。
在本实施例中,对包括多种读音的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的文本读音转换为语音,保证了文本转语音的准确率。
在一个实施例中,步骤S308包括:当确定的语音表达方式为整体认读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;当确定的语音表达方式为字符拼读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
其中,整体认读方式是将文本包括的字符作为整体进行发音的方式。比如,“1234”可读做“yi qian er bai san shi si”,此时是将“1234”作为完整数值发音。再比如“book”可读作此时是将“book”作为完整单词发音。字符拼读方式将文本包括的字符逐个进行发音的方式。比如,“1234”可读做“yi er sansi”,此时是将“1234”包括的字符逐个进行发音。再比如“book”可读作“b o ok”,此时是将“book”包括的字符逐个进行发音。
具体地,标签协议开发人员在设计标签协议时,可预设各语音表达方式相应的关键字,用以生成包括反映语音表达方式的关键字的语音转换标签。智能语音设备在检测到语音转换标签时,可从语音转换标签中提取关键字,将提取的关键字与预设的关键字匹配。在匹配成功时,将相匹配的预设的关键字对应的语音表达方式作为当前检测到的语音转换标签相对应的语音表达方式。
比如,关键字“Characters”表示按字母拼写读出。如:“Language”读作“l-a-n-g-u-a-g-e”。关键字“Number”表示按数字整体认读。如:“18000”读作“yi wan ba qian”。关键字“Digits”表示按字符逐一认读。如:“18000”读作“yiba ling ling ling”。
举例说明,假设当前检测到的语音转换标签为<say-as language='chinese'interpret-as='digits'>1234</Say-as>,该语音转换标签中反映语音表达方式的关键字为“digits”,该语音转换标签所标记的文本为“1234”。那么,智能语音设备可确定该语音转换标签相对应的语音表达方式为字符拼读方式,并按照字符拼读方式将“1234”以“yi ersan si”转换为语音。
在本实施例中,对对应多种读法的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的读法转换为语音,保证了文本转语音的准确率。
在另外的实施例中,语音表达方式还包括序号认读方式。具体地,关键字“Ordinal”表示按序号读。如:“1”读作“第一”等。语音表达方式还包括度量单位认读方式,具体地,关键字“Unit”表示按度量单位读。如:“cm”读作“li mi”等。
在一个实施例中,该文本转语音的方法还包括在转换过程中进行停顿的步骤,该步骤具体包括:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的停顿时长标签;在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
其中,停顿时长标签用于表示在文本转语音时进行停顿,以加入空白片段。停顿时长标签包括多种类型的停顿时长标签,不同类型的停顿时长标签对应不同的停顿时间。停顿时长标签与语义转换标签符合同一的标签协议,具有特定的格式。
具体地,智能语音设备在按待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,可逐字符遍历待发声内容所包括的字符,在检测到遍历的多个字符组成的字符串符合停顿时长标签的格式时,判定该字符串为停顿时长标签,并提取该字符串。智能语音设备可再确定提取的字符串相应的停顿时长,按照该停顿时长停顿。
比如,<s>这是一个语句。</s>表示一个语句,<s>表示语句开始,</s>表示语句结束,语句结束时对应语句结束停顿时长。<p>这是一个段落</p>表示一个段落,<p>表示段落开始,</p>表示段落结束,段落结束时对应段落结束停顿时长。
在一个实施例中,标签协议开发人员在设计标签协议时,可预设关键字来标识停顿时长标签。智能语音设备在按待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,可逐字符遍历待发声内容所包括的字符,在检测到遍历的多个字符组成的字符串与预设的关键字匹配时,判定该字符串为停顿时长标签,并提取该字符串。智能语音设备可再确定提取的字符串相应的停顿时长,按照该停顿时长停顿。
比如,预设的关键字为“break”,当前检测到<break length=‘50ms’>中包括“break”则判定该标签为停顿时长标签,停顿时长为“50ms”。其中,停顿时长可自定义设置。
在上述实施例中,通过在待发声内容中添加用于停顿的停顿时长标签,在需要在文本转语音时停顿时适当地进行停顿,使得转换得到的语音更自然。
在一个实施例中,在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿的步骤,包括:当检测到多个停顿时长标签、且多个停顿时长标签在待发声内容中位置连续时,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
具体地,智能语音设备在按待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,可逐字符遍历待发声内容所包括的字符,在检测到遍历的连续的多个字符组成的多个字符串均符合停顿时长标签的格式时,判定检测到多个在待发声内容中位置连续的停顿时长标签。智能语音设备可再确定检测到的各停顿时长标签相应的停顿时长,将各停顿时长进行比较,选取最长的停顿时长停顿。
举例说明,一个段落的结束也是该段落中最后一个语句的结束,当检测到</s>和</p>时,则按照段落结束停顿时长停顿。其中段落结束停顿时长长于语句结束停顿时长。
在其他实施例中,待发声内容还包括表示停顿的标点符号。比如句号或者换行符等。比如,段落结束停顿时长长于语句结束停顿时长,段落结束停顿时长长于句号停顿时长,语句结束停顿时长等于句号停顿时长。若同时出现</s>、</p>和句号,则停顿时长最长的一次,即停顿段落结束停顿时长。
在本实施例中,在检测到位置连续的停顿时长停顿,也就是需要进行连续多次的停顿时,仅选取停顿时长最长的停顿时长进行一次停顿,使得语音表达时更合理,转换得到的语音更自然。
在一个实施例中,该文本转语音的方法还包括:获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件;在按照待发声内容中的文本的顺序,将待发声内容中位于位置之前的文本依次转换为语音并输出后,播放音频文件。
其中,音频文件下载地址是用于进行音频文件下载的链接地址。音频文件下载地址可标识出网络中该音频文件下载地址所对应的音频文件的具体位置,根据音频文件下载地址可访问网络中的相应节点,以下载相应的音频文件。音频文件下载地址可以是URL(Uniform Resoure Locator:统一资源定位符)地址。音频文件下载地址有特殊的格式,利用音频文件下载地址的格式可提取音频文件下载地址。
具体地,智能语音设备可按照音频文件下载地址的格式从待发声内容中的提取音频文件下载地址,根据该音频文件下载地址从服务器或者网络中的相应节点下载音频文件,在按照待发声内容中的文本的顺序,将待发声内容中位于音频文件下载地址所在位置之前的文本依次转换为语音并输出后,播放音频文件。
在一个实施例中,智能语音设备可在获取到待发声内容时,即获取待发声内容中的音频文件下载地址,并按照音频文件下载地址下载音频文件后缓存,在在按照待发声内容中的文本的顺序,将待发声内容中位于音频文件下载地址所在位置之前的文本依次转换为语音并输出后,获取缓存中的音频文件播放。智能语音设备也可在将待发声内容中位于音频文件下载地址所在位置之前的文本依次转换为语音并输出时,按照音频文件下载地址下载音频文件并播放。
在一个实施例中,标签协议还可设置下载地址标签,并为下载地址标签设置相应的关键字,以在智能语音设备检测到该关键字时,判定检测到下载地址标签,并从下载地址标签中提取音频文件下载地址。
举例说明,关键字Audio用于表示下载地址标签。下载地址标签中<audiosrc="https://carfu.com/audio/carfu-welcome.mp3"/>包括音频文件下载地址“https://carfu.com/audio/carfu-welcome.mp3”。
在本实施例中,提供了在文本转语音时插入已有语音片段的方式,丰富了转换得到的语音内容。
在一个实施例中,步骤S302之前,该文本转语音的方法还包括:采集用户语音数据;获取对用户语音数据进行语义识别得到的语义识别结果。步骤S302包括:获取与语义识别结果匹配的待发声内容。该文本转语音的方法还包括:将转换得到的语音输出。
其中,用户语音数据是包含用户语音并可通过语音识别转化为文本的数据。
在一个实施例中,智能语音设备可在进入语音采集状态后,采集用户语音数据。其中,语音采集状态是智能语音设备所处的具备语音采集能力时的状态。采集用户语音数据,具体可以是调用声音采集装置采集环境中的声波,再根据人声特征,从采集到的声波中提取出用户语音数据。
在一个实施例中,智能语音设备可提供语音采集按钮,在检测到对该语音采集按钮的触发操作时,调用声音采集装置采集用户语音数据。在一个实施例中,智能语音设备也可以在开机后即进入语音采集状态。智能语音设备在处于低功耗状态时,也可以处于语音采集状态。低功耗状态是关闭部分功能以降低功耗的状态。
进一步地,智能语音设备在采集到用户语音数据后,可直接对采集到的用户语音数据转化为文本后进行语义识别,得到语义识别结果。也可将采集到的用户语音数据发送至服务器,获取服务器对接收到的用户语音数据进行语义识别后,返回的语义识别结果。更进一步地,智能语音设备再从本地查找与语义识别结果匹配的待发声内容。
其中,本地存储的待发声内容可以是智能语音设备事先根据预设的主题词设置的待发声内容,并将主题词与待发声内容对应存储在本地的数据库或者缓存中。智能语音设备在得到语义识别结果后,将语义识别结果与预设的主题词匹配,再将匹配成功的预设的主题词对应的待发声内容作为语义识别结果匹配的待发声内容。并在将待发声内容转换为语音后输出。
在上述实施例中,通过采集用户语音数据,对用户语音数据进行语义分析,获取与用户表达的意图匹配的待发声内容,再将待发声内容转换为语音输出,实时与用户进行交互,提高了交互效率与准确率。
如图4所示,在一个具体地的实施例中,该文本转语音的方法具体包括以下步骤:
S402,采集用户语音数据;获取对用户语音数据进行语义识别得到的语义识别结果。
S404,获取与语义识别结果匹配的待发声内容。
S406,在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的检测开始标签;若检测到检测开始标签,则跳转至步骤S408,若未检测到检测开始标签,则跳转至步骤S426。
S408,从待发声内容中由检测开始标签起的文本开始检测标签;若检测到语音转换标签,则跳转至步骤S410,若检测到停顿时长标签,则跳转至步骤S420若检测到检测结束标签,则调整到步骤S430;未检测到标签,则跳转至步骤S426。
S410,判断当前检测到的语音转换标签是否包括反映语音表达方式的文本读音;若是,则跳转至步骤S412;若否,则跳转至步骤S414。
S412,按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
S414,判断当前检测到的语音转换标签相应的语音表达方式为整体认读方式还是字符拼读方式;若为整体认读方式,则跳转至步骤S416;若为字符拼读方式,则跳转至步骤S418。
S416,将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音。
S418,将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
S420,判断是否检测到多于一个、且在待发声内容中位置连续的停顿时长标签;若是,则跳转到步骤S422;若否,则跳转到步骤S424。
S422,确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
S424,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
S426,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
S428,获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件。
S430,停止检测语音转换标签,并跳转到步骤S426。
S432,将转换得到的语音输出,并在按照待发声内容中的文本的顺序,将待发声内容中位于该位置之前的文本依次转换为的语音输出后,播放音频文件。
在本实施例中,在与用户进行交互中,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,根据语音转换标签相对应的语音表达方式,将由语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
其次,通过检测开始标签与检测结束标签标记获取待发声内容中包括语音转换标签的文本,仅在该文本处进行语音转换标签,避免了在没有语音转换标签的文本中仍进行语音转换标签检测而导致的资源浪费和耗时,提高了文本转语音的效率。
而且,通过在待发声内容中添加用于停顿的停顿时长标签,在需要在文本转语音时停顿时适当地进行停顿,使得转换得到的语音更自然。
其中,对对应多种读法的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的读法转换为语音,对包括多种读音的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的文本读音转换为语音,保证了文本转语音的准确率。
图5示出了一个实施例中文本转语音的方法的时序图。参考图5,用户通过语音与智能语音设备交互,以通过智能语音设备控制被控对象,该时序图具体包括以下步骤:
智能语音设备采集用户语音数据,获取对用户语音数据进行语义识别得到的语义识别结果,获取与语义识别结果匹配的待发声内容。
智能语音设备在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的检测开始标签。若检测到检测开始标签,则从待发声内容中由检测开始标签起的文本开始检测标签。
若智能语音设备检测到语音转换标签,则判断当前检测到的语音转换标签是否包括反映语音表达方式的文本读音。若当前检测到的语音转换标签包括反映语音表达方式的文本读音,则按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
若智能语音设备当前检测到的语音转换标签不包括反映语音表达方式的文本读音,则判断当前检测到的语音转换标签相应的语音表达方式为整体认读方式还是字符拼读方式。若为整体认读方式,则将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音,若为字符拼读方式,则将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
若智能语音设备检测到停顿时长标签,则判断是否检测到多于一个、且在待发声内容中位置连续的停顿时长标签。若是,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。若否,则按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
智能语音设备获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件。
智能语音设备检测待发声内容中的检测结束标签,在检测到检测结束标签时,停止检测语音转换标签。
智能语音设备在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
智能语音设备将转换得到的语音输出,并在按照待发声内容中的文本的顺序,将待发声内容中位于音频文件下载地址所在位置之前的文本依次转换为的语音输出后,播放音频文件。
智能语音设备生成与语义识别结果匹配的控制命令,控制被控对象。
图6示出了一个实施例中待发声内容的示意图。参考图6,该示意图包括文本601、检测开始标签602、语音转换标签603、停顿时长标签604和检测结束标签605。智能语音设备在检测到检测开始标签602后,从待发声内容中由检测开始标签602起的文本601开始检测语音转换标签603和/或停顿时长标签604,直至检测到待发声内容中的检测结束标签605时停止检测语音转换标签603和/或停顿时长标签604。在检测到语音转换标签603时,按照语音转换标签603相应的语音表达方式,将待发声内容中由当前检测到的语音转换标签603所标记的文本转换为语音。在检测到停顿时长标签604时,按照与当前检测到的停顿时长标签604相对应的停顿时长停顿。
如图7所示,在一个实施例中,提供了一种文本转语音的装置700,该装置700包括获取模块701、检测模块702、确定模块703以及转换模块704,其中:
获取模块701,用于获取待发声内容。
检测模块702,用于在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签。
确定模块703,用于确定与当前检测到的语音转换标签相对应的语音表达方式。
转换模块704,用于按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
上述文本转语音的装置,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,即可自动检测待发声文本中包括的语音转换标签,并在检测到语音转换标签时,根据当前检测到的语音转换标签相对应的语音表达方式,将由当前检测到的语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
在一个实施例中,转换模块704还用于在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
在本实施例中,对于在待发声内容中能唯一确定语音表达方式的文本不需要进行标记,直接按照默认的语音表达方式转换为语音,减少了不必要语音转换标签添加和检测的工作量,从而提高了文本转语音的效率。
在一个实施例中,检测模块702还用于在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,则当检测到待发声内容中的检测开始标签时,从待发声内容中由检测开始标签起的文本开始检测语音转换标签,直至检测到待发声内容中的检测结束标签时停止检测语音转换标签。
在本实施例中,通过检测开始标签与检测结束标签标记获取待发声内容中包括语音转换标签的文本,仅在该文本处进行语音转换标签,避免了在没有语音转换标签的文本中仍进行语音转换标签检测而导致的资源浪费和耗时,提高了文本转语音的效率。
在一个实施例中,确定模块703还用于提取当前检测到的语音转换标签中反映语音表达方式的文本读音。转换模块704还用于按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
在本实施例中,对包括多种读音的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的文本读音转换为语音,保证了文本转语音的准确率。
在一个实施例中,转换模块704还用于当确定的语音表达方式为整体认读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;当确定的语音表达方式为字符拼读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
在本实施例中,对对应多种读法的文本采用语音转换标签进行标注,以在转化此文本时,能够按照该文本正确的读法转换为语音,保证了文本转语音的准确率。
在一个实施例中,文本转语音的装置700还包括:
停顿模块705,用于在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的停顿时长标签;在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
在本实施例中,通过在待发声内容中添加用于停顿的停顿时长标签,在需要在文本转语音时停顿时适当地进行停顿,使得转换得到的语音更自然。
在一个实施例中,停顿模块705还用于当检测到多个停顿时长标签、且多个停顿时长标签在待发声内容中位置连续时,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
在本实施例中,在检测到位置连续的停顿时长停顿,也就是需要进行连续多次的停顿时,仅选取停顿时长最长的停顿时长进行一次停顿,使得语音表达时更合理,转换得到的语音更自然。
在一个实施例中,文本转语音的装置700还包括:
下载模块706,用于获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件。
输出模块707,用于在按照待发声内容中的文本的顺序,将待发声内容中位于位置之前的文本依次转换为语音并输出后,播放音频文件。
在本实施例中,提供了在文本转语音时插入已有语音片段的方式,丰富了转换得到的语音内容。
如图8所示,在一个实施例中,文本转语音的装置700还包括:停顿模块705、下载模块706、输出模块707和采集模块708。
停顿模块705,用于在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的停顿时长标签;当检测到多个停顿时长标签、且多个停顿时长标签在待发声内容中位置连续时,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
下载模块706,用于获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件。
采集模块708,用于采集用户语音数据;获取对用户语音数据进行语义识别得到的语义识别结果。
输出模块707,用于将转换得到的语音输出,并在按照待发声内容中的文本的顺序,将待发声内容中位于位置之前的文本依次转换为语音并输出后,播放音频文件。
获取模块701还用于获取与所述语义识别结果匹配的待发声内容。
在本实施例中,通过采集用户语音数据,对用户语音数据进行语义分析,获取与用户表达的意图匹配的待发声内容,再将待发声内容转换为语音输出,实时与用户进行交互,提高了交互效率与准确率。
在一个实施例中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取待发声内容;在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签;确定与当前检测到的语音转换标签相对应的语音表达方式;按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
在一个实施例中,在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签,包括:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,则当检测到待发声内容中的检测开始标签时,从待发声内容中由检测开始标签起的文本开始检测语音转换标签,直至检测到待发声内容中的检测结束标签时停止检测语音转换标签。
在一个实施例中,确定与当前检测到的语音转换标签相对应的语音表达方式,包括:提取当前检测到的语音转换标签中反映语音表达方式的文本读音。按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
在一个实施例中,按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:当确定的语音表达方式为整体认读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;当确定的语音表达方式为字符拼读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的停顿时长标签;在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
在一个实施例中,在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿,包括:当检测到多个停顿时长标签、且多个停顿时长标签在待发声内容中位置连续时,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件;在按照待发声内容中的文本的顺序,将待发声内容中位于位置之前的文本依次转换为语音并输出后,播放音频文件。
在一个实施例中,计算机可读指令还使得处理器执行获取待发声内容之前,执行以下步骤:采集用户语音数据;获取对用户语音数据进行语义识别得到的语义识别结果。获取待发声内容,包括:获取与语义识别结果匹配的待发声内容。计算机可读指令还使得处理器执行以下步骤:将转换得到的语音输出。
上述存储介质,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,即可自动检测待发声文本中包括的语音转换标签,并在检测到语音转换标签时,根据当前检测到的语音转换标签相对应的语音表达方式,将由当前检测到的语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取待发声内容;在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签;确定与当前检测到的语音转换标签相对应的语音表达方式;按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,将待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
在一个实施例中,在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的语音转换标签,包括:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,则当检测到待发声内容中的检测开始标签时,从待发声内容中由检测开始标签起的文本开始检测语音转换标签,直至检测到待发声内容中的检测结束标签时停止检测语音转换标签。
在一个实施例中,确定与当前检测到的语音转换标签相对应的语音表达方式,包括:提取当前检测到的语音转换标签中反映语音表达方式的文本读音。按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:按照文本读音,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
在一个实施例中,按照语音表达方式,将待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:当确定的语音表达方式为整体认读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;当确定的语音表达方式为字符拼读方式时,则将待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:在按照待发声内容中的文本的顺序,将待发声内容中的文本依次转换为语音时,检测待发声内容中的停顿时长标签;在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
在一个实施例中,在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿,包括:当检测到多个停顿时长标签、且多个停顿时长标签在待发声内容中位置连续时,则确定检测到的各停顿时长标签相应的停顿时长;按照确定的各停顿时长中最长的停顿时长停顿。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:获取待发声内容中的音频文件下载地址;确定音频文件下载地址在待发声内容中的位置;根据音频文件下载地址下载音频文件;在按照待发声内容中的文本的顺序,将待发声内容中位于位置之前的文本依次转换为语音并输出后,播放音频文件。
在一个实施例中,计算机可读指令还使得处理器执行获取待发声内容之前,执行以下步骤:采集用户语音数据;获取对用户语音数据进行语义识别得到的语义识别结果。获取待发声内容,包括:获取与语义识别结果匹配的待发声内容。计算机可读指令还使得处理器执行以下步骤:将转换得到的语音输出。
上述计算机设备,通过在待发声内容中添加反映文本真实语音表达方式的语音转换标签,在需要将待发声内容转换为语音时,即可自动检测待发声文本中包括的语音转换标签,并在检测到语音转换标签时,根据当前检测到的语音转换标签相对应的语音表达方式,将由当前检测到的语音转换标签标记的文本转换为语音,从而保证了转换得到的语音的准确度。这种自动根据语音转换标签进行文本转语音的方式,避免了人工监听手工调整而引入的工作量,极大地提高了文本转语音的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种文本转语音的方法,所述方法包括:
获取待发声内容;
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定与当前检测到的语音转换标签相对应的语音表达方式;
按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,将所述待发声内容中未由语音转换标签所标记的文本,按照默认的语音表达方式转换为语音。
3.根据权利要求1所述的方法,其特征在于,所述在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签,包括:
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,则
当检测到所述待发声内容中的检测开始标签时,从所述待发声内容中由所述检测开始标签起的文本开始检测语音转换标签,直至检测到所述待发声内容中的检测结束标签时停止检测语音转换标签。
4.根据权利要求1所述的方法,其特征在于,所述确定与当前检测到的语音转换标签相对应的语音表达方式,包括:
提取当前检测到的语音转换标签中反映语音表达方式的文本读音;
所述按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:
按照所述文本读音,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
5.根据权利要求1所述的方法,其特征在于,所述按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音,包括:
当确定的所述语音表达方式为整体认读方式时,则将所述待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;
当确定的所述语音表达方式为字符拼读方式时,则将所述待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的停顿时长标签;
在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待发声内容中的音频文件下载地址;
确定所述音频文件下载地址在所述待发声内容中的位置;
根据所述音频文件下载地址下载音频文件;
在按照所述待发声内容中的文本的顺序,将所述待发声内容中位于所述位置之前的文本依次转换为语音并输出后,播放所述音频文件。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述获取待发声内容之前,所述方法还包括:
采集用户语音数据;
获取对所述用户语音数据进行语义识别得到的语义识别结果;
所述获取待发声内容,包括:
获取与所述语义识别结果匹配的待发声内容;
所述方法还包括:
将转换得到的语音输出。
9.一种文本转语音的装置,所述装置包括:
获取模块,用于获取待发声内容;
检测模块,用于在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的语音转换标签;
确定模块,用于确定与当前检测到的语音转换标签相对应的语音表达方式;
转换模块,用于按照所述语音表达方式,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
10.根据权利要求9所述的装置,其特征在于,所述检测模块还用于在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,则当检测到所述待发声内容中的检测开始标签时,从所述待发声内容中由所述检测开始标签起的文本开始检测语音转换标签,直至检测到所述待发声内容中的检测结束标签时停止检测语音转换标签。
11.根据权利要求9所述的装置,其特征在于,所述确定模块还用于提取当前检测到的语音转换标签中反映语音表达方式的文本读音;
所述转换模块还用于按照所述文本读音,将所述待发声内容中由当前检测到的语音转换标签所标记的文本转换为语音。
12.根据权利要求9所述的装置,其特征在于,所述转换模块还用于当确定的所述语音表达方式为整体认读方式时,则将所述待发声内容中由当前检测到的语音转换标签所标记的文本作为整体转化为语音;当确定的所述语音表达方式为字符拼读方式时,则将所述待发声内容中由当前检测到的语音转换标签所标记的文本中的字符按照字符的顺序逐一转化为语音。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
停顿模块,用于在按照所述待发声内容中的文本的顺序,将所述待发声内容中的文本依次转换为语音时,检测所述待发声内容中的停顿时长标签;在检测到停顿时长标签时,按照与当前检测到的停顿时长标签相对应的停顿时长停顿。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710502271.0A CN108305611B (zh) | 2017-06-27 | 2017-06-27 | 文本转语音的方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710502271.0A CN108305611B (zh) | 2017-06-27 | 2017-06-27 | 文本转语音的方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108305611A true CN108305611A (zh) | 2018-07-20 |
CN108305611B CN108305611B (zh) | 2022-02-11 |
Family
ID=62872575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710502271.0A Active CN108305611B (zh) | 2017-06-27 | 2017-06-27 | 文本转语音的方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108305611B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032626A (zh) * | 2019-04-19 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 语音播报方法和装置 |
CN110264994A (zh) * | 2019-07-02 | 2019-09-20 | 珠海格力电器股份有限公司 | 一种语音合成方法、电子设备及智能家居系统 |
CN110797003A (zh) * | 2019-10-30 | 2020-02-14 | 合肥名阳信息技术有限公司 | 一种文本转语音显示字幕信息的方法 |
CN110853613A (zh) * | 2019-11-15 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN110970013A (zh) * | 2019-12-23 | 2020-04-07 | 出门问问信息科技有限公司 | 一种语音合成方法、装置以及计算机可读存储介质 |
CN112528000A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 虚拟机器人的生成方法、装置和电子设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282932A (zh) * | 1999-07-29 | 2001-02-07 | 松下电器产业株式会社 | 汉字分段装置 |
CN1643572A (zh) * | 2002-04-02 | 2005-07-20 | 佳能株式会社 | 用于语音合成的文本结构、语音合成方法、语音合成设备及其计算机程序 |
CN1731510A (zh) * | 2004-08-05 | 2006-02-08 | 摩托罗拉公司 | 混合语言文语转换 |
CN1788305A (zh) * | 2003-06-19 | 2006-06-14 | 国际商业机器公司 | 使用语义分析配置语音阅读器的系统和方法 |
US20080319755A1 (en) * | 2007-06-25 | 2008-12-25 | Fujitsu Limited | Text-to-speech apparatus |
CN101354840A (zh) * | 2008-09-08 | 2009-01-28 | 众智瑞德科技(北京)有限公司 | 一种对电子书进行语音阅读控制的方法及装置 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
WO2012076807A1 (fr) * | 2010-12-07 | 2012-06-14 | France Telecom | Procede et systeme de vocalisation d'un texte |
CN103295574A (zh) * | 2012-03-02 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 唱歌语音转换设备及其方法 |
CN104021784A (zh) * | 2014-06-19 | 2014-09-03 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
US20150279347A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Text-to-Speech for Digital Literature |
CN105095180A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 一种中文人名播报方法及装置 |
CN105139848A (zh) * | 2015-07-23 | 2015-12-09 | 小米科技有限责任公司 | 数据转换方法和装置 |
CN105702248A (zh) * | 2014-12-09 | 2016-06-22 | 苹果公司 | 在话音合成中消除同形异音词的歧义 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
-
2017
- 2017-06-27 CN CN201710502271.0A patent/CN108305611B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282932A (zh) * | 1999-07-29 | 2001-02-07 | 松下电器产业株式会社 | 汉字分段装置 |
CN1643572A (zh) * | 2002-04-02 | 2005-07-20 | 佳能株式会社 | 用于语音合成的文本结构、语音合成方法、语音合成设备及其计算机程序 |
CN1788305A (zh) * | 2003-06-19 | 2006-06-14 | 国际商业机器公司 | 使用语义分析配置语音阅读器的系统和方法 |
CN1731510A (zh) * | 2004-08-05 | 2006-02-08 | 摩托罗拉公司 | 混合语言文语转换 |
US20080319755A1 (en) * | 2007-06-25 | 2008-12-25 | Fujitsu Limited | Text-to-speech apparatus |
CN101354840A (zh) * | 2008-09-08 | 2009-01-28 | 众智瑞德科技(北京)有限公司 | 一种对电子书进行语音阅读控制的方法及装置 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
WO2012076807A1 (fr) * | 2010-12-07 | 2012-06-14 | France Telecom | Procede et systeme de vocalisation d'un texte |
CN103295574A (zh) * | 2012-03-02 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 唱歌语音转换设备及其方法 |
US20150279347A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Text-to-Speech for Digital Literature |
CN105095180A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 一种中文人名播报方法及装置 |
CN104021784A (zh) * | 2014-06-19 | 2014-09-03 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
CN105702248A (zh) * | 2014-12-09 | 2016-06-22 | 苹果公司 | 在话音合成中消除同形异音词的歧义 |
CN105139848A (zh) * | 2015-07-23 | 2015-12-09 | 小米科技有限责任公司 | 数据转换方法和装置 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
Non-Patent Citations (1)
Title |
---|
谭晖: "《低功耗蓝牙与智能硬件设计》", 31 January 2016, 北京航空航天大学出版社 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032626A (zh) * | 2019-04-19 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 语音播报方法和装置 |
CN110032626B (zh) * | 2019-04-19 | 2022-04-12 | 百度在线网络技术(北京)有限公司 | 语音播报方法和装置 |
CN110264994A (zh) * | 2019-07-02 | 2019-09-20 | 珠海格力电器股份有限公司 | 一种语音合成方法、电子设备及智能家居系统 |
CN110797003A (zh) * | 2019-10-30 | 2020-02-14 | 合肥名阳信息技术有限公司 | 一种文本转语音显示字幕信息的方法 |
CN110853613A (zh) * | 2019-11-15 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN110853613B (zh) * | 2019-11-15 | 2022-04-26 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN110970013A (zh) * | 2019-12-23 | 2020-04-07 | 出门问问信息科技有限公司 | 一种语音合成方法、装置以及计算机可读存储介质 |
CN112528000A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 虚拟机器人的生成方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108305611B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922924B2 (en) | Multilingual neural text-to-speech synthesis | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
CN108305611A (zh) | 文本转语音的方法、装置、存储介质和计算机设备 | |
CN105244022B (zh) | 音视频字幕生成方法及装置 | |
CN110675854B (zh) | 一种中英文混合语音识别方法及装置 | |
US20140303958A1 (en) | Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN113658577B (zh) | 一种语音合成模型训练方法、音频生成方法、设备及介质 | |
CN113380222B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
WO2021179910A1 (zh) | 文本语音的前端转换方法、装置、设备和存储介质 | |
JP2011504624A (ja) | 自動同時通訳システム | |
CN113593522A (zh) | 一种语音数据标注方法和装置 | |
WO2023221345A1 (zh) | 一种情感语音的合成方法及合成装置 | |
CN113393830A (zh) | 混合声学模型训练及歌词时间戳生成方法、设备、介质 | |
WO2023051155A1 (zh) | 语音处理和训练方法以及电子设备 | |
TWI574254B (zh) | 用於電子系統的語音合成方法及裝置 | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
CN117597728A (zh) | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN110851564B (zh) | 一种语音数据处理方法和相关装置 | |
CN116403561A (zh) | 一种有声书的制作方法、制作装置以及存储介质 | |
US20240339107A1 (en) | Data processing method, and storage medium and electronic device thereof | |
CN112242134A (zh) | 语音合成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |