CN107393544A - 一种语音信号修复方法及移动终端 - Google Patents
一种语音信号修复方法及移动终端 Download PDFInfo
- Publication number
- CN107393544A CN107393544A CN201710468133.5A CN201710468133A CN107393544A CN 107393544 A CN107393544 A CN 107393544A CN 201710468133 A CN201710468133 A CN 201710468133A CN 107393544 A CN107393544 A CN 107393544A
- Authority
- CN
- China
- Prior art keywords
- word
- speech signal
- primary speech
- contact person
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000006854 communication Effects 0.000 claims description 13
- 238000003780 insertion Methods 0.000 claims description 11
- 230000037431 insertion Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 230000008901 benefit Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000008439 repair process Effects 0.000 claims description 8
- 235000012054 meals Nutrition 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 239000013589 supplement Substances 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000000151 deposition Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004549 pulsed laser deposition Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 description 1
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/27453—Directories allowing storage of additional subscriber data, e.g. metadata
- H04M1/27457—Management thereof, e.g. manual editing of data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种语音信号修复方法及移动终端,涉及移动终端技术领域。其中,所述方法包括:检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;将所述缺失文字转化为补偿语音信号;将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。从而可以解决通过现有方法修复语音信号之后,该语音信号所表示的语义仍然不完整的问题,从而提高了通话质量。
Description
技术领域
本发明涉及移动终端技术领域,特别是涉及一种语音信号修复方法及移动终端。
背景技术
随着终端技术的快速发展,人们对于终端的体验效果有着越来越高的要求,其中,通话功能作为手机等终端的基础功能,其稳定性也日益被人们所重视。无论是传统通话还是基于无线网络的VoIP(Voice over Internet Protocol,网络通话),终端通话质量的好坏会直接影响用户的体验,然而,在通过终端通话的过程中,由于网络不稳定或基站传输过程中的屏蔽等原因,会使通话出现断续的现象。
目前,修复断续语音信号的实现过程为:当终端检测到接收的语音信号存在断续时,将丢失语音帧之前的多个完好的语音帧进行时域拉伸,使拉伸后的语音帧的长度覆盖过丢失语音帧的位置,进而播放拉伸后的语音帧。该方法可以根据人类听到不完整波形时下意识的修复能力,对波形进行一定的改动,从而减轻通话断续对用户主观上的影响,使用户听起来像是语音没有断续一样。
发明人在应用上述在先技术的过程中发现,由于语音信号的部分缺失,会导致用户所听到的语句实际上是不完整的,然而,通过现有方法将语音帧拉伸后可以覆盖掉语音信号中缺失的部分,但是终端播放出的语句实际上还是不完整的,从而降低了语音信号所表示的语义的完整性,也降低了通话质量,影响用户体验。
发明内容
本发明提供一种语音信号修复方法及移动终端,以解决当前修复语音信号之后,该语音信号所表示的语义仍然不完整的问题。
依据本发明的第一方面,提供了一种语音信号修复方法,应用于移动终端,该方法包括:
检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
将所述缺失文字转化为补偿语音信号;
将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
依据本发明的第二方面,提供了一种移动终端,该移动终端包括:
第一转化模块,用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
确定模块,用于根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
第二转化模块,用于将所述缺失文字转化为补偿语音信号;
修复模块,用于将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
这样,在本发明实施例中,检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一中的一种语音信号修复方法的流程图;
图2示出了本发明实施例二中的一种语音信号修复方法的流程图;
图3示出了根据本发明实施例三中的一种移动终端的结构框图;
图4A示出了根据本发明实施例四中的一种移动终端的结构框图;
图4B示出了根据本发明实施例四中的一种第一确定子模块的结构框图;
图5示出了根据本发明实施例五中的一种移动终端的结构框图;
图6示出了根据本发明实施例六中的一种移动终端的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一的语音信号修复方法的流程图,具体可以包括如下步骤:
步骤110,检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字。
在本发明实施例中,当移动终端检测到接收的原始语音信号存在断续时,首先可以提取该原始语音信号的连续部分的声纹特征,然后计算提取的声纹特征符合各个预设声纹模型的概率,并将符合概率最大的预设声纹模型确定为提取的声纹特征所对应的预设声纹模型,进而从存储的预设声纹模型与文字之间的对应关系中,确定提取的声纹特征符合的预设声纹模型所对应的文字,从而实现将原始语音信号的连续部分转化为参考文字。
在实际应用中,对于原始语音信号的连续部分所提取的声纹特征可以为时域特征,比如短时平均能量、短时平均过零率、共振峰和基音周期等,当然,对于原始语音信号的连续部分所提取的声纹特征还可以为频域特征,比如梅尔频率倒谱系数、线性预测系数、线谱对参数和短时频谱等。另外,各个预设声纹模型可以事先利用多个声纹样本,通过维特比算法和前向-后向算法训练得到,并存储在移动终端中。其次,计算声纹特征符合各个预设声纹模型的概率可以通过基于混和高斯模型、词汇N-Gram(N元模型)、音素N-Gram等语言模型的算法实现。
步骤120,根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字。
在本发明实施例中,移动终端可以根据原始语音信号的连续部分所转化的参考文字,通过存储的词汇数据库,确定出包含原始语音信号的缺失部分对应的缺失文字,例如,原始语音信号的连续部分所转化的参考文字为“天气”,词汇数据库中存储的包含“天气”的词汇可以为“天气有点热”、“天气不太好”、“天气真冷”和“什么天气”,其中,各个词汇的出现概率可以通过统计得到,进而移动终端可以从“天气有点热”、“天气不太好”、“天气真冷”和“什么天气”中出现概率最大的“天气真冷”中的“真冷”确定为原始语音信号的缺失部分对应的缺失文字。
步骤130,将所述缺失文字转化为补偿语音信号。
在本发明实施例中,移动终端在确定原始语音信号的缺失部分对应的缺失文字之后,为了能够播放出这些文字,进而使用户听到,需要将缺失文字转化为补偿语音信号,也即是将缺失文字转化为一段语音信号。
步骤140,将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
在本发明实施例中,移动终端将补偿语音信号插入至原始语音信号的缺失部分的位置,从而实现对断续原始语音信号的修复,之后移动终端可以对修复后的原始语音信号进行消噪处理和信号放大处理,进而通过内置于移动终端的声学换能器件,将处理后的信号以机械振动的方式播放,从而使用户听到具有完整语义的语音。
在本发明实施例中,检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
实施例二
参照图2,示出了本发明实施例二的语音信号修复方法的流程图,具体可以包括如下步骤:
步骤210,开启移动终端的语音信号修复功能。
在本发明实施例中,移动终端的系统设置菜单中可以提供语音修复选项,用户首次使用移动终端或者首次拨打电话时,可以通过滑动或点击等操作触发该语音修复选项,从而开启移动终的语音信号修复功能,之后移动终端才能在通话过程中对语音信号进行修复。而该语音修复选项未被用户触发时,移动终端则不会在通话过程中对语音信号进行修复,从而可以提高用户的自主选择性,提升用户体验。
步骤220,检测到接收的原始语音信号存在断续时,判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人。
在本发明实施例中,在使用移动终端的用户进行通话的过程中,当对端的联系人讲话时,对端可以向该移动终端发送原始语音信号,该移动终端接收到原始语音信号之后,当检测到该原始语音信号存在断续时,可以确定该原始语音信号所属联系人,也即正在与移动终端用户进行通信的联系人,进而判断该联系人是否为常用联系人,当该联系人为常用联系人时,继续进行语音信号修复,当该联系人不为常用联系人时,则可以结束操作。
需要说明的是,移动终端的用户可以将一些联系人手动添加至常用联系人列表中,从而移动终端可以将该常用联系人列表中的联系人确定为常用联系人;或者,移动终端可以在平时统计该用户与各个联系人的通信次数,并将通信次数大于等于设定次数的联系人自动确定为常用联系人,其中,通信次数可以包括来电次数、去电次数、短信数量等等中的至少一者,本发明实施例对通信次数所包括的数据类型不作具体限定。比如,设定次数可以为15,该用户与当前联系人的来电次数和去电次数之和为23,大于设定次数15,移动终端可以确定当前联系人为常用联系人。
在本发明实施例中,当移动终端确定发送原始语音信号对应的联系人为常用联系人时,可以认为移动终端已获取足够多的用于修复该联系人的语音信号的数据,进而在对进行该联系人的原始语音信号进行修复时,可以提高修复的准确度。
步骤230,当发送所述原始语音信号对应的联系人为常用联系人时,将所述原始语音信号的连续部分转化为参考文字。
在本发明实施例中,当发送原始语音信号对应的联系人为常用联系人时,移动终端可以将原始语音信号的连续部分转化为参考文字,其中,将原始语音信号的连续部分转化为参考文字的步骤与实施例一中的步骤110相同,在此不再详述。
步骤240,从存储的词汇数据库中,确定出包含所述参考文字的多个词汇。
在本发明实施例中,本步骤的实现方式可以为:确定发送所述原始语音信号对应的联系人;从存储的词汇数据库中,查找所述联系人的子库;当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
例如,原始语音信号的连续部分所转化的参考文字可以为“回家”,当从词汇数据库中查找到当前联系人的子库时,从当前联系人的子库中确定出包含“回家”的多个词汇可以为“回家吗”、“回家吃饭”、“还没回家”和“我先回家”。
需要说明的是,移动终端平时可以通过录制和解析与移动终端用户进行过通话的各个联系人的语音,从而在存储的词汇数据库中为进行过通话的各个联系人建立子库,即建立各个联系人各自专属的词汇数据库,同时,移动终端还可以在词汇数据库中建立公共子库,以便于对未与移动终端用户进行过通话的联系人的原始语音信号进行修复,其中,该公共子库可以为移动终端的开发人员事先对大量的人所讲的词汇进行统计之后,预置于移动终端中的词汇库。
发送原始语音信号对应的联系人可能为之前与移动终端用户进行过通话的联系人,也可能为之前并未与移动终端用户进行过通话的联系人,然而,由于不同联系人的说话习惯不同,所以不同联系人所常用的词汇搭配也不尽相同,因此,移动终端当词汇数据库中存在当前联系人的子库时,从当前联系人的子库中确定出包含参考文字的多个词汇,当词汇数据库中不存在当前联系人的子库时,从公共子库中确定出包含参考文字的多个词汇,从而可以大大提高修复原始语音信号的准确性。
还需要说明的是,为了减小移动终端的负荷,移动终端还可以直接从公共子库中确定出包含参考文字的多个词汇,而无需事先从词汇数据库中查找是否存在当前联系人的子库,移动终端事先也无需为进行过通话的各个联系人建立专属的子库,从而可以节约移动终端的存储空间。当然,本发明实施例对移动终端是否建立以及查找当前联系人的子库不作限制。
步骤250,确定所述多个词汇中每个词汇的出现频率。
在本发明实施例中,移动终端可以在解析进行过通话的各个联系人的语音之后,实时更新各个联系人的子库,并自动统计出各个联系人的子库中每个词汇的出现频率,更新词汇与词汇的出现频率之间的对应关系,而公共子库中每个词汇的出现频率则可以是移动终端的开发人员事先统计,并将词汇与出现频率之间的对应关系预置于移动终端之中,因此,移动终端可以从词汇与词汇的出现频率之间的对应关系中,确定包含参考文字的各个词汇的出现频率。
例如,词汇与词汇的出现频率之间的对应关系可以为如下表1所示的对应关系,参考文字可以为“回家”,包含参考文字“回家”的多个词汇可以为“回家吗”、“回家吃饭”、“还没回家”和“我先回家”,由表1可知,这四个词汇对应的出现概率分别为28%、39%、18%和15%。
表1
词汇 | 出现频率 |
回家吗 | 28% |
回家吃饭 | 39% |
还没回家 | 18% |
我先回家 | 15% |
…… | …… |
需要说明的是,本发明实施例以上述表1所示的词汇与出现频率之间的对应关系为例进行说明,上述表1并不对本发明实施例构成限定。
步骤260,从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
在本发明实施例中,移动终端可以从包含参考文字的多个词汇中,确定出现频率最大的词汇,并将出现频率最大的词汇中除参考文字之外的文字,确定为原始语音信号的缺失部分对应的缺失文字,也即是确定出缺失的当前联系人最有可能说的话,从而可以将原始语音信号缺失部分的语义补充完整。
例如,参考文字可以为“回家”,步骤250中的“回家吗”、“回家吃饭”、“还没回家”和“我先回家”四个词汇中出现频率最大的词汇为“回家吃饭”,移动终端可以将“回家吃饭”中的“吃饭”确定为原始语音信号的缺失部分对应的缺失文字。
步骤270,将所述缺失文字转化为补偿语音信号。
在本发明实施例中,本步骤的实现方式可以为:从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号;当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
例如,录制对端联系人的所说的“吃饭”这一语音,并将“吃饭”语音作为该联系人的补偿语音信号存储在本地,建立“吃饭”补偿语音信号与“吃饭”文字的对应关系并进行存储,当原始语音信号的缺失部分对应的缺失文字为“吃饭”时,移动终端可以将存储的属于该联系人的“吃饭”文字所对应的“吃饭”补偿语音信号,确定为缺失文字“吃饭”所对应的补偿语音信号。
需要说明的是,由于移动终端可以在通话过程中录制对端联系人的语音并进行解析,进而可以将录制的语音作为该联系人的补偿语音信号存储在本地,并建立该补偿语音信号与文字之间的对应关系进行存储。然而,由于录制的对端联系人的语音数量有限,所以存储的原始语音信号所属联系人的补偿语音信号与文字之间的对应关系中,可能不存在缺失文字,此时,移动终端可以从属于发送该原始语音信号对应的联系人的设定补偿语音库中,选择出与缺失文字所对应的补偿语音信号。
其中,移动终端中可以预置多个设定补偿语音库,比如男高音补偿语音库、男中音补偿语音库、男低音补偿语音库、女高音补偿语音库、女中音补偿语音库、女低音补偿语音库等等,且移动终端可以事先为每个联系人对应一个与该联系人声音相似的设定补偿语音库,从而当存储的当前联系人的语音中没有想要的文字对应的语音,也即是无法用当前联系人的声音进行修复时,可以通过与当前联系人声音相似的语音修复原始语音信号,在实现将原始语音信号修复完整的同时,也可以使声音听起来过渡的较为自然。
步骤280,将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
此步骤与实施例一中的步骤140相同,在此不再详述。
在本发明实施例中,检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
实施例三
参照图3,示出了本发明实施例三的一种移动终端300的结构框图,具体可以包括:
第一转化模块301,用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
确定模块302,用于根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
第二转化模块303,用于将所述缺失文字转化为补偿语音信号;
修复模块304,用于将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
在本发明实施例中,检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
实施例四
参照图4A,示出了本发明实施例四的一种移动终端400的结构框图,具体可以包括:
第一转化模块401,用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
确定模块402,用于根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
第二转化模块403,用于将所述缺失文字转化为补偿语音信号;
修复模块404,用于将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
可选地,所述确定模块402,包括:
第一确定子模块4021,用于从存储的词汇数据库中,确定出包含所述参考文字的多个词汇;
第二确定子模块4022,用于确定所述多个词汇中每个词汇的出现频率;
第三确定子模块4023,用于从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
可选地,参照图4B,所述第一确定子模块4021,包括:
第一确定单元40211,用于确定发送所述原始语音信号对应的联系人;
查找单元40212,用于从存储的词汇数据库中,查找所述联系人的子库;
第二确定单元40213,用于当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;
第三确定单元40214,用于当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
可选地,所述第二转化模块403,包括:
第四确定子模块4031,用于从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号。
可选地,所述第二转化模块403,包括:
选择子模块4032,用于当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在与所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
可选地,所述移动终端400还包括:
判断模块405,用于判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人;
调用模块406,用于当发送所述原始语音信号对应的联系人为常用联系人时,调用所述第一转化模块401将所述原始语音信号的连续部分转化为参考文字的步骤。
在本发明实施例中,检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
实施例五
图5是本发明另一个实施例的移动终端的框图。图5所示的移动终端500包括:至少一个处理器501、存储器502、至少一个网络接口504和用户接口503。移动终端500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者柔性屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;将所述缺失文字转化为补偿语音信号;将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,所述处理器501在根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字时还用于:从存储的词汇数据库中,确定出包含所述参考文字的多个词汇;确定所述多个词汇中每个词汇的出现频率;从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
可选地,所述处理器501在从存储的词汇数据库中,确定出包含所述参考文字的多个词汇时,还用于:确定发送所述原始语音信号对应的联系人;从存储的词汇数据库中,查找所述联系人的子库;当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
可选地,所述处理器501在将所述缺失文字转化为补偿语音信号时,还用于:从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号。
可选地,所述处理器501在将所述缺失文字转化为补偿语音信号时,还用于:当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
可选地,所述处理器501在将所述原始语音信号的连续部分转化为参考文字之前,还用于:判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人;当发送所述原始语音信号对应的联系人为常用联系人时,执行所述将所述原始语音信号的连续部分转化为参考文字的步骤。
移动终端500能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。本发明实施例中,移动终端500可以在检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
实施例六
图6是本发明另一个实施例的移动终端的结构示意图。具体地,图6中的移动终端600可以为手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、或车载电脑等。
图6中的移动终端600包括射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、处理器660、音频电路670、无线局域网(Wireless Fidelity)模块680和电源690。
其中,输入单元630可用于接收用户输入的数字或字符信息,以及产生与移动终端600的用户设置以及功能控制有关的信号输入。具体地,本发明实施例中,该输入单元630可以包括触控面板631。触控面板631,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给该处理器660,并能接收处理器660发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,显示单元640可用于显示由用户输入的信息或提供给用户的信息以及移动终端600的各种菜单界面。显示单元640可包括显示面板641,可选的,可以采用LCD或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。
应注意,触控面板631可以覆盖显示面板641,形成触摸显示屏,当该触摸显示屏检测到在其上或附近的触摸操作后,传送给处理器660以确定触摸事件的类型,随后处理器660根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。
触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定,可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件,例如,设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。
其中处理器660是移动终端600的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在第一存储器621内的软件程序和/或模块,以及调用存储在第二存储器622内的数据,执行移动终端600的各种功能和处理数据,从而对移动终端600进行整体监控。可选的,处理器660可包括一个或多个处理单元。
在本发明实施例中,通过调用存储该第一存储器621内的软件程序和/或模块和/或该第二存储器622内的数据,处理器660用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;将所述缺失文字转化为补偿语音信号;将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
可选地,所述处理器660在根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字时还用于:从存储的词汇数据库中,确定出包含所述参考文字的多个词汇;确定所述多个词汇中每个词汇的出现频率;从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
可选地,所述处理器660在从存储的词汇数据库中,确定出包含所述参考文字的多个词汇时,还用于:确定发送所述原始语音信号对应的联系人;从存储的词汇数据库中,查找所述联系人的子库;当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
可选地,所述处理器660在将所述缺失文字转化为补偿语音信号时,还用于:从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号。
可选地,所述处理器660在将所述缺失文字转化为补偿语音信号时,还用于:当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在与所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
可选地,所述处理器660在将所述原始语音信号的连续部分转化为参考文字之前,还用于:判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人;当发送所述原始语音信号对应的联系人为常用联系人时,执行所述将所述原始语音信号的连续部分转化为参考文字的步骤。
可见,本发明实施例中,移动终端600可以在检测到接收的原始语音信号存在断续时,将原始语音信号的连续部分转化为参考文字,然后根据参考文字,也即是联系人说出且接收到的文字,从存储的词汇数据库中确定原始语音信号的缺失部分对应的缺失文字,也就是确定出联系人说出但未接收到的文字,从而可以将原始语音信号的语义补充完整,然后将缺失文字转化为补偿语音信号,进而将补偿语音信号插入至原始语音信号的缺失部分的位置,并播放插入补偿语音信号的原始语音信号,从而实现了断续语音信号的修复,并保证了语音信号所转化的文字的语义完整性,因此大大提高了通话质量,提升了用户的通话体验。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的语音信号修复方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频中背景音乐的识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种语音信号修复方法,应用于移动终端,其特征在于,所述方法包括:
检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
将所述缺失文字转化为补偿语音信号;
将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字,包括:
从存储的词汇数据库中,确定出包含所述参考文字的多个词汇;
确定所述多个词汇中每个词汇的出现频率;
从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
3.根据权利要求2所述的方法,其特征在于,所述从存储的词汇数据库中,确定出包含所述参考文字的多个词汇,包括:
确定发送所述原始语音信号对应的联系人;
从存储的词汇数据库中,查找所述联系人的子库;
当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;
当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
4.根据权利要求1所述的方法,其特征在于,所述将所述缺失文字转化为补偿语音信号,包括:
从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号。
5.根据权利要求1所述的方法,其特征在于,所述将所述缺失文字转化为补偿语音信号,包括:
当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
6.根据权利要求1所述的方法,其特征在于,所述将所述原始语音信号的连续部分转化为参考文字之前,还包括:
判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人;
当发送所述原始语音信号对应的联系人为常用联系人时,执行所述将所述原始语音信号的连续部分转化为参考文字的步骤。
7.一种移动终端,其特征在于,包括:
第一转化模块,用于检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;
确定模块,用于根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;
第二转化模块,用于将所述缺失文字转化为补偿语音信号;
修复模块,用于将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。
8.根据权利要求7所述的移动终端,其特征在于,所述确定模块,包括:
第一确定子模块,用于从存储的词汇数据库中,确定出包含所述参考文字的多个词汇;
第二确定子模块,用于确定所述多个词汇中每个词汇的出现频率;
第三确定子模块,用于从出现频率最大的词汇中确定缺失文字;所述缺失文字为除所述参考文字之外的文字。
9.根据权利要求8所述的移动终端,其特征在于,所述第一确定子模块,包括:
第一确定单元,用于确定发送所述原始语音信号对应的联系人;
查找单元,用于从存储的词汇数据库中,查找所述联系人的子库;
第二确定单元,用于当从所述词汇数据库中查找到所述联系人的子库时,从所述联系人的子库中确定出包含所述参考文字的多个词汇;
第三确定单元,用于当从所述词汇数据库中未查找到所述联系人的子库时,从所述词汇数据库中包括的公共子库中确定出包含所述参考文字的多个词汇。
10.根据权利要求7所述的移动终端,其特征在于,所述第二转化模块,包括:
第四确定子模块,用于从存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,确定所述缺失文字所对应的补偿语音信号。
11.根据权利要求7所述的移动终端,其特征在于,所述第二转化模块,包括:
选择子模块,用于当存储的发送原始语音信号对应的联系人的补偿语音信号与文字之间的对应关系中,不存在所述缺失文字时,从属于发送所述原始语音信号对应的联系人的设定补偿语音库中,选择出与所述缺失文字所对应的补偿语音信号。
12.根据权利要求7所述的移动终端,其特征在于,所述移动终端还包括:
判断模块,用于判断发送所述原始语音信号对应的联系人是否为常用联系人;所述常用联系人为存储的常用联系人列表中的联系人,或者通信次数大于等于设定次数的联系人;
调用模块,用于当发送所述原始语音信号对应的联系人为常用联系人时,调用所述第一转化模块将所述原始语音信号的连续部分转化为参考文字的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710468133.5A CN107393544B (zh) | 2017-06-19 | 2017-06-19 | 一种语音信号修复方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710468133.5A CN107393544B (zh) | 2017-06-19 | 2017-06-19 | 一种语音信号修复方法及移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107393544A true CN107393544A (zh) | 2017-11-24 |
CN107393544B CN107393544B (zh) | 2019-03-05 |
Family
ID=60333491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710468133.5A Active CN107393544B (zh) | 2017-06-19 | 2017-06-19 | 一种语音信号修复方法及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107393544B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831438A (zh) * | 2018-07-24 | 2018-11-16 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108965562A (zh) * | 2018-07-24 | 2018-12-07 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108959606A (zh) * | 2018-07-16 | 2018-12-07 | 商洛学院 | 一种英语单词查询系统 |
CN109003619A (zh) * | 2018-07-24 | 2018-12-14 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109041142A (zh) * | 2018-07-27 | 2018-12-18 | Oppo广东移动通信有限公司 | 主耳机切换方法及相关设备 |
CN109065017A (zh) * | 2018-07-24 | 2018-12-21 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109088985A (zh) * | 2018-07-24 | 2018-12-25 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109120790A (zh) * | 2018-08-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 通话控制方法、装置、存储介质及穿戴式设备 |
CN109616128A (zh) * | 2019-01-30 | 2019-04-12 | 努比亚技术有限公司 | 语音发送方法、装置和计算机可读存储介质 |
CN110033764A (zh) * | 2019-03-08 | 2019-07-19 | 中国科学院深圳先进技术研究院 | 无人机的语音控制方法、装置、系统及可读存储介质 |
CN110363189A (zh) * | 2018-04-09 | 2019-10-22 | 珠海金山办公软件有限公司 | 一种文档内容修复方法、装置、电子设备及可读存储介质 |
CN110913073A (zh) * | 2019-11-27 | 2020-03-24 | 深圳传音控股股份有限公司 | 一种语音处理方法及相关设备 |
CN112270919A (zh) * | 2020-09-14 | 2021-01-26 | 随锐科技集团股份有限公司 | 视频会议自动补音的方法、系统、存储介质及电子设备 |
WO2022169534A1 (en) * | 2021-02-03 | 2022-08-11 | Qualcomm Incorporated | Systems and methods of handling speech audio stream interruptions |
CN115148198A (zh) * | 2022-09-01 | 2022-10-04 | 中瑞科技术有限公司 | 一种语音数据识别的对讲系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009040790A2 (en) * | 2007-09-24 | 2009-04-02 | Robert Iakobashvili | Method and system for spell checking |
CN101894565A (zh) * | 2009-05-19 | 2010-11-24 | 华为技术有限公司 | 语音信号修复方法和装置 |
CN105336326A (zh) * | 2011-09-28 | 2016-02-17 | 苹果公司 | 用于使用上下文信息的语音识别修复的方法和系统 |
CN105409256A (zh) * | 2013-07-23 | 2016-03-16 | 科科通信公司 | 用于通过ip电话网络的即按即说语音通信的系统和方法 |
CN105469801A (zh) * | 2014-09-11 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
-
2017
- 2017-06-19 CN CN201710468133.5A patent/CN107393544B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009040790A2 (en) * | 2007-09-24 | 2009-04-02 | Robert Iakobashvili | Method and system for spell checking |
CN101894565A (zh) * | 2009-05-19 | 2010-11-24 | 华为技术有限公司 | 语音信号修复方法和装置 |
CN105336326A (zh) * | 2011-09-28 | 2016-02-17 | 苹果公司 | 用于使用上下文信息的语音识别修复的方法和系统 |
CN105409256A (zh) * | 2013-07-23 | 2016-03-16 | 科科通信公司 | 用于通过ip电话网络的即按即说语音通信的系统和方法 |
CN105469801A (zh) * | 2014-09-11 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363189A (zh) * | 2018-04-09 | 2019-10-22 | 珠海金山办公软件有限公司 | 一种文档内容修复方法、装置、电子设备及可读存储介质 |
CN108959606A (zh) * | 2018-07-16 | 2018-12-07 | 商洛学院 | 一种英语单词查询系统 |
CN109065017A (zh) * | 2018-07-24 | 2018-12-21 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108965562A (zh) * | 2018-07-24 | 2018-12-07 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109003619A (zh) * | 2018-07-24 | 2018-12-14 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108831438A (zh) * | 2018-07-24 | 2018-11-16 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109088985A (zh) * | 2018-07-24 | 2018-12-25 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109065017B (zh) * | 2018-07-24 | 2021-04-16 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108965562B (zh) * | 2018-07-24 | 2021-04-13 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN108831438B (zh) * | 2018-07-24 | 2021-01-08 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及装置、电子装置和计算机可读存储介质 |
US11303989B2 (en) | 2018-07-27 | 2022-04-12 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Earphone-switching method and mobile terminal |
WO2020019847A1 (zh) * | 2018-07-27 | 2020-01-30 | Oppo广东移动通信有限公司 | 主耳机切换方法及相关设备 |
CN109041142A (zh) * | 2018-07-27 | 2018-12-18 | Oppo广东移动通信有限公司 | 主耳机切换方法及相关设备 |
CN109120790B (zh) * | 2018-08-30 | 2021-01-15 | Oppo广东移动通信有限公司 | 通话控制方法、装置、存储介质及穿戴式设备 |
CN109120790A (zh) * | 2018-08-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 通话控制方法、装置、存储介质及穿戴式设备 |
CN109616128A (zh) * | 2019-01-30 | 2019-04-12 | 努比亚技术有限公司 | 语音发送方法、装置和计算机可读存储介质 |
CN110033764A (zh) * | 2019-03-08 | 2019-07-19 | 中国科学院深圳先进技术研究院 | 无人机的语音控制方法、装置、系统及可读存储介质 |
CN110913073A (zh) * | 2019-11-27 | 2020-03-24 | 深圳传音控股股份有限公司 | 一种语音处理方法及相关设备 |
CN112270919A (zh) * | 2020-09-14 | 2021-01-26 | 随锐科技集团股份有限公司 | 视频会议自动补音的方法、系统、存储介质及电子设备 |
CN112270919B (zh) * | 2020-09-14 | 2022-11-22 | 深圳随锐视听科技有限公司 | 视频会议自动补音的方法、系统、存储介质及电子设备 |
WO2022169534A1 (en) * | 2021-02-03 | 2022-08-11 | Qualcomm Incorporated | Systems and methods of handling speech audio stream interruptions |
US11580954B2 (en) | 2021-02-03 | 2023-02-14 | Qualcomm Incorporated | Systems and methods of handling speech audio stream interruptions |
CN115148198A (zh) * | 2022-09-01 | 2022-10-04 | 中瑞科技术有限公司 | 一种语音数据识别的对讲系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107393544B (zh) | 2019-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107393544B (zh) | 一种语音信号修复方法及移动终端 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
US9946511B2 (en) | Method for user training of information dialogue system | |
CN106598939A (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
CN106095243B (zh) | 一种复制粘贴的方法及移动终端 | |
US20080221883A1 (en) | Hands free contact database information entry at a communication device | |
US20060293890A1 (en) | Speech recognition assisted autocompletion of composite characters | |
US20020077833A1 (en) | Transcription and reporting system | |
US10275522B1 (en) | Speech recognition for providing assistance during customer interaction | |
CN110223695A (zh) | 一种任务创建方法及移动终端 | |
CN101276245A (zh) | 一种输入过程中编码纠错的提示方法和系统 | |
Kamm et al. | The role of speech processing in human–computer intelligent communication | |
EP2691877A2 (en) | Conversational dialog learning and correction | |
CN108052498A (zh) | 语音输入的字词级纠正 | |
CN109753560B (zh) | 智能问答系统的信息处理方法及装置 | |
CN103578471A (zh) | 语音辨识方法及其电子装置 | |
CN107507621A (zh) | 一种噪声抑制方法及移动终端 | |
CN110532354A (zh) | 内容的检索方法及装置 | |
WO2021169485A1 (zh) | 一种对话生成方法、装置及计算机设备 | |
CA3115974C (en) | Presentation assistance device for calling attention to words that are forbidden to speak | |
CN106453887A (zh) | 一种信息处理方法及移动终端 | |
US20180211669A1 (en) | Speech Recognition Based on Context and Multiple Recognition Engines | |
CN107562404A (zh) | 一种音频播放方法、移动终端及计算机可读存储介质 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 | |
CN111883173B (zh) | 基于神经网络的音频丢包修复方法、设备和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |