CN106782507B - 语音分割的方法及装置 - Google Patents
语音分割的方法及装置 Download PDFInfo
- Publication number
- CN106782507B CN106782507B CN201611176791.9A CN201611176791A CN106782507B CN 106782507 B CN106782507 B CN 106782507B CN 201611176791 A CN201611176791 A CN 201611176791A CN 106782507 B CN106782507 B CN 106782507B
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- sound
- mark
- mixing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000000306 recurrent effect Effects 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000000638 solvent extraction Methods 0.000 claims abstract description 21
- 230000005540 biological transmission Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 22
- 230000001755 vocal effect Effects 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 8
- 230000007935 neutral effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种语音分割的方法及装置,所述语音分割的方法包括:自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。本发明能够有效提高语音分割的精度,特别是对于对话交替频繁、以及有交叠的语音,语音分割的效果较好。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音分割的方法及装置。
背景技术
目前,呼叫中心接收到的语音很多都混杂有多人的语音,这时需要先对语音进行语音分割(speaker diarization),才能进一步对目标语音进行语音分析。语音分割是指:在语音处理领域,当多个说话人的语音被合并录在一个声道中时,把信号中每个说话人的语音分别进行提取。传统的语音分割技术是基于全局背景模型和高斯混合模型进行分割,由于技术的限制,这种语音分割的方法分割的精度并不高,特别是对于对话交替频繁、以及有交叠的对话分割效果差。
发明内容
本发明的目的在于提供一种语音分割的方法及装置,旨在有效提高语音分割的精度。
为实现上述目的,本发明提供一种语音分割的方法,其特征在于,所述语音分割的方法包括:
S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。
优选地,所述步骤S1包括:
S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;
S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;
S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。
优选地,所述步骤S13包括:
对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。
优选地,所述步骤S2包括:
S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
优选地,所述步骤S2之后还包括:
基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
为实现上述目的,本发明还提供一种语音分割的装置,所述语音分割的装置包括:
分割模块,用于在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
调整模块,用于利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。
优选地,所述分割模块包括:
去除单元,用于获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
分帧单元,用于对所述长语音段进行分帧,以提取每一长语音段的声学特征;
切分单元,用于对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;
聚类单元,用于利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。
优选地,所述切分单元具体用于对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。
优选地,所述调整模块包括:
建模单元,用于利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
计算单元,用于基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
第一调整单元,用于基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
第二调整单元,用于基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
迭代单元,用于迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
优选地,所述语音分割的装置还包括:反馈模块,用于基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
本发明的有益效果是:本发明首先将混合语音进行分割,分割成多个短语音段,每一短语音段对应标识一个说话人,利用时间递归神经网络对各短语音段建立声纹模型,由于利用时间递归神经网络建立的声纹模型能够关联说话人跨时间点的声音信息,因此基于该声纹模型实现对短语音段的分割边界的调整,能够有效提高语音分割的精度,特别是对于对话交替频繁、以及有交叠的语音,语音分割的效果较好。
附图说明
图1为本发明语音分割的方法一实施例的流程示意图;
图2为图1所示步骤S1的细化流程示意图;
图3为图1所示步骤S2的细化流程示意图;
图4为本发明语音分割的装置一实施例的结构示意图;
图5为图4所示分割模块的结构示意图;
图6为图4所示调整模块的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,图1为本发明语音分割的方法一实施例的流程示意图,该语音分割的方法包括以下步骤:
步骤S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
本实施例中可应用于呼叫中心的自动应答系统中,例如保险呼叫中心的自动应答系统、各种客服呼叫中心的自动应答系统等等。自动应答系统接收到终端发送的原始的混合语音,该混合语音中混合有多种不同的声源产生的声音,例如有多人说话混合的声音,多人说话的声音与其他噪声混合的声音等等。
本实施例可以利用预定的方法将混合语音分割成多个短语音段,例如可以利用高斯混合模型(Gaussian Mixture Model,GMM)将混合语音分割成多个短语音段,当然,也可以利用其他传统的方法将混合语音分割成多个短语音段。
其中,经本实施例的语音分割后,每一短语音段应只对应一说话人,不同的短语音段中可能有多个短语音段属于同一个说话人,将同一个说话人的不同短语音段进行相同的标识。
步骤S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。
本实施例中,时间递归神经网络模型(Long-Short Term Memory,LSTM)拥有递归神经网络在传统前向反馈神经网络中引入的定向循环,用以处理层间输入前后、层内输出前后的关联。用时间递归神经网络在语音序列上建模,可以得到跨越时间点的语音信号特征,可以用于对关联信息处于任何长度、任何位置的语音序列进行处理。时间递归神经网络模型通过神经网络层内设计多个交互层,可以记忆到更远时间节点上的信息,在时间递归神经网络模型中用“忘记门层”丢弃与识别任务不相关的信息,接着用“输入门层”决定需要更新的状态,最后确定需要输出的状态并处理输出。
本实施例对于各说话人标识对应的短语音段,利用时间递归神经网络建立声纹模型,通过该声纹模型可以得到说话人跨越时间点的声音信息,基于这些声音信息可以调整混合语音中对应的分割边界,以对每一说话人对应的所有短语音段调整其分割边界,最终分割出各说话人标识对应的有效语音段,该有效语音段可以看作对应的说话人的完整语音。
与现有技术相比,本实施例首先将混合语音进行分割,分割成多个短语音段,每一短语音段对应标识一个说话人,利用时间递归神经网络对各短语音段建立声纹模型,由于利用时间递归神经网络建立的声纹模型能够关联说话人跨时间点的声音信息,因此基于该声纹模型实现对短语音段的分割边界的调整,能够有效提高语音分割的精度,特别是对于对话交替频繁、以及有交叠的语音,语音分割的效果较好。
在一优选的实施例中,如图2所示,在上述图1的实施例的基础上,上述步骤S1包括:
步骤S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
步骤S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;
步骤S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段,
步骤S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。
本实施例中,首先根据静音进行初步分割:确定混合语音中的静音段,将确定的静音段从混合语音中去除,以实现将混合语音根据静音段进行分割,静音段是通过对混合语音的短时语音能量和短时过零率的分析来确定的。
去除静音段后,首先假设在整个混合语音中,每人每次讲话时长为固定阈值Tu,若某段语音大于该时长,则可能多人说话,若小于该时长,则更可能只有一个人说话,基于这种假设,可以对静音分割后的每个长语音段的时长大于固定阈值Tu的语音段的声学特征进行帧间KL距离分析。当然,也可以对所有的长语音段的声学特征进行帧间KL距离分析。具体地,对得到的长语音段进行分帧,以得到每一长语音段的语音帧,提取语音帧的声学特征,对所有长语音段的声学特征进行KL距离(也即相对熵)分析,其中,声学特征包括但不限定于线性预测系数、倒频谱系数MFCC、平均过零率、短时频谱、共振峰频率及带宽。
其中,KL距离分析的含义是对于两个离散型的声学特征概率分布集合P={p1,p2,…,pn}和Q={q1,q2,…,qn},P和Q间的KL距离:当KL距离越大时,PQ两者差异越大,即PQ这两个集合来自两个不同人的语音。优选地,对时长大于预设时间阈值的长语音段在KL的最大值处进行切分,以提高语音分割的精度。
长语音段经过切分后得到短语音段,短语音段的数量大于长语音段的数量。然后进行短语音段聚类:对切分后的短语音段进行聚类,以将所有短语音段聚为多个语音类,并为各个短语音段标注对应的说话人标识,其中,属于同一语音类的短语音段标注相同的说话人标识,不属于同一语音类的短语音段标注不同的说话人标识。聚类方法是:采用K个成分的高斯混合模型拟合每段短语音段,以均值作为特征向量,使用k-means聚类方法把所有短语音段聚为多类。
在一优选的实施例中,如图3所示,在上述的实施例的基础上,上述步骤S2包括:
步骤S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
步骤S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
步骤S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
步骤S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
步骤S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
本实施例中,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量,优选地,该预设类型向量为i-vector向量,i-vector向量是反映说话人声学差异的一个重要特征。
在整个混合语音中,根据预设类型向量计算每一语音帧属于某一说话人的最大后验概率,利用计算最大后验概率,在混合语音中通过预设算法重新调整说话人的混合高斯模型,例如,通过Baum-Welch算法重新调整说话人的混合高斯模型,该混合高斯模型为k(一般为3-5个)个高斯模型的集合。利用重新调整后的混合高斯模型寻找每一语音帧概率最大的说话人。根据语音帧与寻找到的该说话人的概率关系调整混合语音的分割边界,例如将分割边界向前微调或者向后微调。最后,迭代更新上述声纹模型n次,每次更新声纹模型时迭代m次混合高斯模型,以得到各个说话人对应的有效语音段,n及m均为大于1的正整数。
本实施例借助深度学习的时间递归神经网络建立声纹模型,用各说话人声纹对应的身份特征对应各语音帧以计算语音帧属于某一说话人的概率,基于该概率修正模型,最终调整语音分割的边界,可以有效提高说话人语音分割的精度,降低错误率,且可扩展性好。
在一优选的实施例中,在上述的实施例的基础上,该方法在上述步骤S2之后还包括:基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
本实施例中,自动应答系统关联对应的应答库,该应答库中存储有不同的问题对应的应答内容,自动应答系统在接收到终端发送的混合语音后,将其分割为说话人标识对应的有效语音段,从这些有效语音段中获取与该自动应答系统有关问题的一个有效语音段,针对该有效语音段在应答库中进行匹配,并将匹配得到的应答内容反馈给终端。
如图4所示,图4为本发明语音分割的装置一实施例的结构示意图,该语音分割的装置包括:
分割模块101,用于在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
本实施例的语音分割的装置中包括自动应答系统,例如保险呼叫中心的自动应答系统、各种客服呼叫中心的自动应答系统等等。自动应答系统接收到终端发送的原始的混合语音,该混合语音中混合有多种不同的声源产生的声音,例如有多人说话混合的声音,多人说话的声音与其他噪声混合的声音等等。
本实施例可以利用预定的方法将混合语音分割成多个短语音段,例如可以利用高斯混合模型(Gaussian Mixture Model,GMM)将混合语音分割成多个短语音段,当然,也可以利用其他传统的方法将混合语音分割成多个短语音段。
其中,经本实施例的语音分割后,每一短语音段应只对应一说话人,不同的短语音段中可能有多个短语音段属于同一个说话人,将同一个说话人的不同短语音段进行相同的标识。
调整模块102,用于利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段。
本实施例中,时间递归神经网络模型(Long-Short Term Memory,LSTM)拥有递归神经网络在传统前向反馈神经网络中引入的定向循环,用以处理层间输入前后、层内输出前后的关联。用时间递归神经网络在语音序列上建模,可以得到跨越时间点的语音信号特征,可以用于对关联信息处于任何长度、任何位置的语音序列进行处理。时间递归神经网络模型通过神经网络层内设计多个交互层,可以记忆到更远时间节点上的信息,在时间递归神经网络模型中用“忘记门层”丢弃与识别任务不相关的信息,接着用“输入门层”决定需要更新的状态,最后确定需要输出的状态并处理输出。
本实施例对于各说话人标识对应的短语音段,利用时间递归神经网络建立声纹模型,通过该声纹模型可以得到说话人跨越时间点的声音信息,基于这些声音信息可以调整混合语音中对应的分割边界,以对每一说话人对应的所有短语音段调整其分割边界,最终分割出各说话人标识对应的有效语音段,该有效语音段可以看作对应的说话人的完整语音。
在一优选的实施例中,如图5所示,在上述图4的实施例的基础上,上述分割模块101包括:
去除单元1011,用于获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
分帧单元1012,用于对所述长语音段进行分帧,以提取每一长语音段的声学特征;
切分单元1013,用于对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;
聚类单元1014,用于利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识。
本实施例中,首先根据静音进行初步分割:确定混合语音中的静音段,将确定的静音段从混合语音中去除,以实现将混合语音根据静音段进行分割,静音段是通过对混合语音的短时语音能量和短时过零率的分析来确定的。
去除静音段后,首先假设在整个混合语音中,每人每次讲话时长为固定阈值Tu,若某段语音大于该时长,则可能多人说话,若小于该时长,则更可能只有一个人说话,基于这种假设,可以对静音分割后的每个长语音段的时长大于固定阈值Tu的语音段的声学特征进行帧间KL距离分析。当然,也可以对所有的长语音段的声学特征进行帧间KL距离分析。具体地,对得到的长语音段进行分帧,以得到每一长语音段的语音帧,提取语音帧的声学特征,对所有长语音段的声学特征进行KL距离(也即相对熵)分析,其中,声学特征包括但不限定于线性预测系数、倒频谱系数MFCC、平均过零率、短时频谱、共振峰频率及带宽。
其中,KL距离分析的含义是对于两个离散型的声学特征概率分布集合P={p1,p2,…,pn}和Q={q1,q2,…,qn},P和Q间的KL距离:当KL距离越大时,PQ两者差异越大,即PQ这两个集合来自两个不同人的语音。优选地,对时长大于预设时间阈值的长语音段在KL的最大值处进行切分,以提高语音分割的精度。
长语音段经过切分后得到短语音段,短语音段的数量大于长语音段的数量。然后进行短语音段聚类:对切分后的短语音段进行聚类,以将所有短语音段聚为多个语音类,并为各个短语音段标注对应的说话人标识,其中,属于同一语音类的短语音段标注相同的说话人标识,不属于同一语音类的短语音段标注不同的说话人标识。聚类方法是:采用K个成分的高斯混合模型拟合每段短语音段,以均值作为特征向量,使用k-means聚类方法把所有短语音段聚为多类。
在一优选的实施例中,如图6所示,在上述实施例的基础上,上述调整模块102包括:
建模单元1021,用于利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
计算单元1022,用于基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
第一调整单元1023,用于基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
第二调整单元1024,用于基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
迭代单元1025,用于迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
本实施例中,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量,优选地,该预设类型向量为i-vector向量,i-vector向量是反映说话人声学差异的一个重要特征。
在整个混合语音中,根据预设类型向量计算每一语音帧属于某一说话人的最大后验概率,利用计算最大后验概率,在混合语音中通过预设算法重新调整说话人的混合高斯模型,例如,通过Baum-Welch算法重新调整说话人的混合高斯模型,该混合高斯模型为k(一般为3-5个)个高斯模型的集合。利用重新调整后的混合高斯模型寻找每一语音帧概率最大的说话人。根据语音帧与寻找到的该说话人的概率关系调整混合语音的分割边界,例如将分割边界向前微调或者向后微调。最后,迭代更新上述声纹模型n次,每次更新声纹模型时迭代m次混合高斯模型,以得到各个说话人对应的有效语音段,n及m均为大于1的正整数。
本实施例借助深度学习的时间递归神经网络建立声纹模型,用各说话人声纹对应的身份特征对应各语音帧以计算语音帧属于某一说话人的概率,基于该概率修正模型,最终调整语音分割的边界,可以有效提高说话人语音分割的精度,降低错误率,且可扩展性好。
在一优选的实施例中,在上述的实施例的基础上,所述语音分割的装置还包括:反馈模块,用于基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
本实施例中,自动应答系统关联对应的应答库,该应答库中存储有不同的问题对应的应答内容,自动应答系统在接收到终端发送的混合语音后,将其分割为说话人标识对应的有效语音段,从这些有效语音段中获取与该自动应答系统有关问题的一个有效语音段,针对该有效语音段在应答库中进行匹配,并将匹配得到的应答内容反馈给终端。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种语音分割的方法,其特征在于,所述语音分割的方法包括:
S1,自动应答系统在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
S2,利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段;
所述步骤S1包括:
S11,获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
S12,对所述长语音段进行分帧,以提取每一长语音段的声学特征;
S13,对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;
S14,利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识;
所述步骤S2包括:
S21,利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
S22,基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
S23,基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
S24,基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
S25,迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
2.根据权利要求1所述的语音分割的方法,其特征在于,所述步骤S13
包括:
对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。
3.根据权利要求1至2任一项所述的语音分割的方法,其特征在于,所述步骤S2之后还包括:
基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
4.一种语音分割的装置,其特征在于,所述语音分割的装置包括:
分割模块,用于在接收到终端发送的混合语音时,将所述混合语音分割成多个短语音段,并对各短语音段标注对应的说话人标识;
调整模块,用于利用时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型调整所述混合语音中对应的分割边界,以分割出各说话人标识对应的有效语音段;
所述分割模块包括:
去除单元,用于获取所述混合语音中的静音段,去除所述混合语音中的静音段,以根据所述静音段对所述混合语音进行分割,得到分割后的长语音段;
分帧单元,用于对所述长语音段进行分帧,以提取每一长语音段的声学特征;
切分单元,用于对每一长语音段的声学特征进行KL距离分析,根据KL距离分析结果对所述语音段进行切分,得到切分后的短语音段;
聚类单元,用于利用高斯混合模型对各短语音段进行语音聚类,并对同一语音类的短语音段标注对应的说话人标识;
所述调整模块包括:
建模单元,用于利用所述时间递归神经网络对各说话人标识对应的短语音段建立声纹模型,基于所述声纹模型提取表征说话人身份特征的预设类型向量;
计算单元,用于基于所述预设类型向量计算每一语音帧属于对应的说话人的最大后验概率;
第一调整单元,用于基于所述最大后验概率并利用预定算法调整该说话人的混合高斯模型;
第二调整单元,用于基于调整后的混合高斯模型获取每一语音帧对应的概率最大的说话人,并根据概率最大的说话人与语音帧的概率关系调整所述混合语音中对应的分割边界;
迭代单元,用于迭代更新所述声纹模型n次,每次更新所述声纹模型时迭代m次所述混合高斯模型,以得到各说话人对应的有效语音段,n及m均为大于1的正整数。
5.根据权利要求4所述的语音分割的装置,其特征在于,所述切分单元具体用于对每一长语音段的声学特征进行KL距离分析,对时长大于预设时间阈值的长语音段在KL距离的最大值处进行切分,得到切分后的短语音段。
6.根据权利要求4至5任一项所述的语音分割的装置,其特征在于,所述语音分割的装置还包括:反馈模块,用于基于所述有效语音段获取对应的应答内容,并将所述应答内容反馈给所述终端。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611176791.9A CN106782507B (zh) | 2016-12-19 | 2016-12-19 | 语音分割的方法及装置 |
PCT/CN2017/091310 WO2018113243A1 (zh) | 2016-12-19 | 2017-06-30 | 语音分割的方法、装置、设备及计算机存储介质 |
TW106135243A TWI643184B (zh) | 2016-12-19 | 2017-10-13 | 語音分割的方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611176791.9A CN106782507B (zh) | 2016-12-19 | 2016-12-19 | 语音分割的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106782507A CN106782507A (zh) | 2017-05-31 |
CN106782507B true CN106782507B (zh) | 2018-03-06 |
Family
ID=58889790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611176791.9A Active CN106782507B (zh) | 2016-12-19 | 2016-12-19 | 语音分割的方法及装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN106782507B (zh) |
TW (1) | TWI643184B (zh) |
WO (1) | WO2018113243A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782507B (zh) * | 2016-12-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN108257592A (zh) * | 2018-01-11 | 2018-07-06 | 广州势必可赢网络科技有限公司 | 一种基于长短期记忆模型的人声分割方法及系统 |
CN108335226A (zh) * | 2018-02-08 | 2018-07-27 | 江苏省农业科学院 | 农业种质资源信息实时智能采集系统 |
CN108597521A (zh) * | 2018-05-04 | 2018-09-28 | 徐涌 | 音频角色分割与识别文字的交互系统、方法、终端及介质 |
CN109300470B (zh) * | 2018-09-17 | 2023-05-02 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109461447B (zh) * | 2018-09-30 | 2023-08-18 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109346083A (zh) * | 2018-11-28 | 2019-02-15 | 北京猎户星空科技有限公司 | 一种智能语音交互方法及装置、相关设备及存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109616097B (zh) * | 2019-01-04 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
US11031017B2 (en) | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
US11355103B2 (en) * | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
CN110211595B (zh) * | 2019-06-28 | 2021-08-06 | 四川长虹电器股份有限公司 | 一种基于深度学习的说话人聚类系统 |
CN110675858A (zh) * | 2019-08-29 | 2020-01-10 | 平安科技(深圳)有限公司 | 基于情绪识别的终端控制方法和装置 |
CN110910891B (zh) * | 2019-11-15 | 2022-02-22 | 复旦大学 | 基于长短时记忆深度神经网络的说话人分段标注方法 |
CN110930984A (zh) * | 2019-12-04 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111213205B (zh) * | 2019-12-30 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN111524527B (zh) * | 2020-04-30 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
CN111681644B (zh) * | 2020-06-30 | 2023-09-12 | 浙江同花顺智能科技有限公司 | 一种说话人分割方法、装置、设备和存储介质 |
CN112201256B (zh) * | 2020-10-09 | 2023-09-19 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
CN112397057B (zh) * | 2020-12-01 | 2024-07-02 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN112562682A (zh) * | 2020-12-02 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于多人通话的身份识别方法、系统、设备及存储介质 |
CN113707130B (zh) * | 2021-08-16 | 2024-06-14 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN113793592B (zh) * | 2021-10-29 | 2024-07-16 | 浙江核新同花顺网络信息股份有限公司 | 一种区分说话人的方法和系统 |
CN114999453B (zh) * | 2022-05-25 | 2023-05-30 | 中南大学湘雅二医院 | 一种基于语音识别的术前访视系统及相应语音识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN106228045A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 一种身份识别系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304842B1 (en) * | 1999-06-30 | 2001-10-16 | Glenayre Electronics, Inc. | Location and coding of unvoiced plosives in linear predictive coding of speech |
US7295970B1 (en) * | 2002-08-29 | 2007-11-13 | At&T Corp | Unsupervised speaker segmentation of multi-speaker speech data |
CN100505040C (zh) * | 2005-07-26 | 2009-06-24 | 浙江大学 | 基于决策树和说话人改变检测的音频分割方法 |
US8595007B2 (en) * | 2006-06-15 | 2013-11-26 | NITV Federal Services, LLC | Voice print recognition software system for voice identification and matching |
CN102543063B (zh) * | 2011-12-07 | 2013-07-24 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
TW201513095A (zh) * | 2013-09-23 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 語音處理系統、裝置及方法 |
CN105161093B (zh) * | 2015-10-14 | 2019-07-09 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105913849B (zh) * | 2015-11-27 | 2019-10-25 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
CN106782507B (zh) * | 2016-12-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
-
2016
- 2016-12-19 CN CN201611176791.9A patent/CN106782507B/zh active Active
-
2017
- 2017-06-30 WO PCT/CN2017/091310 patent/WO2018113243A1/zh active Application Filing
- 2017-10-13 TW TW106135243A patent/TWI643184B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN106228045A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 一种身份识别系统 |
Non-Patent Citations (3)
Title |
---|
DEEP CLUSTERING:DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION;John R. Hershey 等;《ICASSP2016》;20160325;31-35 * |
Speaker diarization : A review of recent research;Xavier Anguera 等;《IEEE transactions on acoustics, speech, and signal processing, Institute of Electrical and Electronics Engineers (IEEE)》;20100819;1-15 * |
说话人分割聚类研究进展;马勇 等;《信号处理》;20130930;1190-1199 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018113243A1 (zh) | 2018-06-28 |
TWI643184B (zh) | 2018-12-01 |
TW201824250A (zh) | 2018-07-01 |
CN106782507A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782507B (zh) | 语音分割的方法及装置 | |
Villalba et al. | State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations | |
US5995927A (en) | Method for performing stochastic matching for use in speaker verification | |
CN108597525B (zh) | 语音声纹建模方法及装置 | |
He et al. | Target-speaker voice activity detection with improved i-vector estimation for unknown number of speaker | |
CN108417201A (zh) | 单信道多说话人身份识别方法及系统 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
Venkatesan et al. | Automatic language identification using machine learning techniques | |
US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
Park et al. | The Second DIHARD Challenge: System Description for USC-SAIL Team. | |
Lapidot | Self-organizing-maps with BIC for speaker clustering | |
Delacourt et al. | Audio data indexing: Use of second-order statistics for speaker-based segmentation | |
Li et al. | A fast algorithm for stochastic matching with application to robust speaker verification | |
Breslin et al. | Generating complementary systems for speech recognition. | |
Kwon et al. | A method for on-line speaker indexing using generic reference models. | |
Sit et al. | Maximum likelihood and maximum a posteriori adaptation for distributed speaker recognition systems | |
Kanrar | Dimension compactness in speaker identification | |
Tsakalidis et al. | Acoustic training from heterogeneous data sources: Experiments in Mandarin conversational telephone speech transcription | |
Anguera et al. | Automatic weighting for the combination of TDOA and acoustic features in speaker diarization for meetings | |
Chao et al. | Deep speaker embedding for speaker-targeted automatic speech recognition | |
de Veth et al. | Acoustic pre-processing for optimal effectivity of missing feature theory | |
CN113178205B (zh) | 语音分离方法、装置、计算机设备及存储介质 | |
KR102075670B1 (ko) | 나이 정보를 활용한 화자인식 방법 및 시스템 | |
Haton et al. | Improvement of Multi-Band Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1235536 Country of ref document: HK |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1235536 Country of ref document: HK |