Nothing Special   »   [go: up one dir, main page]

CN102543063B - 基于说话人分割与聚类的多说话人语速估计方法 - Google Patents

基于说话人分割与聚类的多说话人语速估计方法 Download PDF

Info

Publication number
CN102543063B
CN102543063B CN2011104035773A CN201110403577A CN102543063B CN 102543063 B CN102543063 B CN 102543063B CN 2011104035773 A CN2011104035773 A CN 2011104035773A CN 201110403577 A CN201110403577 A CN 201110403577A CN 102543063 B CN102543063 B CN 102543063B
Authority
CN
China
Prior art keywords
speaker
voice
energy
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011104035773A
Other languages
English (en)
Other versions
CN102543063A (zh
Inventor
李艳雄
徐鑫
贺前华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2011104035773A priority Critical patent/CN102543063B/zh
Publication of CN102543063A publication Critical patent/CN102543063A/zh
Application granted granted Critical
Publication of CN102543063B publication Critical patent/CN102543063B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

基于说话人分割与聚类的多说话人语速估计方法,它涉及一种估计多说话人语速的方法。本发明的估计多说话人语速的方法:首先读入语音流;接着检测上述语音流中的说话人改变点,根据这些改变点将语音流分割成多个语音段;再对上述语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音;最后分别估算各个说话人语音的时长及其所包含的字数,估计出各个说话人的语速。与目前基于语音识别的单说话人语速估计方法相比,本方法不但可以估计多说话人的语速,而且速度更快。

Description

基于说话人分割与聚类的多说话人语速估计方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种基于说话人分割与聚类的多说话人语速估计方法。
背景技术
随着语音处理技术的发展,目前语音处理的对象正逐步由单说话人语音转向多说话人语音(例如会议语音、谈话语音),估计出多说话人的语速并根据各个说话人的语速自适应地调整语音处理系统(例如语音识别系统)的参数变得越来越重要。另外,在录音棚或实验室的录音过程中,说话人(例如播音员、节目主持人、客服人员等)根据经验主观地测量语速,往往不够准确。虽然录音结束后可以采用人工标注的方法来估计说话人的语速,但是这样做非常费时,特别是数据量很大时这种做法就不太可行。因此,能够自动地估计多说话人的语速就变得非常重要。
现有语速估计方法都是针对单说话人语音的,只能估计单说话人的语速,而不能估计多说话人的语速。另外,现有语速估计方法主要是基于语音识别结果估计说话人的语速:首先采用语音识别器从输入语音中识别音素序列和每个音素对应的时间点;再识别字序列和每个字对应的时间点,从而估计出说话人语速。
上述语速估计方法的不足之处在于:
(1)只能估计单说话人语音的语速。当输入语音中含有多说话人的语音时,输入语音只被作为一个说话人的语音处理,而得不到多说话人的语速估计结果。
(2)速度慢。目前的方法首先对输入语音进行语音识别,再根据识别的音素序列和字序列估算出语速。这种方法需要训练大量的音素模型(一般是隐马尔可夫模型,Hidden Markov Model),在识别时也需要大量的运算(提取特征、估计声学模型及语言模型的输出概率等),因此该方法的速度是比较慢的,不利于实时处理。
发明内容
本发明的目的在于解决现有技术所存在的缺陷,提供一种基于说话人分割与聚类的多说话人语速估计方法:通过说话人分割与聚类先将语音流分割成语音段,再将相同说话人的语音段按顺序拼接在一起;然后分别估算各个说话人语音中的字数及时长,实现多说话人的语速估计。
本发明解决其技术问题所采用的技术方案包括如下步骤:
1)读入语音流:读入记录有多说话人语音的语音流;
2)说话人分割:检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
3)说话人聚类:利用谱聚类算法对上述分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音;
4)语速估计:分别从各个说话人语音中提取能量包络,并通过找出能量包络的局部最大值点确定音节数,从而估计出各个说话人的语速。
所述步骤2)说话人分割的步骤包括:
2.1)利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
2.2)将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)及其一阶差分(Delta-MFCCs)的音频特征;
2.3)利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
2.4)根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
所述步骤2.1)基于门限判决的静音检测算法的步骤包括:
2.1.1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
2.1.2)计算能量门限;
2.1.3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。
所述步骤4)语速估计的步骤包括:
4.1)计算一个说话人语音的能量;
4.2)利用低通滤波器对上述提取出来的能量进行滤波,得到能量包络;
4.3)计算能量包络阈值;
4.4)确定能量包络中局部最大值点,得到局部最大值点的个数;
4.5)将该说话人语音能量包络中的局部最大值点的个数作为音节个数,并除以该说话人语音的时长,得到该说话人的语速;
4.6)重复上述步骤4.1)~4.5),直到所有说话人语音的语速都估计完为止。
所述局部最大值点满足如下条件:
a)该元素值大于能量包络阈值;
b)该元素值大于其前、后0.07秒的所有元素值;
所述局部最大值点所在位置为每个音节的韵母的能量峰值所在的位置。
本发明的有益效果是:利用说话人分割将包含多说话人的语音流切分成多个语音段,且每个语音段只包含一个说话人,再利用说话人聚类将相同说话人的语音段合并在一起,因此本发明能够估计多说话人语音的语速。另外,通过检测各个说话人语音能量包络的局部最大值点确定音节个数,从而估计出各个说话人的语速,与基于语音识别的语速估计方法相比,不需要做复杂的数值计算(例如声学模型及语言模型的输出概率的计算)从而节省了运算时间,更适用于实时语速估计的场合。
附图说明
图1为本发明的流程图。
图2为本发明的实施例中语速估计的示意图,其中图2(a)是某个说话人的语音波形图,图2(b)为提取的语音能量图:实线为能量包络,带圆圈的点划线为能量包络局部最大值点,虚线为能量包络阈值。
具体实施方式
下面结合具体的实施例与说明书附图进行详细描述。
图1是根据本发明的一个实施例的估计多说话人语速的方法的流程图。如图1所示,首先在步骤101,读入语音流。语音流是记录有多说话人语音的语音数据,可以是各种格式的文件,例如WAV、RAM、MP3、VOX等。
接着,在步骤102,利用基于门限判决的静音检测方法找出语音流中的静音段和语音段,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;最后根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
步骤102中的静音检测方法具体包括以下步骤:
1)将读入的语音流分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
2)计算第t(1≤t≤T)帧语音信号xt(n)的能量Et
E t = Σ n = 1 N X t 2 ( n ) , 1 ≤ t ≤ T
得到语音流的能量矢量E=[E1,E2,...,ET],其中T为总帧数;
3)用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义自适应能量门限TE
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
4)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。
步骤102中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤:
1)将经过静音检测得到的各个语音段按顺序拼接成一个长语音段,将长语音段切分成数据窗,窗长为2秒,窗移为0.1秒。对每个数据窗进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都取12,每个数据窗的特征构成一个特征矩阵F,特征矩阵F的维数d=2M为24;
2)计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式如下:
ΔBIC = ( n x + n y ) ln ( | det ( cov ( F z ) ) | ) - n x ln ( | det ( cov ( F x ) ) | ) -
n y ln ( | det ( cov ( F y ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n x + n y )
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
3)如果BIC距离ΔB/C大于零,则这两个数据窗被视为属于两个不同的说话人(即它们之间存在说话人改变点),否则这两个数据窗被视为属于同一个说话人并将它们合并;
4)不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存说话人改变点,直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止。
上述提取MFCCs与Delta-MFCCs特征的步骤包括:
1)将语音信号分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
2)对第t(1≤t≤T)帧语音信号xt(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 X t ( n ) e - j 2 πnk / N , ( 0 ≤ n , k ≤ N - 1 )
3)将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) ( f ( m ) < k &le; f ( m + 1 ) ) 0 ( k > f ( m + 1 ) ) ( 0 &le; m < M )
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 )
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = ln ( &Sigma; k = 0 N - 1 | X t ( k ) | 2 H m ( k ) ) , ( 0 &le; m < M )
4)将上述对数频谱St(m)经过离散余弦变换(Discrete Cosine Transformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) , ( 0 &le; p < M )
5)计算第t帧MFCCs的一阶差分(Delta-MFCCs),Ct(p):
C t &prime; ( p ) = 1 Q q = - Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) , ( 0 &le; p < M )
其中,Q为常数,实验时取值为3。
6)对每帧语音信号重复上述步骤2)~5),得到所有T帧语音信号的MFCCs与Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵与Delta-MFCC矩阵,再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。
步骤103,从分割出来的各个语音段中提取包括MFCCs与Delta-MFCCs的音频特征,并利用谱聚类算法对各个只包含一个说话人的语音段进行说话人聚类,得到说话人个数及各个说话人的语音。具体步骤如下:
1)对每个语音段进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都为12,每个语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M为24;
2)根据各个特征矩阵Fj得到所有待聚类语音段的特征矩阵集合F={F1,...,FJ},J为语音段总个数,再根据F构造亲和矩阵(Affinity matrix)A∈RJ×J,A的第(i,j)个元素Aij定义如下:
A ij = exp ( - d 2 ( F i , F j ) 2 &sigma; i &sigma; j ) i &NotEqual; j 0 i = j
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi(或σj)是一个尺度参数,定义为第i(或j)个特征矩阵Fi(或Fj)与其它T-1个特征矩阵之间的欧式距离矢量的方差;
3)构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2
4)计算矩阵L的前Kmax个最大的特征值
Figure BDA0000116876130000091
及其特征值矢量
Figure BDA0000116876130000092
其中vk(1≤k≤Kmax)为列向量且根据相邻特征值之间的差值估计最优类别数(即说话人个数)K:
K = arg max i &Element; [ 1 , K max - 1 ] ( &lambda; i - &lambda; i + 1 )
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K
5)归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk
Y jk = V jk ( &Sigma; k = 1 K V jk 2 ) , 1 &le; i &le; J ;
6)将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法(K-meansalgorithm)将这J行(即J个点)聚类成K类。
7)将特征矩阵Fj所对应的语音段判为第k类(即第k个说话人),当且仅当矩阵Y的第j行被聚类在第k类中;
8)根据上述聚类结果,得到说话人个数、每个说话人的语音及其时长。
最后,在步骤104,从每个说话人语音中提取能量包络,并通过检测能量包络局部最大值点确定音节个数,估计各个说话人的语速。在汉语普通话中,每个音节基本上都包含韵母,韵母个数即为音节个数,音节个数即为字个数,而且音节中韵母的能量最大,因此通过检测能量最大的韵母个数即可得到字的个数,从而估计出语速。基于上述考虑的语速估计方法的具体步骤如下:
1)计算每个说话人语音信号s(n)的能量E(n):
E(n)=s2(n),1≤n≤Len
其中,Len是语音信号的采样点总个数;
2)利用一个低通滤波器对能量E(n)进行滤波,得到能量包络E(n),该低通滤波器的技术指标如下:基于Equiripple方法的FIR滤波器,采样频率fs为16000赫兹,通带截止频率fpass为50赫兹,阻带截止频率fstop为100赫兹,通带的最大衰减Apass为1dB,阻带的最小衰减Astop为80dB;
3)计算能量包络阈值TE
TE=0.4×mean(E(n))
其中,mean(E(n))是能量包络的平均值;
4)将能量包络中满足下述两个条件的元素作为局部最大值点:
条件1:该元素值大于能量包络阈值TE
条件2:该元素值大于其前、后0.07秒的所有元素值,即大于其前、后0.07×fs个元素值,
上述局部最大值点所在的位置(采样点)即为每个音节的韵母的能量峰值所在的位置,取0.07秒的原因是:音节平均时长的最小值大约是0.14秒,所以E(n)中大于TE且大于其前、后0.07秒的元素值所在的位置就是每个音节的韵母的能量峰值所在的位置;
5)将某个说话人语音能量包络中的局部最大值点的个数作为音节(字)个数,将字的个数除以该说话人语音的时长(秒),得到该说话人的语速(字/秒);
6)重复上述步骤1)~5),直到所有说话人语音的语速都估计完为止。
图2(a)给出了某个说话人的时长为5秒的语音信号的波形图,图2(b)给出了图2(a)语音信号所对应的能量包络波形(实线所示)、能量包络的阈值(虚线所示)及根据上述语速估计步骤得到的能量包络局部最大值点(带圆圈的点划线所示)。从图2可知:该说话人的语音信号时长为5秒,局部最大值点的个数为22,即字数为22,因此,该说话人的语速为4.4字/秒(或264字/分钟)。
以上虽然通过上述实施例对本发明的多说话人语速估计方法进行了详细描述,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于说话人分割与聚类的多说话人语速估计方法,其特征在于包括如下步骤:
1)读入语音流:读入记录有多说话人语音的语音流;
2)说话人分割:检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
3)说话人聚类:把相同说话人的语音段聚在一类并按顺序拼接在一起,得到说话人个数以及各个说话人的语音;
4)语速估计:分别从各个说话人语音中提取能量包络,并通过找出能量包络的局部最大值点确定音节数,从而估计出各个说话人的语速;该步骤具体包括:
4.1)计算一个说话人语音的能量;
4.2)利用低通滤波器对上述提取出来的能量进行滤波,得到能量包络;
4.3)计算能量包络阈值;
4.4)确定能量包络中局部最大值点,得到局部最大值点的个数,具体是将能量包络中满足下述两个条件的元素作为局部最大值点:
a)该元素值大于能量包络阈值;
b)该元素值大于其前、后0.07秒的所有元素值;
所述局部最大值点所在位置为每个音节的韵母的能量峰值所在的位置; 
4.5)将该说话人语音能量包络中的局部最大值点的个数作为音节个数,并除以该说话人语音的时长,得到该说话人的语速; 
4.6)重复上述步骤4.1)~4.5),直到所有说话人语音的语速都估计完为止。
2.根据权利要求1所述的多说话人语速估计方法,其特征在于,所述步骤2)说话人分割的步骤包括:
2.1)利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
2.2)将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;
2.3)利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
2.4)根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
3.根据权利要求2所述的多说话人语速估计方法,其特征在于,所述步骤2.1)基于门限判决的静音检测算法的步骤包括:
2.1.1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
2.1.2)计算能量门限;
2.1.3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。
4.根据权利要求2所述的多说话人语速估计方法,其特征在于,所述步骤2.2)的音频特征包括梅尔频率倒谱系数及其一阶差分。
5.根据权利要求1所述的多说话人语速估计方法,其特征在于,所述步骤3)的说话人聚类采用谱聚类算法。
CN2011104035773A 2011-12-07 2011-12-07 基于说话人分割与聚类的多说话人语速估计方法 Expired - Fee Related CN102543063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104035773A CN102543063B (zh) 2011-12-07 2011-12-07 基于说话人分割与聚类的多说话人语速估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104035773A CN102543063B (zh) 2011-12-07 2011-12-07 基于说话人分割与聚类的多说话人语速估计方法

Publications (2)

Publication Number Publication Date
CN102543063A CN102543063A (zh) 2012-07-04
CN102543063B true CN102543063B (zh) 2013-07-24

Family

ID=46349803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104035773A Expired - Fee Related CN102543063B (zh) 2011-12-07 2011-12-07 基于说话人分割与聚类的多说话人语速估计方法

Country Status (1)

Country Link
CN (1) CN102543063B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN103137137B (zh) * 2013-02-27 2015-07-01 华南理工大学 一种会议音频中的精彩说话人发现方法
JP6171544B2 (ja) * 2013-05-08 2017-08-02 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN104347068B (zh) * 2013-08-08 2020-05-22 索尼公司 音频信号处理装置和方法以及监控系统
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN104851423B (zh) * 2014-02-19 2021-04-13 联想(北京)有限公司 一种声音信息处理方法及装置
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
CN104183239B (zh) * 2014-07-25 2017-04-19 南京邮电大学 基于加权贝叶斯混合模型的与文本无关的说话人识别方法
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN106205610B (zh) * 2016-06-29 2019-11-26 联想(北京)有限公司 一种语音信息识别方法和设备
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN106649513B (zh) * 2016-10-14 2020-03-31 盐城工学院 基于谱聚类的音频数据聚类方法
CN106531195B (zh) * 2016-11-08 2019-09-27 北京理工大学 一种对话冲突检测方法及装置
CN106782496B (zh) * 2016-11-15 2019-08-20 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN106782507B (zh) * 2016-12-19 2018-03-06 平安科技(深圳)有限公司 语音分割的方法及装置
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107967912B (zh) * 2017-11-28 2022-02-25 广州势必可赢网络科技有限公司 一种人声分割方法及装置
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN108683790B (zh) * 2018-04-23 2020-09-22 Oppo广东移动通信有限公司 语音处理方法及相关产品
CN108597521A (zh) * 2018-05-04 2018-09-28 徐涌 音频角色分割与识别文字的交互系统、方法、终端及介质
CN109461447B (zh) * 2018-09-30 2023-08-18 厦门快商通信息技术有限公司 一种基于深度学习的端到端说话人分割方法及系统
CN109859742B (zh) * 2019-01-08 2021-04-09 国家计算机网络与信息安全管理中心 一种说话人分段聚类方法及装置
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
CN110060665A (zh) * 2019-03-15 2019-07-26 上海拍拍贷金融信息服务有限公司 语速检测方法及装置、可读存储介质
CN110364183A (zh) * 2019-07-09 2019-10-22 深圳壹账通智能科技有限公司 语音质检的方法、装置、计算机设备和存储介质
CN111312256B (zh) * 2019-10-31 2024-05-10 平安科技(深圳)有限公司 语音身份识别的方法、装置及计算机设备
CN112017685B (zh) * 2020-08-27 2023-12-22 抖音视界有限公司 语音生成方法、装置、设备和计算机可读介质
CN112423094A (zh) * 2020-10-30 2021-02-26 广州佰锐网络科技有限公司 一种双录业务播报方法、装置及存储介质
CN112669855A (zh) * 2020-12-17 2021-04-16 北京沃东天骏信息技术有限公司 语音处理方法和装置
CN112565880B (zh) * 2020-12-28 2023-03-24 北京五街科技有限公司 讲解类视频的播放方法和系统
CN112565881B (zh) * 2020-12-28 2023-03-24 北京五街科技有限公司 自适应的视频播放方法和系统
CN112802498B (zh) * 2020-12-29 2023-11-24 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN112289323B (zh) * 2020-12-29 2021-05-28 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN114067787B (zh) * 2021-12-17 2022-07-05 广东讯飞启明科技发展有限公司 一种语音语速自适应识别系统
CN114464194A (zh) * 2022-03-12 2022-05-10 云知声智能科技股份有限公司 声纹聚类方法、装置、存储介质及电子装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2990693B2 (ja) * 1988-02-29 1999-12-13 株式会社明電舎 音声合成装置
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
CN100505040C (zh) * 2005-07-26 2009-06-24 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN100485780C (zh) * 2005-10-31 2009-05-06 浙江大学 基于基音频率的快速音频分割方法

Also Published As

Publication number Publication date
CN102543063A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
Liu et al. Fast speaker change detection for broadcast news transcription and indexing
Zhu et al. Combining speaker identification and BIC for speaker diarization
CN103400580A (zh) 一种多人会话语音中的说话人重要程度估计方法
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
Lokhande et al. Voice activity detection algorithm for speech recognition applications
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
Ananthapadmanabha et al. Detection of the closure-burst transitions of stops and affricates in continuous speech using the plosion index
EP2905780A1 (en) Voiced sound pattern detection
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
Jaafar et al. Automatic syllables segmentation for frog identification system
KR100717401B1 (ko) 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
CN100485780C (zh) 基于基音频率的快速音频分割方法
Chee et al. Automatic detection of prolongations and repetitions using LPCC
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
Hassan et al. Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
Moattar et al. A new approach for robust realtime voice activity detection using spectral pattern

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130724

Termination date: 20181207

CF01 Termination of patent right due to non-payment of annual fee