Nothing Special   »   [go: up one dir, main page]

CN102184732A - 基于分形特征的智能轮椅语音识别控制方法及系统 - Google Patents

基于分形特征的智能轮椅语音识别控制方法及系统 Download PDF

Info

Publication number
CN102184732A
CN102184732A CN2011101091682A CN201110109168A CN102184732A CN 102184732 A CN102184732 A CN 102184732A CN 2011101091682 A CN2011101091682 A CN 2011101091682A CN 201110109168 A CN201110109168 A CN 201110109168A CN 102184732 A CN102184732 A CN 102184732A
Authority
CN
China
Prior art keywords
parameter
voice signal
mfcc
fractal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101091682A
Other languages
English (en)
Inventor
张毅
罗元
李敏
蔡军
谢颖
林海波
黄璜
李艳花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN2011101091682A priority Critical patent/CN102184732A/zh
Publication of CN102184732A publication Critical patent/CN102184732A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于分形特征的智能轮椅语音识别控制方法,涉及语音识别方法,首先将语音信号输入,再进行预处理和特征参数提取,然后与模板库中的模板进行匹配判断获得命令控制智能轮椅,采用将语音信号的分形特征参数和传统的MFCC特征参数有机结合得到的混合特征参数,提高了系统的识别率,用于智能轮椅语音控制系统中的语音识别,实现了对智能轮椅的精确控制,达到用户与智能轮椅之间语音交互的目的,同时,这种混合特征参数提取方法还适用于其它的语音识别系统,另外还公开了一种基于分形特征的智能轮椅语音识别控制系统,包括语音信号输入模块,预处理模块,特征参数提取模块,匹配模块,判断模块,命令转换模块,控制模块。

Description

基于分形特征的智能轮椅语音识别控制方法及系统
技术领域
本发明涉及计算机语音识别控制领域,具体涉及一种基于分形特征的语音识别智能轮椅控制方法。
背景技术
随着社会的发展和人类文明程度的提高,人们特别是老年人、残疾人的服务需求会日益增加,他们愈来愈需要运用现代高新技术来改善他们的生活质量和生活自由度。无论是国际上还是我国国内,人口老龄化的进程正在加快,另外由于各种交通事故、天灾人祸和种种疾病,每年均有成千上万的人丧失一种或多种能力(如行走、动手能力等),这种社会现实促进了智能化服务机器人在助老、助残方面的应用。因此,智能轮椅作为助老、助残服务机器人系列产品中的一个重要研究领域已逐渐成为国内外科技人员研究的热点。轮椅作为广大老弱病残人员使用的辅助运动工具,几乎都是室外使用的手柄控制的电动轮椅,对于那些四肢活动能力受限的老年人或残疾者控制起来不是十分方便,因此,我们将语音控制应用于智能轮椅上,形成一种将智能轮椅与语音识别技术结合起来的新型代步工具,它不仅具有普通轮椅的所有功能,重要的是还可以通过语音命令对轮椅进行控制,使轮椅的控制更加简单、方便,宜人性更好。因此,实用的语音控制智能轮椅机器人将为老年人和残疾人开创新的生活模式和生活概念,具有非常重要的现实意义。
在国内外,研究者们已经开展了大量相关项目的研究:1996年西班牙由ONCE基金会资助的SIAMO项目,目标是根据用户的残障程度及特殊需求建造多功能系统,为了达到要求,特别研究了系统的模块化和灵活性,设计了分布式构架,也着重开发了人机界面,其中也把语音识别控制技术应用于智能轮椅,使用户更易于控制轮椅。日本北海道工业设计学院的研究人员研制出一种不用人工操作的声控轮椅。研究人员将可感应语言声响的晶片,装置在轮椅的控制机关内,在使用者对着麦克风讲出要求后,感应系统便会依照要求启动运作,除了可向前后左右和快慢行走外,椅背还可向后倾,方便使用者休息。中国科学院自动化研究所承担了“863”智能机器人智能轮椅项目,研制了一种具有视觉和口令导航功能并能与人进行语音交互的机器人轮椅NLPR,此项研究高度重视了智能轮椅人机控制界面的设计,在轮椅的设计中综合运用模式识别实验室有关图像处理、计算机视觉和语音识别等最新成果,使人能通过语音控制轮椅自由行走,轮椅可以实现简单的人机对话功能。上海交通大学开发成功一种声控轮椅,主要是为四肢全部丧失功能的残疾者设计,使用者只需发出“开”、“前”、“后”、“左”、“右”、“快”、“慢”、“停”等指令,轮椅可在1.2秒内按指令执行。但是,由于语音信号是一个复杂的非线性过程,那么基于传统的线性系统理论发展起来的语音识别技术的性能就难以进一步的提高。
因此急需一种采用高识别率的语音识别系统来控制智能轮椅的方法。
发明内容
有鉴于此,为了解决上述问题,本发明提出一种采用高识别率的语音识别系统来控制智能轮椅的方法。是一种基于非线性理论的特征提取方法,即将语音信号的分形特征参数合并到传统的Mel频率倒谱系数(MFCC)中,这样组成混合的特征参数在语音识别系统中可以提高系统的识别率。
本发明的目的之一是提出一种基于分形特征的智能轮椅语音识别控制方法方法;本发明的目的之二是提出一种基于分形特征的智能轮椅语音识别控制系统。
本发明的目的之一是通过以下技术方案来实现的:
本发明提供的基于分形特征的智能轮椅语音识别控制方法,包括以下步骤:
S1:语音信号命令词输入;
S2:对语音信号进行预处理;
S3:提取经过预处理后语音信号的特征参数;
S4:将特征参数与模板库的模板进行模式匹配;
S5:选择匹配相似度最高的模板作为识别结果;
S6:将该识别结果转换成智能轮椅的运动命令;
S7:调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
进一步,所述步骤S2中的预处理,包括语音的预加重滤波、加窗分帧处理与双门限端点检测;
进一步,所述步骤S3中的特征提取包括以下步骤:
S31:提取语音信号的MFCC(Mel频率倒谱系数)参数;
S311:首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
S312:再进行离散FFT(傅立叶变换)变换,取模的平方得到离散功率谱S(n);
S313:在语音的频谱范围内设置若干个带通滤波器;
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中M为滤波器的个数,通常取24,N为一帧语音信号的点数;
S314:将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1;
S315:计算Pm的自然对数,得到Lm,m=0,1,·,M-1
S316:对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
S317:舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数;
S32:提取语音的动态特征,作为一帧语音信号的特征参数,
用差分倒谱参数来描述语音的动态特征,计算公式为:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
S33:提取语音信号的分形维数作为分形特征;
S331:将语音信号归一化到单位正方形区域,得到归一化信号x(t);
S332:将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
S333:令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
S34:提取混合特征参数,
将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;其中,ΔMFCC为一阶MFCC差分参数,D为分形维数;
进一步,所述步骤S4中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板;
进一步,所述步骤S5包括以下步骤:
S51:从语音信号中提取特征参数生成测试模板;
S52:将测试模板与模板库中的参考模板进行模式匹配;
S53:选择匹配相似度最高的参考模板作为识别结果;
进一步,所述模板库的特征训练训练和模式匹配采用隐马尔可夫模型方法;
本发明的目的之二是通过以下技术方案来实现的:
本发明提供的基于分形特征的智能轮椅语音识别控制系统,包括
语音信号输入模块,用于输入语音信号命令词;
语音信号预处理模块,用于对语音信号进行预处理;语音的预加重滤波、加窗分帧处理与双门限端点检测;
语音信号的特征参数提取模块,用于提取经过预处理后语音信号的特征参数;
匹配模块,用于将特征参数与模板库的模板进行模式匹配;
判断模块,用于选择匹配相似度最高的模板作为识别结果;
命令转换模块,用于将该识别结果转换成智能轮椅的运动命令;
控制模块,用于调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
进一步,所述语音信号的特征参数提取模块,包括MFCC参数提取模块、动态特征提取模块、分形特征提取模块和混合特征参数提取模块;
所述MFCC参数提取模块,用于执行以下步骤:
首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
再进行离散FFT变换,取模的平方得到离散功率谱S(n);
在语音的频谱范围内设置若干个带通滤波器;
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中M为滤波器的个数,通常取24,N为一帧语音信号的点数;
将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1;
计算Pm的自然对数,得到Lm,m=0,1,·,M-1
对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数;
所述动态特征提取模块,用于以下公式来计算:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
所述分形特征提取模块,用于提取语音信号的分形维数作为分形特征,执行以下步骤:
将语音信号归一化到单位正方形区域,得到归一化信号x(t);
将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
所述混合特征参数提取模块,用于形成混合特征参数,将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;其中,ΔMFCC为一阶MFCC差分参数,D为分形维数;
进一步,所述匹配模块中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板;
进一步,还包括语音输入装置、信号处理装置、无线通信装置和智能轮椅本体,所述语音命令信号通过语音输入装置传输到信号处理装置进行信号处理得到控制智能轮椅本体的命令,该控制命令通过无线通信装置传输到智能轮椅本体实现智能轮椅本体的运动。
本发明的优点在于:采用本发明将语音信号的分形特征参数和传统的MFCC特征参数有机结合得到的混合特征参数,提高了系统的识别率,用于智能轮椅语音控制系统中的语音识别,实现了对智能轮椅的精确控制,达到用户与智能轮椅之间语音交互的目的,同时,这种混合特征参数提取方法还适用于其它的语音识别系统。
本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明的一个实施方式的智能轮椅语音识别原理框图;
图2为本发明的一个实施方式的MFCC参数计算流程图;
图3为本发明的一个实施方式的流程图;
图4为本发明的一个实施方式的结构框图。
具体实施方式
以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图3为本发明的一个实施方式的流程图;本发明提供的基于分形特征的智能轮椅语音识别控制方法,包括以下步骤:
S1:语音信号命令词输入;
S2:对语音信号进行预处理;
S3:提取经过预处理后语音信号的特征参数;
S4:将特征参数与模板库的模板进行模式匹配;
S5:选择匹配相似度最高的模板作为识别结果;
S6:将该识别结果转换成智能轮椅的运动命令;
S7:调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
作为上述实施例的进一步改进,所述步骤S2中的预处理,包括语音的预加重滤波、加窗分帧处理与双门限端点检测。
图1为本发明的一个实施方式的智能轮椅语音识别原理框图;图2为本发明的一个实施方式的MFCC参数计算流程图;如图所示,作为上述实施例的进一步改进,所述步骤S3中的特征提取包括以下步骤:
S31:提取语音信号的MFCC参数;
S311:首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
S312:再进行离散FFT变换,取模的平方得到离散功率谱S(n);
S313:在语音的频谱范围内设置若干个带通滤波器;
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中M为滤波器的个数,通常取24,N为一帧语音信号的点数;
S314:将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1;
S315:计算Pm的自然对数,得到Lm,m=0,1,·,M-1
S316:对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
S317:舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数。
S32:提取语音的动态特征,作为一帧语音信号的特征参数,
用差分倒谱参数来描述语音的动态特征,计算公式为:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
S33:提取语音信号的分形维数作为分形特征;
S331:将语音信号归一化到单位正方形区域,得到归一化信号x(t)。
S332:将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
S333:令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
S34:提取混合特征参数,
将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;其中,ΔMFCC为一阶MFCC差分参数,D为分形维数。分形维数的定义有很多种,如相似维,Hausdorff维,信息维数,关联维数,容量维数和计盒维数等。其中Hausdorff维数是最古老的,也是最重要的一种维数,它对任何集都有定义,其定义为:
D = ( lim δ → 0 ( ln M δ ( F ) / ln δ - 1 )
其中,Mδ(F)表示用单位大小δ来覆盖子集F所需的个数。
作为上述实施例的进一步改进,所述步骤S4中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板。
作为上述实施例的进一步改进,所述步骤S5包括以下步骤:
S51:从语音信号中提取特征参数生成测试模板;
S52:将测试模板与模板库中的参考模板进行模式匹配;
S53:选择匹配相似度最高的参考模板作为识别结果。
作为上述实施例的进一步改进,所述模板库的特征训练训练和模式匹配采用隐马尔可夫模型方法。
图4为本发明的一个实施方式的结构框图,如图所示,本发明提供的基于分形特征的智能轮椅语音识别控制系统,包括
语音信号输入模块41,用于输入语音信号命令词;
语音信号预处理模块42,用于对语音信号进行预处理;语音的预加重滤波、加窗分帧处理与双门限端点检测;
语音信号的特征参数提取模块43,用于提取经过预处理后语音信号的特征参数;
匹配模块44,用于将特征参数与模板库的模板进行模式匹配;
判断模块45,用于选择匹配相似度最高的模板作为识别结果;
命令转换模块46,用于将该识别结果转换成智能轮椅的运动命令;
控制模块48,用于调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
作为上述实施例的进一步改进,所述语音信号的特征参数提取模块43,包括MFCC参数提取模块、动态特征提取模块、分形特征提取模块和混合特征参数提取模块;
所述MFCC参数提取模块,用于执行以下步骤:
首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
再进行离散FFT变换,取模的平方得到离散功率谱S(n);
在语音的频谱范围内设置若干个带通滤波器;
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中M为滤波器的个数,通常取24,N为一帧语音信号的点数;
将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1;
计算Pm的自然对数,得到Lm,m=0,1,·,M-1
对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数。
所述动态特征提取模块,用于以下公式来计算:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
所述分形特征提取模块,用于提取语音信号的分形维数作为分形特征,执行以下步骤:
将语音信号归一化到单位正方形区域,得到归一化信号x(t)。
将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
所述混合特征参数提取模块,用于形成混合特征参数,将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;其中,ΔMFCC为一阶MFCC差分参数,D为分形维数。分形维数的定义有很多种,如相似维,Hausdorff维,信息维数,关联维数,容量维数和计盒维数等。其中Hausdorff维数是最古老的,也是最重要的一种维数,它对任何集都有定义,其定义为:
D = ( lim δ → 0 ( ln M δ ( F ) / ln δ - 1 )
其中,Mδ(F)表示用单位大小δ来覆盖子集F所需的个数。
作为上述实施例的进一步改进,所述匹配模块中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板。
作为上述实施例的进一步改进,还包括语音输入装置、信号处理装置、无线通信装置47和智能轮椅本体49,所述语音命令信号通过语音输入装置传输到信号处理装置进行信号处理得到控制智能轮椅本体的命令,该控制命令通过无线通信装置传输到智能轮椅本体实现智能轮椅本体的运动,本实施例中的语音输入装置采用麦克风,作为整个语音控制系统的输入;本实施例中的信号处理装置采用笔记本电脑作为整个语音控制系统的上位机,用于处理语音信号;本实施例中的无线通信装置采用路由器,用于上位机和下位机之间的通信;智能轮椅本体是语音控制系统的下位机,用于完成相应的控制动作。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于分形特征的智能轮椅语音识别控制方法,其特征在于:包括以下步骤:
S1:语音信号命令词输入;
S2:对语音信号进行预处理;
S3:提取经过预处理后语音信号的特征参数;
S4:将特征参数与模板库的模板进行模式匹配;
S5:选择匹配相似度最高的模板作为识别结果;
S6:将该识别结果转换成智能轮椅的运动命令;
S7:调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
2.根据权利要求1所述的基于分形特征的智能轮椅语音识别控制方法,其特征在于:所述步骤S2中的预处理,包括语音的预加重滤波、加窗分帧处理与双门限端点检测。
3.根据权利要求1所述的基于分形特征的智能轮椅语音识别控制方法,其特征在于:所述步骤S3中的特征提取包括以下步骤:
S31:提取语音信号的Mel频率倒谱系数MFCC参数;
S311:首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
S312:再进行离散傅立叶变换FFT变换,取模的平方得到离散功率谱S(n);
S313:在语音的频谱范围内设置若干个带通滤波器;在某一频谱范围内的语音可以通过此带通滤波器,而其它范围的语音频谱被衰减至极低值。此带通滤波器如下:
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中Hm(n)为每个带通滤波器的传递函数,M为滤波器的个数,通常取24,N为一帧语音信号的点数;
S314:将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1,此处Pm为中心频率;
S315:计算Pm的自然对数,得到Lm,m=0,1,·,M-1,此处Lm为对数频谱。
S316:对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
S317:舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数;
S32:提取语音的动态特征,作为一帧语音信号的特征参数,
用差分倒谱参数来描述语音的动态特征,计算公式为:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
S33:提取语音信号的分形维数作为分形特征;
S331:将语音信号归一化到单位正方形区域,得到归一化信号x(t);
S332:将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
S 333:令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
S34:提取混合特征参数,
将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;
其中,ΔMFCC为一阶MFCC差分参数,D为分形维数。
4.根据权利要求1所述的基于分形特征的智能轮椅语音识别控制方法,其特征在于:所述步骤S4中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板。
5.根据权利要求1所述的基于分形特征的智能轮椅语音识别控制方法,其特征在于:所述步骤S5包括以下步骤:
S51:从语音信号中提取特征参数生成测试模板;
S52:将测试模板与模板库中的参考模板进行模式匹配;
S53:选择匹配相似度最高的参考模板作为识别结果。
6.根据权利要求1所述的基于分形特征的智能轮椅语音识别控制方法,其特征在于:所述模板库的特征训练训练和模式匹配采用隐马尔可夫模型方法。
7.基于分形特征的智能轮椅语音识别控制系统,其特征在于:包括
语音信号输入模块,用于输入语音信号命令词;
语音信号预处理模块,用于对语音信号进行预处理;语音的预加重滤波、加窗分帧处理与双门限端点检测;
语音信号的特征参数提取模块,用于提取经过预处理后语音信号的特征参数;
匹配模块,用于将特征参数与模板库的模板进行模式匹配;
判断模块,用于选择匹配相似度最高的模板作为识别结果;
命令转换模块,用于将该识别结果转换成智能轮椅的运动命令;
控制模块,用于调用相应的控制函数,驱动智能轮椅按照语音信号进行运动。
8.根据权利要求7所述的基于分形特征的智能轮椅语音识别控制系统,其特征在于:所述语音信号的特征参数提取模块,包括MFCC参数提取模块、动态特征提取模块、分形特征提取模块和混合特征参数提取模块;
所述MFCC参数提取模块,用于执行以下步骤:
首先确定每一帧语音采样序列的点数,对每帧序列s(n)进行预加重滤波处理;
再进行离散FFT变换,取模的平方得到离散功率谱S(n);
在语音的频谱范围内设置若干个带通滤波器;
Hm(n),m=0,1,·,M-1,n=0,1,·,N/2-1
其中M为滤波器的个数,通常取24,N为一帧语音信号的点数;
将离散功率谱转换为Mel频率下的功率谱S(n);
计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,·,M-1;
计算Pm的自然对数,得到Lm,m=0,1,·,M-1
对L0,L1,·,Lm-1计算其离散余弦变换,得到Dm,m=0,1,·,M-1;
舍去代表直流成分的D0,取D1,D2,·,DK作为MFCC参数;
所述动态特征提取模块,用于以下公式来计算:
d ( n ) = 1 Σ i = - k k i 2 Σ i = - k k i · ( n + i )
其中c和d都表示一帧语音参数,k为常数,通常取2,差分参数就称为当前帧的前两帧和后两帧参数的线性组合;由此式计算得到的差分参数为一阶MFCC差分参数,实际使用中,将MFCC参数和各阶MFCC差分参数合并为一个矢量;
所述分形特征提取模块,用于提取语音信号的分形维数作为分形特征,执行以下步骤:
将语音信号归一化到单位正方形区域,得到归一化信号x(t);
将正方形区域划分为边长为s的网格,计算出logN(s),log(1/s),N(s)表示用边长为s的网格覆盖x(t)所需要的最小正方形个数,改变s的大小,计算相应的logN(s),log(1/s);
令xi=log(1/si),yi=logN(si),i=1,2,·,M,利用(xi,yi)最小二乘拟合直线y=kx+b,k即为计盒维数DB,DB的计算公式为:
D B = [ ( Σ i = 1 M y i ) ( Σ i = 1 M x i ) - M ( Σ i = 1 M y i x i ) ] [ ( Σ i = 1 M x i ) 2 - M ( Σ i = 1 M x i 2 ) ] ,
语音信号的分形特征由分形维数来定量表征;由此求出语音信号的分形特征值作为语音信号的特征参数;
所述混合特征参数提取模块,用于形成混合特征参数,将分形维数DB和一阶MFCC差分参数合并到MFCC参数中组成混合的特征参数MFCC+ΔMFCC+D;
其中,ΔMFCC为一阶MFCC差分参数,D为分形维数。
9.根据权利要求7所述的基于分形特征的智能轮椅语音识别控制系统,其特征在于:
所述匹配模块中的模板库是经过特征训练形成的:对语音信号进行预处理后提取特征参数,得到每个语音信号命令词的特征参数模板,保存在模板库中形成该命令词在模板库中的参考模板。
10.根据权利要求7所述的基于分形特征的智能轮椅语音识别控制系统,其特征在于:还包括语音输入装置、信号处理装置、无线通信装置和智能轮椅本体,所述语音命令信号通过语音输入装置传输到信号处理装置进行信号处理得到控制智能轮椅本体的命令,该控制命令通过无线通信装置传输到智能轮椅本体实现智能轮椅本体的运动。
CN2011101091682A 2011-04-28 2011-04-28 基于分形特征的智能轮椅语音识别控制方法及系统 Pending CN102184732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101091682A CN102184732A (zh) 2011-04-28 2011-04-28 基于分形特征的智能轮椅语音识别控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101091682A CN102184732A (zh) 2011-04-28 2011-04-28 基于分形特征的智能轮椅语音识别控制方法及系统

Publications (1)

Publication Number Publication Date
CN102184732A true CN102184732A (zh) 2011-09-14

Family

ID=44570898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101091682A Pending CN102184732A (zh) 2011-04-28 2011-04-28 基于分形特征的智能轮椅语音识别控制方法及系统

Country Status (1)

Country Link
CN (1) CN102184732A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800316A (zh) * 2012-08-30 2012-11-28 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN104306118A (zh) * 2014-11-07 2015-01-28 重庆邮电大学 基于智能手机的智能轮椅椅上家庭监控系统
CN104538029A (zh) * 2014-12-16 2015-04-22 重庆邮电大学 基于语音增强和改进pnsc的鲁棒语音识别方法及系统
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN105250084A (zh) * 2015-10-24 2016-01-20 陈丹 外接式命令编译器
CN105334819A (zh) * 2015-10-24 2016-02-17 陈丹 无线信号传输对接装置
CN106028217A (zh) * 2016-06-20 2016-10-12 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106448659A (zh) * 2016-12-19 2017-02-22 广东工业大学 一种基于短时能量和分形维数的语音端点检测方法
CN106557164A (zh) * 2016-11-18 2017-04-05 北京光年无限科技有限公司 应用于智能机器人的多模态输出方法和装置
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN110047480A (zh) * 2019-04-22 2019-07-23 哈尔滨理工大学 用于社区医院科室查询的辅助管理机器人头部装置及控制
CN110060697A (zh) * 2019-04-14 2019-07-26 湖南检信智能科技有限公司 一种情感特征提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154385A (zh) * 2006-09-28 2008-04-02 北京远大超人机器人科技有限公司 机器人语音动作的控制方法及其所采用的控制系统
WO2008148289A1 (fr) * 2007-06-07 2008-12-11 Shenzhen Institute Of Advanced Technology Système et procédé d'identification audio intelligents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154385A (zh) * 2006-09-28 2008-04-02 北京远大超人机器人科技有限公司 机器人语音动作的控制方法及其所采用的控制系统
WO2008148289A1 (fr) * 2007-06-07 2008-12-11 Shenzhen Institute Of Advanced Technology Système et procédé d'identification audio intelligents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《重庆邮电大学硕士学位论文》 20101115 李艳花 基于特征提取的智能轮椅语音识别控制技术的研究与实现 1-10 , 2 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800316A (zh) * 2012-08-30 2012-11-28 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN102800316B (zh) * 2012-08-30 2014-04-30 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN104306118A (zh) * 2014-11-07 2015-01-28 重庆邮电大学 基于智能手机的智能轮椅椅上家庭监控系统
CN104538029A (zh) * 2014-12-16 2015-04-22 重庆邮电大学 基于语音增强和改进pnsc的鲁棒语音识别方法及系统
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN105334819A (zh) * 2015-10-24 2016-02-17 陈丹 无线信号传输对接装置
CN105250084A (zh) * 2015-10-24 2016-01-20 陈丹 外接式命令编译器
CN106028217A (zh) * 2016-06-20 2016-10-12 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106028217B (zh) * 2016-06-20 2020-01-21 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106557164A (zh) * 2016-11-18 2017-04-05 北京光年无限科技有限公司 应用于智能机器人的多模态输出方法和装置
CN106448659A (zh) * 2016-12-19 2017-02-22 广东工业大学 一种基于短时能量和分形维数的语音端点检测方法
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN110060697A (zh) * 2019-04-14 2019-07-26 湖南检信智能科技有限公司 一种情感特征提取方法
CN110047480A (zh) * 2019-04-22 2019-07-23 哈尔滨理工大学 用于社区医院科室查询的辅助管理机器人头部装置及控制

Similar Documents

Publication Publication Date Title
CN102184732A (zh) 基于分形特征的智能轮椅语音识别控制方法及系统
Dash et al. Detection of COVID-19 from speech signal using bio-inspired based cepstral features
Wang et al. Wavelet packet analysis for speaker-independent emotion recognition
CN103310788A (zh) 一种语音信息识别方法及系统
CN105342769A (zh) 智能电动轮椅
CN110309503A (zh) 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
CN106228977A (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN105919591A (zh) 一种基于表面肌电信号的手语识别发声系统及方法
CN110718234A (zh) 基于语义分割编解码网络的声学场景分类方法
CN103413113A (zh) 一种服务机器人智能情感交互的方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN106340298A (zh) 融合内容识别和话者识别的声纹解锁方法
Guo et al. Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural Network.
CN109977258A (zh) 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN102592593B (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN103294199A (zh) 一种基于脸部肌音信号的无声信息识别系统
CN102664010A (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN116092497A (zh) 一种基于知识图谱和人工智能的语义云脑机器人
Qian et al. Target Classification in Unattended Ground Sensors With a Two-Stream Convolutional Network
CN1242377C (zh) 广州话声纹鉴定方法
Bhushan et al. A Self-Attention Based Hybrid CNN-LSTM for Speaker-Independent Speech Emotion Recognition
Ghorpade et al. ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis
Lai et al. Intelligent speech elderly rehabilitation learning assistance system based on deep learning and sensor networks
Li [Retracted] Application of an Improved LSTM Model to Emotion Recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110914