Nothing Special   »   [go: up one dir, main page]

CN103632677B - 带噪语音信号处理方法、装置及服务器 - Google Patents

带噪语音信号处理方法、装置及服务器 Download PDF

Info

Publication number
CN103632677B
CN103632677B CN201310616654.2A CN201310616654A CN103632677B CN 103632677 B CN103632677 B CN 103632677B CN 201310616654 A CN201310616654 A CN 201310616654A CN 103632677 B CN103632677 B CN 103632677B
Authority
CN
China
Prior art keywords
signal
noise
frame
speech signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310616654.2A
Other languages
English (en)
Other versions
CN103632677A (zh
Inventor
陈国明
彭远疆
莫贤志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Chengdu Co Ltd
Original Assignee
Tencent Technology Chengdu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Chengdu Co Ltd filed Critical Tencent Technology Chengdu Co Ltd
Priority to CN201310616654.2A priority Critical patent/CN103632677B/zh
Publication of CN103632677A publication Critical patent/CN103632677A/zh
Priority to PCT/CN2014/090215 priority patent/WO2015078268A1/en
Priority to US15/038,783 priority patent/US9978391B2/en
Application granted granted Critical
Publication of CN103632677B publication Critical patent/CN103632677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种带噪语音信号处理方法、装置及服务器,属于通信技术领域。所述方法包括:根据带噪语音信号的静默段,获取该带噪语音信号中噪声信号;对于语音信号中的每一帧,根据该噪声信号和该带噪语音信号,获取该语音信号的每一帧的功率谱迭代因子;根据该带噪语音信号、该噪声信号的每一帧和上一帧的功率谱迭代因子,计算语音信号每一帧的中间功率谱;根据该语音信号每一帧的中间功率谱和噪声信号,计算该带噪语音信号中每一帧的信噪比;根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧,获取时域的处理后带噪语音信号。本发明通过功率谱迭代因子对带噪语音信号进行处理,提高了用户的听觉质量。

Description

带噪语音信号处理方法、装置及服务器
技术领域
本发明涉及通信技术领域,特别涉及一种带噪语音信号处理方法、装置及服务器。
背景技术
现实生活中的语音不可避免地要受到周围环境噪声的影响,为了改善听觉质量,需要对语音信号进行去噪处理。
在进行去噪处理时,通常采用基于短时幅度谱估计的算法,即在频域内,利用原始语音信号的功率谱和噪声信号的功率谱得到语音信号的功率谱,并根据语音信号的功率谱计算得到语音信号的幅度谱,通过傅里叶反变换得到时域的语音信号。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
对于信号的功率谱估计,通常的做法是采用固定迭代因子的迭代算法,该算法往往对于白噪声有效,不能及时跟踪语音或者噪声的变化,因此遇到有色噪声时性能急剧下降。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种带噪语音信号处理方法、装置及服务器。所述技术方案如下:
第一方面,提供了一种带噪语音信号处理方法,所述方法包括:
根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
其中,所述根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号包括:
根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;
根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;
根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;
以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
第二方面,提供了一种带噪语音信号处理装置,所述装置包括:
噪声信号获取模块,用于根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
功率谱迭代因子获取模块,用于对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
语音信号中间功率谱获取模块,用于对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
信噪比获取模块,用于根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
带噪语音信号处理模块,用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
其中,所述带噪语音信号处理模块包括:
修正因子获取单元,用于根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;
传递函数获取单元,用于根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;
幅度谱获取单元,用于根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;
带噪语音信号处理单元,用于以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
第三方面,提供了一种服务器,所述服务器包括:处理器和存储器,所述处理器与所述存储器相连接,
所述处理器,用于根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
所述处理器还用于对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
所述处理器还用于对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
所述处理器还用于根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
所述处理器还用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
所述处理器具体用于:根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
本发明实施例提供的技术方案带来的有益效果是:
通过带噪语音信号和噪声信号确定功率谱迭代因子,基于功率谱迭代因子得到语音信号的中间功率谱,服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪,使得每一帧带噪语音信号在相减前后频谱误差减小,从而提高增强后的语音信号信噪比,大大减少了语音信号中夹杂的噪声,提高了用户的听觉质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种带噪语音信号处理方法流程图;
图2是本发明实施例提供的一种带噪语音信号处理方法流程图;
图3是本发明实施例提供的一种语音信号流转示意图;
图4是本发明实施例提供的一种带噪语音信号处理装置结构示意图;
图5是本发明实施例提供的一种服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种带噪语音信号处理方法流程图。参见图1,该实施例的执行主体为服务器,该方法包括:
101、根据带噪语音信号的静默段,获取该带噪语音信号中噪声信号,该带噪语音信号包括语音信号和噪声信号,该带噪语音信号为频域信号。
102、对于该语音信号中的每一帧,根据该噪声信号和该带噪语音信号,获取该语音信号的每一帧的功率谱迭代因子。
103、对于该语音信号中的每一帧,根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱。
104、根据该语音信号每一帧的中间功率谱和噪声信号,计算该带噪语音信号中每一帧的信噪比。
105、根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧,获取时域的处理后带噪语音信号。
本发明实施例提供的方法,通过带噪语音信号和噪声信号确定功率谱迭代因子,基于功率谱迭代因子得到语音信号的中间功率谱,服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪,使得每一帧带噪语音信号在相减前后频谱误差减小,从而提高增强后的语音信号信噪比,大大减少了语音信号中夹杂的噪声,提高了用户的听觉质量。
图2是本发明实施例提供的一种带噪语音信号处理方法流程图。参见图2,该实施例的执行主体为服务器,该方法流程包括:
201、服务器根据带噪语音信号的静默段,获取该带噪语音信号中噪声信号,该带噪语音信号包括语音信号和噪声信号,该带噪语音信号为频域信号。
在现实生活中,语音不可避免的会受到周围环境噪声的影响,因此原始语音信号中不仅包括语音信号,还包括了噪声信号,该原始语音信号为时域信号。该原始语音信号可以表示为y(m,n)=x(m,n)+d(m,n),其中,m为帧号,且m=1,2,3,…,n=0,1,2,…,N-1,N为帧长,x(m,n)为时域的语音信号,d(m,n)为时域的噪声信号。该服务器将该原始语音信号进行傅里叶变换,将该原始语音信号变换为频域信号,得到带噪语音信号,该带噪语音信号可以表示为Y(m,k)=X(m,k)+D(m,k),其中,m为帧号,k为离散频率,X(m,k)为频域的语音信号,D(m,k)为频域的噪声信号。
该服务器用于对语音信号进行去噪处理,该服务器可以为即时通信应用的服务器、会议服务器等。
由于带噪语音信号中带有噪声信号,为了降低噪声信号对语音信号的影响,需要对带噪语音信号中噪声信号进行检测。步骤201具体为:服务器根据预设检测算法对带噪语音信号的静默段进行检测,得到带噪语音信号的静默段,服务器得到带噪语音信号的静默段之后,可以将该带噪语音信号静默段对应的帧确定噪声信号。其中,静默段是指带噪语音信号中语音信号有停顿的时间段。
其中,预设检测算法可以由技术人员在开发时设置,也可以由用户在使用的过程中调整,本发明实施例对此不做限定。该预设检测算法具体可以为语音活动检测算法等。
202、对于该语音信号中的第m帧,服务器根据该噪声信号和该带噪语音信号的第m-1帧,计算该语音信号的第m帧的方差
具体地,对于该语音信号中的第m帧,服务器将该噪声信号的第m-1帧D(m-1,k)的期望E{|D(m-1,k)|2}和该带噪语音信号的第m-1帧Y(m-1,k)的期望E{|Y(m-1,k)|2},代入公式中,得到该语音信号的第m帧的方差
203、服务器根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n)。
由于每一帧带噪语音信号之间是相关的,如果不对语音信号进行跟踪并处理,那么就会在带噪语音信号与噪声信号进行相减前后的带噪语音信号的频谱上产生误差,形成音乐噪声,为了能够较好的对语音信号进行跟踪,可以设定一个随每一帧语音信号变化而变化的参量,即功率谱迭代因子α(m,n)。
具体地,服务器将该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差代入公式中,得到该语音信号的第m帧的功率谱迭代因子α(m,n)。其中,α(m,n)opt为最小均方条件下α(m,n)的最优取值,且其中,m为语音信号的帧数,n=0,1,2,3…,N-1,N为帧长,为该语音信号的第m-1帧的功率谱,其中,当m=1时, 为该语音信号的功率谱预设初值,λmin为该语音信号的功率谱最小值。
例如,以第1帧语音信号为例,即m=1,功率谱迭代因子为α(1,n),语音信号功率的预设初值为当m=1时,服务器根据步骤202计算得到第1帧语音信号的方差服务器将该预设初值和第1帧语音信号的方差代入公式中,得到α(1,n)opt,并判断α(1,n)opt与1和0的大小关系,从而确定功率谱迭代因子α(1,n)的取值。
对于信号的功率谱估计,通常的做法是采用固定迭代因子的迭代算法,该算法往往对于白噪声有效,遇到有色噪声时性能急剧下降,究其原因在于不能及时跟踪语音或者噪声的变化。在本发明实施例中通过采用最小均方准则对语音进行跟踪,能够更准确的估计信号的功率谱。
204、对于该语音信号中的每一帧,服务器根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱。
其中,语音信号的中间功率谱是根据一般信号的功率谱的迭代平均公式而得到。其中,α为常数,且0≤α≤1。由于每一帧带噪语音信号之间的相关性,以及为了能够较好的对语音信号进行跟踪,可以将常数α替换为随每一帧语音信号而变化的参量,即功率谱迭代因子α(m,n),则语音信号的第m帧的中间功率谱即为
λ ^ X m | m - 1 = max { ( 1 - α ( m , n ) ) λ ^ X m - 1 | m - 1 + α ( m , n ) A m - 1 2 , λ min } .
具体地,服务器根据该带噪语音信号、该噪声信号的第m-1帧,利用公式得到第m-1帧语音信号的功率谱,对于第m-1帧语音信号,服务器根据该帧语音信号的功率谱、该功率谱迭代因子和语音信号功率的预设初值,利用公式得到该第m帧语音信号的中间功率谱。其中,为第m帧语音信号的中间功率谱,Am-1为第m-1帧语音信号的幅度谱,且λmin为语音信号的功率谱最小值。
205、服务器根据该语音信号每一帧的中间功率谱和噪声信号,计算该带噪语音信号中每一帧的信噪比。
具体地,服务器根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱,利用公式得到该带噪语音信号的第m帧的中间信噪比,其中,为该带噪语音信号的第m帧的中间信噪比,为该噪声信号的第m-1帧的功率谱,且服务器根据该带噪语音信号的第m帧的中间信噪比,利用公式得到该带噪语音信号的第m帧的信噪比,其中,为该带噪语音信号的第m帧的信噪比。
需要说明的是,上述步骤201~205为:当服务器根据语音信号功率谱的预设初值,得到第1帧语音信号的功率谱迭代因子后,进一步得到第1帧带噪语音信号的信噪比的过程,服务器完成上述过程后,服务器根据第1帧带噪语音信号的信噪比,利用公式得到第1帧带噪语音信号的功率谱,服务器将该第1帧带噪语音信号的功率谱代入功率谱迭代因子表达式中,计算第2帧语音信号的功率谱迭代因子,并执行步骤202~205的过程。进一步地,对于该语音信号的第m帧,根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧,计算该语音信号的第m帧的功率谱;基于该语音信号的第m帧的功率谱,计算该语音信号的第m+1帧的功率谱迭代因子,服务器进行如上述迭代运算得到每一帧带噪语音信号的信噪比。
206、服务器根据该带噪语音信号和该噪声信号的第m帧,计算该噪声信号的第m帧的掩蔽阈值。
具体地,服务器根据带噪语音信号Y(m,k)=X(m,k)+D(m,k)的实部Re(ω)与虚部Im(ω),计算该带噪语音信号的功率谱密度P(ω)=Re2(ω)+Im2(ω),根据该带噪语音信号的功率谱密度P(ω),获取第一掩蔽阈值根据该第一掩蔽阈值和绝对听阈,得到该噪声信号的第m帧T′(m,k′)=max(T(k′),Tabx(k′))。其中,C(k′)=B(k′)*SF(k′), B(k′)表示各个临界频带的能量,bli和bhi分别表示临界频带i的上限和下限,k′为临界频带序号,且与采样率有关,
O(k′)=αSFM×(14.5+k′)+(1-αSFM)×5.5,为谱平坦测度,Gm是功率谱密度的几何平均值,Am是功率谱密度的算术平均值,为音调系数,Tabx(k′)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4为绝对听阈,f为带噪语音信号的采样频率。
如果得到的该噪声信号的第m帧的第一掩蔽阈值小于人耳的绝对听阈,将该第一掩蔽阈值确定为该噪声信号的第m帧掩蔽阈值就没有实际意义了,因此,对于该第一掩蔽阈值小于绝对听阈时,需要将该绝对听阈确定为该噪声信号的第m帧掩蔽阈值,则该噪声信号的第m帧的掩蔽阈值表示为T′(m,k′)=max(T(k′),Tabx(k′))。
207、服务器根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值,利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k)。
具体地,服务器根据噪声信号,利用公式得到每一帧噪声信号的方差,服务器根据得到的每一帧语音信号的方差、每一帧噪声信号的方差、掩蔽阈值和每一帧带噪语音信号的信噪比,利用不等式得到修正因子μ(m,k)的取值范围。其中,为带噪语音信号的第m帧的信噪比,为该语音信号的第m帧的方差,为该噪声信号的第m帧的方差,T′(m,k′)为该噪声信号的第m帧的掩蔽阈值。
其中,该修正因子由该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值确定,该修正因子可以根据具体情况,通过该修正因子动态的改变传递函数的形态,达到对语音畸变和残留噪声信号两种情况下的最佳折中处理,改善用户的听觉质量。
需要说明的是,该步骤207得到的是修正因子的取值范围,当需要该修正因子进行后续步骤208的计算时,服务器会根据该修正因子的取值范围,确定该修正因子的具体取值,优选地,服务器将该修正因子的取值范围中的最大值作为该修正因子的具体取值,当然,该修正因子在进行具体取值时,也可以选取除该取值范围内最大值以外的其它数值,作为该修正因子的具体取值,本发明实施例对此不做限定。
进一步地,当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时,通过掩蔽阈值,确定修正因子,该修正因子可以动态的改变传递函数的形状,以达到对语音畸变和残留噪声两种情况下的最佳折中,进一步改善了用户的听觉质量。
208、服务器根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,计算该带噪语音信号的第m帧的传递函数。
具体地,根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,利用公式得到该带噪语音信号的第m帧的传递函数其中,为该带噪语音信号的第m帧的信噪比。
209、服务器根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱。
具体地,服务器根据带噪语音信号,得到带噪语音信号的第m帧的幅度谱,服务器将带噪语音信号的第m帧的幅度谱和对应的传递函数,利用公式得到处理后带噪语音信号的第m帧的幅度谱其中,为带噪语音信号的第m帧的幅度谱。
210、服务器以该带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
具体地,服务器获取带噪语音信号的相位,服务器将该相位作为处理后带噪语音信号的相位,并根据得到的处理后带噪语音信号的第m帧的幅度谱,得到频域的处理后带噪语音信号的第m帧,服务器将该频域的处理后带噪语音信号的第m帧进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
以第m帧带噪语音信号为例,服务器获取带噪语音信号的相位服务器根据步骤209得到第m帧语音信号的幅度谱为则第m帧频域的处理后带噪语音信号为服务器对该第m帧频域的处理后带噪语音信号进行傅里叶反变换,得到第m帧时域的处理后带噪语音信号,以上述方法进行迭代计算,可以得到每一帧时域的处理后带噪语音信号。
需要说明的是,上述步骤202~210是根据带噪语音信号的第m-1帧、噪声信号的第m-1帧,获取语音信号的第m帧的功率谱迭代因子,进一步得到语音信号的第m帧的中间功率谱,得到带噪语音信号的第m帧的信噪比,并根据掩蔽阈值取定带噪语音信号的第m帧的修正因子,从而获取时域的处理后带噪语音信号的第m帧,在得到时域的处理后带噪语音信号的第m帧后,服务器继续根据上述步骤202~210的过程进行迭代计算,得到每一帧时域的处理后带噪语音信号。
为了使上述步骤201~210的过程更清晰明了,图3是本发明实施例提供的一种语音信号流转示意图。参见图3,接收到的原始语音信号为y(m,n)=x(m,n)+d(m,n),该原始语音信号经过傅里叶变换得到带噪语音信号,根据语音信号的功率谱预设初值,得到每一帧语音信号的功率谱迭代因子,根据该每一帧语音信号的功率谱迭代因子,得到每一帧语音信号的中间功率谱,进一步得到每一帧带噪语音信号的信噪比,服务器根据得到的每一帧带噪语音信号的信噪比和修正因子,计算传递函数,根据该传递函数和带噪语音信号的幅度谱,得到处理后带噪语音信号的幅度谱,服务器进行相位恢复,也即是以带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号。
下面对步骤203中,在最小均方条件下迭代因子的推导过程进行说明:
由于带噪语音信号的每一帧之间是相关的,如果得到的语音功率谱不能及时的跟踪语音的变化,则该语音信号会在频谱上产生误差,因此而导致音乐噪声。为了对语音信号每一帧的能量进行很好的跟踪,可以利用最小均方条件来对语音信号进行处理,具体过程如下:
可以令
J ( α ( m , n ) ) = E { ( λ ^ X m | m - 1 - σ s 2 ) 2 | λ ^ X m - 1 | m - 1 } = E { ( ( 1 - α ( m , n ) ) λ ^ X m | m - 1 + α ( m , n ) A m - 1 2 - σ s 2 ) 2 } = E { [ ( 1 - α ( m , n ) ) λ ^ X m | m - 1 ] 2 + [ α ( m , n ) A m - 1 2 ] 2 + σ s 4 + 2 α ( m , n ) ( 1 - α ( m , n ) ) A m - 1 2 λ ^ X m | m - 1 - 2 σ s 2 ( 1 - α ( m , n ) ) λ ^ X m | m - 1 - 2 σ s 2 α ( m , n ) A m - 1 2 }
上式对α(m,n)求一阶偏导数,并令该一阶偏导数为0,即得到
α ( m , n ) o p t = λ ^ X m - 1 | m - 1 2 - λ ^ X m - 1 | m - 1 ( E { A m - 1 2 } + σ s 2 ) + σ s 2 E { A m - 1 2 } λ ^ X m - 1 | m - 1 2 - 2 E { A m - 1 2 } λ ^ X m - 1 | m - 1 + E { A m - 1 4 }
如果幅度A服从标准高斯分布
α ( m , n ) o p t = ( λ ^ X m - 1 | m - 1 - σ s 2 ) 2 λ ^ X m - 1 | m - 1 2 - 2 σ s 2 λ ^ X m - 1 | m - 1 + 3 σ s 4
则最小均方条件下,功率谱迭代因子即为:
&alpha; ( m , n ) = 0 &alpha; ( m , n ) o p t &le; 0 &alpha; ( m , n ) o p t 0 < &alpha; ( m , n ) o p t < 1 1 &alpha; ( m , n ) o p t &GreaterEqual; 1 .
下面对步骤207中,修正因子所满足的不等式推导过程进行说明:
如果以表示处理后带噪语音信号的幅度谱,由于人耳对频域带噪语音信号中幅度谱的变化相比于相位更敏感,定义如下误差函数:
&delta; ( m , k ) = X 2 ( m , k ) - X ^ 2 ( m , k ) ,
根据人耳可听闻域的要求,令:
E[|δ(m,k)|]≤T′(m,k),即令畸变噪声信号的能量在掩蔽阈值以下,而不被人耳感知。为了推导方便,令则有
E { | &delta; ( m , k ) | } = E { | X 2 ( m , k ) - X ^ 2 ( m , k ) | } = E { | X 2 ( m , k ) - M 2 Y 2 ( m , k ) | } = E { | X 2 ( m , k ) - M 2 ( X ( m , k ) + D ( m , k ) ) 2 | } = | E { X 2 ( m , k ) } - M 2 E ( X ( m , k ) + D ( m , k ) ) 2 } | = | E { X 2 ( m , k ) } - M 2 ( E { X 2 ( m , k ) } + E { D 2 ( m , k ) } ) | &le; T &prime; ( m , k &prime; )
由于则上式可写为:
&sigma; s 2 - T &prime; ( m , k &prime; ) &le; | M 2 ( &sigma; s 2 + &sigma; d 2 ) | &le; &sigma; s 2 + T &prime; ( m , k &prime; ) .
时,即语音信号功率小于掩蔽阈值时,μ(m,k)=1;当时,即语音信号功率大于掩蔽阈值时,由于M>0,所以,可以看出不等号两边相当于在维纳滤波的基础上做了修正。
化简上述不等式,得到
&xi; ^ m | m &sigma; s 2 + &sigma; d 2 &sigma; s 2 + T &prime; ( m , k &prime; ) - &xi; ^ m | m &le; &mu; ( m , k ) &le; &xi; ^ m | m &sigma; s 2 + &sigma; d 2 &sigma; s 2 - T &prime; ( m , k &prime; ) - &xi; ^ m | m .
本发明实施例提供的方法,通过带噪语音信号和噪声信号确定功率谱迭代因子,基于功率谱迭代因子得到语音信号的中间功率谱,服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪,使得每一帧带噪语音信号在相减前后频谱误差减小,从而提高增强后的语音信号信噪比,大大减少了语音信号中夹杂的噪声,提高了用户的听觉质量。进一步地,当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时,通过掩蔽阈值,确定修正因子,该修正因子可以动态的改变传递函数的形状,以达到对语音畸变和残留噪声两种情况下的最佳折中,进一步改善了用户的听觉质量。
图4是本发明实施例提供的一种带噪语音信号处理装置结构示意图。参见图4,该装置包括:噪声信号获取模块401、功率谱迭代因子获取模块402、语音信号中间功率谱获取模块403、信噪比获取模块404、带噪语音信号处理模块405。其中,噪声信号获取模块401,用于根据带噪语音信号的静默段,获取该带噪语音信号中噪声信号,该带噪语音信号包括语音信号和噪声信号,该带噪语音信号为频域信号;噪声信号获取模块401与功率谱迭代因子获取模块402相连接,功率谱迭代因子获取模块402,用于对于该语音信号中的每一帧,根据该噪声信号和该带噪语音信号,获取该语音信号的每一帧的功率谱迭代因子;功率谱迭代因子获取模块402与语音信号中间功率谱获取模块403相连接,语音信号中间功率谱获取模块403,用于对于该语音信号中的每一帧,根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;语音信号中间功率谱获取模块403与信噪比获取模块404相连接,信噪比获取模块404,用于根据该语音信号每一帧的中间功率谱和噪声信号,计算该带噪语音信号中每一帧的信噪比;信噪比获取模块404与带噪语音信号处理模块405相连接,带噪语音信号处理模块405,用于根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧,获取时域的处理后带噪语音信号。
可选地,该功率谱迭代因子获取模块402还用于对于该语音信号中的第m帧,根据该噪声信号和该带噪语音信号的第m-1帧,计算该语音信号的第m帧的方差该语音信号的第m帧的方差根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n),该语音信号的第m帧的功率谱迭代因子其中,α(m,n)opt为最小均方条件下α(m,n)的最优取值,且其中,m为语音信号的帧数,n=0,1,2,3…,N-1,N为帧长,为该语音信号的第m-1帧的功率谱,其中,当m=1时, 为该语音信号的功率谱预设初值,λmin为该语音信号的功率谱最小值。
可选地,该语音信号中间功率谱获取模块403还用于根据该带噪语音信号、该噪声信号的第m-1帧和该语音信号的第m帧的功率谱迭代因子,利用公式得到该语音信号的第m帧的中间功率谱,为该语音信号的第m帧的中间功率谱,Am-1为该语音信号的第m-1帧的幅度谱,且λmin为该语音信号的功率谱最小值。
可选地,该带噪语音信号处理模块405包括:
修正因子获取单元,用于根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值,计算该带噪语音信号的第m帧的修正因子;
传递函数获取单元,用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,计算该带噪语音信号的第m帧的传递函数;
幅度谱获取单元,用于根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;
带噪语音信号处理单元,用于以该带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
可选地,该修正因子获取单元还用于根据该带噪语音信号和该噪声信号的第m帧,计算该噪声信号的第m帧的掩蔽阈值;根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值,利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k),其中,为带噪语音信号的第m帧的信噪比,为该语音信号的第m帧的方差,为该噪声信号的第m帧的方差,T′(m,k′)为该噪声信号的第m帧的掩蔽阈值,k′为临界频带序号,k为离散频率。
可选地,该传递函数获取单元还用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,利用公式得到该带噪语音信号的第m帧的传递函数其中,为该带噪语音信号的第m帧的信噪比。
可选地,该装置还包括:
语音信号功率谱获取模块,用于对于该语音信号的第m帧,根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧,计算该语音信号的第m帧的功率谱;
该功率谱迭代因子获取模块402还用于基于该语音信号的第m帧的功率谱,计算该语音信号的第m+1帧的功率谱迭代因子。
可选地,该信噪比获取模块404还用于根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱,利用公式得到该带噪语音信号的第m帧的中间信噪比,其中,为该带噪语音信号的第m帧的中间信噪比,为该噪声信号的第m-1帧的功率谱,且根据该带噪语音信号的第m帧的中间信噪比,利用公式得到该带噪语音信号的第m帧的信噪比,其中,为该带噪语音信号的第m帧的信噪比。
综上所述,本发明实施例提供的装置,通过带噪语音信号和噪声信号确定功率谱迭代因子,基于功率谱迭代因子得到语音信号的中间功率谱,服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪,使得每一帧带噪语音信号在相减前后频谱误差减小,从而提高增强后的语音信号信噪比,大大减少了语音信号中夹杂的噪声,提高了用户的听觉质量。进一步地,当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时,通过掩蔽阈值,确定修正因子,该修正因子可以动态的改变传递函数的形状,以达到对语音畸变和残留噪声两种情况下的最佳折中,进一步改善了用户的听觉质量。
需要说明的是:上述实施例提供的带噪语音信号处理装置在对带噪语音信号处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的带噪语音信号处理装置与带噪语音信号处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本发明实施例提供的一种服务器结构示意图。参见图4,该服务器包括:处理器501和存储器502,该处理器501与该存储器502相连接,
该处理器501,用于根据带噪语音信号的静默段,获取该带噪语音信号中噪声信号,该带噪语音信号包括语音信号和噪声信号,该带噪语音信号为频域信号;
该处理器501还用于对于该语音信号中的每一帧,根据该噪声信号和该带噪语音信号,获取该语音信号的每一帧的功率谱迭代因子;
该处理器501还用于对于该语音信号中的每一帧,根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
该处理器501还用于根据该语音信号每一帧的中间功率谱和噪声信号,计算该带噪语音信号中每一帧的信噪比;
该处理器501还用于根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧,获取时域的处理后带噪语音信号。
可选地,该处理器501还用于对于该语音信号中的第m帧,根据该噪声信号和该带噪语音信号的第m-1帧,计算该语音信号的第m帧的方差该语音信号的第m帧的方差根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n),该语音信号的第m帧的功率谱迭代因子其中,α(m,n)opt为最小均方条件下α(m,n)的最优取值,且其中,m为语音信号的帧数,n=0,1,2,3…,N-1,N为帧长,为该语音信号的第m-1帧的功率谱,其中,当m=1时, 为该语音信号的功率谱预设初值,λmin为该语音信号的功率谱最小值。
可选地,该处理器501还用于根据该带噪语音信号、该噪声信号的第m-1帧和该语音信号的第m帧的功率谱迭代因子,利用公式得到该语音信号的第m帧的中间功率谱,为该语音信号的第m帧的中间功率谱,Am-1为该语音信号的第m-1帧的幅度谱,且λmin为该语音信号的功率谱最小值。
可选地,该处理器501还用于根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值,计算该带噪语音信号的第m帧的修正因子;根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,计算该带噪语音信号的第m帧的传递函数;根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;以该带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
可选地,该处理器501还用于根据该带噪语音信号和该噪声信号的第m帧,计算该噪声信号的第m帧的掩蔽阈值;根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值,利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k),其中,为带噪语音信号的第m帧的信噪比,为该语音信号的第m帧的方差,为该噪声信号的第m帧的方差,T′(m,k′)为该噪声信号的第m帧的掩蔽阈值,k′为临界频带序号,k为离散频率。
可选地,该处理器501还用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子,利用公式得到该带噪语音信号的第m帧的传递函数其中,为该带噪语音信号的第m帧的信噪比。
可选地,该处理器501还用于对于该语音信号的第m帧,根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧,计算该语音信号的第m帧的功率谱;基于该语音信号的第m帧的功率谱,计算该语音信号的第m+1帧的功率谱迭代因子。
可选地,该处理器501还用于根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱,利用公式得到该带噪语音信号的第m帧的中间信噪比,其中,为该带噪语音信号的第m帧的中间信噪比,为该噪声信号的第m-1帧的功率谱,且根据该带噪语音信号的第m帧的中间信噪比,利用公式得到该带噪语音信号的第m帧的信噪比,其中,为该带噪语音信号的第m帧的信噪比。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种带噪语音信号处理方法,其特征在于,所述方法包括:
根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
其中,所述根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号包括:
根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;
根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;
根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;
以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
2.根据权利要求1所述的方法,其特征在于,对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子包括:
对于所述语音信号中的第m帧,根据所述噪声信号和所述带噪语音信号的第m-1帧,计算所述语音信号的第m帧的方差所述语音信号的第m帧的方差其中,Y(m-1,k)为所述带噪语音信号的第m-1帧,D(m-1,k)为所述噪声信号的第m-1帧;
根据所述语音信号的第m-1帧的功率谱和所述语音信号的第m帧的方差获取所述语音信号的第m帧的功率谱迭代因子α(m,n),所述语音信号的第m帧的功率谱迭代因子其中,α(m,n)opt为最小均方条件下α(m,n)的最优取值,且其中,m为语音信号的帧数,n=0,1,2,3…,N-1,N为帧长,为所述语音信号的第m-1帧的功率谱,其中,当m=1时, 为所述语音信号的功率谱预设初值,λmin为所述语音信号的功率谱最小值。
3.根据权利要求2所述的方法,其特征在于,对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱包括:
根据所述带噪语音信号、所述噪声信号的第m-1帧和所述语音信号的第m帧的功率谱迭代因子,利用公式得到所述语音信号的第m帧的中间功率谱,为所述语音信号的第m帧的中间功率谱,Am-1为所述语音信号的第m-1帧的幅度谱,且λmin为所述语音信号的功率谱最小值。
4.根据权利要求1所述的方法,其特征在于,根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子包括:
根据所述带噪语音信号和所述噪声信号的第m帧,计算所述噪声信号的第m帧的掩蔽阈值;
根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,利用不等式得到所述带噪语音信号的第m帧的修正因子μ(m,k),其中,为带噪语音信号的第m帧的信噪比,为所述语音信号的第m帧的方差,为所述噪声信号的第m帧的方差,T′(m,k′)为所述噪声信号的第m帧的掩蔽阈值,k′为临界频带序号,k为离散频率。
5.根据权利要求4所述的方法,其特征在于,根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数包括:
根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,利用公式得到所述带噪语音信号的第m帧的传递函数其中,为所述带噪语音信号的第m帧的信噪比。
6.根据权利要求1所述的方法,其特征在于,根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比之后,所述方法还包括:
对于所述语音信号的第m帧,根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧,计算所述语音信号的第m帧的功率谱;
基于所述语音信号的第m帧的功率谱,计算所述语音信号的第m+1帧的功率谱迭代因子。
7.根据权利要求3所述的方法,其特征在于,根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比包括:
根据所述噪声信号的第m-1帧和所述语音信号的第m帧的中间功率谱,利用公式得到所述带噪语音信号的第m帧的中间信噪比,其中,为所述带噪语音信号的第m帧的中间信噪比,为所述噪声信号的第m-1帧的功率谱,且
根据所述带噪语音信号的第m帧的中间信噪比,利用公式得到所述带噪语音信号的第m帧的信噪比,其中,为所述带噪语音信号的第m帧的信噪比。
8.一种带噪语音信号处理装置,其特征在于,所述装置包括:
噪声信号获取模块,用于根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
功率谱迭代因子获取模块,用于对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
语音信号中间功率谱获取模块,用于对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
信噪比获取模块,用于根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
带噪语音信号处理模块,用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
其中,所述带噪语音信号处理模块包括:
修正因子获取单元,用于根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;
传递函数获取单元,用于根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;
幅度谱获取单元,用于根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;
带噪语音信号处理单元,用于以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
9.根据权利要求8所述的装置,其特征在于,所述功率谱迭代因子获取模块还用于对于所述语音信号中的第m帧,根据所述噪声信号和所述带噪语音信号的第m-1帧,计算所述语音信号的第m帧的方差所述语音信号的第m帧的方差其中,Y(m-1,k)为所述带噪语音信号的第m-1帧,D(m-1,k)为所述噪声信号的第m-1帧;根据所述语音信号的第m-1帧的功率谱和所述语音信号的第m帧的方差获取所述语音信号的第m帧的功率谱迭代因子α(m,n),所述语音信号的第m帧的功率谱迭代因子其中,α(m,n)opt为最小均方条件下α(m,n)的最优取值,且其中,m为语音信号的帧数,n=0,1,2,3…,N-1,N为帧长,为所述语音信号的第m-1帧的功率谱,其中,当m=1时, 为所述语音信号的功率谱预设初值,λmin为所述语音信号的功率谱最小值。
10.根据权利要求9所述的装置,其特征在于,所述语音信号中间功率谱获取模块还用于根据所述带噪语音信号、所述噪声信号的第m-1帧和所述语音信号的第m帧的功率谱迭代因子,利用公式得到所述语音信号的第m帧的中间功率谱,为所述语音信号的第m帧的中间功率谱,Am-1为所述语音信号的第m-1帧的幅度谱,且λmin为所述语音信号的功率谱最小值。
11.根据权利要求8所述的装置,其特征在于,所述修正因子获取单元还用于根据所述带噪语音信号和所述噪声信号的第m帧,计算所述噪声信号的第m帧的掩蔽阈值;根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,利用不等式得到所述带噪语音信号的第m帧的修正因子μ(m,k),其中,为带噪语音信号的第m帧的信噪比,为所述语音信号的第m帧的方差,为所述噪声信号的第m帧的方差,T′(m,k′)为所述噪声信号的第m帧的掩蔽阈值,k′为临界频带序号,k为离散频率。
12.根据权利要求11所述的装置,其特征在于,所述传递函数获取单元还用于根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,利用公式得到所述带噪语音信号的第m帧的传递函数其中,为所述带噪语音信号的第m帧的信噪比。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
语音信号功率谱获取模块,用于对于所述语音信号的第m帧,根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧,计算所述语音信号的第m帧的功率谱;
所述功率谱迭代因子获取单元还用于基于所述语音信号的第m帧的功率谱,计算所述语音信号的第m+1帧的功率谱迭代因子。
14.根据权利要求10所述的装置,其特征在于,所述信噪比获取模块还用于根据所述噪声信号的第m-1帧和所述语音信号的第m帧的中间功率谱,利用公式得到所述带噪语音信号的第m帧的中间信噪比,其中,为所述带噪语音信号的第m帧的中间信噪比,为所述噪声信号的第m-1帧的功率谱,且根据所述带噪语音信号的第m帧的中间信噪比,利用公式得到所述带噪语音信号的第m帧的信噪比,其中,为所述带噪语音信号的第m帧的信噪比。
15.一种服务器,其特征在于,所述服务器包括:处理器和存储器,所述处理器与所述存储器相连接,
所述处理器,用于根据带噪语音信号的静默段,获取所述带噪语音信号中噪声信号,所述带噪语音信号包括语音信号和噪声信号,所述带噪语音信号为频域信号;
所述处理器还用于对于所述语音信号中的每一帧,根据所述噪声信号和所述带噪语音信号,获取所述语音信号的每一帧的功率谱迭代因子;
所述处理器还用于对于所述语音信号中的每一帧,根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子,计算语音信号每一帧的中间功率谱;
所述处理器还用于根据所述语音信号每一帧的中间功率谱和噪声信号,计算所述带噪语音信号中每一帧的信噪比;
所述处理器还用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧,获取时域的处理后带噪语音信号;
所述处理器具体用于:根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值,计算所述带噪语音信号的第m帧的修正因子;根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子,计算所述带噪语音信号的第m帧的传递函数;根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱,计算处理后带噪语音信号的第m帧的幅度谱;以所述带噪语音信号的相位作为处理后带噪语音信号的相位,基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换,得到时域的处理后带噪语音信号的第m帧。
CN201310616654.2A 2013-11-27 2013-11-27 带噪语音信号处理方法、装置及服务器 Active CN103632677B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310616654.2A CN103632677B (zh) 2013-11-27 2013-11-27 带噪语音信号处理方法、装置及服务器
PCT/CN2014/090215 WO2015078268A1 (en) 2013-11-27 2014-11-04 Method, apparatus and server for processing noisy speech
US15/038,783 US9978391B2 (en) 2013-11-27 2014-11-04 Method, apparatus and server for processing noisy speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310616654.2A CN103632677B (zh) 2013-11-27 2013-11-27 带噪语音信号处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN103632677A CN103632677A (zh) 2014-03-12
CN103632677B true CN103632677B (zh) 2016-09-28

Family

ID=50213654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310616654.2A Active CN103632677B (zh) 2013-11-27 2013-11-27 带噪语音信号处理方法、装置及服务器

Country Status (3)

Country Link
US (1) US9978391B2 (zh)
CN (1) CN103632677B (zh)
WO (1) WO2015078268A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632677B (zh) 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
CN106571146B (zh) * 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法
CN106067847B (zh) * 2016-05-25 2019-10-22 腾讯科技(深圳)有限公司 一种语音数据传输方法及装置
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
DE102017112484A1 (de) * 2017-06-07 2018-12-13 Carl Zeiss Ag Verfahren und Vorrichtung zur Bildkorrektur
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
CN113012711B (zh) * 2019-12-19 2024-03-22 中国移动通信有限公司研究院 一种语音处理方法、装置及设备
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法
CN113963710B (zh) * 2021-10-19 2024-12-13 北京融讯科创技术有限公司 一种语音增强方法、装置、电子设备和存储介质
CN117995215B (zh) * 2024-04-03 2024-06-18 深圳爱图仕创新科技股份有限公司 语音信号的处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1373930A (zh) * 1999-09-07 2002-10-09 艾利森电话股份有限公司 一种利用频谱减法抑制噪声的数字滤波器设计方法和装置
CN1430778A (zh) * 2001-03-28 2003-07-16 三菱电机株式会社 噪声抑制装置
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
CN102157156A (zh) * 2011-03-21 2011-08-17 清华大学 一种单通道语音增强的方法和系统
US8180064B1 (en) * 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
CN102800332A (zh) * 2011-05-24 2012-11-28 昭和电工株式会社 磁记录介质及其制造方法、以及磁记录再生装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59222728A (ja) * 1983-06-01 1984-12-14 Hitachi Ltd 信号分析装置
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7003099B1 (en) * 2002-11-15 2006-02-21 Fortmedia, Inc. Small array microphone for acoustic echo cancellation and noise suppression
US20060018460A1 (en) * 2004-06-25 2006-01-26 Mccree Alan V Acoustic echo devices and methods
EP1878012A1 (en) * 2005-04-26 2008-01-16 Aalborg Universitet Efficient initialization of iterative parameter estimation
CN102800322B (zh) 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
US9117099B2 (en) * 2011-12-19 2015-08-25 Avatekh, Inc. Method and apparatus for signal filtering and for improving properties of electronic devices
CN103632677B (zh) 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1373930A (zh) * 1999-09-07 2002-10-09 艾利森电话股份有限公司 一种利用频谱减法抑制噪声的数字滤波器设计方法和装置
CN1430778A (zh) * 2001-03-28 2003-07-16 三菱电机株式会社 噪声抑制装置
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
US8180064B1 (en) * 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
CN102157156A (zh) * 2011-03-21 2011-08-17 清华大学 一种单通道语音增强的方法和系统
CN102800332A (zh) * 2011-05-24 2012-11-28 昭和电工株式会社 磁记录介质及其制造方法、以及磁记录再生装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Relaxed statistical model for speech enhancement and a priori SNR estimation;Israel Cohen;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20050930;第13卷(第5期);第870-881页 *
一种基于短时谱估计和人耳掩蔽效应的语音增强算法;陈国明等;《电子与信息学报》;20070430;第29卷(第4期);第863-866页 *

Also Published As

Publication number Publication date
US20160379662A1 (en) 2016-12-29
CN103632677A (zh) 2014-03-12
US9978391B2 (en) 2018-05-22
WO2015078268A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
CN103632677B (zh) 带噪语音信号处理方法、装置及服务器
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
KR101120679B1 (ko) 이득-제한된 잡음 억제
CN101031963B (zh) 处理有噪声的声音信号的方法以及实现该方法的装置
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
KR20100045935A (ko) 잡음 억제 장치 및 잡음 억제 방법
EP4189677B1 (en) Noise reduction using machine learning
CN107680609A (zh) 一种基于噪声功率谱密度的双通道语音增强方法
CN106161751A (zh) 一种噪声抑制方法及装置
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
Mack et al. Declipping speech using deep filtering
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
CN107045874A (zh) 一种基于相关性的非线性语音增强方法
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
US20180047412A1 (en) Determining noise and sound power level differences between primary and reference channels
US11462231B1 (en) Spectral smoothing method for noise reduction
CN113611320A (zh) 风噪抑制方法、装置、音频设备及系统
US20240185875A1 (en) System and method for replicating background acoustic properties using neural networks
US20250022479A1 (en) Signal level-independent speech enhancement
Jokinen et al. Frequency-adaptive post-filtering for intelligibility enhancement of narrowband telephone speech.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant