CN111630594B - 基音增强装置、其方法以及记录介质 - Google Patents
基音增强装置、其方法以及记录介质 Download PDFInfo
- Publication number
- CN111630594B CN111630594B CN201880077503.5A CN201880077503A CN111630594B CN 111630594 B CN111630594 B CN 111630594B CN 201880077503 A CN201880077503 A CN 201880077503A CN 111630594 B CN111630594 B CN 111630594B
- Authority
- CN
- China
- Prior art keywords
- signal
- pitch
- time
- enhancement
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 79
- 230000002708 enhancing effect Effects 0.000 claims description 15
- 238000005311 autocorrelation function Methods 0.000 description 72
- 238000004364 calculation method Methods 0.000 description 26
- 238000012986 modification Methods 0.000 description 23
- 230000004048 modification Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/72—Wind turbines with rotation axis in wind direction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
基音增强装置对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号。基音增强装置包括:基音增强单元,作为基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的信号、比该时刻先前相当于样本数T0的时刻的信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的信号即第2增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应。
Description
技术领域
本发明涉及在声音信号的编码技术等的信号处理技术中,对于源自声音信号的样本串,分析、增强其基音分量的技术。
背景技术
一般地,在将时间序列信号等的样本串非可逆地压缩编码的情况下,解码时得到的样本串成为与原始的样本串不同的、有失真的样本串。特别是在声音信号的编码中,这种失真大多包含自然声音中没有的模式(Pattern),有时在收听解码的声音信号时感觉到不自然。因此,着眼于很多自然声音在某一固定区间内观测时包含与声音对应的周期分量、即基音分量的事实,通过对于解码的声音信号的各样本相加先前相当于基音周期量的样本,进行增强基音分量的处理,变换为不适感更小的声音的技术已被广泛使用。
例如非专利文献1中记载的,作为增强基音分量的处理,一般是对每个固定的时间区间进行得到基音周期的处理和使用该基音周期来增强基音分量的处理。
现有技术文献
非专利文献
非专利文献1:ITU-T Recommendation G.723.1(05/2006)pp.16-18,2006
发明内容
发明要解决的课题
然而,在进行这些处理的时间区间较长的情况下,有处理延迟增加相当于时间区间的时间长度的量的课题、以及尽管被输入的声音信号的基音周期变动也无法增强与该变动对应的基音分量的课题。
如果缩短进行上述处理的时间区间,则可以解决这些课题。而且,在例如像非专利文献1那样一并使用伴随线性预测的解码处理和增强基音的处理(基音增强处理)的结构中,通过在对于线性预测残差进行基音增强处理后进行线性预测合成,即使缩短时间区间也不产生进一步的课题。但是,在一并使用不伴随线性预测的解码处理和基音增强处理的结构中,要设为对于线性预测残差进行基音增强处理后进行线性预测合成的与非专利文献1同样的结构,会产生为了进行新的线性预测分析而大幅度地增加运算处理量的新课题。为了不产生这种新课题,在一并使用不伴随线性预测的解码处理和基音增强处理的结构中,需要对于通过解码处理得到的声音信号本身施以如参考文献1所记载那样的基音增强处理。
(参考文献1)D.Malah and R.Cox,"A generalized comb filtering techniquefor speech enhancement",in ICASSP 1982,vol.7,pp.160-163,1982.
但是,若将对于通过解码处理得到的声音信号本身进行基音增强处理的时间区间设定得短,则因进行对每个时间区间不同的基音周期内的基音增强处理而在声音信号中频繁地发生不连续,产生收听时的不适感增加的其他课题。
本发明是用于解决该课题的发明,目的在于,即使在对于通过解码处理得到的声音信号本身对每个较短的时间区间施以基音增强处理的情况下,实现基于与声音信号的基音周期的变动对应的基音周期的、基于声音信号的不连续的收听时的不适感少的基音增强处理。
用于解决课题的方案
为了解决上述课题,根据本发明的一方式,基音增强装置对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号。基音增强装置包括:基音增强单元,作为基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的信号、比该时刻先前相当于样本数T0的时刻的信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的信号即第2增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应。
为了解决上述课题,根据本发明的另一方式,基音增强方法对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号。基音增强方法包括:基音增强步骤,作为基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的信号、比该时刻先前相当于样本数T0的时刻的信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的信号即第2增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应。
发明效果
根据本发明,具有如下效果:即使是对于通过解码处理得到的声音信号本身对每个较短的时间区间施以基音增强处理的情况下,也实现可以基于与声音信号的基音周期的变动对应的基音周期的、基于声音信号的不连续的收听时的不适感少的基音增强处理。
附图说明
图1表示第一实施方式的基音增强装置的功能框图。
图2表示第一实施方式的基音增强装置的处理流程的例子的图。
图3表示第一实施方式的变形例的基音增强装置的功能框图。
图4表示第一实施方式的变形例的基音增强装置的处理流程的例子的图。
具体实施方式
以下,说明本发明的实施方式。再者,在用于以下的说明的附图中,对具有相同功能的结构部分和进行相同处理的步骤记述相同的标号,省略重复说明。在以下的说明中,除非另有说明,假设以向量或矩阵的各元素为单位进行的处理被适用于该向量或该矩阵的所有元素。
<第一实施方式的要点>
在本实施方式中,在对于当前的时间区间的被输入的声音信号本身施以基音增强处理时,不是仅增强与当前的时间区间的基音周期对应的基音分量,还增强与先前的时间区间的基音周期对应的基音分量。
此时,优选与先前的时间区间的基音周期对应的基音分量的增强的程度小于与当前的时间区间的基音周期对应的基音分量的增强的程度。此外,在增强与先前的多个时间区间的基音周期对应的基音分量的情况下,可以使得距当前的时间区间越远的时间区间,增强的程度越小。但是,基于基音增益进行与各个时间区间的基音周期对应的分量的增强。
此外,为了保证增强后的能量的一致性,基音增强的程度也可以基于使用的全部的基音分量来决定。在使与先前的多个时间区间的基音周期对应的基音分量增强的情况下,可以还假定该多个基音周期为相近的值,以保证增强后的能量的一致性。
<第一实施方式>
图1表示第一实施方式的语音基音增强装置的功能框图,图2表示其处理流程。
参照图1,说明第一实施方式的语音基音增强装置的处理过程。第一实施方式的语音基音增强装置,分析被输入的信号以得到基音周期和基音增益,基于其基音周期和基音增益而增强基音。第一实施方式的语音基音增强装置包括自相关函数计算单元110、基音分析单元120、基音增强单元130、信号存储单元140、以及基音信息存储单元150,而且也可以包括自相关函数存储单元160。
语音基音增强装置例如是在具有中央运算处理装置(CPU:Central ProcessingUnit;中央处理单元)、主存储装置(RAM:Random Access Memory;随机存取存储器)等公知或专用计算机中被读入特别的程序而构成的特别的装置。语音基音增强装置例如在中央运算处理装置的控制下执行各处理。被输入到语音基音增强装置的数据和在各处理中得到的数据,例如被存储在主存储装置中,被存储在主存储装置中的数据根据需要而被读出到中央运算处理装置,被用于其他处理。语音基音增强装置的各处理单元也可以至少一部分由集成电路等硬件构成。语音基音增强装置包括的各存储单元,例如可以由RAM(RandomAccess Memory;随机存取存储器)等的主存储装置、或关系数据库和关键值存储等的中间件构成。但是,各存储单元不需要一定配置在语音基音增强装置的其内部,也可以通过由硬盘或光盘或闪存(Flash Memory)那样的半导体存储器元件构成的辅助存储装置构成,设为配置在语音基音增强装置的外部的结构。
第一实施方式的语音基音增强装置进行的主要处理是,自相关函数计算处理(S110)、基音分析处理(S120)和基音增强处理(S130)(参照图2)。这些处理是语音基音增强装置具备的多个硬件资源协同进行的处理,所以以下分别对于自相关函数计算处理(S110)和基音分析处理(S120)和基音增强处理(S130),与关联的处理一起说明。
[自相关函数计算处理(S110)]
首先,说明语音基音增强装置进行的自相关函数计算处理和与它关联的处理。
时域的声音信号被输入到自相关函数计算单元110。该声音信号是,由编码装置将例如语音信号等的音响信号进行压缩编码而得到代码,由与该编码装置对应的解码装置将代码解码所得的信号。以规定的时间长度的帧(时间区间)为单位,被输入到语音基音增强装置的当前帧的时域的声音信号的样本串被输入到自相关函数计算单元110。若将表示1帧的样本串的长度的正的整数设为N,则自相关函数计算单元110中,被输入构成当前帧的时域的声音信号的样本串的N个时域的声音信号样本。自相关函数计算单元110计算基于包含被输入的N个时域的声音信号样本的最新的L个(L为正整数)声音信号样本的样本串中的时间差为0的自相关函数R0以及分别对于多个(M个、M为正整数)规定的时间差τ(1),…,τ(M)的自相关函数Rτ(1),…,Rτ(M)。即,自相关函数计算单元110计算基于包含当前帧的时域的声音信号样本的最新的声音信号样本的样本串中的自相关函数。
再者,下文中,将在当前帧的处理中自相关函数计算单元110算出的自相关函数、即基于包含当前帧的时域的声音信号样本的最新的声音信号样本的样本串中的自相关函数也称为“当前帧的自相关函数”。同样,在将先前的某一帧设为帧F时,将在帧F的处理中自相关函数计算单元110算出的自相关函数、即基于包含帧F的时域的声音信号样本的帧F时间点中的最新的声音信号样本的样本串中的自相关函数也称为“帧F的自相关函数”。此外,有时“自相关函数”也仅称为“自相关”。在L为大于N的值的情况下,为了在自相关函数的计算中使用最新的L个声音信号样本,在语音基音增强装置内配置信号存储单元140。信号存储单元140存储到前一个帧为止被输入的L-N个声音信号样本X0,X1,…,XL-N-1,使得可以存储至少L-N个声音信号样本。然后,在被输入了当前帧的N个时域的声音信号样本时,自相关函数计算单元110读出被存储在信号存储单元140中的L-N个声音信号样本X0,X1,…,XL-N-1,通过将被输入的N个时域的声音信号样本设为XL-N,XL-N+1,…,XL-1,得到最新的L个声音信号样本X0,X1,…,XL-1。
在L=N的情况下,将被输入的N个时域的声音信号样本直接设为最新的L个声音信号样本X0,X1,…,XL-1即可。这种情况下,不需要在语音基音增强装置内配置信号存储单元140。
然后,自相关函数计算单元110使用最新的L个声音信号样本X0,X1,…,XL-1,计算时间差为0的自相关函数R0、以及分别对于多个规定的时间差τ(1),…,τ(M)的自相关函数Rτ(1),…,Rτ(M)。若将τ(1),…,τ(M)或0等的时间差设为τ,则自相关函数计算单元110例如按以下的式(1)计算自相关函数Rτ。
自相关函数计算单元110将算出的自相关函数R0,Rτ(1),…,Rτ(M)输出到基音分析单元120。
再者,这种时间差τ(1),…,τ(M)是后述的基音分析单元120求得的当前帧的基音周期T0的候选。例如,在以采样频率为32kHz的语音信号为主的声音信号的情况下,作为语音的基音周期的候选,可考虑将从适合的75至320的整数值设为τ(1),…,τ(M)等的实施。再者,取代式(1)的Rτ,也可以求将式(1)的Rτ除以R0所得的归一化自相关函数Rτ/R0。但是,对于基音周期T0的候选即75至320,在将L设为8192等十分大的值的情况等中,相比取代自相关函数Rτ而求归一化自相关函数Rτ/R0,在以下说明的抑制了运算量的方法中计算自相关函数Rτ更好。
自相关函数Rτ可以按式(1)本身计算,但也可以按另外的计算方法计算与由式(1)求得的值相同的值。例如,在语音基音增强装置内配置自相关函数存储单元160并存储在计算前一个帧(紧接之前的帧)的自相关函数的处理中得到的自相关函数(紧接之前的帧的自相关函数)Rτ(1),…,Rτ(M),自相关函数计算单元110也可以通过分别对在从自相关函数存储单元160读出的紧接之前的帧的处理中得到的自相关函数(紧接之前的帧的自相关函数)Rτ(1),…,Rτ(M)相加被新输入的当前帧的声音信号样本的贡献部分和减去最先前的帧的贡献部分,计算当前帧的自相关函数Rτ(1),…,Rτ(M)。由此,相比按式(1)本身计算,可抑制在自相关函数的计算上所需的运算量。这种情况下,若将τ(1),…,τ(M)的每一个设为τ,则自相关函数计算单元110通过对于在紧接之前的帧的处理中得到的自相关函数Rτ(紧接之前的帧的自相关函数Rτ)相加按以下的式(2)得到的差分ΔRτ +,减去按式(3)得到的差分ΔRτ
-,得到当前帧的自相关函数Rτ。
此外,不是被输入的声音信号的最新的L个声音信号样本本身,而是使用通过对于该L个声音信号样本间进行下采样或样本的稀疏而减少了样本数后的信号,通过与上述同样的处理来计算自相关函数,也可以节省运算量。这种情况下,例如在将样本数减半时,以一半的样本数来表现M个时间差τ(1),…,τ(M)。例如,在将上述的采样频率为32kHz的8192个声音信号样本下采样为采样频率为16kHz的4096个样本的情况下,作为基音周期T的候选的τ(1),…,τ(M)设为大约是75至320一半的37至160即可。
再者,在语音基音增强装置结束了对于当前帧的直至后述的基音增强单元130的处理后,信号存储单元140更新存储内容,以在该时间点存储最新的L-N个声音信号样本。具体地说,例如,在L>2N的情况下,信号存储单元140删除所存储的L-N个声音信号样本之中的最早的N个声音信号样本X0,X1,…,XN-1,将XN,XN+1,…,XL-N-1设为X0,X1,…,XL-2N-1,新存储被输入的当前帧的N个时域的声音信号样本作为XL-2N,XL-2N+1,…,XL-N-1。此外,在L≦2N的情况下,信号存储单元140删除所存储的L-N个声音信号样本X0,X1,…,XL-N-1,将被输入的当前帧的N个时域的声音信号样本之中的最新的L-N个声音信号样本作为X0,X1,…,XL-N-1而重新存储。
此外,在自相关函数计算单元110结束了对当前帧的自相关函数的计算后,自相关函数存储单元160将存储内容更新,以存储算出的当前帧的自相关函数Rτ(1),…,Rτ(M)。具体地说,自相关函数存储单元160删除所存储的Rτ(1),…,Rτ(M),将算出的当前帧的自相关函数Rτ(1),…,Rτ(M)重新存储。
再者,在上述说明中,将最新的L个声音信号样本包含当前帧的N个声音信号样本(即L≧N)作为前提,但不需要一定是L≧N,也可以是L<N。这种情况下,自相关函数计算单元110使用被包含在当前帧的N个中的连续的L个声音信号样本X0,X1,…,XL-1,计算时间差为0的自相关函数R0、以及分别对于多个规定的时间差τ(1),…,τ(M)的自相关函数Rτ(1),…,Rτ(M)即可,与L=N的情况同样,不需要在语音基音增强装置内包括信号存储单元140。
[基音分析处理(S120)]
接着,说明语音基音增强装置进行的基音分析处理。
自相关函数计算单元110输出的当前帧的自相关函数R0,Rτ(1),…,Rτ(M)被输入到基音分析单元120。
基音分析单元120求对于规定的时间差的当前帧的自相关函数Rτ(1),…,Rτ(M)之中的最大值,得到自相关函数的最大值和时间差为0的自相关函数R0之比作为当前帧的基音增益σ0,此外,得到自相关函数为最大值的时间差作为当前帧的基音周期T0,将得到的基音增益σ0和基音周期T0输出到基音增强单元130。再者,在以下的说明中,将从当前帧来看前s个(先前s个)帧的基音增益及基音周期分别表述为T-s及σ-s。
[基音增强处理(S130)]
接着,说明语音基音增强装置进行的基音增强处理和与其关联的处理。
基音增强单元130接受基音分析单元120输出的基音周期和基音增益、以及被输入到语音基音增强装置的当前帧的时域的声音信号,输出对当前帧的声音信号样本串增强与当前帧的基音周期T0对应的基音分量和与先前的帧的基音周期对应的基音分量所得到的输出信号的样本串。例如,基音增强单元130得到并输出信号,作为与被包含在由N样本构成的该时间区间的信号(当前帧的时域的声音信号)Xn(L-N≦n≦L-1)中的各时刻n的信号对应的输出信号Xnew n,该信号包含:时刻n的信号Xn;比时刻n先前相当于样本数T0的时刻即时刻n-T0的信号(以下,也称为第1增强用信号,是与当前帧的基音周期T0对应的基音分量)Xn-T_0(其中,下标中A_B意味着AB),所述样本数T0与当前帧的基音周期T0对应;以及比时刻n先前相当于样本数T-1的时刻即时刻n-T-1的信号(以下,也称为第2增强用信号,是与紧接之前的帧的基音周期对应的基音分量)Xn-T_-1,所述样本数T-1与紧接之前的帧的基音周期T-1对应。
以下,说明具体例子。
基音信息存储单元150中,存储前一个帧的基音周期T-1和基音增益σ-1。
基音增强单元130使用被输入的当前帧的基音增益σ0、从基音信息存储单元150读出的前一个帧的基音增益σ-1、被输入的当前帧的基音周期T0、以及从基音信息存储单元150读出的前一个帧的基音周期T-1,进行对当前帧的声音信号的样本串的基音增强处理。具体地说,基音增强单元130对于构成被输入的当前帧的声音信号的样本串的各样本Xn(L-N≦n≦L-1),通过由以下的式(4)得到输出信号Xnew n,得到基于N个样本Xnew L―N,…,Xnew L―1的当前帧的输出信号的样本串。
其中,式(4)的A是由下述的式(5)求得的振幅校正系数。
式(4)的基音增强处理是,不仅考虑了基音周期还考虑了基音增益的增强基音分量的处理。而且,式(4)的基音增强处理是,增强与当前帧的基音周期T0对应的基音分量,并且比该基音分量稍稍降低增强的程度,还增强与紧接之前帧中的基音周期T-1对应的基音分量的处理。通过这种基音增强处理,即使是对每个较短的时间区间(帧)施以基音增强处理的情况下,也可以得到降低帧之间的基音周期的变动造成的不连续性的效果。
具体地说,在式(4)中,通过将乘以比与当前帧的基音周期T0对应的基音分量的值3/4小的值1/4乘以与紧接之前帧的基音周期T-1对应的基音分量,实现比与当前帧的基音周期T0对应的基音分量σ0Xn-T0降低增强的程度,还增强与紧接之前帧中的基音周期T-1对应的基音分量σ-1Xn-T-1。
(变形例1)
但是,3/4或1/4这样的值是一例子,取代式(4),使用预先确定的值即B0和B―1,通过下述的式(4A),也可以得到输出信号Xnew n。
再者,优选在式(4A)中设为B0>B―1,但即使B0≦B―1也具有降低帧之间的基音周期的变动造成的不连续性的效果。
由上述式(5)求得的振幅校正系数A是,在假定为当前帧的基音周期T0和紧接之前的帧的基音周期T-1为十分接近的值时,使得基音分量的能量在基音增强前后被保存的振幅校正系数。即,如果由式(4A)得到输出信号Xnew n,则使用由下述的式(5A)求得的值作为振幅校正系数A即可。
(变形例2)
再者,振幅校正系数A可以不是通过式(5)或式(5A)求得值而使用预先确定的1以上的值,也可以不使用振幅校正系数A而通过式(4B)或式(4C)得到输出信号Xnew n。
(变形例3)
此外,通过还增强与更先前的帧(前2个以上的帧)中的基音周期对应的基音分量,可以进一步降低帧之间的基音周期的变动造成的不连续性。这种情况下,例如下述的式(6)那样,乘以为了增强与基音周期对应的基音分量而相加的值的系数,也可以越是先前的基音周期越设定得小。然后,例如下述的式(6)那样,振幅校正系数也可以包含更先前的帧(前2个以上的帧)的基音增益来计算。
其中,在式(6)中,T-2及σ-2分别是前2帧的基音周期及基音增益。即,式(6)是通过增强与当前帧的基音周期T0对应的基音分量,并且还增强与前一个帧中的基音周期T-1对应的基音分量、与前2个帧中的基音周期T-2对应的基音分量的处理而得到输出信号Xnew n的情况的例子。不言而喻,也可以对于式(6)进行与相对式(4)的式(4A)、相对式(5)的式(5A)等同样的变更。即,也可以使用预先确定的值即B0、B―1和B―2,通过下述的式(6A)得到输出信号Xnew n。
这些情况下,基音信息存储单元150还存储前2个帧的基音周期T-2和基音增益σ-2。
此外,也可以增强与前3个帧中的基音周期对应的基音分量等的处理。当然,这种情况下,基音信息存储单元150还存储前3个帧的基音周期T-3和基音增益σ-3。
(变形例4)
取代基音增强单元130的处理中的、基于在被输入的声音信号的各样本中相加前各基音周期量的样本的值,可以使用例如通过了低通滤波器的声音信号中的前各基音周期量的样本,也可以使用进行了与低通滤波器等效的处理的声音信号中的前各基音周期量的样本。例如,如果将与对称的低通滤波器等效的处理和上述式(4)的处理一起进行,则可以通过下述的式(7)得到输出信号Xnew n。在下述的式(7)中,通过在基音增强处理中相加基于前各基音周期量的周边样本的值而实现与对称的低通滤波器等效的处理。
(变形例5)
再者,在上述的基音增强处理中,在基音增益小于规定的阈值Thσ的情况下,也可以进行不包含该基音分量的基音增强处理。例如,在进行式(4)的基音增强处理时,在当前帧的基音增益σ0为小于阈值Thσ的值,前一个帧的基音增益σ-1为阈值Thσ以上的值的情况下,也可以通过下述的式(8),得到输出信号Xnew n。
此外,例如,在进行式(6)的基音增强时,在当前帧的基音增益σ0为阈值Thσ以上的值,前一个帧的基音增益σ-1为小于阈值Thσ的值,前2个帧的基音增益σ-2为阈值Thσ以上的值的情况下,通过下述的式(9),得到输出信号Xnew n即可。
再者,基音信息存储单元150更新存储内容,使得可以将当前帧的基音周期和基音增益用作在下一个帧的基音增强单元130的处理中先前帧的基音周期和基音增益。例如,在基音增强单元130进行式(4)的处理的情况下,基音信息存储单元150删除所存储的前一个帧的基音周期T-1和基音增益σ-1,取而代之,将当前帧的基音周期T0新存储为基音周期T-1,将当前帧的基音增益σ0新存储为基音增益σ-1。同样,在基音增强单元130进行式(6)的处理的情况下,基音信息存储单元150删除所存储的前2个帧的基音周期T-2和基音增益σ-2,将所存储的前一个帧的基音周期T-1和基音增益σ-1分别新存储为T-2和σ-2,将当前帧的基音周期T0和基音增益σ0分别新存储为T-1和σ-1。
(变形例6)
上述第2增强用信号可以未必是与紧接之前帧的基音周期对应的基音分量,是与比当前帧先前α个的帧的基音周期对应的基音分量即可。其中,α为1以上的任何整数。即,作为与被包含在当前帧的时域的声音信号样本Xn(L-N≦n≦L-1)中的各时刻n的信号对应的输出信号Xnew n,基音增强单元130也可以得到包含如下信号的信号:时刻n的信号Xn;比时刻n先前相当于样本数T0的时刻即时刻n-T0的信号(以下,也称为第1增强用信号,是与当前帧的基音周期T0对应的基音分量)Xn-T_0,所述样本数T0与当前帧的基音周期T0对应;、比时刻n先前样本数T-α的时刻即时刻n-T-α的信号(以下,也称为第2增强用信号,是与先前α个的帧的基音周期对应的基音分量)Xn-T_-α的信号,所述样本数T-α与比当前帧先前α个的帧的基音周期T-α对应。例如,作为与被包含在当前帧的音信号样本Xn(L-N≦n≦L-1)中的各时刻n的信号对应的输出信号Xnew n,也可以进行得到将时刻n的信号Xn、对第1增强用信号Xn-T_0乘以了当前帧的基音增益σ0和小于1的值即规定的系数B0的信号、对第2增强用信号Xn-T_-α乘以了比当前帧先前α个帧的基音增益σ-α和小于1的值即规定的系数B-α的信号相加所得的信号除以
所得的信号的处理。即,
。与变形例1同样,优选设为B0>B―α,但即使B0≦B―α,也具有降低帧之间的基音周期的变动造成的不连续性的效果。而且,也可以将该变形例和上述变形例2~5组合。
即,与变形例2组合,可以将振幅校正系数A设为预先确定的1以上的值,也可以不使用振幅校正系数A。
与变形例3组合,作为与被包含在当前帧的时域的声音信号样本Xn(L-N≦n≦L-1)中的各时刻n的信号对应的输出信号Xnew n,也可以得到除了时刻n的信号Xn、第1增强用信号Xn-T_0、以及第2增强用信号Xn-T_-α之外,还包含比当前帧先前与相当于β个帧的基音周期T-β对应的样本数T-β的、比时刻n为先前时刻及时刻n-T-β的信号(以下,也称为第3增强用信号,是与先前β个帧的基音周期对应的基音分量)Xn-T_-β的信号。其中,β≠α。例如,若设为β>α,则
E=2B0B-ασ0σ-α
F=2B0B-βσ0σ-β
G=2B-αB-βσ-ασ-β
。优选设为B0>B―α>B―β,但即使不满足这种大小关系也具有降低帧之间的基音周期的变动造成的不连续性的效果。在这些情况下,基音信息存储单元150存储直至前β个的帧为止的基音周期T0,T-1,…,T-β和基音增益σ0,σ-1,…,σ-β。此外,作为与被包含在当前帧的时域的声音信号样本Xn(L-N≦n≦L-1)中的各时刻n的信号对应的输出信号Xnew n,也可以得到除了时刻n的信号Xn、第1增强用信号Xn-T_0、第2增强用信号Xn-T_-α、第3增强用信号Xn-T_-β之外,还包含Q个的第(q+3)增强用信号
的信号。其中,q=1,2,…,Q,Q为1以上的任意整数,γQ>γQ-1>…>γ1>β。不言而喻,这种情况下,基音信息存储单元150存储直至最早的前γQ个的帧为止的基音周期T0,T-1,…,T-γ_Q和基音增益σ0,σ-1,…,σ-γ_Q。
与变形例4组合,取代基于基音增强单元130的处理中的、对被输入的声音信号的各样本相加的前各基音周期量的样本的值,而可以使用例如通过了低通滤波器的声音信号中的前各基音周期量的样本,也可以使用进行了与低通滤波器等效的处理的声音信号中的前各基音周期量的样本。
与变形例5组合,也可以设为在当前帧的基音增益σ0小于规定的阈值的情况下,不将第1增强用信号包含在输出信号中,在比当前帧先前α个的帧的基音增益σ-α小于规定的阈值的情况下,不将第2增强用信号包含在输出信号中的结构。
而且,也可以组合各变形例。例如,将变形例3、变形例5和变形例6组合,也可以设为在比当前帧先前β个帧的基音增益σ-β小于规定的阈值的情况下,不将第3增强用信号包含在输出信号中的结构。
<其他变形例>
通过在语音基音增强装置外进行的解码处理等得到各帧的基音周期和基音增益的情况下,也可以将语音基音增强装置设为图3的结构,基于在语音基音增强装置外得到的基音周期和基音增益而增强基音。图4表示其处理流程。这种情况下,语音基音增强装置不需要包括第一实施方式的语音基音增强装置具备的自相关函数计算单元110、基音分析单元120和自相关函数存储单元160。这种情况下,基音增强单元130不是使用基音分析单元120输出的基音周期和基音增益,而是使用被输入到语音基音增强装置的基音周期和基音增益进行基音增强处理(S130)即可。根据这样的结构,语音基音增强装置自身的运算处理量可比第一实施方式少。但是,第一实施方式的语音基音增强装置可以不依赖于得到语音基音增强装置外的基音周期和基音增益的频度而得到基音周期和基音增益,所以可进行按非常短的时间长度的帧为单位的基音增强处理。如果是上述采样频率为32kHz的例子,若将N设为例如32,则可以按1ms的帧为单位进行基音增强处理。
再者,在以上的说明中,将对于声音信号本身施以基音增强处理作为前提,但对于非专利文献1所记载的那样的线性预测残差进行基音增强处理后进行线性预测合成的结构中的、作为对线性预测残差的基音增强处理,也可以适用本发明。即,也可以不是对于声音信号本身,而是对于源自对于声音信号进行分析和加工所得的信号等的声音信号,适用本发明。
本发明不限于上述的实施方式及变形例。例如,上述各种的处理,不仅被按照记载时间序列地执行,也可以根据执行处理的装置的处理能力或者需要而被并行地或者单独地执行。另外,在不脱离本发明的宗旨的范围内可进行适当变更。
<程序及记录介质>
此外,也可以通过计算机实现在上述的实施方式及变形例中说明的各装置中的各种处理功能。在该情况下,各装置应具有的功能的处理内容被通过程序来记述。然后,通过由计算机执行该程序,上述各装置中的各种处理功能在计算机上被实现。
记述了该处理内容的程序,可以记录在计算机可读取的记录介质中。作为计算机可读取的记录介质,例如也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何介质。
此外,该程序的流通例如通过销售、转让、租借等记录了该程序的DVD、CD-ROM等便携式记录介质来进行。进而,也可以设为将该程序存储在服务器计算机的存储装置中,经由网络,通过将该程序从服务器计算机转发到其它计算机,使该程序流通的结构。
执行这样的程序的计算机,例如首先将便携式记录介质中记录的程序或者从服务器计算机转发的程序暂时存储在自己的存储单元中。然后,在执行处理时,该计算机读取自己的存储单元中存储的程序,执行按照读取的程序的处理。而且,作为该程序其它实施方式,计算机也可以从便携式记录介质直接读取程序,执行按照该程序的处理,进而,也可以在每次从服务器计算机对该计算机转发程序时,逐次执行按照接受的程序的处理。而且,也可以设为通过不进行从服务器计算机向该计算机的程序的转发,仅通过该执行指令和结果取得来实现处理功能的、所谓ASP(Application Service Provider,应用服务提供商)型的服务,执行上述的处理的结构。再者,在程序中,假设包含供电子计算机的处理用的信息即基于程序的信息(虽然不是对于计算机的直接的指令,但是具有规定计算机的处理的性质的数据等)。
此外,通过在计算机上执行规定的程序来构成各装置,但也可以硬件性地实现这些处理内容的至少一部分。
Claims (7)
1.一种基音增强装置,其为对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号的基音增强装置,其特征在于,包括:
基音增强单元,作为所述基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的所述信号、比该时刻先前相当于样本数T0的时刻的所述信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的所述信号即第2增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应,
作为该时间区间的各时刻的输出信号,所述基音增强单元得到包含将该时刻的所述信号、对所述第1增强用信号乘以了该时间区间的基音增益σ0和小于1的值即规定的系数B0所得的信号、对所述第2增强用信号乘以了比该时间区间先前α个的时间区间的基音增益σ-α和小于1的值即规定的系数B-α所得的信号相加后的信号的输出信号,
所述基音增强单元得到将所述相加后的信号除以
所得的信号作为输出信号。
2.如权利要求1所述的基音增强装置,
所述系数B-α是小于所述系数B0的值。
3.一种基音增强装置,其为对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号的基音增强装置,其特征在于,包括:
基音增强单元,作为所述基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的所述信号、比该时刻先前相当于样本数T0的时刻的所述信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的所述信号即第2增强用信号、比该时刻先前相当于样本数T-β的时刻的所述信号即第3增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应,所述样本数T-β与比该时间区间先前β个的时间区间的基音周期对应,所述β是大于所述α的值,
作为该时间区间的各时刻的输出信号,所述基音增强单元得到包含将该时刻的所述信号、对所述第1增强用信号乘以了该时间区间的基音增益σ0和小于1的值即规定的系数B0所得的信号、对所述第2增强用信号乘以了比该时间区间先前α个的时间区间的基音增益σ-α和小于1的值即规定的系数B-α所得的信号、对所述第3增强用信号乘以了比该时间区间先前β个的时间区间的基音增益σ-β和小于1的值即规定的系数B-β所得的信号相加后的信号的输出信号,
所述基音增强单元得到将所述相加后的信号除以
所得的信号作为输出信号,其中,
E=2B0B-ασ0σ-α
F=2B0B-βσ0σ-β
G=2B-αB-βσ-ασ-β。
4.一种基音增强方法,其为对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号的基音增强方法,其特征在于,包括:
基音增强步骤,作为所述基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的所述信号、比该时刻先前相当于样本数T0的时刻的所述信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的所述信号即第2增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应,
作为该时间区间的各时刻的输出信号,所述基音增强步骤得到包含将该时刻的所述信号、对所述第1增强用信号乘以了该时间区间的基音增益σ0和小于1的值即规定的系数B0所得的信号、对所述第2增强用信号乘以了比该时间区间先前α个的时间区间的基音增益σ-α和小于1的值即规定的系数B-α所得的信号相加后的信号的输出信号,
所述基音增强步骤得到将所述相加后的信号除以
所得的信号作为输出信号。
5.如权利要求4所述的基音增强方法,
所述系数B-α是小于所述系数B0的值。
6.一种基音增强方法,其为对于源自被输入的声音信号的信号对每个时间区间施以基音增强处理而得到输出信号的基音增强方法,其特征在于,包括:
基音增强步骤,作为所述基音增强处理,对于各时间区间,进行作为该时间区间的各时刻的输出信号而得到包含该时刻的所述信号、比该时刻先前相当于样本数T0的时刻的所述信号即第1增强用信号、比该时刻先前相当于样本数T-α的时刻的所述信号即第2增强用信号、比该时刻先前相当于样本数T-β的时刻的所述信号即第3增强用信号的信号的处理,所述样本数T0与该时间区间的基音周期对应,所述样本数T-α与比该时间区间先前α个的时间区间的基音周期对应,所述样本数T-β与比该时间区间先前β个的时间区间的基音周期对应,所述β是大于所述α的值,
作为该时间区间的各时刻的输出信号,所述基音增强步骤得到包含将该时刻的所述信号、对所述第1增强用信号乘以了该时间区间的基音增益σ0和小于1的值即规定的系数B0所得的信号、对所述第2增强用信号乘以了比该时间区间先前α个的时间区间的基音增益σ-α和小于1的值即规定的系数B-α所得的信号、对所述第3增强用信号乘以了比该时间区间先前β个的时间区间的基音增益σ-β和小于1的值即规定的系数B-β所得的信号相加后的信号的输出信号,
所述基音增强步骤得到将所述相加后的信号除以
所得的信号作为输出信号,其中,
E=2B0B-ασ0σ-α
F=2B0B-βσ0σ-β
G=2B-αB-βσ-ασ-β。
7.一种计算机可读取的记录介质,其特征在于,记录了用于使计算机执行权利要求4至权利要求6中的任意一项的基音增强方法的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017231747 | 2017-12-01 | ||
JP2017-231747 | 2017-12-01 | ||
PCT/JP2018/040150 WO2019107041A1 (ja) | 2017-12-01 | 2018-10-29 | ピッチ強調装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111630594A CN111630594A (zh) | 2020-09-04 |
CN111630594B true CN111630594B (zh) | 2023-08-01 |
Family
ID=66664829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880077503.5A Active CN111630594B (zh) | 2017-12-01 | 2018-10-29 | 基音增强装置、其方法以及记录介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11270719B2 (zh) |
EP (1) | EP3719800B1 (zh) |
JP (1) | JP6911939B2 (zh) |
CN (1) | CN111630594B (zh) |
WO (1) | WO2019107041A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11270719B2 (en) * | 2017-12-01 | 2022-03-08 | Nippon Telegraph And Telephone Corporation | Pitch enhancement apparatus, pitch enhancement method, and program |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
JP4343302B2 (ja) * | 1998-01-26 | 2009-10-14 | パナソニック株式会社 | ピッチ強調方法及びその装置 |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
JP3559485B2 (ja) * | 1999-11-22 | 2004-09-02 | 日本電信電話株式会社 | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 |
WO2001052241A1 (en) * | 2000-01-11 | 2001-07-19 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
EP2099026A4 (en) * | 2006-12-13 | 2011-02-23 | Panasonic Corp | AFTERFILTER AND FILTER PROCESS |
CN101636750B (zh) | 2007-03-23 | 2012-08-08 | 富士通株式会社 | 电子装置、安装有电子装置的电子设备、安装有电子装置的物品、电子装置的制造方法 |
CN101814291B (zh) * | 2009-02-20 | 2013-02-13 | 北京中星微电子有限公司 | 在时域提高语音信号信噪比的方法和装置 |
WO2011083849A1 (ja) * | 2010-01-08 | 2011-07-14 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体 |
US8738385B2 (en) * | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
MY164797A (en) * | 2011-02-14 | 2018-01-30 | Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V | Apparatus and method for processing a decoded audio signal in a spectral domain |
KR101629661B1 (ko) * | 2012-08-29 | 2016-06-13 | 니폰 덴신 덴와 가부시끼가이샤 | 복호 방법, 복호 장치, 프로그램 및 그 기록매체 |
JP6261381B2 (ja) * | 2014-02-28 | 2018-01-17 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、プログラム |
US11270719B2 (en) * | 2017-12-01 | 2022-03-08 | Nippon Telegraph And Telephone Corporation | Pitch enhancement apparatus, pitch enhancement method, and program |
-
2018
- 2018-10-29 US US16/767,408 patent/US11270719B2/en active Active
- 2018-10-29 CN CN201880077503.5A patent/CN111630594B/zh active Active
- 2018-10-29 WO PCT/JP2018/040150 patent/WO2019107041A1/ja unknown
- 2018-10-29 JP JP2019557077A patent/JP6911939B2/ja active Active
- 2018-10-29 EP EP18882312.4A patent/EP3719800B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6911939B2 (ja) | 2021-07-28 |
US20200388301A1 (en) | 2020-12-10 |
JPWO2019107041A1 (ja) | 2020-11-26 |
CN111630594A (zh) | 2020-09-04 |
EP3719800A1 (en) | 2020-10-07 |
WO2019107041A1 (ja) | 2019-06-06 |
EP3719800B1 (en) | 2022-06-08 |
EP3719800A4 (en) | 2021-08-11 |
US11270719B2 (en) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12106767B2 (en) | Pitch emphasis apparatus, method and program for the same | |
US20140139362A1 (en) | Delay-optimized overlap transform, coding/decoding weighting windows | |
US20140358978A1 (en) | Vector quantization with non-uniform distributions | |
US10699721B2 (en) | Encoding and decoding of digital audio signals using difference data | |
CN111630594B (zh) | 基音增强装置、其方法以及记录介质 | |
US20130101028A1 (en) | Encoding method, decoding method, device, program, and recording medium | |
EP2571170B1 (en) | Encoding method, decoding method, encoding device, decoding device, program, and recording medium | |
US20180358025A1 (en) | Method and apparatus for audio object coding based on informed source separation | |
US11302340B2 (en) | Pitch emphasis apparatus, method and program for the same | |
US12100410B2 (en) | Pitch emphasis apparatus, method, program, and recording medium for the same | |
JP5361565B2 (ja) | 符号化方法、復号方法、符号化器、復号器およびプログラム | |
US20210166701A1 (en) | Device and method for encoding / decoding audio signal using filter bank | |
JP2024503563A (ja) | 訓練された生成モデル音声コード化 | |
JP2015161839A (ja) | 信号処理装置、信号処理方法、プログラム | |
CN110709927B (zh) | 编码装置、解码装置、平滑化装置、逆平滑化装置、其方法及记录介质 | |
CN119013723A (zh) | Qmf域中的时域增益建模 | |
KR100853690B1 (ko) | 엠펙 오디오 디코더의 합성필터 및 그 디코딩 방법 | |
JP2006262292A (ja) | 符号化装置、復号装置、符号化方法及び復号方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |