XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP
Inteligibilidade Objetiva de Sinais com
Reverberação e com Uso de Diferentes Máscaras
Acústicas
R. Alcântara, R. Coelho e B. S. Masiero
Resumo— Este artigo apresenta um estudo do efeito da
reverberação acústica na inteligibilidade de sinais de voz. A
avaliação inclui o uso das máscaras ideais clássicas IdBM e
reverberante e a máscara não-ideal cega BRM. Três medidas
objetivas fwSegSNR, CSII e STOI, além da medida de qualidade SegSNR são consideradas nos experimentos. Os resultados
mostram que a reverberação impacta a inteligibilidade do sinal
de voz e que as máscaras acústicas são capazes de melhorar
a inteligibilidade degradada. Além disso, é demonstrado que
uso da máscara BRM incrementou a inteligibilidade dos sinais
reverberados nos diferentes cenários.
Palavras-Chave— Máscara
acústica,
inteligibilidade,
desreverberação.
Abstract— This article presents a study of the effect of acoustic
reverberation on speech intelligibility. This evaluation includes
the use of the classics ideal binary masks IdBM and IRM
and the blind non-ideal mask BRM. Three objective measures
fwSegSNR, CSII, and STOI in addition to the quality measure
SegSNR are considered in the experiments. The results show that
reverberation impacts speech intelligibility and that binary masks
are capable of improving the degraded intelligibility. Moreover,
it is demonstrated that BRM increased the intelligibility of
reverberated signals in different scenarios.
Keywords— Binary mask, intelligibility, dereverberation.
I. I NTRODUÇ ÃO
O efeito da reverberação é causado pelas múltiplas reflexões
que ocorrem com uma onda sonora em superfı́cies e objetos
antes desta ser captada por um microfone ou um ouvinte.
No dia-a-dia, este efeito é mais facilmente notado em locais
fechados como salas de aula, auditórios, igrejas ou teatros.
Em sinais de voz, a reverberação tem impacto negativo na
sua qualidade e inteligibilidade [1], afetando principalmente
idosos e usuários de implantes cocleares. Esta degradação tem
diversas consequências indesejáveis, como o agravamento do
desempenho escolar [2], além de fazer cair as taxas de acerto
de sistemas de reconhecimento de palavras e de locutor [3].
A literatura apresenta diferentes técnicas para
desreverberação de sinais de voz. Entre elas, estão algoritmos
que utilizam filtragem inversa [4] e arranjos de microfones
para estimar a RIR (Room Impulse Response) da sala [5].
Geralmente, os métodos propostos são avaliados segundo
R. Alcântara, mestrando no Programa de Pós-graduação da Faculdade de
Engenharia Elétrica e de Computação (FEEC), UNICAMP; R. Coelho*, Laboratório de Processamento de Sinais Acústicos (lasp.ime.eb.br), Instituto Militar
de Engenharia (IME), Rio de Janeiro, Brasil; B. S. Masiero, Departamento
de Comunicações, UNICAMP. E-mails: {raoni@decom.fee.unicamp.br,
coelho@ime.eb.br, masiero@unicamp.br}. *Este trabalho foi parcialmente
financiado pelo CNPq/307866/2015-7.
o critério da qualidade de áudio do sinal resultante do
processamento.
As máscaras acústicas [6] são soluções baseadas em seleção
de canal e foram inicialmente propostas para aprimorar a
inteligibilidade de sinais de voz corrompidos por interferências
ou ruı́dos acústicos. Isto é realizado através de uma divisão do sinal corrompido em quadros tempo-frequência e
na exclusão dos quadros que forem considerados dominantes
pela interferência. A IBM (Ideal Binary Mask) é considerada
pela literatura como um limite superior do desempenho das
máscaras acústicas. Nela, são utilizadas informações a priori
para se preservar os quadros em que a SRR (Signal-toReverberation Ratio) está acima de um limiar predeterminado
e excluir os demais. O uso de máscaras acústicas em situações
de reverberação se demonstrou eficiente em melhorar a inteligibilidade dos sinais de voz. A IRM (Ideal Reverberant
Mask) apresentou ganhos de até 72% em testes subjetivos de
inteligibilidade realizados com usuários de implantes cocleares
[7]. A máscara cega (não-ideal) BRM (Binary Reverberant
Mask), com foco na reverberação [8], mostrou melhorar a inteligibilidade em testes subjetivos. As máscaras não-ideais têm
a vantagem de não serem limitadas ao conhecimento prévio do
sinal e apresentam bons resultados. Por estes aspectos, estas
máscaras são mais adaptadas a situações reais.
Este artigo apresenta um estudo com medidas objetivas de
inteligibilidade e de qualidade para avaliar o efeito causado
pela reverberação e o desempenho das máscaras acústicas
nestes casos. A qualidade é medida através da SegSNR (Segmental Signal-to-noise Ratio [9]). Para a avaliação da inteligibilidade acústica, são adotadas três medidas: fwSegSNR
(Frequency-Weighted SegSNR [10]), CSII (Coherence and
Speech Intelligibility Index [11]) e STOI (Short-Time Objective Intelligibility [12]). Na literatura, estas medidas foram
aplicadas com sucesso para investigar situações de distorção
por ruı́dos [12] [13] [14]. Os resultados indicam que a
reverberação degradou a qualidade e a inteligibilidade da
voz. Em uma mesma sala, esta degradação ocorreu em maior
magnitude com o aumento da df m (distância fonte-microfone)
e de RT60 (Reverberation Time). O uso das máscaras acústicas
nos sinais de voz com reverberação aprimorou a sua qualidade
e inteligibilidade.
O restante deste artigo está organizado da seguinte maneira:
Na Seção II são descritas as implementações das máscaras
utilizadas neste trabalho. A Seção III descreve brevemente as
medidas SegSNR, fwSegSNR, CSII e STOI. Na Seção IV são
apresentados os resultados das medidas aplicadas aos sinais
427
XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP
de voz com reverberação e após o uso das máscaras. Por fim,
a Seção V conclui este trabalho.
II. M ÁSCARA AC ÚSTICA PARA S INAIS
R EVERBERAÇ ÃO
COM
Nesta Seção é apresentada uma breve descrição das três
máscaras acústicas IdBM, IRM e BRM. O objetivo principal
do emprego das máscaras acústicas é a redução dos efeitos da
reverberação no sinal alvo, i.e., sinal de voz, e consequentemente, o aprimoramento da qualidade e inteligibilidade do
sinal.
A. Máscara Acústica: Ideal
No problema do “cocktail party” [15], um ouvinte é capaz
de selecionar e compreender uma única fonte sonora em meio
a diversas interferências. As máscaras ideais foram propostas
para simular esta capacidade perceptual humana. Geralmente,
elas estão definidas pelos seguintes passos [16]:
1) Decomposição em tempo-frequência: O sinal reverberado é janelado e, em seguida, é aplicada a FFT (Fast
Fourrier Transform) em cada um dos quadros. O sinal
Y (k, t) representa o espectro do sinal reverberado na
sub-banda k e tempo t.
2) Critério de seleção: Define-se um critério C(k, t) que
determinará se o quadro Y (k, t) será considerado dominante pela voz ou pela reverberação. No caso da máscara
ideal, além da representação tempo-frequência do sinal
reverberado, também é necessário o conhecimento do
sinal sem reverberação para a obtenção de C(k, t).
3) Mascaramento: Os quadros que comporão o sinal “mascarado” X̂(k, t) são definidas por:
Y (k, t), se C(k, t) ≥ γ,
X̂(k, t) =
(1)
0,
caso contrário,
onde γ é o limiar de seleção.
4) Reconstrução do sinal: A FFT inversa é aplicada em
X̂(k, t) para reconstruir os quadros no domı́nio do
tempo. Em seguida, os quadros reconstruı́dos são usadas para concatenar e obter o sinal mantendo as
sobreposições utilizadas inicialmente.
As máscaras IdBM [17] e IRM [18] utilizadas neste estudo
estão detalhadas abaixo:
1) IdBM: Em [17] é empregada a FFT como forma de
decomposição em frequência dos quadros do sinal. O janelamento foi realizado com duração de quadro de 20 ms e 50%
de sobreposição. O critério de seleção escolhido é a razão
sinal-reverberação SRR(k, t) ≥ −5 dB.
2) IRM: Os filtros gammatone [19] [20] [21] foram propostos para descrever o comportamento da função de resposta
ao impulso do sistema auditivo humano no domı́nio do tempo.
Sendo assim, este banco de filtros é amplamente aplicado para
modelar ou simular o sistema auditivo. Por esta interessante
caracterı́stica, estes filtros foram adotados nas propostas da
máscaras acústicas IRM e BRM. Nela, é utilizado um banco
de 128 filtros gammatone de quarta ordem para realizar a
decomposição tempo-frequência. As frequências centrais estão
espaçadas entre si de acordo com a escala ERB (Equivalent
rectangular bandwidth) distribuı́da entre 50 Hz e 8 kHz. Em
seguida, os sinais filtrados de cada sub-banda são divididos em
quadros de 20 ms com 50% de sobreposição. Este processo
é realizado com o sinal reverberado e com o sinal sem
reverberação para a obtenção da SRR de cada quadro tempofrequência. O critério de seleção utilizado é SRR(k, t) ≥
−5 dB.
Para reconstruir o sinal, as 128 sub-bandas são obtidas a
partir de X̂(k, t) e invertidas no tempo. Em seguida, é aplicado
um filtro gammatone em cada uma e estas são invertidas no
tempo novamente. Ao final, as sub-bandas são somados e o
sinal de voz com redução do efeito de reverberação é obtido.
B. Máscara Acústica para Reverberação
As máscaras acústicas ideais têm a limitação de necessitarem de informações do sinal de voz limpo (sem
reverberação) para o cálculo de SRR(k, t). A BRM [8] é uma
máscara cega não-ideal que não necessita das informações
do sinal sem reverberação. Para isto, é necessário utilizar um
critério de seleção diferente da SRR.
Para a obtenção da representação tempo-frequência, os
autores propõem um banco de 64 filtros gammatone de quarta
ordem espaçados logaritmicamente entre 50 Hz e 8 kHz. Em
seguida, para cada quadro tempo-frequência r(k, t) é calculado
um coeficiente dado por:
!
σr2′ (k, t)
,
(2)
fM (k, t) = 10 · log10
2 (k, t)
σ|r|
onde r′ (t, j) = |r(k, t)|α e |r(t, j)| é o valor absoluto do
quadro no tempo t e sub-banda j. Depois, os valores de fM são
suavizados no tempo através de um filtro mediana de ordem
3. Para determinar o critério de seleção da máscara é utilizado
o histograma fhist (k, t), computado a partir dos valores de
fM dos Qp quadros anteriores a t até os seus Qf quadros
seguintes.
Cada histograma fhist (k, t) normalizado possui L classes
com pesos pi (i = 1, ..., L). AP
partir destes valores, são calL
culadas a média global mG = i=1 i.pi , a média cumulativa
Pl
Pl
m(l) = i=1 i.pi e a soma cumulativa Ps (l) = i=1 pi . O
limiar ótimo l∗ é definido como o valor de l que maximiza a
2
variância entre classes σB
(l), dada por:
(mG Ps (l) − m(l))2
.
(3)
Ps (l)(1 − Ps (l))
O valor l∗ é empregado como critério de seleção para definir
se o conteúdo do quadro r(k, t) é predominante pela voz e será
mantido após o mascaramento. Isto ocorre de acordo com,
Y (k, t), se fM (k, t) > max(l∗ (k, t), l0 ),
X̂(k, t) =
0,
caso contrário,
(4)
onde l0 é o limiar de silêncio.
A reconstrução do sinal mascarado é realizada primeiramente em cada sub-banda de frequência. Os quadros são
concatenados de acordo com as suas sobreposições iniciais
e invertidas no tempo. Um filtro gammatone é aplicado em
cada sub-banda e, em seguida, o sinal é invertido no tempo
novamente. Por fim, os sinais são somados para a obtenção
do sinal reconstruı́do.
428
2
σB
(l) =
XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP
III. M EDIDAS DE I NTELIGIBILIDADE AC ÚSTICA
Esta Seção descreve as três medidas objetivas de inteligibilidade fwSegSNR, CSII e STOI aplicadas neste estudo. Estas
medidas permitem avaliar o efeito causado pela reverberação
nos sinais de voz e a eficiência das máscaras acústicas em
recuperar a inteligibilidade desses sinais.
A. fwSegSNR
Esta medida é calculada a partir da soma ponderada da SNR
de cada região tempo-frequência e é definida por,
Q−1 PK
1 X j=1 Wf (j, τ )SNR(j, τ )
fwSegSNR =
,
(5)
PK
Q τ =0
j=1 Wf (j, τ )
onde t e τ são os ı́ndices do quadro e da sub-banda. O valor
)|2
de SNR(j, τ ) é obtido a partir de 10 · log (|X(j,τ|X(j,τ
.
)|−|X̂(j,τ )|)2
|X(j, τ )| e |X̂(j, τ )| representam os espectros dos sinais sem
reverberação e após a utilização das máscaras, respectivamente, e são obtidos a partir do janelamento com quadros
de 32 ms de duração e 75% de sobreposição, seguido da
divisão dos quadros em K sub-bandas de frequência com
filtros Gaussianos. A ponderação de frequência é feita por
Wf (j, τ ) = |X(j, τ )|γ , onde γ = 0, 2. O valor é identificado
em [10] por refletir maior correlação com resultados perceptuais de inteligibilidade. Os valores de SNR de cada quadro
são limitados entre -10 dB e 35 dB.
B. CSII
Para a CSII [11], o sinal de referência sem reverberação x(t)
e o sinal resultante do uso das máscaras y(t) são janelados com
tamanho de quadro de 16 ms com 50% de sobreposição. A
partir da aplicação de uma DFT (Discrete Fourier Transform),
são obtidos os respectivos espectros Xj (f ) e Yj (f ), com f =
0, ..., F , referentes ao quadro j. A medida MSC (magnitudesquared coherence) é dada por,
PQ−1
| j=0
Xj (f )Yj∗ (f )|2
,
(6)
MSC(f ) = PQ−1
PQ−1
( j=0 |Xj (f )|2 )( j=0
|Yj (f )|2 )
onde Q é o número total de quadros. Em seguida, a SRR é
calculada por,
PF
f =0 Ij (f )M SC(f )Sy (f )
SRR(j) = PF
,
(7)
f =0 Ij (f )[1 − M SC(f )]Sy (f )
onde Sy (f ) é a amostra f da densidade espectral de potência
de y(t) e Ib (f ) é um filtro que atribui um peso à frequência
f relativo à inteligibilidade.
A obtenção de SDR(j) é realizada em três nı́veis de
amplitudes diferentes do sinal de entrada. Assim, o CSIIalto é
obtido a partir das regiões com amplitude acima do valor RMS
(root mean square). O CSIImédio é calculado com as regiões
entre 0 e 10 dB abaixo de RMS. A partir das regiões restantes,
é obtido CSIIbaixo . O resultado desta composição é dado por
c = −3, 47 + 1, 84CSIIbaixo + 9, 99CSIImédio + 0.00CSIIalto .
A função de mapeamento deste ı́ndice e a predição de inteligibilidade é descrita por,
100
.
(8)
I3 =
1 + exp(ac + b)
onde a = −10, 9 e b = 4, 65.
C. STOI
Na STOI [12], o coeficiente de correlação entre os espectros dos sinais limpo e realçado é utilizado para avaliar a
degradação da inteligibilidade de algoritmos de redução de
ruı́dos. Primeiramente, o sinal de voz limpo x(t) é reamostrado
a 10 kHz e dividido em janelas de Hamming de 256 amostras
com 50% de sobreposição. Em seguida, aplica-se uma DFT
de 512 pontos em cada quadro, formando a matriz X, onde
X(κ, τ ) representa o κ-ésimo ponto da DFT do quadro τ .
Os pontos X(κ, τ ) são então agrupados em 15 sub-bandas de
frequência cujo centro variam entre 150 Hz e 4300 Hz. A
norma para cada sub-banda é definida por,
v
uκ (j)−1
u uX
u
X̄j (τ ) = t
|X(κ, τ )|,
(9)
κ=κl (j)
onde κl (j) e κu (j) são, respectivamente, os limites inferior
e superior da sub-banda j (j = 1, 2, ..., 15). Com os valores
das normas, define-se a envoltória temporal de cada sub-banda
pelo seguinte vetor:
x(j,τ ) = [X̄j (τ − 29), X̄j (τ − 28), ..., X̄j (τ )]T .
(10)
A partir do mesmo processo com o sinal de voz corrompido
y(t) obtém-se y (j,τ ) . Este é normalizado segundo,
!
kx(j,τ ) k
β
− 20
)x(j,τ ) (n) ,
y
, (1 + 10
ȳ (j,τ ) = min
ky (j,τ ) k (j,τ )
(11)
com β = −15 dB representando o valor mı́nimo de SRR.
O valor de STOI(j,τ ) é dado por:
STOI(j,τ ) =
(x(j,τ ) − µx(j,τ ) )T (ȳ (j,τ ) − µȳ(j,τ ) )
kx(j,τ ) − µx(j,τ ) kk(ȳ(j,τ ) − µȳ (j,τ ) k
,
(12)
sendo µ a média do vetor correspondente. Por fim, a medida
STOI é calculada a partir da média de todos os valores de
STOI(j,τ ) , dados por:
15
STOI =
Q
1 XX
STOI(j,τ ) ,
15Q j=1 τ =1
(13)
onde Q é o número total de quadros.
O mapeamento dos valores da medida STOI com os resultados de inteligibilidade obtidos pelos testes subjetivos é
definido pela seguinte função,
f (STOI) =
100
,
1 + exp(aSTOI + b)
(14)
onde a = −13, 45 e b = 9, 36.
IV. R ESULTADOS E XPERIMENTAIS E D ISCUSS ÃO
Diversos experimentos foram realizados para a avaliação
objetiva da inteligibilidade resultante do emprego das máscaras
IdBM, IRM e BRM. As medidas foram aplicadas em sinais
de voz em diferentes situações de reverberação sem aplicação
das máscaras (SM) e após o uso das máscaras IdBM, IRM e
BRM. Um subconjunto de 168 locutores da base de voz TIMIT
[22] foi selecionado para os experimentos. Cada um dos 128
429
0.4
tempo (s)
0.6
0.2
0.3
0.4
tempo (s)
0.5
0.6
4000
2000
0
0.5
1
tempo (s)
6000
4000
2000
0
1.5
0
−0.5
0.1
0.2
0.3
0.4
tempo (s)
0.5
0.6
0
0.5
1
tempo (s)
(a)
1.5
0.5
0
−0.5
0.1
0.2
0.3
0.4
tempo (s)
0.5
0.6
8000
6000
4000
2000
0
amplitude
0.5
8000
frequência (Hz)
6000
0
−0.5
0.1
8000
frequência (Hz)
frequência (Hz)
8000
0
0
0.5
1
tempo (s)
(b)
6000
4000
2000
0
1.5
0.5
0
−0.5
0.1
0.2
0.3
0.4
tempo (s)
0.5
0.6
8000
frequência (Hz)
0.2
0.5
amplitude
0
frequência (Hz)
0.5
−0.5
amplitude
amplitude
amplitude
XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP
0
(c)
0.5
1
tempo (s)
1.5
6000
4000
2000
0
0
0.5
1
tempo (s)
(d)
1.5
(e)
Fig. 1. Sinais de voz e seus respectivos espectrogramas após serem reverberados e com utilização das máscaras acústicas: (a) sem reverberaç ão, (b) voz
reverberada, (c) IdBM, (d) IRM, e (e) BRM.
TABELA I
0
R EVERBERAÇÕES SELECIONADAS DA BASE DE DADOS AIR.
Reverberação
SegSNR (dB)
-1
RT60 (s) df m (m) SRR (dB)
Escritório 1
0,51
1,00
17,58
Escritório 2
0,56
2,00
17,88
Escritório 3
0,59
3,00
17,96
Sala de aula 1
0,79
2,25
16,90
Sala de aula 2
0,82
7,10
15,64
Sala de aula 3
0,83
10,20
21,83
-5
SM
Escritório 1
Escritório 2
Escritório 3
Sala de aula 1
Sala de aula 2
Sala de aula 3
IdBM
IRM
BRM
Máscara
Fig. 2. Resultados de SegSNR para os sinais de voz com reverberação e
após a aplicação das máscaras acústicas.
A. Resultados de inteligibilidade: fwSegSNR, CSII, STOI
1) fwSegSNR: A Tabela II mostra os resultados obtidos com
a medida fwSegSNR. Pode-se perceber que a BRM obteve o
melhor aprimoramento de inteligibilidade, de 0,76 dB, para
Sala de aula 3, condição de maior SRR (vide Tabela I).
necessário para que a RIR decaia em 60 dB.
-3
-4
sinais de voz têm duração de 3 segundos e taxa de amostragem
de 16 kHz. Estes sinais foram reverberados através de uma
convolução com as respostas ao impulso de um subconjunto
da base de dados AIR [23]. A Tabela I descreve as condições
dos sinais adotadas neste trabalho para reverberar os sinais de
voz. As reverberações foram extraı́das de duas salas com três
valores de distância fonte-microfone (df m ) distintas e foram
escolhidas com base nos seus valores de RT60 de 0,51 a 0,83
s, uma faixa considerada de média a alta intesidade sonora.
Em uma mesma sala, o aumento da df m faz com que o valor
de RT60 1 seja incrementado, provocando um maior efeito da
reverberação na inteligibilidade da voz.
A Figura 1 ilustra um sinal de voz em 5 condições: limpo
(sem reverberação), após ser reverberado e depois de aplicadas
as máscaras IdBM, IRM e BRM. Os testes com a medida
SegSNR foram realizados com quadros de 32 ms de duração
com sobreposição de 75%. Os valores de SNR de cada quadro
foram limitados entre -10 e 35 dB. Os resultados apresentados
na Figura 2 indicam que as máscaras aumentaram o valor
de SegSNR do sinal de voz com reverberação. A BRM
incrementou a inteligibilidade em todas as reverberações, com
ganho médio de 1,55 dB. O maior ganho ocorre com a
máscada IdBM, com aumento de 2,74 dB. A IRM incrementou
o resultado médio em 0,31 dB.
1 Tempo
-2
Para esta mesma condição, a melhora é de 0,70 dB para a
IRM. Para a IdBM, a medida fwSegSNR apresenta o melhor
aprimoramento, de 3,09 dB, também para a Sala de aula 3.
Estes resultados confirmam que a fwSegSNR depende dos
valores de SRR introduzidos pela reverberação.
TABELA II
R ESULTADOS DE FW S EG SNR ( D B) PARA OS SINAIS DE VOZ COM
REVERBERAÇÃO E AP ÓS A APLICAÇÃO DAS M ÁSCARAS AC ÚSTICAS .
Reverberaç ão
SM
Escritório 1
7,97
IdBM IRM BRM
8,41
5,79
5,57
Escritório 2
7,20
9,00
5,87
4,86
Escritório 3
6,43
8,39
5,96
4,58
Sala de aula 1 8,30
9,10
4,15
6,07
Sala de aula 2 4,58
7,48
5,83
4,86
Sala de aula 3 3,89
6,98
4,60
4,65
2) CSII: A Figura 3 apresenta os resultados de inteligibilidade obtidos com a medida CSII. Note que a máscara
BRM obteve um aprimoramento médio na inteligibilidade em
27,13 p.p. (pontos percentuais), com o maior incremento para
a reverberação Escritório 3, de 40,63 p.p.. As máscaras IdBM
e IRM melhoraram os resultados em 6,16 p.p. e 34,17 p.p.,
para as mesmas condições, respectivamente.
Os resultados obtidos sem máscara mostram que o impacto
da reverberação na inteligibilidade aumenta com o valor de
RT60 e a distância df m em um mesmo ambiente. O aumento
da distância df m em 1 m em Escritório reduz a inteligibilidade
em até 30,41 p.p.. Em Sala de aula, os resultados diminuem
de 30,47 p.p. para 1,13 p.p. com o crescimento de df m em
430
Predição de inteligibilidade CSII (%)
XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP
IdBM e IRM demonstraram o potencial dos filtros gammatone
para a detecção do efeito de reverberação obtidos pela máscara
não-ideal BRM.
Escritório 1
Escritório 2
Escritório 3
Sala de aula 1
Sala de aula 2
Sala de aula 3
80
60
R EFER ÊNCIAS
40
20
0
SM
IRM
IdBM
BRM
Máscara
Fig. 3. Predição de inteligibilidade (%) da CSII para as condições SM,
IdBM, IRM e BRM.
4,85 m.
3) STOI: A Tabela III ressalta os resultados de inteligibilidade obtidos pela medida STOI. A máscara BRM tem ganho
médio de 21,45 p.p. em relação aos testes SM. Seu melhor
resultado ocorre em Sala de aula 2, com incremento de 50,49
p.p.. O maior aumento acontece com a máscara IRM, de 35,51
p.p.. A máscara IdBM aumenta o resultado médio em 30,48
p.p..
TABELA III
P REDIÇÃO DE INTELIGIBILIDADE (%) DA STOI PARA AS CONDIÇÕES SM,
I D BM, IRM E BRM.
Reverberaç ão
SM
IdBM IRM BRM
Escritório 1
81,30 81,34 82,60 89,16
Escritório 2
46,82 79,51 80,68 75,63
Escritório 3
27,06 74,70 79,99 48,62
Sala de aula 1 84,38 76,55 66,46 75,25
Sala de aula 2 2,21 60,83 81,30 52,70
Sala de aula 3 0,59 52,34 70,38 29,68
Os resultados de predição para os sinais de voz SM indicam
que a inteligibilidade diminuiu quando aumentou-se a df m
em uma mesma sala. Em Escritório, a diminuição da predição
de taxa de acerto de palavras foi de até 34,48 p.p. em um
distanciamento de 1 m de df m . Em Sala de aula, a diminuição
chegou a 82,17 p.p. com um afastamento de 4,85 m de df m .
V. C ONCLUS ÃO
Este artigo apresentou um estudo da inteligibilidade de
sinais de voz reverberados e da eficiência de máscaras
acústicas ideais e não-ideais em recuperar esta caracterı́stica.
Neste trabalho, foram utilizadas reverberações de duas salas
com diferentes distâncias entre fonte e microfone. A influência
da reverberação e das máscaras foi analisada a partir de
três medidas objetivas de inteligibilidade e uma de qualidade. Os resultados mostraram que, em uma mesma sala,
a reverberação diminui a inteligibilidade de acordo com o
aumento da distância entre a fonte e o receptor. Além disso,
foi mostrado que o uso de máscaras acústicas incrementa
a inteligibilidade e a qualidade degradada pelo efeito da
reverberação. Os resultados confirmaram que a BRM (nãoideal e cega) é bastante promissora. Vale ressaltar que os
resultados de inteligibilidade obtidos para as máscaras ideais
[1] R. H. Bolt and A. D. MacDonald, “Theory of speech masking by
reverberation,” The Journal of the Acoustical Society of America, vol. 21,
no. 6, pp. 577–580, 1949.
[2] A. T. V. Rabelo, J. N. Santos, R. C. Oliveira, and M. d. C. Magalhaes,
“Effect of classroom acoustics on the speech intelligibility of students,”
CoDAS, vol. 26, pp. 360–366, october 2014.
[3] B. Gold and N. Morgan, Speech and Audio Signal Processing: Processing and Perception of Speech and Music. New York, NY, USA: John
Wiley & Sons, Inc., 1st ed., 1999.
[4] M. Miyoshi and Y. Kaneda, “Inverse filtering of room acoustics,” IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 36,
pp. 145–152, Feb 1988.
[5] K. Furuya and A. Kataoka, “Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, pp. 1579–
1591, July 2007.
[6] P. C. Loizou, Speech Enhancement: Theory and Practice. Boca Raton,
FL, USA: CRC Press, Inc., 2nd ed., 2013.
[7] K. Kokkinakis, O. Hazrati, and P. Loizou, “A channel-selection criterion
for suppressing reverberation in cochlear implants,” Journal of the
Acoustic Society of America, vol. 129, pp. 3221–3232, may 2011.
[8] O. Hazrati, J. Lee, and P. C. Loizou, “Binary mask estimation for
improved speech intelligibility in reverberant environments,” in INTERSPEECH, pp. 162–165, ISCA, 2012.
[9] J. H. L. Hansen and B. L. Pellom, “An effective quality evaluation
protocol for speech enhancement algorithms,” in Proceedings of the International Conference on Speech and Language Processing, pp. 2819–
2822, 1998.
[10] J. Ma, Y. Hu, and P. Loizou, “Objective measures for predicting speech
intelligibility in noisy conditions based on new band-importance functions,” Journal of the Acoustic Society of America, vol. 125, pp. 3387–
3405, may 2009.
[11] J. Kates and K. Arehart, “Coherence and the speech intelligibility intex,”
Journal of the Acoustic Society of America, vol. 117, pp. 381–384, april
2005.
[12] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm
for intelligibility prediction of time-frequency weighted noisy speech,”
IEEE Transactions on Audio, Speech, and Language Processing, vol. 19,
pp. 2125–2136, september 2011.
[13] R. Tavares and R. Coelho, “Speech enhancement with nonstationary
acoustic noise detection in time domain,” IEEE Signal Processing
Letters, vol. 23, pp. 6–10, Jan 2016.
[14] L. Zao, R. Coelho, and P. Flandrin, “Speech enhancement with emd and
hurst-based mode selection,” IEEE/ACM Transactions on Audio, Speech,
and Language Processing, vol. 22, pp. 899–911, May 2014.
[15] A. W. Bronkhorst, “The cocktail party phenomenon: A review of
research on speech intelligibility in multiple-talker conditions,” Acta
Acustica united with Acustica, vol. 86, pp. 117–128, January 2000.
[16] D. Wang and G. J. Brown, Computational Auditory Scene Analysis:
Principles, Algorithms, and Applications. Wiley-IEEE Press, 2006.
[17] N. Li and P. Loizou, “Factors influencing intelligibility of ideal binarymasked speech: Implications for noise reduction,” Journal of the Acoustic Society of America, vol. 123, pp. 1673–1682, march 2007.
[18] R. Patterson, I. Nimmo-Smith, J. Holdsworth, and P. Rice, “An efficient
auditory filterbank based on the gammatone function,” pp. 357–366,
december 1987.
[19] P. I. M. Johannesma, “The pre-response stimulus ensemble of neurons
in the cochlear nucleus,” pp. 58–69, 1972.
[20] R. D. Patterson and B. C. J. Moore, “Auditory filters and excitation patterns as representations of frequency resolution,” Frequency selectivity
in hearing, pp. 123–177, 1986.
[21] M. Cooke, Modelling Auditory Processing and Organisation. New York,
NY, USA: Cambridge University Press, 1993.
[22] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett,
N. L. Dahlgren, and V. Zue, “Timit acoustic phonetic continuous speech
corpus,” 1993.
[23] M. Jeub, M. Schafer, and P. Vary, “A binaural room impulse response
database for the evaluation of dereverberation algorithms,” in 2009 16th
International Conference on Digital Signal Processing, pp. 1–5, July
2009.
431