Inteligibilidade Objetiva de Sinais com Reverberação e com Uso de Diferentes Máscaras Acústicas

Anais de XXXV Simpósio Brasileiro de Telecomunicações e Processamento de Sinais

XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP Inteligibilidade Objetiva de Sinais com Reverberação e com Uso de Diferentes Máscaras Acústicas R. Alcântara, R. Coelho e B. S. Masiero Resumo— Este artigo apresenta um estudo do efeito da reverberação acústica na inteligibilidade de sinais de voz. A avaliação inclui o uso das máscaras ideais clássicas IdBM e reverberante e a máscara não-ideal cega BRM. Três medidas objetivas fwSegSNR, CSII e STOI, além da medida de qualidade SegSNR são consideradas nos experimentos. Os resultados mostram que a reverberação impacta a inteligibilidade do sinal de voz e que as máscaras acústicas são capazes de melhorar a inteligibilidade degradada. Além disso, é demonstrado que uso da máscara BRM incrementou a inteligibilidade dos sinais reverberados nos diferentes cenários. Palavras-Chave— Máscara acústica, inteligibilidade, desreverberação. Abstract— This article presents a study of the effect of acoustic reverberation on speech intelligibility. This evaluation includes the use of the classics ideal binary masks IdBM and IRM and the blind non-ideal mask BRM. Three objective measures fwSegSNR, CSII, and STOI in addition to the quality measure SegSNR are considered in the experiments. The results show that reverberation impacts speech intelligibility and that binary masks are capable of improving the degraded intelligibility. Moreover, it is demonstrated that BRM increased the intelligibility of reverberated signals in different scenarios. Keywords— Binary mask, intelligibility, dereverberation. I. I NTRODUÇ ÃO O efeito da reverberação é causado pelas múltiplas reflexões que ocorrem com uma onda sonora em superfı́cies e objetos antes desta ser captada por um microfone ou um ouvinte. No dia-a-dia, este efeito é mais facilmente notado em locais fechados como salas de aula, auditórios, igrejas ou teatros. Em sinais de voz, a reverberação tem impacto negativo na sua qualidade e inteligibilidade [1], afetando principalmente idosos e usuários de implantes cocleares. Esta degradação tem diversas consequências indesejáveis, como o agravamento do desempenho escolar [2], além de fazer cair as taxas de acerto de sistemas de reconhecimento de palavras e de locutor [3]. A literatura apresenta diferentes técnicas para desreverberação de sinais de voz. Entre elas, estão algoritmos que utilizam filtragem inversa [4] e arranjos de microfones para estimar a RIR (Room Impulse Response) da sala [5]. Geralmente, os métodos propostos são avaliados segundo R. Alcântara, mestrando no Programa de Pós-graduação da Faculdade de Engenharia Elétrica e de Computação (FEEC), UNICAMP; R. Coelho*, Laboratório de Processamento de Sinais Acústicos (lasp.ime.eb.br), Instituto Militar de Engenharia (IME), Rio de Janeiro, Brasil; B. S. Masiero, Departamento de Comunicações, UNICAMP. E-mails: {raoni@decom.fee.unicamp.br, coelho@ime.eb.br, masiero@unicamp.br}. *Este trabalho foi parcialmente financiado pelo CNPq/307866/2015-7. o critério da qualidade de áudio do sinal resultante do processamento. As máscaras acústicas [6] são soluções baseadas em seleção de canal e foram inicialmente propostas para aprimorar a inteligibilidade de sinais de voz corrompidos por interferências ou ruı́dos acústicos. Isto é realizado através de uma divisão do sinal corrompido em quadros tempo-frequência e na exclusão dos quadros que forem considerados dominantes pela interferência. A IBM (Ideal Binary Mask) é considerada pela literatura como um limite superior do desempenho das máscaras acústicas. Nela, são utilizadas informações a priori para se preservar os quadros em que a SRR (Signal-toReverberation Ratio) está acima de um limiar predeterminado e excluir os demais. O uso de máscaras acústicas em situações de reverberação se demonstrou eficiente em melhorar a inteligibilidade dos sinais de voz. A IRM (Ideal Reverberant Mask) apresentou ganhos de até 72% em testes subjetivos de inteligibilidade realizados com usuários de implantes cocleares [7]. A máscara cega (não-ideal) BRM (Binary Reverberant Mask), com foco na reverberação [8], mostrou melhorar a inteligibilidade em testes subjetivos. As máscaras não-ideais têm a vantagem de não serem limitadas ao conhecimento prévio do sinal e apresentam bons resultados. Por estes aspectos, estas máscaras são mais adaptadas a situações reais. Este artigo apresenta um estudo com medidas objetivas de inteligibilidade e de qualidade para avaliar o efeito causado pela reverberação e o desempenho das máscaras acústicas nestes casos. A qualidade é medida através da SegSNR (Segmental Signal-to-noise Ratio [9]). Para a avaliação da inteligibilidade acústica, são adotadas três medidas: fwSegSNR (Frequency-Weighted SegSNR [10]), CSII (Coherence and Speech Intelligibility Index [11]) e STOI (Short-Time Objective Intelligibility [12]). Na literatura, estas medidas foram aplicadas com sucesso para investigar situações de distorção por ruı́dos [12] [13] [14]. Os resultados indicam que a reverberação degradou a qualidade e a inteligibilidade da voz. Em uma mesma sala, esta degradação ocorreu em maior magnitude com o aumento da df m (distância fonte-microfone) e de RT60 (Reverberation Time). O uso das máscaras acústicas nos sinais de voz com reverberação aprimorou a sua qualidade e inteligibilidade. O restante deste artigo está organizado da seguinte maneira: Na Seção II são descritas as implementações das máscaras utilizadas neste trabalho. A Seção III descreve brevemente as medidas SegSNR, fwSegSNR, CSII e STOI. Na Seção IV são apresentados os resultados das medidas aplicadas aos sinais 427 XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP de voz com reverberação e após o uso das máscaras. Por fim, a Seção V conclui este trabalho. II. M ÁSCARA AC ÚSTICA PARA S INAIS R EVERBERAÇ ÃO COM Nesta Seção é apresentada uma breve descrição das três máscaras acústicas IdBM, IRM e BRM. O objetivo principal do emprego das máscaras acústicas é a redução dos efeitos da reverberação no sinal alvo, i.e., sinal de voz, e consequentemente, o aprimoramento da qualidade e inteligibilidade do sinal. A. Máscara Acústica: Ideal No problema do “cocktail party” [15], um ouvinte é capaz de selecionar e compreender uma única fonte sonora em meio a diversas interferências. As máscaras ideais foram propostas para simular esta capacidade perceptual humana. Geralmente, elas estão definidas pelos seguintes passos [16]: 1) Decomposição em tempo-frequência: O sinal reverberado é janelado e, em seguida, é aplicada a FFT (Fast Fourrier Transform) em cada um dos quadros. O sinal Y (k, t) representa o espectro do sinal reverberado na sub-banda k e tempo t. 2) Critério de seleção: Define-se um critério C(k, t) que determinará se o quadro Y (k, t) será considerado dominante pela voz ou pela reverberação. No caso da máscara ideal, além da representação tempo-frequência do sinal reverberado, também é necessário o conhecimento do sinal sem reverberação para a obtenção de C(k, t). 3) Mascaramento: Os quadros que comporão o sinal “mascarado” X̂(k, t) são definidas por: Y (k, t), se C(k, t) ≥ γ, X̂(k, t) = (1) 0, caso contrário, onde γ é o limiar de seleção. 4) Reconstrução do sinal: A FFT inversa é aplicada em X̂(k, t) para reconstruir os quadros no domı́nio do tempo. Em seguida, os quadros reconstruı́dos são usadas para concatenar e obter o sinal mantendo as sobreposições utilizadas inicialmente. As máscaras IdBM [17] e IRM [18] utilizadas neste estudo estão detalhadas abaixo: 1) IdBM: Em [17] é empregada a FFT como forma de decomposição em frequência dos quadros do sinal. O janelamento foi realizado com duração de quadro de 20 ms e 50% de sobreposição. O critério de seleção escolhido é a razão sinal-reverberação SRR(k, t) ≥ −5 dB. 2) IRM: Os filtros gammatone [19] [20] [21] foram propostos para descrever o comportamento da função de resposta ao impulso do sistema auditivo humano no domı́nio do tempo. Sendo assim, este banco de filtros é amplamente aplicado para modelar ou simular o sistema auditivo. Por esta interessante caracterı́stica, estes filtros foram adotados nas propostas da máscaras acústicas IRM e BRM. Nela, é utilizado um banco de 128 filtros gammatone de quarta ordem para realizar a decomposição tempo-frequência. As frequências centrais estão espaçadas entre si de acordo com a escala ERB (Equivalent rectangular bandwidth) distribuı́da entre 50 Hz e 8 kHz. Em seguida, os sinais filtrados de cada sub-banda são divididos em quadros de 20 ms com 50% de sobreposição. Este processo é realizado com o sinal reverberado e com o sinal sem reverberação para a obtenção da SRR de cada quadro tempofrequência. O critério de seleção utilizado é SRR(k, t) ≥ −5 dB. Para reconstruir o sinal, as 128 sub-bandas são obtidas a partir de X̂(k, t) e invertidas no tempo. Em seguida, é aplicado um filtro gammatone em cada uma e estas são invertidas no tempo novamente. Ao final, as sub-bandas são somados e o sinal de voz com redução do efeito de reverberação é obtido. B. Máscara Acústica para Reverberação As máscaras acústicas ideais têm a limitação de necessitarem de informações do sinal de voz limpo (sem reverberação) para o cálculo de SRR(k, t). A BRM [8] é uma máscara cega não-ideal que não necessita das informações do sinal sem reverberação. Para isto, é necessário utilizar um critério de seleção diferente da SRR. Para a obtenção da representação tempo-frequência, os autores propõem um banco de 64 filtros gammatone de quarta ordem espaçados logaritmicamente entre 50 Hz e 8 kHz. Em seguida, para cada quadro tempo-frequência r(k, t) é calculado um coeficiente dado por: ! σr2′ (k, t) , (2) fM (k, t) = 10 · log10 2 (k, t) σ|r| onde r′ (t, j) = |r(k, t)|α e |r(t, j)| é o valor absoluto do quadro no tempo t e sub-banda j. Depois, os valores de fM são suavizados no tempo através de um filtro mediana de ordem 3. Para determinar o critério de seleção da máscara é utilizado o histograma fhist (k, t), computado a partir dos valores de fM dos Qp quadros anteriores a t até os seus Qf quadros seguintes. Cada histograma fhist (k, t) normalizado possui L classes com pesos pi (i = 1, ..., L). AP partir destes valores, são calL culadas a média global mG = i=1 i.pi , a média cumulativa Pl Pl m(l) = i=1 i.pi e a soma cumulativa Ps (l) = i=1 pi . O limiar ótimo l∗ é definido como o valor de l que maximiza a 2 variância entre classes σB (l), dada por: (mG Ps (l) − m(l))2 . (3) Ps (l)(1 − Ps (l)) O valor l∗ é empregado como critério de seleção para definir se o conteúdo do quadro r(k, t) é predominante pela voz e será mantido após o mascaramento. Isto ocorre de acordo com, Y (k, t), se fM (k, t) > max(l∗ (k, t), l0 ), X̂(k, t) = 0, caso contrário, (4) onde l0 é o limiar de silêncio. A reconstrução do sinal mascarado é realizada primeiramente em cada sub-banda de frequência. Os quadros são concatenados de acordo com as suas sobreposições iniciais e invertidas no tempo. Um filtro gammatone é aplicado em cada sub-banda e, em seguida, o sinal é invertido no tempo novamente. Por fim, os sinais são somados para a obtenção do sinal reconstruı́do. 428 2 σB (l) = XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP III. M EDIDAS DE I NTELIGIBILIDADE AC ÚSTICA Esta Seção descreve as três medidas objetivas de inteligibilidade fwSegSNR, CSII e STOI aplicadas neste estudo. Estas medidas permitem avaliar o efeito causado pela reverberação nos sinais de voz e a eficiência das máscaras acústicas em recuperar a inteligibilidade desses sinais. A. fwSegSNR Esta medida é calculada a partir da soma ponderada da SNR de cada região tempo-frequência e é definida por, Q−1 PK 1 X j=1 Wf (j, τ )SNR(j, τ ) fwSegSNR = , (5) PK Q τ =0 j=1 Wf (j, τ ) onde t e τ são os ı́ndices do quadro e da sub-banda. O valor )|2 de SNR(j, τ ) é obtido a partir de 10 · log (|X(j,τ|X(j,τ . )|−|X̂(j,τ )|)2 |X(j, τ )| e |X̂(j, τ )| representam os espectros dos sinais sem reverberação e após a utilização das máscaras, respectivamente, e são obtidos a partir do janelamento com quadros de 32 ms de duração e 75% de sobreposição, seguido da divisão dos quadros em K sub-bandas de frequência com filtros Gaussianos. A ponderação de frequência é feita por Wf (j, τ ) = |X(j, τ )|γ , onde γ = 0, 2. O valor é identificado em [10] por refletir maior correlação com resultados perceptuais de inteligibilidade. Os valores de SNR de cada quadro são limitados entre -10 dB e 35 dB. B. CSII Para a CSII [11], o sinal de referência sem reverberação x(t) e o sinal resultante do uso das máscaras y(t) são janelados com tamanho de quadro de 16 ms com 50% de sobreposição. A partir da aplicação de uma DFT (Discrete Fourier Transform), são obtidos os respectivos espectros Xj (f ) e Yj (f ), com f = 0, ..., F , referentes ao quadro j. A medida MSC (magnitudesquared coherence) é dada por, PQ−1 | j=0 Xj (f )Yj∗ (f )|2 , (6) MSC(f ) = PQ−1 PQ−1 ( j=0 |Xj (f )|2 )( j=0 |Yj (f )|2 ) onde Q é o número total de quadros. Em seguida, a SRR é calculada por, PF f =0 Ij (f )M SC(f )Sy (f ) SRR(j) = PF , (7) f =0 Ij (f )[1 − M SC(f )]Sy (f ) onde Sy (f ) é a amostra f da densidade espectral de potência de y(t) e Ib (f ) é um filtro que atribui um peso à frequência f relativo à inteligibilidade. A obtenção de SDR(j) é realizada em três nı́veis de amplitudes diferentes do sinal de entrada. Assim, o CSIIalto é obtido a partir das regiões com amplitude acima do valor RMS (root mean square). O CSIImédio é calculado com as regiões entre 0 e 10 dB abaixo de RMS. A partir das regiões restantes, é obtido CSIIbaixo . O resultado desta composição é dado por c = −3, 47 + 1, 84CSIIbaixo + 9, 99CSIImédio + 0.00CSIIalto . A função de mapeamento deste ı́ndice e a predição de inteligibilidade é descrita por, 100 . (8) I3 = 1 + exp(ac + b) onde a = −10, 9 e b = 4, 65. C. STOI Na STOI [12], o coeficiente de correlação entre os espectros dos sinais limpo e realçado é utilizado para avaliar a degradação da inteligibilidade de algoritmos de redução de ruı́dos. Primeiramente, o sinal de voz limpo x(t) é reamostrado a 10 kHz e dividido em janelas de Hamming de 256 amostras com 50% de sobreposição. Em seguida, aplica-se uma DFT de 512 pontos em cada quadro, formando a matriz X, onde X(κ, τ ) representa o κ-ésimo ponto da DFT do quadro τ . Os pontos X(κ, τ ) são então agrupados em 15 sub-bandas de frequência cujo centro variam entre 150 Hz e 4300 Hz. A norma para cada sub-banda é definida por, v uκ (j)−1 u uX u X̄j (τ ) = t |X(κ, τ )|, (9) κ=κl (j) onde κl (j) e κu (j) são, respectivamente, os limites inferior e superior da sub-banda j (j = 1, 2, ..., 15). Com os valores das normas, define-se a envoltória temporal de cada sub-banda pelo seguinte vetor: x(j,τ ) = [X̄j (τ − 29), X̄j (τ − 28), ..., X̄j (τ )]T . (10) A partir do mesmo processo com o sinal de voz corrompido y(t) obtém-se y (j,τ ) . Este é normalizado segundo, ! kx(j,τ ) k β − 20 )x(j,τ ) (n) , y , (1 + 10 ȳ (j,τ ) = min ky (j,τ ) k (j,τ ) (11) com β = −15 dB representando o valor mı́nimo de SRR. O valor de STOI(j,τ ) é dado por: STOI(j,τ ) = (x(j,τ ) − µx(j,τ ) )T (ȳ (j,τ ) − µȳ(j,τ ) ) kx(j,τ ) − µx(j,τ ) kk(ȳ(j,τ ) − µȳ (j,τ ) k , (12) sendo µ a média do vetor correspondente. Por fim, a medida STOI é calculada a partir da média de todos os valores de STOI(j,τ ) , dados por: 15 STOI = Q 1 XX STOI(j,τ ) , 15Q j=1 τ =1 (13) onde Q é o número total de quadros. O mapeamento dos valores da medida STOI com os resultados de inteligibilidade obtidos pelos testes subjetivos é definido pela seguinte função, f (STOI) = 100 , 1 + exp(aSTOI + b) (14) onde a = −13, 45 e b = 9, 36. IV. R ESULTADOS E XPERIMENTAIS E D ISCUSS ÃO Diversos experimentos foram realizados para a avaliação objetiva da inteligibilidade resultante do emprego das máscaras IdBM, IRM e BRM. As medidas foram aplicadas em sinais de voz em diferentes situações de reverberação sem aplicação das máscaras (SM) e após o uso das máscaras IdBM, IRM e BRM. Um subconjunto de 168 locutores da base de voz TIMIT [22] foi selecionado para os experimentos. Cada um dos 128 429 0.4 tempo (s) 0.6 0.2 0.3 0.4 tempo (s) 0.5 0.6 4000 2000 0 0.5 1 tempo (s) 6000 4000 2000 0 1.5 0 −0.5 0.1 0.2 0.3 0.4 tempo (s) 0.5 0.6 0 0.5 1 tempo (s) (a) 1.5 0.5 0 −0.5 0.1 0.2 0.3 0.4 tempo (s) 0.5 0.6 8000 6000 4000 2000 0 amplitude 0.5 8000 frequência (Hz) 6000 0 −0.5 0.1 8000 frequência (Hz) frequência (Hz) 8000 0 0 0.5 1 tempo (s) (b) 6000 4000 2000 0 1.5 0.5 0 −0.5 0.1 0.2 0.3 0.4 tempo (s) 0.5 0.6 8000 frequência (Hz) 0.2 0.5 amplitude 0 frequência (Hz) 0.5 −0.5 amplitude amplitude amplitude XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP 0 (c) 0.5 1 tempo (s) 1.5 6000 4000 2000 0 0 0.5 1 tempo (s) (d) 1.5 (e) Fig. 1. Sinais de voz e seus respectivos espectrogramas após serem reverberados e com utilização das máscaras acústicas: (a) sem reverberaç ão, (b) voz reverberada, (c) IdBM, (d) IRM, e (e) BRM. TABELA I 0 R EVERBERAÇÕES SELECIONADAS DA BASE DE DADOS AIR. Reverberação SegSNR (dB) -1 RT60 (s) df m (m) SRR (dB) Escritório 1 0,51 1,00 17,58 Escritório 2 0,56 2,00 17,88 Escritório 3 0,59 3,00 17,96 Sala de aula 1 0,79 2,25 16,90 Sala de aula 2 0,82 7,10 15,64 Sala de aula 3 0,83 10,20 21,83 -5 SM Escritório 1 Escritório 2 Escritório 3 Sala de aula 1 Sala de aula 2 Sala de aula 3 IdBM IRM BRM Máscara Fig. 2. Resultados de SegSNR para os sinais de voz com reverberação e após a aplicação das máscaras acústicas. A. Resultados de inteligibilidade: fwSegSNR, CSII, STOI 1) fwSegSNR: A Tabela II mostra os resultados obtidos com a medida fwSegSNR. Pode-se perceber que a BRM obteve o melhor aprimoramento de inteligibilidade, de 0,76 dB, para Sala de aula 3, condição de maior SRR (vide Tabela I). necessário para que a RIR decaia em 60 dB. -3 -4 sinais de voz têm duração de 3 segundos e taxa de amostragem de 16 kHz. Estes sinais foram reverberados através de uma convolução com as respostas ao impulso de um subconjunto da base de dados AIR [23]. A Tabela I descreve as condições dos sinais adotadas neste trabalho para reverberar os sinais de voz. As reverberações foram extraı́das de duas salas com três valores de distância fonte-microfone (df m ) distintas e foram escolhidas com base nos seus valores de RT60 de 0,51 a 0,83 s, uma faixa considerada de média a alta intesidade sonora. Em uma mesma sala, o aumento da df m faz com que o valor de RT60 1 seja incrementado, provocando um maior efeito da reverberação na inteligibilidade da voz. A Figura 1 ilustra um sinal de voz em 5 condições: limpo (sem reverberação), após ser reverberado e depois de aplicadas as máscaras IdBM, IRM e BRM. Os testes com a medida SegSNR foram realizados com quadros de 32 ms de duração com sobreposição de 75%. Os valores de SNR de cada quadro foram limitados entre -10 e 35 dB. Os resultados apresentados na Figura 2 indicam que as máscaras aumentaram o valor de SegSNR do sinal de voz com reverberação. A BRM incrementou a inteligibilidade em todas as reverberações, com ganho médio de 1,55 dB. O maior ganho ocorre com a máscada IdBM, com aumento de 2,74 dB. A IRM incrementou o resultado médio em 0,31 dB. 1 Tempo -2 Para esta mesma condição, a melhora é de 0,70 dB para a IRM. Para a IdBM, a medida fwSegSNR apresenta o melhor aprimoramento, de 3,09 dB, também para a Sala de aula 3. Estes resultados confirmam que a fwSegSNR depende dos valores de SRR introduzidos pela reverberação. TABELA II R ESULTADOS DE FW S EG SNR ( D B) PARA OS SINAIS DE VOZ COM REVERBERAÇÃO E AP ÓS A APLICAÇÃO DAS M ÁSCARAS AC ÚSTICAS . Reverberaç ão SM Escritório 1 7,97 IdBM IRM BRM 8,41 5,79 5,57 Escritório 2 7,20 9,00 5,87 4,86 Escritório 3 6,43 8,39 5,96 4,58 Sala de aula 1 8,30 9,10 4,15 6,07 Sala de aula 2 4,58 7,48 5,83 4,86 Sala de aula 3 3,89 6,98 4,60 4,65 2) CSII: A Figura 3 apresenta os resultados de inteligibilidade obtidos com a medida CSII. Note que a máscara BRM obteve um aprimoramento médio na inteligibilidade em 27,13 p.p. (pontos percentuais), com o maior incremento para a reverberação Escritório 3, de 40,63 p.p.. As máscaras IdBM e IRM melhoraram os resultados em 6,16 p.p. e 34,17 p.p., para as mesmas condições, respectivamente. Os resultados obtidos sem máscara mostram que o impacto da reverberação na inteligibilidade aumenta com o valor de RT60 e a distância df m em um mesmo ambiente. O aumento da distância df m em 1 m em Escritório reduz a inteligibilidade em até 30,41 p.p.. Em Sala de aula, os resultados diminuem de 30,47 p.p. para 1,13 p.p. com o crescimento de df m em 430 Predição de inteligibilidade CSII (%) XXXV SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT2017, 3-6 DE SETEMBRO DE 2017, SÃO PEDRO, SP IdBM e IRM demonstraram o potencial dos filtros gammatone para a detecção do efeito de reverberação obtidos pela máscara não-ideal BRM. Escritório 1 Escritório 2 Escritório 3 Sala de aula 1 Sala de aula 2 Sala de aula 3 80 60 R EFER ÊNCIAS 40 20 0 SM IRM IdBM BRM Máscara Fig. 3. Predição de inteligibilidade (%) da CSII para as condições SM, IdBM, IRM e BRM. 4,85 m. 3) STOI: A Tabela III ressalta os resultados de inteligibilidade obtidos pela medida STOI. A máscara BRM tem ganho médio de 21,45 p.p. em relação aos testes SM. Seu melhor resultado ocorre em Sala de aula 2, com incremento de 50,49 p.p.. O maior aumento acontece com a máscara IRM, de 35,51 p.p.. A máscara IdBM aumenta o resultado médio em 30,48 p.p.. TABELA III P REDIÇÃO DE INTELIGIBILIDADE (%) DA STOI PARA AS CONDIÇÕES SM, I D BM, IRM E BRM. Reverberaç ão SM IdBM IRM BRM Escritório 1 81,30 81,34 82,60 89,16 Escritório 2 46,82 79,51 80,68 75,63 Escritório 3 27,06 74,70 79,99 48,62 Sala de aula 1 84,38 76,55 66,46 75,25 Sala de aula 2 2,21 60,83 81,30 52,70 Sala de aula 3 0,59 52,34 70,38 29,68 Os resultados de predição para os sinais de voz SM indicam que a inteligibilidade diminuiu quando aumentou-se a df m em uma mesma sala. Em Escritório, a diminuição da predição de taxa de acerto de palavras foi de até 34,48 p.p. em um distanciamento de 1 m de df m . Em Sala de aula, a diminuição chegou a 82,17 p.p. com um afastamento de 4,85 m de df m . V. C ONCLUS ÃO Este artigo apresentou um estudo da inteligibilidade de sinais de voz reverberados e da eficiência de máscaras acústicas ideais e não-ideais em recuperar esta caracterı́stica. Neste trabalho, foram utilizadas reverberações de duas salas com diferentes distâncias entre fonte e microfone. A influência da reverberação e das máscaras foi analisada a partir de três medidas objetivas de inteligibilidade e uma de qualidade. Os resultados mostraram que, em uma mesma sala, a reverberação diminui a inteligibilidade de acordo com o aumento da distância entre a fonte e o receptor. Além disso, foi mostrado que o uso de máscaras acústicas incrementa a inteligibilidade e a qualidade degradada pelo efeito da reverberação. Os resultados confirmaram que a BRM (nãoideal e cega) é bastante promissora. Vale ressaltar que os resultados de inteligibilidade obtidos para as máscaras ideais [1] R. H. Bolt and A. D. MacDonald, “Theory of speech masking by reverberation,” The Journal of the Acoustical Society of America, vol. 21, no. 6, pp. 577–580, 1949. [2] A. T. V. Rabelo, J. N. Santos, R. C. Oliveira, and M. d. C. Magalhaes, “Effect of classroom acoustics on the speech intelligibility of students,” CoDAS, vol. 26, pp. 360–366, october 2014. [3] B. Gold and N. Morgan, Speech and Audio Signal Processing: Processing and Perception of Speech and Music. New York, NY, USA: John Wiley & Sons, Inc., 1st ed., 1999. [4] M. Miyoshi and Y. Kaneda, “Inverse filtering of room acoustics,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 36, pp. 145–152, Feb 1988. [5] K. Furuya and A. Kataoka, “Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, pp. 1579– 1591, July 2007. [6] P. C. Loizou, Speech Enhancement: Theory and Practice. Boca Raton, FL, USA: CRC Press, Inc., 2nd ed., 2013. [7] K. Kokkinakis, O. Hazrati, and P. Loizou, “A channel-selection criterion for suppressing reverberation in cochlear implants,” Journal of the Acoustic Society of America, vol. 129, pp. 3221–3232, may 2011. [8] O. Hazrati, J. Lee, and P. C. Loizou, “Binary mask estimation for improved speech intelligibility in reverberant environments,” in INTERSPEECH, pp. 162–165, ISCA, 2012. [9] J. H. L. Hansen and B. L. Pellom, “An effective quality evaluation protocol for speech enhancement algorithms,” in Proceedings of the International Conference on Speech and Language Processing, pp. 2819– 2822, 1998. [10] J. Ma, Y. Hu, and P. Loizou, “Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions,” Journal of the Acoustic Society of America, vol. 125, pp. 3387– 3405, may 2009. [11] J. Kates and K. Arehart, “Coherence and the speech intelligibility intex,” Journal of the Acoustic Society of America, vol. 117, pp. 381–384, april 2005. [12] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 2125–2136, september 2011. [13] R. Tavares and R. Coelho, “Speech enhancement with nonstationary acoustic noise detection in time domain,” IEEE Signal Processing Letters, vol. 23, pp. 6–10, Jan 2016. [14] L. Zao, R. Coelho, and P. Flandrin, “Speech enhancement with emd and hurst-based mode selection,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 899–911, May 2014. [15] A. W. Bronkhorst, “The cocktail party phenomenon: A review of research on speech intelligibility in multiple-talker conditions,” Acta Acustica united with Acustica, vol. 86, pp. 117–128, January 2000. [16] D. Wang and G. J. Brown, Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. Wiley-IEEE Press, 2006. [17] N. Li and P. Loizou, “Factors influencing intelligibility of ideal binarymasked speech: Implications for noise reduction,” Journal of the Acoustic Society of America, vol. 123, pp. 1673–1682, march 2007. [18] R. Patterson, I. Nimmo-Smith, J. Holdsworth, and P. Rice, “An efficient auditory filterbank based on the gammatone function,” pp. 357–366, december 1987. [19] P. I. M. Johannesma, “The pre-response stimulus ensemble of neurons in the cochlear nucleus,” pp. 58–69, 1972. [20] R. D. Patterson and B. C. J. Moore, “Auditory filters and excitation patterns as representations of frequency resolution,” Frequency selectivity in hearing, pp. 123–177, 1986. [21] M. Cooke, Modelling Auditory Processing and Organisation. New York, NY, USA: Cambridge University Press, 1993. [22] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, N. L. Dahlgren, and V. Zue, “Timit acoustic phonetic continuous speech corpus,” 1993. [23] M. Jeub, M. Schafer, and P. Vary, “A binaural room impulse response database for the evaluation of dereverberation algorithms,” in 2009 16th International Conference on Digital Signal Processing, pp. 1–5, July 2009. 431

Log In

Inteligibilidade Objetiva de Sinais com Reverberação e com Uso de Diferentes Máscaras Acústicas

Related papers

Related papers