BR112016008544B1 - Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. - Google Patents
Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. Download PDFInfo
- Publication number
- BR112016008544B1 BR112016008544B1 BR112016008544-2A BR112016008544A BR112016008544B1 BR 112016008544 B1 BR112016008544 B1 BR 112016008544B1 BR 112016008544 A BR112016008544 A BR 112016008544A BR 112016008544 B1 BR112016008544 B1 BR 112016008544B1
- Authority
- BR
- Brazil
- Prior art keywords
- signal
- gain parameter
- information
- excitation signal
- excitation
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000005284 excitation Effects 0.000 claims abstract description 121
- 238000007493 shaping process Methods 0.000 claims description 71
- 230000003595 spectral effect Effects 0.000 claims description 54
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 230000007774 longterm Effects 0.000 claims description 5
- 238000000465 moulding Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 238000009795 derivation Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000011002 quantification Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. um codificador para codificar um sinal de áudio compreende: um analisador (120; 320) configurado para derivar coeficientes de previsão (122; 322) e um sinal residual a partir de um quadro não vozeado do sinal de áudio (102); um calculador de parâmetro de ganho (550; 550') configurado para calcular uma primeira informação de parâmetro de ganho (gc) para definir um primeiro sinal de excitação (c(n)) relacionado a um livro código determinístico e para calcular uma segunda informação de parâmetro de ganho (gn) para definir um segundo sinal de excitação (n(n)) relacionado a um sinal semelhante a ruído para o quadro não vozeado; e um formador de bitstream (690) configurado para formar um sinal de saída (692) com base em uma informação (142) relacionada a um quadro de sinal vozeado, a primeira informação de parâmetro de ganho (gc) e a segunda informação de parâmetro de ganho (gn).
Description
[001] Descrição
[002] A presente invenção refere-se a codificadores para codificar um sinal de áudio, em particular um sinal de áudio relacionado a fala. A presente invenção também refere-se a decodificadores e métodos para decodificar um sinal de áudio codificado. A presente invenção refere-se ainda aos sinais de áudio codificados e a uma codificação não vozeada de fala avançada em taxas de bit baixas.
[003] Na baixa taxa de bit, a codificação da fala pode se beneficiar de um manejo especial para os quadros não vozeados a fim de manter a qualidade da fala enquanto reduz a taxa de bit. Quadros não vozeados podem ser modelados perceptivamente como uma excitação aleatória que é moldada tanto no domínio de frequência quanto no de tempo. Na medida em que a forma de onda e a excitação pareçam e soem quase iguais a um ruído branco Gaussiano, sua codificação da forma de onda pode ser relaxada e substituída por um ruído branco gerado sinteticamente. A codificação irá então consistir na codificação dos formatos do domínio de tempo e frequência do sinal.
[004] A Fig. 16 mostra um diagrama em bloco esquemático de um esquema de codificação não vozeado paramétrico. Um filtro de síntese 1202 é configurado para modelar o trato vocal e é parametrizado pelos parâmetros da LPC (Codificação Previsiva Linear). A partir do filtro LPC derivado compreendendo uma função de filtro A(z) um filtro ponderado perceptivo pode ser derivado pela ponderação dos coeficientes de LPC. O filtro perceptivo fw(n) normalmente tem uma função de transferência da forma:
[005] sendo que w é menor que 1. O parâmetro de ganho gn é calculado para conseguir uma energia sintetizada que corresponda a energia original no domínio perceptivo de acordo com:
[006] onde sw(n) e nw(n) são o sinal de entrada e ruído gerado, respectivamente, filtrados pelo filtro perceptivo fw(n). O ganho gn é calculado para cada subquadro de tamanho Ls. Por exemplo, um sinal de áudio pode ser dividido em quadros com um comprimento de 20 ms. Cada quadro pode ser subdividido em subquadros, por exemplo, em quatro subquadros, cada compreendendo um comprimento de 5 ms.
[007] O esquema de codificação de Previsão Linear Excitada por Código (CELP) é amplamente usado em comunicações de fala e é uma forma muito eficiente de codificação da fala. Ele dá uma qualidade de voz mais natural do que a codificação paramétrica mas também pede taxas mais elevadas. A CELP sintetiza um sinal de áudio pela transmissão para um filtro de Previsão Linear, chamado filtro de síntese de LPC que pode compreender uma forma 1/A(z), a soma de duas excitações. Uma excitação é proveniente do passado decodificado, que é chamado de livro código adaptativo. A outra contribuição é proveniente de um livro código inovador povoada por códigos fixos. No entanto, em baixas taxas de bits o livro código inovador não é suficientemente povoado para a modelagem de forma eficiente da estrutura fina da fala ou a excitação semelhante de ruído do não vozeado. Portanto, a qualidade perceptiva é degradada, especialmente os quadros não vozeados que soam então, estaladiços e não naturais.
[008] Para mitigar os artefatos de codificação a baixas taxas de bits, diferentes soluções já foram propostas. Em G.718 [1], [2] os códigos do livro código inovador são adaptativamente e espectralmente moldados pelo aumento das regiões espectrais correspondentes aos formantes do quadro atual. As posições e formatos dos formantes podem ser deduzidas diretamente dos coeficientes de LPC, coeficientes já disponíveis em ambos os lados do codificador e decodificador. A melhoria do formante dos códigos c(n) é feita por uma filtragem simples de acordo com:
[009] sendo que * denota o operador de convolução e sendo que fe(n) é aresposta de impulso do filtro da função de transferência:
[010] onde w1 e w2 são as duas constantes de ponderação que enfatizam mais ou menos a estrutura formântica da função de transferência Ffe(z). Os códigos moldados resultantes herdam uma característica do sinal de fala e o sinal sintetizado soa mais limpo.
[011] Em CELP também é comum adicionar uma inclinação espectral ao decodificador do livro código inovador. É feito pela filtragem do códigos com o seguinte filtro:
[012] O fator β é normalmente relacionado à vocalização do quadro anterior e depende, ou seja,, ele varia. A vocalização pode ser estimada a partir da contribuição de energia a partir do livro código adaptativo. Se o quadro anterior é vocalizado, espera-se que o quadro atual também será vocalizado e que os códigos devem ter mais energia em baixas frequências, isto é, deve mostrar uma inclinação negativa. Ao contrário, a inclinação espectral adicionada será positiva para quadros não vozeados e mais energia será distribuída para as altas frequências.
[013] O uso da moldagem espectral para melhoria da fala e redução de ruído da saída do decodificador é uma prática normal. Uma chamada melhoria do formante como pós-filtragem consiste em uma pós-filtragem adaptativa para a qual os coeficientes são derivados dos parâmetros de LPC do decodificador. O pós-filtro é semelhante à um (fe (n)) usado para moldar a excitação inovadora em determinados codificadores de CELP como discutido acima. No entanto, nesse caso, a pós-filtragem só se aplica no final do processo do decodificador e não no lado do codificador.
[014] Na CELP convencional (CELP = Previsão Linear excitada por livro (código)), o formato da frequência é modelado pelo filtro de síntese de LP (Previsão Linear), enquanto o formato do domínio de tempo pode ser aproximado por um ganho de excitação enviada para cada subquadro embora a Previsão a Longo Prazo (LTP) e o livro código inovador sejam normalmente não adequados para modelar a excitação similar a ruído dos quadros não vozeados. A CELP precisa de uma taxa de bit relativamente alta para alcançar uma boa qualidade da fala não vocalizada.
[015] Uma caracterização vocalizada ou não vocalizada pode ser relacionada à fala do segmento em porções e associou cada uma delas a um modelo de fonte diferente de fala. Os modelos de fonte como eles são usados no esquema da codificação da fala CELP dependem de uma excitação harmônica adaptável simulando o fluxo de ar que sai da glote e um filtro ressonante que modela o trato vocal excitado pelo fluxo de ar produzido. Tais modelos podem proporcionar bons resultados para fonemas como os vocais, mas pode resultar na modelagem incorreta para porções da fala que não são geradas pela glote, em particular quando as cordas vocais não estão vibrando como fonemas não vocalizados “s” ou “f”.
[016] Por outro lado, codificadores de voz paramétricos também são chamados de codificadores vocais e adoptar uma único modelo de fonte para quadros não vozeados. Ele pode alcançar taxas de bit muito baixas enquanto atingem uma chamada qualidade sintética não sendo tão natural quanto a qualidade entregue por esquemas de codificação CELP a taxas muito mais elevadas.
[017] Assim, há uma necessidade de melhorar os sinais de áudio.
[018] Um objeto da presente invenção é aumentar a qualidade do som a taxas de bit baixas e/ou reduzir taxas de bit para boa qualidade de som.
[019] Este objeto é conseguido por um codificador, um decodificador, um sinal de áudio codificado e os métodos de acordo com as reivindicações independentes.
[020] Os inventores descobriram que em um primeiro aspecto uma qualidade de um sinal de áudio decodificado refere-se a um quadro não vozeado do sinal de áudio, pode ser aumentada, ou seja,, melhorada, pela determinação de uma informação de moldagem relacionada a fala de modo que a informação de parâmetro de ganho para amplificação dos sinais pode ser derivada da informação de moldagem relacionada a fala. Além disso uma informação de moldagem relacionada a fala pode ser usada para moldar espectralmente um sinal decodificado. As regiões de frequência compreendendo uma importância mais alta para a fala, por exemplo, baixas frequências abaixo de 4 kHz, podem então ser processadas de modo que elas compreendam menos erros.
[021] Os inventores descobriram que em um segundo aspecto pela geração de um primeiro sinal de excitação a partir de um livro código determinístico para um quadro ou subquadro (porção) de um sinal sintetizado e pela geração de um segundo sinal de excitação a partir de um sinal similar a ruído para o quadro ou subquadro do sinal sintetizado e pela combinação do primeiro sinal de excitação e o segundo sinal de excitação para gerar um sinal de excitação combinado uma qualidade de som do sinal sintetizado pode ser aumentada, ou seja,, melhorada. Especialmente para porções de um sinal de áudio compreendendo um sinal de fala com ruído de fundo, a qualidade do som pode ser melhorada pela adição do sinal similar a ruídos. Um parâmetro de ganho para amplificar opcionalmente o primeiro sinal de excitação pode ser determinado no codificador e uma informação relacionada ao mesmo pode ser transmitida com o sinal de áudio codificado.
[022] Alternativamente ou adicionalmente, a melhoria do sinal de áudio sintetizado pode ser pelo menos parcialmente explorada para reduzir as taxas de bit para codificar o sinal de áudio.
[023] Um codificador de acordo com o primeiro aspecto compreende um analisador configurado para derivar coeficientes de previsão e um sinal residual a partir de um quadro do sinal de áudio. O codificador compreende ainda um calculador de informação do formante configurado para calcular um informação de moldagem espectral relacionada à fala a partir dos coeficientes de previsão. O codificador compreender ainda um calculador de parâmetro de ganho configurado para calcular um parâmetro de ganho a partir de um sinal residual não vozeado e a informação de moldagem espectral e um formador de bitstream configurado para formar um sinal de saída com base em uma informação relacionada a um quadro de sinal vozeado, o parâmetro de ganho ou um parâmetro de ganho quantificado e os coeficientes de previsão.
[024] Modalidades adicionais do primeiro aspecto fornecem um sinal de áudio codificado compreendendo uma informação de coeficiente de previsão para um quadro vozeado e um quadro não vozeado do sinal de áudio, uma informação adicional relacionada ao quadro de sinal vozeado e um parâmetro de ganho ou um parâmetro de ganho quantificado para o quadro não vozeado. Isto permite a transmissão eficiente da informação relacionada à fala para permitir a decodificação do sinal de áudio codificado para obter um sinal sintetizado (restaurado) com uma alta qualidade de áudio.
[025] Modalidades adicionais do primeiro aspecto fornecem umdecodificador para decodificar um sinal recebido compreendendo coeficientes de previsão. O decodificador compreende um calculador de informação do formante, um gerador de ruído, um moldador e um sintetizador. O calculador de informação do formante é configurado para calcular um informação de moldagem espectral relacionada à fala a partir dos coeficientes de previsão. O gerador de ruído é configurado para gerar um sinal similar a ruído de decodificação. O moldador é configurado para moldar um espectro do sinal similar a ruído de decodificação ou uma representação amplificada do mesmo usando a informação de moldagem espectral para obter um sinal similar a ruído de decodificação moldado. O sintetizador é configurado para sintetizar um sinal sintetizado a partir do sinal similar a ruído de codificação moldado amplificado e os coeficientes de previsão.
[026] Modalidades adicionais do primeiro aspecto referem-se a um método para codificar um sinal de áudio, um método para decodificar um sinal de áudio recebido e a um programa de computador.
[027] Modalidades do segundo aspecto fornecem um codificador para codificar um sinal de áudio. O codificador compreende um analisador configurado para derivar coeficientes de previsão e um sinal residual a partir de um quadro não vozeado do sinal de áudio. O codificador compreender ainda um calculador de parâmetro de ganho configurado para calcular um primeira informação de parâmetro de ganho para definir um primeiro sinal de excitação relacionado a um livro código determinístico e para calcular uma segunda informação de parâmetro de ganho para definir um segundo sinal de excitação relacionado a um sinal semelhante a ruído para o quadro não vozeado. O codificador compreender ainda um formador de bitstream configurado para formar um sinal de saída com base em uma informação relacionada a um quadro de sinal vozeado, a primeira informação de parâmetro de ganho e o segunda informação de parâmetro de ganho.
[028] Modalidades adicionais do segundo aspecto fornecem um decodificador para decodificar um sinal de áudio recebido compreendendo uma informação relacionada aos coeficientes de previsão. O decodificador compreende um primeiro gerador de sinal configurado para gerar um primeiro sinal de excitação a partir de um livro código determinístico para uma porção de um sinal sintetizado. O decodificador compreende ainda um segundo gerador de sinal configurado para gerar um segundo sinal de excitação a partir de um sinal similar a ruído para a porção do sinal sintetizado. O decodificador compreende ainda um combinador e um sintetizador, sendo que o combinador é configurado para combinar o primeiro sinal de excitação e o segundo sinal de excitação para gerar um sinal de excitação combinado para a porção do sinal sintetizado. O sintetizador é configurado para sintetizar a porção do sinal sintetizado a partir do sinal de excitação combinado e os coeficientes de previsão.
[029] Modalidades adicionais do segundo aspecto fornecem um sinal de áudio codificado compreendendo uma informação relacionada aos coeficientes de previsão, uma informação relacionado a um livro código determinístico, uma informação relacionada a um primeiro parâmetro de ganho e um segundo parâmetro de ganho e uma informação relacionada a um quadro de sinal não vozeado e vozeado.
[030] Modalidades adicionais do segundo aspecto fornecem métodos para codificar e decodificar um sinal de áudio, um sinal de áudio recebido respectivamente e a um programa de computador.
[031] Subsequentemente, modalidades preferidas da presente invenção são descritas com relação aos desenhos de acompanhamento, nos quais:
[032] Fig. 1 mostra um diagrama em bloco esquemático de um codificador para codificar um sinal de áudio de acordo com uma modalidade do primeiro aspecto;
[033] Fig. 2 mostra um diagrama em bloco esquemático de um decodificador para decodificar um sinal de entrada recebido de acordo com uma modalidade do primeiro aspecto;
[034] Fig. 3 mostra um diagrama em bloco esquemático de um codificador adicional para codificar o sinal de áudio de acordo com uma modalidade do primeiro aspecto;
[035] Fig. 4 mostra um diagrama em bloco esquemático de um codificador compreendendo um calculador de parâmetro de ganho variado em comparação com a Fig. 3 de acordo com uma modalidade do primeiro aspecto;
[036] Fig. 5 mostra um diagrama em bloco esquemático de um calculador de parâmetro de ganho configurado para calcular um primeira informação de parâmetro de ganho e para moldar um sinal excitado por código de acordo com uma modalidade do segundo aspecto;
[037] Fig. 6 mostra um diagrama em bloco esquemático de um codificador para codificar o sinal de áudio e compreendendo o calculador de parâmetro de ganho descrito na Fig. 5 de acordo com uma modalidade do segundo aspecto;
[038] Fig. 7 mostra um diagrama em bloco esquemático de um calculador de parâmetro de ganho que compreende um moldador adicional configurado para moldar um sinal similar a ruído em comparação com a Fig. 5 de acordo com uma modalidade do segundo aspecto;
[039] Fig. 8 mostra um diagrama em bloco esquemático de um esquema de codificação não vozeada para CELP de acordo com uma modalidade do segundo aspecto;
[040] Fig. 9 mostra um diagrama em bloco esquemático de uma codificação não vozeada paramétrica de acordo com uma modalidade do primeiro aspecto;
[041] Fig. 10 mostra um diagrama em bloco esquemático de um decodificador para decodificar um sinal de áudio codificado de acordo com uma modalidade do segundo aspecto;
[042] Fig. 11a mostra um diagrama em bloco esquemático de um moldador que implementa uma estrutura alternativa em comparação com a um moldador mostrado na Fig. 2 de acordo com uma modalidade do primeiro aspecto;
[043] Fig. 11b mostra um diagrama em bloco esquemático de um moldador adicional que implementa uma alternativa adicional em comparação com o moldador mostrado na Fig. 2 de acordo com uma modalidade do primeiro aspecto;
[044] Fig. 12 mostra um fluxograma esquemático de um método para codificar um sinal de áudio de acordo com uma modalidade do primeiro aspecto;
[045] Fig. 13 mostra um fluxograma esquemático de um método para decodificar um sinal de áudio recebido compreendendo coeficientes de previsão e a parâmetro de ganho, de acordo com uma modalidade do primeiro aspecto;
[046] Fig. 14 mostra um fluxograma esquemático de um método para codificar um sinal de áudio de acordo com uma modalidade do segundo aspecto; e
[047] Fig. 15 mostra um fluxograma esquemático de um método para decodificar um sinal de áudio recebido de acordo com uma modalidade do segundo aspecto.
[048] Elementos iguais ou equivalentes ou elementos com funcionalidade igual ou equivalente são indicados na descrição a seguir por números de referência iguais ou equivalentes, mesmo se tiver ocorrido em figuras diferentes.
[049] Na descrição a seguir, uma pluralidade de detalhes é apresentada para proporcionar uma explicação mais detalhada das modalidades da presente invenção. No entanto, será evidente para aqueles versados na técnica que as modalidades da presente invenção podem ser praticadas sem estes detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados em forma de diagrama de blocos, em vez de em detalhe, de modo a evitar obscurecer as modalidades da presente invenção. Além disso, as características de diferentes modalidades a seguir descritas podem ser combinadas umas com as outras, a menos que especificamente indicado em contrário.
[050] No que segue, será feita referência à modificação de um sinal de áudio. Um sinal de áudio pode ser modificado pela amplificação e/ou atenuação de porções do sinal de áudio. Uma porção do sinal de áudio pode ser, por exemplo uma sequência do sinal de áudio no domínio de tempo e/ou um espectro do mesmo no domínio de frequência. Com relação ao domínio de frequência, o espectro pode ser modificado pela amplificação ou atenuação de valores espectrais dispostos em ou em frequências ou faixas de frequências. A modificação do espectro do sinal de áudio pode compreender uma sequência de operações como uma amplificação e/ou atenuação de uma primeira frequência ou faixa de frequência e depois uma amplificação e/ou uma atenuação de uma segunda frequência ou faixa de frequência. As modificações no domínio de frequência podem ser representadas como um cálculo, ex., uma multiplicação, divisão, adição ou similar, dos valores espectrais e valores de ganho e/ou valores de atenuação. As modificações podem ser realizadas sequencialmente como primeiro multiplicando valores espectrais com um primeiro valor de multiplicação e depois com um segundo valor de multiplicação. A multiplicação com o segundo valor de multiplicação e depois com o primeiro valor de multiplicação pode permitir receber um resultado idêntico ou quase idêntico. Também, o primeiro valor de multiplicação e o segundo valor de multiplicação podem primeiro ser combinados e depois aplicados em termos de um valor de multiplicação combinado aos valores espectrais enquanto recebe o mesmo ou um resultado comparável da operação. Assim, as etapas de modificação configuradas para formar ou modificar um espectro do sinal de áudio descrito abaixo não são limitadas à ordem descrita mas também podem ser executadas em uma ordem alterada, enquanto recebe o mesmo resultado e/ou efeito.
[051] Fig. 1 mostra um diagrama em bloco esquemático de um codificador 100 para codificar um sinal de áudio 102. O codificador 100 compreende um construtor de quadro 110 configurado para gerar uma sequência de quadros 112 com base no sinal de áudio 102. A sequência 112 compreende uma pluralidade de quadros, sendo que cada quadro do sinal de áudio 102 compreende um comprimento (duração de tempo) no domínio de tempo. Por exemplo, cada quadro pode compreender um comprimento de 10 ms, 20 ms ou 30 ms.
[052] O codificador 100 compreende um analisador 120 configurado para derivar coeficientes de previsão (LPC = coeficientes de previsão lineares) 122 e um sinal residual 124 a partir de um quadro do sinal de áudio. O construtor de quadro 110 ou o analisador 120 é configurado para determinar uma representação do sinal de áudio 102 no domínio de frequência. Alternativamente, o sinal de áudio 102 já pode ser uma representação no domínio de frequência.
[053] Os coeficientes de previsão 122 podem ser, por exemplo coeficientes de previsão lineares. Alternativamente, também a previsão não-linear pode ser aplicada de modo que o previsor 120 é configurado para determinar coeficientes de previsão não-lineares. Uma vantagem da previsão linear é dada em um esforço computacional reduzido para determinar os coeficientes de previsão.
[054] O codificador 100 compreende um decisor vozeado/não vozeado 130 configurado para determinar, se o sinal residual 124 foi determinado a partir de um quadro de áudio não vozeado. O decisor 130 é configurado para fornecer o sinal residual para um codificador de quadro vozeado 140 se o sinal residual 124 foi determinado a partir de um quadro de sinal vozeado e para fornecer o sinal residual para um calculador de parâmetro de ganho 150, se o sinal residual 124 foi determinado a partir de um quadro de áudio não vozeado. para determinar se o sinal residual 122 foi determinado a partir de um quadro de sinal vozeado ou não vozeado, o decisor 130 pode usar diferentes abordagens como uma auto correlação de amostras do sinal residual. Um método para decidir quando um quadro de sinal foi vozeado ou não vozeado é fornecido, por exemplo no padrão G.718 da ITU (União de Telecomunicações Internacional) - T (setor de padronização de telecomunicações). Uma alta quantidade de energia disposta em baixas frequências pode indicar uma porção vozeada do sinal. Alternativamente, um sinal não vozeado pode resultar em altas quantidades de energia em altas frequências.
[055] O codificador 100 compreende um calculador de informação do formante 160 configurado para calcular uma informação de moldagem espectral relacionada à fala a partir dos coeficientes de previsão 122.
[056] A informação de moldagem espectral relacionada à fala pode considerar a informação de formante, por exemplo, determinando frequências ou faixas de frequência do quadro de áudio processado que compreende uma quantidade de energia mais alta do que a vizinhança. A informação de moldagem espectral é capaz de segmentar o espectro de magnitude da fala em regiões de frequência de formantes, ou seja, protuberâncias, e de não-formantes, ou seja, vale. As regiões de formante do espectro podem ser, por exemplo, derivadas pelo uso da representação das Frequências Espectrais de Imitância (ISF) ou Frequências de Linhas Espectrais (LSF) dos coeficientes de previsão 122. De fato a ISF ou LSF representam as frequências para as quais o filtro de síntese que usa os coeficientes de previsão 122 ressoam.
[057] A informação de moldagem espectral relacionada à fala 162 e os residuais não vozeados são encaminhados para o calculador de parâmetro de ganho 150 que é configurado para calcular um parâmetro de ganho gn a partir do sinal residual não vozeado e a informação de moldagem espectral 162. O parâmetro de ganho gn pode ser um valor escalar ou uma pluralidade dos mesmos, ou seja, o parâmetro de ganho pode compreender uma pluralidade de valores relacionados a uma amplificação ou atenuação dos valores espectrais em uma pluralidade de faixas de frequência de um espectro do sinal a ser amplificado ou atenuado. Um decodificador pode ser configurado para aplicar o parâmetro de ganho gn à informação de um sinal de áudio codificado recebido de modo que porções dos sinais de áudio codificados recebidos são amplificadas ou atenuadas com base no parâmetro de ganho durante a decodificação. O calculador de parâmetro de ganho 150 pode ser configurado para determinar o parâmetro de ganho gn por uma ou mais expressões matemáticas ou regras de determinação que resultam em um valor contínuo. Operações realizadas digitalmente, por exemplo, por meio de um processador, expressando o resultado em uma variável com um número limitado de bits, pode resultar em um ganho quantificado g)n . Alternativamente, o resultado pode ainda ser quantificado de acordo com o esquema de quantificação de modo que uma informação de ganho quantificado seja obtida. O codificador 100 pode, portanto, compreender um quantificador 170. O quantificador 170 pode ser configurado para quantificar o ganho determinado gn para um valor digital mais próximo suportado pelas operações digitais do codificador 100. Alternativamente, o quantificador 170 pode ser configurado para aplicar uma função de quantificação (linear ou não linear) a um fator de ganho já digitalizado e portanto quantificado gn. Uma função de quantificação não linear pode considerar, por exemplo, dependências logarítmicas da audição humana altamente sensíveis a baixos níveis de pressão sonora e menos sensíveis a níveis elevados de pressão.
[058] O codificador 100 compreende ainda uma unidade de derivação de informação 180 configurada para derivar uma informação relacionada ao coeficiente de previsão 182 dos coeficientes de previsão 122. Os coeficientes de previsão como coeficientes de previsão lineares usados para excitar livros código inovadores compreendem uma baixa robustez contra distorções ou erros. Portanto, por exemplo, é conhecido converter coeficientes de previsão lineares para frequências inter-espectrais (ISF) e/ou derivar pares de linha espectral (LSP) e transmitir uma informação relacionada a isso com o sinal de áudio codificado. A informação de LSP e/ou ISF compreende uma alta robustez contra distorções na mídia de transmissão, por exemplo erro, ou erros do calculador. A unidade de derivação de informação 180 pode compreender ainda um quantificador configurado para fornecer uma informação quantificada com relação à LSF e/ou à ISP.
[059] Alternativamente, a unidade de derivação de informação pode ser configurada para encaminhar os coeficientes de previsão 122. Alternativamente, o codificador 100 pode ser realizado sem a unidade de derivação de informação 180. Alternativamente, o quantificador pode ser um bloco funcionar do calculador de parâmetro de ganho 150 ou do formador de bitstream 190 de modo que o formador de bitstream 190 é configurado para receber o parâmetro de ganho gn e para derivar o ganho quantificado g)n com base no mesmo. Alternativamente, quando o parâmetro de ganho gn já é quantificado, o codificador 100 pode ser realizado sem um quantificador 170.
[060] O codificador 100 compreende um formador de bitstream 190 configurado para receber um sinal vozeado , uma informação vozeada 142 relacionada a um quadro vozeado de um sinal de áudio codificado respectivamente fornecido pelo codificador de quadro vozeado 140, para receber o ganho quantificado g)n e os coeficientes de previsão relacionados à informação 182 e para formar um sinal de saída 192 com base nos mesmos.
[061] O codificador 100 pode ser parte de um aparelho de codificação de voz como um telefone fixo ou móvel ou um aparelho compreendendo um microfone para transmissão dos sinais de áudio como um computador, um PC tablet ou similar. O sinal de saída 192 ou um sinal derivado do mesmo pode ser transmitido, por exemplo por comunicações móveis (remotas) ou por comunicações com fio como um sinal de rede.
[062] Uma vantagem do codificador 100 é que o sinal de saída 192 compreende a informação derivada de uma informação de moldagem espectral convertida para o ganho quantificado gn . Portanto, a decodificação do sinal de saída 192 pode permitir conseguir ou obter informações adicionais que são relacionadas à fala e portanto decodificar o sinal de modo que o sinal decodificado obtido compreenda uma alta qualidade com relação a um nível percebido de uma qualidade de fala.
[063] A Fig. 2 mostra um diagrama em bloco esquemático de um decodificador 200 para decodificar um sinal de entrada recebido 202. O sinal de entrada recebido 202 pode corresponder, por exemplo ao sinal de saída 192 fornecido pelo codificador 100, sendo que o sinal de saída 192 pode ser codificado pelos codificadores de camada de alto nível, transmitidos através de uma mídia, recebidos por um aparelho de recebimento decodificado em altas camadas, rendendo no sinal de entrada 202 para o decodificador 200.
[064] O decodificador 200 compreende um deformador de bitstream (demultiplexador; DE-MUX) para receber o sinal de entrada 202. O deformador de bitstream 210 é configurado para fornecer os coeficientes de previsão 122, o ganho quantificado g)n e a informação vozeada 142. para obter os coeficientes de previsão 122, o deformador de bitstream pode compreender uma unidade de derivação de informação inversa que realiza uma operação inversa em comparação com a unidade de derivação de informação 180. Alternativamente, o decodificador 200 pode compreender uma unidade de derivação de informação inversa não mostrada configurado para executar a operação inversa com relação à unidade de derivação de informação 180. Em outras palavras, os coeficientes de previsão são decodificados i.e., restaurados.
[065] O decodificador 200 compreende um calculador de informação do formante 220 configurado para calcular um informação de moldagem espectral relacionada à fala a partir dos coeficientes de previsão 122 como foi descrito para o calculador de informação do formante 160. O calculador de informação do formante 220 é configurado para fornecer informação de moldagem espectral relacionada à fala 222. Alternativamente, o sinal de entrada 202 também pode compreender a informação de moldagem espectral relacionada à fala 222, sendo que a transmissão dos coeficientes de previsão ou informação relacionada a eles como, por exemplo LSF quantificado e/ou ISF ao invés da informação de moldagem espectral relacionada à fala 222 permite uma taxa de bit inferior do sinal de entrada 202.
[066] O decodificador 200 compreende um gerador de ruído aleatório 240 configurado para gerar um sinal similar a ruído, o qual pode ser simplificadamente denotado como sinal de ruído. O gerador de ruído aleatório 240 pode ser configurado para reproduzir um sinal de ruído que foi obtido, por exemplo na medição e armazenamento de um sinal de ruído. Um sinal de ruído pode ser medido e registrado, por exemplo, pela geração de ruído térmico a uma resistência ou outro componente elétrico e pelo armazenamento de dados registrados em uma memória. O gerador de ruído aleatório 240 é configurado para fornecer o sinal (similar a) ruído n(n).
[067] O decodificador 200 compreende um moldador 250 compreendendo um processador de moldagem 252 e um amplificador variável 254. O moldador 250 é configurado para moldar espectralmente um espectro do sinal de ruído n(n). O processador de moldagem 252 é configurado para receber a informação de moldagem espectral relacionada à fala e para moldar o espectro do sinal de ruído n(n), por exemplo pela multiplicação de valores espectrais do espectro do sinal de ruído n(n) e valores de uma informação de moldagem espectral. A operação também pode ser realizada no domínio de tempo por uma convolução do sinal de ruído n(n) com um filtro dado por uma informação de moldagem espectral. O processador de moldagem 252 é configurado para fornecer um sinal de ruído moldado 256, um espectro do mesmo respectivamente para o amplificador variável 254. O amplificador variável 254 é configurado para receber o parâmetro de ganho gn e para amplificar o espectro do sinal de ruído moldado 256 para obter um sinal de ruído moldado amplificado 258. O amplificador pode ser configurado para multiplicar os valores espectrais do sinal de ruído moldado 256 com valores do parâmetro de ganho gn. Como afirmado acima, o moldador 250 pode ser implementado de modo que o amplificador variável 254 seja configurado para receber o sinal de ruído n(n) e para fornecer um sinal de ruído amplificado para o processador de moldagem 252 configurado para moldar o sinal de ruído amplificado. Alternativamente, o processador de moldagem 252 pode ser configurado para receber a informação de moldagem espectral relacionada à fala 222 e o parâmetro de ganho gn e para aplicar sequencialmente, uma após a outra, ambas as informações para o sinal de ruído n(n) ou para combinar ambas as informações, por exemplo, pela multiplicação ou outros cálculos e para aplicar um parâmetro combinado ao sinal de ruído n(n).
[068] O sinal similar a ruído n(n) ou a versão amplificada do mesmo moldada com a informação de moldagem espectral relacionada à fala permite que o sinal de áudio decodificado 282 compreenda uma melhor qualidade de som (natural) relacionada à fala. Isso permite obter sinais de áudio de alta qualidade e/ou reduzir as taxas de bit no lado do codificador ao manter ou aprimorar o sinal de saída 282 no decodificador com uma extensão reduzida.
[069] O decodificador 200 compreende um sintetizador 260 configurado para receber os coeficientes de previsão 122 e o sinal de ruído amplificado moldado 258 e para sintetizar um sinal sintetizado 262 a partir do sinal similar a ruído moldado amplificado 258 e os coeficientes de previsão 122. O sintetizador 260 pode compreender um filtro e pode ser configurado para adaptar o filtro com os coeficientes de previsão. O sintetizador pode ser configurado para filtrar o sinal similar a ruído moldado amplificado 258 com o filtro. O filtro pode ser implementado como software ou como uma estrutura de hardware e pode compreender uma estrutura de resposta a impulso infinita (IIR) ou de resposta a impulso finita (FIR).
[070] O sinal sintetizado corresponde a um quadro decodificado não vozeado de um sinal de saída 282 do decodificador 200. O sinal de saída 282 compreende uma sequência de quadros que pode ser convertida em um sinal de áudio contínuo.
[071] O deformador de bitstream 210 é configurado para separar e fornecer o sinal de informação vozeado 142 a partir do sinal de entrada 202. O decodificador 200 compreende um decodificador de quadro vozeado 270 configurado para fornecer um quadro vozeado com base na informação vozeada 142. O decodificador de quadro vozeado (processador do quadro vozeado) é configurado para determinar um sinal vozeado 272 com base na informação vozeada 142. O sinal vozeado 272 pode corresponder ao quadro de áudio vozeado e/ou o residual vozeado do decodificador 100.
[072] O decodificador 200 compreende um combinador 280 configurado para combinar o quadro decodificado não vozeado 262 e o quadro vozeado 272 para obter o sinal de áudio decodificado 282.
[073] Alternativamente, o moldador 250 pode ser realizado sem um amplificador de modo que o moldador 250 é configurado para moldar o espectro do sinal similar a ruído n(n) sem amplificar adicionalmente o sinal obtido. Isso pode permitir uma quantidade reduzida de informação transmitida pelo sinal de entrada 222 e portanto uma taxa de bit reduzida ou uma duração mais curta de uma sequência do sinal de entrada 202. Alternativamente, ou adicionalmente, o decodificador 200 pode ser configurado para decodificar somente os quadros não vozeados ou para processar quadros vozeados e não vozeados ambos pela moldagem espectral do sinal de ruído n(n) e pela sintetização do sinal sintetizado 262 para quadros vozeados e não vozeados. Isso pode permitir implementar o decodificador 200 sem o decodificador de quadro vozeado 270 e/ou sem um combinador 280 e assim levar a uma complexidade reduzida do decodificador 200.
[074] O sinal de saída 192 e/ou o sinal de entrada 202 compreende a informação relacionada aos coeficientes de previsão 122, uma informação para um quadro vozeado e um quadro não vozeado como uma bandeira indicando se o quadro processado é vozeado ou não vozeado e informações adicionais relacionadas ao quadro de sinal vozeado como um sinal vozeado codificado. O sinal de saída 192 e/ou o sinal de entrada 202 compreende ainda um parâmetro de ganho ou um parâmetro de ganho quantificado para o quadro não vozeado de modo que o quadro não vozeado pode ser decodificado com base nos coeficientes de previsão 122 e o parâmetro de ganho gn, gn , respectivamente.
[075] A Fig. 3 mostra um diagrama em bloco esquemático de um codificador 300 para codificar o sinal de áudio 102. O codificador 300 compreende o construtor de quadro 110, um previsor 320 configurado para determinar coeficientes de previsão lineares 322 e um sinal residual 324 pela aplicação de um filtro A(z) a uma sequência de quadros 112 fornecida pelo construtor de quadro 110. O codificador 300 compreende o decisor 130 e o codificador de quadro vozeado 140 para obter a informação do sinal vozeado 142. O codificador 300 compreender ainda o calculador de informação do formante 160 e um calculador de parâmetro de ganho 350.
[076] O calculador de parâmetro de ganho 350 é configurado para fornecer um parâmetro de ganho gn como foi descrito acima. O calculador de parâmetro de ganho 350 compreende um gerador de ruído aleatório 350a para gerar uma sinal similar a ruído de codificação 350b. O calculador de ganho 350 compreende ainda um moldador 350c que tem um processador de moldagem 350d e um amplificador variável 350e. O processador de moldagem 350d é configurado para receber a informação de moldagem relacionada a fala 162 e o sinal similar a ruído 350b, e para moldar um espectro do sinal similar a ruído 350b com a informação de moldagem espectral relacionada à fala 162 como foi descrito para o moldador 250. O amplificador variável 350e é configurado para amplificar um sinal similar a ruído moldado 350f com um parâmetro de ganho gn(temp) que é um parâmetro de ganho temporário recebido de um controlador 350k. O amplificador variável 350e é ainda configurado para fornecer um sinal similar a ruído moldado amplificado 350g como foi descrito para o sinal similar a ruído amplificado 258. Como foi descrito para o moldador 250, uma ordem de moldagem e amplificação do sinal similar a ruído pode ser combinada ou alterada em comparação com a Fig. 3.
[077] O calculador de parâmetro de ganho 350 compreende um comparador 350h configurado para comparar o residual não vozeado fornecido pelo decisor 130 e o sinal similar a ruído moldado amplificado 350g. O comparador é configurado para obter uma medida para uma semelhança do residual não vozeado e o sinal similar a ruído moldado amplificado 350g. Por exemplo, o comparador 350h pode ser configurado para determinar uma correlação cruzada de ambos os sinais. Alternativamente, ou adicionalmente, o comparador 350h pode ser configurado para comparar valores espectrais de ambos os sinais em algumas ou todas as caixas de frequência. O comparador 350h é configurado ainda para obter um resultado de comparação 350i.
[078] O calculador de parâmetro de ganho 350 compreende o controlador 350k configurado para determinar o parâmetro de ganho gn(temp) com base no resultado de comparação 350i. Por exemplo, quando o resultado de comparação 350i indica que o sinal similar a ruído moldado amplificado compreende uma amplitude ou magnitude que é menor que a amplitude ou magnitude correspondente do residual não vozeado, o controlador pode ser configurado para aumentar um ou mais valores do parâmetro de ganho gn(temp) para algumas ou todas as frequências do sinal similar a ruído amplificado 350g. Alternativamente, ou adicionalmente, o controlador pode ser configurado para reduzir um ou mais valores do parâmetro de ganho gn(temp) quando o resultado de comparação 350i indica que o sinal similar a ruído moldado amplificado compreende uma magnitude ou amplitude muito alta, ou seja,, que o sinal similar a ruído moldado amplificado é muito alto. O gerador de ruído aleatório 350a, o moldador 350c, o comparador 350h e o controlador 350k podem ser configurados para implementar uma otimização de circuito fechado para determinar o parâmetro de ganho gn(temp). Quando a medida para a semelhança do residual não vozeado ao sinal similar a ruído moldado amplificado 350g, por exemplo, expresso como uma diferença entre ambos os sinais, indica que a semelhança está acima de um valor limiar, o controlador 350k é configurado para fornecer um determinado parâmetro de ganho gn. Um quantificador 370 é configurado para quantificar o parâmetro de ganho gn para obter o parâmetro de ganho quantificado g)n .
[079] O gerador de ruído aleatório 350a pode ser configurado para entregar um ruído similar ao Gaussiano. O gerador de ruído aleatório 350a pode ser configurado para executar (chamar) um gerador aleatório com um número de n distribuições uniforme entre um limite inferior (valor mínimo) como -1 e um limite superior (valor máximo), como +1. Por exemplo, o gerador de ruído aleatório 350 é configurado para chamar três vezes o gerador aleatório. Como geradores de ruído aleatórios digitalmente implementados podem produzir valores pseudoaleatórios uma adição ou sobreposição de uma pluralidade ou uma infinidade de funções pseudoaleatórias pode permitir obter uma função distribuída suficientemente aleatória. Este procedimento segue o Teorema de Limite Central. O gerador de ruído aleatório 350a pode ser configurado para chamar o gerador aleatório pelo menos duas, três ou mais vezes, conforme indicado pela seguinte pseudocódigo:
[080] Alternativamente, o gerador de ruído aleatório 350a pode gerar o sinal similar a ruído a partir de uma memória como foi descrito para o gerador de ruído aleatório 240. Alternativamente, o gerador de ruído aleatório 350a pode compreender, por exemplo, uma resistência elétrica ou outros meios para gerar um sinal de ruído pela execução de um código ou pela medição de efeitos físicos como ruído térmico.
[081] O processador de moldagem 350b pode ser configurado para adicionar uma estrutura formântica e uma inclinação ao sinal similar a ruídos 350b pela filtragem do sinal similar a ruído 350b com fe(n) como afirmado acima. A inclinação pode ser adicionada pela filtragem do sinal com um filtro t(n) compreendendo uma função de transferência com base em:
[083] sendo que AC é uma abreviação para livro código adaptativo e IC é uma abreviação para livro código inovador.
[084] The parâmetro de ganho gn, o parâmetro de ganho quantificado g)n respectivamente permitem fornecer uma informação adicional que pode reduzir um erro ou um desencontro entre o sinal codificado e o sinal decodificadocorrespondente, decodificado em um decodificador como o decodificador 200.
[086] o parâmetro w1 pode compreender um valor diferente de zero positivode no máximo 1,0, de preferência de pelo menos 0,7 e no máximo 0,8 e mais de preferência compreende um valor de 0,75. O parâmetro w2 pode compreender um valor escalar diferente de zero positivo de no máximo 1,0, de preferência de pelo menos 0,8 e no máximo 0,93 e mais de preferência compreende um valor de 0,9. O parâmetro w2 é de preferência maior que w1.
[087] A Fig. 4 mostra um diagrama em bloco esquemático de um codificador 400. O codificador 400 é configurado para fornecer a informação do sinal vozeado 142 como foi descrita para os codificadores 100 e 300. Em comparação com ao codificador 300, o codificador 400 compreende um calculador de parâmetro de ganho variado 350’. Um comparador 350h’ é configurado para comparar o quadro de áudio 112 e um sinal sintetizado 350l’ para obter um resultado de comparação 350i’. O calculador de parâmetro de ganho 350’ compreende um sintetizador 350m’ configurado para sintetizar o sinal sintetizado 350l’ com base no sinal similar a ruído moldado amplificado 350g e os coeficientes de previsão 122.
[088] Basicamente, o calculador de parâmetro de ganho 350’ implementa pelo menos parcialmente um decodificador pela sintetização do sinal sintetizado 350l’. Em comparação com o codificador 300 compreendendo o comparador 350h configurado para comparar o residual não vozeado e o sinal similar a ruído moldado amplificado, o codificador 400 compreende o comparador 350h’, que é configurado para comparar o quadro de áudio (provavelmente completo) e o sinal sintetizado. Isto pode permitir uma maior precisão conforme os quadros do sinal e não apenas os parâmetros dos mesmos são comparados uns com os outros. A maior precisão pode exigir um maior esforço computacional conforme o quadro de áudio 122 e o sinal sintetizado 350l’ podem compreender uma complexidade mais alta em comparação com o sinal residual e à informação similar a ruído moldado amplificado de modo que a comparação de ambos os sinais também é mais complexa. Além disso, a síntese tem de ser calculada exigindo esforços computacionais pelo sintetizador 350m’.
[089] O calculador de parâmetro de ganho 350’ compreende uma memória 350n’ configurada para gravar uma informação de codificação compreendendo o parâmetro de ganho de codificação gn ou uma versão quantificada g)n do mesmo. Isto permite que o controlador 350k obtenha o valor do ganho armazenado ao processar um quadro de áudio subsequente. Por exemplo, o controlador pode ser configurado para determinar um primeiro (conjunto de) valor(es), ou seja,, um primeiro caso do fator de ganho gn(temp) com base ou igual ao valor de gn para o quadro de áudio anterior.
[090] A Fig. 5 mostra um diagrama em bloco esquemático de um calculador de parâmetro de ganho 550 configurado para calcular uma primeira informação de parâmetro de ganho gn de acordo com o segundo aspecto. O calculador de parâmetro de ganho 550 compreende um gerador de sinal 550a configurado para gerar um sinal de excitação c(n). O gerador de sinal 550a compreende um livro código determinístico e um índice dentro do livro código para gerar o sinal c(n). I.e., uma informação de entrada como os coeficientes de previsão 122 resulta em um sinal de excitação determinístico c(n). O gerador de sinal 550a pode ser configurado para gerar o sinal de excitação c(n) de acordo com um livro código inovador de um esquema de codificação CELP. O livro código pode ser determinado ou treinado de acordo com os dados de fala medidos nas etapas de calibração anteriores. O calculador de parâmetro de ganho compreende um moldador 550b configurado para moldar um espectro do sinal de código c(n) com base na informação de moldagem relacionada a fala 550c para o sinal de código c(n). A informação de moldagem relacionada a fala 550c pode ser obtida a partir do controlador de informação do formante 160. O moldador 550b compreende um processador de moldagem 550d configurado para receber a informação de moldagem 550c para moldar o sinal de código. O moldador 550b compreende ainda um amplificador variável 550e configurado para amplificar o sinal de código moldado c(n) para obter um sinal de código moldado amplificado 550f. Assim o parâmetro de ganho por código é configurado para definir o sinal de código c(n) que é relacionado a um livro código determinístico.
[091] O calculador de parâmetro de ganho 550 compreende o gerador de ruído 350a configurado para fornecer o sinal (similar a) ruído n(n) e um amplificador 550g configurado para amplificar o sinal de ruído n(n) com base no parâmetro de ganho de ruído gn para obter um sinal de ruído amplificado 550h. O calculador de parâmetro de ganho compreende um combinador 550i configurado para combinar o sinal de código moldado amplificado 550f e o sinal de ruído amplificado 550h para obter um sinal de excitação combinado 550k. O combinador 550i pode ser configurado, por exemplo, para adicionar espectralmente ou multiplicar valores espectrais do sinal de código moldado amplificado e o sinal de ruído amplificado 550f e 550h. Alternativamente, o combinador 550i pode ser configurado para convolucionar ambos os sinais 550f e 550h.
[092] Conforme descrito acima para o moldador 350c, o moldador 550b pode ser implementado de modo que primeiro o sinal de código c(n) seja amplificado pelo amplificador variável 550e e depois moldado pelo processador de moldagem 550d. Alternativamente, a informação de moldagem 550c para o sinal de código c(n) pode ser combinada com a informação de parâmetro de ganho do código gc de modo que a informação combinada seja aplicada ao sinal de código c(n).
[093] O calculador de parâmetro de ganho 550 compreende um comparador 550l configurado para comparar o sinal de excitação combinado 550k e o sinal residual não vozeado obtido para o decisor vozeado/não vozeado 130. O comparador 550l pode ser o comparador 550h e é configurado para fornecer um resultado de comparação, ou seja,, uma medida 550m para uma semelhança do sinal de excitação combinado 550k e o sinal residual não vozeado. O calculador de ganho de código compreende um controlador 550n configurado para controlar a informação de parâmetro de ganho do código gc e a informação de parâmetro de ganho do ruído gn. O parâmetro de ganho por código gc e a informação de parâmetro de ganho do ruído gn pode compreender um pluralidade ou uma infinidade de valores escalares ou imaginários que podem ser relacionados a uma faixa de frequência do sinal de ruído n(n) ou um sinal derivado do mesmo ou a um espectro do sinal de código c(n) ou um sinal derivado do mesmo.
[094] Alternativamente, o calculador de parâmetro de ganho 550 pode ser implementado sem o processador de moldagem 550d. Alternativamente, o processador de moldagem 550d pode ser configurado para moldar o sinal de ruído n(n) e para fornecer um sinal de ruído moldado para o amplificador variável 550g.
[095] Assim, pelo controle de ambas as informações de parâmetro de ganho gc e gn, uma semelhança do sinal de excitação combinado 550k em comparação com o residual não vozeado pode ser aumentada de modo que um decodificador que recebe a informação para a informação de parâmetro de ganho do código gc e a informação de parâmetro de ganho do ruído gn pode reproduzir um sinal de áudio que compreende uma boa qualidade de som. O controlador 550n é configurado para fornecer um sinal de saída 550o compreendendo a informação relacionada à informação de parâmetro de ganho do código gc e à informação de parâmetro de ganho do ruído gn. Por exemplo, o sinal 550o pode compreender ambas as informações de parâmetro de ganho gn e gc como valores escalares ou quantificados ou como valores derivados dos mesmos, por exemplo, valores codificados.
[096] A Fig. 6 mostra um diagrama em bloco esquemático de um codificador 600 para codificar o sinal de áudio 102 e compreendendo o calculador de parâmetro de ganho 550 descrito na Fig. 5. O codificador 600 pode ser obtido, por exemplo, pela modificação do codificador 100 ou 300. O codificador 600 compreende um primeiro quantificador 170-1 e um segundo quantificador 170-2. O primeiro quantificador 170-1 é configurado para quantificar a informação de parâmetro de ganho gc para obter um informação de parâmetro de ganho quantificado g)c . O segundo quantificador 170-2 é configurado para quantificar a informação de parâmetro de ganho de ruído gn para obter uma informação de parâmetro de ganho de ruído quantificada g)n . Um formador de bitstream 690 é configurado para gerar um sinal de saída 692 compreendendo a informação do sinal vozeado 142, a informação relacionada a LPC 122 e ambas as informações de parâmetro de ganho quantificado g)ce g)n . Em comparação com ao sinal de saída 192, o sinal de saída 692 é prolongado ou atualizado pela informação de parâmetro de ganho quantificado g)c. Alternativamente, o quantificador 170-1 e/ou 170-2 pode ser uma parte do calculador de parâmetro de ganho 550. Adicionalmente um dos quantificadores 170-1 e/ou 170-2 pode ser configurado para obter ambos parâmetros de ganho quantificados g)ce g)n .
[097] Alternativamente, o codificador 600 pode ser configurado para compreender um quantificador configurado para quantificar a informação de parâmetro de ganho do código gc e o parâmetro de ganho de ruído gn para obter a informação de parâmetro quantificado g)ce g)n . Ambas as informações de parâmetro de ganho podem ser quantificadas, por exemplo, sequencialmente.
[098] O calculador de informação do formante 160 é configurado para calcular a informação de moldagem espectral relacionada à fala 550c a partir dos coeficientes de previsão 122.
[099] A Fig. 7 mostra um diagrama em bloco esquemático de um calculador de parâmetro de ganho 550’ que é modificado em comparação com ao calculador de parâmetro de ganho 550. O calculador de parâmetro de ganho 550’ compreende o moldador 350 descrito na Fig. 3 ao invés do amplificador 550g. O moldador 350 é configurado para fornecer o sinal de ruído amplificado moldado 350g. O combinador 550i é configurado para combinar o sinal de código moldado amplificado 550f e o sinal de ruído amplificado moldado 350g para fornecer um sinal de excitação combinado 550k’. O calculador de informação do formante 160 é configurado para fornecer ambas as informações de formante relacionado à fala 162 e 550c. As informações de formante relacionado à fala 550c e 162 podem ser iguais. Alternativamente, ambas as informações 550c e 162 podem diferir uma da outra. Isso permite uma modelagem separada, ou seja,, moldagem do sinal gerado por código c(n) e n(n).
[100] O controlador 550n pode ser configurado para determinar a informação de parâmetro de ganho gc e gn para cada subquadro de um quadro de áudio processado. O controlador pode ser configurado para determinar, ou seja,, para calcular, a informação de parâmetro de ganho gc e gn com base nos detalhes apresentados abaixo.
[101] Primeiro, a energia média do subquadro pode ser calculada no sinal residual de previsão a curto prazo original disponível durante a análise de LPC, ou seja,, no sinal residual não vozeado. É calculada a média de energia através de quatro subquadros do quadro atual no domínio logarítmico por:
[102] Sendo que Lsf é o tamanho de um subquadro em amostras. Neste caso, o quadro é dividido em 4 subquadros. A energia média pode então ser codificada em um número de bits, por exemplo, três, quatro ou cinco, usando um livro código estocástico anteriormente treinado. O livro código estocástico pode compreender um número de entradas (tamanho) de acordo com um número de diferentes valores que podem ser representados pelo número de bits, ex., um tamanho de 8 para um número de 3 bits, um tamanho de 16 para um número de 4 bits ou um número de 32 para um número de 5 bits. Um ganho quantificado nrg pode ser determinado a partir da palavra código selecionada do livro código. Para cada subquadro as duas informações de ganho gc e gn são calculadas. O ganho do código gc pode ser computada, por exemplo com base em:
[103] onde cw(n) é, por exemplo, a inovação fixa selecionada a partir do livro código fixo constituído pelo gerador de sinal 550a filtrado pelo filtro ponderado perceptivo. A expressão xw(n) corresponde à excitação alvo perceptiva convencional computada nos codificadores CELP. A informação de ganho de código gc pode então ser normalizada para obter um ganho normalizado gnc com base em:
[104] O ganho normalizado gnc pode ser quantificado, por exemplo pelo quantificador 170-1. A quantificação pode ser realizada de acordo com uma escala linear ou logarítmica. Uma escala logarítmica pode compreender uma escala de tamanho de 4, 5 ou mais bits. Por exemplo, a escala logarítmica compreende um tamanho de 5 bits. A quantificação pode ser realizada com base em:
[105] sendo que índicenc pode ser limitado entre 0 e 31, se a escala logarítmica compreende 5 bits. O índicenc pode ser a informação de parâmetro de ganho quantificado. O ganho quantificado do código gc pode então ser expresso com base em:
[106] O ganho do código pode ser computado para minimizar o erro da raiz quadrada médio ou erro quadrado médio (MSE)
[107] sendo que Lsf corresponde às frequências espectrais de linha determinadas a partir dos coeficientes de previsão 122.
[108] A informação de parâmetro de ganho do ruído pode ser determinada em termos de não correspondência de energia pela minimização de um erro com base em
[109] A variável k é um fator de atenuação que pode ser variado dependenteou com base nos coeficientes de previsão, sendo que os coeficientes de previsão podem permitir determinar se a fala compreende uma baixa porção de ruído de fundo ou mesmo nenhum ruído de fundo (fala limpa). Alternativamente, o sinal também pode ser determinado como sendo uma fala ruidosa, por exemplo quando o sinal de áudio ou um quadro do mesmo compreende alterações entre quadros não vocalizados e não - não vocalizados. Uma variável k pode ser definida para um valor de pelo menos 0,85, de pelo menos 0,95 ou ainda para um valor de 1 para fala limpa, onde a alta dinâmica de energia é perceptivamente importante. Uma variável k pode ser definida para um valor de pelo menos 0,6 e no máximo 0,9, de preferência para um valor de pelo menos 0,7 e no máximo 0,85 e mais de preferência para um valor de 0,8 para fala ruidosa onde a excitação de ruído é tornada mais conservadora para evitar a flutuação na energia de saída entre quadros não vocalizados e não - não vocalizados. O erro (incompatibilidade de energia) pode ser calculado para cada um destes candidatos de ganho quantificado gc. Um quadro dividido em quatro subquadros pode resultar em quatro candidatos de ganho quantificado gc. O único candidato que minimiza o erro pode ser produzido pelo controlador. O ganho quantificado do ruído (informação de parâmetro de ganho de ruído) pode ser computado com base em:
[110] sendo que índicen é limitado entre 0 e 3 de acordo com os quatro candidatos. Um sinal de excitação combinado resultante, como o sinal de excitação 550k ou 550k’ pode ser obtido com base em:
[111] sendo que e(n) é o sinal de excitação combinado 550k ou 550k’.
[112] Um codificador 600 ou um codificador modificado 600compreendendo o calculador de parâmetro de ganho 550 ou 550’ pode permitir uma codificação não vocalizada com base em um esquema de codificação CELP. O esquema de codificação CELP pode ser modificado com base nos seguintes detalhes exemplares para manejar quadros não vozeados:• Parâmetros LTP não são transmitidos já que não há quase nenhuma periodicidade nos quadros não vozeados e o ganho de codificação resultante é muito baixo. A excitação adaptativa é definida para zero.• Os bits de economia são relatados para o livro código fixo. Mais pulsos podem ser codificados para a mesma taxa de bit, e qualidade pode então ser aprimorada.• Em baixas taxas, ou seja, para taxas entre 6 e 12 kbps, a codificação de pulso não é suficiente para modelar adequadamente a excitação alvo similar a ruído do quadro não vozeado. Um livro código Gaussiano é adicionado ao livro código fixo para construir a excitação final.
[113] A Fig. 8 mostra um diagrama em bloco esquemático de um esquema de codificação não vozeado para CELP de acordo com o segundo aspecto. Um controlador modificado 810 compreende ambas as funções do comparador 550l e do controlador 550n. O controlador 810 é configurado para determinar a informação de parâmetro de ganho do código gc e a informação de parâmetro de ganho do ruído gn com base na análise pela síntese, ou seja, pela comparação de um sinal sintetizado com o sinal de entrada indicado como s(n) que é, por exemplo, o residual não vozeado. O controlador 810 compreende um filtro de análise por síntese 820 configurado para gerar uma excitação para o gerador de sinal (excitação inovadora) 550a e para fornecer a informação de parâmetro de ganho gc e gn. O bloco de análise por síntese 810 é configurado para comparar o sinal de excitação combinado 550k’ por um sinal internamente sintetizado pela adaptação de um filtro de acordo com os parâmetros e informações fornecidos.
[114] O controlador 810 compreende um bloco de análise configurado para obter coeficientes de previsão como é descrito para o analisador 320 para obter os coeficientes de previsão 122. O controlador compreende ainda um filtro de síntese 840 para filtrar o sinal de excitação combinado 550k com o filtro de síntese 840, sendo que o filtro de síntese 840 é adaptado pelos coeficientes do filtro 122. Um comparador adicional pode ser configurado para comparar o sinal de entrada s(n) e o sinal sintetizado s(n), por exemplo, o sinal de áudio decodificado (sintetizado). Adicionalmente, a memória 350n é disposta, sendo que o controlador 810 é configurado para armazenar o sinal previsto e/ou os coeficientes previstos na memória. Um gerador de sinal 850 é configurado para fornecer um sinal de excitação adaptativo com base nas previsões armazenadas na memória 350n permitindo aumentar a excitação adaptativa com base em um sinal de excitação combinado do formador.
[115] A Fig. 9 mostra um diagrama em bloco esquemático de uma codificação não vozeada paramétrica de acordo com o primeiro aspecto. O sinal de ruído amplificado moldado pode ser um sinal de entrada de um filtro de síntese 910 que é adaptado pelos coeficientes do filtro (coeficientes de previsão) determinados 122. Uma saída do sinal sintetizado 912 pelo filtro de síntese pode ser comparada ao sinal de entrada s(n) que pode ser, por exemplo o sinal de áudio. O sinal sintetizado 912 compreende um erro em comparação com o sinal de entrada s(n). Pela modificação do parâmetro de ganho de ruído gn pelo bloco de análise 920 que pode corresponder ao calculador de parâmetro de ganho 150 ou 350, o erro pode ser reduzido ou minimizado. Pelo armazenamento do sinal de ruído amplificado moldado 350f na memória 350n, uma atualização do livro código adaptativo pode ser realizada, de modo que o processamento dos quadros de áudio vozeados também pode ser melhorado com base na codificação melhorada do quadro de áudio não vozeado.
[116] A Fig. 10 mostra um diagrama em bloco esquemático de um decodificador 1000 para decodificar um sinal de áudio codificado, por exemplo, o sinal de áudio codificado 692. O decodificador 1000 compreende um gerador de sinal 1010 e um gerador de ruído 1020 configurado para gerar um sinal similar a ruído 1022. O sinal recebido 1002 compreende informação relacionada a LPC, sendo que um deformador de bitstream 1040 é configurado para fornecer os coeficientes de previsão 122 com base na informação relacionada ao coeficiente de previsão. Por exemplo, o decodificador 1040 é configurado para extrair os coeficientes de previsão 122. O gerador de sinal 1010 é configurado para gerar um sinal de excitação excitado por código 1012 como é descrito para o gerador de sinal 558. Um combinador 1050 do decodificador 1000 é configurado para combinar o sinal excitado por código 1012 e o sinal similar a ruído 1022 como é descrito para o combinador 550 para obter um sinal de excitação combinado 1052. O decodificador 1000 compreende um sintetizador 1060 que tem um filtro para ser adaptado aos coeficientes de previsão 122, sendo que o sintetizador é configurado para filtrar o sinal de excitação combinado 1052 com o filtro adaptado para obter um quadro decodificado não vozeado 1062. O decodificador 1000 também compreende o combinador 284 que combina o quadro decodificado não vozeado e o quadro vozeado 272 para obter a sequência do sinal de áudio 282. Em comparação com ao decodificador 200, o decodificador 1000 compreende um segundo gerador de sinal configurado para fornecer o sinal de excitação excitado por código 1012. O sinal de excitação similar a ruído 1022 pode ser, por exemplo, o sinal similar a ruído n(n) ilustrado na Fig. 2.
[117] A sequência do sinal de áudio 282 pode compreender uma boa qualidade e uma alta semelhança em comparação com um sinal de entrada codificado.
[118] Modalidades adicionais fornecem decodificadores que melhoram o decodificador 1000 pela moldagem e/ou amplificação do sinal de excitação gerado por código (excitado por código) 1012 e/ou o sinal similar a ruído 1022. Assim, o decodificador 1000 pode compreender um processador de moldagem e/ou um amplificador variável disposto entre o gerador de sinal 1010 e o combinador 1050, entre o gerador de ruído 1020 e o combinador 1050, respectivamente. O sinal de entrada 1002 pode compreender a informação relacionada à informação de parâmetro de ganho do código gc e/ou a informação de parâmetro de ganho do ruído, sendo que o decodificador pode ser configurado para adaptar um amplificador para amplificar o sinal de excitação gerado por código 1012 ou uma versão moldada do mesmo pelo uso da informação de parâmetro de ganho do código gc. Alternativamente, ou adicionalmente, o decodificador 1000 pode ser configurado para adaptar, ou seja,, para controlar um amplificador para amplificar o sinal similar a ruído 1022 ou uma versão moldada do mesmo com um amplificador pelo uso da informação de parâmetro de ganho do ruído.
[119] Alternativamente, o decodificador 1000 pode compreender um moldador 1070 configurado para moldar o sinal de excitação excitado por código 1012 e/ou um moldador 1080 configurado para moldar o sinal similar a ruído 1022 como indicado pelas linhas pontilhadas. Os moldadores 1070 e/ou 1080 podem receber os parâmetros de ganho gc e/ou gn e/ou informação de moldagem relacionada a fala. Os moldadores 1070 e/ou 1080 podem ser formado como descrito para os moldadores descritos acima 250, 350c e/ou 550b.
[120] O decodificador 1000 pode compreender um calculador de informação formântica 1090 para fornecer a informação de moldagem relacionada a fala 1092 para os moldadores 1070 e/ou 1080 como foi descrito para o calculador de informação do formante 160. O calculador de informação do formante 1090 pode ser configurado para fornecer diferentes informações de moldagem relacionadas a fala (1092a; 1092b) para os moldadores 1070 e/ou 1080.
[121] A Fig. 11a mostra um diagrama em bloco esquemático de um moldador 250‘ que implementa uma estrutura alternativa em comparação com o moldador 250. O moldador 250’ compreende um combinador 257 para combinar a informação de moldagem 222 e o parâmetro de ganho relacionado ao ruído gn para obter uma informação combinada 259. Um processador de moldagem modificado 252’ é configurado para moldar o sinal similar a ruído n(n) pelo uso da informação combinada 259 para obter o sinal similar a ruído moldado amplificado 258. Como ambos, a informação de moldagem 222 e o parâmetro de ganho gn podem ser interpretados como fatores de multiplicação, ambos fatores de multiplicação podem ser multiplicados usando o combinador 257 e então aplicados na forma combinada ao sinal similar a ruído n(n).
[122] A Fig. 11b mostra um diagrama em bloco esquemático de um moldador 250’’ que implementa uma alternativa adicional em comparação com ao moldador 250. Em comparação com o moldador 250, primeiro o amplificador variável 254 é disposto e configurado para gerar um sinal similar a ruído amplificado pela amplificação do sinal similar a ruído n(n) usando o parâmetro de ganho gn. O processador de moldagem 252 é configurado para moldar o sinal amplificado usando a informação de moldagem 222 para obter o sinal de formato amplificado 258.
[123] Embora as Figs. 11a e 11b se refiram ao moldador 250 ilustrando implementações alternativas, as descrições acima também se aplicam aos moldadores 350c, 550b, 1070 e/ou 1080.
[124] A Fig. 12 mostra um fluxograma esquemático de um método1200 para codificar um sinal de áudio de acordo com o primeiro aspecto. O método 1210 compreendendo derivar coeficientes de previsão e um sinal residual a partir de um quadro de sinal de áudio. O método 1200 compreende uma etapa 1230 na qual um parâmetro de ganho é calculado a partir de um sinal residual não vozeado e a informação de moldagem espectral e a etapa 1240 na qual um sinal de saída é formado com base em uma informação relacionada a um quadro de sinal vozeado, o parâmetro de ganho ou um parâmetro de ganho quantificado e os coeficientes de previsão.
[125] A Fig. 13 mostra um fluxograma esquemático de um método 1300 para decodificar um sinal de áudio recebido compreendendo coeficientes de previsão e um parâmetro de ganho, de acordo com o primeiro aspecto. O método 1300 compreende uma etapa 1310 na qual a informação de moldagem espectral relacionada à fala é calculada a partir dos coeficientes de previsão. Na etapa 1320 um sinal similar a ruído de decodificação é gerado. Na etapa 1330 um espectro do sinal similar a ruído de decodificação ou uma representação amplificada do mesmo é moldado usando a informação de moldagem espectral para obter um sinal similar a ruído de decodificação moldado. Na etapa 1340 do método 1300 um sinal sintetizado é sintetizado a partir do sinal similar a ruído de codificação moldado amplificado e os coeficientes de previsão.
[126] A Fig. 14 mostra um fluxograma esquemático de um método 1400 para codificar um sinal de áudio de acordo com o segundo aspecto. O método 1400 compreende uma etapa 1410 na qual os coeficientes de previsão e um sinal residual são derivados a partir de um quadro não vozeado do sinal de áudio. Na etapa 1420 do método 1400 uma primeira informação de parâmetro de ganho para definir um primeiro sinal de excitação relacionado a um livro código determinístico e uma segunda informação de parâmetro de ganho para definir um segundo sinal de excitação relacionado a um sinal semelhante a ruído são calculadas para o quadro não vozeado.
[127] Na etapa 1430 do método 1400 um sinal de saída é formado com base em uma informação relacionada a um quadro de sinal vozeado, a primeira informação de parâmetro de ganho e a segunda informação de parâmetro de ganho.
[128] A Fig. 15 mostra um fluxograma esquemático de um método 1500 para decodificar um sinal de áudio recebido de acordo com o segundo aspecto. O sinal de áudio recebido compreende uma informação relacionada aos coeficientes de previsão. O método 1500 compreende uma etapa 1510 na qual um primeiro sinal de excitação é gerado a partir de um livro código determinístico para uma porção de um sinal sintetizado. Na etapa 1520 do método 1500 um segundo sinal de excitação é gerado a partir de um sinal similar a ruído para a porção do sinal sintetizado. Na etapa 1530 do método 1000 o primeiro sinal de excitação e o segundo sinal de excitação são combinados para gerar um sinal de excitação combinado para a porção do sinal sintetizado. Na etapa 1540 do método 1500 a porção do sinal sintetizado é sintetizada a partir do sinal de excitação combinado e os coeficientes de previsão.
[129] Em outras palavras, aspectos da presente invenção propõe uma nova maneira de codificar os quadros não vozeados por meio de moldagem de um ruído Gaussiano gerado aleatoriamente e moldar o mesmo espectralmente pela adição de uma estrutura formântica e uma inclinação espectral. A moldagem espectral é feita em um domínio de excitação antes de excitar o filtro de síntese. Como uma consequência, a excitação moldada será atualizada em uma memória da previsão a longo prazo para gerar livros código adaptativos subsequentes.
[130] Os quadros subsequentes, que não são vocalizados, também se beneficiar]ao da moldagem espectral. Diferente da melhoria do formante na pós- filtragem, a moldagem de ruído proposta é realizada em ambos lados do codificador e do decodificador.
[131] Tal excitação pode ser usada diretamente em um esquema de codificação paramétrico para direcionar taxas de bit muito baixas. No entanto, nós propomos também associar tal excitação em combinação com um livro código inovador convencional dentro de um esquema de codificação CELP.
[132] Para ambos os métodos, nós propomos uma nova codificação de ganho especialmente eficiente para ambas fala limpa e fala com ruído de fundo. Nós propomos alguns mecanismos pra chegar o mais perto possível da energia original mas ao mesmo tempo evitando transições muito ríspidas com quadros não - não vocalizados e também evitando instabilidades indesejadas devido à quantificação de ganho.
[133] O primeiro aspecto visa a codificação não vocalizada com uma taxa de 2,8 e 4 quilobits por segundo(kbps). Os quadros não vozeados são detectados primeiro. Isso pode ser feito por uma classificação de fala normal como é feito na Banda Larga de Multimodo de Taxa Variável (VMR-WB) como é conhecido a partir de [3].
[134] Há duas vantagens principais em fazer a moldagem espectral neste estágio. Primeiro, a moldagem espectral está levando em consideração o cálculo de ganho da excitação. Como a computação do ganho é o único módulo não cego durante a geração da excitação, é uma grande vantagem tê-lo no fim da cadeia após a moldagem. Em segundo lugar, ele permite a economia da excitação melhorada na memória da LTP. A melhoria servirá então também quadros não - não vocalizados subsequentes.
[135] Embora os quantificadores 170, 170-1 e 170-2 onde descritos como sendo configurados para obter os parâmetros quantificados g)ce g)n , os parâmetros quantificados podem ser fornecidos como uma informação relacionada aos mesmo, por exemplo, um índice ou um identificador de uma entrada de uma base de dados, a entrada compreendendo os parâmetros de ganho quantificados g)ce g)n .
[136] Embora alguns aspectos tenham sido descrito no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou recurso de um aparelho correspondente.
[137] O sinal de áudio codificado inventivo pode ser armazenado em uma mídia de armazenamento digital ou pode ser transmitido em uma mídia de transmissão como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio como a Internet.
[138] Dependendo de determinados requisitos de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada usando uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle legíveis eletronicamente armazenados nela, os quais cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que os respectivo método seja realizado.
[139] Algumas modalidades de acordo com a invenção compreendem uma transportador de dados que tem sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
[140] Geralmente, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto de programa de computador funciona em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.
[141] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados em um transportador legível por máquina.
[142] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador funciona em um computador.
[143] Uma modalidade adicional dos métodos inventivos é, portanto, um transportador de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) compreendendo, gravados nele, o programa de computador para realizar um dos métodos descritos aqui.
[144] Uma modalidade adicional do método inventivo é, portanto, uma corrente de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos aqui. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[145] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.
[146] Uma modalidade adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos aqui.
[147] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador para realizar um dos métodos descritos aqui. Geralmente, os métodos são de preferência realizados por qualquer aparelho de hardware.
[148] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende-se que modificações e variações dos arranjos e os detalhes descritos aqui serão aparentes para outros versados na técnica. É a intenção, portanto, ser limitada somente pelo escopo da reivindicações de patente iminentes e não pelos detalhes específicos apresentados por meio da descrição e explicação das modalidades aqui.Literatura[1] Recomendação ITU-T G.718: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech e audio from 8-32 kbit/s”.[2] Patente dos Estados Unidos US 5.444.816, “Dynamic codebook for efficient speech coding based on algebraic codes”.[3] Jelinek, M.; Salami, R., "Wideband Codificação da fala Advances in VMR-WB Standard," Audio, Speech, e Language Processing, IEEE Transactions on , vol.15, no.4, pp.1167,1179, Maio de 2007.
Claims (16)
1. Codificador para codificar um sinal de áudio, o codificador caracterizado por compreender:um analisador (120; 320) configurado para derivar coeficientes de previsão (122; 322) e um sinal residual a partir de um quadro não vozeado do sinal de áudio (102);um calculador de parâmetro de ganho (550; 550’) configurado para calcular uma primeira informação de parâmetro de ganho (gc) para definir um primeiro sinal de excitação (c(n)) relacionado a um livro código determinístico e para calcular uma segunda informação de parâmetro de ganho (gn) para definir um segundo sinal de excitação (n(n)) relacionado a um sinal semelhante a ruído para o quadro não vozeado; eum formador de bitstream (690) configurado para formar um sinal de saída (692) com base em uma informação (142) relacionada a um quadro de sinal vozeado, a primeira informação de parâmetro de ganho (gc) e a segunda informação de parâmetro de ganho (gn);em que, quando comparado a um esquema de codificação CELP, o codificador é configurado para não transmitir parâmetros de LTP para o quadro não vozeado economizar bits, em que o sinal de excitação adaptativo é definido para zero para o quadro não vozeado, e sendo que o livro código determinístico é configurado para codificar mais pulsos para uma mesma taxa de bit usando os bits economizados.
2. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por calculador de parâmetro de ganho (550; 550’) estar configurado para calcular um primeiro parâmetro de ganho (gc) e um segundo parâmetro de ganho (gn) e em que o formador de bitstream (690) está configurado para formar o sinal de saída (692) com base no primeiro parâmetro de ganho (gc) e o segundo parâmetro de ganho (gn); ouem que o calculador de parâmetro de ganho (550; 550’) compreende um quantificador (170-1, 170-2) configurado para quantificar o primeiro parâmetro de ganho (gc) para obter um primeiro parâmetro de ganho quantificado ( g)c ) e para quantificar o segundo parâmetro de ganho (gn) para obter um segundo parâmetro de ganho quantificado (g)n ) e em que o formador de bitstream (690) está configurado para formar o sinal de saída (692) com base no primeiro parâmetro de ganho quantificado (g)c) e o segundo parâmetro de ganho quantificado (g)n ).
3. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por compreender ainda um calculador de informação do formante (160) configurado para calcular uma informação de moldagem espectral relacionada à fala (162) a partir dos coeficientes de previsão (122; 322) e em que o calculador de parâmetro de ganho (550; 550’) está configurado para calcular a primeira informação de parâmetro de ganho (gc) e a segunda informação de parâmetro de ganho (gn) com base na informação de moldagem espectral relacionada à fala (162).
4. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por calculador de parâmetro de ganho (550’) compreender:um primeiro amplificador (550e) configurado para amplificar o primeiro sinal de excitação (c(n)) pela aplicação do primeiro parâmetro de ganho gc para obter um primeiro sinal de excitação amplificado (550f);um segundo amplificador (350e; 550g) configurado para amplificar o segundo sinal de excitação (n(n)) diferente do primeiro sinal de excitação (c(n)) pela aplicação do segundo parâmetro de ganho (gn) para obter um segundo sinal de excitação amplificado (350g; 550h);um combinador (550i) configurado para combinar o primeiro sinal de excitação amplificado (550f) e o segundo sinal de excitação amplificado (350g; 550h) para obter um sinal de excitação combinado (550k; 550k’);um controlador (550n) configurado para filtrar o sinal de excitação combinado (550k; 550k’) com um filtro de síntese para obter um sinal sintetizado (350l’), para comparar o sinal sintetizado (350l’) e o quadro de sinal de áudio (102) para obter um resultado de comparação, para adaptar o primeiro parâmetro de ganho (gc) ou o segundo parâmetro de ganho (gn) com base no resultado de comparação; eem que o formador de bitstream (690) está configurado para formar o sinal de saída (692) com base em uma informação (g)c ; g)n ) relacionada ao primeiro parâmetro de ganho (gc) e o segundo parâmetro de ganho (gn).
5. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por controlador do parâmetro de ganho (550; 550’) compreender ainda pelo menos um moldador (350; 550b) configurado para moldar espectralmente o primeiro sinal de excitação (c(n)) ou um sinal derivado do mesmo ou o segundo sinal de excitação (n(n)) ou um sinal derivado do mesmo com base em uma informação de moldagem espectral (162).
6. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por codificador estar configurado para codificar o sinal de áudio (102) quadro a quadro em uma sequência de quadros e em que o calculador de parâmetro de ganho (550; 550’) está configurado para determinar o primeiro parâmetro de ganho (gc) e o segundo parâmetro de ganho (gn) para cada de uma pluralidade de subquadros de um quadro processado e em que o calculador do parâmetro de ganho (550; 550’) está configurado para determinar um valor de energia médio associado ao quadro processado.
7. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por compreender ainda:um calculador de informação do formante (160) configurado para calcular pelo menos uma primeira informação de moldagem espectral relacionada à fala a partir dos coeficientes de previsão (122; 322);um decisor (130) configurado para determinar se o sinal residual foi determinado a partir de um quadro de áudio de sinal não vozeado.
8. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por calculador do parâmetro de ganho (550; 550’) compreender um controlador (550n) configurado para determinar o primeiro parâmetro de ganho (gc) com base em:em que cw(n) é um sinal de excitação filtrado de um livro código inovador e xw(n) é uma excitação alvo perceptiva calculada no codificador CELP;em que o controlador (550n) está configurado para determinar o ganho de ruído quantificado (g^) com base no valor quantificado do primeiro parâmetro de ganho (&) e a razão de energia da raiz quadrada entre a primeira excitação e a segunda excitação:em que Lsf é o tamanho em amostras de um subquadro, em que c(n) é o primeiro sinal de excitação e em que n(n) é o segundo sinal de excitação.
9. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 1, caracterizado por compreender ainda um quantificador (170-1, 170-2) configurado para quantificar o primeiro parâmetro de ganho (gc) para obter um primeiro parâmetro de ganho quantificado (g^), em que o calculador do parâmetro de ganho (550n) está configurado para determinar o primeiro parâmetro de ganho (gc) como uma base em:em que c(n) é o primeiro sinal de excitação, em que gc é o primeiro parâmetro de ganho, Lsf é o tamanho do subquadro em amostras, cw(n) denota o primeiro sinal de excitação moldado, xw(n) denota um sinal de codificação de Previsão Linear Excitada por Código;em que o calculador do parâmetro de ganho (550n) ou o quantificador (170-1, 170-2) está configurado ainda para normalizar o primeiro parâmetro de ganho (gc) para obter um primeiro parâmetro de ganho normalizado com base em:em que gnc denota o primeiro parâmetro de ganho normalizado e rérg é uma medida para uma energia média do sinal residual não vozeado em relação a todo o quadro; eem que o quantificador (170-1, 170-2) está configurado para quantificar o primeiro parâmetro de ganho normalizado para obter o primeiro parâmetro de ganho quantificado (g^).
10. Codificador para codificar um sinal de áudio, de acordo com a reivindicação 9, caracterizado por o quantificador (170-1, 170-2) estar configurado para quantificar o segundo parâmetro de ganho (gn) para obter um segundo parâmetro de ganho quantificado (g)n ) em que o calculador do parâmetro de ganho (550; 550’) está configurado para determinar o segundo parâmetro de ganho (gn) pela determinação de um valor de erro com base em:em que é um fator de atenuação variável em uma faixa entre 0,5 e 1, Lsf corresponde ao tamanho de um subquadro de um quadro de áudio processado, cw(n) denota o primeiro sinal de excitação moldado (c(n)), xw(n) denota um sinal de codificação de Previsão Linear Excitada por Código, gn denota o segundo parâmetro de ganho e fL denota um primeiro parâmetro de ganho quantificado;em que o calculador do parâmetro de ganho (550; 550’) está configurado para determinar o erro para o subquadro atual e em que o quantificador (170-1, 170-2) está configurado para determinar o segundo ganho quantificado (g)n ) que minimiza o erro e para obter o segundo ganho quantificado(gn) com base em:em que c(n) é o primeiro sinal de excitação e em que n(n) é o segundo sinal de excitação, onde Q(índicen) denota um valor escalar de um conjunto finito de valores possíveis.
12. Decodificador (1000) para decodificar um sinal de áudio recebido (1002), compreendendo uma informação relacionada aos coeficientes de previsão (122), o decodificador (1000) caracterizado por compreender:um primeiro gerador de sinal (1010) configurado para gerar um primeiro sinal de excitação (1012) a partir de um livro código determinístico para uma porção de um sinal sintetizado (1062);um segundo gerador de sinal (1020) configurado para gerar um segundo sinal de excitação (1022) a partir de um sinal similar a ruído para a porção do sinal sintetizado (1062);um combinador (1050) configurado para combinar o primeiro sinal de excitação (1012) e o segundo sinal de excitação (1022) para gerar um sinal de excitação combinado (1052) para a porção do sinal sintetizado (1062); eum sintetizador (1060) configurado para sintetizar a porção do sinal sintetizado (1062) a partir do sinal de excitação combinado (1052) e dos coeficientes de previsão (122);em que o sinal de áudio recebido não compreende parâmetros de LTP (Previsão a Longo Prazo) para o quadro não vozeado, em que um sinal de excitação adaptativo é configurado para zero para o quadro não vozeado, e em que mais pulsos são fornecidos para uma mesma taxa de bits devido aos bits economizados por causa da falta de parâmetros LTP para o quadro não vozeado.
13. Decodificador (1000) para decodificar um sinal de áudio recebido, de acordo com a reivindicação 12, caracterizado por o sinal de áudio recebido (1002) compreender uma informação relacionada a um primeiro parâmetro de ganho (gc) e a um segundo parâmetro de ganho (gn), em que o decodificador compreende ainda:um primeiro amplificador (254; 350e; 550e) configurado para amplificar o primeiro sinal de excitação (1012) ou um sinal derivado do mesmo pela aplicação do primeiro parâmetro de ganho (gc) para obter um primeiro sinal de excitação amplificado (1012’);um segundo amplificador (254; 350e; 550e) configurado para amplificar o segundo sinal de excitação (1022) ou um sinal derivado pela aplicação do segundo parâmetro de ganho para obter um segundo sinal de excitação amplificado (1022’).
14. Decodificador (1000) para decodificar um sinal de áudio recebido, de acordo com a reivindicação 12, caracterizado por compreender ainda:um calculador de informação do formante (160; 1090) configurado para calcular uma primeira informação de moldagem espectral (1092a) e uma segunda informação de moldagem espectral (1092b) a partir dos coeficientes de previsão (122; 322);um primeiro moldador (1070) para moldar espectralmente um espectro do primeiro sinal de excitação (1012) ou um sinal derivado do mesmo usando a primeira informação de moldagem espectral (1092a); eum segundo moldador (1080) para moldar espectralmente um espectro do segundo sinal de excitação (1022) ou um sinal derivado do mesmo usando a segunda informação de moldagem (1092b).
15. Método (1400) para codificar um sinal de áudio (102), o método caracterizado por compreender:derivar (1410) os coeficientes de previsão (122; 322) e um sinal residual a partir de um quadro não vozeado do sinal de áudio (102);calcular (1420) uma primeira informação de parâmetro de ganho (g^c) para definir um primeiro sinal de excitação (c(n)) relacionado a um livro código determinístico e para calcular uma segunda informação de parâmetro de ganho ( g)n ) para definir um segundo sinal de excitação (n(n)) relacionado a um sinal semelhante a ruído (n(n)) para o quadro não vozeado; eformar (1430) um sinal de saída (692; 1002) com base em uma informação (142) relacionada a um quadro de sinal vozeado, a primeira informação de parâmetro de ganho (g^) e a segunda informação de parâmetro de ganho (g)n);quando comparado a um esquema de codificação CELP, não transmitir os parâmetros de LTP (Previsão a Longo Prazo) para o quadro não vozeado economizar bits, definir um sinal de excitação adaptativo para o quadro não vozeado para zero, e codificar mais pulsos para a mesma taxa de bit usando o livro código determinístico e usando os bits economizados.
16. Método (1500) para decodificar um sinal de áudio recebido (692; 1002), compreendendo uma informação relacionada a coeficientes de previsão (122; 322), o decodificador caracterizado por compreender:gerar (1510) um primeiro sinal de excitação (1012, 1012’) a partir de um livro código determinístico para uma porção de um sinal sintetizado (1062);gerar (1520) um segundo sinal de excitação (1022, 1022’) a partir de um sinal similar a ruído (n(n)) para a porção do sinal sintetizado (1062);combinar (1530) o primeiro sinal de excitação (1012, 1012’) e o segundo sinal de excitação (1022, 1022’) para gerar um sinal de excitação combinado (1052) para a porção do sinal sintetizado (1062); esintetizar (1540) a porção do sinal sintetizado (1062) a partir do sinal de excitação combinado (1052) e os coeficientes de previsão (122; 322);em que o sinal de áudio recebido não compreende parâmetros de LTP (Previsão a Longo Prazo) para o quadro não vozeado, em que no sinal de áudio recebido, um sinal de excitação adaptativo é configurado para zero para um quadro não vozeado, e fornecer mais pulsos para uma mesma taxa de bits devido aos bits economizados por causa da falta de parâmetros LTP para o quadro não vozeado usando um livro código determinístico.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189392 | 2013-10-18 | ||
EP13189392.7 | 2013-10-18 | ||
EP14178785.3 | 2014-07-28 | ||
EP14178785 | 2014-07-28 | ||
PCT/EP2014/071769 WO2015055532A1 (en) | 2013-10-18 | 2014-10-10 | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112016008544A2 BR112016008544A2 (pt) | 2017-08-01 |
BR112016008544B1 true BR112016008544B1 (pt) | 2021-12-21 |
Family
ID=51752102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112016008544-2A BR112016008544B1 (pt) | 2013-10-18 | 2014-10-10 | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |
Country Status (16)
Country | Link |
---|---|
US (3) | US10304470B2 (pt) |
EP (2) | EP3058569B1 (pt) |
JP (1) | JP6366705B2 (pt) |
KR (2) | KR20160070147A (pt) |
CN (1) | CN105723456B (pt) |
AU (1) | AU2014336357B2 (pt) |
BR (1) | BR112016008544B1 (pt) |
CA (1) | CA2927722C (pt) |
ES (1) | ES2839086T3 (pt) |
MX (1) | MX355258B (pt) |
MY (1) | MY187944A (pt) |
PL (1) | PL3058569T3 (pt) |
RU (1) | RU2644123C2 (pt) |
SG (1) | SG11201603041YA (pt) |
TW (1) | TWI576828B (pt) |
WO (1) | WO2015055532A1 (pt) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2626977T3 (es) * | 2013-01-29 | 2017-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato, procedimiento y medio informático para sintetizar una señal de audio |
BR112016008544B1 (pt) * | 2013-10-18 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |
CA2927716C (en) * | 2013-10-18 | 2020-09-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
EP3563521A1 (en) | 2016-12-30 | 2019-11-06 | INTEL Corporation | Service provision to iot devices |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
DE102018112215B3 (de) * | 2018-04-30 | 2019-07-25 | Basler Ag | Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP3099852B2 (ja) | 1993-01-07 | 2000-10-16 | 日本電信電話株式会社 | 励振信号の利得量子化方法 |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
JP3747492B2 (ja) | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
JP3707153B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
EP1746583B1 (en) | 1997-10-22 | 2008-09-17 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
JP3346765B2 (ja) | 1997-12-24 | 2002-11-18 | 三菱電機株式会社 | 音声復号化方法及び音声復号化装置 |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
KR100351484B1 (ko) * | 1998-06-09 | 2002-09-05 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체 |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
US6192335B1 (en) | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP3451998B2 (ja) | 1999-05-31 | 2003-09-29 | 日本電気株式会社 | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 |
US6615169B1 (en) | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
CA2524243C (en) * | 2003-04-30 | 2013-02-19 | Matsushita Electric Industrial Co. Ltd. | Speech coding apparatus including enhancement layer performing long term prediction |
KR100732659B1 (ko) | 2003-05-01 | 2007-06-27 | 노키아 코포레이션 | 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치 |
KR100651712B1 (ko) * | 2003-07-10 | 2006-11-30 | 학교법인연세대학교 | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 |
JP4899359B2 (ja) | 2005-07-11 | 2012-03-21 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
US8271274B2 (en) * | 2006-02-22 | 2012-09-18 | France Telecom | Coding/decoding of a digital audio signal, in CELP technique |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
PT2165328T (pt) | 2007-06-11 | 2018-04-24 | Fraunhofer Ges Forschung | Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
JP5148414B2 (ja) | 2008-08-29 | 2013-02-20 | 株式会社東芝 | 信号帯域拡張装置 |
RU2400832C2 (ru) * | 2008-11-24 | 2010-09-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) | Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
RU2591021C2 (ru) * | 2011-02-15 | 2016-07-10 | Войсэйдж Корпорейшн | Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp |
US9972325B2 (en) * | 2012-02-17 | 2018-05-15 | Huawei Technologies Co., Ltd. | System and method for mixed codebook excitation for speech coding |
CN103295578B (zh) * | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CA2927716C (en) * | 2013-10-18 | 2020-09-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
PT3058569T (pt) | 2013-10-18 | 2021-01-08 | Fraunhofer Ges Forschung | Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação determinística e similar a ruído |
BR112016008544B1 (pt) * | 2013-10-18 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |
-
2014
- 2014-10-10 BR BR112016008544-2A patent/BR112016008544B1/pt active IP Right Grant
- 2014-10-10 SG SG11201603041YA patent/SG11201603041YA/en unknown
- 2014-10-10 EP EP14786471.4A patent/EP3058569B1/en active Active
- 2014-10-10 ES ES14786471T patent/ES2839086T3/es active Active
- 2014-10-10 WO PCT/EP2014/071769 patent/WO2015055532A1/en active Application Filing
- 2014-10-10 AU AU2014336357A patent/AU2014336357B2/en active Active
- 2014-10-10 EP EP20197471.4A patent/EP3779982A1/en active Pending
- 2014-10-10 PL PL14786471T patent/PL3058569T3/pl unknown
- 2014-10-10 MY MYPI2016000654A patent/MY187944A/en unknown
- 2014-10-10 MX MX2016004922A patent/MX355258B/es active IP Right Grant
- 2014-10-10 CN CN201480057351.4A patent/CN105723456B/zh active Active
- 2014-10-10 JP JP2016524410A patent/JP6366705B2/ja active Active
- 2014-10-10 KR KR1020167012955A patent/KR20160070147A/ko active Application Filing
- 2014-10-10 CA CA2927722A patent/CA2927722C/en active Active
- 2014-10-10 KR KR1020187004831A patent/KR101931273B1/ko active IP Right Grant
- 2014-10-10 RU RU2016118979A patent/RU2644123C2/ru active
- 2014-10-16 TW TW103135840A patent/TWI576828B/zh active
-
2016
- 2016-04-18 US US15/131,773 patent/US10304470B2/en active Active
-
2019
- 2019-04-01 US US16/372,030 patent/US10607619B2/en active Active
-
2020
- 2020-03-17 US US16/821,883 patent/US11798570B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR101931273B1 (ko) | 2018-12-20 |
MX355258B (es) | 2018-04-11 |
CN105723456A (zh) | 2016-06-29 |
CA2927722A1 (en) | 2015-04-23 |
SG11201603041YA (en) | 2016-05-30 |
RU2016118979A (ru) | 2017-11-23 |
CN105723456B (zh) | 2019-12-13 |
BR112016008544A2 (pt) | 2017-08-01 |
EP3058569B1 (en) | 2020-12-09 |
US20160232908A1 (en) | 2016-08-11 |
US20190228787A1 (en) | 2019-07-25 |
KR20180021906A (ko) | 2018-03-05 |
US20200219521A1 (en) | 2020-07-09 |
RU2644123C2 (ru) | 2018-02-07 |
KR20160070147A (ko) | 2016-06-17 |
US10607619B2 (en) | 2020-03-31 |
AU2014336357B2 (en) | 2017-04-13 |
WO2015055532A1 (en) | 2015-04-23 |
TWI576828B (zh) | 2017-04-01 |
MX2016004922A (es) | 2016-07-11 |
JP2016537667A (ja) | 2016-12-01 |
AU2014336357A1 (en) | 2016-05-19 |
PL3058569T3 (pl) | 2021-06-14 |
EP3779982A1 (en) | 2021-02-17 |
CA2927722C (en) | 2018-08-07 |
US11798570B2 (en) | 2023-10-24 |
US10304470B2 (en) | 2019-05-28 |
MY187944A (en) | 2021-10-30 |
JP6366705B2 (ja) | 2018-08-01 |
EP3058569A1 (en) | 2016-08-24 |
TW201523588A (zh) | 2015-06-16 |
ES2839086T3 (es) | 2021-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11881228B2 (en) | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information | |
US11798570B2 (en) | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 10/10/2014, OBSERVADAS AS CONDICOES LEGAIS. |