ES2400987T3 - Atenuación de pre-ecos en una señal de audio digital - Google Patents
Atenuación de pre-ecos en una señal de audio digital Download PDFInfo
- Publication number
- ES2400987T3 ES2400987T3 ES09747881T ES09747881T ES2400987T3 ES 2400987 T3 ES2400987 T3 ES 2400987T3 ES 09747881 T ES09747881 T ES 09747881T ES 09747881 T ES09747881 T ES 09747881T ES 2400987 T3 ES2400987 T3 ES 2400987T3
- Authority
- ES
- Spain
- Prior art keywords
- sub
- signal
- attenuation
- block
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 24
- 238000002592 echocardiography Methods 0.000 title description 28
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000002123 temporal effect Effects 0.000 claims abstract description 46
- 230000007704 transition Effects 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 238000009499 grossing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 9
- 101150018516 BST1 gene Proteins 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 239000011248 coating agent Substances 0.000 description 6
- 238000000576 coating method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 101100326371 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) bst-1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento de atenuación de pre-ecos en una señal de audio digital generada a partir de una codificación portransformada, en el que, en la decodificación, para una trama actual de esta señal de audio digital, el procedimientocomprende: - una etapa de definición (CONC) de una señal concatenada, a partir al menos de la señal reconstruida de la tramaactual; - una etapa de división (DIV, 301) de dicha señal concatenada en sub-bloque de muestras de longitud determinada; - una etapa de cálculo (ENV, 302) de envolvente temporal de la señal concatenada; - una etapa de detección (DETECT, 304) de transición de la envolvente temporal hacia una zona de fuerte energía; - una etapa de determinación (DETECT, 304) de los sub-bloques de baja energía que precede un sub-bloque en elque una transición ha sido detectada; y caracterizada por - una etapa de atenuación (ATT) en los sub-bloques determinados, estando caracterizado el procedimiento porque la atenuación se efectúa según un factor de atenuación calculadopara cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal y de la envolventetemporal de la señal reconstruida de la trama precedente.
Description
Atenuación de pre-ecos en una señal de audio digital
5 La invención se refiere a un procedimiento y a un dispositivo de atenuación de pre-ecos durante la decodificación de una señal de audio digital.
Para el transporte de las señales de audio digital en las redes de transmisión, que se trata por ejemplo de redes fijas
o móviles, o para el almacenamiento de las señales, se refiere a unos procesos de compresión (o código fuente) que ponen en marcha sistemas de codificación del tipo codificación temporal o codificación frecuencial por transformada.
El procedimiento y el dispositivo, objetos de la invención, tienen así como campo de aplicación la compresión de las señales sonoras, en particular las señales de audio digital codificadas por transformada frecuencial.
15 La figura 1 representa a título representativo un esquema de principio de la codificación y de la decodificación, de una señal de audio digital por transformada que incluye un análisis-síntesis por adición/recubrimiento según la técnica anterior.
Ciertas secuencias musicales, tales como las percusiones y ciertos segmentos de palabra como las oclusivas (/k/, /t/, …), se caracterizan por unos ataques extremamente bruscos que se traducen por unas transiciones muy rápidas y una variación muy fuerte de la dinámica de la señal en el espacio de varias muestras. Un ejemplo de transición se da en la figura 1 a partir de la muestra 410.
Para el tratamiento de codificación/decodificación, la señal de entrada es cortada en bloques de muestras de
25 longitud L (representadas aquí por unos trazos verticales punteados). La señal de entrada se señala x(n). El corte en bloques sucesivos conduce a definir los bloques xN=[x(N.L)…x(N.L+L-1)]=[xN(0)…xN(L-1)], donde N es el índice de la trama, L es la longitud de la trama. En la figura 1 se tienen L=160 muestras. En el caso de la transformada modulada en cosenos modificada MDCT (de Modified Discrete Cosine Transform en inglés), dos bloques xN(n) y xN+1(n) son analizados conjuntamente para donar un bloque de coeficientes transformados asociados a la trama de índice N.
La división en bloques, también llamadas tramas, operada por la codificación por transformada es totalmente independiente de la señal sonora y las transiciones aparecen por lo tanto en un punto cualquiera de la ventana de análisis. Ahora bien, después de la decodificación por transformada, la señal reconstruida es estanca de “ruido” (o distorsión) generada por la operación cuantificación (Q)-cuantificación inversa (Q-1). Este ruido de codificación es
35 repartido temporalmente de forma relativamente uniforme en cualquier soporte temporal del bloque transformado, es decir en toda la longitud de la ventana de longitud 2L de muestras (con recubrimiento de L muestras). La energía del ruido de codificación es en general proporcional a la energía del bloque y es función del caudal de decodificación.
Para un bloque que comprende un ataque (como el bloque 320-340 de la figura 1) la energía de la señal es elevada, el ruido es por lo tanto igualmente de nivel elevado.
En codificación por transformada, el nivel del ruido de codificación es inferior al de la señal para las muestras de energía fuerte que siguen inmediatamente la transición, pero el nivel es superior al de las señales para las muestras de energía más débiles, particularmente en la parte que precede la transición (muestras 160-410 de la figura 1).
45 Para la parte precitada, la relación señal a ruido es negativa y la degradación resultante puede aparecer muy molesta a la escucha. Se llama pre-eco al ruido de codificación anterior a la transición y post-echo al ruido posterior a la transición.
Se puede observar en la figura 1 que el pre-eco afecta a la trama que precede a la transición así como a la trama en la que se produce la transición.
Las experiencias psicoacústicas han mostrado que la oreja humana efectúa un pre-enmascaramiento temporal de los sonidos bastante limitado, del orden de varios milisegundos. El ruido que precede al ataque, o pre-eco, es audible cuando la duración del pre-eco es superior a la duración del pre-enmascaramiento.
55 La oreja humana efectúa igualmente un post-enmascaramiento de una duración más larga, de 5 a 60 milisegundos, durante el paso de secuencias de energía fuerte en unas secuencias de energía débil. La tasa o nivel de molestia aceptable para los post-ecos es por lo tanto más importante que para los pre-ecos.
El fenómeno de los pre-ecos, más crítico, es tan molesto como importante es la longitud de los bloques en número de muestras. Ahora bien, en codificación por transformada, es necesario tener una resolución fiel de las zonas frecuenciales más significativas. Con frecuencia de muestreo fija y con caudal fijo, si se aumenta el número de puntos de la ventana se dispondrá de más bits para codificar los rayos frecuenciales juzgados útiles por el modelo psicoacústico, de ahí la ventaja de utilizar bloques de gran longitud. La codificación MPEG AAC (Advanced Audio 65 Coding), por ejemplo, utiliza una ventana de gran longitud que contiene un número fijo de muestras, 2048, sea en una duración de 64 ms con una frecuencia de muestreo de 32 kHz. Los codificadores por transformada utilizados
para las aplicaciones conversacionales utilizan a menudo una ventana de duración 40 ms a 16 kHz y una duración de renovación de trama de 20 ms.
Con el objeto de reducir el efecto molesto precitado del fenómeno de los pre-ecos han sido propuestas diferentes 5 soluciones hasta aquí.
Una primera solución consiste en aplicar un filtrado adaptativo. En la zona que precede la transmisión debida al ataque, la señal reconstituida es constituida de hecho por la señal original y por ruido de cuantificación superpuesto a la señal.
Una técnica de filtrado correspondiente ha sido descrita en el artículo titulado High Quality Audio Transform Coding at 64 bits, IEEE Trans. On Communications Vol. 42, No.11, noviembre 1994, publicado por Y. Mahieux y J.P.Petit.
La puesta en marcha de tal filtrado necesita el conocimiento de parámetros de los cuales son estimados en el
15 decodificador a partir de las muestras ruidosas. Por el contrario, unas informaciones tales como la energía de la señal de origen no pueden ser conocidos más que en el código y deben por consiguiente ser transmitidas. Cuando el bloque recibido contiene una variación brusca de dinámica, se le aplica el tratamiento de filtrado.
El proceso de filtrado precitado no permite rencontrar la señal de origen, pero procura una fuerte reducción de los pre-ecos. Necesita no obstante transmitir los parámetros auxiliares suplementarios al decodificador.
Una técnica que no necesita la transmisión de parámetros auxiliares es descrita en la solicitud de patente francesa FR 0601466. El método descrito permite discriminar la presencia de los pre-ecos y atenuar los pre-ecos de una señal de audio digital generada por código jerárquico (que genera un tren binario multicapas) a partir de una
25 codificación por transformada, que genera el pre-eco, y de una codificación temporal, que no genera pre-ecos.
Esta solicitud de patente describe más precisamente la detección en el decodificador de una zona de baja energía que precede a una transición hacia una zona de fuerte energía, la atenuación de los pre-ecos en las zonas de baja energía detectadas y la inhibición de la atenuación de los pre-ecos está basada en una comparación entre la señal resultante de una decodificación por transformada (que genera pre-ecos) y una señal de referencia resultante de una decodificación temporal (no generadora de ecos).
Esta técnica no necesita transmisión de información auxiliar específica que viene del codificador pero necesita la presencia de una señal de referencia resultante de una decodificación temporal.
35 Todos los decodificadores que utilizan una decodificación por transformada no disponen necesariamente de una señal de referencia resultante de una decodificación temporal. Además, en el caso de que tal señal de referencia esté disponible en el decodificador, no está siempre adaptado para calcular la atenuación de los pre-ecos.
Un codificador escalable estéreo, por ejemplo la extensión en estéreo de la norma UIT-T G.729.1, puede funcionar de la manera descrita anteriormente.
El codificador calcula la media de los dos canales izquierdo y derecho de la señal estéreo, y después codifica esta media por el codificador G.729.1, y en definitiva transmite unos parámetros suplementarios de extensión estéreo. El
45 tren binario transmitido al decodificador comprende por lo tanto una capa G.729.1 con unas capas suplementarias de extensión estéreo. Por ejemplo, una primera capa suplementaria comprende unos parámetros que reflejan la diferencia de energía por sub-banda (en el campo transformado) entre los dos canales de la señal estéreo. Una segunda capa comprende por ejemplo los coeficientes transformados de la señal residual, definida como la diferencia entre la señal original y la señal decodificada a partir del tren binario G.729.1 y de la primera capa.
El decodificador G.729.1 en modo extendido, decodifica primero la señal mono y rencuentra en función de los parámetros transmitidos, los coeficientes transformados de los dos canales izquierdo y derecho.
La decodificación de la señal mono por un decodificador de tipo G.729.1 aporta una señal de referencia basada en la
55 media de los dos canales. En el caso de que la diferencia de nivel entre los dos canales sea grande, la envolvente temporal de la señal mono será entonces débil en relación con la salida de la transformada inversa del canal de mayor nivel y fuerte en relación con la salida de la transformada inversa del canal de nivel más débil.
La utilización de una referencia como la salida del decodificador G.729.1 para atenuar los pre-ecos no será por lo tanto eficaz para la decodificación estéreo: en el canal de nivel más grande se detectará sin razón demasiado preeco y se suprimirá por lo tanto la señal útil mientras que en el canal de nivel más débil no se detectarán ni se suprimirán todos los pre-ecos.
Existe por lo tanto una necesidad de una técnica de atenuación precisa de pre-ecos en la decodificación, en el caso
65 de que una señal resultante de una decodificación temporal no esté disponible o no sea competente y donde ninguna información auxiliar es transmitida por el codificador. Esta técnica debe, además, poder funcionar para la codificación mono y estéreo.
A este efecto, la presente invención trata de un procedimiento de atenuación de pre-ecos en una señal de audio digital generada a partir de una codificación por transformada, en el que, en el decodificador, para una trama actual 5 de esta señal de audio digital, el procedimiento comprende:
- -
- una etapa de definición de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual;
- -
- una etapa de división de dicha señal concatenada en sub-bloques de muestras de longitud determinada;
- -
- una etapa de cálculo de envolvente temporal de la señal concatenada;
- -
- una etapa de detección de transición del sobre temporal hacia una zona de fuerte energía;
15 - una etapa de determinación de los sub-bloques de baja energía que preceden a un sub-bloque en el que se ha detectado una transición; y
- -
- una etapa de atenuación en los sub-bloques determinados,
estando caracterizado el procedimiento porque la atenuación se efectúa según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal concatenada y de la envolvente temporal de la señal reconstruida de la trama precedente.
Así, el factor de atenuación se define por características propias en la señal decodificada que no necesitan 25 transmisión de información del codificador ni señal resultante de una decodificación no generador de ecos.
Un factor adaptado a cada sub-bloque de la trama actual y calculado a partir de la señal reconstruida permite mejorar la calidad del tratamiento de atenuación de los pre-ecos.
La señal concatenada puede ser definida a partir de la señal reconstruida de la trama actual y de la segunda parte de la trama actual tal como se define ulteriormente en referencia a la figura 2. En este caso, el método no introduce retardo temporal.
En el caso de que se autorice un retardo temporal, la señal concatenada se define como la señal reconstruida de la 35 trama actual y de la trama siguiente.
La señal concatenada puede ser físicamente almacenada en diferentes sitios por sub-bloques.
Los diferentes modos particulares de realización mencionados después pueden ser añadidos independientemente o en combinación los unos con los otros, en las etapas del procedimiento definido anteriormente.
Así, en un modo particular de realización, un valor mínimo está fijado para un valor de atenuación del factor en función de la envolvente temporal de la señal reconstruida de la trama precedente.
45 Esto permite evitar una diferencia demasiado grande de atenuación de una trama a otra en particular en el nivel de ruido de fondo y así evitar artefactos audibles.
La envolvente temporal de la señal reconstruida de la trama precedente puede por ejemplo ser determinada por el cálculo de la energía mínima por sub-bloque o incluso por el cálculo de la energía media o cualquier otro cálculo.
En un modo particular de realización de la invención, el factor de atenuación es determinado en función de la envolvente temporal de dicho sub-bloque, del máximo de la envolvente temporal del sub-bloque que comprende dicha transición y de la envolvente temporal de la señal reconstruida de la trama precedente.
55 En un ejemplo de realización, la envolvente temporal es determinada por un cálculo de energía por sub-bloques.
Ventajosamente, el procedimiento comprende además una etapa de cálculo y de memorización de la envolvente temporal de la trama actual después de la etapa de atenuación en los sub-bloques determinados.
Este cálculo de envolvente temporal será por tanto utilizado para tratar la trama siguiente. Este cálculo es preciso porque la señal ya no es perturbada por los pre-ecos.
Ventajosamente, un factor de atenuación de valor 1 es atribuido a las muestras de dicho sub-bloque que comprende la transición así como las muestras de los sub-bloques siguientes en la trama actual. 65 La atenuación es por lo tanto inhibida en estos sub-bloques que no comprenden pre-ecos.
En un modo de realización particular, el factor de atenuación es determinado por sub-bloque determinado por el subbloque determinada según las siguientes etapas:
5 - cálculo de la relación de la energía máxima determinada en el sub-bloque que comprende una transición en la energía del sub-bloque actual;
- -
- comparación de la relación con un primer umbral;
- -
- en el caso de que la relación sea inferior o igual al primer umbral, atribución de un valor que inhibe la atenuación en el factor de atenuación;
- -
- en el caso de que la relación sea superior al primer umbral: 15 • comparación de la relación con un segundo umbral;
- •
- en el caso de que la relación sea inferior o igual al segundo umbral, atribución de un valor de atenuación débil en el factor de atenuación;
- •
- en el caso de que la relación sea superior al segundo umbral, atribución de un valor de atenuación fuerte en el factor de atenuación.
Este modo de realización particular se releva particularmente eficaz y es simple de poner en marcha.
25 Ventajosamente, el procedimiento prevé la determinación de una función de alisado entre los factores calculados muestra por muestra.
Esto permite igualmente evitar artefactos audibles durante una variación demasiado brusca de los valores de atenuación.
En una variante de puesta en marcha, una corrección de factor es efectuada para el sub-bloque que precede al subbloque que comprende una transición, aplicando un valor de atenuación que inhibe la atenuación, en el factor de atenuación aplicado a un número predeterminado de muestras del sub-bloque que precede al sub-bloque que comprende una transición.
35 Esto permite por lo tanto no disminuir la amplitud del ataque por la función de alisado definida para los valores de atenuación.
La presente invención se refiere igualmente a un dispositivo de atenuación de pre-ecos en una señal de audio digital generada a partir de un codificador por transformada, en el que el dispositivo asociado a un decodificador comprende para tratar una trama actual de esta señal de audio digital:
- -
- un módulo de definición de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual; 45 - un módulo de división de dicha señal concatenada en sub-bloques de muestras de longitud determinada;
- -
- un módulo de cálculo de envolvente temporal de la señal concatenada;
- -
- un módulo de detección de transición de la envolvente temporal hacia una zona de fuerte energía;
- -
- un módulo de determinación de los sub-bloques de baja energía que precede a un sub-bloque en el que una transición ha sido detectada; y
- -
- un módulo de atenuación en los sub-bloques determinados.
55 El dispositivo es tal que el módulo de atenuación efectúa la atenuación según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal concatenada y de la envolvente temporal de la señal reconstruida de la trama precedente.
La invención se refiere a un decodificador de una señal de audio digital que comprende un dispositivo tal como el descrito precedentemente.
Tal decodificador puede por ejemplo ser un decodificador de tipo G.729-1SWB/estéreo estudiado en la pregunta 23 del UIT-t, comisión 16. 65 La invención puede ser integrada en tal decodificador en modo estéreo o en modo SWB (de Super Wide Band en
inglés).
En definitiva, la invención se refiere a un programa informático que comprende unas instrucciones de código para la puesta en marcha de las etapas del procedimiento de atenuación tal como se ha descrito, cuando estas 5 instrucciones son ejecutadas por un procesador.
Otras características y ventajas de la invención aparecerán más claramente de la lectura de la descripción siguiente, dada únicamente a título de ejemplo no limitativo, y hecha en referencia a los dibujos adjuntos, en los que:
- -
- la figura 1 descrita precedentemente ilustra un sistema de codificación-decodificación por transformada según el estado de la técnica;
- -
- la figura 2 ilustra la configuración de la señal reconstruida en relación con la trama actual de una señal;
15 - la figura 3 ilustra un dispositivo de atenuación de pre-ecos en un decodificador de señal de audio digital;
- -
- la figura 4a representa la señal concatenada cuando una transición se encuentra en la segunda parte de la trama actual;
- -
- la figura 4b representa la señal concatenada cuando una transición se encuentra en la señal reconstruida de la trama actual;
- -
- la figura 5 ilustra un organigrama que representa un modo de realización general de las etapas del cálculo del
factor de atenuación según la invención; 25
- -
- la figura 6 ilustra un organigrama detallado de la puesta en marcha del procedimiento de atenuación según un modo de realización de la invención;
- -
- la figura 7 ilustra un modo de realización particular del cálculo del factor de atenuación según la invención;
- -
- la figura 8a ilustra un ejemplo de señal de audio digital para la que la invención según un modo de realización es puesta en marcha;
- -
- la figura 8b ilustra la misma señal de audio digital para la que la invención según una variante de realización es 35 puesta en marcha;
- -
- la figura 9 ilustra la señal concatenada cuando el ataque se sitúa en el segundo sub-bloque de la segunda parte de la trama actual;
- -
- la figura 10 ilustra la señal concatenada cuando el ataque se sitúa en el tercer sub-bloque de la segunda parte de la trama actual;
- -
- la figura 11 ilustra la señal concatenada cuando el ataque se sitúa en el primer sub-bloque de la segunda parte de
la trama actual; 45
- -
- la figura 12 ilustra la señal concatenada cuando el ataque se sitúa en el cuarto sub-bloque de la segunda parte de la trama actual;
- -
- las figuras13a y 13b ilustran respectivamente un codificador y un decodificador de tipo G.729-1SWB/estéreo, comprendiendo el decodificador un dispositivo de atenuación según la invención;
- -
- las figuras 14a y 14b ilustran respectivamente un codificador y un decodificador de tipo G.729.1SWB, comprendiendo el decodificador un dispositivo de atenuación según la invención;
55 - la figura 15 ilustra un ejemplo de un dispositivo de atenuación según la invención.
La figura 2 representa una trama de la señal decodificada así como la configuración de la señal reconstruida por adición/recubrimiento tal como el descrito en referencia a la figura 1. En lo sucesivo, la notación siguiente se utiliza en referencia a la figura 2 y a la ecuación siguiente:
donde N es el índice de la trama, L es la longitud de la trama, xrec,N es la señal reconstruida de la trama N, xtr,N es la señal de longitud 2L resultante de la transformación inversa de la trama N. Sin entrar en los detalles de la MDCT y de la transformación inversa MDCT, se define la señal intermediaria xtr,N de longitud 2L para la trama N como:
donde yr(n) e yi(n) son señales intermedias que no son detalladas aquí. Después se puede mostrar que la señal 5 reconstruida x rec,N de la trama N es dada por:
La reconstrucción se efectúa por lo tanto por adición-recubrimiento.
10 Se señala que la señal intermedia comprende una parte antisimétrica y una parte simétrica. Durante la decodificación de la trama N, se recibe el tren binario que permite encontrar xtr,N; se puede por lo tanto reconstruir xrec,N(n), n=0…L -1. Por el contrario no dispone más que de la “mitad” de la información en la trama futura de índice N+1, es decir xtr,N, n=L…2L-1, en la trama futura de índice N+1. Es importante señalar que para todas las variantes de realización de la MDCT (y de su inversa) se puede siempre definir una señal intermedia xtr,N de la forma definida
15 anteriormente. No obstante en ciertas realizaciones la señal xtr,N no es explícita en tanto que, solas las señales intermediarias yr(n) e yi(n), que comprenden el “repliegue temporal”, están disponibles.
Así, en un decodificador por transformada, la señal reconstruida de la trama actual (xrec,N(n), n=0 a L-1) se obtiene por adición ponderada de la segunda parte de la salida de la transformada inversa de los coeficientes MDCT de la 20 trama precedente (xtr,N-1(n), n=L a 2L-1) y de la primera parte de la salida de la transformada inversa de los coeficientes MDCT de la trama actual xtr,N(n), n=0 a L-1). La segunda parte de la salida de la transformada inversa de los coeficientes MDCT de la trama actual (xtr,N(n), n=L a 2L-1) será guardada en la memoria y se volverá (xtr,N-1(n), n=L a 2L-1) para ser explotada para obtener la señal reconstruida de la trama siguiente. Para simplificar, en lo sucesivo se utilizarán los términos “primera parte de la trama actual”, “segunda parte de la trama actual”, “señal
25 reconstruida de la trama actual”. En la trama siguiente, la segunda parte de la trama actual se convierte por lo tanto en la segunda parte de la trama precedente.
Para incluso simplificar las figuras se introduce igualmente la notación siguiente para la segunda parte de la trama actual puesta a nivel, es decir multiplicada por el valor máximo de la ventana de síntesis de la transformada MDCT: 30
En particular, para un ataque situado en la trama actual, en la primera o segunda parte, el procedimiento de atenuación de los pre-ecos según un modo de realización de la invención genera una señal concatenada [xrec.N(0)…xrec,N(L-1)xcur2h,N(0)…xcur2h,N(L-1)], a partir de la señal reconstruida de la trama actual xrec,N(n) y de la señal
35 de la segunda parte de la trama actual puesta a nivel xcur2h,N(n).
Esta señal concatenada es divisada en sub-bloques de muestras de longitud determinada, aquí un número par.
El procedimiento determina el sub-bloque del bloque actual que necesita una atenuación de pre-ecos.
40 El procedimiento de atenuación comprende igualmente una etapa de cálculo del factor de atenuación a aplicar a los sub-bloques determinados. El cálculo se efectúa para cada uno de los sub-bloques en función de la envolvente temporal de la señal concatenada.
45 Este cálculo puede también efectuarse en función además de la envolvente temporal de la señal reconstruida de la trama precedente.
Así en referencia a la figura 3, un dispositivo 100 de atenuación comprende un módulo 101 de definición de una señal concatenada, un módulo 102 de división de la señal concatenada en sub-bloques, un módulo 103 de cálculo 50 de envolvente temporal de la señal concatenada, un módulo 104 de detección de transición de la envolvente temporal hacia una zona de fuerte energía y de determinación de los sub-bloques de baja energía que preceden un sub-bloque en el que una transición ha sido detectada y un módulo 105 de atenuación en los sub-bloques determinados. El módulo de atenuación es capaz de aplicar un factor de atenuación en los sub-bloques determinados por el módulo 104, el factor de atenuación siendo determinado por el módulo de atenuación en función
55 de la envolvente temporal de la señal concatenada.
En referencia a la figura 3, el dispositivo de atenuación está comprendido en un decodificador que comprende un módulo 110 de cuantificación inversa (Q-1), un módulo 120 de transformada inversa (MDCT-1), un módulo 130 de reconstrucción de la señal por adición/recubrimiento (add/rec) como se describe en referencia a la figura 1 y que reparte una señal reconstruida en el dispositivo de atenuación según la invención.
5 Las figuras 4a y 4b ilustran ejemplos de señales que comprenden transiciones o ataques en la señal. El fenómeno de pre-eco existe cuando la energía de una parte de la señal en una ventana MDCT y prácticamente superior (ataque) a la de las otras partes. El pre-eco es entonces observado en las partes de baja energía antes del ataque. Es por lo tanto en esta parte que hay que atenuar los pre-ecos.
10 Dos casos son posibles: el ataque o la transición de la señal se encuentra en la trama actual (L primeras muestras) o en la trama siguiente (L muestras siguientes) que corresponden a la segunda parte de la trama actual como se representa en la figura 2.
La figura 4a representa una señal concatenada con un ataque de la señal en la segunda parte de la trama actual. Se
15 puede ver en esta figura el corte en K2 sub-bloques k de longitud N2 muestras con N2=L/K2, K2=4. Las L primeras muestras representan la señal reconstruida de la trama actual xrec,N(n), n=0,…,L-1. Las L muestras siguientes (L a 2L-1) representan la segunda parte de la trama actual xcut2h,N(n), n=0,…,2L-1. En la trama siguiente, esta segunda parte se vuelve la primera parte de la trama precedente.
20 Hay que señalar que la segunda parte de la trama actual es simétrica por propiedad de la transformada inversa MDCT. En efecto según la invención los pre-ecos se atenúan sin introducir retraso suplementario en la decodificación por transformada. Durante la decodificación de la trama actual, el decodificador sintetiza las muestras xtr,N(n), n=0,…, 2L-1, pero no puede utilizar más que las muestras xtr,N(n), n=0,…, L-1 para reconstruir xrec,N(n), n=0,…, L-1.
25 Se ve que el ataque o transición se encuentra en la trama siguiente (pero sin poder dar todavía su posición), hay por lo tanto que atenuar el pre-eco para las L primeras muestras de la trama actual de la señal reconstruida.
La figura 4b representa la misma señal una trama más tarde, esta vez el ataque se encuentra en la trama actual de
30 la señal reconstruida, en el tercer sub-bloque (k=2). Por lo tanto hay que atenuar el pre-eco en los dos primeros subbloques.
El procedimiento de atenuación de los pre-ecos según la invención reparte factores de atenuación del pre-eco para cada muestra de la trama. Este procedimiento va a ahora a ser descrito en referencia a las figuras 5 y 6.
35 El organigrama representado en la figura 5 ilustra las diferentes etapas de cálculo del factor de atenuación según la invención para una trama actual.
En la etapa 201, la envolvente temporal de la señal reconstruida de la trama actual es calculada y en la etapa 202, la 40 envolvente temporal de la segunda parte de la trama actual puesta a nivel es calculada.
La envolvente temporal es por ejemplo obtenida por el cálculo de la energía por sub-bloques como se describe en referencia a la figura 6. Puede ser obtenida por otros métodos, calculando por ejemplo la media de los valores absolutos de la señal por sub-bloques, o incluso el valor máximo o el valor mediano de cada sub-bloque. La
45 envolvente puede igualmente ser obtenida por ejemplo como un operario de tipo Teager-Kaiser seguido por un filtrado de paso bajo. En todos los casos se supone aquí, sin pérdida de generalidad, que la envolvente temporal se define con una resolución temporal de un valor por sub-bloque, siendo flexible el tamaño de los sub-bloques.
En la etapa 203, una función de factor de atenuación se define a partir de las envolventes de la señal reconstruida 50 de la trama precedente (Tenv(xrec,N-1(n)).
La etapa 204 opcional, definida una función de alisado en los valores obtenidos del factor de atenuación con el fin de evitar las discontinuidades que podría revelarse en la señal tratada.
55 En referencia a la figura 6, el procedimiento de atenuación en un modo de realización detallada de la invención va a ahora a ser descrito.
Así, en la etapa 301, como se ilustra en la figura 4a o 4b, la señal es cortada en sub-bloques de longitud N2=L/K2. Se obtiene así 2K2 sub-bloques.
60 En la etapa 302, la energía En(k) de los K2 sub-bloques de la señal reconstruida xrec,N(n) es calculada.
En la etapa 303, la energía de cada sub-bloque de la segunda parte de la trama actual puesta a nivel xcur2h,N(n) es calculada. Solos K2/2 valores son diferentes del hecho de la simetría de esta parte de la señal como representada en
65 la figura 4a.
El máximo de las energías de los sub-bloques de señal xrec,N(n) y xcur2h,(n) es calculado en la etapa 304 en los K2+K2/2=3K2/2 bloques y su índice es memorizado en ind1.
El valor de la energía máximo maxen así calculada es igualmente memorizada.
5 En la etapa 305 un contador de bucle es iniciado. En el bucle de las etapas 306 a 309, se determina en 307, para cada sub-bloque precedente el sub-bloque de índice ind1 un factor de atenuación g(k) en función de su energía En(k), de la energía máxima maxen y de la energía media de la señal reconstruida de la trama precedente xrec,N-1 y se atribuye este factor en 308 a todas las muestras del sub-bloque.
En la etapa 310 se calcula el índice de la primera muestra del sub-bloque con la energía máxima. En la etapa 311 se verifica si es inferior a la longitud de la trama. Si sí, el sub-bloque de energía máxima está en la trama actual y se atribuye el factor 1, es decir un valor que inhibe la atenuación, en todas las muestras a partir del principio del subbloque hasta el fin de la trama en el bucle de las etapas 311-312-313.
15 En la etapa 314 la energía media de la trama actual reconstruida, es decir de los K2 primeros bloques de la señal reconstruida xrec,N(n) es calculada y memorizada. Será utilizada en la trama siguiente para el cálculo de los nuevos factores. En una variante se puede remplazar la ecuación de esta etapa por otra que tiene en cuenta igualmente la atenuación de los pre-ecos, por ejemplo por la ecuación siguiente:
Así, se tiene en cuenta la señal tratada que ya no está perturbada por pre-ecos.
25 En las etapas 315 y 316, una función de alisado de los factores es determinada y aplicada muestra por muestra para evitar variaciones demasiado bruscas del factor. Esta función de alisado es por ejemplo definida por las ecuaciones siguientes:
gpre(0)=αgold+(1-α)gpre ‘(0)
donde se pondera el factor definido para la muestra precedente y el factor de la muestra actual para obtener el factor liso.
35 El último factor de atenuación obtenido para el último sub-bloque a atenuar de la trama actual es memorizado para una utilización en la trama siguiente a la etapa 315.
Otras funciones de alisado son posibles como por ejemplo una transición lineal entre los dos valores de factor, sea con una pérdida constante (por ejemplo por paso de 0,05), ya sea con una longitud fija (por ejemplo sobre 16 muestras).
Una vez los factores así calculados, la atenuación de pre-eco es hecha en la señal reconstruida de la trama actual multiplicando cada muestra por el factor correspondiente:
Xrecg,N(n)=g(n)xrec,N(n), n=0 a L-1 45 La etapa 307 del cálculo del factor de atenuación para un sub-bloque es ahora detallada en un modo de realización particular de la invención en referencia a la figura 7.
En este modo de realización, se calcula primero en la etapa 401, la relación maxen/En(k) de la energía máxima determinada en la etapa 304 en la energía del sub-bloque tratado.
En la práctica, esta relación puede ser invertida y los umbrales adaptados en consecuencia.
Se prueba en la etapa 402 si esta relación es inferior o igual a un primer umbral S1. El valor de S1 es fijo en 16 en el 55 ejemplo, siendo optimizado este valor experimentalmente.
Si sí, la variación de la energía en relación con la energía máxima es débil para producir un pre-eco molesto, ninguna atenuación es entonces necesaria. El factor es entonces fijado en la etapa 403, en un valor de atenuación que inhibe la atenuación, es decir 1.
Si no, se prueba en la etapa 104 si la relación r es inferior o igual a un segundo umbral S2. El valor de S2 está fijado 5 en 32 en el ejemplo, siendo optimizado este valor experimentalmente.
Si sí, eso quiere decir que se puede tener un pequeño pre-eco molesto que hay que atenuar ligeramente fijando el factor en la etapa 405, con un valor de atenuación débil, por ejemplo de 0,5. Cuando la relación es superior a este segundo umbral, el riesgo de pre-eco es entonces máximo y se aplica en la etapa 406 un valor de atenuación fuerte
10 en el factor, por ejemplo 0,1.
En la mayor parte de los casos, sobre todo cuando el pre-eco es molesto, la trama que precede la trama de pre-eco tiene una energía homogénea que corresponde a la energía del ruido de fondo en ese momento. Según la experiencia no es útil ni deseable que la energía de la señal se vuelva inferior a la energía media de la trama
15 precedente después del tratamiento de pre-eco.
En la etapa 407 se calcula por lo tanto un valor límite del factor lim r con el que se obtiene para el sub-bloque dado exactamente la misma energía que la energía media de la trama precedente. Y en la etapa 408, se limita el valor a un máximo de 1 ya que se interesa aquí en los valores de atenuación.
20 El valor limg así obtenido sirve como límite inferior en el cálculo final del factor de atenuación en la etapa 409.
En una variante de realización del cálculo del factor de atenuación, una característica de caudal de la señal transmitida puede ser tomada en cuenta. En efecto, en una transmisión de caudal bajo, el ruido de cuantificación es
25 en general importante, lo que aumenta el riesgo de pre-eco molesto. Por el contrario, con caudal muy alto, la calidad de codificación puede ser muy buena y ninguna atenuación de pre-eco es entonces necesaria.
En el caso de una codificación/decodificación multicaudal, la información de caudal puede por lo tanto ser tomada en cuenta para determinar el factor de atenuación.
30 Las figuras 8a y 8b ilustran la puesta en marcha del procedimiento de atenuación de la invención en un ejemplo típico.
En este ejemplo la señal es muestreada a 8 kHz, la longitud de la trama es de 160 muestras y cada trama es 35 dividida en cuatro sub-bloques de 40 muestras.
En la parte a.) de la figura 8a, tres tramas de la señal original que corresponden a la parte de banda estrecha (04000 Hz) del canal izquierdo de una señal estéreo muestreada a 16 kHz son representados. Un ataque o transición en la señal es situado en el sub-bloque que comienza con el índice 360. Esta señal ha sido codificada por ejemplo
40 por una extensión estéreo del codificador G.729.1.
En la parte b.) de la figura 8a, se ilustra el resultado de la decodificación (únicamente el canal izquierdo) sin tratamiento de pre-eco. Se puede observar el pre-eco a partir de la muestra 160 (principio de la trama que precede la trama con el ataque).
45 La parte c.) muestra la evolución del factor de atenuación de pre-eco (línea continua) obtenido por la puesta en marcha del procedimiento según la invención. La línea punteada representa el factor antes del alisado.
La parte d.) ilustra el resultado del decodificador después de la aplicación del tratamiento de pre-eco (multiplicación 50 de la señal b.) con la señal c.)). Se ve que el pre-eco ha sido bien suprimido.
La figura 8b ilustra el mismo ejemplo típico para el que una puesta en marcha de una variante de realización del procedimiento de atenuación según la invención es efectuada.
55 Si se observa bien la figura 8a se percibe que el factor liso no remonta a 1 en el momento del ataque, lo que implica una disminución de la amplitud del ataque. El impacto perceptible de esta disminución es muy débil pero puede no obstante ser evitado.
Para ello, se puede por ejemplo asignar, antes del alisado, el valor de factor 1 a algunas de las últimas muestras del
60 sub-bloque que precede al sub-bloque en el que se sitúa el ataque. La parte c.) de la figura 8b da un ejemplo de tal corrección. En este ejemplo se ha asignado el valor de factor 1 a las 16 primeras muestras del sub-bloque que precede el sub-bloque con el ataque, a partir del índice 344.
Así la función de alisado crece progresivamente el factor para tener un valor próximo de 1 en el momento del 65 ataque. La amplitud del ataque es entonces preservada.
La dificultad de este método es saber, en la trama que precede la trama que comprende el ataque, si el ataque se sitúa en el primer sub-bloque o no.
Si el ataque se sitúa en el primer sub-bloque, entonces el valor de factor 1 debe ser asignado a las últimas muestras
5 de la trama. El problema es que en la señal concatenada no se puede determinar con certeza la posición del ataque, a causa de la simetría de esta parte de la señal concatenada que refleja de hecho la propiedad bien conocida de “repliegue temporal” de la transformada MDCT.
Las figuras 9 y 10 ilustran la señal concatenada que corresponde al segundo trama de las figuras 8a y 8b.
Se puede en efecto ver que el ataque está en el sub-bloque k=5 de la señal concatenada. Este ataque será por lo tanto ya sea en el segundo ya sea en el tercer sub-bloque de la señal reconstruida de la trama siguiente. No será por lo tanto en el primer sub-bloque de la trama siguiente. No es entonces necesario asignar el valor de factor de 1 a las últimas muestras de la trama actual. Es válido que la señal tenga efectivamente el ataque en el segundo sub
15 bloque de la trama siguiente (caso de la figura 9) o en el tercer sub-bloque (caso de la figura 10).
Por el contrario, como se ha representado en la figura 11 ó 12, cuando el ataque está en el primer o en el cuarto sub-bloque de la trama siguiente, se detecta el ataque en el sub-bloque k=4 de la señal concatenada a causa de la simetría de esta parte de la señal concatenada.
Ahora bien si el ataque está en el primer sub-bloque, hay que asignar el valor de factor de 1 a las últimas muestras de la trama pero eso no es necesario cuando el ataque está en el cuarto sub-bloque.
Una solución es siempre asignar el valor de factor de 1 a las últimas muestras de la trama si el ataque es detectado
25 en el cuarto sub-bloque de la señal concatenada. Si en la trama siguiente, el ataque está en el primer sub-bloque (caso de la figura 11) el funcionamiento es entonces óptimo. Por el contrario cuando el ataque está en el cuarto subbloque (caso de la figura 12) la atenuación es sub-óptima ya que alrededor del fin de la trama, el factor de atenuación de pre-eco aumenta hacia 1 para algunas muestras y después vuelve a descender hacia el nivel correcto de atenuación al principio de la trama siguiente. El impacto subjetivo de esta sub-optimización es débil ya que cuando el ataque se encuentra en el cuarto sub-bloque de la trama siguiente su amplitud es bien disminuida por el ventanaje de análisis. El pre-eco provocado por este ataque es débil.
Las figuras 9 a 12 han sido obtenidas con la misma señal de entrada, desplazando la longitud de un sub-bloque para desplazar la posición del ataque en la trama. Se puede observar comparando las figuras 11 y 12 por ejemplo, la
35 diferencia de nivel de pre-eco en función de la posición del ataque: cuando el ataque se encuentra en el cuarto subbloque el pre-eco es prácticamente muy débil.
El procedimiento objeto de la invención utiliza un ejemplo particular de cálculo del principio del ataque (búsqueda de la máxima energía por sub-bloque) pero puede funcionar con cualquier otro método de determinación del principio del ataque.
El procedimiento objeto de la invención precitada se aplica en la atenuación de los pre-ecos en cualquier codificador por transformada que utiliza un banco de filtro MDCT o cualquier banco de filtros de reconstrucción perfecta con valor real o complejo, o los bancos de filtros con reconstrucción casi perfecta así como los bancos de filtros que
45 utilizan la transformada de Fourier o la transformada de ondícula.
Hay que señalar que en el caso de que un retraso de una trama sea tolerable en el decodificador, los problemas de localización de transitorio (ataque) en la segunda parte de la señal concatenada pueden ser evitadas. El procedimiento de reducción de los pre-ecos se aplica entonces directamente a la señal reconstruida y tampoco en la señal concatenada que es híbrida entre la señal reconstruida/señal intermedia con repliegue temporal. Los medios de detección de transición, de cálculo de factor de atenuación y de reducción de pre-ecos descritos precedentemente se aplican.
Por otro lado, en el caso de que la señal concatenada no esté definida explícitamente, siempre es posible utilizar la
55 señal reconstruida en la trama actual y una señal intermedia de la MDCT inversa para realizar las operaciones descritas precedentemente.
Unos ejemplos de aplicación de la invención se dan posteriormente.
Un ejemplo de codificador de señal estéreo se describe en referencia a la figura 13a. Un decodificador adaptado comprende un dispositivo de atenuación según la invención se describe en referencia a la figura 13b.
La figura 13a muestra un ejemplo de codificador, para el que unas informaciones estéreo se transmiten por banda de frecuencias y se decodifican en el campo frecuencial.
65 Una señal mono M se calcula a partir de las señales de entrada de la vía izquierda L y derecha R por unos medios
500 de matrizaje.
El codificador integra igualmente unos medios de transformación tiempo-frecuencia 502, 503 y 504 capaz de realizar una transformada, por ejemplo una transformada de Fourier discreta o DFT (del inglés Discrete Fourier Transform), 5 una transformada MDCT (del inglés Modified Discrete Cosine Transform”), una transformada MCLT (del inglés Modulated Complex Lapped Transform).
Se obtiene así, a partir de los valores L, R y M que corresponden a las señales temporales izquierdo y derecha, y mono, unos valores de señales frecuenciales izquierda L y derecha D, mono M. Se utilizará para describir las figuras 13 y 14 los caracteres en cursiva para unas señales en el campo frecuencial.
La señal mono M es igualmente cuantificada y codificada por los medios 501 por ejemplo por el codificador G.729.1 normalizado
el UIT-T. Este módulo reparte el tren binario de corazón bst1 e igualmente la señal mono
decodificada
transformada en el campo frecuencial. 15 El módulo 505 efectúa la codificación paramétrica estéreo a partir de las señales frecuenciales L, R y M y de la señal
decodificada . Reparte la primera capa de extensión opcional del tren binario bst2 y los dos canales de la señal
estéreo decodificada L y
que se obtiene decodificando las dos capas bst1 y bst2.
La señal residual estéreo en el campo frecuencial se calcula por los medios 506 y 507 y codificada por el medio 508 de codificación y se obtiene la segunda capa de extensión opcional del tren binario bst3.
La señal codificada de corazón bst1 y las capas de extensión opcionales bst2 y bst3 se transmiten en el decodificador.
25 La figura 13b muestra un ejemplo de decodificador susceptible de recibir la señal codificada de corazón bst1 y las capas de extensión opcionales bst2 y bst3.
Unos medios 600 de decodificación permiten decodificar el tren binario corazón bst1 y obtener la señal decodificada
mono
. Si la primera capa de extensión opcional bst2 está disponible puede decodificar por los medios de decodificación estéreo paramétrico 601 para construir la señal estéreo decodificada L y R a partir de la señal
decodificada mono . Si no, L y
serán igual a .
Cuando la segunda capa de extensión opcional bst3 está igualmente disponible es decodificada por los medios 602 35 de decodificación para obtener la señal residual estéreo en el campo frecuencial. Esto se añade a la señal estéreo
decodificada
y para aumentar la precisión de la representación frecuencial de la señal. Si no, cuando esta
segunda capa de extensión no está disponible, L y
permanecen igual.
Estas dos señales sufren una transformación inversa frecuencia-tiempo por los módulos 605 y 606, una reconstrucción por adición/recubrimiento por los módulos respectivos 607 y 608. Una reducción de los pre-ecos según la invención es efectuada entonces por los módulos 609 y 610 tal como se describe en referencia a la figura
3, para obtener los dos canales de la señal estéreo temporal decodificada
y
.
Otro ejemplo de decodificador que comprende un dispositivo según la invención se describe ahora en referencia a 45 las figuras 14a y 14b.
La figura 14a muestra un ejemplo de codificador de la extensión en banda superancha de un codificador de banda ensanchada de tipo G.729.1. La señal de entrada en banda superancha S 32 es sub-muestreada por los medios de sub-muestreado 700 para obtener una señal en banda ensanchada S 16. Esta señal es cuantificada y codificada por los medios 701 por ejemplo por el codificador ITU G.729.1. Este módulo reparte el tren binario de corazón bst
1 e
igualmente la señal de banda ensanchada decodificada 16 sin el campo frecuencial.
La señal de entrada de banda superancha S32 es transformada en el campo frecuencial por los medios de transformación 704. Las frecuencias de la banda alta (banda 7000-14000Hz) no codificadas en la parte de banda
55 ensanchada serán codificadas por los medios 704 de codificación. Esta codificación está basada en el espectro de la señal de banda ensanchada decodificada
16. Los parámetros codificados constituyen la primera extensión opcional del tren binario bst2.
Una segunda capa opcional del tren binario bst3 suministrado por los medios 705 de codificación contiene los parámetros para mejorar la calidad de la banda ensanchada (50-7000 Hz).
El decodificador de la figura 14b representa un decodificador en banda superancha (50-14000 Hz) que corresponde al codificador de la figura 14a. El tren binario de corazón bst1 es decodificado por un codificador de banda ensanchada de tipo G.729.1 (módulo 800). Se obtiene por lo tanto el espectro de la señal decodificada de banda ensanchada. Este espectro es mejorado eventualmente por la decodificación en 801 de la segunda capa de extensión opcional bst3. El módulo 801 comprende igualmente la transformación frecuencia-tiempo de la señal de
5 banda ensanchada. La presente invención no interviene en esta transformación frecuencia-tiempo para reducir los pre-ecos ya que aquí se dispone de las señales temporales sin eco (componentes CELP y TDBWE del codificador G.729.1) y por lo tanto la técnica descrita en la solicitud de patente francesa FR 0601466 puede ser aplicada. La señal de banda ensanchada decodificada es después sobre-muestreada por un factor de 2 en los medios 802 de sobre-muestreo.
10 Cuando la primera capa de extensión opcional bst2 está disponible en el decodificador, es decodificada por los medios 803 de decodificación.
Esta decodificación está basada en el espectro de la señal de banda ensanchada decodificada
16. El espectro así
15 obtenido contiene los valores no nulos únicamente en la zona de frecuencia 7000-14000 Hz no codificada por la parte de banda ensanchada. En esta configuración, entre 7000 y 14000 Hz, no se dispone por lo tanto de señales de referencia sin pre-eco. El dispositivo de atenuación según la invención es por lo tanto puesta en marcha.
La señal temporal se obtiene por transformación inversa frecuencia-tiempo por el módulo 504. El módulo de
20 reconstrucción por adición/recubrimiento suministra una señal reconstruida. La reducción de los pre-ecos según la presente invención es efectuada por el módulo 807 de atenuación tal como se describe en referencia a la figura 3.
Hay que señalar que para esta aplicación, la señal después de la transformación inversa MDCG no contiene más que frecuencias superiores a 7000 Hz. La envolvente temporal de esta señal puede por lo tanto ser determinada con
25 una precisión muy grande, lo que aumenta la eficacia de la atenuación de los pre-ecos por el procedimiento de atenuación de la invención.
Un ejemplo de realización de un dispositivo de atenuación según la invención se describe ahora en referencia a la figura 15.
30 Materialmente, este dispositivo 100 en el sentido de la invención comprende típicamente, un procesador μP que coopera con un bloque de memoria BM que incluye una memoria de almacenaje y/o de trabajo, así como una memoria tampón MEM precitada como medio para memorizar por ejemplo la envolvente temporal de la trama actual, el factor de atenuación calculado para la última muestra de la trama actual, la energía de los sub-bloques de la
35 trama actual o cualquier otro dato necesario en la puesta en marcha del procedimiento de atenuación tal como se describe en referencia a las figuras 5 a 7. Este dispositivo recibe en la entrada de los tramas sucesivos de la señal digital Se y reparte la señal Sa reconstruida con atenuación de pre-eco llegado el caso.
El bloque memoria BM puede comprender un programa informático que comprende las instrucciones de código para
40 la puesta en marcha de las etapas del procedimiento según la invención cuando estas instrucciones se ejecutan por un procesador μP del dispositivo y particularmente una etapa de definición de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual, una etapa de división de dicha señal concatenada en subbloques de muestras de longitud determinada, una etapa de cálculo de envolvente temporal de la señal concatenada, una etapa de detección de los sub-bloques de baja energía que preceden un sub-bloque en el que una
45 transición ha sido detectada y una etapa de atenuación en los sub-bloques determinados.
La atenuación se efectúa según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal concatenada.
50 Las figuras 5 a 7 pueden ilustrar el algoritmo de tal programa informático.
Este dispositivo de atenuación según la invención puede ser independiente o estar integrado en un decodificador de señal digital.
Claims (8)
- REIVINDICACIONES1.- Procedimiento de atenuación de pre-ecos en una señal de audio digital generada a partir de una codificación por 5 transformada, en el que, en la decodificación, para una trama actual de esta señal de audio digital, el procedimiento comprende:
- -
- una etapa de definición (CONC) de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual;
- -
- una etapa de división (DIV, 301) de dicha señal concatenada en sub-bloque de muestras de longitud determinada;
- -
- una etapa de cálculo (ENV, 302) de envolvente temporal de la señal concatenada; 15 - una etapa de detección (DETECT, 304) de transición de la envolvente temporal hacia una zona de fuerte energía;
- -
- una etapa de determinación (DETECT, 304) de los sub-bloques de baja energía que precede un sub-bloque en el que una transición ha sido detectada; y caracterizada por
- -
- una etapa de atenuación (ATT) en los sub-bloques determinados,
estando caracterizado el procedimiento porque la atenuación se efectúa según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal y de la envolvente temporal de la señal reconstruida de la trama precedente.25 2.- Procedimiento según la reivindicación, caracterizado porque un valor mínimo es fijado para un valor de atenuación del factor en función de la envolvente temporal de la señal reconstruida de la trama precedente. - 3.- Procedimiento según la reivindicación 1, caracterizado porque el factor de atenuación se determina en función de la envolvente temporal de dicho sub-bloque, del máximo de la envolvente temporal del sub-bloque que comprende dicha transición y de la envolvente temporal de la señal reconstruida de la trama precedente.
- 4.- Procedimiento según una de las reivindicaciones 1 a 3, caracterizado porque la envolvente temporal está determinada por un cálculo de energía por sub-bloques.35 5.- Procedimiento según la reivindicación 1, caracterizado porque comprende además una etapa de cálculo y de memorización de la envolvente temporal de la trama actual después de la etapa de atenuación en los sub-bloques determinados.
- 6.- Procedimiento según la reivindicación 1, caracterizado porque un factor de atenuación de valor 1 es atribuido a las muestras de dicho sub-bloque que comprende la transición así como en las muestras de los sub-bloques siguientes en la trama actual.
- 7.- Procedimiento según la reivindicación 4, caracterizado porque el factor de atenuación es determinado por sub45 bloque determinado según las etapas siguientes:
- -
- cálculo de la relación de la energía máxima determinada en el sub-bloque que comprende una transición en la energía del sub-bloque actual;
- -
- comparación de la relación con un primer umbral;
- -
- en el caso de que la relación sea inferior o igual al primer umbral, la atribución de un valor que inhibe la atenuación en el factor de atenuación;
55 - en el caso de que la relación sea superior al primer umbral:- •
- comparación de la relación con un segundo umbral;
- •
- en el caso de que la relación sea inferior o igual al segundo umbral, atribución de un valor de atenuación débil en el factor de atenuación;
- •
- en el caso de que la relación sea superior al segundo umbral, atribución de un valor de atenuación fuerte al factor de atenuación.
65 8.- Procedimiento según la reivindicación 1, caracterizado porque una función de alisado es determinada entre los factores calculados muestra por muestra. - 9.- Procedimiento según la reivindicación 1, caracterizado porque una corrección de factor es efectuada para el subbloque que precede al sub-bloque que comprende una transición, aplicando un valor de atenuación que inhibe la atenuación, en el factor de atenuación aplicado a un número predeterminado de muestras del sub-bloque que5 precede el sub-bloque que comprende una transición.
- 10.- Dispositivo de atenuación de pre-ecos en una señal de audio digital generada a partir de un codificador por transformada, en el que el dispositivo asociado a un decodificador comprende, para tratar una trama actual de esta señal de audio digital:
- -
- un módulo (101) de definición de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual;
- -
- un módulo (102) de división de dicha señal concatenada en sub-bloques de muestras de longitud determinada; 15
- -
- un módulo (103) de cálculo de envolvente temporal de la señal concatenada;
- -
- un módulo (104) de detección de transición de la envolvente temporal hacia una zona de fuerte energía;
20 - un módulo (104) de determinación de los sub-bloques de baja energía que precede un sub-bloque en el que una transición ha sido detectada; y caracterizado por- -
- un módulo (105) de atenuación en los sub-bloques determinados,
25 estando caracterizado el dispositivo porque el módulo de atenuación efectúa la atenuación según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función al menos de la envolvente temporal de la señal concatenada y de la envolvente temporal de la señal reconstruida de la trama precedente. - 11.- Decodificador de una señal de audio digital que comprende un dispositivo según la reivindicación 10.30 12.- Programa informático que comprende unas instrucciones de código para la puesta en marcha de las etapas del procedimiento según una de las reivindicaciones 1 a 9, cuando estas instrucciones se ejecutan mediante un procesador.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0856248 | 2008-09-17 | ||
FR0856248 | 2008-09-17 | ||
PCT/FR2009/051724 WO2010031951A1 (fr) | 2008-09-17 | 2009-09-15 | Attenuation de pre-echos dans un signal audionumerique |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2400987T3 true ES2400987T3 (es) | 2013-04-16 |
Family
ID=40174728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES09747881T Active ES2400987T3 (es) | 2008-09-17 | 2009-09-15 | Atenuación de pre-ecos en una señal de audio digital |
Country Status (8)
Country | Link |
---|---|
US (1) | US8676365B2 (es) |
EP (1) | EP2347411B1 (es) |
JP (1) | JP5295372B2 (es) |
KR (1) | KR101655913B1 (es) |
CN (1) | CN102160114B (es) |
ES (1) | ES2400987T3 (es) |
RU (1) | RU2481650C2 (es) |
WO (1) | WO2010031951A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011048118A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
FR2992766A1 (fr) * | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
FR3000328A1 (fr) * | 2012-12-21 | 2014-06-27 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
EP2830059A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling energy adjustment |
FR3025923A1 (fr) | 2014-09-12 | 2016-03-18 | Orange | Discrimination et attenuation de pre-echos dans un signal audionumerique |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10354669B2 (en) * | 2017-03-22 | 2019-07-16 | Immersion Networks, Inc. | System and method for processing audio data |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
US7639599B2 (en) * | 2001-11-16 | 2009-12-29 | Civolution B.V. | Embedding supplementary data in an information signal |
JP4290917B2 (ja) * | 2002-02-08 | 2009-07-08 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法、及び、符号化方法 |
CN1458646A (zh) * | 2003-04-21 | 2003-11-26 | 北京阜国数字技术有限公司 | 一种滤波参数矢量量化和结合量化模型预测的音频编码方法 |
DE10324438A1 (de) * | 2003-05-28 | 2004-12-16 | Knorr-Bremse Systeme für Schienenfahrzeuge GmbH | Bremsvorrichtung eines Schienenfahrzeugs |
SE527670C2 (sv) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Naturtrogenhetsoptimerad kodning med variabel ramlängd |
DE102005019863A1 (de) * | 2005-04-28 | 2006-11-02 | Siemens Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung |
KR100915726B1 (ko) * | 2005-04-28 | 2009-09-04 | 지멘스 악티엔게젤샤프트 | 잡음 억제 방법 및 장치 |
RU2351024C2 (ru) * | 2005-04-28 | 2009-03-27 | Сименс Акциенгезелльшафт | Способ и устройство для подавления шумов |
CN101228574A (zh) * | 2005-09-08 | 2008-07-23 | 北京阜国数字技术有限公司 | 一种控制前回声的编码和解码装置及方法 |
FR2897733A1 (fr) * | 2006-02-20 | 2007-08-24 | France Telecom | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant |
KR100880995B1 (ko) * | 2007-01-25 | 2009-02-03 | 후지쯔 가부시끼가이샤 | 오디오 부호화 장치 및 오디오 부호화 방법 |
-
2009
- 2009-09-15 ES ES09747881T patent/ES2400987T3/es active Active
- 2009-09-15 EP EP09747881A patent/EP2347411B1/fr active Active
- 2009-09-15 WO PCT/FR2009/051724 patent/WO2010031951A1/fr active Application Filing
- 2009-09-15 US US13/063,002 patent/US8676365B2/en active Active
- 2009-09-15 RU RU2011115003/08A patent/RU2481650C2/ru active
- 2009-09-15 JP JP2011527373A patent/JP5295372B2/ja active Active
- 2009-09-15 KR KR1020117008793A patent/KR101655913B1/ko active IP Right Grant
- 2009-09-15 CN CN2009801363279A patent/CN102160114B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
KR101655913B1 (ko) | 2016-09-08 |
US20110178617A1 (en) | 2011-07-21 |
WO2010031951A1 (fr) | 2010-03-25 |
JP2012503214A (ja) | 2012-02-02 |
RU2011115003A (ru) | 2012-10-27 |
JP5295372B2 (ja) | 2013-09-18 |
KR20110076936A (ko) | 2011-07-06 |
RU2481650C2 (ru) | 2013-05-10 |
US8676365B2 (en) | 2014-03-18 |
CN102160114B (zh) | 2012-08-29 |
EP2347411A1 (fr) | 2011-07-27 |
EP2347411B1 (fr) | 2012-12-05 |
CN102160114A (zh) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2748843T3 (es) | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable | |
ES2400987T3 (es) | Atenuación de pre-ecos en una señal de audio digital | |
ES2858423T3 (es) | Método y dispositivo para el llenado de huecos espectrales | |
ES2755166T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo | |
ES2773794T3 (es) | Aparato y procedimiento para estimar una diferencia de tiempos entre canales | |
ES2739477T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo | |
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
JP2024147632A (ja) | パラメトリック・マルチチャネル・エンコードのための方法 | |
CN103329197B (zh) | 用于反相声道的改进的立体声参数编码/解码 | |
ES2619277T3 (es) | Detector de transitorio y método para soportar la codificación de una señal de audio | |
ES2434947T3 (es) | Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz | |
ES2711132T3 (es) | Atenuación eficaz de preecos en una señal de audio digital | |
ES2780696T3 (es) | Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP | |
ES2646814T3 (es) | Codificación de señales de audio por transformada modificada deformada en el tiempo | |
ES2797525T3 (es) | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC | |
ES2432625T3 (es) | Cálculo de máscara de escalamiento selectiva basado en detección de picos | |
ES2612385T3 (es) | Atenuación eficaz de pre-ecos en una señal de audio digital | |
US20100228557A1 (en) | Method and apparatus for audio decoding | |
ES2978878T3 (es) | Extensión de banda de frecuencia mejorada en un decodificador de señales de audiofrecuencia | |
US11694699B2 (en) | Burst frame error handling | |
US20110087494A1 (en) | Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme | |
JP2011514561A (ja) | 背景雑音生成方法および雑音処理装置 | |
ES2692831T3 (es) | Discriminación y atenuación de pre-ecos en una señal de audio digital | |
ES2900058T3 (es) | Selección de desfase de tono |