ES2644693T3 - Aparato y método para generar una forma espectral adaptativa de ruido de confort - Google Patents
Aparato y método para generar una forma espectral adaptativa de ruido de confort Download PDFInfo
- Publication number
- ES2644693T3 ES2644693T3 ES14732194.7T ES14732194T ES2644693T3 ES 2644693 T3 ES2644693 T3 ES 2644693T3 ES 14732194 T ES14732194 T ES 14732194T ES 2644693 T3 ES2644693 T3 ES 2644693T3
- Authority
- ES
- Spain
- Prior art keywords
- audio signal
- domain
- noise
- coefficients
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims description 94
- 238000000034 method Methods 0.000 title claims description 87
- 230000003044 adaptive effect Effects 0.000 title description 41
- 230000005236 sound signal Effects 0.000 claims description 482
- 238000001228 spectrum Methods 0.000 claims description 131
- 238000013459 approach Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 12
- 230000005284 excitation Effects 0.000 description 129
- 238000005562 fading Methods 0.000 description 115
- 230000007774 longterm Effects 0.000 description 40
- 230000015572 biosynthetic process Effects 0.000 description 35
- 238000003786 synthesis reaction Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 22
- 230000002238 attenuated effect Effects 0.000 description 21
- 238000009795 derivation Methods 0.000 description 21
- 239000013598 vector Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 230000001755 vocal effect Effects 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000013016 damping Methods 0.000 description 19
- 230000002776 aggregation Effects 0.000 description 16
- 238000004220 aggregation Methods 0.000 description 16
- 238000009499 grossing Methods 0.000 description 14
- 230000009466 transformation Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 230000030279 gene silencing Effects 0.000 description 11
- 230000003247 decreasing effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000000737 periodic effect Effects 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013213 extrapolation Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000012417 linear regression Methods 0.000 description 6
- 238000002156 mixing Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000010420 art technique Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000002035 prolonged effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 101000996041 Arabidopsis thaliana Non-specific lipid-transfer protein 15 Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 101150004992 fadA gene Proteins 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Noise Elimination (AREA)
- Circuits Of Receivers In General (AREA)
- Mobile Radio Communication Systems (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Mathematical Physics (AREA)
Description
DESCRIPCION
Aparato y metodo para generar una forma espectral adaptativa de ruido de confort
5 [0001] La presente invencion se refiere a la codificacion, el procesamiento y la decodificacion de senales de
audio, y, en particular, a un aparato y un metodo para el desvanecimiento mejorado de la senal para sistemas de codificacion de audio cambiados durante el ocultamiento de errores.
[0002] A continuacion, se describe el estado de la tecnica respecto al desvanecimiento de codec vocales y de 10 audio durante el ocultamiento de perdida de paquetes (PLC). Las explicaciones con respecto al estado de la tecnica
con los codecs ITU-T de la serie G (G.718, G.719, G.722, G.722.1, G.729. G.729.1), son seguidas de los codecs 3GPP (AMR, AMR-WB, AMR-WB+) y un codec IETF (OPUS), y concluyen con dos codecs MPEG (HE-AAC, HILN) (ITU = Union Internacional de Telecomunicaciones; 3GPP = Proyecto Asociacion de Tercera Generacion; AMR = Multitasa Adaptativa; WB = banda ancha; IETF = Grupo de Trabajo de Ingenierla de Internet). A continuacion, se 15 analiza el estado de la tecnica respecto del rastreo del nivel de ruido de fondo, seguido de un resumen que proporciona una perspectiva general.
[0003] En primer lugar, se considera G.718. G.718 es un codec vocal de banda estrecha y de banda ancha, que soporta DTX/CNG (DTX = Digital Theater Systems (Sistemas de Cine Digital); CNG = Generacion de Ruido de
20 Confort). Como realizaciones se refieren en particular al codigo de retardo bajo, se describira aqul en mas detalle el modo de version de retardo bajo.
[0004] Considerando ACELP (Capa 1) (ACELP = Prediccion Lineal Excitada por Codigo Algebraico), la ITU-T recomienda para G.718 [ITU08a, seccion 7.11] un desvanecimiento adaptativo en el dominio predictivo lineal para
25 controlar la velocidad de desvanecimiento. En general, el ocultamiento sigue este principio:
De acuerdo con G.718, en el caso de borrados de tramas, la estrategia de ocultamiento puede sintetizarse como una convergencia de la energla de senal y la envoltura espectral para los parametros estimados del ruido de fondo. La periodicidad de la senal converge a cero. La velocidad de la convergencia depende de los parametros de la ultima trama correctamente recibida y el numero de tramas borradas consecutivas, y se controla por un factor de 30 atenuacion, a. El factor de atenuacion a, depende ademas de la estabilidad, G, del filtro LP (LP = Prediccion Lineal) para tramas SIN VOZ. En general, la convergencia es lenta si la ultima buena trama recibida se encuentra en un segmento estable y es rapida si la trama se encuentra en un segmento de transicion.
[0005] El factor de atenuacion a depende de la clase de senal de la voz, que deriva por la clasificacion de 35 senal descrita en [ITU08a, seccion 6.8.1.3.1 y 7.11.1.1]. El factor de estabilidad G se computa sobre la base de una
medida de distancia entre los filtros adyacentes ISF (Frecuencia Espectral de Impedancia y Admitancia) [ITU08a, seccion 7.1.2.4.2].
[0006] La Tabla 1 muestra el esquema de calculo de a:
40 Tabla 1: Valores del factor de atenuacion a, el valor G es un factor de estabilidad computado a partir de una medida de distancia entre los filtros adyacentes LP. [ITU08a, seccion 7.1.2.4.2].
- ultima buena trama recibida
- Numero de tramas borradas sucesivas a
- INICIO ARTIFICIAL
- 0,6
- INICIO, CON VOZ
- >3 1,0
- >3 0,4
- TRANSICION CON VOZ
- 0,4
- TRANSICION SIN VOZ
- 0,8
- SIN VOZ
- = 1 0,2 G + 0,8
- = 2 0,6
- >2 0,4
[0007] Ademas, G.718 proporciona un metodo de desvanecimiento a fin de modificar la envoltura espectral.
45 La idea general es hacer converger los ultimos parametros de ISF hacia un vector de la media de ISF adaptativa. En primer lugar, se calcula un vector ISF promedio a partir de los ultimos 3 vectores de ISF conocidos. A continuacion, se promedia de nuevo el vector de ISF promedio con un vector de ISF de largo plazo en tren fuera de llnea (que es un vector constante) [ITU08a, seccion 7.11.1.2].
50 [0008] Ademas, G.718 proporciona un metodo de desvanecimiento para el control del comportamiento de
largo plazo, y en consecuencia, la interaction con el ruido de fondo, donde la energfa de excitation de altura (y en consecuencia, la periodicidad de excitacion) converge en 0, mientras que la energfa de excitacion aleatoria converge en la energfa de excitacion CNG [ITU08a, section 7.11.1.6]. La atenuacion de ganancia de innovation se calcula como:
5
= Q,^[o] + (1 - a)gn (1,
donde
10
es la ganancia innovadora al comienzo de la siguiente trama,
15
es la ganancia innovadora al comienzo de la trama actual, gn es la ganancia de la excitacion usada durante la generation de ruido de confort y el factor de atenuacion a.
[0009] De manera similar a la atenuacion de excitacion periodica, la ganancia es atenuada en forma lineal a
20 lo largo de la trama sobre una base de muestra por muestra, partiendo de
y alcanza 25
al comienzo de la siguiente trama.
30 [0010] La Fig. 2 describe la estructura del decodificador de G.718. En particular, la Fig. 2 ilustra una
estructura de decodificador de G.718 de alto nivel para PLC, con rasgo de un filtro de paso alto.
[0011] Por medio del enfoque descrito anteriormente de G.718, la ganancia innovadora gs converge con la
ganancia utilizada durante la generacion de ruido de confort gn para largas rafagas de perdidas de paquetes. Como 35 se describe en [ITU08a, seccion 6.12.3], la ganancia de ruido de confort gn se proporciona como la rafz cuadrada de la energfa E. Las condiciones de la actualization de E no se describen en detalle. Despues de la implementation de referencia (codigo C de punto flotante, stat_noise_uv_mod.c), E se obtiene como se indica a continuation:
if (unvoiced_vad == 0) {
40 if ( unv_cnt > 20 ) {
ftmp = lp_gainc *
lp_gainc; lp_ener = 0.7f * lp_ener + 0.3f * ftmp;
}
else {
45 unv_cnt++;
}
}
else {
unv_cnt = 0;
50 }
en la que unvoiced_vad sostiene la detection de actividad vocal, en la que unv_cnt sostiene el numero de tramas sin voz en una fila, en la que lp_gainc sostiene las ganancias de paso bajo del libro de codigo fijo, y en la que lp_ener sostiene la estimation de energfa CNG de paso bajo E, se inicializa con 0.
[0012] Ademas, G.718 proporciona un filtro de paso alto, introducido en la trayectoria de senal de la
excitacion sin voz, si la senal de la ultima buena trama fue clasificada de forma diferente de SIN VOZ, vease la Fig. 2; vease ademas [ITU08a, seccion 7.11.1.6]. Este filtro tiene una caracterlstica de meseta baja, con una respuesta de frecuencia en DC de aproximadamente 5 dB menor que en la frecuencia Nyquist.
5 [0013] Ademas, G.718 propone un circuito de retroalimentacion de LTP desacoplado (LTP = Prediccion de
largo plazo): Aunque durante la operacion normal el circuito de retroalimentacion para el libro de codigo adaptativo es actualizado de manera subtrama ([ITU08a, seccion 7.1.2.1.4]) en base a la completa excitacion. Durante el ocultamiento, este circuito de retroalimentacion es actualizado a modo de trama (vease [ITU08a, secciones 7.11.1.4, 7.11.2.4, 7.11.1.6, 7.11.2.6; dec_GV_exc@dec_gen_voic.c y syn_bfi_post@syn_bfi_pre_post.c]) basandose en la 10 excitacion con voz unicamente. Con este enfoque, el libro de codigo adaptativo no es "contaminado" con ruido que tiene su origen en la excitacion de innovacion aleatoriamente seleccionada.
[0014] Con respecto a las capas de mejora codificadas de transformada (3-5) de G.718, durante el ocultamiento, el decodificador se comporta respecto de la capa alta, de modo de decodificar de manera similar a la
15 operacion normal, solo que el espectro de MDCT se ajusta a cero. No se aplica comportamiento de desvanecimiento especial durante el ocultamiento.
[0015] Con respecto a la CNG, en G.718, la slntesis de CNG se realiza en el siguiente orden. En primer lugar, se decodifican los parametros de una trama de ruido de confort. A continuation, se sintetiza una trama de
20 ruido de confort. Despues, se restablece el bufer de altura. A continuacion, se guarda la slntesis para la clasificacion de FER (recuperation de error de trama). Posteriormente, se realiza el desenfasis de espectro. A continuacion, se realiza el posfiltrado de baja frecuencia. A continuacion, las variables de CNG son actualizadas.
[0016] En el caso de ocultamiento, se realiza exactamente lo mismo, excepto que los parametros de CNG no 25 son decodificados a partir del flujo de bits. Esto significa que los parametros no estan actualizados durante la perdida
de trama, pero se usan los parametros decodificados a partir del ultimo buen SID (descriptor de insertion de silencio).
[0017] Ahora, se considera G.719. G.719, que se basa en Siren 22, es un codec de audio de banda completa 30 basado en la transformada. La ITU-T recomienda para G.719 un desvanecimiento con repetition de trama en el
dominio espectral [ITU08b, seccion 8.6]. De acuerdo con G.719, se incorpora un mecanismo de ocultamiento de borrado de trama en el decodificador. Cuando una trama es correctamente recibida, los coeficientes de transformada reconstruidos se almacenan en un bufer. Si el decodificador es informado de que se ha perdido una trama o que una trama esta alterada, los coeficientes de transformada reconstruidos en la trama recibida mas recientemente son 35 sometidos a escala decreciente con un factor 0,5, y despues, son usados como los coeficientes de transformada reconstruidos para la trama actual. El decodificador procede mediante su transformation al dominio de tiempo, y la realization de la operacion de ventaneado-superposicion-adicion.
[0018] A continuacion, se describe G.722. G.722 es un sistema de codification de 50 a 7000 Hz que utiliza la 40 modulation por impulsos codificados de diferencial adaptativo de subbanda (SB-ADPCM) dentro de una tasa de bits
de hasta 64 kbit/s. La senal se divide en una subbanda superior y una inferior, usando un analisis de QMF (QMF = filtro espejo en cuadratura). Las dos bandas resultantes son codificadas por ADPCM (ADPCM = modulacion por impulsos codificados de diferencial adaptativo).
45 [0019] Para G.722, se especifica un algoritmo de alta complejidad para el ocultamiento de perdida de
paquetes, en el Apendice III [ITU06a], y se especifica un algoritmo de baja complejidad para el ocultamiento de perdida de paquetes, en el Apendice IV [ITU07]. G.722 - Apendice III ([ITU06a, seccion 111.5]) propone un silenciamiento realizado de forma gradual, comenzando despues de 20 ms de perdida de trama, y completandose despues de 60 ms de perdida de trama. Ademas, G.722 -Apendice IV propone una tecnica de desvanecimiento que 50 se aplica "a cada muestra, un factor de ganancia que es computado y adaptado muestra por muestra " [ITU07, seccion IV.6.1.2.7].
[0020] En G.722, el proceso de silenciamiento tiene lugar en el dominio de subbanda justo antes de la slntesis de QMF y como la ultima etapa del modulo PLC. El calculo del factor de silenciamiento se realiza usando
55 information de clase del clasificador de senales que ademas es parte del modulo de PLC. La distincion se hace entre clases TRANSIENT, UV _TRANSICION y otras. Ademas, se hace la distincion entre perdidas unicas de tramas de 10 ms y otros casos (multiples perdidas de tramas de 10 ms y perdidas unicas/multiples de tramas de 20 ms).
[0021] Esto se ilustra por la Fig. 3. En particular, la Fig. 3 representa un escenario, donde el factor de 60 desvanecimiento de G.722 depende de la informacion de clase y en el que 80 muestras son equivalentes a 10 ms.
4
[0022] De acuerdo con G.722, el modulo de PLC crea la senal para la trama perdida, y alguna senal adicional (10 ms) que se supone es mezclada gradualmente con la siguiente buena trama. El silenciamiento para esta senal adicional sigue las mismas reglas. En el ocultamiento de alta banda de G.722, la mezcla gradual no tiene lugar.
5
[0023] A continuation, se considera G.722.1. G.722.1, que se basa en Siren 7, es un codec de audio de banda ancha basado en la transformada con un modo de extension de banda super ancha, denominado como G.722.1C. El propio G. 722.1C se basa en Siren 14. La ITU-T recomienda para G.722.1 una repetition de tramas, con el posterior silenciamiento [ITU05, section 4.7]. Si el decodificador es informado, por medio de un mecanismo de
10 senalizacion externo no definido en esta recomendacion, de que una trama se ha perdido o ha sido alterada, repite los coeficientes de MLT (transformada superpuesta modulada) decodificados de la trama previa. Procede mediante su transformation al dominio de tiempo, y realizando la operation de superposition y adicion con la information decodificada de la trama previa y de la siguiente. Si la trama previa tambien se perdio o se altero, entonces el decodificador establece todos los coeficientes de MLT de las tramas actuales en cero.
15
[0024] Ahora, se considera G.729. G.729 es un algoritmo de compresion de datos de audio para voz, que comprime voz digital en paquetes de 10 milisegundos de duration. Oficialmente, se describe como Codification de la voz a 8 kbit/s usando la codificacion vocal de prediction lineal excitada por codigo (CS-ACELP) [ITU12].
20 [0025] Como se describe en [CPK08], G.729 recomienda un desvanecimiento en el dominio LP. El algoritmo
PLC empleado en el estandar G.729 reconstruye la senal vocal para la trama actual en base a la informacion vocal previamente recibida. En otras palabras, el algoritmo PLC reemplaza la excitation perdida con una caracterfstica equivalente de una trama previamente recibida, aunque la energfa de excitacion decae de forma gradual, finalmente, las ganancias de los libros de codigos adaptativos y establecidos se atenuan por un factor constante.
25
[0026] La ganancia de libro de codigo establecido atenuada se proporciona mediante:
ff'm) = 0,98 ■
30 con m es el fndice de subtrama.
[0027] La ganancia de libro de codigo adaptativa se basa en una version atenuada de la ganancia de libro de
codigo adaptativa anterior:
gW = 0,9 • , unido por < °'9
35
40
[0028] Nam en Park et al. sugieren para G.729 un control de amplitud de senal usando la prediccion por
medio de la regresion lineal [CPK08, PKJ+11]. Se dirige a la perdida de paquetes de rafaga, y utiliza la regresion lineal como una tecnica de nucleo. La regresion lineal se basa en el modo lineal como:
(2)
donde g) es la amplitud actual recien predicha, a y b son coeficientes para la funcion lineal de primer orden, e i es el fndice de la trama. A fin de hallar los coeficientes optimizados a* y b*, la operacion de suma del error de prediccion 45 cuadrado se minimiza:
[0029] £ es el error cuadrado, gj es la amplitud pasada original jesima. A fin de minimizar este error,
50 simplemente el derivado con respecto a a y b se ajusta a cero. Usando los parametros optimizados a* y £>* una estimation de cada g* se representa por
[0030] La Fig. 4 muestra la prediction de amplitud, en particular, la prediction de la amplitud g* usando la
regresion lineal.
5 [0031] Para obtener la amplitud A' del paquete perdido i, una relation oi
se multiplica con un factor de escala Si:
10
en la que el factor de escala Si depende del numero de tramas ocultas consecutivas /(/):
15
- 1,0,
- si l(l) = 1.
- 0,9,
- si l[i) = 3,
- 0,8,
- si l(i) = 5,
- 0,
- de otro modo
(7)
[0032] En [PKJ+11], se propone una escala levemente diferente. De acuerdo con G.729, posteriormente, A) sera suavizado a fin de prevenir la atenuacion discreta en los bordes de la trama. La amplitud suavizada final Ai(n) se multiplica a la excitation, obtenida de los componentes PLC anteriores.
20
[0033] A continuation, se considera G.729.1. G.729.1 es un codificador de tasa de bits variable embutido basado en G.729: Un flujo de bits de codificador de banda ancha escalable de 8-32 kbit/s interoperable con G.729 [ITU06b].
25 [0034] De acuerdo con G.729.1, como en G.718 (vease anteriormente), se propone un desvanecimiento
adaptativo, que depende de la estabilidad de las caracterfsticas de la senal ([ITU06b, section 7.6.1]). Durante el ocultamiento, la senal es habitualmente atenuada en base a un factor de atenuacion a que depende de los parametros de la clase de la ultima buena trama recibida y el numero de tramas borradas consecutivas. El factor de atenuacion a depende adicionalmente de la estabilidad del filtro LP para tramas SIN VOZ. En general, la atenuacion 30 es lenta si la ultima buena trama recibida se encuentra en un segmento estable y es rapida si la trama se encuentra en un segmento de transition.
[0035] Ademas, el factor de atenuacion a depende de ([ITU06b, ec. 163, 164]):
35
gp = 0,1 + o,^1 ^ + 0,3(j£2)
donde es la ganancia de paso en subtrama /.
[0036] La Tabla 2 muestra el esquema de calculo de a, donde 40
la ganancia de paso promedio por subtrama gP
(8)
[0037] Durante el proceso de ocultamiento, se usa a en las siguientes herramientas de ocultamiento:
Tabla 2: Valores del factor de atenuacion a, el valor 0 es un factor de estabilidad computado a partir de una medida 45 de distancia entre los filtros adyacentes LP. [ITU06b, section 7.6.1].
- ultima buena trama recibida
- Numero de tramas borradas sucesivas a
- CON VOZ
- 1 L
- 2,3 gp
- >3 0,4
- INICIO
- 1 0,8 L
- 2,3 gp
- >3 0,4
- INICIO ARTIFICIAL
- 1 0,6 L
- 2,3 gp
- >3 0,4
- TRANSICION CON VOZ
- >2 0,8
- >2 0,2
- TRANSICION SIN VOZ
- 0,88
- SIN VOZ
- 1 0,95
- 2,3 0,6 e + 0,4
- >3 0,4
[0038] De acuerdo con G.729.1, con respecto a la resincronizacion de pulso glotal, como el ultimo pulso de la excitacion de la trama anterior se usa para la construction de la parte periodica, su ganancia es aproximadamente correcta al comienzo de la trama oculta, y puede ajustarse en 1. Despues, la ganancia se atenua linealmente a lo
5 largo de toda la trama en una base de muestra por muestra, a fin de lograr el valor de a al final de la trama. La evolution de energfa de los segmentos con voz se extrapola usando los valores de ganancia de excitacion de altura de cada subtrama de la ultima buena trama. En general, si estas ganancias son mayores de 1, la energfa de serial
es creciente; si son menores de 1, la energfa es decreciente. Por lo tanto, a se ajusta a como se ha descrito anteriormente, vease [ITU06b, ec. 163, 164]. El valor de L se acorta entre 0,98 y 0,85 para 10 evitar fuertes aumentos y descensos de energfa, vease [ITU06b, section 7.6.4].
[0039] Con respecto a la construccion de la parte aleatoria de la excitacion, de acuerdo con G.729.1, al comienzo de un bloque borrado, la ganancia de innovation gs se inicializa mediante el uso de las ganancias de excitacion de innovacion de cada subtrama de la ultima buena trama:
15
g3 = 0.1 g^0) + 0,2#(1) + 0,3</2) + 0,%(3)
20
en la que g(0), g(1), g(2) y g(3) son las ganancias del libro de codigo establecido, o innovacion, de las cuatro subtramas de la ultima trama correctamente recibida. La atenuacion de ganancia de innovacion se realiza como:
J?(l) ff(0)
en la que t3S es la ganancia de innovacion al comienzo de la siguiente trama, <5*s es la ganancia de innovacion
al comienzo de la trama actual, y a es como se define en la Tabla 2 anterior. De manera similar a la atenuacion de
25 excitacion periodica, la ganancia es de ese modo linealmente atenuada a lo largo de toda la trama, sobre una base
(o) (i)
de muestra por muestra, partiendo de Ss y llegando al valor de Ss qUe se lograrfa al comienzo de la siguiente trama.
[0040] De acuerdo con G.729.1, si la ultima buena trama es SIN VOZ, solo se usa la excitacion de
30 innovacion, y es adicionalmente atenuada por un factor de 0,8. En este caso, el bufer de excitacion pasado es
actualizado con la excitacion de innovacion, ya que no hay parte periodica de la excitacion disponible; vease [ITU06b, seccion 7.6.6].
[0041] A continuation, se considera AMR. 3GPP AMR [3GP12b] es un codec vocal que utiliza en algoritmo
35 AcELP. AMR es capaz de codificar la voz con una tasa de muestreo de 8000 muestras/s y una tasa de bits entre
4,75 y 12,2 kbit/s, y sostiene la senalizacion de tramas de descriptores de silencio (DTX/CNG).
[0042] En la AMR, durante el ocultamiento de errores (vease [3GP12a]), se distingue entre tramas que son
propensas a error (errores de bits) y tramas que estan perdidas por completo (sin ningun dato).
[0043] Para el ACELP, la AMR introduce una maquina de estado que estima la calidad del canal: Cuanto mayor es el valor del contador de estado, peor es la calidad del canal. El sistema inicia en el estado 0. Cada vez que
5 se detecta una mala trama, el contador de estado se aumenta en uno, y se satura cuando llega a 6. Cada vez que se detecta una buena trama de la voz, el contador de estado se restablece a cero, excepto cuando el estado es 6, donde el contador de estado se ajusta a 5. El flujo de control de la maquina de estado puede describirse por el siguiente codigo C (BFI es un indicador de mala trama, Estado es una variable de estado):
10 if (BFI != 0 ) {
State = State + 1;
}
else if (State == 6) {
State = 5;
15 } else {
State = 0;
}
if (State > 6 ) {
20 State = 6;
}
[0044] Ademas de esta maquina de estado, en la AMR, los indicadores de mala trama de las tramas actuales y previas son verificadas (prevBFI).
25
[0045] Son posibles tres diferentes combinaciones:
La primera de las tres combinaciones es BFI = 0, prevBFI = 0, Estado = 0: No se detecta error en la trama recibida o en la trama de la voz recibida anterior. Los parametros vocales recibidos se usan de la manera normal en la sfntesis 30 vocal. Se guarda la trama actual de parametros vocales.
[0046] La segunda de las tres combinaciones es BFI = 0, prevBFI = 1, Estado = 0 o 5: No se detecta error en
la trama de la voz recibida, pero la trama de la voz recibida anterior fue mala. La ganancia LTP y la ganancia de libro de codigo establecido estan limitadas debajo de los valores utilizados para la ultima buena subtrama recibida:
35
9p ~~
Qpi 9p — 9p{..1)
9p(~~ 1)? 9p > 9p{~ 1)
(10)
donde gp = ganancia LTP decodificada actual, gp(-1) = ganancia LTP usada para la ultima buena subtrama (BFI = 0), y
40
= Ujc 9c<9c(-1)
9e 9c> 9c{-1) (11)
donde gc = ganancia de libro de codigo establecido decodificada actual, y gc(-1 ) = ganancia de libro de codigo fijo utilizada para la ultima buena subtrama (BFI = 0).
45
[0047] El resto de los parametros vocales recibidos se usan normalmente en la sfntesis vocal. Se guarda la trama actual de parametros vocales.
[0048] La tercera de las tres combinaciones es BFI = 1, prevBFI = 0 o 1, Estado = 1...6: Se detecta un error 50 en la trama vocal recibida, y se inicia el procedimiento de sustitucion y silenciamiento. La ganancia LTP y la
ganancia de libro de codigo fijo se reemplazan por valores atenuados de las subtramas anteriores:
_ fP(estado) ' gp( — 1),
' I P (estado) • mediana5 (gp(— 1)
• - 9p('
9p(—t) < mediana5 (gp(—l),,. )) gp(~l) > mediana5 {gp(-1),.
■■9p{ 5)) 5)) (12)
donde gp indica la ganancia LTP decodificada actual de prediccion de largo plazo y gp(-1 ), ... , gp(-n) indican las ganancias (LTP) utilizadas para las ultimas n subtramas y mediana5() indica una operacion de mediana de 5 puntos 5 y
P(estado) = factor de atenuacion,
donde (P(1) = 0,98, P(2) = 0,98, P(3) = 0,8, P(4) = 0,3, P(5) = 0,2, P(6) = 0,2) y estado = numero de estado, y
10
C(estado) ■ gc(— 1), gc( — 1) < mediana5(gc( — 1),. .., ge( — 5))
C (estado) ■ mediana5 {gc(-1),... , pc(-5)) <ge(-l) > mediana5 (gc(-1),... ,,gc(-5))
(13)
donde gc indica la ganancia de libro de codigo fijo decodificada actual y gc(-1), ... , gc (-n) indican las ganancias de libro de codigo fijo utilizadas para las ultimas n subtramas y mediana5() indica una operacion mediana de 5 puntos y 15 C(estado) = factor de atenuacion, donde (C(1) = 0,98, C(2) = 0,98, C(3) = 0,98, C(4) = 0,98, C(5) = 0,98, C(6) = 0,7) y estado = numero de estado.
[0049] En la AMR, los valores de retraso de LTP (LTP = Prediccion de largo plazo) se reemplazan por el valor pasado de la 4a subtrama de la trama anterior (modo 12.2), o valores ligeramente modificados en base al ultimo
20 valor recibido correctamente (todos los demas modos).
[0050] De acuerdo con la AMR, los pulsos de innovacion de libro de codigo fijo recibidos de la trama erronea se usan en el estado en el que se recibieron, cuando se reciben los datos alterados. En el caso de que no se reciban datos, deben emplearse los Indices de libro de codigo fijo aleatorios.
[0051] Con respecto a la CNG en AMR, de acuerdo con [3GP12a, seccion 6.4], cada primera trama SID perdida es sustituida usando la informacion de SID de tramas de SID validas recibidas anteriormente, y se aplica el procedimiento para tramas de SID validas. Para posteriores tramas de SID perdidas, se aplica una tecnica de atenuacion al ruido de confort, que disminuira de forma gradual el nivel de salida. Por lo tanto, se verifica si la ultima actualizacion de SID fue hace mas de 50 tramas (= 1 s); en ese caso, la salida sera silenciada (atenuacion de nivel por -6/8 dB por trama [3GP12d, dtx_dec { } @sp_dec. c], que produce 37,5 dB por segundo). Observese que el desvanecimiento aplicado a la CNG se realiza en el dominio LP.
[0052] A continuacion, se considera la AMR-WB. La multitasa adaptativa - WB [ITU03, 3GP09c] es un codec 35 vocal, ACELP, en base a AMR (vease la seccion 1.8). Utiliza una extension de ancho de banda parametrica y,
ademas, sostiene DTX/CNG. En la description del estandar [3GP12g], hay soluciones de ejemplos de ocultamiento proporcionadas, que son las mismas que para la AMR [3GP12a], con desviaciones menores. Por lo tanto, solo las diferencias con respecto a la AMR se describen aqul. Para la descripcion del estandar, vease la descripcion anterior.
40 [0053] Con respecto a ACELP, en AMR-WB, el desvanecimiento ACELP se realiza basandose en el codigo
fuente de referencia [3GP12c] modificando la ganancia de altura gp (para AMR anterior denominada ganancia LTP) y modificando la ganancia de codigo gc.
[0054] En el caso de trama perdida, la ganancia de altura gp para la primera subtrama es la misma que en la 45 ultima buena trama, excepto que esta limitada entre 0,95 y 0,5. Para la segunda, la tercera y las siguientes
subtramas, la ganancia de altura gp disminuye en un factor de 0,95 y se limita de nuevo.
[0055] La AMR-WB propone que en una trama oculta, gc se basa en la ultima gc:
25
30
(16)
(17)
5 [0056] Para el ocultamiento de los retrasos de LTP, en la AMR-WB, el historial de los cinco ultimos buenos
retrasos de LTP y ganancias de LTP se usan para hallar el mejor metodo para la actualizacion, en el caso de una perdida de trama. En el caso de que la trama sea recibida con errores de bits, se realiza una prediction, ya sea si el retraso recibido de prediccion de LTP es utilizable o no [3GP12g].
10 [0057] Con respecto a la CNG, en AMR-WB, si la ultima trama recibida correctamente fue una trama de SID,
y una trama se clasifica como perdida, sera sustituida por la ultima information de trama de SID valida, y debe aplicarse el procedimiento para tramas de SID validas.
[0058] Para posteriores tramas de SID perdidas, la AMR-WB propone la aplicacion de una tecnica de
15 atenuacion al ruido de confort que disminuira en forma gradual el nivel de salida. Por lo tanto, se verifica si la ultima actualizacion de SID fue hace mas de 50 tramas (=1 s), en ese caso, la salida sera silenciada (atenuacion de nivel por -3/8 dB por trama [3GP12f, dtx_dec{}@dtx.c] que produce 18,75 dB por segundo). Observese que el desvanecimiento aplicado a la CNG se realiza en el dominio LP.
20 [0059] Ahora, se considera AMR-WB+. La multitasa adaptativa - WB+ [3GP09a] es un codec cambiado
usando ACELP y TCX (TCX = excitation codificada por la transformada), como codecs de nucleo. Utiliza una extension de ancho de banda parametrica y, ademas, sostiene DTX/CNG.
[0060] En AMR-WB+, se aplica una logica de extrapolation de modos para extrapolar los modos de las
25 tramas perdidas dentro de una supertrama distorsionada. Esta extrapolacion de modos se basa en el hecho de que existe redundancia en la definition de indicadores de modos. La logica de decision (dada en [3GP09a, figura 18]) propuesta por AMR-WB+ es como se indica a continuation:
- Se define un modo de vector, (m-1, m0, m1, m2, m3), donde m-1 indica el modo de la ultima trama de la supertrama 30 anterior y m0, mu, m2, m3 indican los modos de las tramas en la supertrama actual (decodificada a partir del flujo de
bits), donde mk = -1, 0, 1, 2 o 3 (-1: perdida, 0: ACELP, 1: TCX20, 2: TCX40, 3: TCX80), y donde el numero de tramas perdidas nloss puede estar entre 0 y 4.
- Si m-1 = 3 y dos de los indicadores de modo de las tramas 0 - 3 son iguales a tres, todos los indicadores se ajustaran a tres ya que entonces, es seguro que una trama TCX80 fue indicada dentro de la supertrama.
35 - Si solo un indicador de las tramas 0 - 3 es tres (y el numero de tramas perdidas nloss es tres), el modo se ajustara a (1, 1, 1, 1), ya que, entonces, 3/4 del espectro objetivo TCX80 esta perdido, y es muy probable que la ganancia global TCX este perdida.
- si el modo indica (x, 2,-1, x, x) o (x,-1, 2, x, x), se extrapolara a (x, 2, 2, x, x), lo que indica una trama TCX40. Si el modo indica (x, x, x, 2,-1) o (x, x,-1, 2) se extrapolara a (x, x, x, 2, 2), lo que tambien indica una trama TCX40. Ha de
40 apreciarse que (x, [0, 1], 2, 2, [0, 1]) son configuraciones invalidas.
- Despues de esto, para cada trama que esta perdida (modo = -1), el modo se ajusta a ACELP (modo = 0) si la trama anterior fue ACELP y el modo se ajusta a TCX20 (modo = 1) para todos los demas casos.
[0061] Con respecto a ACELP, de acuerdo con AMR-WB+, si un modo de tramas perdidas da como resultado mk = 0 despues de la extrapolacion de modo, se aplica el mismo enfoque que en [3GP12g] para esta trama (vease anteriormente).
5
[0062] En AMR-WB+, dependiendo del numero de tramas perdidas y el modo extrapolado, se distinguen los siguientes enfoques de ocultamiento relacionados con TCX (TCX = Excitacion Codificada de la Transformada):
- Si se pierde una trama completa, entonces se aplica una ACELP como ocultamiento: La ultima excitacion se repite 10 y se usan coeficientes ISF ocultos (ligeramente cambiados hacia su media adaptativa) para sintetizar la senal de
dominio temporal. Adicionalmente, un factor de desvanecimiento de 0,7 por trama (20 ms) [3GP09b, dec_tcx.c] se multiplica en el dominio predictivo lineal, justo antes de la sfntesis LPC (codification predictiva lineal).
- Si el ultimo modo fue TCX80, asf como el modo extrapolado de la supertrama (parcialmente perdida) es TCX80 (nloss = [1, 2], modo = (3, 3, 3, 3, 3)), se realiza el ocultamiento en el dominio FFT, utilizando extrapolacion de fase y
15 amplitud, teniendo en cuenta la ultima trama correctamente recibida. El enfoque de extrapolacion de la information de fase no es de interes aquf (sin relation con la estrategia de desvanecimiento) y, por lo tanto, no se describe. Para mas detalles, vease [3GP09a, section 6.5.1.2.4]. Con respecto a la modification de amplitud de AMR-WB+, el enfoque realizado para el ocultamiento de TCX consiste en las siguientes etapas [3GP09a, seccion 6.5.1.2.3]:
20 - Se computa el espectro de magnitud de trama anterior:
i ^ i
oUA[k\ = \oldX[k}\
1 I
- Se computa el espectro de magnitud de trama actual:
25
30
- Se computa la diferencia de ganancia de energfa de coeficientes espectrales no perdidos entre la trama anterior y la trama actual:
- La amplitud de los coeficientes espectrales perdidos se extrapola usando:
if(lost\k]) A[k] — ganancia • oldA[k]
35
- En cualquier otro caso de una trama perdida con mk = [2, 3], el objetivo de TCX (FFT inversa de espectro decodificado mas relleno de ruido (usando un nivel de ruido decodificado a partir del flujo de bits)) se sintetiza usando toda la informacion disponible (incluyendo la ganancia TCX global). No se aplica el desvanecimiento en este
40 caso.
[0063] Con respecto a la CNG en AMR-WB+, se usa el mismo enfoque que en la AMR-WB (vease
anteriormente).
45 [0064] A continuation, se considera OPUS. OPUS [IET12] incorpora tecnologfa de dos codecs: SILK
orientado a la voz (conocido como el codec Skype) y la CELT de baja latencia (CELT = Transformada Superpuesta de Energfa Restringida). Opus puede ajustarse de una manera sin costuras, entre altas y bajas tasas de bits, e internamente, cambia entre un codec de prediction lineal a menores tasas de bits (SILK) y un codec de transformada a tasas de bits mas altas (CELT), asf como un hfbrido para una corta superposition.
[0065] Con respecto a la compresion y descompresion de datos de audio SILK, en OPUS, hay varios
parametros que son atenuados durante el ocultamiento en la rutina del decodificador SILK. El parametro LTP esta atenuado mediante la multiplicacion de todos los coeficientes LPC o bien con 0,99, 0,95 o 0,90 por trama, dependiendo del numero de tramas perdidas consecutivas, donde la excitacion se construye usando el ultimo ciclo de altura de la excitacion de la trama anterior. El parametro de retraso de altura es aumentado muy lentamente 5 durante las consecutivas perdidas. Para perdidas unicas, se mantiene constante, en comparacion con la ultima trama. Ademas, el parametro de ganancia de excitacion se atenua exponencialmente con 0,99lostcnt por trama, de manera que el parametro de ganancia de excitacion sea de 0,99 para el primer parametro de ganancia de excitacion, de manera que el parametro de ganancia de excitacion sea 0,992 para el segundo parametro de ganancia de excitacion, etc. La excitacion se genera usando un generador de numero aleatorio que genera ruido blanco por el 10 sobreflujo variable. Ademas, los coeficientes de LPC son extrapolados/promediados en base al ultimo grupo de coeficientes recibidos correctamente. Despues de la generacion del vector de excitacion atenuado, los coeficientes de LPC ocultos se usan en OPUS para la slntesis de la senal de salida de dominio de tiempo.
[0066] Ahora, en el contexto de OPUS, se considera la CELT. La CELT es un codec basado en la 15 transformada. El ocultamiento de la CELT caracteriza un enfoque PLC basado en la altura, que se aplica para hasta
cinco tramas perdidas consecutivamente. Partiendo de la trama 6, se aplica un enfoque de ocultamiento de tipo ruido, que genera ruido de fondo, cuya caracterlstica se supone que suena como ruido de fondo precedente.
[0067] La Fig. 5 ilustra el comportamiento de perdida de rafaga de CELT. En particular, la Fig. 5 representa 20 un espectrograma (eje x: tiempo; eje y: frecuencia) de un segmento vocal oculto de CELT. La caja de color gris claro
indica las primeras 5 tramas consecutivamente perdidas, donde se aplica el enfoque de PLC basado en la altura. Mas alla de ello, se muestra el ocultamiento de tipo ruido. Debe observarse que el cambio se realiza de manera instantanea, y no transita suavemente.
25 [0068] Con respecto al ocultamiento basado en el altura, en OPUS, el ocultamiento basado en el altura
consiste en hallar la periodicidad en la senal decodificada por autocorrelacion y la repeticion de la forma de onda ventaneada (en el dominio de excitacion usando el analisis y slntesis de LPC) usando la desviacion de altura (retraso de altura). La forma de onda ventaneada se superpone de tal forma como para preservar la cancelacion del solapamiento en el dominio de tiempo con la trama anterior y la siguiente trama [IET12]. Adicionalmente, se deriva 30 un factor de desvanecimiento y se aplica mediante el siguiente codigo:
opus_val32 E1=1, E2=1; int period;
if (pitch_index <= MAX PERIOD/2) {
35 period = pitch_index;
}
else {
period = MAX_PERIOD/2;
}
40 for (i=0;i<period;i++)
{
E1 += exc[MAX_PERIOD- period+i] * exc[MAX_PERIOD- period+i];
E2 += exc[MAX_PERIOD-2*period+i] * exc[MAX_PERIOD-2*period+i];
}
45 if (E1 > E2) {
E1 = E2;
}
decay = sqrt(E1/E2)); attenuation = decay;
50
[0069] En este codigo, exc contiene la senal de excitacion hasta MAX_PERIOD muestras antes de la perdida.
[0070] La senal de excitacion se multiplica mas tarde con atenuacion, despues, se sintetiza y sale a traves de la slntesis de LPC.
55
[0071] El algoritmo de desvanecimiento para el enfoque de dominio de tiempo puede ser resumido de la siguiente manera:
- Hallar la energla slncrona de altura del ultimo ciclo de altura antes de la perdida.
60 - Hallar la energla slncrona de altura del segundo ciclo de altura antes de la perdida.
- Si la energla esta en aumento, limitarla para que permanezca constante: atenuacion = 1.
- Si la energla esta en disminucion, continuar con la misma atenuacion durante el ocultamiento.
[0072] Con respecto al ocultamiento de tipo ruido, de acuerdo con OPUS, para la 6a y siguientes tramas 5 perdidas consecutivas, se realiza un enfoque de sustitucion de ruido en el dominio de MDCT a fin de simular el ruido
de fondo de confort.
[0073] Con respecto al rastreo del nivel de ruido de fondo y la forma, en OPUS, la estimacion de ruido de fondo se realiza de la siguiente manera. Despues del analisis de MDCT, se calcula la ralz cuadrada de las energlas
10 de la banda de MDCT por banda de frecuencia, donde la agrupacion de los intervalos de MDCT sigue la escala de Bark de acuerdo con [IET12, Tabla 55]. Despues, la ralz cuadrada de las energlas se transforma en el dominio log2 por medio de:
15
bandLogE[i] = /o<?2(e) • loge(band,E[i] — eMedia s[i]) para i = 0 ... 21
donde e es el numero de Euler, bandE es la ralz cuadrada de la banda de MDCT y eMedia es un vector de las constantes (necesarias para obtener el resultado de media cero, que produce una ganancia de codificacion mejorada).
20 [0074] En OPUS, el ruido de fondo es representado en el lado del decodificador como [IET12, amp2Log2 y
log2Amp @ quant_bands.c]:
backgroundLogE[i] = min(backgroundLogE[i] +8 • 0,001, bandLogEU})
para i = 0...21 (19)
25 [0075] La energla minima trazada se determina basicamente por la ralz cuadrada de la energla de la banda
de la trama actual, pero el aumento de una trama a la siguiente se limita en 0,05 dB.
[0076] Con respecto a la aplicacion del nivel de ruido de fondo y la forma, de acuerdo con OPUS, si se aplica
el ruido como PLC, se usa backgroundLogE como se obtiene en la ultima buena trama y se convierte de nuevo en el 30 dominio lineal:
bandE[i] ~~~~ (3 ' ' ' " [ *J SM)) para j — Q ., _ 21
(20)
donde e es el numero de Euler y eMedia es el mismo vector de constantes que para la transformada "lineal a log".
35
[0077] El procedimiento de ocultamiento actual es para llenar la trama de la MDCT con ruido blanco producido por un generador de numero aleatorio, y escalar este ruido blanco de modo tal que coincida a modo de banda, con la energla de bandE. Posteriormente, se aplica la MDCT inversa, que logra una serial de dominio de tiempo. Despues de la superposicion y adicion y del desenfasis (como en la decodificacion regular), es apagada.
40
[0078] A continuacion, se considera MPEG-4 HE-AAC (MPEG = Grupo de Expertos en Imagenes en Movimiento; HE-AAC = Codificacion de Audio Avanzada de Alta Eficiencia). La codificacion de audio de avanzada de alta eficiencia consiste en un codec de audio basado en la transformada (AAC), complementado por una extension de ancho de banda parametrica (SBR).
45
[0079] Con respecto a AAC (AAC = codificacion de audio avanzada), el consorcio DAB especifica AAC en DAB+, un desvanecimiento a cero en el dominio de frecuencia [EBU10, seccion A1.2] (DAB = Transmision de Audio Digital). El comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podrla fijarse o ser ajustable por el usuario. Los coeficientes espectrales de la ultima AU (AU = unidad de acceso) se atenuan por un factor
50 correspondiente a las caracterlsticas de desvanecimiento y despues se pasan a la asignacion de frecuencia-tiempo.
De acuerdo con la rampa de atenuacion, el ocultamiento cambia a silenciamiento despues de un numero de AU invalidas consecutivas, lo que significa que el espectro completo se ajustara a 0.
[0080] El consorcio DRM (DRM = gestion de derechos digitales) especifica AAC en DRM un desvanecimiento 5 en el dominio de frecuencia [EBUl2, section 5.3.3]. El ocultamiento trabaja en los datos espectrales justo antes de
la conversion final de frecuencia-tiempo. Si se alteran multiples tramas, el ocultamiento implementa primero un desvanecimiento, en base a valores espectrales ligeramente modificados, a partir de la ultima trama valida. Ademas, de manera similar a DAB+, el comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podrfa fijarse o ser ajustable por el usuario. Los coeficientes espectrales de la ultima trama se atenuan por un factor 10 correspondiente a las caracterfsticas de desvanecimiento y despues se pasan a la asignacion de frecuencia-tiempo. De acuerdo con la rampa de atenuacion, el ocultamiento cambia a silenciamiento despues de un numero de tramas invalidas consecutivas, lo que significa que el espectro completo se ajustara a 0.
[0081] 3GPP introduce para AAC en aacPlus mejorado el desvanecimiento en el dominio de frecuencia 15 similar a DRM [3GP12e, seccion 5.1]. El ocultamiento trabaja en los datos espectrales justo antes de la conversion
final de frecuencia-tiempo. Si se alteran multiples tramas, el ocultamiento implementa primero un desvanecimiento, en base a valores espectrales ligeramente modificados, a partir de la ultima trama buena. Un desvanecimiento completo tarda 5 tramas. Los coeficientes espectrales de la ultima buena trama se copian y se atenuan por un factor de:
20
fadeOutFac. = 2^nFade°utFrame^
con nFadeOutFrame como el contador de tramas desde la ultima buena trama. Despues de cinco tramas de desvanecimiento, el ocultamiento cambia a silenciamiento, lo que significa que el espectro completo se ajustara a 0. 25
[0082] Lauber y Sperschneider introducen para AAC un desvanecimiento a modo de trama, del espectro de la MDCT, en base a la extrapolation de energfa [LS01, seccion 4.4]. Podrfan usarse formas de energfa de un espectro precedente, a fin de extrapolar la forma de un espectro estimado. La extrapolacion de energfa puede realizarse de forma independiente de las tecnicas de ocultamiento como una clase de posocultamiento.
30
[0083] Con respecto a AAC, el calculo de energfa se realiza en una base de banda de factor de escala, a fin de acercarse a las bandas crfticas del sistema auditivo humano. Los valores de energfa individuales son disminuidos en una base de trama por trama a fin de reducir el volumen suavemente, por ejemplo, para desvanecer la senal. Esto se vuelve necesario, ya que la probabilidad de que los valores estimados representen la senal actual disminuye
35 rapidamente en funcion del tiempo.
[0084] Para la generation del espectro a desvanecer, sugieren la repetition de trama o la sustitucion de ruido [LS01, secciones 3.2 y 3.3].
40 [0085] Quackenbusch y Driesen sugieren para AAC un desvanecimiento a cero a modo de trama exponencial
[QD03]. Se propone una repeticion del conjunto adyacente de coeficientes de tiempo/frecuencia, en la que cada repeticion tiene atenuacion exponencialmente en aumento, por lo tanto, el desvanecimiento hasta el silenciamiento, en el caso de prolongados apagones.
45 [0086] Con respecto a SBR (SBR = Replication de Banda Espectral), en MPEG-4 HE-AAC, 3GPP sugiere
SBR en aacPlus mejorada para almacenar en memoria intermedia los datos de envoltura decodificados, y en el caso de una perdida de trama, para reutilizar las energfas almacenadas en memoria intermedia de los datos de envoltura transmitidos y disminuirlos por una relation constante de 3 dB para cada trama oculta. El resultado se suministra en el proceso de decodificacion normal donde el ajustador de envoltura lo utiliza para calcular las ganancias, utilizadas 50 para el ajuste de las altas bandas con parches, creadas por el generador de HF. Despues tiene lugar la decodificacion de SBR de manera habitual. Ademas, el suelo de ruido codificado delta y los valores de nivel de seno son eliminados. Como no queda disponible ninguna diferencia con la information anterior, el suelo de ruido decodificado y los niveles de seno permanecen proporcionales a la energfa de la senal generada de HF [3GP12e, seccion 5.2].
[0087] El consorcio de DRM especificado para la SBR junto con la AAC utiliza la misma tecnica que 3GPP
[EBU12, seccion 5.6.3.1]. Ademas, el consorcio de DAB especifica para SBR en DAB+ la misma tecnica que 3GPP [EBU10, seccion A2].
[0088] A continuacion, se consideran MPEG-4 CELP y MPEG-4 HVXC (HVXC = codificacion de excitacion de vector armonico). El consorcio de DRM especifica para la SBR junto con CELP y HVXC [EBU12, seccion 5.6.3.2] que el mlnimo ocultamiento de requerimiento para la SBR para codecs vocales sirve para aplicar un conjunto predeterminado de valores de datos, cada vez que se ha detectado una trama alterada de SBR. Estos valores
5 producen una envoltura espectral de alta banda estatica, a un bajo nivel relativo de reproduccion, que muestra una reduccion gradual de respuesta hacia las frecuencias mas altas. El objetivo es simplemente garantizar que ninguna rafaga de audio de mal comportamiento, potencialmente alta, llegue al oldo del oyente, por medio de la insercion de "ruido de confort" (en contraste al estricto silenciamiento). De hecho, esto no es un desvanecimiento real, sino, en cambio, un salto a un cierto nivel de energla a fin de insertar cierta clase de ruido de confort.
10
[0089] Posteriormente, se menciona una alternativa [EBU12, seccion 5.6.3.2] que reutiliza los ultimos datos decodificados correctamente y lentamente disminuye los niveles (L) hacia 0, de forma analoga al caso de AAC + SBR.
15 [0090] Ahora, se considera MPEG-4 HILN (HILN = armonicos y llneas individuales mas ruido). Meine et al.
introducen un desvanecimiento para el codec MPEG-4 HILN parametrico [ISO09] en un dominio parametrico [MEP01]. Para componentes armonicos continuados, un buen comportamiento por defecto para el reemplazo de parametros diferencialmente codificados alterados es mantener la frecuencia constante, a fin de reducir la amplitud por un factor de atenuacion (por ejemplo, -6 dB), y dejar que la envoltura espectral converja hacia la de la 20 caracterlstica de paso bajo promediado. Una alternativa para la envoltura espectral serla mantenerla sin cambios. Con respecto a amplitudes y envolturas espectrales, los componentes de ruido pueden ser tratados de la misma manera que los componentes armonicos.
[0091] A continuacion, se considera el rastreo del nivel de ruido de fondo en la tecnica anterior. Rangachari y 25 Loizou [RL06] proporcionan una buena resena de varios metodos, y analizan algunas de sus limitaciones. Los
metodos para el rastreo del nivel de ruido de fondo son, por ejemplo, el procedimiento de seguimiento mlnimo [RL06] [Coh03] [SFBOO] [Dob95], basado en VAD (VAD = deteccion de actividad de voz); la filtracion de Kalman [Gan05] [BJH06], las descomposiciones de subespacios [BP06] [HJH08]; decision blanda [SS98] [MPC89] [HE95] y estadlstica minima.
30
[0092] Se selecciono el enfoque de estadlstica minima para usarse dentro del alcance para USAC-2, (USAC = codificacion de voz y audio unificados) y se describe a continuacion en mas detalle.
[0093] La estimacion de densidad espectral de potencia de ruido basada en un suavizado optimo y 35 estadlstica minima [Mar01] introduce un estimador de ruido, que es capaz de funcionar independientemente de la
senal que es la voz activa o ruido de fondo. A diferencia de otros metodos, el algoritmo de minima estadlstica no utiliza ningun umbral expllcito para distinguir entre actividad vocal y pausa vocal, y por lo tanto, se relaciona mas estrechamente con los metodos de decision blanda, que con los metodos tradicionales de deteccion de actividad vocal. De manera similar a los metodos de decision blanda, puede tambien actualizar la PSD (Densidad espectral de 40 potencia) de ruido estimado durante la actividad vocal.
[0094] El metodo de minima estadlstica se basa en dos observaciones, concretamente, que la voz y el ruido habitualmente son estadlsticamente independientes, y que la potencia de una senal de la voz ruidosa con frecuencia decae hasta el nivel de potencia del ruido. Por lo tanto, es posible derivar una estimacion de PSD (PSD = densidad
45 espectral de potencia) de ruido exacta mediante el rastreo de la minima de la PSD de la senal ruidosa. Debido a que la minima es menor (o en otros casos, igual) que el valor promedio, el metodo de rastreo mlnimo requiere una compensacion de inclination.
[0095] La inclinacion es una funcion de la varianza de la PSD de la senal suavizada, y como tal, depende del 50 parametro de suavizado del estimador de PSD. A diferencia del trabajo previo sobre el mlnimo rastreo, que utiliza un
parametro de suavizado constante y una correction de inclinacion minima constante, se usa un suavizado de PSD dependiente del tiempo y la frecuencia, que tambien requiere una compensacion de inclinacion dependiente del tiempo y la frecuencia.
55 [0096] El uso de rastreo mlnimo proporciona una estimacion aproximada de la potencia de ruido. Sin
embargo, existen algunas desventajas. El suavizado con un parametro de suavizado fijado amplla los picos de actividad de la voz de la estimacion de PSD suavizada. Esto conducira a estimaciones de ruido inexactas, ya que la ventana de deslizamiento para la busqueda minima podrla deslizarse hacia picos amplios. Por lo tanto, los parametros de suavizado cercanos a uno no puede ser usados, y en consecuencia, la estimacion de ruido tendra 60 una varianza relativamente grande. Ademas, la estimacion de ruido se inclina hacia valores menores.
Adicionalmente, en el caso de aumentar la potencia de ruido el rastreo mlnimo queda retrasado.
[0097] El rastreo de PSD de ruido basado en MMSE, con baja complejidad [HHJ10] introduce un enfoque de PSD de ruido de fondo utilizando una busqueda de MMSE usada en un espectro de DFT (Transformada Discreta de
5 Fourier). El algoritmo consiste en estas etapas de procesamiento:
- Se calcula el maximo estimador de probabilidad basandose en la PSD de ruido de la trama previa.
- Se computa el mlnimo estimador de cuadrados medios.
- Se estima el maximo estimador de probabilidad usando el enfoque dirigido por decision [EM84].
10 - Se computa el factor de inclinacion inversa asumiendo que los coeficientes de DFT de la voz y ruido son distribuidos en forma gaussiana.
- Se suaviza la densidad espectral de potencia de ruido estimada.
[0098] Existe ademas un enfoque de red de seguridad aplicado con el fin de evitar un completo 15 estancamiento del algoritmo.
[0099] El rastreo de ruido no estacionario basado en la estimacion de potencia de ruido recursiva conducida por datos [EH08] introduce un metodo para la estimacion de la varianza espectral de ruido a partir de senales de la voz contaminadas por fuentes de ruido altamente no estacionarias. Este metodo tambien esta usando el suavizado
20 en la direccion de tiempo/frecuencia.
[0100] Un algoritmo de estimacion de ruido de baja complejidad basado en el suavizado de la estimacion de potencia de ruido y la correccion de la inclinacion de estimacion [Yu09] mejora el enfoque introducido en [EH08]. La principal diferencia es que la funcion de ganancia espectral para la estimacion de potencia de ruido es hallada por un
25 metodo conducido por datos iterativos.
[0101] Los metodos estadlsticos para la mejora de la voz ruidosa [Mar03] combinan el enfoque de minima estadlstica proporcionado en [Mar01] por la modificacion de ganancia de decision blanda [MCA99], por una estimacion de la SNR a priori [MCA99], por una limitacion de ganancia adaptativa [MC99] y por un estimador de
30 amplitud espectral log MMSE [EM85].
[0102] El desvanecimiento es de particular interes para una pluralidad de codecs de la voz y audio, en particular AMR (vease [3GP12b]) (incluyendo ACELP y cNg), AMR-WB (vease [3GP09c]) (incluyendo ACELP y CNG), AMR-WB+ (vease [3GP09a]) (incluyendo ACELP, TCX y CNG), G.718 (vease [ITU08a]), G.719 (vease
35 [ITU08b]), G.722 (vease [ITU07]), G.722.1 (vease [ITU05]), G.729 (vease [ITU12, CPK08, PKJ+11]), MPEG-4 HE- AAC/aacPlus mejorado (vease [EBU10, EBU12, 3GP12e, LS01, QD03]) (incluyendo AAC y SBR), MPEG-4 HILN (vease [IS009, MEP01]) y OPUS (vease [IET12]) (incluyendo SILK y CELT).
[0103] Dependiendo del codec, el desvanecimiento se realiza en diferentes dominios:
40
Para codecs que utilizan LPC, el desvanecimiento se realiza en el dominio predictivo lineal (tambien conocido como el dominio de excitacion). Esto es cierto para codecs que se basan en ACELP, por ejemplo, AMR, AMR-WB, el nucleo de ACELP de AMR-WB+, G.718, G.729, G.729.1, el nucleo SILK en OPUS; codecs que ademas procesan la senal de excitacion usando una transformacion de tiempo-frecuencia, por ejemplo, el nucleo de TCX de AMR-WB+, 45 el nucleo de CELT en OPUS; y para los esquemas de generation de ruido de confort (CNG) que operan en el dominio predictivo lineal, por ejemplo, CNG en AMR, CNG en AMR-WB, CNG en AMR-WB+.
[0104] Para codecs que directamente transforman la senal de tiempo en el dominio de frecuencia, el desvanecimiento se realiza en el dominio espectral/subbanda. Esto es cierto para codecs que se basan en la MDCT
50 o una transformacion similar, tal como AAC en MPEG-4 HE-AAC, G.719, G.722 (dominio de subbanda) y G.722.1.
[0105] Para codecs parametricos, el desvanecimiento se aplica en el dominio parametrico. Esto es cierto para MPEG-4 HILN.
55 [0106] Con respecto a la velocidad del desvanecimiento y la curva del desvanecimiento, un desvanecimiento
comunmente es realizado mediante la aplicacion de un factor de atenuacion, que se aplica a la representation de senal en el dominio apropiado. El tamano del factor de atenuacion controla la velocidad del desvanecimiento y la curva del desvanecimiento. En la mayorla de los casos, el factor de atenuacion se aplica a modo de trama, si bien se utiliza ademas una aplicacion a modo de muestra, vease, por ejemplo, G.718 y G.722.
[0107] El factor de atenuacion para un cierto segmento de senal podrfa ser proporcionado de dos maneras, absoluta y relativa.
[0108] En el caso de que se provea un factor de atenuacion de manera absoluta, el nivel de referencia es 5 siempre aquel de la ultima trama recibida. Los factores de atenuacion absolutos habitualmente inician con un valor
cercano a 1 para el segmento de senal inmediatamente despues de la ultima buena trama, y luego, se degradan en forma mas veloz o mas lenta, hacia 0. La curva de desvanecimiento depende directamente de estos factores. Es decir, por ejemplo, el caso para el ocultamiento descrito en el Apendice IV de G.722 (vease, en particular, [ITU07, figura IV.7]), donde las posibles curvas de desvanecimiento son lineales o gradualmente lineales. Considerando un 10 factor de ganancia g(n), mientras que g(0) representa el factor de ganancia de la ultima buena trama, un factor de atenuacion absoluto aabs(n), el factor de ganancia de cualquier trama perdida posterior puede derivarse como
g(n) = aabs(n)-g(0)
15 [0109] En el caso en el que se proporciona un factor de atenuacion de manera relativa, el nivel de referencia
es aquel de la trama previa. Esto tiene ventajas en el caso de un procedimiento de ocultamiento recursivo, por ejemplo, si la senal ya atenuada es adicionalmente procesada y atenuada nuevamente.
[0110] Si un factor de atenuacion se aplica de manera recursiva, entonces este podrfa ser un valor fijado
20 independiente del numero de tramas consecutivamente perdidas, por ejemplo, 0,5 para G.719 (vease anteriormente); un valor fijado relativo al numero de tramas consecutivamente perdidas, por ejemplo, como se propone para G.729 en [CpK08]: 1,0 para las primeras dos tramas, 0,9 para las siguientes dos tramas, 0,8 para las tramas 5 y 6, y 0, para todas las posteriores tramas (vease anteriormente); o un valor que es relativo al numero de tramas consecutivamente perdidas y que depende de las caracterfsticas de senal, por ejemplo, un desvanecimiento 25 mas veloz para una senal inestable, y un desvanecimiento mas lento, para una senal estable, por ejemplo, G.718 (vease la section anterior y [ITU08a, Tabla 44]);
30
[0111] Asumiendo un factor de desvanecimiento relativo 0 > arei(n) > 1, mientras que n es el numero de la
trama perdida (n < 1); el factor de ganancia de cualquier trama posterior puede derivarse como
35 dando como resultado un desvanecimiento exponencial.
[0112] Con respecto al procedimiento de desvanecimiento, habitualmente, se especifica el factor de
atenuacion, si bien en algunos estandares de aplicacion (DRM, DAB+) este ultimo se deja al fabricante.
40 [0113] Si diferentes partes de senal son desvanecidas en forma separada, podrfan aplicarse diferentes
factores de atenuacion, por ejemplo, con el fin de cambiar gradualmente el volumen de los componentes tonales con una cierta velocidad, y los componentes de tipo ruido, con otra velocidad (por ejemplo, AMR, SILK).
[0114] Habitualmente, se aplica una cierta ganancia a la trama entera. Cuando el desvanecimiento se realiza 45 en el dominio espectral, esta es la unica manera posible. Sin embargo, si el desvanecimiento se realiza en el
dominio de tiempo o el dominio predictivo lineal, es posible un desvanecimiento mas granular. Dicho desvanecimiento mas granular se aplica en G.718, donde los factores de ganancia individuales son derivados para cada muestra por interpolation lineal entre el factor de ganancia de la ultima trama y el factor de ganancia de la trama actual.
50
[0115] Para codecs con una duration de trama variable, un factor de atenuacion relativo constante conduce a una velocidad de desvanecimiento diferente dependiendo de la duracion de la trama. Es decir, por ejemplo, el caso para AAC, donde la duracion de la trama depende de la tasa de muestreo.
[0116] A fin de adoptar la curva de desvanecimiento aplicada a la forma temporal de la ultima senal recibida,
los factores de desvanecimiento (estaticos) podrfan ser adicionalmente ajustados. Dicho ajuste dinamico adicional se aplica, por ejemplo, para AMR, donde se tiene en cuenta la mediana de los cinco factores de ganancia previos (vease [3GP12b] y section 1.8.1). Antes de realizar cualquier atenuacion, la ganancia actual se establece en la 5 mediana, si la mediana es menor que la ultima ganancia; de lo contrario, se usa la ultima ganancia. Ademas, dicho ajuste dinamico adicional se aplica, por ejemplo, para G729, donde se predice la amplitud usando la regresion lineal de los factores de ganancia previos (vease [CPK08, PKJ+11] y seccion 1.6). En este caso, el factor de ganancia resultante para las primeras tramas ocultadas podrfa exceder al factor de ganancia de la ultima trama recibida.
10 [0117] Con respecto al nivel objetivo del desvanecimiento, excepto G.718 y CELT, el nivel objetivo es 0 para
todos los codecs analizados, que incluyen aquellos codecs de generation de ruido de confort (CNG).
[0118] En G.718, el desvanecimiento de la excitation de altura (que representa los componentes tonales) y el desvanecimiento de la excitacion aleatoria (que representa los componentes de tipo ruido) se realizan en forma
15 separada. Si bien el factor de ganancia de altura se desvanece a cero, el factor de ganancia de innovation se desvanece a la energfa de excitacion de CNG.
[0119] Asumiendo que se proporcionan los factores de atenuacion relativos, esto conduce - basandose en la formula (23) - al siguiente factor de atenuacion absoluto:
20
g(n) = Orel (n) ■ g(n - 1) + (1 - arel (n)) • gn (25)
siendo gn la ganancia de la excitacion usada durante la generacion de ruido de confort. Esta formula corresponde a la formula (23), cuando gn = 0.
25
[0120] G.718 no realiza desvanecimiento en el caso de DTX/CNG.
[0121] En CELT no hay desvanecimiento hacia el nivel objetivo, si bien, despues de 5 tramas de ocultamiento tonal (que incluye un desvanecimiento), el nivel es cambiado instantaneamente al nivel objetivo en la 6a trama
30 consecutivamente perdida. El nivel es derivado a modo de banda usando la formula (19).
[0122] Con respecto a la forma espectral objetivo del desvanecimiento, todos los codecs basados en la transformada pura analizados (AAC, G.719, G.722, G.722.1), al igual que la SBR, simplemente prolongan la forma espectral de la ultima buena trama durante el desvanecimiento.
35
[0123] Diversos codecs de la voz desvanecen la forma espectral a una media, usando la sfntesis de LPC. La
media podrfa ser estatica (AMR) o adaptativa (AMR-WB, AMR-WB+, G.718), mientras que esta ultima se deriva a
partir de una media estatica y una media de corto plazo (derivada promediando los ultimos grupos de coeficientes n LP) (LP = Prediction Lineal).
40
[0124] Todos los modulos de CNG en los codecs descritos de AMR, AMR-WB, AMR-WB+, G.718 prolongan la forma espectral de la ultima buena trama durante el desvanecimiento.
[0125] Con respecto al rastreo del nivel de ruido de fondo, existen cinco enfoques diferentes conocidos de la 45 bibliograffa:
- Basado del detector de actividad de voz: se basa en SNR/VAD, pero muy diffcil de sintonizar y de usar para la voz SNR baja.
- Esquema de decision blanda: El enfoque de decision blanda tiene en cuenta la probabilidad de la presencia de la 50 voz [SS98] [MPC89] [HE95],
- Minima estadfstica: Se rastrea la minima de la PSD manteniendo una cierta cantidad de valores con el tiempo en un bufer, permitiendo asf encontrar el mfnimo ruido de las muestras pasadas [Mar01] [HHJ10] [EH08] [Yu09].
- Filtration de Kalman: El algoritmo usa una serie de mediciones observadas en funcion del tiempo, que contienen ruido (variaciones aleatorias), y produce estimaciones de la PSD de ruido que tienden a ser mas precisas que
55 aquellas basandose en una unica medicion sola. El filtro de Kalman opera de manera recursiva sobre corrientes de datos de entrada ruidosos para producir una estimation estadfsticamente optima del estado del sistema [Gan05] [BJH06].
- Descomposicion subespacial: Este enfoque trata de descomponer una senal de tipo ruido en una senal discursiva limpia y una parte de ruido, utilizando, por ejemplo, la KLT (transformada de Karhunen-Loeve, tambien conocida
18
como analisis de componentes principales) y/o la DFT (Transformada Discreta de Fourier). A continuacion, pueden rastrearse vectores propios/valores propios usando un algoritmo de suavizado arbitrario [BP06] [HJH08].
[0126] El documento EP 2 026 330 A1 describe un dispositivo y un metodo para el ocultamiento perdido de la 5 trama. Se obtiene un periodo de tono de una trama perdida actual sobre la base de un periodo de altura de la ultima
trama buena antes de la trama perdida actual. Una senal de excitacion de la trama perdida actual se recupera sobre la base del periodo de altura de la trama perdida actual y una senal de excitacion de la ultima trama buena antes de la trama perdida. De esta manera, se reduce el contraste auditivo de un receptor, y se mejora la calidad vocal. Ademas, en el documento EP 2 026 330 A1, se ajusta un periodo de altura de tramas perdidas continuas en base a 10 la tendencia de cambio del periodo de altura de la ultima trama bueno antes de la trama perdida.
[0127] El documento EP 1 775 717 A1 describe un dispositivo de decodificacion de audio capaz de mejorar la calidad de audio de una senal decodificada considerando el cambio de energla de una senal pasada en el procesamiento de ocultacion de borrado. En este dispositivo, una unidad de calculo de cambio de energla calcula
15 una energla media de una senal de fuente de audio de un ciclo de paso desde el final del vector ACB emitido a partir de un libro de codigos adaptativo. Ademas, la unidad de calculo de cambio de energia calcula una relacion de la energia media de la subtrama actual y la subtrama inmediatamente antes y emite la relacion a una unidad de generacion de ganancia ACB. La unidad de generacion de ganancia de ACB emite una ganancia ACB de procesamiento de ocultacion definida por la ganancia de ACB descodificada en el pasado o informacion sobre la 20 relacion de cambio de energia emitida desde la unidad de calculo de cambio de energia, a un multiplicador.
[0128] El objeto de la presente invencion es proporcionar conceptos mejorados para sistemas de codificacion de audio. El objeto de la presente invencion es resuelto por un aparato segun la reivindicacion 1, por un metodo segun la reivindicacion 12 y por un programa informatico segun la reivindicacion 13. Se proporciona un aparato para
25 la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para la recepcion de una o mas tramas, un generador de coeficientes y un reconstructor de senal. El generador de coeficientes esta configurado para determinar, si una trama actual de una o mas tramas es recibida por la interfaz receptora, y si la trama actual recibida por la interfaz receptora no pero esta alterada, uno o mas primeros coeficientes de senal de audio, que estan comprendidos por la trama actual, en el que 30 dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican una forma espectral de un ruido de fondo de la senal de audio codificada. Ademas, el generador de coeficientes esta configurado para generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros coeficientes de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora o si la trama actual 35 recibida por la interfaz receptora pero esta alterada. El reconstructor de senal de audio esta configurado para la reconstruction de una primera portion de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada. Ademas, el reconstructor de senal de audio esta configurado para la reconstruccion de una segunda porcion de la senal de audio reconstruida que depende de uno o mas segundos 40 coeficientes de senal de audio, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
[0129] En algunas realizaciones, el uno o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunas realizaciones, el uno
45 o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
[0130] Segun una realization, el uno o mas coeficientes de ruido, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En una
50 realizacion, el uno o mas coeficientes de filtro predictivo lineal, por ejemplo, pueden representar una forma espectral del ruido de fondo.
[0131] En una realizacion, el generador de coeficientes, por ejemplo, puede estar configurado para determinar una o mas segundas porciones de senal de audio de manera que una o mas segundas porciones de
55 senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de manera que uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de impedancia y admitancia de la senal de audio reconstruida.
[0132] Segun una realizacion, el generador de coeficientes, por ejemplo, puede estar configurado para 60 generar el uno o mas segundos coeficientes de senal de audio mediante la aplicacion de la formula:
19
.factual [(I — Ol ■ /ultimo [/) + (1 ^0 ’ media/]
en la que factual^] indica uno de los uno o mas segundos coeficientes de senal de audio,
5 en la que fiast[i] indica uno de los uno o mas primeros coeficientes de senal de audio, en la que
ptmedia[i] es uno de los uno o mas coeficientes de ruido, en la que a es un numero real con 0 > a > 1, y en la que i es un Indice. En una realizacion, 0 < a < 1.
10 [0133] Segun una realizacion, fuitimo[i] indica un coeficiente de filtro predictivo lineal de la senal de audio
codificada, y en la que factua[i] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0134] En una realizacion, ptmedia[i] puede indicar, por ejemplo, el ruido de fondo de la senal de audio codificada.
15
[0135] En una realizacion, el generador de coeficientes, por ejemplo, puede estar configurado para determinar, si la trama actual de una o mas tramas es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, el uno o mas coeficientes de ruido mediante la determinacion de un espectro de ruido de la senal de audio codificada.
20
[0136] Segun una realizacion, el generador de coeficientes, por ejemplo, puede estar configurado para determinar coeficientes de LPC que representan ruido de fondo usando un enfoque de estadlstica minima sobre el espectro de senal para determinar un espectro de ruido de fondo y mediante el calculo de los coeficientes LPC que representan la forma de ruido de fondo a partir del espectro de ruido de fondo.
25
[0137] Ademas, se proporciona un metodo para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El metodo comprende:
- Recibir una o mas tramas.
30 - Determinar, si una trama actual de una o mas tramas es recibida y si la trama actual recibida no esta alterada, de uno o mas primeros coeficientes de senal de audio, estando comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, e indicando uno o mas coeficientes de ruido un ruido de fondo de la senal de audio codificada.
- Generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros 35 coeficientes de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es
recibida o si la trama actual recibida esta alterada.
- Reconstruir una primera porcion de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida y si la trama de actual que se recibe no esta alterada. Y:
- Reconstruir una segunda porcion de la senal de audio reconstruida que depende de los uno o mas segundos 40 coeficientes de senal de audio, si la trama actual no es recibida o si la trama de actual que se recibe esta alterada.
[0138] Ademas, se proporciona un programa informatico para la implementacion del metodo anteriormente descrito cuando se ejecuta en un ordenador o procesador de senales.
45 [0139] El tener medios comunes para rastrear y aplicar la forma espectral del ruido de confort durante el
desvanecimiento posee varias ventajas. El rastreo y la aplicacion de la forma espectral de modo que puedan realizarse de manera similar para ambos codecs nucleo permiten un simple enfoque comun. CELT ensena solo el rastreo de energlas a modo de banda, en el dominio espectral, y la formacion a modo de banda, de la forma espectral en el dominio espectral, que no es posible para el nucleo CELP.
50
[0140] Por el contrario, en el estado de la tecnica, la forma espectral del ruido de confort introducido durante
las perdidas de rafagas es o bien completamente estatica, o en parte estatica y en parte adaptativa a la media de corto plazo de la forma espectral (como se representa en G.718 [ITU08a]), y habitualmente no coincidira con el ruido de fondo en la senal antes de la perdida de paquete. Estas caracterlsticas de no coincidencia del ruido de confort 55 podrlan ser molestas. Segun el estado de la tecnica, puede emplearse una forma de ruido de fondo en tren fuera de llnea (estatica) que pueda ser placentera en terminos de sonido para senales particulares, si bien menos placentera para otras, por ejemplo, sonidos de ruido de coches totalmente diferentes al ruido de oficina.
[0141] Ademas, en el estado de la tecnica, puede emplearse una adaptacion a la media de corto plazo de la forma espectral de las tramas previamente recibidas, que podrla llevar las caracterlsticas de la senal mas cerca de la senal recibida antes, si bien no necesariamente de las caracterlsticas del ruido de fondo. En el estado de la tecnica, el rastreo de la forma espectral a modo de banda en el dominio espectral (como se representa en CELT [IET12]) no
5 es aplicable para un codec cambiado usando no solo un nucleo basado en el dominio de la MDCT (TCX), sino, ademas, un nucleo basado en ACELP. Las realizaciones mencionadas anteriormente, en consecuencia, son ventajosas en comparacion con la tecnica anterior.
[0142] Ademas, se proporciona un aparato para la decodificacion de una senal de audio.
10
[0143] El aparato comprende una interfaz receptora. La interfaz receptora esta configurada para recibir una pluralidad de tramas, en el que la interfaz receptora esta configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio, y en el que la interfaz receptora esta
15 configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
[0144] Ademas, el aparato comprende una unidad de transformada para la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio de un segundo
20 dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
[0145] Adicionalmente, el aparato comprende una unidad de rastreo de nivel de ruido, en el que la unidad de 25 rastreo de nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que es
representada en el dominio de rastreo, en el que la informacion de primera porcion de senal depende de la primera porcion de senal de audio. La unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de 30 senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
[0146] Ademas, el aparato comprende una unidad de reconstruccion para la reconstruccion de una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama
35 de la pluralidad de tramas no es recibida por la interfaz receptora pero esta alterada.
[0147] Una senal de audio, por ejemplo, puede ser una senal de la voz, o una senal de musica, o senal que comprende la voz y musica, etc.
40 [0148] La afirmacion de que la informacion de primera porcion de senal depende de la primera porcion de
senal de audio significa que la informacion de primera porcion de senal es o bien la primera porcion de senal de audio, o que la informacion de primera porcion de senal ha sido obtenida/generada dependiendo de la primera porcion de senal de audio o que de alguna otra manera depende de la primera porcion de senal de audio. Por ejemplo, la primera porcion de senal de audio puede haber sido transformada de un dominio a otro dominio para 45 obtener la informacion de primera porcion de senal.
[0149] De manera similar, una afirmacion de que la informacion de segunda porcion de senal depende de una segunda porcion de senal de audio significa que la informacion de segunda porcion de senal es o bien la segunda porcion de senal de audio, o que la informacion de segunda porcion de senal ha sido obtenida/generada
50 dependiendo de la segunda porcion de senal de audio o de alguna otra manera depende de la segunda porcion de senal de audio. Por ejemplo, la segunda porcion de senal de audio puede haber sido transformada de un dominio a otro dominio para obtener informacion de segunda porcion de senal.
[0150] En una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un 55 dominio de tiempo como el primer dominio. Ademas, la unidad de transformada, por ejemplo, puede ser configurada
para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de excitacion que es el segundo dominio, al dominio de tiempo que es el dominio de rastreo. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo. Ademas, la 60 unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda porcion de senal que
21
es representada en el dominio de tiempo como el dominio de rastreo.
[0151] Segun una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de excitacion como el primer dominio. Ademas, la unidad de transformada, por ejemplo, puede ser
5 configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que es el segundo dominio, al dominio de excitacion que es el dominio de rastreo. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo. Ademas, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda 10 porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo.
[0152] En una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de excitacion como el primer dominio, en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal, en la que dicha informacion de primera
15 porcion de senal esta representada en el dominio FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que esta representada en el dominio de excitacion, en la que la unidad de transformada, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que es el segundo dominio, a un dominio FFT que es el dominio de rastreo, y en la que la unidad de rastreo 20 de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda porcion de senal de audio que es representada en el dominio FFT.
[0153] En una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una primera unidad de agregacion para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio.
25 Ademas, el aparato, por ejemplo, puede comprender adicionalmente una segunda unidad de agregacion para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de rastreo de nivel de ruido, por ejemplo, 30 puede ser configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
35
[0154] Segun una realizacion, la primera unidad de agregacion por ejemplo, puede estar configurada para determinar el primer valor agregado de manera que el primer valor agregado indique una media cuadratica de la primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Ademas, la segunda unidad de agregacion, por ejemplo, puede estar configurada para determinar el segundo valor agregado de
40 manera que el segundo valor agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
[0155] En una realizacion, la unidad de transformada, por ejemplo, puede ser configurada para transformar el valor derivado de la segunda porcion de senal de audio del segundo dominio al dominio de rastreo, mediante la
45 aplicacion de un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio.
[0156] Segun realizaciones, el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codificacion predictiva lineal, o el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis.
50
[0157] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar informacion de nivel de ruido mediante la aplicacion de un enfoque de estadlstica minima.
[0158] Segun una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada 55 para determinar un nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion, por
ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
60 [0159] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para
22
determinar un nivel de ruido de confort como la information de nivel de ruido derivada de un espectro de nivel de ruido, en la que dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la tercera portion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la 5 pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0160] Segun otra realization, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar una pluralidad de coeficientes predictivos lineales que indican un nivel de ruido de confort como la
10 informacion de nivel de ruido, y la unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la pluralidad de coeficientes predictivos lineales.
[0161] En una realizacion, la unidad de rastreo de nivel de ruido esta configurada para determinar una pluralidad de coeficientes de FFT que indican un nivel de ruido de confort como la informacion de nivel de ruido, y la
15 primera unidad de reconstruccion esta configurada para reconstruir la tercera porcion de senal de audio dependiendo de un nivel de ruido de confort derivado a partir de dichos coeficientes de FFT, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
20 [0162] En una realizacion, la unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la
tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
25 [0163] Segun una realizacion, la unidad de reconstruccion, por ejemplo, puede ser configurada para
reconstruir la tercera porcion de senal de audio mediante la atenuacion o la amplification de una senal derivada de
la primera o la segunda porcion de senal de audio.
[0164] En una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una unidad de
30 prediction de largo plazo que comprende un bufer de retardo. Ademas, la unidad de prediction de largo plazo, por
ejemplo, puede ser configurada para generar una senal procesada dependiendo de la primera o la segunda porcion de senal de audio, dependiendo de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y dependiendo de una ganancia de prediccion de largo plazo. Adicionalmente, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha 35 tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0165] Segun una realizacion, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la cual la
40 ganancia de prediccion de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0166] En una realizacion, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para actualizar la entrada del bufer de retardo mediante el almacenamiento de la senal procesada generada en el bufer de retardo, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera
45 trama es recibida por la interfaz receptora pero esta alterada.
[0167] Segun una realizacion, la unidad de transformada, por ejemplo, puede ser una primera unidad de transformada, y la unidad de reconstruccion es una primera unidad de reconstruccion. El aparato adicionalmente comprende una segunda unidad de transformada y una segunda unidad de reconstruccion. La segunda unidad de
50 transformada, por ejemplo, puede ser configurada para transformar la informacion de nivel de ruido del dominio de rastreo al segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada. Ademas, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio, si dicha 55 cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora, o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0168] En una realizacion, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la
60 segunda porcion de senal de audio.
[0169] Segun una realization, la segunda unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la cuarta portion de senal de audio mediante la atenuacion o la amplification de una senal derivada de la primera o la segunda portion de senal de audio.
5
[0170] Ademas, se proporciona un metodo para la decodificacion de una senal de audio.
[0171] El metodo comprende:
10 - Recibir una primera trama de una pluralidad de tramas, comprendiendo dicha primera trama una primera portion de senal de audio de la senal de audio, estando dicha primera portion de senal de audio representada en un primer dominio.
- Recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda portion de senal de audio de la senal de audio.
15 - Transformation de la segunda portion de senal de audio o un valor o una senal derivado de la segunda portion de senal de audio de un segundo dominio a un dominio de rastreo para obtener una information de segunda portion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
- Determinar la information de nivel de ruido dependiendo de la information de primera portion de senal, que es
20 representada en el dominio de rastreo, y dependiendo de la information de segunda portion de senal que es
representada en el dominio de rastreo, en el que la information de primera portion de senal depende de la primera portion de senal de audio. Y:
- Reconstruir una tercera portion de senal de audio de la senal de audio dependiendo de la information de nivel de ruido que es representada en el dominio de rastreo, si una tercera trama de la pluralidad de tramas no es recibida, o
25 si dicha tercera trama es recibida pero esta alterada.
[0172] Adicionalmente, se proporciona un programa informatico para la implementation del metodo anteriormente descrito cuando se ejecuta en un ordenador o procesador de senales.
30 [0173] Algunas de las realizaciones de la presente invention proporcionan un parametro de suavizado de
variacion de tiempo, de manera que las capacidades de rastreo del periodograma suavizado y su varianza sean mejor equilibrados, para desarrollar un algoritmo para la compensation de inclination, y para acelerar el rastreo de ruido, en general.
35 [0174] Las realizaciones de la presente invention se basan en el hallazgo de que con respecto al
desvanecimiento, son de interes los siguientes parametros: El dominio de desvanecimiento; la velocidad de desvanecimiento, o, mas en general, la curva de desvanecimiento; el nivel objetivo del desvanecimiento; la forma espectral objetivo del desvanecimiento; y/o el rastreo del nivel de ruido de fondo. En este contexto, las realizaciones se basan en el hallazgo de que la tecnica anterior tiene desventajas significativas.
40
[0175] Se proporciona un aparato y un metodo para la mejora del desvanecimiento de la senal para sistemas de codification de audio cambiados durante el ocultamiento de errores.
[0176] Ademas, se proporciona un programa informatico para la implementation del metodo anteriormente 45 descrito cuando se ejecuta en un ordenador o procesador de senales.
[0177] Las realizaciones representan un desvanecimiento al nivel de ruido de confort. Segun las realizaciones, se representa un rastreo de nivel de ruido de confort comun en el dominio de excitation. El nivel de ruido de confort que es dirigido durante la perdida de paquetes de rafaga sera el mismo, independientemente del
50 codificador nucleo (ACELP/TCX) en uso, y siempre estara actualizado. No existe estado de la tecnica conocido, donde sea necesario un rastreo de nivel de ruido comun. Las realizaciones proporcionan el desvanecimiento de un codec cambiado a una senal de tipo ruido de confort durante las perdidas de paquetes de rafagas.
[0178] Ademas, las realizaciones representan que la complejidad general sera menor en comparacion con 55 dos modulos de rastreo de nivel de ruido independientes, ya que pueden compartirse las funciones (PROM) y la
memoria.
[0179] En las realizaciones, la derivation de nivel en el dominio de excitation (en comparacion con la derivation de nivel en el dominio de tiempo) proporciona mas mlnimos durante la voz activa, ya que parte de la
60 information de la voz es cubierta por los coeficientes de LP.
24
[0180] En el caso de ACELP, segun las realizaciones, la derivacion de nivel tiene lugar en el dominio de excitacion. En el caso de TCX, en las realizaciones, el nivel es derivado en el dominio de tiempo, y la ganancia de la slntesis de LPC y el desenfasis se aplica como un factor de correccion con el fin de modelar el nivel de energla en el
5 dominio de excitacion. El rastreo del nivel en el dominio de excitacion, por ejemplo, antes de FDNS, teoricamente tambien serla posible, si bien la compensation de nivel entre el dominio de excitacion de TCX y el dominio de excitacion de ACELP se considera bastante compleja.
[0181] Ninguna tecnica anterior incorpora dicho rastreo de nivel de fondo comun en diferentes dominios. Las 10 tecnicas de la tecnica anterior no tienen dicho rastreo de nivel de ruido de confort comun, por ejemplo, en el dominio
de excitacion, en un sistema de codec cambiado. Por lo tanto, las realizaciones son convenientes sobre la tecnica anterior, ya que, en cuanto a las tecnicas del estado de la tecnica, el nivel de ruido de confort que es dirigido durante las perdidas de paquetes de rafagas puede ser diferente, dependiendo del modo de codification precedente (ACELP/TCX), donde el nivel fue rastreado; ya que en el estado de la tecnica, el rastreo que es separado para cada 15 modo de codificacion causara complejidad computacional adicional e innecesario en exceso; y ya que, en el estado de la tecnica, podrla no haber disponible ningun nivel de ruido de confort actualizado en ninguno de los nucleos, debido a cambio reciente a este nucleo.
[0182] Segun algunas realizaciones, el rastreo de nivel es conducido en el dominio de excitacion, si bien el 20 desvanecimiento de TCX se realiza en el dominio de tiempo. Mediante el desvanecimiento en el dominio de tiempo,
se evitan fallos de la TDAC, que causarlan la superposition periodica sucesiva. Esto llega a ser de particular interes cuando se ocultan componentes de serial tonal. Ademas, la conversion de nivel entre el dominio de excitacion de ACELP y el dominio espectral de la MDCT se evita, y en consecuencia, por ejemplo, se ahorran recursos de calculo. Debido al cambio entre el dominio de excitacion y el dominio de tiempo, se requiere un ajuste de nivel entre el 25 dominio de excitacion y el dominio de tiempo. Esto es resuelto por la derivacion de la ganancia que serla introducida por la slntesis de LPC y el preenfasis y el uso de esta ganancia como un factor de correccion para la conversion del nivel entre los dos dominios.
[0183] Por el contrario, las tecnicas del estado de la tecnica no realizan el rastreo de nivel en el dominio de 30 excitacion y el desvanecimiento de TCX en el dominio de tiempo. Con respecto a los codecs basados en la
transformada del estado de la tecnica, se aplica el factor de atenuacion o bien en el dominio de excitacion (para enfoques de ocultamiento de tipo dominio de tiempo/ACELP), vease [3GP09a]) o en el dominio de frecuencia (para enfoques de dominio de frecuencia como la repetition de trama o la sustitucion de ruido, vease [LS01]). Una desventaja del enfoque del estado de la tecnica para la aplicacion del factor de atenuacion en el dominio de 35 frecuencia es que la superposicion periodica sucesiva sera causado en la region de superposicion y adicion en el dominio de tiempo. Este sera el caso para tramas adyacentes a las cuales se aplican diferentes factores de atenuacion, debido a que el procedimiento de desvanecimiento causa el fallo de la TDAC (cancelation de la superposicion periodica sucesiva del dominio de tiempo). Esto es en particular relevante cuando se ocultan los componentes de serial tonal. Las realizaciones mencionadas anteriormente, en consecuencia, son convenientes en 40 comparacion con la tecnica anterior.
[0184] Las realizaciones compensan la influencia del filtro paso alto sobre la ganancia de la slntesis de LPC. Segun realizaciones, para compensar el cambio de ganancia no deseado del analisis de LPC y el enfasis causado por la excitacion sin voz filtrada por paso alto, se deriva un factor de correccion. Este factor de correccion considera
45 este cambio de ganancia no deseado y modifica el nivel de ruido de confort objetivo en el dominio de excitacion, de manera que se alcance el nivel objetivo correcto en el dominio de tiempo.
[0185] Por el contrario, el estado de la tecnica, por ejemplo, G.718 [ITU08a], introduce un filtro paso alto en la via de la serial de la excitacion sin voz, como se representa en la Fig. 2, si la serial de la ultima buena trama no fue
50 clasificada como SIN VOZ. Al realizar esto, las tecnicas del estado de la tecnica causan efectos secundarios no deseados, ya que la ganancia de la posterior slntesis de LPC depende de las caracterlsticas de la serial, que son alteradas por este filtro paso alto. Debido a que el nivel de fondo es rastreado y aplicado en el dominio de excitacion, el algoritmo se basa en la ganancia de la slntesis de LPC, que, a su vez, depende de nuevo de las caracterlsticas de la serial de excitacion. En otras palabras: La modification de las caracterlsticas de la serial de la excitacion debido a 55 la filtration paso alto, como es conducida por el estado de la tecnica, podrla conducir a una ganancia modificada (habitualmente reducida) de la slntesis de LPC. Esto conduce a un nivel de salida erroneo, aun cuando el nivel de excitacion sea correcto.
[0186] Las realizaciones superan estas desventajas de la tecnica anterior.
[0187] En particular, las realizaciones representan una forma espectral adaptativa de ruido de confort. A diferencia de G.718, al rastrear la forma espectral del ruido de fondo, y mediante la aplicacion (desvanecimiento) de esta forma durante las perdidas de paquetes de rafagas, la caracterlstica de ruido del ruido de fondo precedente coincidira, conduciendo a una caracterlstica de ruido agradable del ruido de confort. Esto evita no coincidencias
5 demasiado visibles de la forma espectral que pueden ser introducidas mediante el uso de una envoltura espectral derivada en tren fuera de llnea y/o la forma espectral de las ultimas tramas recibidas.
[0188] Ademas, se proporciona un aparato para la decodificacion de una senal de audio. El aparato comprende una interfaz receptora, en la que la interfaz receptora esta configurada para recibir una primera trama
10 que comprende una primera porcion de senal de audio de la senal de audio, y en la que la interfaz receptora esta configurada para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
[0189] Ademas, el aparato comprende una unidad de rastreo de nivel de ruido, en el que la unidad de rastreo 15 de nivel de ruido esta configurada para determinar la informacion de nivel de ruido que depende al menos de una de
la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa: que depende de la primera porcion de senal de audio y/o la segunda porcion de senal de audio), en la que la informacion de nivel de ruido se representa en un dominio de rastreo.
20 [0190] Adicionalmente, el aparato comprende una primera unidad de reconstruccion para la reconstruccion
de, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada, en el que el primer dominio de reconstruccion es diferente o igual del dominio de rastreo.
25
[0191] Ademas, el aparato comprende una unidad de transformada para la transformacion de la informacion de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada, en el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y
30 en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion; y
[0192] Adicionalmente, el aparato comprende una segunda unidad de reconstruccion para la reconstruccion de, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si
35 dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0193] Segun algunas realizaciones, el dominio de rastreo, por ejemplo, puede ser en el que el dominio de rastreo es un dominio de tiempo, un dominio espectral, un dominio FFT, un dominio de MDCT, o un dominio de
40 excitacion. El primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion. El segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion.
45 [0194] En una realization, el dominio de rastreo, por ejemplo, puede ser el dominio FFT, el primer dominio de
reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
[0195] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer 50 dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion,
por ejemplo, puede ser el dominio de excitacion.
[0196] Segun una realizacion, dicha primera porcion de senal de audio, por ejemplo, puede ser representada en un primer dominio de entrada, y dicha segunda porcion de senal de audio, por ejemplo, puede ser representada
55 en un segundo dominio de entrada. La unidad de transformada, por ejemplo, puede ser una segunda unidad de transformada. El aparato, por ejemplo, puede comprender adicionalmente una primera unidad de transformada para la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio, del segundo dominio de entrada al dominio de rastreo, para obtener una informacion de segunda porcion de senal. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir una 60 informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la informacion de
26
primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para determinar la information de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y 5 dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
[0197] Segun una realization, el primer dominio de entrada, por ejemplo, puede ser el dominio de excitation,
y el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCT.
10 [0198] En otra realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de MDCT, y
donde el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCt.
[0199] Segun una realizacion, la primera unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la conduction de un primer desvanecimiento a un espectro
15 de tipo ruido. La segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio mediante la conduccion de un segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP. Ademas, la primera unidad de reconstruccion y la segunda unidad de reconstruccion, por ejemplo, pueden ser configuradas para conducir el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP con 20 la misma velocidad de desvanecimiento.
[0200] En una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una primera unidad de agregacion para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio. Ademas, el aparato, por ejemplo, puede comprender ademas una segunda unidad de agregacion para determinar,
25 dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de 30 rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
[0201] Segun una realizacion, la primera unidad de agregacion por ejemplo, puede estar configurada para 35 determinar el primer valor agregado de manera que el primer valor agregado indique una media cuadratica de la
primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. La segunda unidad de agregacion esta configurada para determinar el segundo valor agregado, de manera que el segundo valor agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
40
[0202] En una realizacion, la primera unidad de transformada, por ejemplo, puede ser configurada para transformar el valor derivado de la segunda porcion de senal de audio del segundo dominio de entrada al dominio de rastreo, mediante la aplicacion de un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio.
45
[0203] Segun una realizacion, el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codification predictiva lineal, o en el que el valor de ganancia indica una ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis.
50 [0204] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para
determinar la informacion de nivel de ruido mediante la aplicacion de un enfoque de estadlstica minima.
[0205] Segun una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion, por
55 ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0206] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para 60 determinar un nivel de ruido de confort como la informacion de nivel de ruido derivada de un espectro de nivel de
27
ruido, en la que dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz 5 receptora pero esta alterada.
[0207] Segun una realization, la primera unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la information de nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz
10 receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0208] En una realizacion, la primera unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la atenuacion o amplification de la primera porcion de senal de audio.
15
[0209] Segun una realizacion, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la segunda porcion de senal de audio.
20 [0210] En una realizacion, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para
reconstruir la cuarta porcion de senal de audio mediante la atenuacion o amplificacion de la segunda porcion de senal de audio.
[0211] Segun una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una unidad de 25 prediction de largo plazo que comprende un bufer de retardo, en el que la unidad de prediction de largo plazo, por
ejemplo, puede ser configurada para generar una senal procesada dependiendo de la primera o la segunda porcion de senal de audio, dependiendo de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y dependiendo de una ganancia de prediccion de largo plazo, y en el que la unidad de prediccion de largo plazo esta configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha tercera trama de la 30 pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0212] En una realizacion, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la que la ganancia de
35 prediccion de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0213] En una realizacion, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para actualizar la entrada del bufer de retardo mediante el almacenamiento de la senal procesada generada en el bufer de retardo, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera
40 trama es recibida por la interfaz receptora pero esta alterada.
[0214] Ademas, se proporciona un metodo para la decodificacion de una senal de audio. El metodo comprende:
45 - Recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y la reception de una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
- Determinar informacion de nivel de ruido dependiendo de al menos una de la primera porcion de senal de audio y la segunda porcion de senal de audio, en el que la informacion de nivel de ruido es representada en un dominio de rastreo.
50 - Reconstruir, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida o si dicha tercera trama es recibida pero esta alterada, donde el primer dominio de reconstruccion es diferente o igual del dominio de rastreo.
- Transformar la informacion de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si 55 una cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es recibida pero esta alterada, en
el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion. Y:
- Reconstruir, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si
60 dicha cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es recibida pero esta alterada.
28
[0215] Ademas, se proporciona un programa informatico para la implementacion del metodo anteriormente descrito cuando se ejecuta en un ordenador o procesador de senales.
5 [0216] Ademas, se proporciona un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para la recepcion de una o mas tramas que comprenden information sobre una pluralidad de muestras de senal de audio de un espectro de senales de audio de la senal de audio codificada, y un procesador para la generation de la senal de audio reconstruida. El procesador esta configurado para generar la senal de audio reconstruida mediante el 10 desvanecimiento de un espectro modificado a un espectro objetivo, si una trama actual no es recibida por la interfaz receptora o si la trama actual es recibida por la interfaz receptora pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senales de audio. Ademas, el 15 procesador esta configurado para no realizar el desvanecimiento del espectro modificado al espectro objetivo, si la trama actual de una o mas tramas es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada
20
25
[0217] Segun una realization, el espectro objetivo puede ser, por ejemplo, un espectro de tipo ruido.
[0218] En una realizacion, el espectro de tipo ruido puede representar, por ejemplo, ruido blanco.
[0219] Segun una realizacion, el espectro de tipo ruido puede ser, por ejemplo, con forma.
[0220] En una realizacion, la forma del espectro de tipo ruido puede depender, por ejemplo, de un espectro de senales de audio de una senal previamente recibida.
[0221] Segun una realizacion, el espectro de tipo ruido puede ser, por ejemplo, con forma dependiendo de la forma del espectro de senales de audio.
30
[0222] En una realizacion, el procesador puede emplear, por ejemplo, un factor de inclination para dar forma al espectro de tipo ruido.
[0223]
35
Segun una realizacion, el procesador puede emplear, por ejemplo, la formula shaped_noise[i] = ruido x potencia (tilt_factor,i/N)
en la que N indica el numero de muestras, en la que i es un fndice, en la que 0<= i < N, con tilt_factor > 0, y en la que potencia es una funcion de potencia.
40
potencia (x, y) indica xy i
potencia (tilt_factor,i/N) indica
tilt factor1
45 [0224] Si el tilt_factor es menor de 1, esto significa la atenuacion con i creciente. Si el tilt_factor es mayor que
1, esto significa la amplification con i creciente.
[0225] Segun otra realizacion, el procesador puede emplear, por ejemplo, la formula
50 shaped_noise[i] = ruido x (1 + i/(N-1) * (tilt_factor - 1))
en la que N indica el numero de muestras, en la que i es un fndice, en la que 0<= i < N, con tilt_factor > 0.
[0226] Si el factor de inclinacion es menor de 1, esto significa la atenuacion con i creciente. Si el tilt_factor es 55 mayor que 1, esto significa la amplificacion con i creciente.
[0227] Segun una realizacion, el procesador puede estar configurado, por ejemplo, para generar el espectro modificado, mediante el cambio de un signo de una o mas de las muestras de senal de audio del espectro de
senales de audio, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
[0228] En una realizacion, cada una de las muestras de senal de audio del espectro de senales de audio 5 puede estar representada, por ejemplo, por un numero real, pero no por un numero imaginario.
[0229] Segun una realizacion, las muestras de senal de audio del espectro de senales de audio pueden estar representadas, por ejemplo, en un dominio de transformada de coseno discreta modificada.
10 [0230] En otra realizacion, las muestras de senal de audio del espectro de senales de audio pueden estar
representadas, por ejemplo, en un dominio de transformada de seno discreta modificada.
[0231] Segun una realizacion, el procesador puede estar configurado, por ejemplo, para generar el espectro modificado mediante el empleo de una funcion de signos aleatorios que, en forma aleatoria, o pseudoaleatoria, da
15 salida o bien a un primer o un segundo valor.
[0232] En una realizacion, el procesador puede estar configurado, por ejemplo, para desvanecer el espectro modificado al espectro objetivo mediante la disminucion posterior de un factor de atenuacion.
20 [0233] Segun una realizacion, el procesador puede estar configurado, por ejemplo, para desvanecer el
espectro modificado al espectro objetivo mediante el aumento posterior de un factor de atenuacion.
[0234] En una realizacion, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, el procesador puede estar configurado, por ejemplo, para generar la
25 senal de audio reconstruida mediante el empleo de la formula:
x [i] = (l-cum_damping) * noise[i] + cum_damping *
random_sign() * x_old[i]
en la que i es un fndice, en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping 30 es un factor de atenuacion, en la que x_old[i] indica una de las muestras de senal de audio del espectro de senales de audio de la senal de audio codificada, en la que random_sign() devuelve a 1 o -1, y en la que el ruido es un vector aleatorio que indica el espectro objetivo.
[0235] En una realizacion, dicho ruido de vector aleatorio, por ejemplo, puede ser escalado de manera que su 35 media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta
comprendida por una de las tramas que se recibio por ultimo lugar por la interfaz receptora.
[0236] Segun una general realizacion, el procesador puede, por ejemplo, estar configurado para generar la senal de audio reconstruida, empleando un vector aleatorio que es escalado de modo que su media cuadratica sea
40 similar a la media cuadratica del espectro de la senal de audio codificada que esta comprendida por una de las tramas que han sido recibidas por ultimo lugar por la interfaz receptora.
[0237] Ademas, se proporciona un metodo para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El metodo comprende:
45
- Recibir una o mas tramas que comprenden informacion sobre una pluralidad de muestras de senales de audio de un espectro de senal de audio de la senal de audio codificada. Y:
- Generar la senal de audio reconstruida.
50 [0238] La generacion de la senal de audio reconstruida se realiza mediante el desvanecimiento de un
espectro modificado a un espectro objetivo, si una trama actual no es recibida o si la trama actual es recibida pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senales de audio del espectro 55 de senales de audio. El espectro modificado no se desvanece a un espectro de ruido blanco, si la trama actual de la una o mas tramas es recibida y si la trama actual que es recibida no esta alterada.
[0239] Ademas, se proporciona un programa informatico para la implementacion del metodo anteriormente
descrito cuando se ejecuta en un ordenador o procesador de senales.
[0240] Las realizaciones realizan un espectro de MDCT de desvanecimiento a ruido blanco antes de la aplicacion de FDNS (FDNS = sustitucion de ruido de dominio de frecuencia).
5
[0241] Segun el estado de la tecnica, en codecs basados en ACELP, el innovador libro de codigo se sustituye por un vector aleatorio (por ejemplo, con ruido). En realizaciones, el enfoque de ACELP, que consiste en sustituir el innovador libro de codigo con un vector aleatorio (por ejemplo, con ruido) es adoptado para la estructura de decodificador de TCX. Aqul, el equivalente del innovador libro de codigo es el espectro de MDCT normalmente
10 recibido dentro de la corriente de bits y alimentado en el FDNS.
[0242] El enfoque de ocultamiento de MDCT clasico serla repetir simplemente este espectro como tal o aplicarlo a un cierto proceso de aleatorizacion, que prolonga basicamente la forma espectral de la ultima trama recibida [LS01]. Esto tiene el inconveniente que la forma espectral de corto plazo se prolonga, conduciendo
15 frecuentemente a un sonido metalico repetitivo que no es de tipo ruido de fondo, y as! no puede usarse como ruido de confort.
[0243] Usando el metodo propuesto, la forma espectral de corto plazo se realiza por la FDNS y la LTP de TCX, la forma espectral en la ejecucion larga se realiza por la FDNS solo. La forma por la FDNS se desvanece a
20 partir de la forma espectral a corto plazo a la forma espectral de largo plazo rastreada del ruido de fondo, y la LTP de TCX se desvanece a cero.
[0244] El desvanecimiento de los coeficientes de FDNS a coeficientes de ruido de fondo rastreados conduce a que tenga una transicion suave entre la ultima buena envoltura espectral y la envoltura de fondo espectral que
25 debe ser el objetivo de la ejecucion larga, con el fin de lograr un ruido de fondo agradable en caso de largas perdidas de trama de rafaga.
[0245] Por el contrario, segun el estado de la tecnica, para codecs basados en la transformada, se realiza ocultamiento de tipo ruido por repeticion de tramas o sustitucion de ruido en el dominio de frecuencias [LS01]. En el
30 estado de la tecnica, la sustitucion de ruido se realiza normalmente por mezcla de signos de los intervalos espectrales. Si en el estado de la tecnica la mezcla de signos de TCX (dominio de frecuencia) se usa durante el ocultamiento, los ultimos coeficientes de MDCT recibidos se reutilizan y cada signo se aleatoriza antes de que el espectro sea inversamente transformado al dominio de tiempo. El inconveniente de este procedimiento del estado de la tecnica es, que para tramas consecutivamente perdidas, el mismo espectro se usa una y otra vez, solo con 35 aleatorizaciones de signo diferentes y atenuacion global. Cuando se mira a la envoltura espectral con el tiempo en una rejilla de tiempo gruesa, puede observarse que la envoltura es aproximadamente constante durante la perdida de tramas consecutiva, debido a que las energlas de banda se mantienen constantes relativamente entre si dentro de una trama y solo son globalmente atenuadas. En el sistema de codificacion usado, segun el estado de la tecnica, los valores espectrales se procesan usando FDNS, con el fin de restaurar el espectro original. Esto significa que si 40 se quiere desvanecer el espectro de MDCT a una cierta envoltura espectral (usando coeficientes de FDNS, por ejemplo, que describen el ruido de fondo actual), el resultado no solo es dependiente de los coeficientes de FDNs, sino tambien dependiente del espectro previamente decodificado que era de mezcla de signos. Las realizaciones anteriormente mencionadas superan las desventajas del estado de la tecnica.
45 [0246] Las realizaciones se basan en el hallazgo de que es necesario desvanecer el espectro usado para la
mezcla de signos a ruido blanco, antes de alimentarlo en el procesamiento de FDNS. De otro modo, el espectro de salida nunca coincidira con la envoltura objetivo usada para el procedimiento de FDNS.
[0247] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la 50 ganancia de LTP que para el desvanecimiento de ruido blanco.
[0248] Ademas, se proporciona un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para la recepcion de una pluralidad de tramas, un bufer de retardo para el almacenamiento de muestras de senal de audio de la senal de
55 audio codificada, un selector de muestras para la selection de una pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo, y un procesador de muestras para el procesamiento de las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio reconstruida de la senal de audio reconstruida. El selector de muestras esta configurado para seleccionar, si una trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta 60 alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas
31
en el bufer de retardo que depende de una information de retraso de altura comprendida por la trama actual. Ademas, el selector de muestras esta configurado para seleccionar, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo que depende de una 5 informacion de retraso de altura compuesta por otra trama recibida previamente por la interfaz receptora.
[0249] Segun una realization, el procesador de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, mediante la reescala de las muestras de senal de audio
10 seleccionadas dependiendo de la informacion de ganancia comprendida por la trama actual. Ademas, el selector de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz receptora.
15
[0250] En una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por la trama actual. Ademas, el selector de muestras
20 esta configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz receptora.
25 [0251] Segun una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio reconstruida en el bufer de retardo.
[0252] En una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo antes de que otra trama sea recibida por la
30 interfaz receptora.
[0253] Segun una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio reconstruida en el bufer de retardo despues de que otra trama sea recibida por la interfaz receptora.
35
[0254] En una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para reescalar las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio reescaladas y mediante la combination de las muestras de senal de audio reescaladas con muestras de senal de audio de entrada para obtener las muestras de senal de audio procesadas.
40
[0255] Segun una realizacion, el procesador de muestras, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio procesadas, que indican la combinacion de las muestras de senal de audio reescaladas y las muestras de senal de audio de entrada, en el bufer de retardo, y para no almacenar las muestras de senal de audio reescaladas en el bufer de retardo, si la trama actual es recibida por la interfaz receptora
45 y si la trama actual recibida por la interfaz receptora no esta alterada. Ademas, el procesador de muestras esta configurado para almacenar las muestras de senal de audio reescaladas en el bufer de retardo y para no almacenar las muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
50 [0256] Segun otra realizacion, el procesador de muestras, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
[0257] En una realizacion, el selector de muestras, por ejemplo, puede ser configurado para obtener las
55 muestras de senal de audio reconstruida mediante la reescala de las muestras de senal de audio seleccionadas
dependiendo de una ganancia modificada, en la que la ganancia modificada se define segun la formula:
ganancia = gain_past * amortiguamiento;
60 en la que ganancia es la ganancia modificada, en la que el selector de muestras, por ejemplo, puede ser configurado
32
para establecer past_gain en la ganancia despues de la ganancia, y se ha calculado, y donde el amortiguamiento es un valor real.
[0258] Segun una realizacion, el selector de muestras, por ejemplo, puede ser configurado para calcular la 5 ganancia modificada.
[0259] En una realizacion, el amortiguamiento, por ejemplo, puede ser definido segun: 0 > amortiguamiento > 1.
10 [0260] Segun una realizacion, la ganancia de ganancia modificada, por ejemplo, puede ser ajustada a cero, si
al menos un numero predefinido de tramas no ha sido recibido por la interfaz receptora, desde que una ultima trama ha sido recibida por la interfaz receptora.
[0261] Ademas, se proporciona un metodo para la decodificacion de una senal de audio codificada para 15 obtener una senal de audio reconstruida. El metodo comprende:
- Recibir una pluralidad de tramas.
- Almacenar muestras de senal de audio de la senal de audio codificada.
- Seleccionar una pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que 20 estan almacenadas en el bufer de retardo. Y:
- Procesar las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio reconstruidas de la senal de audio reconstruida.
[0262] Si una trama actual es recibida, y si la trama actual recibida no esta alterada, la etapa de la seleccion 25 de la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que estan
almacenadas en el bufer de retardo se realiza dependiendo de una informacion de retraso de altura comprendida por la trama actual. Ademas, si la trama actual no es recibida, o si la trama actual que es recibida esta alterada, la etapa de la seleccion de la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que estan almacenadas en el bufer de retardo se realiza dependiendo de una informacion de retraso de altura 30 comprendida por otra trama que ha sido recibida previamente por la interfaz receptora.
[0263] Ademas, se proporciona un programa informatico para la implementacion del metodo anteriormente descrito cuando se ejecuta en un ordenador o procesador de senales.
35 [0264] Las realizaciones emplean LTP de TCX (LTP de TCX = Prediccion de largo plazo de la Excitacion
codificada por la transformada). Durante la operacion normal, la memoria de la LTP de TCX se actualiza con la senal sintetizada, que contiene ruido y componentes tonales reconstruidos.
[0265] En lugar de deshabilitar la LTP de TCX durante el ocultamiento, su operacion normal puede ser
40 continuada durante el ocultamiento con los parametros recibidos en la ultima buena trama. Esto conserva la forma
espectral de la senal, en particular, aquellos componentes tonales que son modelados por el filtro de LTP.
[0266] Ademas, las realizaciones desacoplan el circuito de retroalimentacion de LTP de TCX. Una simple continuacion de la operacion de prediccion de LTP de TCX normal introduce ruido adicional, ya que con cada etapa
45 de actualizacion se introduce mas ruido aleatoriamente generado de la excitacion de LTP. Los componentes tonales, en consecuencia, se distorsionan cada vez mas en funcion del tiempo, por el ruido agregado.
[0267] Para superar esto, solo puede ser retroalimentado el bufer de LTP de TCX actualizado (sin la adicion de ruido), con el fin de no contaminar la informacion tonal con ruido aleatorio no deseado.
50
[0268] Adicionalmente, segun las realizaciones, la ganancia de la prediccion de LTP de TCX se desvanece a cero.
[0269] Estas realizaciones se basan en el hallazgo de que la continuacion de la LTP de TCX ayuda a 55 conservar las caracterlsticas de senal a corto plazo, pero posee desventajas a largo plazo. La senal transmitida
durante el ocultamiento incluira la informacion de voz/tonal que estaba presente antes de la perdida. Especialmente para la voz limpia o la voz sobre ruido de fondo, es extremadamente improbable que un tono o armonico decaiga en forma muy lenta durante un tiempo muy largo. Al continuar la operacion de LTP de TCX durante el ocultamiento, en particular, si la actualizacion de la memoria de LTP es desacoplada (solo se retroalimentan los componentes tonales 60 y no la parte con mezcla de signos), la informacion de voz/tonal permanecera presente en la senal ocultada para la
33
perdida entera, siendo atenuada solo por el desvanecimiento general al nivel de ruido de confort. Ademas, es imposible alcanzar la envoltura de ruido de confort durante las perdidas de paquetes de rafagas, si la LTP de TCX se aplica durante la perdida de rafaga sin ser atenuada en funcion del tiempo, ya que la senal entonces siempre incorporara la informacion de voz de la LTP.
5
[0270] Por lo tanto, la ganancia de la LTP de TCX se desvanece hacia cero, de modo que los componentes tonales representados por la LTP se desvaneceran a cero, al mismo tiempo que la senal se desvanece al nivel y forma de senal de fondo, y de manera que el desvanecimiento alcance la envoltura de fondo espectral deseada (ruido de confort) sin incorporar componentes tonales no deseados.
10
[0271] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la ganancia de LTP que para el desvanecimiento de ruido blanco.
[0272] Por el contrario, en el estado de la tecnica, no hay codec de transformacion conocido que use la LTP 15 durante el ocultamiento. Para la MPEG-4 LTP [IS009], no existen enfoques de ocultamiento en el estado de la
tecnica. Otro codec basado en la MDCT del estado de la tecnica, que hace uso de una LTP, es CELT, si bien este codec usa un ocultamiento de tipo ACELP para las primeras cinco tramas, y para todas las posteriores tramas, se genera ruido de fondo, que no hace uso de la LTP. Una desventaja del estado de la tecnica del no uso de la LTP de TCX es que todos los componentes tonales que estan modelados con la LTP desaparecen abruptamente. Ademas, 20 en los codecs basados en ACELP del estado de la tecnica, la operation de LTP es prolongada durante el
ocultamiento, y la ganancia del libro de codigo adaptativo es desvanecida a cero. Con respecto a la operacion de circuito de retroalimentacion, el estado de la tecnica emplea dos enfoques, o bien la excitation entera, por ejemplo, la suma de la excitacion innovadora y la adaptativa, es retroalimentada (AMR-WB); o solo es retroalimentada la excitacion adaptativa actualizada, por ejemplo, las partes de senal tonal (G.718). Las realizaciones mencionadas 25 anteriormente superan las desventajas del estado de la tecnica.
[0273] A continuation, se describen las realizaciones de la presente invention en mas detalle con referencia a las figuras, en las que:
30 La Fig. 1a ilustra un aparato para la decodificacion de una senal de audio segun una realization,
La Fig. 1b ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion,
La Fig. 1c ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion, en la que el aparato
adicionalmente comprende una primera y una segunda unidades de agregacion,
La Fig. 1d ilustra un aparato para la decodificacion de una senal de audio segun una realizacion adicional, en la que 35 el aparato ademas comprende una unidad de prediction de largo plazo que comprende un bufer de retardo,
La Fig. 2 ilustra la estructura del decodificador de G.718,
La Fig. 3 representa un escenario, en la que el factor de desvanecimiento de G.722 depende de la informacion de clase,
La Fig. 4 muestra un enfoque para la prediccion de amplitud usando la regresion lineal,
40 La Fig. 5 ilustra el comportamiento de perdida de rafaga de transformada superpuesta de energla restringida (CELT),
La Fig. 6 muestra un rastreo del nivel de ruido de fondo segun una realizacion en el decodificador durante un modo de operacion libre de error,
La Fig. 7 ilustra la derivation de ganancia de la slntesis de LPC y el desenfasis segun una realizacion,
45 La Fig. 8 representa la aplicacion de nivel de ruido de confort durante la perdida de paquete segun una realizacion,
La Fig. 9 ilustra la compensation de ganancia paso alto avanzada durante el ACELP segun una realizacion,
La Fig. 10 representa el desacoplamiento del circuito de retroalimentacion de la LTP durante el ocultamiento segun una realizacion,
La Fig. 11 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de 50 audio reconstruida segun una realizacion,
La Fig. 12 muestra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun otra realizacion, y
La Fig. 13 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun una realizacion adicional, y
55 La Fig. 14 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun otra realizacion.
[0274] La Fig. 1 a ilustra un aparato para la decodificacion de una senal de audio segun una realizacion.
60 [0275] El aparato comprende una interfaz receptora 110. La interfaz receptora esta configurada para recibir
una pluralidad de tramas, en el que la interfaz receptora 110 esta configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio. Ademas, la interfaz receptora 110 esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha 5 segunda trama una segunda porcion de senal de audio de la senal de audio.
[0276] Ademas, el aparato comprende una unidad de transformada 120 para la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio de un segundo dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo
10 dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
[0277] Adicionalmente, el aparato comprende una unidad de rastreo de nivel de ruido 130, en el que la unidad de rastreo de nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que es
15 representada en el dominio de rastreo, en el que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en el que la unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de 20 senal que es representada en el dominio de rastreo.
[0278] Ademas, el aparato comprende una unidad de reconstruccion para la reconstruccion de una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora pero esta alterada.
25
[0279] Con respecto a la primera y/o la segunda porcion de senal de audio, por ejemplo, la primera y/o la segunda porcion de senal de audio, por ejemplo, pueden alimentarse en una o mas unidades de procesamiento (no expuestas) para la generacion de una o mas senales de altavoz para uno o mas altavoces, de manera que la informacion de sonido recibida comprendida por la primera y/o la segunda porcion de senal de audio pueda ser
30 reproducida nuevamente.
[0280] Ademas, sin embargo, la primera y la segunda porciones de senal de audio se usan tambien para el ocultamiento, por ejemplo, en el caso de que las posteriores tramas no lleguen al receptor, o en el caso de que las posteriores tramas sean erroneas.
35
[0281] Entre otras cosas, la presente invencion se basa en el hallazgo de que el rastreo de nivel de ruido debe realizarse en un dominio comun, referido en el presente documento como "dominio de rastreo". El dominio de rastreo, por ejemplo, puede ser un dominio de excitacion, por ejemplo, el dominio en el que la senal es representada por LPC (LPC = coeficiente predictivo lineal) o por ISP (par espectral de impedancia y admitancia) como se describe
40 en AMR-WB y en AMR-WB+ (vease [3GP12a], [3GP12b], [3GP09a], [3GP09b], [3GP09c]). El rastreo del nivel de ruido en un unico dominio tiene, entre otras cosas, la ventaja de que se evitan los efectos de la superposicion periodica sucesiva cuando la senal cambia entre una primera representacion en un primer dominio y una segunda representacion en un segundo dominio (por ejemplo, cuando la representacion de senal cambia de ACELP a TCX o viceversa).
45
[0282] Con respecto a la unidad de transformada 120, lo que se transforma es o bien la segunda porcion de senal de audio en si misma, o una senal derivada de la segunda porcion de senal de audio (por ejemplo, la segunda porcion de senal de audio ha sido procesada para obtener la senal derivada), o un valor derivado de la segunda porcion de senal de audio (por ejemplo, la segunda porcion de senal de audio ha sido procesada para obtener el
50 valor derivado).
[0283] Con respecto a la primera porcion de senal de audio, en algunas realizaciones, la primera porcion de senal de audio puede ser procesada y/o transformada al dominio de rastreo.
55 [0284] En otras realizaciones, sin embargo, la primera porcion de senal de audio puede estar ya
representada en el dominio de rastreo.
[0285] En algunas realizaciones, la informacion de primera porcion de senal es identica a la primera porcion
de senal de audio. En otras realizaciones, la informacion de primera porcion de senal es, por ejemplo, un valor 60 agregado que depende de la primera porcion de senal de audio.
35
[0286] Ahora, en primer lugar, se considera en mas detalle el desvanecimiento a un nivel de ruido de confort.
[0287] El enfoque de desvanecimiento descrito, por ejemplo, puede ser implementado en una version de bajo 5 retardo de xHE-AAC [NMR+12] (xHE-AAC = AAC de Alta Eficiencia Extendida), que es capaz de cambiar sin
costuras entre la codificacion de ACELP (la voz) y de MDCT (musica/ruido) sobre una base por trama.
[0288] Con respecto al rastreo de nivel comun en un dominio de rastreo, por ejemplo, como dominio de excitacion, para aplicar un desvanecimiento suave a un nivel de ruido de confort apropiado durante la perdida de
10 paquetes, es necesario identificar dicho nivel de ruido de confort durante el proceso de decodificacion normal. Por ejemplo, puede asumirse que un nivel de ruido similar al ruido de fondo es mas comodo. Por lo tanto, el nivel de ruido de fondo puede ser derivado y actualizado en forma constante durante la codificacion normal.
[0289] La presente invencion se basa en el hallazgo de que cuando se tiene un codec de nucleo cambiado 15 (por ejemplo, ACELP y TCX), es en particular adecuada la consideracion de un nivel de ruido de fondo comun,
independientemente del codificador de nucleo seleccionado.
[0290] La Fig. 6 representa un rastreo del nivel de ruido de fondo segun una realizacion preferida en el decodificador durante el modo de operacion libre de error, por ejemplo, durante la decodificacion normal.
20
[0291] El rastreo en si mismo, por ejemplo, puede realizarse usando el enfoque de estadlstica minima (vease [Mar01]).
[0292] Este nivel rastreado de ruido de fondo, por ejemplo, puede considerarse como la informacion de nivel 25 de ruido mencionada anteriormente.
[0293] Por ejemplo, la estimation de ruido de estadlstica minima presentada en el documento: "Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), n.° 5, 504 -512", [Mar01] puede emplearse para el rastreo
30 del nivel de ruido de fondo.
[0294] De manera correspondiente, en algunas realizaciones, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar la informacion de nivel de ruido mediante la aplicacion de un enfoque de estadlstica minima, por ejemplo, mediante el empleo de la estimacion de ruido de estadlstica minima de [Mar01].
35
[0295] A continuation, se describen algunas consideraciones y detalles de este enfoque de rastreo.
[0296] Con respecto al rastreo de nivel, se supone que el fondo es de tipo ruido. Por lo tanto, es preferible realizar el rastreo de nivel en el dominio de excitacion para evitar el rastreo de componentes tonales delanteros que
40 son extraldos por LPC. Por ejemplo, el relleno de ruido de ACELP puede emplear ademas el nivel de ruido de fondo en el dominio de excitacion. Con el rastreo en el dominio de excitacion, solo un unico rastreo del nivel de ruido de fondo puede cumplir dos propositos, lo que ahorra complejidad computacional. En una realizacion preferida, el rastreo se realiza en el dominio de excitacion de ACELP.
45 [0297] La Fig. 7 ilustra la derivation de ganancia de la slntesis de LPC y el desenfasis segun una realizacion.
[0298] Con respecto a la derivacion de nivel, por ejemplo, la derivacion de nivel puede realizarse o bien en el dominio de tiempo o en el dominio de excitacion, o en cualquier otro dominio adecuado. Si los dominios para la derivacion de nivel y el rastreo de nivel difieren, puede ser necesaria, por ejemplo, una compensation de ganancia.
50
[0299] En la realizacion preferida, la derivacion de nivel para ACELP se realiza en el dominio de excitacion. Por lo tanto, no se requiere compensacion de ganancia.
[0300] Para TCX, puede ser necesaria, por ejemplo, una compensacion de ganancia para ajustar el nivel 55 derivado al dominio de excitacion de ACELP.
[0301] En la realizacion preferida, la derivacion de nivel para TCX tiene lugar en el dominio de tiempo. Se hallo una compensacion de ganancia manipulable para este enfoque: La ganancia introducida por la slntesis de LPC y el desenfasis se deriva como se muestra en la Fig. 7, y el nivel derivado se divide entre esta ganancia.
[0302] Como alternativa, la derivacion de nivel para TCX podrla realizarse en el dominio de excitacion de
TCX. Sin embargo, la compensacion de ganancia entre el dominio de excitacion de TCX y el dominio de excitacion de ACELP se considero demasiado complicada.
5 [0303] Por lo tanto, volviendo a la Fig. 1a, en algunas realizaciones, la primera porcion de senal de audio es
representada en un dominio de tiempo como el primer dominio. La unidad de transformada 120 esta configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio de un dominio de excitacion que es el segundo dominio, al dominio de tiempo que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la information de 10 primera porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo. Ademas, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la segunda porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo.
[0304] En otras realizaciones, la primera porcion de senal de audio esta representada en un dominio de 15 excitacion como el primer dominio. La unidad de transformada 120 esta configurada para transformar la segunda
porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que es el segundo dominio, al dominio de excitacion que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo. Ademas, la unidad de rastreo de nivel de ruido 20 130 esta configurada para recibir la segunda porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo.
[0305] En una realization, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de excitacion como el primer dominio, en la que la unidad de rastreo de nivel de ruido 130, por ejemplo,
25 puede ser configurada para recibir la informacion de primera porcion de senal, en la que dicha informacion de primera porcion de senal esta representada en el dominio FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que esta representada en el dominio de excitacion, en la que la unidad de transformada 120, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un 30 dominio de tiempo que es el segundo dominio, a un dominio FFT que es el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido 130, por ejemplo, puede ser configurada para recibir la segunda porcion de senal de audio que es representada en el dominio FFT.
[0306] La Fig. 1b ilustra un aparato segun otra realizacion. En la Fig. 1b, la unidad de transformada 120 de la 35 Fig. 1a es una primera unidad de transformada 120, y la unidad de reconstruction 140 de la Fig. 1a es una primera
unidad de reconstruccion 140. El aparato adicionalmente comprende una segunda unidad de transformada 121 y una segunda unidad de reconstruccion 141.
[0307] La segunda unidad de transformada 121 esta configurada para transformar la informacion de nivel de 40 ruido del dominio de rastreo al segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la
interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0308] Ademas, la segunda unidad de reconstruccion 141 esta configurada para reconstruir una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada
45 en el segundo dominio si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0309] La Fig. 1c ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion. El aparato adicionalmente comprende una primera unidad de agregacion 150 para determinar un primer valor agregado
50 que depende la primera porcion de senal de audio. Ademas, el aparato de la Fig. 1c adicionalmente comprende una segunda unidad de agregacion 160 para determinar un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio que depende de la segunda porcion de senal de audio. En la realizacion de la Fig. 1c, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de 55 rastreo de nivel de ruido 130 esta configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo. La unidad de rastreo de nivel de ruido 130 esta configurada para determinar la informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
[0310] En una realizacion, la primera unidad de agregacion 150 esta configurada para determinar el primer valor agregado, de manera que el primer valor agregado indique una media cuadratica de la primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Ademas, la segunda unidad de agregacion 160 esta configurada para determinar el segundo valor agregado, de manera que el segundo valor
5 agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
[0311] La Fig. 6 ilustra un aparato para la decodificacion de una senal de audio segun una realizacion adicional.
10
[0312] En la Fig. 6, la unidad de rastreo de nivel de fondo 630 implementa una unidad de rastreo de nivel de ruido 130 segun la Fig. 1 a.
[0313] Ademas, en la Fig. 6, la unidad de RMS 650 (RMS = media cuadratica) es una primera unidad de 15 agregacion, y la unidad de RMS 660 es una segunda unidad de agregacion.
[0314] Segun algunas realizaciones, la (primera) unidad de transformada 120 de la Fig. 1a, Fig. 1b y Fig. 1c esta configurada para transformar el valor derivado de la segunda porcion de senal de audio, del segundo dominio al dominio de rastreo, mediante la aplicacion de un valor de ganancia (x) sobre el valor derivado de la segunda porcion
20 de senal de audio, por ejemplo, mediante la division del valor derivado de la segunda porcion de senal de audio entre un valor de ganancia (x). En otras realizaciones, un valor de ganancia, por ejemplo, puede ser multiplicado.
[0315] En algunas realizaciones, el valor de ganancia (x), por ejemplo, puede indicar una ganancia introducida por la slntesis de codificacion predictiva lineal, o el valor de ganancia (x), por ejemplo, puede indicar una
25 ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis.
[0316] En la Fig. 6, la unidad 622 proporciona el valor (x) que indica la ganancia introducida por la slntesis de
codificacion predictiva lineal y el desenfasis. La unidad 622 entonces divide el valor proporcionado por la segunda unidad de agregacion 660, que es un valor derivado de la segunda porcion de senal de audio, entre el valor de
30 ganancia proporcionado (x) (por ejemplo, ya sea mediante la division entre x, ya sea mediante la multiplicacion del
valor 1/x). Por lo tanto, la unidad 620 de la Fig. 6 que comprende las unidades 621 y 622 implementa la primera
unidad de transformada de la Fig. 1a, Fig. 1b o Fig. 1c.
[0317] El aparato de la Fig. 6 recibe una primera trama con una primera porcion de senal de audio que es 35 una excitacion con voz y/o una excitacion sin voz y que es representada en el dominio de rastreo, en la Fig. 6, un
dominio de LPC (ACELP). La primera porcion de senal de audio es alimentada en una unidad de slntesis de LPC y desenfasis 671 para el procesamiento para obtener una salida de primera porcion de senal de audio en el dominio de tiempo. Ademas, la primera porcion de senal de audio es alimentada en el modulo de RMS 650 para obtener un primer valor que indica una media cuadratica de la primera porcion de senal de audio. Este primer valor (primer valor 40 de RMS) esta representado en el dominio de rastreo. El primer valor de RMS, que es representado en el dominio de rastreo, es entonces alimentado en la unidad de rastreo de nivel de ruido 630.
[0318] Ademas, el aparato de la Fig. 6 recibe una segunda trama con una segunda porcion de senal de audio que comprende un espectro de MDCT y que es representada en un dominio de MDCT. El relleno de ruido se realiza
45 por medio de un modulo de relleno de ruido 681, la formacion de ruido en el dominio de frecuencia se realiza por medio de un modulo de formacion de ruido en el dominio de frecuencia 682; la transformacion al dominio de tiempo se realiza por un modulo de iMDCT/OLA 683 (OLA = superposicion y adicion), y la prediccion de largo plazo se realiza por medio de una unidad de prediccion de largo plazo 684. La unidad de prediccion de largo plazo, por ejemplo, puede comprender un bufer de retardo (no mostrado en la Fig. 6).
50
[0319] La senal derivada de la segunda porcion de senal de audio es luego alimentada en el modulo de RMS 660 para obtener un segundo valor que indica una media cuadratica de dicha senal derivada de la segunda porcion de senal de audio. Este segundo valor (segundo valor de RMS) es aun representado en el dominio de tiempo. La unidad 620 entonces transforma el segundo valor de media cuadratica (RMS) del dominio de tiempo al dominio de
55 rastreo, aqul, el dominio de LPC (ACELP). El segundo valor de RMS, que es representado en el dominio de rastreo, es entonces alimentado en la unidad de rastreo de nivel de ruido 630.
[0320] En realizaciones, el rastreo de nivel se realiza en el dominio de excitacion, si bien el desvanecimiento de TCX se realiza en el dominio de tiempo.
[0321] Mientras que durante la decodificacion normal se rastrea el nivel de ruido de fondo, puede usarse, por
ejemplo, durante la perdida de paquetes, como un indicador de un nivel apropiado de ruido de confort, al que la ultima senal recibida es suavemente desvanecida a modo de nivel.
5 [0322] La derivacion del nivel para el rastreo y la aplicacion del desvanecimiento de nivel, en general, son
independientes entre si, y podrlan realizarse en diferentes dominios. En la realizacion preferida, la aplicacion de nivel se realiza en los mismos dominios que la derivacion de nivel, conduciendo a los mismos beneficios que para ACELP, sin compensation de ganancia necesaria, y que para TCX, es necesaria la compensation de ganancia inversa como para la derivacion de nivel (vease la Fig. 6), y en consecuencia, puede usarse la misma derivacion de ganancia, 10 como se ilustra por la Fig. 7.
[0323] A continuation, se describe la compensacion de una influencia del filtro paso alto sobre la ganancia de
slntesis de LPC segun realizaciones.
15 [0324] La Fig. 8 explica resumidamente este enfoque. En particular, la Fig. 8 ilustra la aplicacion de nivel de
ruido de confort durante la perdida de paquetes.
[0325] En la Fig. 8, la unidad de filtro de ganancia paso alto 643, la unidad de multiplication 644, la unidad de desvanecimiento 645, la unidad de filtro paso alto 646, la unidad de desvanecimiento 647 y la unidad de
20 combination 648 forman en conjunto una primera unidad de reconstruction.
[0326] Ademas, en la Fig. 8, la unidad de provision de nivel de fondo 631 proporciona la information de nivel de ruido. Por ejemplo, la unidad de provision de nivel de fondo 631 puede ser implementada de igual manera que la unidad de rastreo de nivel de fondo 630 de la Fig. 6.
25
[0327] Adicionalmente, en la Fig. 8, la unidad de ganancia de slntesis de LPC y desenfasis 649, y la unidad de multiplicacion 641 forman juntas una segunda unidad de transformada 640.
[0328] Ademas, en la Fig. 8, la unidad de desvanecimiento 642 representa una segunda unidad de 30 reconstruccion.
[0329] En la realizacion de la Fig. 8, la excitation con voz y la excitation sin voz son desvanecidas en forma separada: La excitacion con voz es desvanecida a cero, si bien la excitacion sin voz es desvanecida hacia el nivel de ruido de confort. La Fig. 8 adicionalmente representa un filtro paso alto, que es introducido en la cadena de senal de
35 la excitacion sin voz con el fin de suprimir los componentes de baja frecuencia para todos los casos, excepto cuando la senal fue clasificada como sin voz.
[0330] Para modelar la influencia del filtro paso alto, el nivel despues de la slntesis de LPC y el desenfasis se calcula una vez con y una vez sin el filtro paso alto. A continuacion, la relation de dichos dos niveles es derivada y
40 usada para alterar el nivel de fondo aplicado.
[0331] Esto se ilustra por la Fig. 9. En particular, la Fig. 9 representa la compensacion de ganancia paso alto avanzada durante el ocultamiento de ACELP segun una realizacion.
45 [0332] En lugar de la senal de excitacion actual, se usa solo un simple impulso como entrada para este
computo. Esto permite una reducida complejidad, ya que la respuesta de impulso decae rapidamente, y de ese modo, puede realizarse la derivacion de RMS en una trama de tiempo mas corto. En la practica, solo se usa una subtrama en lugar de la trama entera.
50 [0333] Segun una realizacion, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar un
nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion 140 esta configurada para la reconstruccion de la tercera portion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
55
[0334] Segun una realizacion, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar un
nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion 140 esta configurada para la reconstruccion de la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es 60 recibida por la interfaz receptora 110 pero esta alterada.
[0335] En una realizacion, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido derivada de un espectro de nivel de ruido, en la que dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de
5 reconstruction 140 esta configurada para la reconstruction de la tercera portion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0336] En una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141, por ejemplo, puede 10 ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido
y dependiendo de la primera porcion de senal de audio, si dicha tercera (cuarta) trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera (cuarta) trama es recibida por la interfaz receptora 110 pero esta alterada.
15 [0337] Segun una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141, por ejemplo,
puede ser configurada para reconstruir la tercera (o cuarta) porcion de senal de audio mediante la atenuacion o amplification de la primera porcion de senal de audio.
[0338] La Fig. 14 ilustra un aparato para la decodificacion de una senal de audio. El aparato comprende una
20 interfaz receptora 110, en la que la interfaz receptora 110 esta configurada para recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y en la que la interfaz receptora 110 esta configurada para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
25 [0339] Ademas, el aparato comprende una unidad de rastreo de nivel de ruido 130, en el que la unidad de
rastreo de nivel de ruido 130 esta configurada para determinar la informacion de nivel de ruido que depende al menos de una de la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa: que depende de la primera porcion de senal de audio y/o la segunda porcion de senal de audio), en la que la informacion de nivel de ruido se representa en un dominio de rastreo.
30
[0340] Adicionalmente, el aparato comprende una primera unidad de reconstruccion 140 para la reconstruccion de, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada, en
35 el que el primer dominio de reconstruccion es diferente o igual del dominio de rastreo.
[0341] Ademas, el aparato comprende una unidad de transformada 121 para la transformation de la informacion de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la
40 interfaz receptora 110 pero esta alterada, en el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion; y
[0342] Adicionalmente, el aparato comprende una segunda unidad de reconstruccion 141 para la reconstruccion de, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de
45 audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la interfaz receptora 110 pero esta alterada.
[0343] Segun algunas realizaciones, el dominio de rastreo, por ejemplo, puede ser en el que el dominio de 50 rastreo es un dominio de tiempo, un dominio espectral, un dominio FFT, un dominio de MDCT, o un dominio de
excitation. El primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion. El segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion.
55
[0344] En una realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio FFT, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
60 [0345] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer
40
dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
[0346] Segun una realizacion, dicha primera porcion de senal de audio, por ejemplo, puede ser representada 5 en un primer dominio de entrada, y dicha segunda porcion de senal de audio, por ejemplo, puede ser representada
en un segundo dominio de entrada. La unidad de transformada, por ejemplo, puede ser una segunda unidad de transformada. El aparato, por ejemplo, puede comprender adicionalmente una primera unidad de transformada para la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio, del segundo dominio de entrada al dominio de rastreo, para obtener una informacion de segunda 10 porcion de senal. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir una informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido 15 dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
[0347] Segun una realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de excitacion, y el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCT.
20
[0348] En otra realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de MDCT, y donde el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCT.
[0349] Si, por ejemplo, una senal esta representada en un dominio de tiempo, por ejemplo, puede ser 25 representada por muestras de dominio de tiempo de la senal. O, por ejemplo, si una senal esta representada en un
dominio espectral, por ejemplo, puede ser representada por muestras espectrales de un espectro de la senal.
[0350] En una realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio FFT, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo,
30 puede ser el dominio de excitacion.
[0351] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
35
[0352] En algunas realizaciones, las unidades ilustradas en la Fig. 14, por ejemplo, pueden estar configuradas como se describe para las Figs. 1a, 1b, 1c y 1d.
[0353] Con respecto a realizaciones particulares, en, por ejemplo, un modo de tasa baja, un aparato segun 40 una realizacion, por ejemplo, puede recibir tramas de ACELP como una entrada, que son representadas en un
dominio de excitacion, y que son luego transformadas en un dominio de tiempo por medio de la slntesis de LPC. Ademas, en el modo de tasa baja, el aparato segun una realizacion, por ejemplo, puede recibir tramas de TCX como una entrada, que son representadas en un dominio de MDCT, y que son luego transformadas en un dominio de tiempo por medio de una MDCT inversa.
45
[0354] Luego se realiza el rastreo en un dominio de FFT, en el que la senal de FFT es derivada de la senal de dominio de tiempo mediante la conduccion de una FFT (transformada de Fourier rapida). El rastreo, por ejemplo, puede ser realizado por la conduccion de un enfoque de estadlstica minima, separado para todas las llneas espectrales para obtener un espectro de ruido de confort.
50
[0355] A continuacion se realiza el ocultamiento mediante la conduccion de la derivacion de nivel basada en el espectro de ruido de confort. La derivacion de nivel se realiza basandose en el espectro de ruido de confort. La conversion de nivel en el dominio de tiempo se realiza para el PLC de TCX de FD. Se realiza un desvanecimiento en el dominio de tiempo. Se realiza una derivacion de nivel en el dominio de excitacion para el PLC de ACELP y para el
55 PLC de TCX de tD (de tipo ACELP). Despues, se realiza un desvanecimiento en el dominio de excitacion.
[0356] El siguiente listado resume esto: tasa baja:
low rate: 60 • input:
+ acelp (excitation domain -> time domain, via Ipc synthesis)
+ tcx (mdct domain -> time domain, via inverse MDCT)
• tracing:
5 + fft-domain, derived from time domain via FFT
+ minimum statistics, separate for all spectral lines -> comfort noise spectrum
• concealment:
+ level derivation based on the comfort noise 10 spectrum
+ level conversion into time domain for
■ FD TCX PLC
-> fading in the time domain + level conversion into excitation domain for 15 ■ ACELP PLC
■ TD TCX PLC (ACELP like)
-> fading in the excitation domain
[0357] En, por ejemplo, un modo de tasa alta, pueden recibirse tramas de TCX como una entrada, que son 20 representadas en el dominio de MDCT, y que son luego transformadas al dominio de tiempo mediante una MDCT
inversa.
[0358] El rastreo entonces puede realizarse en el dominio de tiempo. Por ejemplo, el rastreo puede realizarse mediante la conduccion de un enfoque de estadlstica minima basado en el nivel de energla para obtener un nivel de
25 ruido de confort.
[0359] Para el ocultamiento, para el PLC de TCX de FD, el nivel puede usarse como tal, y puede realizarse solamente un desvanecimiento en el dominio de tiempo. Para el PLC de TCX de TD, (de tipo ACELP), se realiza la conversion de nivel en el dominio de excitacion y el desvanecimiento en el dominio de excitacion.
30
[0360] El siguiente listado resume esto:
tasa alta:
• entrada:
35 o tcx (dominio de MDCT -> dominio de tiempo, mediante MDCT inversa)
• rastreo:
o dominio de tiempo
o estadlstica minima sobre el nivel de energla -> nivel de ruido de confort
• ocultamiento:
40 o uso de nivel "como tal"
■ PLC de TCX de FD
-> desvanecimiento en el dominio de tiempo o conversion de nivel en el dominio de excitacion para
■ PLC de TCX de TD (de tipo ACELP)
45 -> desvanecimiento en el dominio de excitacion
[0361] El dominio FFT y el dominio de la MDCT son ambos dominios espectrales, mientras que el dominio de excitacion es cierta clase de dominio de tiempo.
50 [0362] Segun una realizacion, la primera unidad de reconstruccion 140, por ejemplo, puede ser configurada
para reconstruir la tercera porcion de senal de audio mediante la conduccion de un primer desvanecimiento a un espectro de tipo ruido. La segunda unidad de reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio mediante la conduccion de un segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP. Ademas, la primera unidad de 55 reconstruccion 140 y la segunda unidad de reconstruccion 141, por ejemplo, pueden ser configuradas para conducir el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP con la misma velocidad de desvanecimiento.
[0363] Ahora, se considera la forma espectral adaptativa de ruido de confort.
[0364] A fin de lograr la formacion adaptativa al ruido de confort durante la perdida de paquetes de rafaga, como una primera etapa, puede realizarse el hallazgo de coeficientes apropiados de LPC que representan el ruido de fondo. Estos coeficientes de LPC pueden derivarse durante la voz activa usando un enfoque de estadlstica minima para hallar el espectro de ruido de fondo, y luego, el calculo de los coeficientes de LPC a partir de este,
5 usando un algoritmo arbitrario para la derivacion de LPC conocido de la bibliografla. Algunas realizaciones, por ejemplo, pueden convertir directamente el espectro de ruido de fondo en una representation que puede usarse directamente para FDNS en el dominio de la MDCT.
[0365] El desvanecimiento a ruido de confort puede realizarse en el dominio de ISF (tambien aplicable en el 10 dominio de LSF; LSF: Frecuencia Espectral Lineal):
factual[i] — a ' fultimo[i] + (1 - a) ' ptmedia[i] i — 0... 16 (26)
ajustando ptmedia en coeficientes de LP apropiados que describen el ruido de confort.
15
[0366] Con respecto a la forma espectral adaptativa anteriormente descrita del ruido de confort, se ilustra una realizacion mas general por la Fig. 11.
[0367] La Fig. 11 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una 20 senal de audio reconstruida segun una realization.
[0368] El aparato comprende una interfaz receptora 1110 para la reception de una o mas tramas, un generador de coeficientes 1120 y un reconstructor de senal 1130.
25 [0369] El generador de coeficientes 1120 esta configurado para determinar, si una trama actual de una o mas
tramas es recibida por la interfaz receptora 1110, y si la trama actual recibida por la interfaz receptora 1110 no pero esta alterada/erronea, uno o mas primeros coeficientes de senal de audio, que estan comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio codificada. 30 Ademas, el generador de coeficientes 1120 esta configurado para generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros coeficientes de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual recibida por la interfaz receptora 1110 pero esta alterada/erronea.
35 [0370] El reconstructor de senal de audio 1130 esta configurado para la reconstruction de una primera
porcion de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora 1110 y si la trama actual recibida por la interfaz receptora 1110 no esta alterada. Ademas, el reconstructor de senal de audio 1130 esta configurado para la reconstruccion de una segunda portion de la senal de audio reconstruida que depende de uno o mas segundos coeficientes de senal de 40 audio, si la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual recibida por la interfaz receptora 1110 esta alterada.
[0371] La determination de un ruido de fondo es muy conocida en la tecnica (ver, por ejemplo, [Mar01]: Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE
45 Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512), y en una realizacion, el aparato procede consecuentemente.
[0372] En algunas realizaciones, el uno o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunas realizaciones, el uno
50 o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
[0373] Se conoce bien en la tecnica la manera de reconstruir una senal de audio, por ejemplo, una senal de la voz, a partir de coeficientes de filtro predictivo lineal o de pares espectrales de impedancia y admitancia (vease,
55 por ejemplo, [3GP09c]: Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009), y en una realizacion, el reconstructor de senal procede consecuentemente.
[0374] Segun una realizacion, el uno o mas coeficientes de ruido, por ejemplo, pueden ser uno o mas 60 coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En una
43
realizacion, el uno o mas coeficientes de filtro predictivo lineal, por ejemplo, pueden representar una forma espectral del ruido de fondo.
[0375] En una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para
5 determinar una o mas segundas porciones de senal de audio de manera que una o mas segundas porciones de senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de manera que uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de impedancia y admitancia de la senal de audio reconstruida.
10 [0376] Segun una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para
generar el uno o mas segundos coeficientes de senal de audio mediante la aplicacion de la formula:
factual[i] _ a ' fultimo[i] + (1 - a) ' ptmedia[i]
15 en la que factua[i] indica uno de los uno o mas segundos coeficientes de senal de audio, en la que fuitimo[i] indica uno de los uno o mas primeros coeficientes de senal de audio, en la que ptmedia[i] es uno de uno o mas coeficientes de ruido, en la que a es un numero real con 0 > a > 1, y en la que i es un Indice.
[0377] Segun una realizacion, fuitimo[i] indica un coeficiente de filtro predictivo lineal de la senal de audio 20 codificada, y en la que factua[i] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0378] En una realizacion, ptmedia[i] por ejemplo, puede ser un coeficiente de filtro predictivo lineal que indica el ruido de fondo de la senal de audio codificada.
25 [0379] Segun una realizacion, el generador de coeficientes 1120, por ejemplo, puede ser configurado para
generar coeficientes de senal de audio de al menos 10 segundos como el uno o mas segundos coeficientes de senal de audio.
[0380] En una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para 30 determinar, si la trama actual de una o mas tramas es recibida por la interfaz receptora 1110 y si la trama actual
recibida por la interfaz receptora 1110 no esta alterada, el uno o mas coeficientes de ruido mediante la determinacion de un espectro de ruido de la senal de audio codificada.
[0381] A continuacion, se considera el desvanecimiento del espectro de MDCT a ruido blanco antes de la 35 aplicacion de FDNS.
[0382] En lugar de modificar aleatoriamente el signo de un intervalo de MDCT (mezcla de signos), se llena el espectro completo con ruido blanco, que se le da forma usando FDNS. Para evitar un cambio instantaneo en las caracterlsticas del espectro, se aplica una mezcla gradual entre la mezcla de signos y el relleno de ruido. La mezcla
40 gradual puede realizarse de la siguiente manera:
for (i=0; i<L_frame; i++) { if (old_x[i] != 0)
x[i] = (1 - cum_damping)*noise[i] + cum_damping *
45 random_sign() * x_old[i];
}
}
donde:
50
cum_damping es el factor de atenuacion (absoluto) - disminuye de trama a trama, empezando de 1 y disminuyendo hacia 0
x_old es el espectro de la ultima trama recibida random_sign devuelve 1 o -1
55 ruido contiene un vector aleatorio (ruido blanco) que se somete a escala de manera tal que su media cuadratica (RMS) sea similar al ultimo espectro bueno.
[0383] El termino random_sign () *old_x[i] caracteriza el proceso de mezcla de signos con el fin de aleatorizar las fases y de ese modo evitar repeticiones de armonicos.
[0384] Posteriormente, podrla efectuarse otra normalizacion del nivel de energla despues de la mezcla
gradual, con el fin de garantizar que la energla de la operation de suma no se desvle debido a la correlation de los dos vectores.
5 [0385] Segun realizaciones, la primera unidad de reconstruction 140, por ejemplo, puede ser configurada
para reconstruir la tercera portion de senal de audio dependiendo de la information de nivel de ruido y que depende de la primera porcion de senal de audio. En una realization particular, la primera unidad de reconstruccion 140, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la atenuacion o amplification de la primera porcion de senal de audio.
10
[0386] En algunas realizaciones, la segunda unidad de reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion de nivel de ruido y que depende de la segunda porcion de senal de audio. En una realizacion particular, la segunda unidad de reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio
15 mediante la atenuacion o amplificacion de la segunda porcion de senal de audio.
[0387] Con respecto al desvanecimiento anteriormente descrito del espectro de MDCT a ruido blanco antes de la aplicacion de FDNS, una realizacion mas general es ilustrada por la Fig. 12.
20 [0388] La Fig. 12 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una
senal de audio reconstruida segun una realizacion.
[0389] El aparato comprende una interfaz receptora 1210 para la reception de una o mas tramas que comprenden informacion sobre una pluralidad de muestras de senal de audio de un espectro de senales de audio de
25 la senal de audio codificada, y un procesador 1220 para la generation de la senal de audio reconstruida.
[0390] El procesador 1220 esta configurado para generar la senal de audio reconstruida mediante el desvanecimiento de un espectro modificado a un espectro objetivo, si una trama actual no es recibida por la interfaz receptora 1210 o si la trama actual es recibida por la interfaz receptora 1210 pero esta alterada, en el que el
30 espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senales de audio.
[0391] Ademas, el procesador 1220 esta configurado para no realizar el desvanecimiento del espectro
35 modificado al espectro objetivo, si la trama actual de una o mas tramas es recibida por la interfaz receptora 1210 y si la trama actual recibida por la interfaz receptora 1210 no esta alterada
40
45
[0392] Segun una realizacion, el espectro objetivo es un espectro de tipo ruido.
[0393] En una realizacion, el espectro de tipo ruido representa ruido blanco.
[0394] Segun una realizacion, el espectro de tipo ruido es con forma.
[0395] En una realizacion, la forma del espectro de tipo ruido depende de un espectro de senales de audio de una senal previamente recibida.
[0396] Segun una realizacion, el espectro de tipo ruido es con forma dependiendo de la forma del espectro de
senales de audio.
50 [0397] En una realizacion, el procesador 1220 emplea un factor de inclination para dar forma al espectro de
tipo ruido.
[0398] Segun una realizacion, el procesador 1220 emplea la formula
55 shaped_noise[i] = ruido x potencia (tilt_factor,i/N)
en la que N indica el numero de muestras,
en la que i es un Indice,
en la que 0<= i < N, con tilt_factor > 0,
60 en la que potencia es una funcion de potencia.
[0399] Si el tilt_factor es menor de 1, esto significa la atenuacion con i creciente. Si el tilt_factor es mayor que
1, esto significa la amplificacion con i creciente.
5 [0400] Segun otra realizacion, el procesador 1220 puede emplear la formula
shaped_noise[i] = ruido x (1 + i/(N-1) * (tilt_factor - 1))
en la que N indica el numero de muestras,
10 en la que i es un fndice, en la que 0<= i < N, con tilt_factor > 0.
[0401] Segun una realizacion, el procesador 1220 esta configurado para generar el espectro modificado, mediante el cambio de un signo de una o mas de las muestras de senal de audio del espectro de senales de audio,
15 si la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual recibida por la interfaz receptora 1210 esta alterada.
[0402] En una realizacion, cada una de las muestras de senal de audio del espectro de senales de audio esta representada por un numero real, pero no por un numero imaginario.
20
[0403] Segun una realizacion, las muestras de senal de audio del espectro de senales de audio estan representadas en un dominio de transformada de coseno discreta modificada.
[0404] En otra realizacion, las muestras de senal de audio del espectro de senales de audio estan 25 representadas en un dominio de transformada de seno discreta modificada.
[0405] Segun una realizacion, el procesador 1220 esta configurado para generar el espectro modificado mediante el empleo de una funcion de signos aleatorios que, en forma aleatoria, o pseudoaleatoria, da salida o bien a un primer o un segundo valor.
30
[0406] En una realizacion, el procesador 1220 esta configurado para desvanecer el espectro modificado al espectro objetivo mediante la disminucion posterior de un factor de atenuacion.
[0407] Segun una realizacion, el procesador 1220 esta configurado para desvanecer el espectro modificado 35 al espectro objetivo mediante el aumento posterior de un factor de atenuacion.
[0408] En una realizacion, si la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual recibida por la interfaz receptora 1210 esta alterada, el procesador 1220 esta configurado para generar la senal de audio reconstruida mediante el empleo de la formula:
40
x [i] = (1-cum_damping) * noise [i] + cum_damping *
random_sign() * x_old[i]
en la que i es un fndice, en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion, en la que x_old[i] indica una de las muestras de senal de audio del espectro de senales 45 de audio de la senal de audio codificada, en la que random_sign() devuelve a 1 o -1, y en la que el ruido es un vector aleatorio que indica el espectro objetivo.
[0409] Algunas realizaciones continuan una operation de LTP de TCX. En estas realizaciones, la operation de LTP de TCX es continuada durante el ocultamiento con los parametros de la LTP (retraso de LTP y ganancia de
50 LTP) derivados de la ultima buena trama.
[0410] Las operaciones de LTP pueden resumirse como:
- Alimentar el bufer de retardo de LTP basandose en la salida previamente derivada.
55 - Basandose en el retraso de LTP: seleccionar la portion de senal apropiada, del bufer de retardo de LTP que se usa como contribution de LTP para dar forma a la senal actual.
- Reescalar esta contribucion de LTP usando la ganancia de LTP.
- Sumar esta contribucion reescalada de LTP a la entrada de senal de LTP con el fin de generar la senal de salida de
LTP.
[0411] Podrlan considerarse diferentes enfoques con respecto al tiempo, cuando se realiza la actualization del bufer de retardo de LTP:
5
Como la primera operation de LTP en trama n usando la salida de la ultima trama n-1. Esto actualiza el bufer de retardo de LTP en trama n que va a usarse durante el procesamiento de LTP en trama n.
Como la ultima operacion de LTP en trama n usando la salida de la trama actual n. Esto actualiza el bufer de retardo de LTP en trama n que va a usarse durante el procesamiento de LTP en trama n+1.
10
[0412] A continuation, se considera el desacoplado del circuito de retroalimentacion de la LTP de TCX.
[0413] El desacoplado del circuito de retroalimentacion de la LTP de TCX evita la introduction de ruido
adicional (resultante de la sustitucion de ruido aplicado a la senal de entrada de LPT) durante cada circuito de
15 retroalimentacion del decodificador de LTP cuando se encuentra en modo de ocultamiento.
[0414] La Fig. 10 ilustra este desacoplado. En particular, la Fig. 10 representa el desacoplado del circuito de retroalimentacion de la LTP durante el ocultamiento (bfi=1).
20 [0415] La Fig. 10 ilustra un bufer de retardo 1020, un selector de muestras 1030, y un procesador de
muestras 1040 (el procesador de muestras 1040 es indicado por la llnea de puntos).
[0416] Hacia el tiempo, cuando se realiza la actualizacion del bufer de retardo de la LTP 1020, algunas realizaciones proceden de la siguiente manera:
25
- Para la operacion normal: Para actualizar el bufer de retardo de LTP 1020, podrla preferirse como la primera operacion de LTP, ya que la senal de salida sumada habitualmente es almacenada en forma persistente. Con este enfoque, puede omitirse un bufer dedicado.
- Para la operacion desacoplada: Para actualizar el bufer de retardo de LTP, podrla preferirse como la ultima 30 operacion de LTP, ya que la contribution de LTP a la senal habitualmente solo es almacenada en forma temporaria.
Con este enfoque, se preserva la senal de contribucion de LTP transitoriamente. La implementation de esta manera de este bufer de contribucion de LTP podrla hacerse persistente.
[0417] Asumiendo que se usa este ultimo enfoque en cualquier caso (operacion normal y ocultamiento), las 35 realizaciones, por ejemplo, pueden implementar lo siguiente:
- Durante la operacion normal: Se usa la salida de senal de dominio de tiempo del decodificador de LTP despues de su adicion a la senal de entrada de la LTP para alimentar el bufer de retardo de LTP.
- Durante el ocultamiento: Se usa la salida de senal de dominio de tiempo del decodificador de LTP antes de su 40 adicion a la senal de entrada de LTP para alimentar el bufer de retardo de LTP.
[0418] Algunas realizaciones desvanecen la ganancia de la LTP de TCX hacia cero. En dicha realization, la ganancia de la LTP de TCX, por ejemplo, puede ser desvanecida hacia cero con un cierto factor de desvanecimiento adaptativo de senal. Esto, por ejemplo, puede ser realizado iterativamente, por ejemplo, segun el siguiente
45 pseudocodigo:
ganancia = gain_past * damping;
[..]
gain_past = ganancia;
50
donde:
ganancia es la ganancia del decodificador de LTP de TCX aplicad en la trama actual; gain_past es la ganancia del decodificador de LTP de TCX aplicada en la trama previa;
55 amortiguamiento es el factor de desvanecimiento (relativo).
[0419] La Fig. 1d ilustra un aparato segun una realizacion adicional, en el que el aparato adicionalmente comprende una unidad de prediction de largo plazo 170 que comprende un bufer de retardo 180. La unidad de prediction de largo plazo 170 esta configurada para generar una senal procesada que depende de la segunda
60 portion de senal de audio, que depende de una entrada de bufer de retardo que esta almacenada en el bufer de
47
retardo 180 y que depende de una ganancia de prediction de largo plazo. Ademas, la unidad de prediction de largo plazo esta configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
5
[0420] En otras realizaciones (no mostradas), la unidad de prediccion de largo plazo, por ejemplo, puede ser
configurada para generar una senal procesada que depende de la primera portion de senal de audio, que depende de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y que depende de una ganancia de prediccion de largo plazo.
10
[0421] En la Fig. 1d, la primera unidad de reconstruction 140, por ejemplo, puede generar la tercera porcion de senal de audio adicionalmente que depende de la senal procesada.
[0422] En una realization, la unidad de prediccion de largo plazo 170, por ejemplo, puede ser configurada
15 para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la que la ganancia
de prediccion de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0423] Como alternativa o adicional, la unidad de prediccion de largo plazo 170, por ejemplo, puede ser configurada para actualizar la entrada del bufer de retardo 180 mediante el almacenamiento de la senal procesada
20 generada en el bufer de retardo 180 si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0424] Con respecto al uso anteriormente descrito de la LTP de TCX, una realizacion mas general se ilustra por la Fig. 13.
25
[0425] La Fig. 13 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida.
[0426] El aparato comprende una interfaz receptora 1310 para la reception de una pluralidad de tramas, un 30 bufer de retardo 1320 para el almacenamiento de muestras de senal de audio de la senal de audio codificada, un
selector de muestras 1330 para la selection de una pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320, y un procesador de muestras 1340 para el procesamiento de las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio reconstruida de la senal de audio reconstruida.
35
[0427] El selector de muestras 1330 esta configurado para seleccionar, si una trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320 que depende de una information de retraso de altura comprendida por la trama actual. Ademas, el selector de
40 muestras 1330 esta configurado para seleccionar, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320 que depende de una informacion de retraso de altura compuesta por otra trama recibida previamente por la interfaz receptora 1310.
45 [0428] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para
obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia comprendida por la trama actual. Ademas, el selector de muestras 1330, por ejemplo, puede ser configurado para obtener las muestras de senal de audio 50 reconstruida, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada, mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz receptora 1310.
55 [0429] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para obtener
las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por la trama actual. Ademas, el selector de muestras 1330 esta configurado para obtener las muestras de senal de audio reconstruida, si la trama 60 actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta
alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz receptora 1310.
[0430] Segun una realization, el procesador de muestras 1340, por ejemplo, puede ser configurado para 5 almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320.
[0431] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 antes de que otra trama sea recibida por la interfaz receptora 1310.
10
[0432] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 despues de que otra trama sea recibida por la interfaz receptora 1310.
15 [0433] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para
reescalar las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio reescaladas y mediante la combination de las muestras de senal de audio reescaladas con muestras de senal de audio de entrada para obtener las muestras de senal de audio procesadas.
20 [0434] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio procesadas, que indican la combinacion de las muestras de senal de audio reescaladas y las muestras de senal de audio de entrada, en el bufer de retardo 1320, y para no almacenar las muestras de senal de audio reescaladas en el bufer de retardo 1320, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada. Ademas, el procesador 25 de muestras 1340 esta configurado para almacenar las muestras de senal de audio reescaladas en el bufer de
retardo 1320 y para no almacenar las muestras de senal de audio procesadas en el bufer de retardo 1320, si la
trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada.
30 [0435] Segun otra realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para
almacenar las muestras de senal de audio procesadas en el bufer de retardo 1320, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada.
[0436] En una realizacion, el selector de muestras 1330, por ejemplo, puede ser configurado para obtener las
35 muestras de senal de audio reconstruida mediante la reescala de las muestras de senal de audio seleccionadas
dependiendo de una ganancia modificada, en la que la ganancia modificada se define segun la formula:
ganancia = gain_past * amortiguamiento;
40 en la que ganancia es la ganancia modificada, en la que el selector de muestras 1330, por ejemplo, puede ser configurado para establecer past_gain en la ganancia despues de la ganancia, y se ha calculado, y donde el amortiguamiento es un numero real.
[0437] Segun una realizacion, el selector de muestras 1330, por ejemplo, puede ser configurado para calcular 45 la ganancia modificada.
[0438] En una realizacion, el amortiguamiento, por ejemplo, puede ser definido segun: 0 < amortiguamiento < 1.
50 [0439] Segun una realizacion, la ganancia de ganancia modificada, por ejemplo, puede ser ajustada a cero, si
al menos un numero predefinido de tramas no ha sido recibido por la interfaz receptora 1310, desde que una ultima trama ha sido recibida por la interfaz receptora 1310.
[0440] A continuation, se considera la velocidad de desvanecimiento. Existen varios modulos de
55 ocultamiento que se aplican a una cierta clase de desvanecimiento. Si bien la velocidad de este desvanecimiento podrla ser seleccionada de manera diferente a traves de estos modulos, es beneficioso usar la misma velocidad de desvanecimiento para todos los modulos de ocultamiento para un nucleo (ACELP o TCX). Por ejemplo:
Para ACELP, debe usarse la misma velocidad de desvanecimiento, en particular, para el libro de codigo adaptativo 60 (alterando la ganancia), y/o para la senal de libro de codigo innovadora (alterando la ganancia).
49
[0441] Ademas, para TCX, debe usarse la misma velocidad de desvanecimiento, en particular, para la senal de dominio de tiempo, y/o para la ganancia de la LTP (disminuida a cero), y/o para la ponderacion de LPC (disminuida a uno), y/o para los coeficientes de LP (disminuidos a forma espectral de fondo), y/o para la mezcla
5 gradual a ruido blanco.
[0442] Adicionalmente, podrla ser preferible ademas usar la misma velocidad de desvanecimiento para ACELP y TCX, si bien, debido a la diferente naturaleza de los nucleos, podrla tambien seleccionarse el uso de diferentes velocidades de desvanecimiento.
10
[0443] Esta velocidad de desvanecimiento podrla ser estatica, pero preferentemente es adaptativa a las caracterlsticas de la senal. Por ejemplo, la velocidad de desvanecimiento, por ejemplo, puede depender del factor de estabilidad de LPC (TCX) y/o de una clasificacion, y/o de un numero de tramas consecutivamente perdidas.
15 [0444] La velocidad de desvanecimiento, por ejemplo, puede ser determinada dependiendo del factor de
atenuacion, que podrla ser proporcionado en forma absoluta o relativa, y que podrla ademas cambiar en funcion del tiempo durante un cierto desvanecimiento.
[0445] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la 20 ganancia de LTP que para el desvanecimiento de ruido blanco.
[0446] Se han proporcionado un aparato, metodo y programa informatico para la generacion de una senal de ruido de confort como se describe anteriormente.
25 [0447] Si bien algunos aspectos se han descrito en el contexto de un aparato, es claro que estos aspectos
ademas representan una descripcion del metodo correspondiente, donde un bloque o dispositivo se corresponde con una etapa de metodo o una caracterlstica de una etapa de metodo. Analogamente, los aspectos descritos en el contexto de una etapa de metodo ademas representan una descripcion de un bloque o artlculo correspondiente o caracterlstica de un aparato correspondiente.
30
[0448] La senal descompuesta inventiva puede ser almacenada en un medio de almacenamiento digital, o
puede ser transmitida en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision alambrico tal como Internet.
35 [0449] Dependiendo de ciertos requisitos de implementacion, las realizaciones de la invention pueden ser
implementadas en hardware o software. La implementacion puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene senales de control electronicamente legibles all! almacenadas, que cooperan (o son capaces de cooperar) con un sistema de ordenador programable, de manera que se lleve a cabo el metodo respectivo.
40
[0450] Algunas realizaciones segun la invencion comprenden un portador de datos no transitorio que tiene
senales de control electronicamente legibles, que son capaces de cooperar con un sistema de ordenador programable, de manera que se lleve a cabo uno de los metodos que se describen en el presente documento.
45 [0451] En general, las realizaciones de la presente invencion pueden ser implementadas como un producto
de programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de los metodos cuando el producto de programa informatico se ejecuta en un ordenador. El codigo de programa puede ser almacenado, por ejemplo, en un portador legible en una maquina.
50 [0452] Otras realizaciones comprenden el programa informatico para realizar uno de los metodos descritos
en el presente documento, almacenado en un portador legible en una maquina.
[0453] En otras palabras, una realization del metodo inventivo, por lo tanto, es un programa informatico que tiene un codigo de programa para la realizacion de uno de los metodos descritos en el presente documento, cuando
55 el programa informatico se ejecuta en un ordenador.
[0454] Una realizacion adicional de los metodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informatico para realizar uno de los metodos descritos en el presente documento.
60
[0455] Una realizacion adicional del metodo inventivo es, por lo tanto, una corriente de datos o una secuencia de senales que representa el programa informatico para realizar uno de los metodos descritos en el presente documento. El flujo de datos o la secuencia de senales, por ejemplo, puede estar configurado para transferirse por medio de una conexion de comunicacion de datos, por ejemplo, por medio de Internet.
5
[0456] Una realizacion adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo logico programable, configurado o adaptado para realizar uno de los metodos descritos en el presente documento.
10 [0457] Una realizacion adicional comprende un ordenador que tiene en el mismo instalado el programa
informatico para realizar uno de los metodos descritos en el presente documento.
[0458] En algunas realizaciones, puede usarse un dispositivo logico programable (por ejemplo, una matriz de puertas programables de campo) para realizar algunas o la totalidad de las funcionalidades de los metodos descritos
15 en el presente documento. En algunas realizaciones, la matriz de puertas programables de campo puede cooperar con un microprocesador con el fin de realizar uno de los metodos descritos en el presente documento. En general, los metodos se realizan, preferentemente, por cualquier aparato de hardware.
[0459] Las realizaciones anteriormente descritas son simplemente ilustrativas de los principios de la presente 20 invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el
presente documento seran evidentes para otros expertos en la tecnica. Por lo tanto, se tiene la intencion de limitarse solo por el alcance de las reivindicaciones de patente inminentes, y no por los detalles especlficos presentados a modo de descripcion y explicacion de las realizaciones en el presente documento.
25 Biblioarafia
[0460]
[3GP09a] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - 30 wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP09b] Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, 3rd Generation Partnership Project, 2009.
35 [3GP09c] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3gPp TS 26.190, 3rd Generation Partnership Project, 2009.
[3GP12a] Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012.
40
[3GP12b] Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, 3rd Generation Partnership Project, Sep 2012. [3GP12c], ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP Ts 26.173, 3rd Generation Partnership Project, Sep 2012.
45 [3GP12d] ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (release11), 3GPP TS 26.104, 3rd Generation Partnership Project, Sep 2012.
[3GP12e] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.
50
[3GP12f] Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GpP TS 26.204, 3rd Generation Partnership Project, 2012.
[3GP12g] Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error 55 concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012.
[BJH06] I. Batina, J. Jensen, and R. Heusdens, Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064-1067.
60 [BP06] A. Borowicz and A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-
51
ROM, 2006, Italy, Florence.
[Coh03] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process. 11 (2003), no. 5, 466-475.
[CPK08] Choong Sang Cho, Nam In Park, and Hong Kook Kim, A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders, Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC 2008).
10
[Dob95] G. Doblinger, Computationally efficient speech enhancement by spectral minima tracking in subbands, in Proc. Eurospeech (1995), 1513-1516.
[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC)
15 audio, ETSI TS 102 563, European Broadcasting Union, May 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[EH08] Jan S. Erkelens and Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Recursive 20 Noise Power Estimation, Audio, Speech, and Language Processing, IEEE Transactions on 16 (2008), no. 6, 11121123.
[EM84] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), no. 6, 1109-1121.
25
[EM85] Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443-445.
[Gan05] S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), 30 Springer, 2005.
[HE95] H. G. Hirsch and C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 153-156, IEEE, 1995.
35 [HHJ10] Richard C. Hendriks, Richard Heusdens, and Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, Mar 2010, pp. 4266 -4269.
[HJH08] Richard C. Hendriks, Jesper Jensen, and Richard Heusdens, Noise tracking using dft domain subspace 40 decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), no. 3, 541-553.
[IET12] IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, Sep 2012.
45 [ISO09] ISO/IEC JTC1/SC29/WG11, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbitls using adaptive multi-rate wide band (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003.
50
[ITU05] Low-complexity coding at 24 and 32 kbitls for hands-free operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, May 2005.
[ITU06a] G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T 55 Recommendation, ITU-T, Nov 2006.
[ITU06b] G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006.
60
[ITU07] G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G. 722, ITU-T Recommendation, ITU-T, Aug 2007.
[ITU08a] G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and 5 audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of iTu, Jun 2008.
[ITU08b] G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008.
10 [ITU 12] G. 729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs- acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012.
[LS01] Pierre Lauber and Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, no. 5460, Sep 2001.
15
[Mar01] Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512.
[Mar03] Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and 20 Noise Control (IWAENC2003), Technical University of Braunschweig, Sep 2003.
[MC99] R. Martin and R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE Workshop on Speech Coding (1999), 165-167.
25 [MCA99] D. Malah, R. V. Cox, and A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789-792.
[MEP01] Nikolaus Meine, Bernd Edler, and Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 30 parametric audio coding, Audio Engineering Society Convention 110, no. 5300, May 2001.
[MPC89] Y. Mahieux, J.-P. Petit, and A. Charbonnier, Transform coding of audio signals using correlation between successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pp. 2021-2024 vol.3.
35
[NMR+12] Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jeremie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno Bessette, Jimmy Lapierre, Kristopfer Kjorling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush, and 40 Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, April 2012, Presented at the 132nd Convention Budapest, Hungary.
[PKJ+11] Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee, and Seung Ho Choi, Burst packet loss 45 concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323-5336.
[QD03] Schuyler Quackenbush and Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, no. 5981, Oct 2003.
50
[RL06] S. Rangachari and P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech Commun. 48 (2006), 220-231.
[SFB00] V. Stahl, A. Fischer, and R. Bippus, Quantile based noise estimation for spectral subtraction and wiener 55 filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875-1878.
[SS98] J. Sohn and W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 365-368, IEEE, 1998.
60 [Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power estimation
53
and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, Apr 2009, pp. 4421-4424.
Claims (13)
- REIVINDICACIONES1. Un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida, en el que el aparato comprende:5una interfaz receptora (1110) para recibir una o mas tramas, un generador de coeficientes (1120), y un reconstructor de senal (1130),en el que el generador de coeficientes (1120) esta configurado para determinar, si una trama actual de una o mas 10 tramas es recibida por la interfaz receptora (1110), y si la trama actual recibida por la interfaz receptora (1110) no esta alterada, uno o mas primeros coeficientes de senal de audio, que estan comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican una forma espectral de un ruido de fondo de la senal de audio codificada,15 en el que el generador de coeficientes (1120) esta configurado para generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros coeficientes de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora (1110) o si la trama actual recibida por la interfaz receptora (1110) esta alterada,en el que el reconstructor de senal de audio (1130) esta configurado para la reconstruccion de una primera porcion 20 de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora (1110) y si la trama actual recibida por la interfaz receptora (1110) no esta alterada, yen el que el reconstructor de senal de audio (1130) esta configurado para la reconstruccion de una segunda porcion de la senal de audio reconstruida que depende de uno o mas segundos coeficientes de senal de audio, si la trama 25 actual no es recibida por la interfaz receptora (1110) o si la trama actual recibida por la interfaz receptora (1110) esta alterada.
- 2. Un aparato segun la reivindicacion 1, en el que uno o mas primeros coeficientes de senal de audio son uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.30
- 3. Un aparato segun la reivindicacion 2, en el que el uno o mas coeficientes de filtro predictivos lineales se representan por uno o mas pares espectrales de impedancia y admitancia o por uno o mas pares espectrales lineales, o por uno o mas frecuencias espectrales de impedancia y admitancia, o por una o mas frecuencias espectrales lineales de la senal de audio codificada.35
- 4. Un aparato segun una de las reivindicaciones anteriores, en el que el uno o mas coeficientes de ruido son uno o mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada.
- 5. Un aparato segun una de las reivindicaciones 2 a 4, en el que el uno o mas coeficientes de filtro 40 predictivo lineal representan una forma espectral del ruido de fondo.
- 6. Un aparato segun una de las reivindicaciones anteriores, en el que el generador de coeficientes (1120)esta configurado para determinar la una o mas segundas porciones de senales de audio de tal forma que la una omas segundas porciones de senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de45 audio reconstruida.
- 7. Un aparato segun la reivindicacion 1, en el que el generador de coeficientes (1120) esta configurado para generar el uno o mas segundos coeficientes de senal de audio aplicando la formula:50 factaa/[i] _ a ' fultimo[i] + (1 - a) ' ptmedia[i]en la que /actual[i] indica uno del uno o mas segundos coeficientes de senal de audio,en la que /ultimo[ij indica uno del uno o mas primeros coeficientes de senal de audio,en la que ptmeda[i] es uno del uno o mas coeficientes de ruido,55 en la que a es un numero real con 0 > a > 1, y en la que i es un Indice.
- 8. Un aparato segun la reivindicacion 7,60 en el que /ultimo[i] indica un coeficiente de filtro predictivo lineal de la senal de audio codificada, y55en la que /actuai[i] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
- 9. Un aparato segun la reivindicacion 8, en el que ptmedra[i] indica el ruido de fondo de la senal de audio codificada.5
- 10. Un aparato de acuerdo con una de las reivindicaciones, en el que el generador de coeficientes (1120) esta configurado para determinar, si la trama actual de una o mas tramas es recibida por la interfaz receptora (1110) y si la trama actual recibida por la interfaz receptora (1110) no esta alterada, el uno o mas coeficientes de ruido mediante la determination de un espectro de ruido de la senal de audio codificada.10
- 11. Un aparato segun una de las reivindicaciones anteriores, en el que el generador de coeficientes (1120) esta configurado para determinar coeficientes de LPC que representan ruido de fondo usando un enfoque de estadlstica minima sobre el espectro de senal para determinar un espectro de ruido de fondo y mediante el calculo de los coeficientes LPC que representan una forma de ruido de fondo a parti r del espectro de ruido de fondo.15
- 12. Un metodo para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida, en el que el metodo comprende:recibir una o mas tramas.20 determinar, si una trama actual de una o mas tramas es recibida y si la trama actual recibida no esta alterada, de uno o mas primeros coeficientes de senal de audio, estando comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, e indicando uno o mas coeficientes de ruido un ruido de fondo de la senal de audio codificada,generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros coeficientes 25 de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es recibida o si la trama actual recibida esta alterada,reconstruir una primera portion de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida y si la trama de actual que se recibe no esta alterada, y reconstruir una segunda porcion de la senal de audio reconstruida que depende de los uno o mas segundos 30 coeficientes de senal de audio, si la trama actual no es recibida o si la trama de actual que se recibe esta alterada.
- 13. Un programa informatico adaptado para implementar el metodo de la reivindicacion 12 cuando se ejecuta en un ordenador o procesador de senal.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13173154 | 2013-06-21 | ||
EP13173154 | 2013-06-21 | ||
EP14166998 | 2014-05-05 | ||
EP14166998 | 2014-05-05 | ||
PCT/EP2014/063173 WO2014202786A1 (en) | 2013-06-21 | 2014-06-23 | Apparatus and method for generating an adaptive spectral shape of comfort noise |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2644693T3 true ES2644693T3 (es) | 2017-11-30 |
Family
ID=50981527
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14732196T Active ES2780696T3 (es) | 2013-06-21 | 2014-06-23 | Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP |
ES14732194.7T Active ES2644693T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y método para generar una forma espectral adaptativa de ruido de confort |
ES14732193.9T Active ES2635027T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores |
ES14739070.2T Active ES2635555T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores |
ES14732195.4T Active ES2639127T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14732196T Active ES2780696T3 (es) | 2013-06-21 | 2014-06-23 | Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14732193.9T Active ES2635027T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores |
ES14739070.2T Active ES2635555T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores |
ES14732195.4T Active ES2639127T3 (es) | 2013-06-21 | 2014-06-23 | Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS |
Country Status (19)
Country | Link |
---|---|
US (15) | US9916833B2 (es) |
EP (5) | EP3011557B1 (es) |
JP (5) | JP6201043B2 (es) |
KR (5) | KR101790902B1 (es) |
CN (9) | CN110299147B (es) |
AU (5) | AU2014283124B2 (es) |
BR (5) | BR112015031177B1 (es) |
CA (5) | CA2914869C (es) |
ES (5) | ES2780696T3 (es) |
HK (5) | HK1224076A1 (es) |
MX (5) | MX351363B (es) |
MY (5) | MY182209A (es) |
PL (5) | PL3011558T3 (es) |
PT (5) | PT3011561T (es) |
RU (5) | RU2676453C2 (es) |
SG (5) | SG11201510352YA (es) |
TW (5) | TWI575513B (es) |
WO (5) | WO2014202789A1 (es) |
ZA (1) | ZA201600310B (es) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299147B (zh) | 2013-06-21 | 2023-09-19 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
US10008214B2 (en) * | 2015-09-11 | 2018-06-26 | Electronics And Telecommunications Research Institute | USAC audio signal encoding/decoding apparatus and method for digital radio services |
KR102152004B1 (ko) | 2015-09-25 | 2020-10-27 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법 |
CA3016949C (en) * | 2016-03-07 | 2021-08-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands |
WO2017153300A1 (en) | 2016-03-07 | 2017-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame |
KR102158743B1 (ko) * | 2016-03-15 | 2020-09-22 | 한국전자통신연구원 | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 |
TWI602173B (zh) * | 2016-10-21 | 2017-10-11 | 盛微先進科技股份有限公司 | 音訊處理方法與非暫時性電腦可讀媒體 |
CN108074586B (zh) * | 2016-11-15 | 2021-02-12 | 电信科学技术研究院 | 一种语音问题的定位方法和装置 |
US10354669B2 (en) * | 2017-03-22 | 2019-07-16 | Immersion Networks, Inc. | System and method for processing audio data |
CN107123419A (zh) * | 2017-05-18 | 2017-09-01 | 北京大生在线科技有限公司 | Sphinx语速识别中背景降噪的优化方法 |
CN109427337B (zh) | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号编码时重建信号的方法和装置 |
EP3483884A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US10650834B2 (en) | 2018-01-10 | 2020-05-12 | Savitech Corp. | Audio processing method and non-transitory computer readable medium |
EP3553777B1 (en) * | 2018-04-09 | 2022-07-20 | Dolby Laboratories Licensing Corporation | Low-complexity packet loss concealment for transcoded audio signals |
TWI657437B (zh) * | 2018-05-25 | 2019-04-21 | 英屬開曼群島商睿能創意公司 | 電動載具以及播放、產生與其相關音頻訊號之方法 |
US11430463B2 (en) * | 2018-07-12 | 2022-08-30 | Dolby Laboratories Licensing Corporation | Dynamic EQ |
CN109117807B (zh) * | 2018-08-24 | 2020-07-21 | 广东石油化工学院 | 一种plc通信信号自适应时频峰值滤波方法及系统 |
US10763885B2 (en) | 2018-11-06 | 2020-09-01 | Stmicroelectronics S.R.L. | Method of error concealment, and associated device |
CN111402905B (zh) * | 2018-12-28 | 2023-05-26 | 南京中感微电子有限公司 | 音频数据恢复方法、装置及蓝牙设备 |
KR102603621B1 (ko) * | 2019-01-08 | 2023-11-16 | 엘지전자 주식회사 | 신호 처리 장치 및 이를 구비하는 영상표시장치 |
WO2020164751A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment |
WO2020165260A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode channel coding with mode specific coloration sequences |
CN110265046B (zh) * | 2019-07-25 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
KR102653938B1 (ko) | 2019-12-02 | 2024-04-03 | 구글 엘엘씨 | 끊김없는 오디오 혼합을 위한 방법들, 시스템들 및 매체들 |
TWI789577B (zh) * | 2020-04-01 | 2023-01-11 | 同響科技股份有限公司 | 音訊資料重建方法及系統 |
CN113747304B (zh) * | 2021-08-25 | 2024-04-26 | 深圳市爱特康科技有限公司 | 一种新型的低音回放方法和装置 |
CN114582361B (zh) * | 2022-04-29 | 2022-07-08 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的高解析度音频编解码方法及系统 |
Family Cites Families (173)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4933973A (en) * | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5097507A (en) | 1989-12-22 | 1992-03-17 | General Electric Company | Fading bit error protection for digital cellular multi-pulse speech coder |
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
US5148487A (en) * | 1990-02-26 | 1992-09-15 | Matsushita Electric Industrial Co., Ltd. | Audio subband encoded signal decoder |
TW224191B (es) | 1992-01-28 | 1994-05-21 | Qualcomm Inc | |
US5271011A (en) | 1992-03-16 | 1993-12-14 | Scientific-Atlanta, Inc. | Digital audio data muting system and method |
SE501340C2 (sv) * | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
US5615298A (en) | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
JP3328080B2 (ja) | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
KR970011728B1 (ko) * | 1994-12-21 | 1997-07-14 | 김광호 | 음향신호의 에러은닉방법 및 그 장치 |
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
SE9500858L (sv) * | 1995-03-10 | 1996-09-11 | Ericsson Telefon Ab L M | Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
JP3157116B2 (ja) | 1996-03-29 | 2001-04-16 | 三菱電機株式会社 | 音声符号化伝送システム |
US6075974A (en) * | 1996-11-20 | 2000-06-13 | Qualcomm Inc. | Method and apparatus for adjusting thresholds and measurements of received signals by anticipating power control commands yet to be executed |
JP3649854B2 (ja) * | 1997-05-09 | 2005-05-18 | 松下電器産業株式会社 | 音声符号化装置 |
WO1999014866A2 (en) | 1997-09-12 | 1999-03-25 | Koninklijke Philips Electronics N.V. | Transmission system with improved reconstruction of missing parts |
KR100335611B1 (ko) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
DE69926821T2 (de) | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
AU3372199A (en) * | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US20010014857A1 (en) * | 1998-08-14 | 2001-08-16 | Zifei Peter Wang | A voice activity detector for packet voice network |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6661793B1 (en) * | 1999-01-19 | 2003-12-09 | Vocaltec Communications Ltd. | Method and apparatus for reconstructing media |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6377915B1 (en) | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
EP1087377B1 (en) | 1999-03-19 | 2007-04-25 | Sony Corporation | Additional information embedding method and its device, and additional information decoding method and its decoding device |
JP4966452B2 (ja) * | 1999-04-19 | 2012-07-04 | エイ・ティ・アンド・ティ・コーポレーション | フレーム消去隠蔽処理装置 |
US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
DE19921122C1 (de) | 1999-05-07 | 2001-01-25 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals |
US6284551B1 (en) * | 1999-06-14 | 2001-09-04 | Hyundai Electronics Industries Co., Ltd. | Capacitor and method for fabricating the same |
US6604070B1 (en) | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
FI116643B (fi) | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6826527B1 (en) * | 1999-11-23 | 2004-11-30 | Texas Instruments Incorporated | Concealment of frame erasures and method |
AU2094201A (en) * | 1999-12-13 | 2001-06-18 | Broadcom Corporation | Voice gateway with downstream voice synchronization |
GB2358558B (en) * | 2000-01-18 | 2003-10-15 | Mitel Corp | Packet loss compensation method using injection of spectrally shaped noise |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
FI115329B (fi) * | 2000-05-08 | 2005-04-15 | Nokia Corp | Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7171355B1 (en) | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
US7113522B2 (en) * | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
FR2820227B1 (fr) * | 2001-01-30 | 2003-04-18 | France Telecom | Procede et dispositif de reduction de bruit |
US20040204935A1 (en) | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
US6520762B2 (en) | 2001-02-23 | 2003-02-18 | Husky Injection Molding Systems, Ltd | Injection unit |
DE60233283D1 (de) * | 2001-02-27 | 2009-09-24 | Texas Instruments Inc | Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7379865B2 (en) * | 2001-10-26 | 2008-05-27 | At&T Corp. | System and methods for concealing errors in data transmission |
KR100935961B1 (ko) * | 2001-11-14 | 2010-01-08 | 파나소닉 주식회사 | 부호화 장치 및 복호화 장치 |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
EP1464047A4 (en) * | 2002-01-08 | 2005-12-07 | Dilithium Networks Pty Ltd | TRANSCODE SCHEME BETWEEN CELP-BASED LANGUAGE CODES |
US20030162518A1 (en) | 2002-02-22 | 2003-08-28 | Baldwin Keith R. | Rapid acquisition and tracking system for a wireless packet-based communication device |
US7492703B2 (en) | 2002-02-28 | 2009-02-17 | Texas Instruments Incorporated | Noise analysis in a communication system |
AU2003214182A1 (en) * | 2002-03-12 | 2003-09-29 | Dilithium Networks Pty Limited | Method for adaptive codebook pitch-lag computation in audio transcoders |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7174292B2 (en) | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP2004120619A (ja) * | 2002-09-27 | 2004-04-15 | Kddi Corp | オーディオ情報復号装置 |
KR100486732B1 (ko) * | 2003-02-19 | 2005-05-03 | 삼성전자주식회사 | 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치 |
US20040202935A1 (en) * | 2003-04-08 | 2004-10-14 | Jeremy Barker | Cathode active material with increased alkali/metal content and method of making same |
AU2003222397A1 (en) * | 2003-04-30 | 2004-11-23 | Nokia Corporation | Support of a multichannel audio extension |
US7433815B2 (en) | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7224810B2 (en) | 2003-09-12 | 2007-05-29 | Spatializer Audio Laboratories, Inc. | Noise reduction system |
JP4497911B2 (ja) | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CN1930607B (zh) * | 2004-03-05 | 2010-11-10 | 松下电器产业株式会社 | 差错隐藏装置以及差错隐藏方法 |
US7620546B2 (en) | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
US8725501B2 (en) | 2004-07-20 | 2014-05-13 | Panasonic Corporation | Audio decoding device and compensation frame generation method |
WO2006032760A1 (fr) | 2004-09-16 | 2006-03-30 | France Telecom | Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede |
SG124307A1 (en) * | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
KR100612889B1 (ko) | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
JP2008546012A (ja) | 2005-05-27 | 2008-12-18 | オーディエンス,インコーポレイテッド | オーディオ信号の分解および修正のためのシステムおよび方法 |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
KR100686174B1 (ko) * | 2005-05-31 | 2007-02-26 | 엘지전자 주식회사 | 오디오 에러 은닉 방법 |
JP4536621B2 (ja) * | 2005-08-10 | 2010-09-01 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、および復号方法 |
US7610197B2 (en) | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
DE602005018274D1 (de) | 2005-09-01 | 2010-01-21 | Ericsson Telefon Ab L M | Verarbeitung von codierten echtzeitdaten |
US8620644B2 (en) | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
KR100717058B1 (ko) * | 2005-11-28 | 2007-05-14 | 삼성전자주식회사 | 고주파 성분 복원 방법 및 그 장치 |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US7457746B2 (en) | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
US8798172B2 (en) * | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
US7610195B2 (en) * | 2006-06-01 | 2009-10-27 | Nokia Corporation | Decoding of predictively coded data using buffer adaptation |
CN1983909B (zh) * | 2006-06-08 | 2010-07-28 | 华为技术有限公司 | 一种丢帧隐藏装置和方法 |
JP5190363B2 (ja) * | 2006-07-12 | 2013-04-24 | パナソニック株式会社 | 音声復号装置、音声符号化装置、および消失フレーム補償方法 |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
DE602007014059D1 (de) * | 2006-08-15 | 2011-06-01 | Broadcom Corp | Zeitverschiebung eines dekodierten audiosignals nach einem paketverlust |
CN101361112B (zh) * | 2006-08-15 | 2012-02-15 | 美国博通公司 | 隐藏丢包后解码器状态的更新 |
CN101155140A (zh) | 2006-10-01 | 2008-04-02 | 华为技术有限公司 | 音频流错误隐藏的方法、装置和系统 |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
ES2378972T3 (es) * | 2006-10-20 | 2012-04-19 | France Telecom | Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información |
KR101292771B1 (ko) * | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
US8688437B2 (en) * | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
US8275611B2 (en) | 2007-01-18 | 2012-09-25 | Stmicroelectronics Asia Pacific Pte., Ltd. | Adaptive noise suppression for digital speech signals |
KR20080075050A (ko) * | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
GB0703275D0 (en) * | 2007-02-20 | 2007-03-28 | Skype Ltd | Method of estimating noise levels in a communication system |
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
CN101627426B (zh) * | 2007-03-05 | 2013-03-13 | 艾利森电话股份有限公司 | 用于控制稳态背景噪声的平滑的方法和设备 |
DE102007018484B4 (de) | 2007-03-20 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen |
EP1973254B1 (en) * | 2007-03-22 | 2009-07-15 | Research In Motion Limited | Device and method for improved lost frame concealment |
US8014519B2 (en) | 2007-04-02 | 2011-09-06 | Microsoft Corporation | Cross-correlation based echo canceller controllers |
JP5023780B2 (ja) * | 2007-04-13 | 2012-09-12 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
EP2381580A1 (en) * | 2007-04-13 | 2011-10-26 | Global IP Solutions (GIPS) AB | Adaptive, scalable packet loss recovery |
US8005023B2 (en) | 2007-06-14 | 2011-08-23 | Microsoft Corporation | Client-side echo cancellation for multi-party audio conferencing |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
US8489396B2 (en) | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
US20090055171A1 (en) * | 2007-08-20 | 2009-02-26 | Broadcom Corporation | Buzz reduction for low-complexity frame erasure concealment |
US20090154726A1 (en) * | 2007-08-22 | 2009-06-18 | Step Labs Inc. | System and Method for Noise Activity Detection |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
CN101141644B (zh) * | 2007-10-17 | 2010-12-08 | 清华大学 | 编码集成系统和方法与解码集成系统和方法 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
KR101290622B1 (ko) * | 2007-11-02 | 2013-07-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오디오 복호화 방법 및 장치 |
CN101430880A (zh) * | 2007-11-07 | 2009-05-13 | 华为技术有限公司 | 一种背景噪声的编解码方法和装置 |
DE102008009719A1 (de) | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
CN101965612B (zh) * | 2008-03-03 | 2012-08-29 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
FR2929466A1 (fr) | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
EP2120412A1 (en) | 2008-05-14 | 2009-11-18 | SIDSA (Semiconductores Investigación) Y Diseño SA | System and transceiver for DSL communications based on single carrier modulation, with efficient vectoring, capacity approaching channel coding structure and preamble insertion for agile channel adaption |
US20090312043A1 (en) | 2008-06-13 | 2009-12-17 | Silvus Technologies, Inc. | Interference mitigation for devices with multiple receivers |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
ES2654433T3 (es) * | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
ES2657393T3 (es) | 2008-07-11 | 2018-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y descodificador de audio para codificar y descodificar muestras de audio |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR101227729B1 (ko) | 2008-07-11 | 2013-01-29 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더 |
ES2683077T3 (es) | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
US9773505B2 (en) | 2008-09-18 | 2017-09-26 | Electronics And Telecommunications Research Institute | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8676573B2 (en) | 2009-03-30 | 2014-03-18 | Cambridge Silicon Radio Limited | Error concealment |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
US8908882B2 (en) * | 2009-06-29 | 2014-12-09 | Audience, Inc. | Reparation of corrupted audio signals |
US8892427B2 (en) * | 2009-07-27 | 2014-11-18 | Industry-Academic Cooperation Foundation, Yonsei University | Method and an apparatus for processing an audio signal |
PL2471061T3 (pl) | 2009-10-08 | 2014-03-31 | Fraunhofer Ges Forschung | Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej |
CN102044241B (zh) * | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
ES2884133T3 (es) | 2009-10-15 | 2021-12-10 | Voiceage Corp | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC |
US9076439B2 (en) * | 2009-10-23 | 2015-07-07 | Broadcom Corporation | Bit error management and mitigation for sub-band coding |
CN102648493B (zh) * | 2009-11-24 | 2016-01-20 | Lg电子株式会社 | 音频信号处理方法和设备 |
CN102081926B (zh) * | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
CN101763859A (zh) * | 2009-12-16 | 2010-06-30 | 深圳华为通信技术有限公司 | 音频数据处理方法、装置和多点控制单元 |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8428959B2 (en) * | 2010-01-29 | 2013-04-23 | Polycom, Inc. | Audio packet loss concealment by transform interpolation |
US8000968B1 (en) * | 2011-04-26 | 2011-08-16 | Huawei Technologies Co., Ltd. | Method and apparatus for switching speech or audio signals |
CN101937679B (zh) * | 2010-07-05 | 2012-01-11 | 展讯通信(上海)有限公司 | 音频数据帧的错误掩盖方法及音频解码装置 |
CN101894558A (zh) * | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
EP2458585B1 (en) * | 2010-11-29 | 2013-07-17 | Nxp B.V. | Error concealment for sub-band coded audio signals |
KR20120080409A (ko) | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
US8983833B2 (en) | 2011-01-24 | 2015-03-17 | Continental Automotive Systems, Inc. | Method and apparatus for masking wind noise |
SG192734A1 (en) * | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
US8706509B2 (en) * | 2011-04-15 | 2014-04-22 | Telefonaktiebolaget L M Ericsson (Publ) | Method and a decoder for attenuation of signal regions reconstructed with low accuracy |
TWI435138B (zh) | 2011-06-20 | 2014-04-21 | Largan Precision Co | 影像拾取光學系統 |
JP5817366B2 (ja) | 2011-09-12 | 2015-11-18 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
KR102070430B1 (ko) * | 2011-10-21 | 2020-01-28 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
CN102750955B (zh) * | 2012-07-20 | 2014-06-18 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
US9532139B1 (en) * | 2012-09-14 | 2016-12-27 | Cirrus Logic, Inc. | Dual-microphone frequency amplitude response self-calibration |
JP6434411B2 (ja) | 2012-09-24 | 2018-12-05 | サムスン エレクトロニクス カンパニー リミテッド | フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置 |
CN103714821A (zh) * | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
EP2757559A1 (en) | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
BR112015018020B1 (pt) | 2013-01-29 | 2022-03-15 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V | Preenchimento de ruído sem informação adicional para codificadores do tipo celp |
FR3004876A1 (fr) | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
CN110299147B (zh) | 2013-06-21 | 2023-09-19 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
US20150024355A1 (en) | 2013-07-18 | 2015-01-22 | Quitbit, Inc. | Lighter and method for monitoring smoking behavior |
US10210871B2 (en) * | 2016-03-18 | 2019-02-19 | Qualcomm Incorporated | Audio processing for temporally mismatched signals |
CN110556116B (zh) * | 2018-05-31 | 2021-10-22 | 华为技术有限公司 | 计算下混信号和残差信号的方法和装置 |
-
2014
- 2014-06-23 CN CN201910375737.4A patent/CN110299147B/zh active Active
- 2014-06-23 EP EP14732193.9A patent/EP3011557B1/en active Active
- 2014-06-23 KR KR1020167001576A patent/KR101790902B1/ko active IP Right Grant
- 2014-06-23 WO PCT/EP2014/063176 patent/WO2014202789A1/en active Application Filing
- 2014-06-23 EP EP14732194.7A patent/EP3011558B1/en active Active
- 2014-06-23 EP EP14732195.4A patent/EP3011559B1/en active Active
- 2014-06-23 TW TW103121598A patent/TWI575513B/zh active
- 2014-06-23 RU RU2016101605A patent/RU2676453C2/ru active
- 2014-06-23 CN CN201480035498.3A patent/CN105340007B/zh active Active
- 2014-06-23 KR KR1020167001561A patent/KR101787296B1/ko active IP Right Grant
- 2014-06-23 RU RU2016101469A patent/RU2675777C2/ru active
- 2014-06-23 WO PCT/EP2014/063171 patent/WO2014202784A1/en active Application Filing
- 2014-06-23 ES ES14732196T patent/ES2780696T3/es active Active
- 2014-06-23 MY MYPI2015002978A patent/MY182209A/en unknown
- 2014-06-23 BR BR112015031177-6A patent/BR112015031177B1/pt active IP Right Grant
- 2014-06-23 PT PT147390702T patent/PT3011561T/pt unknown
- 2014-06-23 PT PT147321962T patent/PT3011563T/pt unknown
- 2014-06-23 CN CN201910418827.7A patent/CN110265044B/zh active Active
- 2014-06-23 RU RU2016101521A patent/RU2658128C2/ru active
- 2014-06-23 BR BR112015031606-9A patent/BR112015031606B1/pt active IP Right Grant
- 2014-06-23 MX MX2015017126A patent/MX351363B/es active IP Right Grant
- 2014-06-23 ES ES14732194.7T patent/ES2644693T3/es active Active
- 2014-06-23 CN CN201480035521.9A patent/CN105431903B/zh active Active
- 2014-06-23 MX MX2015018024A patent/MX351576B/es active IP Right Grant
- 2014-06-23 WO PCT/EP2014/063173 patent/WO2014202786A1/en active Application Filing
- 2014-06-23 ES ES14732193.9T patent/ES2635027T3/es active Active
- 2014-06-23 TW TW103121601A patent/TWI587290B/zh active
- 2014-06-23 BR BR112015031180-6A patent/BR112015031180B1/pt active IP Right Grant
- 2014-06-23 EP EP14732196.2A patent/EP3011563B1/en active Active
- 2014-06-23 RU RU2016101604A patent/RU2665279C2/ru active
- 2014-06-23 CN CN201480035495.XA patent/CN105359209B/zh active Active
- 2014-06-23 PL PL14732194T patent/PL3011558T3/pl unknown
- 2014-06-23 JP JP2016520526A patent/JP6201043B2/ja active Active
- 2014-06-23 BR BR112015031178-4A patent/BR112015031178B1/pt active IP Right Grant
- 2014-06-23 PL PL14739070T patent/PL3011561T3/pl unknown
- 2014-06-23 PL PL14732195T patent/PL3011559T3/pl unknown
- 2014-06-23 SG SG11201510352YA patent/SG11201510352YA/en unknown
- 2014-06-23 EP EP14739070.2A patent/EP3011561B1/en active Active
- 2014-06-23 KR KR1020167001564A patent/KR101785227B1/ko active IP Right Grant
- 2014-06-23 JP JP2016520529A patent/JP6214071B2/ja active Active
- 2014-06-23 JP JP2016520531A patent/JP6196375B2/ja active Active
- 2014-06-23 WO PCT/EP2014/063175 patent/WO2014202788A1/en active Application Filing
- 2014-06-23 CN CN201910375722.8A patent/CN110289005B/zh active Active
- 2014-06-23 CN CN201910419318.6A patent/CN110164459B/zh active Active
- 2014-06-23 CA CA2914869A patent/CA2914869C/en active Active
- 2014-06-23 PT PT147321939T patent/PT3011557T/pt unknown
- 2014-06-23 CN CN201480035497.9A patent/CN105359210B/zh active Active
- 2014-06-23 PL PL14732196T patent/PL3011563T3/pl unknown
- 2014-06-23 PT PT147321954T patent/PT3011559T/pt unknown
- 2014-06-23 PT PT147321947T patent/PT3011558T/pt unknown
- 2014-06-23 MX MX2015017261A patent/MX355257B/es active IP Right Grant
- 2014-06-23 KR KR1020167001580A patent/KR101788484B1/ko active IP Right Grant
- 2014-06-23 PL PL14732193T patent/PL3011557T3/pl unknown
- 2014-06-23 CA CA2914895A patent/CA2914895C/en active Active
- 2014-06-23 MX MX2015016892A patent/MX351577B/es active IP Right Grant
- 2014-06-23 MY MYPI2015002977A patent/MY170023A/en unknown
- 2014-06-23 AU AU2014283124A patent/AU2014283124B2/en active Active
- 2014-06-23 CA CA2913578A patent/CA2913578C/en active Active
- 2014-06-23 TW TW103121596A patent/TWI569262B/zh active
- 2014-06-23 CN CN201480035499.8A patent/CN105378831B/zh active Active
- 2014-06-23 AU AU2014283194A patent/AU2014283194B2/en active Active
- 2014-06-23 CA CA2916150A patent/CA2916150C/en active Active
- 2014-06-23 RU RU2016101600A patent/RU2666250C2/ru active
- 2014-06-23 MY MYPI2015002999A patent/MY181026A/en unknown
- 2014-06-23 MY MYPI2015002990A patent/MY187034A/en unknown
- 2014-06-23 BR BR112015031343-4A patent/BR112015031343B1/pt active IP Right Grant
- 2014-06-23 AU AU2014283123A patent/AU2014283123B2/en active Active
- 2014-06-23 WO PCT/EP2014/063177 patent/WO2014202790A1/en active Application Filing
- 2014-06-23 SG SG11201510510PA patent/SG11201510510PA/en unknown
- 2014-06-23 JP JP2016520530A patent/JP6190052B2/ja active Active
- 2014-06-23 ES ES14739070.2T patent/ES2635555T3/es active Active
- 2014-06-23 SG SG11201510353RA patent/SG11201510353RA/en unknown
- 2014-06-23 JP JP2016520527A patent/JP6360165B2/ja active Active
- 2014-06-23 MX MX2015016638A patent/MX347233B/es active IP Right Grant
- 2014-06-23 KR KR1020167001567A patent/KR101790901B1/ko active IP Right Grant
- 2014-06-23 TW TW103121599A patent/TWI553631B/zh active
- 2014-06-23 AU AU2014283196A patent/AU2014283196B2/en active Active
- 2014-06-23 SG SG11201510508QA patent/SG11201510508QA/en unknown
- 2014-06-23 TW TW103121590A patent/TWI564884B/zh active
- 2014-06-23 MY MYPI2015002996A patent/MY190900A/en unknown
- 2014-06-23 AU AU2014283198A patent/AU2014283198B2/en active Active
- 2014-06-23 CA CA2915014A patent/CA2915014C/en active Active
- 2014-06-23 SG SG11201510519RA patent/SG11201510519RA/en unknown
- 2014-06-23 ES ES14732195.4T patent/ES2639127T3/es active Active
-
2015
- 2015-12-18 US US14/973,726 patent/US9916833B2/en active Active
- 2015-12-18 US US14/973,727 patent/US9997163B2/en active Active
- 2015-12-18 US US14/973,722 patent/US9978376B2/en active Active
- 2015-12-18 US US14/973,724 patent/US9978377B2/en active Active
- 2015-12-21 US US14/977,495 patent/US9978378B2/en active Active
-
2016
- 2016-01-14 ZA ZA2016/00310A patent/ZA201600310B/en unknown
- 2016-10-26 HK HK16112305.7A patent/HK1224076A1/zh unknown
- 2016-10-26 HK HK16112304.8A patent/HK1224009A1/zh unknown
- 2016-10-27 HK HK16112355.6A patent/HK1224424A1/zh unknown
- 2016-10-27 HK HK16112356.5A patent/HK1224425A1/zh unknown
- 2016-10-27 HK HK16112354.7A patent/HK1224423A1/zh unknown
-
2018
- 2018-01-24 US US15/879,287 patent/US10679632B2/en active Active
- 2018-04-09 US US15/948,784 patent/US10607614B2/en active Active
- 2018-05-02 US US15/969,122 patent/US10672404B2/en active Active
- 2018-05-15 US US15/980,258 patent/US10867613B2/en active Active
- 2018-05-23 US US15/987,753 patent/US10854208B2/en active Active
-
2020
- 2020-02-19 US US16/795,561 patent/US11501783B2/en active Active
- 2020-03-03 US US16/808,185 patent/US11462221B2/en active Active
- 2020-04-15 US US16/849,815 patent/US11869514B2/en active Active
- 2020-11-20 US US17/100,247 patent/US12125491B2/en active Active
- 2020-12-14 US US17/120,526 patent/US11776551B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2644693T3 (es) | Aparato y método para generar una forma espectral adaptativa de ruido de confort |