ES2273216T3 - Codificacion de audio. - Google Patents
Codificacion de audio. Download PDFInfo
- Publication number
- ES2273216T3 ES2273216T3 ES04709311T ES04709311T ES2273216T3 ES 2273216 T3 ES2273216 T3 ES 2273216T3 ES 04709311 T ES04709311 T ES 04709311T ES 04709311 T ES04709311 T ES 04709311T ES 2273216 T3 ES2273216 T3 ES 2273216T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- audio
- encoded
- monaural
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000006073 displacement reaction Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000010363 phase shift Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims 1
- 238000011002 quantification Methods 0.000 description 23
- 230000008859 change Effects 0.000 description 14
- 230000001052 transient effect Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000005314 correlation function Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Cereal-Derived Products (AREA)
Abstract
Método de codificación de audio, comprendiendo el método: generar una señal monoaural desde al menos dos canales de entrada de audio; generar una señal codificada que incluye la señal monoaural y un conjunto de parámetros para permitir la reproducción de dos señales de salida de audio correspondiendo a un canal de entrada respectivo; caracterizado porque: los parámetros incluyen una indicación de desplazamiento global, siendo esto una medida de retardo entre la señal de salida monoaural codificada y una de las señales de entrada.
Description
Codificación de audio.
Las descripciones paramétricas de señales de
audio han ganado interés durante los últimos años, especialmente en
el campo de la codificación de audio. Se ha demostrado que los
parámetros (cuantificados) de transmisión que describen señales de
audio requieren solamente poca capacidad de transmisión para
re-sintetizar una señal perceptualmente igual en el
extremo de recepción. En esquemas de codificación de audio
tradicionales basados en formas de onda, tales como
MPEG-LII, mp3 y AAC (MPEG-2 Advanced
Audio Coding, codificación de audio avanzada), las señales estéreo
se codifican mediante la codificación de dos señales de audio
monoaurales en un flujo de bits. Esto codifica cada canal de manera
inequívoca pero a costa de requerir el doble de datos de los que
serían necesarios para codificar un único canal.
En muchos casos, el contenido llevado por los
dos canales es predominantemente monoaural. Por tanto, puede
ahorrarse mediante la explotación de la correlación entre canales y
la irrelevancia con técnicas tales como la codificación estéreo
mid/side MS y la tasa de bits de codificación de intensidad. Los
métodos de codificación a los que se refiere esta invención
implican la codificación total de uno de los canales, y la
codificación de una descripción paramétrica de cómo el otro canal
puede derivarse del canal codificado totalmente. Por tanto, en el
decodificador, normalmente está disponible una única señal de audio
que ha de modificarse para obtener dos canales de salida
diferentes. En concreto, los parámetros utilizados para describir el
segundo canal pueden incluir diferencias de tiempo entre canales
(ITD), diferencia de fase entre canales (IPD) y diferencias de
nivel entre canales (ILD).
El documento
EP-A-1107232 describe un método para
codificar una señal estéreo en el que la señal codificada comprende
información derivada de una señal de entrada de canal derecho o de
canal izquierdo e información paramétrica que permite recuperar
otra de las señales de entrada.
El documento
WO-A-03/07656 da a conocer un método
para codificar una señal estéreo, en el que una señal mono y
parámetros de estéreo se emplean para representar la señal
estéreo.
En las representaciones paramétricas descritas
en las referencias mencionadas anteriormente, las diferencias ITD
indican la diferencia en fase o tiempo entre los canales de entrada.
Por tanto, el decodificador puede generar el canal no codificado al
tomar el contenido del canal codificado y creando la diferencia de
fase proporcionada por las diferencias ITD. Este proceso incorpora
un determinado grado de libertad. Por ejemplo, solamente un canal
de salida (es decir, el canal que no se codifica) puede modificarse
con la diferencia de fase prescrita. Alternativamente, el canal de
salida codificado podría modificarse restando la diferencia de fase
prescrita. Como un tercer ejemplo, podría aplicarse la mitad de la
diferencia de fase prescrita a un canal y restando la mitad de la
diferencia de fase descrita al otro canal. Dado que solamente se
prescribe la diferencia de fase, el desfase (o distribución) en el
desplazamiento de fase de ambos canales no está fijado. Aunque esto
no es un problema para la calidad espacial del sonido codificado,
puede dar como resultado artefactos audibles. Estos artefactos se
producen debido a que el desplazamiento de fase general es
arbitrario. Puede ocurrir que la modificación de fase de uno o
ambos canales de salida en cualquier trama de tiempo de codificación
no sea compatible con la modificación de fase de la trama anterior.
Los solicitantes presentes han descubierto que es muy difícil
predecir correctamente el desplazamiento de fase global correcto en
el decodificador y han descrito previamente un método para
restringir las modificaciones de fase según las modificaciones de
fase de la trama anterior. Esto es una solución para el problema que
funciona bien pero no elimina la causa del
problema.
problema.
Tal como se ha descrito anteriormente, se ha
demostrado que es muy difícil determinar cómo debería distribuirse
el desplazamiento de tiempo o de fase prescrito por los dos canales
de salida en el nivel del decodificador. El siguiente ejemplo
explica esta dificultad con más detalle. Se supone que en el
decodificador, el componente de señal mono consiste en una única
sinusoide. Además, el parámetro ITD para esta sinusoide aumenta
linealmente en el tiempo (es decir, por tramas de análisis). En
este ejemplo, se hará hincapié en la diferencia IPD, considerando
que la diferencia IPD es justo una transformación lineal de la
diferencia ITD. La diferencia IPD se define solamente en el
intervalo [-\pi:\pi]. La figura 1 muestra la diferencia IPD como
una función de tiempo.
Aunque a primera vista esto puede parecer un
ejemplo muy teórico, tal comportamiento IPD ocurre con frecuencia
en las grabaciones de audio (por ejemplo si la frecuencia de los
tonos en los canales izquierdo y derecho difiere en algunos Hz). La
función básica del decodificador es producir dos señales de salida
de la única señal de entrada. Estas señales de salida deben cumplir
los parámetros IPD. Esto puede realizarse copiando la única señal
de entrada a las dos señales de salida y modificando las fases de
las señales de salida individualmente. Suponiendo una distribución
simétrica de la diferencia IPD a lo largo de los canales, esto
implica que el canal de salida izquierdo se modifica mediante +
IPD/2, mientras que el canal de salida derecho se gira en fase
mediante -IPD/2. Sin embargo, este enfoque conduce a artefactos
audibles provocados por un salto de fase que se produce en el
tiempo t. Esto puede entenderse con referencia a la figura 2 en la
que se muestra el cambio de fase que se supone en los canales de
salida izquierdo y derecho en un momento t- de tiempo determinado,
justo antes de la aparición del salto de fase, y t+ justo después
del salto de fase. Los cambios de fase con respecto a la señal mono
de entrada se muestran como vectores complejos (es decir, el ángulo
entre la señal de entrada y de salida ilustra el cambio de fase de
cada canal de
salida).
salida).
Se observará que existe una gran inconsistencia
de fase entre las señales de salida justo antes y después del salto
de fase en el tiempo t: el vector de cada canal de salida se gira al
menos un \pi rad. Si las tramas subsiguientes de las salidas se
combinan mediante suma-solapamiento
("overlap-add"), las partes de solapamiento de
las señales de salida justo antes y después del salto de fase se
anulan unas a otras. Esto da como resultado artefactos a modo de
clic en la salida. Estos artefactos surgen debido a que el parámetro
IPD es cíclico con un periodo de 2\pi, pero si la diferencia IPD
se distribuye por los canales, el cambio de fase de cada señal
individual se vuelve cíclico con un periodo inferior a 2\pi (si la
diferencia IPD se distribuye simétricamente, el cambio de fase se
vuelve cíclico con un periodo de \pi). El periodo real del cambio
de fase en cada canal depende por tanto del método de distribución
de la diferencia IPD por los canales, pero es inferior a 2\pi,
dando lugar a problemas de suma-solapamiento en el
decodificador.
Aunque el ejemplo anterior es un caso
relativamente simple, se ha descubierto que para señales complejas
(con más componentes de frecuencia dentro de la misma banda de
frecuencias de modificación de fase, y con un comportamiento más
complejo de los parámetros IPD en el tiempo) es muy difícil
encontrar la distribución de IPD correcta por los canales de
salida.
En el codificador, está disponible la
información que especifica cómo distribuir la diferencia IPD por los
canales. Por tanto, un objetivo de la invención es conservar esta
información en la señal codificada sin aumentar de manera
significativa al tamaño de la señal codificada.
Para este fin, la invención proporciona un
codificador y elementos relacionados tal como se expone en las
reivindicaciones independientes de esta memoria.
La diferencia de tiempo entre canales (ITD), o
diferencia de fase (IPD) se calcula basándose en el desplazamiento
de tiempo relativo entre los dos canales de entrada. Por otro lado,
el desplazamiento de tiempo global (OTD), o el desplazamiento de
fase global (OPD) se determina mediante el retardo (o fase) que
mejor se ajusta entre la señal de salida monoaural totalmente
codificada y una de las señales de entrada. Por tanto es conveniente
analizar el OTD (OPD) al nivel del codificador y añadir su valor al
parámetro del flujo de bits.
Una ventaja de una codificación por diferencia
de tiempo de este tipo es que el OTD (OPD) necesita codificarse en
solamente algunos bits dado que el sistema auditivo es relativamente
insensible a cambios de fase globales (aunque el sistema auditivo
binaural es muy sensible a cambios de ITD).
Para el problema tratado anteriormente, la
diferencia OPD tendría el comportamiento mostrado en la figura
3.
En este caso, la diferencia OPD describe
básicamente el cambio de fase del canal izquierdo a través del
tiempo, mientras que el cambio de fase del canal derecho se
proporciona mediante OPD(t) - IPD (t). Dado que ambos
parámetros (OPD e IPD) son cíclicos con un periodo de 2\pi, los
cambios de fase resultantes de los canales de salida independientes
también se vuelven cíclicos con un periodo de 2\pi. Por tanto, los
cambios de fase resultantes de ambos canales de salida a través del
tiempo no muestran discontinuidades de fase que no existían en las
señales de
entrada.
entrada.
Debería observarse que en este ejemplo, la
diferencia OPD describe el cambio de fase del canal izquierdo,
mientras que el canal derecho se deriva posteriormente del canal
izquierdo empleando la diferencia IPD. Otras combinaciones lineales
de estos parámetros pueden en principio utilizarse para la
transmisión. Un ejemplo trivial debería describir el cambio de fase
del canal de salida derecho con la diferencia OPD, y derivar el
cambio de fase del canal derecho empleando la diferencia OPD e IPD.
El asunto crucial de esta invención es describir de manera
eficiente un par de filtros de síntesis de variación de tiempo en
los que la diferencia de fase entre los canales de salida se
describe con un parámetro (caro), y un desfase de los cambios de
fase con otro parámetro (más barato).
Las realizaciones de la invención se describirán
ahora detalladamente, mediante un ejemplo, y con referencia a los
dibujos acompañantes, en los que:
la figura 1 ilustra el efecto de la diferencia
IPD que aumenta linealmente en el tiempo, y ya se ha explicado;
la figura 2 ilustra el cambio de fase de los
canales de salida L y R con respecto al canal de entrada justo
antes (t- panel izquierdo) y justo después (t+, panel derecho) del
salto de fase en el parámetro IPD, y ya se ha explicado;
la figura 3 ilustra el parámetro OPD para el
caso de una diferencia IPD que aumenta linealmente y ya se ha
explicado;
la figura 4 es un diagrama de bloques de
hardware de un codificador que realiza la invención; y
la figura 5 es un diagrama de bloques de
hardware de un decodificador que realiza la invención; y
la figura 6 muestra posiciones transitorias
codificadas en sub-tramas respectivas de una señal
monoaural y las tramas correspondientes de una capa multicanal.
Una etapa de generación de parámetros espaciales
en una realización de la invención toma tres señales como su
entrada. Las dos primeras de estas señales, designadas con L y R,
corresponden a los canales izquierdo y derecho de un par estéreo.
Cada uno de los canales se divide en múltiples baldosas de
tiempo-frecuencia, por ejemplo, utilizando un banco
de filtros o transformación de frecuencia, como es habitual en este
campo técnico. Una entrada adicional al codificador es una señal S
monoaural que es la suma de las otras señales L y R. Esta señal S
es una combinación monoaural de las otras señales L y R y presenta
la misma separación tiempo-frecuencia que las otras
señales de entrada. La salida del codificador es un flujo de datos
que contiene la señal S de audio monoaural junto con parámetros
espaciales que se usan mediante un decodificador en la
decodificación del flujo de
bits.
bits.
Entonces, el codificador calcula la diferencia
de tiempo entre canales (ITD) al determinar el tiempo de retardo
entre las señales L y R de entrada. El tiempo de retardo corresponde
al máximo en la función de correlación cruzada entre las baldosas
de tiempo/frecuencia correspondientes de las señales L(t, f)
y R(t, f) de entrada de tal manera
que:
que:
- \quad
- ITD= arg(max(\rho(L,R))),
indicando \rho(L, R) la
función de correlación cruzada entre las señales L(t, f) y
R(t, f)de
entrada.
El desplazamiento de tiempo global (OTD) puede
definirse de dos maneras diferentes; como una diferencia de tiempo
entre la señal S de suma y la señal L de entrada izquierda, o como
una diferencia de tiempo entre la señal S de suma y la señal R de
entrada derecha. Es conveniente medir el OTD con respecto a la señal
de entrada más fuerte (es decir, energía mayor), dando como
resultado:
- \quad
- si |L| > |R|,
- \quad
- OTD = arg(max(\rho(L, S)));
- \quad
- o
- \quad
- OTD = arg(max(\rho(R, S)));
- \quad
- fin
Los valores OTD pueden cuantificarse
posteriormente y añadirse al flujo de datos. Se ha descubierto que
un error de cuantificación del orden de \pi/8 radianes es
aceptable. Eso es un error de cuantificación relativamente grande
comparado con el error que es aceptable para los valores ITD. Por
tanto, el flujo de bits de parámetros espaciales contiene una ILD,
una ITD, un OTD y un valor de correlación para algunas o todas las
bandas de frecuencias. Ha de observarse que solamente para aquellas
bandas de frecuencias en las que se transmite un valor ITD es
necesario un
OTD.
OTD.
El decodificador determina la modificación de
fase necesaria de los canales de salida basados en la ITD, el OTD y
la ILD, dando como resultado el desplazamiento de tiempo para el
canal izquierdo (TSL) y para el canal derecho (TSR):
- \quad
- si ILD > 0 (que significa |L| > |R|),
- \quad
- TSL = OTD;
- \quad
- TSR = OTD - ITD;
- \quad
- o
- \quad
- TSL = OTD + ITD;
- \quad
- TSR = OTD;
- \quad
- fin
Se entenderá que un codificador de audio
completo toma normalmente como una entrada señales analógicas de
frecuencia de audio variables con el tiempo, digitaliza estas
señales, genera una señal total monoaural y después genera un flujo
de bits de salida que comprende la señal monoaural codificada y los
parámetros espaciales. (Alternativamente, la entrada puede
derivarse a partir de dos señales ya digitalizadas). Los expertos en
esta tecnología reconocerán que la mayor parte de lo que sigue
puede implementarse fácilmente empleando técnicas conocidas.
En general, el codificador 10 comprende módulos
20 de transformada respectivos que dividen cada señal (L, R)
entrante en señales 16 sub-banda (preferiblemente
con un ancho de banda que aumenta con la frecuencia). En la
realización preferida, los módulos 20 usan la aplicación de ventanas
temporales seguida de una operación de transformada para realizar
el seccionamiento tiempo/frecuencia, sin embargo, también podrían
emplearse métodos de tiempo continuo (por ejemplo, bancos de
filtro).
Las siguientes etapas para determinar la señal
12 total y la extracción de los parámetros se llevan a cabo dentro
de un módulo 18 de análisis y comprenden:
encontrar la diferencia de nivel (ILD) de las
señales 16 sub-banda correspondientes,
encontrar la diferencia de tiempo (ITD o IPD) de
las señales 16 sub-banda correspondientes, y
describir el grado de similitud o disimilitud de
las formas de onda que no pueden explicarse mediante las
diferencias ILD o ITD.
La ILD está determinada por la diferencia de
nivel de las señales en un momento de tiempo determinado para una
banda de frecuencias dada. Un método para determinar la ILD es medir
el valor rms de la banda de frecuencias correspondiente de ambos
canales de entrada y calcular la relación de estos valores rms
(expresados preferiblemente en dB).
Las diferencias ITD se determinan por la
alineación de fase o tiempo que proporciona el mejor ajuste entre
las formas de onda de ambos canales. Un método para obtener la ITD
es calcular la función de correlación cruzada entre dos señales
sub-banda correspondientes y buscar el máximo. El
retardo que corresponde a este máximo en la función de correlación
cruzada puede usarse como valor ITD.
Un segundo método es calcular las señales
analíticas de la sub-banda izquierda y derecha (es
decir, fase de cálculo y valores de envolvente) y usar la
diferencia de fase entre los canales como parámetros IPD. En este
caso, se usa un banco de filtros complejo (por ejemplo, un FFT) y
considerando una determinada casilla (bin) (región de frecuencia)
puede derivarse una función de fase en el tiempo. Al realizar esto
tanto para el canal derecho, como para el izquierdo, puede
calcularse la diferencia de fase IPD (más bien la correlación
cruzada de dos señales filtradas).
La correlación se obtiene averiguando primero la
ILD e ITD que proporciona el mejor ajuste entre las señales
sub-banda correspondientes y midiendo posteriormente
la similitud de las formas de onda tras compensar la ITD y/o ILD.
Por tanto, en este marco, la correlación se define como la similitud
o la disimilitud de las señales sub-banda
correspondientes que no pueden atribuirse a las diferencias ITD y/o
ILD. Una medida adecuada para este parámetro es la coherencia que
es el valor máximo de la función de correlación cruzada en un
conjunto de retardos. Sin embargo, podrían emplearse también otras
medidas, tales como la energía relativa de la señal de diferencia
tras la compensación de ILD y/o ITD en comparación con la señal
total de sub-bandas correspondientes
(preferiblemente también compensadas para diferencias ILD y/o ITD).
Este parámetro de diferencia es básicamente una transformación
lineal de la correlación (máxima).
Un asunto importante de la transmisión de
parámetros es la precisión de la representación de parámetros (es
decir, el tamaño de los errores de cuantificación), que está
relacionada directamente con la capacidad de transformación
necesaria y la calidad de audio. En esta sección se tratarán varios
asuntos con respecto a la cuantificación de los parámetros
espaciales. La idea básica es basar los errores de cuantificación en
las denominadas diferencias mínimas perceptibles
(just-noticeable difference JND) de las indicaciones
espaciales. Para ser más específicos, el error de cuantificación se
determina por la sensibilidad del sistema auditivo humano a los
cambios en los parámetros. Dado que ya se conoce que la sensibilidad
a los cambios en los parámetros depende considerablemente de los
valores de los propios parámetros, se aplican los métodos siguientes
para determinar las etapas de cuantificación discreta.
Por las investigaciones
psico-acústicas se conoce que la sensibilidad a
cambios en la IID depende de la propia ILD. Si la ILD se expresa en
dB, pueden detectarse las desviaciones de aproximadamente 1 dB a
partir de una referencia de 0 dB, mientras que los cambios del
orden de 3 dB son necesarios si la diferencia de nivel de
referencia es de 20 dB. Por tanto, los errores de cuantificación
pueden ser mayores si las señales de los canales izquierdo y
derecho presentan una diferencia de nivel mayor. Por ejemplo, esto
puede aplicarse midiendo primeramente la diferencia de nivel entre
los canales, seguido de una transformación no lineal (compresiva)
de la diferencia de nivel obtenida y posteriormente un proceso de
cuantificación lineal, o empleando una tabla de consulta para los
valores ILD disponibles que presentan una distribución no lineal. En
la realización preferida, las diferencias ILD (en dB) se
cuantifican al valor más próximo del conjunto I siguiente:
I=[-19-16-13-10-8-6-4-2
0 2 4 6 8 10 13 16
19]
La sensibilidad a los cambios en las diferencias
ITD de los sujetos humanos puede caracterizarse por tener un umbral
de fase constante. Esto significa que en cuanto a los tiempos de
retardo, las etapas de cuantificación para la ITD deberían
disminuir con la frecuencia.
Alternativamente, si la ITD se representa en la
forma de diferencias de fase, las etapas de cuantificación deberían
ser independientes de la frecuencia. Un método para implementar esto
debería tomar una diferencia de fase fija como etapa de
cuantificación y determinar el retardo de tiempo correspondiente
para cada banda de frecuencias. Este valor ITD se usa entonces como
etapa de cuantificación. En la realización preferida, las etapas de
cuantificación ITD se determinan mediante una diferencia de fase
constante en cada sub-banda de 0,1 radianes (rad).
Por tanto, para cada sub-banda, la diferencia de
tiempo que corresponde a 0,1 radianes de la frecuencia central de
sub-banda se usa como etapa de cuantificación.
Otro método sería transmitir diferencias de fase
que siguen un esquema de cuantificación independiente de la
frecuencia. También se conoce que por encima de una determinada
frecuencia, el sistema auditivo humano no es sensible a las
diferencias ITD en las formas de onda de estructura fina. Este
fenómeno puede explotarse solamente transmitiendo parámetros ITD
hasta una frecuencia determinada (normalmente 2 kHz).
Un tercer método de reducción de flujo de bits
es incorporar las etapas de cuantificación ITD que dependen de la
ILD y/o los parámetros de correlación de la misma
sub-banda. Para diferencias ILD grandes, las
diferencias ITD pueden codificarse de manera menos precisa. Además,
si la correlación es muy baja, se conoce que la sensibilidad humana
a los cambios en la ITD se reduce. Por tanto, los errores de
cuantificación ITD mayores pueden aplicarse si la correlación es
pequeña. Un ejemplo extremo de esta idea es no transmitir ninguna
diferencia ITD si la correlación está por debajo de un umbral
determinado.
El error de cuantificación de la correlación
depende de (1) el propio valor de correlación y posiblemente (2) de
la ILD. Los valores de correlación próximos a +1 se codifican con
una precisión alta (es decir, una etapa de cuantificación pequeña),
mientras que los valores de correlación próximos a 0 se codifican
con una precisión baja (una etapa de cuantificación grande). En la
realización preferida, un conjunto de valores (r) de correlación
distribuidos de manera no lineal se cuantifica al valor más próximo
del siguiente conjunto R:
R=[1 0,95 0,9
0,82 0,75 0,6 0,3
0]
y esto cuesta otros 3 bits por
valor de
correlación.
Si el valor absoluto de la ILD (cuantificada) de
la sub-banda actual es de 19 dB, no se transmiten ni
valores ITD, ni de correlación para esta sub-banda.
Si el valor de correlación (cuantificado) de una determinada
sub-banda es de cero, no se transmite ningún valor
ITD para esa sub-banda.
De esta manera, cada trama necesita un máximo de
233 bits para transmitir los parámetros espaciales. Con una
longitud de trama de actualización de 1024 muestras y una tasa de
muestreo de 44,1 kHz, la tasa de bits máxima para la transmisión es
inferior a 10,25 kbit/s [233^{\ddagger}44100/1024 = 10,034
kbit/s]. (Debería observarse que mediante la utilización de la
codificación de entropía o codificación diferencial la tasa de bits
podría reducirse adicionalmente).
Una segunda posibilidad es usar etapas de
cuantificación para la correlación que depende de la ILD medida de
la misma sub-banda: para diferencias ILD grandes (es
decir, un canal es dominante en cuanto a la energía), los errores
de cuantificación en la correlación se vuelven más grandes. Un
ejemplo extremo de este principio sería no transmitir ningún valor
de correlación para una sub-banda determinada si el
valor absoluto para esa sub-banda está por encima
de un umbral determinado.
Con referencia a la figura 4, más
detalladamente, en los módulos 20, las señales entrantes izquierda y
derecha se dividen en varias tramas de tiempo (2048 muestras a una
tasa de muestreo a 44,1 kHz) y se aplica una función ventana con
una ventana de Hanning de raíz cuadrada. Posteriormente se calculan
las FFT. Las frecuencias FFT negativas se descartan y las FFT
resultantes se subdividen en grupos o sub-bandas 16
de casillas FFT. El número de casillas FFT que se combinan en una
sub-banda g depende de la frecuencia: a frecuencias
más altas se combinan más casillas que a frecuencias más bajas. En
la implementación actual, las casillas FFT que corresponden a
aproximadamente 1,8 ERBSs se agrupan, dando como resultado 20
sub-bandas para representar toda la gama de
frecuencia audible. El número resultante de casillas FFT S[g]
de cada sub-banda subsiguiente (comenzando a la
frecuencia más baja) es:
S=[4 4 4 5 6 8
9 12 13 17 21 25 30 38 45 55 68 82 100
477]
Por tanto, las primeras tres
sub-bandas contienen 4 casillas FFT, la cuarta
sub-banda contiene 5 casillas FFT, etc. Para cada
sub-banda, el módulo 18 de análisis calcula la ILD,
ITD y la correlación (r) correspondiente. La ITD y la correlación
se calculan simplemente poniendo a cero todas las casillas FFT que
pertenecen a otros grupos, multiplicando los FFT resultantes
(limitados a la banda) desde los canales izquierdo y derecho,
seguidos de una transformada FFT inversa. La función de correlación
cruzada resultante se analiza para un pico dentro de un retardo
entre canales de entre -64 y + 63 muestras. El retardo interno que
corresponde al pico se usa como valor ITD, y el valor de la función
de correlación cruzada en este pico se usa como esta correlación
interaural de la sub-banda. Finalmente, la ILD se
calcula simplemente tomando la relación de potencia de los canales
derecho e izquierdo para cada sub-banda.
El analizador 18 contiene un generador 17 de
señal total. El generador de señal total genera una señal total que
es un promedio de las señales de entrada. (En otras realizaciones,
el procesamiento adicional puede llevarse a cabo en la generación
de la señal total, que incluye, por ejemplo, la corrección de fase).
Si es necesario, la señal total puede convertirse al dominio
temporal insertando (1) conjugados complejos a frecuencias
negativas, (2) FFT inversa, (3) aplicación de funciones ventana, y
(4) suma-solapamiento.
Dada la representación de la señal 12 total, en
el dominio tiempo y/o frecuencia tal como se describe anteriormente,
la señal puede codificarse en una capa 40 monoaural de un flujo 50
de bits en un número cualquiera de maneras convencionales. Por
ejemplo, un codificador mp3 puede usarse para generar la capa 40
monoaural del flujo de bits. Cuando un codificador de este tipo
detecta cambios rápidos en una señal de entrada, puede cambiar la
longitud de la ventana que emplea para ese periodo de tiempo
concreto para mejorar la localización de tiempo y o frecuencia al
codificar esa parte de la señal de entrada. Un indicador de
conmutación de ventana se incluye en el flujo de datos para indicar
esta conmutación a un decodificador que sintetiza posteriormente la
señal.
Sin embargo, en la realización preferida, se usa
un codificador 30 sinusoidal del tipo descrito en el documento WO
01/69593-al para generar la capa 40 monoaural. El
codificador 30 comprende un codificador 11 transitorio, un
codificador 13 sinusoidal, y un codificador 15 de ruido. El
codificador transitorio es una característica opcional incluida en
esta realización.
Cuando la señal 12 introduce el codificador 11
transitorio, para cada intervalo de actualización, el codificador
calcula si existe una componente de señal transitoria y su posición
(para la precisión de muestras) dentro de la ventana de análisis.
Si la posición de una componente de señal transitoria se determina,
el codificador 11 intenta extraer (la mayor parte de) la componente
de señal transitoria. Ajusta una función de forma a un segmento de
señal comenzando preferiblemente en una posición de inicio estimada,
y determina el contenido por debajo de la función de forma,
empleando por ejemplo un número (pequeño) de componentes
sinusoidales y esta información se incluye en el código CT
transitorio.
La señal 12 total menos el componente
transitorio se proporciona al codificador 13 sinusoidal en el que se
analiza para determinar las componentes sinusoidales
(determinísticas). En resumen, el codificador sinusoidal codifica
la señal de entrada como pistas de componentes sinusoidales
enlazadas de un segmento de trama al siguiente. Las pistas se
representan inicialmente por una frecuencia inicial, una amplitud
inicial y una fase inicial para una sinusoide que comienza en un
segmento dado- un nacimiento. Por tanto, la pista se representa en
segmentos subsiguientes por diferencias de frecuencia, diferencias
de amplitud y, posiblemente, diferencias de fase (continuaciones)
hasta el segmento en el que finaliza la pista (muerte) y esta
información se incluye en el código CS sinusoidal.
La señal menos las componentes sinusoidales y
transitorias que se supone para comprender principalmente ruido y
el analizador 15 de ruido de la realización preferida produce un
código CN de ruido representativo de este ruido. De manera
convencional, como, por ejemplo, en el documento WO
01/89086-A1, se modela un espectro del ruido
mediante el codificador de ruido con parámetros (pi, qi) de filtro
MA (de media móvil) AR (autorregresivo) combinado según un ancho de
banda rectangular equivalente (ERB, equivalent, rectangular,
bandwith). Dentro de un decodificador, los parámetros de filtro se
alimentan a un sintetizador de ruido, que es principalmente un
filtro, que presenta una respuesta de frecuencia que se aproxima al
espectro del ruido. El sintetizador genera ruido reconstruido al
filtrar una señal de ruido blanco con los parámetros (pi, qi) de
filtro ARMA y añade posteriormente esto a las señales sinusoides y
transitorias sintetizadas para generar un cálculo de la señal total
original.
El multiplexador 41 produce la capa 40 de audio
monoaural que se divide en tramas 42 que representan segmentos de
tiempo de solapamiento de longitud de 16 ms y que se actualizan cada
8 ms, figura 6. Cada trama incluye códigos CT, CS y CN respectivos
y en un decodificador los códigos para tramas sucesivas se mezclan
en sus regiones de solapamiento cuando se sintetiza la señal total
monoaural. En la presente realización se supone que cada trama
puede incluir solamente hasta un código CT transitorio y un ejemplo
de este tipo es un transiente indicado por el número de referencia
44.
El analizador 18 comprende adicionalmente un
generador 19 de capa de parámetros espaciales. Esta componente
realiza la cuantificación de parámetros espaciales para cada trama
de parámetros espaciales tal como se ha descrito anteriormente. En
general, el generador 19 divide cada canal 14 de capas espaciales en
tramas 46 que representan segmentos de tiempo de solapamiento de
longitud de 64 ms y que se actualizan cada 32 ms, figura 4. Cada
trama incluye una diferencia ILD, una ITD, un OTD y un valor (r) de
correlación y en el decodificador los valores para tramas sucesivas
se mezclan en sus regiones de solapamiento para determinar los
parámetros de capa espacial para cualquier momento dado cuando se
sintetiza la señal.
En la realización preferida, el generador 19
utiliza las posiciones transitorias detectadas por el codificador
11 transitorio en la capa 40 monoaural (o mediante un módulo
analizador correspondiente en la señal 12 sumada) para determinar
si se necesita una segmentación de tiempo no uniforme en
la(s) capa(s) 14 de parámetros espaciales. Si el
codificador está usando un código mp3 para generar la capa
monoaural, entonces el generador utiliza la presencia de un
indicador de conmutación de ventanas en el flujo monoaural como un
cálculo de la posición transitoria.
Finalmente, una vez que se han generado las
capas 14 de representación espacial y 40 monoaural, un multiplexador
43 las escribe a su vez en un flujo 50 de bits. Este flujo 50 de
audio se proporciona a su vez a, por ejemplo, un bus de datos, un
sistema de antenas, un medio de almacenamiento, etc.
Ahora, con referencia a la figura 5, un
decodificador 60 para usar en combinación con un codificador
descrito anteriormente incluye un demultiplexador 62 que divide un
flujo 50 de audio entrante en la capa 40' monoaural y en este caso
una única capa 14' de representación espacial. La capa 40' monoaural
se lee mediante un sintetizador 64 convencional que corresponde al
codificador que generó la capa para proporcionar un cálculo de
dominio temporal de la señal 12' sumada original.
Los parámetros 14' espaciales extraídos mediante
el demultiplexador 62 se aplican entonces mediante un módulo 66 de
procesamiento posterior a la señal 12' total para generar señales de
salida izquierda y derecha. El módulo de procesamiento posterior de
la realización preferida también lee la información de capa 14'
monoaural para ubicar las posiciones de transientes en esta señal y
procesarlas apropiadamente. Esto es, naturalmente, el caso
solamente en el que tales transientes se han codificado en la señal.
(Alternativamente, el sintetizador 64 podría proporcionar una
indicación de este tipo al procesador posterior: sin embargo, esto
necesitaría alguna ligera modificación del sintetizador 64
convencional por lo demás).
Dentro del postprocesador 66 se supone que una
representación de dominio de frecuencia de la señal 12' total tal
como se describe en la sección de análisis está disponible para el
procesamiento. Esta representación puede obtenerse aplicando una
función ventana y operaciones FFT de la forma de onda de dominio de
tiempo generada por el sintetizador 64. Entonces, la señal total se
copia en los trayectos de señal de salida izquierda y derecha.
Posteriormente, la correlación entre las señales izquierda y derecha
se modifica con un decorrelador 69', 69'' usando el parámetro
r.
Posteriormente, en etapas 70', 70'' respectivas,
se retarda cada sub-banda de la señal izquierda
mediante el valor TSL y la señal derecha se retarda mediante TSR
dada la(cuantificada) desde los valores OTD e ITD extraídos
del flujo de bits correspondiente a esa sub-banda.
Los valores de TSL y TSR se calculan según las fórmulas
proporcionadas anteriormente. Finalmente, las
sub-bandas derecha e izquierda se ajustan a escala
según la ILD para esa sub-banda en etapas 71', 71''
respectivas. Las etapas 72', 72'' de transformada respectivas
convierten entonces las señales de salida al dominio de tiempo, al
realizar las siguientes etapas: (1) insertando conjugados complejos
a frecuencias negativas, (2) FFT inversa, (3) aplicación de
funciones ventana, y (4) suma-solapamiento.
Como alternativa al esquema de codificación
anterior, existen otras maneras posibles en las que la diferencia
de fase podría codificarse. Por ejemplo, los parámetros podrían
incluir una ITD y una clave de distribución determinada, por
ejemplo, x. Entonces, el cambio de fase del canal derecho se
codificaría como x^{\ddagger}ITD, mientras que el cambio de fase
del canal izquierdo se codificaría como (1^{\ddagger}x)*ITD.
Claramente, pueden utilizarse otros esquemas de codificación para
implementar realizaciones de la invención.
Se observa que la presente invención puede
implementarse en un hardware especializado, en un software que se
ejecuta en un DSP (procesador de señal digital) o en un ordenador de
uso universal. La presente invención puede realizarse en un medio
tangible tal como un CD-ROM o un
DVD-ROM que porta un programa informático para
ejecutar un método de codificación según la invención. La invención
puede realizarse también como una señal transmitida por una red de
datos tal como internet o una señal transmitida por un servicio de
radiodifusión. La invención tiene una aplicación particular en el
campo de la descarga de internet. radio en internet, audio de
estado sólido (SSA, Solid State Audio), esquemas de extensión de
ancho de banda, por ejemplo, mp3PRO, CT-aacPlus
(véase www.codingtechnologies.com) y la mayoría de esquemas
de codificación de audio.
Claims (16)
1. Método de codificación de audio,
comprendiendo el método:
generar una señal monoaural desde al menos dos
canales de entrada de audio;
generar una señal codificada que incluye la
señal monoaural y un conjunto de parámetros para permitir la
reproducción de dos señales de salida de audio correspondiendo a un
canal de entrada respectivo;
caracterizado porque:
los parámetros incluyen una indicación de
desplazamiento global, siendo esto una medida de retardo entre la
señal de salida monoaural codificada y una de las señales de
entrada.
2. Método según la reivindicación 1, en el que
para la transmisión se utiliza una combinación lineal del
desplazamiento global y una fase entre canales o diferencia de
tiempo.
3. Método según la reivindicación 1, en el que
el desplazamiento global es un desplazamiento de tiempo global.
4. Método según la reivindicación 1, en el que
el desplazamiento global es un desplazamiento de fase global.
5. Método según la reivindicación 1, en el que
el desplazamiento global se determina por el retardo (o fase) que
mejor se ajusta entre la señal de salida monoaural totalmente
codificada y una de las señales de entrada.
6. Método según la reivindicación 5, en el
retardo que mejor se ajusta corresponde al máximo en la función de
correlación cruzada entre baldosas de tiempo/frecuencia
correspondientes de las señales de entrada.
7. Método según la reivindicación 1, en el que
el desplazamiento global se calcula con respecto a la señal de
entrada de mayor amplitud.
8. Método según la reivindicación 1, en el que
la diferencia de fase se codifica con un error de cuantificación
menor que el desplazamiento global.
9. Codificador para codificar una señal de audio
que comprende
medios para generar una señal monoaural desde al
menos dos canales de entrada de audio;
medios para generar una señal codificada que
incluye la señal monoaural y parámetros para permitir la
reproducción de dos señales de salida de audio correspondiendo a un
canal de entrada respectivo;
caracterizado porque:
los parámetros incluyen una indicación de
desplazamiento global, siendo esto una medida de retardo entre la
señal de salida monoaural codificada y una de las señales de
entrada.
10. Aparato para suministrar una señal de audio,
comprendiendo el aparato:
una entrada para recibir una señal de audio.
un codificador según la reivindicación 9 para
codificar una señal de audio para obtener una señal de audio
codificada, y una salida para suministrar la señal de audio
codificada.
11. Señal de audio codificada, comprendiendo la
señal:
una señal monoaural derivada de al menos dos
canales de entrada de audio;
una señal codificada que incluye la señal
monoaural y parámetros para permitir la reproducción de dos señales
de salida de audio correspondiendo cada una a un canal de entrada
respectivo;
caracterizada porque:
los parámetros incluyen una indicación de un
desplazamiento global, siendo esto una medida de retardo entre la
señal de salida monoaural codificada y una de las señales de
entrada.
12. Señal de audio codificada según la
reivindicación 11, en la que, para la transmisión se utiliza una
combinación lineal del desplazamiento global y una fase entre
canales o diferencia de tiempo.
13. Método para decodificar una señal de audio
codificada que representa al menos dos canales de audio, incluyendo
la señal de audio codificada una señal monoaural codificada y
parámetros espaciales, caracterizado porque la señal
codificada incluye parámetros que indican un desplazamiento global,
siendo una medida del retardo entre la señal de salida monoaural
codificada y uno de las canales de entrada, y porque el método
comprende generar un par estéreo de señales de audio de salida
desplazado en el tiempo y fase por un intervalo especificado por
los parámetros.
14. Decodificador para decodificar una señal de
audio codificada que representa al menos dos canales de audio,
incluyendo la señal de audio codificada una señal monoaural
codificada y parámetros espaciales, caracterizado porque la
señal de audio codificada incluye parámetros que indican un
desplazamiento global, siendo una medida del retardo entre la señal
monoaural codificada y uno de las canales de audio, y porque el
decodificador comprende medios para generar un par estéreo de
señales de audio de salida desplazado en el tiempo y fase por un
intervalo especificado por los parámetros.
15. Decodificador, según la reivindicación 14,
en el que se utiliza una combinación lineal del desplazamiento
global y una diferencia de fase o tiempo entre canales se usa para
la transmisión.
16. Aparato para suministrar una señal de audio,
decodificada comprendiendo el aparato:
una entrada para recibir una señal de audio
codificada,
un decodificador según la reivindicación 14,
para decodificar la señal de audio codificada para obtener una
señal de salida multicanal,
una salida para suministrar o reproducir la
señal de salida multicanal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03100278 | 2003-02-11 | ||
EP03100278 | 2003-02-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2273216T3 true ES2273216T3 (es) | 2007-05-01 |
Family
ID=32865026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04709311T Expired - Lifetime ES2273216T3 (es) | 2003-02-11 | 2004-02-09 | Codificacion de audio. |
Country Status (9)
Country | Link |
---|---|
US (2) | US7181019B2 (es) |
EP (1) | EP1595247B1 (es) |
JP (1) | JP4431568B2 (es) |
KR (1) | KR101049751B1 (es) |
CN (1) | CN1748247B (es) |
AT (1) | ATE339759T1 (es) |
DE (1) | DE602004002390T2 (es) |
ES (1) | ES2273216T3 (es) |
WO (1) | WO2004072956A1 (es) |
Families Citing this family (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
BR0305555A (pt) * | 2002-07-16 | 2004-09-28 | Koninkl Philips Electronics Nv | Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado |
FR2852779B1 (fr) * | 2003-03-20 | 2008-08-01 | Procede pour traiter un signal electrique de son | |
WO2005043511A1 (en) | 2003-10-30 | 2005-05-12 | Koninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
CN1973320B (zh) * | 2004-04-05 | 2010-12-15 | 皇家飞利浦电子股份有限公司 | 立体声编码和解码的方法及其设备 |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US7391870B2 (en) * | 2004-07-09 | 2008-06-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Apparatus and method for generating a multi-channel output signal |
EP1769491B1 (en) * | 2004-07-14 | 2009-09-30 | Koninklijke Philips Electronics N.V. | Audio channel conversion |
DE102004042819A1 (de) | 2004-09-03 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals |
JP4892184B2 (ja) | 2004-10-14 | 2012-03-07 | パナソニック株式会社 | 音響信号符号化装置及び音響信号復号装置 |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
KR101236259B1 (ko) * | 2004-11-30 | 2013-02-22 | 에이저 시스템즈 엘엘시 | 오디오 채널들을 인코딩하는 방법 및 장치 |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
WO2006060279A1 (en) | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
KR100682904B1 (ko) * | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
KR20070092240A (ko) * | 2004-12-27 | 2007-09-12 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치 및 음성 부호화 방법 |
EP1821287B1 (en) * | 2004-12-28 | 2009-11-11 | Panasonic Corporation | Audio encoding device and audio encoding method |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US8768691B2 (en) * | 2005-03-25 | 2014-07-01 | Panasonic Corporation | Sound encoding device and sound encoding method |
DE602006000239T2 (de) | 2005-04-19 | 2008-09-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter |
US8170883B2 (en) | 2005-05-26 | 2012-05-01 | Lg Electronics Inc. | Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal |
JP5006315B2 (ja) | 2005-06-30 | 2012-08-22 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のエンコーディング及びデコーディング方法及び装置 |
US8073702B2 (en) | 2005-06-30 | 2011-12-06 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8494667B2 (en) | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
EP1905008A2 (en) * | 2005-07-06 | 2008-04-02 | Koninklijke Philips Electronics N.V. | Parametric multi-channel decoding |
US7830921B2 (en) | 2005-07-11 | 2010-11-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
JP5173811B2 (ja) | 2005-08-30 | 2013-04-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US8577483B2 (en) | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
WO2007055463A1 (en) | 2005-08-30 | 2007-05-18 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
KR101340233B1 (ko) | 2005-08-31 | 2013-12-10 | 파나소닉 주식회사 | 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법 |
US8243969B2 (en) | 2005-09-13 | 2012-08-14 | Koninklijke Philips Electronics N.V. | Method of and device for generating and processing parameters representing HRTFs |
KR100857105B1 (ko) | 2005-09-14 | 2008-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 장치 |
EP1764780A1 (en) * | 2005-09-16 | 2007-03-21 | Deutsche Thomson-Brandt Gmbh | Blind watermarking of audio signals by using phase modifications |
US7974713B2 (en) | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US7716043B2 (en) | 2005-10-24 | 2010-05-11 | Lg Electronics Inc. | Removing time delays in signal paths |
PL1989920T3 (pl) * | 2006-02-21 | 2010-07-30 | Koninl Philips Electronics Nv | Kodowanie i dekodowanie dźwięku |
CN101517637B (zh) * | 2006-09-18 | 2012-08-15 | 皇家飞利浦电子股份有限公司 | 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备 |
JPWO2008090970A1 (ja) * | 2007-01-26 | 2010-05-20 | パナソニック株式会社 | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 |
KR101080421B1 (ko) * | 2007-03-16 | 2011-11-04 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치 |
JPWO2008132826A1 (ja) * | 2007-04-20 | 2010-07-22 | パナソニック株式会社 | ステレオ音声符号化装置およびステレオ音声符号化方法 |
KR101425355B1 (ko) * | 2007-09-05 | 2014-08-06 | 삼성전자주식회사 | 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법 |
CN101802907B (zh) | 2007-09-19 | 2013-11-13 | 爱立信电话股份有限公司 | 多信道音频的联合增强 |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101084154B1 (ko) | 2007-09-28 | 2011-11-16 | 엘지전자 주식회사 | 신호 송수신 장치 및 신호 송수신 방법 |
EP2186283A4 (en) * | 2007-10-18 | 2011-03-09 | Lg Electronics Inc | METHOD AND SYSTEM FOR TRANSMITTING AND RECEIVING SIGNALS |
KR101505831B1 (ko) | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
CN101149925B (zh) * | 2007-11-06 | 2011-02-16 | 武汉大学 | 一种用于参数立体声编码的空间参数选取方法 |
EP2293510A3 (en) * | 2007-11-14 | 2011-04-27 | Lg Electronics Inc. | Method and system for transmitting and receiving signals |
CN101836250B (zh) | 2007-11-21 | 2012-11-28 | Lg电子株式会社 | 用于处理信号的方法及装置 |
CA2708861C (en) * | 2007-12-18 | 2016-06-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
KR101444102B1 (ko) * | 2008-02-20 | 2014-09-26 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
US8060042B2 (en) * | 2008-05-23 | 2011-11-15 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
US8355921B2 (en) | 2008-06-13 | 2013-01-15 | Nokia Corporation | Method, apparatus and computer program product for providing improved audio processing |
RU2491656C2 (ru) * | 2008-06-27 | 2013-08-27 | Панасоник Корпорэйшн | Устройство декодирования звукового сигнала и способ регулирования баланса устройства декодирования звукового сигнала |
KR101428487B1 (ko) * | 2008-07-11 | 2014-08-08 | 삼성전자주식회사 | 멀티 채널 부호화 및 복호화 방법 및 장치 |
EP2313886B1 (en) | 2008-08-11 | 2019-02-27 | Nokia Technologies Oy | Multichannel audio coder and decoder |
WO2010042024A1 (en) | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
US8504378B2 (en) * | 2009-01-22 | 2013-08-06 | Panasonic Corporation | Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same |
EP2402941B1 (en) * | 2009-02-26 | 2015-04-15 | Panasonic Intellectual Property Corporation of America | Channel signal generation apparatus |
US8666752B2 (en) | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
CN101521013B (zh) * | 2009-04-08 | 2011-08-17 | 武汉大学 | 空间音频参数双向帧间预测编解码装置 |
CN101533641B (zh) | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
ES2400661T3 (es) | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
US8250431B2 (en) * | 2009-07-30 | 2012-08-21 | Lsi Corporation | Systems and methods for phase dependent data detection in iterative decoding |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP2476113B1 (en) * | 2009-09-11 | 2014-08-13 | Nokia Corporation | Method, apparatus and computer program product for audio coding |
WO2011039668A1 (en) | 2009-09-29 | 2011-04-07 | Koninklijke Philips Electronics N.V. | Apparatus for mixing a digital audio |
KR101710113B1 (ko) | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
CN102157152B (zh) | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102157150B (zh) | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声解码方法及装置 |
CN108989721B (zh) * | 2010-03-23 | 2021-04-16 | 杜比实验室特许公司 | 用于局域化感知音频的技术 |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
CA2809437C (en) * | 2010-08-25 | 2016-06-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for decoding a signal comprising transients using a combining unit and a mixer |
WO2012040898A1 (en) * | 2010-09-28 | 2012-04-05 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
KR101930907B1 (ko) * | 2011-05-30 | 2019-03-12 | 삼성전자주식회사 | 오디오 신호 처리 방법, 그에 따른 오디오 장치, 및 그에 따른 전자기기 |
CN104050969A (zh) | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
US9990935B2 (en) | 2013-09-12 | 2018-06-05 | Dolby Laboratories Licensing Corporation | System aspects of an audio codec |
KR101841380B1 (ko) * | 2014-01-13 | 2018-03-22 | 노키아 테크놀로지스 오와이 | 다중-채널 오디오 신호 분류기 |
KR101500972B1 (ko) * | 2014-03-05 | 2015-03-12 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
FR3048808A1 (fr) * | 2016-03-10 | 2017-09-15 | Orange | Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal |
CN107358960B (zh) * | 2016-05-10 | 2021-10-26 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN107358961B (zh) * | 2016-05-10 | 2021-09-17 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN107742521B (zh) | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
US10366695B2 (en) * | 2017-01-19 | 2019-07-30 | Qualcomm Incorporated | Inter-channel phase difference parameter modification |
CN108694955B (zh) | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
CN113316941B (zh) * | 2019-01-11 | 2022-07-26 | 博姆云360公司 | 声场保存音频通道求和 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1186396B (it) * | 1985-11-26 | 1987-11-26 | Sgs Microelettronica Spa | Sistema per la creazione di un effetto pseudostereo nella riproduzione di suone monofonico |
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
PL338988A1 (en) * | 1997-09-05 | 2000-12-04 | Lexicon | Matrix-type 5-2-5 encoder and decoder system |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US6973184B1 (en) * | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
-
2004
- 2004-02-09 AT AT04709311T patent/ATE339759T1/de not_active IP Right Cessation
- 2004-02-09 KR KR1020057014729A patent/KR101049751B1/ko active IP Right Grant
- 2004-02-09 EP EP04709311A patent/EP1595247B1/en not_active Expired - Lifetime
- 2004-02-09 DE DE602004002390T patent/DE602004002390T2/de not_active Expired - Lifetime
- 2004-02-09 US US10/545,096 patent/US7181019B2/en not_active Expired - Lifetime
- 2004-02-09 ES ES04709311T patent/ES2273216T3/es not_active Expired - Lifetime
- 2004-02-09 JP JP2006502569A patent/JP4431568B2/ja not_active Expired - Lifetime
- 2004-02-09 CN CN2004800039491A patent/CN1748247B/zh not_active Expired - Lifetime
- 2004-02-09 WO PCT/IB2004/050085 patent/WO2004072956A1/en active IP Right Grant
-
2007
- 2007-01-26 US US11/627,584 patent/US8831759B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP1595247B1 (en) | 2006-09-13 |
DE602004002390T2 (de) | 2007-09-06 |
CN1748247A (zh) | 2006-03-15 |
JP4431568B2 (ja) | 2010-03-17 |
US8831759B2 (en) | 2014-09-09 |
KR101049751B1 (ko) | 2011-07-19 |
CN1748247B (zh) | 2011-06-15 |
US20070127729A1 (en) | 2007-06-07 |
KR20050095896A (ko) | 2005-10-04 |
WO2004072956A1 (en) | 2004-08-26 |
EP1595247A1 (en) | 2005-11-16 |
JP2006518482A (ja) | 2006-08-10 |
US7181019B2 (en) | 2007-02-20 |
ATE339759T1 (de) | 2006-10-15 |
US20060147048A1 (en) | 2006-07-06 |
DE602004002390D1 (de) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2273216T3 (es) | Codificacion de audio. | |
ES2677524T3 (es) | Decodificador y método para decodificar una señal de audio, codificador y método para codificar una señal de audio | |
ES2880883T3 (es) | Codificador, decodificador y métodos para la adaptación dinámica compatible inversamente de resolución de tiempo/frecuencia en la codificación de objetos de audio espacial | |
ES2773794T3 (es) | Aparato y procedimiento para estimar una diferencia de tiempos entre canales | |
ES2427278T3 (es) | Transposición armónica mejorada de producto cruzado | |
ES2323294T3 (es) | Dispositivo de decodificacion con una unidad de decorrelacion. | |
ES2297600T3 (es) | Metodo para la reduccion de duplicacion introducida por ajuste de envolvente especial en bancos de filtros de valor real. | |
US20050177360A1 (en) | Audio coding | |
ES2259158T3 (es) | Metodo y aparato decodificador audio. | |
ES2247466T3 (es) | Mejora de codificacion de la fuente utilizando replicacion de la banda espectral. | |
ES2604758T3 (es) | Codificación de señales de audio por transformada modificada deformada en el tiempo | |
ES2261974T3 (es) | Parato decodificador y metodo de decodificacion audio basado en una duplicacion de banda espectral. | |
ES2703327T3 (es) | Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible | |
ES2547232T3 (es) | Método y aparato para procesar una señal | |
ES2673319T3 (es) | Control de coherencia de fase para señales armónicas en códecs de audio perceptual | |
MX2011000361A (es) | Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda. | |
KR20100086000A (ko) | 오디오 신호 처리 방법 및 장치 | |
RU2006127273A (ru) | Способ и устройство масштабирования сигнала по времени | |
ES2783975T3 (es) | Codificación multicanal | |
JP4313993B2 (ja) | オーディオ復号化装置およびオーディオ復号化方法 | |
BR112016030374B1 (pt) | Calculadora e método para determinação de dados de correção de fase para um sinal de áudio |