DE19730130C2 - Verfahren zum Codieren eines Audiosignals - Google Patents
Verfahren zum Codieren eines AudiosignalsInfo
- Publication number
- DE19730130C2 DE19730130C2 DE19730130A DE19730130A DE19730130C2 DE 19730130 C2 DE19730130 C2 DE 19730130C2 DE 19730130 A DE19730130 A DE 19730130A DE 19730130 A DE19730130 A DE 19730130A DE 19730130 C2 DE19730130 C2 DE 19730130C2
- Authority
- DE
- Germany
- Prior art keywords
- noise
- spectral
- values
- audio signal
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000005236 sound signal Effects 0.000 title claims abstract description 46
- 230000003595 spectral effect Effects 0.000 claims abstract description 155
- 238000006467 substitution reaction Methods 0.000 claims abstract description 36
- 230000002123 temporal effect Effects 0.000 claims abstract description 21
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 2
- 230000001052 transient effect Effects 0.000 abstract description 17
- 238000013139 quantization Methods 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 231100000567 intoxicating Toxicity 0.000 description 7
- 230000002673 intoxicating effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 238000005755 formation reaction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 231100000566 intoxication Toxicity 0.000 description 3
- 230000035987 intoxication Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 206010001497 Agitation Diseases 0.000 description 1
- 230000001464 adherent effect Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
Die vorliegende Erfindung bezieht sich auf Verfahren zum Co
dieren von Audiosignalen und insbesondere auf ein Verfahren
zum Codieren eines Audiosignals für den gerade in der Ent
wicklung befindlichen Standard MPEG-2 AAC.
Der Standardisierungskörper ISO/IEC JTC1/SC29/WG11, der auch
als die Moving Pictures Expert Group (MPEG) bekannt ist,
wurde 1988 gegründet, um digitale Video- und Audiocodier
ungsschemen für niedrige Datenraten zu spezifizieren. Im
November 1992 wurde die erste Spezifikationsphase durch den
Standard MPEG-1 vollendet. Das Audiocodiersystem nach
MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in
einem Einkanal- oder Zweikanalstereo-Modus bei Abtastfre
quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-1
Layer II liefert Rundfunkqualität, wie sie durch die Inter
national Telecommunication Union spezifiziert ist, bei einer
Datenrate von 128 kb/s pro Kanal.
In seiner zweiten Entwicklungsphase bestanden die Ziele von
MPEG darin, eine Mehrkanalerweiterung für MPEG-1-Audio zu
definieren, die zur existierenden MPEG-1-Systemen rückwärts
kompatibel sein sollte, und ebenfalls einen Audiocodier
standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz,
24 kHz) als bei MPEG-1 zu definieren. Der rückwärtskompa
tible Standard (MPEG-2 BC) sowie der Standard mit niedri
geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994
vollendet. MPEG-2 BC liefert eine gute Audioqualität bei
Datenraten von 640-896 kb/s für 5 Kanäle mit voller Band
breite. Seit 1994 besteht eine weitere Anstrengung des
MPEG-2-Audiostandardisierungskommittees darin, einen Multi
kanalstandard mit höherer Qualität zu definieren, als sie
erreichbar ist, wenn eine Rückwärtskompatibilität zur MPEG-1
gefordert wird. Dieser nicht-rückwärtskompatible Audio
standard gemäß MPEG-2 wird als MPEG-2 NBC bezeichnet. Das
Ziel dieser Entwicklung besteht darin, Rundfunkqualitäten
gemäß den ITU-R-Anforderungen bei Datenraten von 384 kb/s
oder darunter für 5-kanalige Audiosignale, bei denen jeder
Kanal die volle Bandbreite hat, zu erreichen. Der Audio
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das
Schema MPEG-2 NBC wird den Kern für den bereits geplanten
Audiostandard MPEG-4 bilden, welcher höhere Datenraten haben
wird (über 40 kb/s pro Kanal). Der NBC oder nicht rückwärts
kompatible Standard kombiniert den Codierwirkungsgrad einer
hochauflösenden Filterbank, von Prädiktionstechniken und der
redundanzreduzierenden Huffman-Codierung, um eine Audioco
dierung mit Rundfunkqualität bei sehr niedrigen Datenraten
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine
detaillierte Darstellung des technischen Inhalts von MPEG-2
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush,
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G.
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio
Coding", 101st AES Convention, Los Angeles 1996, Preprint
4382.
Effiziente Audiocodierverfahren entfernen sowohl Redundanzen
als auch Irrelevanzen von Audiosignalen. Korrelationen
zwischen Audioabtastwerten und Statistiken der Abtastwert
darstellung werden ausgenutzt, um Redundanzen zu entfernen.
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaften
des menschlichen Gehörsystems werden ausgenutzt, um nicht-
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der
Frequenzgehalt des Audiosignals wird mittels einer Filter
bank in Teilbänder unterteilt. Die Datenratenreduktion wird
erreicht, indem das Spektrum des Zeitsignals gemäß psycho
akustischen Modellen quantisiert wird, und dieselbe kann ein
verlustloses Codierverfahren umfassen.
Allgemein gesagt wird ein zeitkontinuierliches Audiosignal
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten.
Das zeitdiskrete Audiosignal wird mittels einer Fenster
funktion gefenstert, um aufeinanderfolgende Blöcke oder
Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird
jeder Block von gefensterten zeitdiskreten Abtastwerten des
Audiosignals in den Frequenzbereich transformiert, wobei
beispielsweise eine modifizierte diskrete Cosinustransfor
mation (MDCT) verwendet werden kann. Die somit erhaltenen
Spektralwerte sind noch nicht quantisiert und müssen demnach
quantisiert werden. Das Hauptziel dabei besteht darin, die
Spektraldaten derart zu quantisieren, daß das Quantisie
rungsrauschen durch die quantisierten Signale selbst mas
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard
beschriebenes psychoakustisches Modell herangezogen, das
unter Berücksichtigung der speziellen Eigenschaften des
menschlichen Gehörs abhängig von dem vorliegenden Audiosi
gnal Maskierungsschwellen berechnet. Die Spektralwerte wer
den nun derart quantisiert, daß das eingeführte Quantisie
rungsrauschen versteckt und somit unhörbar wird. Das Quan
tisieren führt also zu keinem hörbaren Rauschen.
In dem NBC-Standard wird ein sog. ungleichförmiger Quanti
sierer verwendet. Zusätzlich wird ein Verfahren verwendet,
um das Quantisierungsrauschen zu formen. Das NBC-Verfahren
verwendet wie auch vorhergangene Standards die einzelne
Verstärkung von Gruppen von Spektralkoeffizienten, welche
als Skalenfaktorbänder bekannt sind. Um so effizient wie
möglich zu arbeiten, ist es wünschenswert, in der Lage zu
sein, das Quantisierungsrauschen in Einheiten zu formen, die
an die Frequenzgruppen des menschlichen Gehörsystems mög
lichst angelehnt sind. Es ist somit möglich, Spektralwerte
zu gruppieren, welche die Bandbreite der Frequenzgruppen
sehr eng wiedergeben. Einzelne Skalenfaktorbänder können
mittels Skalenfaktoren in Stufen von 1,5 dB verstärkt
werden. Die Rauschformung wird erreicht, da verstärkte
Koeffizienten größere Amplituden haben. Daher werden sie im
allgemeinen ein höheres Signal/Rausch-Verhältnis nach der
Quantisierung zeigen. Andererseits benötigen größere
Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung
zwischen den Skalenfaktorbändern wird implizit verändert.
Selbstverständlich muß die Verstärkung durch die Skalenfak
toren im Decodierer korrigiert werden. Aus diesem Grund müs
sen die Verstärkungsinformationen, die in den Skalenfaktoren
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei
teninformationen zu dem Decodierer übertragen werden.
Nach der Quantisierung der in Skalenfaktorbändern vorliegen
den ggf. durch Skalenfaktoren verstärkten Spektralwerte sol
len dieselben codiert werden. Das Eingangssignal in ein
rauschloses Codiermodul ist somit der Satz von beispiels
weise 1024 quantisierten Spektralkoeffizienten. Durch das
rauschlose Codiermodul werden die Sätze von 1024 quanti
sierten Spektralkoeffizienten in Abschnitte oder "Sections"
eingeteilt, derart, daß eine einzige Huffman-Codiertabelle
("Codebook") verwendet wird, um jeden Abschnitt zu codieren.
Aus Codiereffizienzgründen können Abschnittsgrenzen nur an
Skalenfaktorbandgrenzen vorhanden sein, derart, daß für
jeden Abschnitt oder "Section" des Spektrums sowohl die
Länge des Abschnitts in Skalenfaktorbändern als auch die
Huffman-Codiertabellennummer, die für den Abschnitt ver
wendet wird, als Seiteninformationen übertragen werden
müssen.
Das Bilden der Abschnitte ist dynamisch und variiert typi
scherweise von Block zu Block, derart, daß die Anzahl von
Bits, die benötigt werden, um den vollen Satz von quanti
sierten Spektralkoeffizienten darzustellen, minimiert wird.
Die Huffman-Codierung wird verwendet, um n-Tupel von quan
tisierten Koeffizienten darzustellen, wobei der Huffman-Code
von einer von 12 Codiertabellen abgeleitet wird. Der maxi
male absolute Wert der quantisierten Koeffizienten, der von
jeder Huffman-Codiertabelle dargestellt werden kann, und die
Anzahl von Koeffizienten in jedem n-Tupel für jede Codierta
belle sind a priori festgelegt.
Der Sinn des Bildens der Abschnitte oder Sections besteht
also darin, Bereiche mit gleicher Signalstatistik zu grup
pieren, um mittels einer einzigen Huffman-Codiertabelle für
eine Section einen möglichst hohen Codiergewinn zu errei
chen, wobei der Codiergewinn allgemein durch den Quotienten
aus Bits vor der Codierung und Bits nach der Codierung de
finiert ist. Mittels einer Codiertabellennummer ("Codebook
number"), die in der für das NBC-Verfahren verwendeten Bit
stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co
diertabellen verwiesen, welche für einen speziellen Ab
schnitt den höchsten Codiergewinn ermöglicht. Der Ausdruck
"Codiertabellennummer" soll in dieser Anmeldung somit den
Platz in der Bitstromsyntax bezeichnen, der für die Codier
tabellennummer reserviert ist. Um 11 verschiedene Codierta
bellennummern binär zu codieren, werden 4 Bit benötigt. Die
se 4 Bit müssen für jeden Abschnitt, d. h. für jede Gruppe
von Spektralwerten, als Seiteninformationen übertragen wer
den, damit der Decodierer zum Decodieren die entsprechende
korrekte Codiertabelle auswählen kann.
Fig. 2 zeigt eine allgemeine Übersicht über einen Codierer
und einen Decodierer, die nach dem beschriebenen Basiskon
zept arbeiten. Über einen Audioeingang 200 wird ein vorzugs
weise bereits zeitdiskret vorliegendes Audiosignal einge
speist. Das zeitdiskret vorliegende Audiosignal wird nun
innerhalb eines Blocks 202, der die Bezeichnung Analysefil
terbank trägt, mit einer Fensterfunktion gefenstert, um
Blöcke von zeitdiskreten gefensterten Audiosignalen, welche
auch als "Frames" bezeichnet werden, zu erhalten. In der
Analysefilterbank 202 werden die Blöcke von gefensterten
Werten in den Frequenzbereich transformiert. Am Ausgang der
Analysefilterbank 202 erscheinen also Spektralwerte, die in
einem Block Quantisierung und Codierung 204 zuerst quanti
siert und dann beispielsweise mittels einer Huffman-Codie
rung Redundanz-codiert werden. Aus dem zeitdiskreten Audio
eingangssignal am Audioeingang 200 werden ferner mittels ei
nes psychoakustischen Modells 206 Maskierungsinformationen
berechnet, die bei der Quantisierung verwendet werden, damit
das eingeführte Quantisierungsrauschen zum Quantisieren der
Spektralwerte durch dieselben psychoakustisch maskiert oder
verdeckt wird. Die quantisierten und codierten Spektralwerte
werden bei dem Codierer in einen Bitstrommultiplexer 208
eingespeist, der aus dem quantisierten und Redundanz-codier
ten Spektralwerten einen Bitstrom bildet, wobei der Bitstrom
ferner zur Decodierung erforderliche Seiteninformationen
aufweist, wie es für Fachleute bekannt ist. An einem Bit
stromausgang 210 liegt der fertig codierte Bitstrom vor, der
nun eine codierte Version des Audiosignals am Audioeingang
200 ist. Dieser Bitstrom wird zu einem Decodierer übertragen
und in einen Bitstromeingang 212 desselben eingespeist. In
dem Bitstromdemultiplexer 214 wird der Bitstrom in Seitenin
formationen und quantisierte und codierte Spektralwerte
zerlegt, welche in dem Block inverse Quantisierung 216 Re
dundanz-decodiert und requantisiert werden, um einer Syn
tesefilterbank 218 zugeführt zu werden, die die am Eingang
derselben vorliegenden Spektralwerte wieder in den Zeit
bereich transformiert, woraufhin ein codiertes und deco
diertes Audiosignal an einem Audioausgang 220 des Deco
dierers vorliegt. Das am Audioausgang 220 vorliegende
zeitdiskrete codierte und decodierte Audiosignal entspricht
bis auf eingeführte Codierungsfehler dem ursprünglichen am
Audioeingang 200 vorliegenden zeitdiskreten Audiosignal.
Ebenfalls bereits bekannt und in der Technik beschrieben (J.
Herre, J. D. Johnston, "Enhancing the Performance of
Perceptual Audio Coders by Using Temporal Noise Shaping
(TNS)", 101st AES Convention, Los Angeles 1996, Preprint
4384) ist die sog. "Temporal Noise Shaping"-Technik. Die
TNS-Technik (TNS = Temporal Noise Shaping = zeitliche
Rauschformung) gestattet allgemein gesagt mittels einer
prädiktiven Codierung der Spektralwerte eine zeitliche
Formung der Feinstruktur des Quantisierungsrauschens. Die
TNS-Technik basiert auf einer konsequenten Anwendung des
Dualismus zwischen Zeit- und Frequenzbereich. Aus der
Technik ist bekannt, daß die Autokorrelationsfunktion eines
Zeitsignals, wenn sie in den Frequenzbereich transformiert
wird, die spektrale Leistungsdichte eben diesen Zeitsignals
angibt. Der duale Fall dazu ergibt sich, wenn die Auto
korrelationsfunktion des Spektrums eines Signals gebildet
wird und in den Zeitbereich transformiert wird. Die in den
Zeitbereich transformierte oder rücktransformierte Auto
korrelationsfunktion wird auch als Quadrat der Hilbert-
Hüllkurve des Zeitsignals bezeichnet. Die Hilbert-Hüllkurve
eines Signals ist somit direkt mit der Autokorrelations
funktion seines Spektrums verbunden. Die quadrierte Hil
bert-Hüllkurve eines Signals und die spektrale Leistungs
dichte desselben stellen somit duale Aspekte im Zeitbereich
und im Frequenzbereich dar. Wenn die Hilbert-Hüllkurve eines
Signals für jedes Teilbandpaßsignal über einem Bereich von
Frequenzen konstant bleibt, dann wird auch die Autokor
relation zwischen benachbarten Spektralwerten konstant sein.
Dies bedeutet in der Tat, daß die Serie von Spektralkoeffi
zienten über der Frequenz stationär ist, weshalb prädiktive
Codiertechniken effizient verwendet werden können, um dieses
Signal darzustellen, und zwar unter Verwendung eines gemein
samen Satzes von Prädiktionskoeffizienten.
Um diesen Sachverhalt zu veranschaulichen, sei auf die Fig.
5a und 5b verwiesen. Fig. 5a zeigt einen kurzen Ausschnitt
aus einem zeitlich stark transienten "Kastagnetten"-Signal
einer Dauer von ca. 40 ms. Dieses Signal wurde in mehrere
Teilbandpaßsignale zerlegt, wobei jedes Teilbandpaßsignal
eine Bandbreite von 500 Hz hat. Fig. 5b zeigt nun die Hil
bert-Hüllkurven für diese Bandpaßsignale mit Mittenfre
quenzen, die von 1500 Hz bis 4000 Hz reichen. Aus Klarheits
gründen wurden alle Hüllkurven auf ihre Maximalamplitude
normiert. Offensichtlich sind die Formen aller Teilhüll
kurven sehr stark aufeinander bezogen, weshalb ein gemein
samer Prädiktor innerhalb dieses Frequenzbereiches verwendet
werden kann, um das Signal effizient zu codieren. Ähnliche
Beobachtungen können bei Sprachsignalen gemacht werden, bei
denen der Effekt der glottalen Erregungspulse über dem ge
samten Frequenzbereich aufgrund der Natur des menschlichen
Spracherzeugungsmechanismus vorhanden ist.
Fig. 5b zeigt also, daß die Korrelation benachbarter Werte
beispielsweise bei einer Frequenz von 2000 Hz ähnlich wie
bei beispielsweise einer Frequenz von 3000 Hz bzw. 1000 Hz
ist.
Eine alternative Weise zum Verständnis der Eigenschaft der
spektralen Prädiktierbarkeit von transienten Signalen kann
aus der in Fig. 4 dargestellten Tabelle erhalten werden.
Links oben in der Tabelle ist ein zeitkontinuierliches
Signal u(t) gezeigt, das einen sinusförmigen Verlauf hat.
Dem ist das Spektrum U(f) dieses Signales gegenübergestellt,
das aus einem einzigen Dirac-Impuls besteht. Die optimale
Codierung für dieses Signal besteht in der Codierung von
Spektraldaten oder Spektralwerten, da hier für das gesamte
Zeitsignal lediglich sowohl der Betrag als auch die Phase
des Fourrierkoeffizienten übertragen werden braucht, um das
Zeitsignal vollständig rekonstruieren zu können. Ein
Codieren von Spektraldaten entspricht gleichzeitig einer
Prädiktion im Zeitbereich. Eine prädiktive Codierung würde
hier also im Zeitbereich stattfinden müssen. Das sinusför
mige Zeitsignal hat also eine flache zeitliche Hüllkurve,
welche einer maximal nicht flachen Hüllkurve im Frequenz
bereich entspricht.
Nun sei der entgegengestzte Fall betrachtet, bei dem das
Zeitsignal u(t) ein maximal transientes Signal in der Form
eines Dirac-Impulses im Zeitbereich ist. Ein Dirac-Impuls im
Zeitbereich entspricht einem "flachen" Leistungsspektrum,
während das Phasenspektrum gemäß der zeitlichen Position des
Impulses rotiert. Offensichtlich stellt dieses Signal für
die oben erwähnten traditionellen Verfahren, wie z. B. die
Transformationscodierung oder Codierung von Spektraldaten
oder eine lineare Prädiktionscodierung der Zeitbereichs
daten, ein Problem dar. Dieses Signal kann am besten und
effektivsten im Zeitbereich codiert werden, da lediglich die
zeitliche Position sowie die Leistung des Dirac-Impulses
übertragen werden muß, was durch konsequente Anwendung des
Dualismus dazu führt, daß auch eine prädiktive Codierung im
Frequenzbereich eine geeignetes Verfahren zur effizienten
Codierung darstellt.
Es ist sehr wichtig, nicht die prädiktive Codierung von
Spektralkoeffizienten über der Frequenz mit dem bekannten
dualen Konzept der Prädiktion von Spektralkoeffizienten von
einem Block zum nächsten zu verwechseln, das bereits imple
mentiert ist und ebenfalls in dem oben erwähnten Artikel (M.
Bosi, K. Brandenburg, S. Quakenbush, L. Fielder, K. Akagiri,
H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa:
"ISO/IEC MPEG-2 Advanced Audio Coding", 101st AES Con
vention, Los Angeles 1996, Preprint 4382) beschrieben ist.
Bei der Prädiktion von Spektralkoeffizienten von einem Block
zum nächsten, welche einer Prädiktion über der Zeit ent
spricht, wird die spektrale Auflösung erhöht, während eine
Prädiktion von Spektralwerten über der Frequenz die zeit
liche Auflösung steigert. Ein Spektralkoeffizient bei bei
spielsweise 1000 Hz kann also durch den Spektralkoeffizien
ten bei beispielsweise 900 Hz in demselben Block oder Frame
ermittelt werden.
Die dargestellten Überlegungen führten also dazu, ein effi
zientes Codierverfahren für transiente Signale zu erhalten.
Prädiktive Codiertechniken können unter Berücksichtigung der
Dualität zwischen Zeit und Frequenzbereich im wesentlichen
analog zu der bereits bekannten Prädiktion von einem Spek
tralkoeffizienten zum Spektralkoeffizienten mit gleicher
Frequenz im nächsten Block behandelt werden. Da die spek
trale Leistungsdichte und die quadrierte Hilbert-Hüllkurve
eines Signals dual zueinander sind, wird eine Reduktion
einer Restsignalenergie oder ein Prädiktionsgewinn abhängig
von einem Flachheitsmaß der quadrierten Hüllkurve des
Signals im Gegensatz zu einem spektralen Flachheitsmaß beim
konventionellen Prädiktionsverfahren erhalten. Der poten
tielle Codierungsgewinn steigt mit transienteren Signalen
an.
Als mögliche Prädiktionsschemen bietet sich sowohl das Prädiktionsschema
mit geschlossener Schleife, das auch Rück
wärtsprädiktion genannt wird, sowie das Prädiktionsschema
mit offener Schleife, das auch Vorwärtsprädiktion genannt
wird, an. Beim spektralen Prädiktionsschema mit geschlos
sener Schleife (Rückwärtsprädiktion) ist die Hüllkurve des
Fehlers flach. Anders ausgedrückt wird die Fehlersignalener
gie gleichmäßig über der Zeit verteilt.
Bei einer Vorwärtsprädiktion, wie sie in Fig. 6 dargestellt
ist, tritt jedoch eine zeitliche Formung des durch die Quan
tisierung eingeführten Rauschens auf. Ein zu prädizierender
Spektralkoeffizient x(f) wird einem Summationspunkt 600 zu
geführt. Derselbe Spektralkoeffizient wird ferner einem Prä
diktor 610 zugeführt, dessen Ausgangssignal mit negativem
Vorzeichen ebenfalls dem Summationspunkt 600 zugeführt wird.
Das Eingangssignal in einen Quantisierer 620 stellt somit
die Differenz des Spektralwerts x(f) und des durch Prädik
tion berechneten Spektralwerts xP(f) dar. Bei der Vorwärts
prädiktion wird die Gesamtfehlerenergie in den decodierten
Spektralkoeffizientendaten gleichbleiben. Die zeitliche Form
des Quantisierungsfehlersignals wird jedoch als zeitlich
geformt am Ausgang des Decodierers erscheinen, da die Prä
diktion auf die Spektralkoeffizienten angewendet wurde,
wodurch das Quantisierungsrauschen zeitlich unter das tat
sächliche Signal gelegt wird und somit maskiert werden kann.
Auf diese Art und Weise werden Probleme der zeitlichen Mas
kierung z. B. bei transienten Signalen oder Sprachsignalen
vermieden.
Dieser Typ der prädiktiven Codierung von Spektralwerten wird
daher als die TNS- oder zeitliche Rauschformungstechnik
bezeichnet. Zur Veranschaulichung dieser Technik sei auf
Fig. 7a verwiesen. Links oben in Fig. 7a befindet sich ein
Zeitverlauf eines stark transienten Zeitsignals. Dem Zeit
verlauf ist der Ausschnitt eines DCT-Spektrums rechts oben
in Fig. 7a gegenübergestellt. Die linke untere Darstellung
von Fig. 7 zeigt die resultierende Frequenzantwort eines
TNS-Synthesefilters, das durch die LPC-Operation berechnet
wurde (LPC = Linear Prediction Coding). Es sein angemerkt,
daß die (normierten) Frequenzkoordinaten in diesem Diagramm
den Zeitkoordinaten aufgrund der Zeitbereichs- und Frequenz
bereichsdualität entsprechen. Offensichtlich führt die LPC-
Berechnung zu einem "Quellenmodell" des Eingangssignals, da
die Frequenzantwort des LPC-berechneten Synthesefilters der
Hüllkurve des stark transienten Zeitsignals ähnelt. In Fig.
7a rechts unten ist eine Darstellung der spektralen Rest
werte, d. h. des Eingangssignals des Quantisierers 620 in
Fig. 6, über der Frequenz gezeigt. Ein Vergleich zwischen
den spektralen Restwerten nach der Prädiktion und den Spek
tralwerten bei direkter Zeit-Frequenz-Transformation zeigt,
daß die spektralen Restwerte eine wesentlich geringere
Energie als die ursprünglichen Spektralwerte aufweisen. Bei
dem gezeigten Beispiel entspricht die Reduktion der Energie
der spektralen Restwerte einem Gesamtprädiktionsgewinn von
etwa 12 dB.
Zu der Bedeutung der linken unteren Darstellung in Fig. 7a
sei folgendes angemerkt. Bei klassischer Anwendung der Prä
diktion auf Zeitbereichssignale ist der Frequenzgang des
Synthesefilters eine Annäherung des Betragssspektrums des
Eingangssignals. Das Synthesefilter (re)generiert gewisser
maßen die spektrale Gestalt des Signals aus einem Restsignal
mit näherungsweise "weißem" Spektrum. Bei Anwendung der Prä
diktion auf spektrale Signale, wie es bei der TNS-Technik
der Fall ist, ist der Frequenzgang des Synthesefilters eine
Annäherung der Hüllkurve des Eingangsfilters. Der Frequenz
gang des Synthesefilters ist nicht die Fouriertransformierte
der Impulsantwort, wie es im klassischen Fall gilt, sondern
die inverse Fouriertransformierte. Das TNS-Synthesefilter
(re)generiert sozusagen den Hüllkurvenverlauf des Signals
aus einem Restsignal mit näherungsweise "weißer" (d. h.
flacher) Hüllkurve. So zeigt die linke untere Abbildung von
Fig. 7a also die durch das TNS-Synthesefilter modellierte
Hüllkurve des Eingangssignals. Diese ist hier eine loga
rithmische Darstellung der Hüllkurven-Annäherung des im der
darüberliegenden Abbildung geziegten Kastagnettensignals.
Anschließend wurde ein Codierungsrauschen in die spektralen
Restwerte eingeführt, derart, daß in jedem Codierband mit
einer Breite von beispielsweise 0,5 Bark ein Signal/Rau
schen-Verhältnis von etwa 13 dB resultierte. Die aus der
Einführung des Quantisierungsrauschen resultierenden Fehler
signale im Zeitbereich sind in Fig. 7b gezeigt. Die linke
Darstellung in Fig. 7b zeigt das Fehlersignal aufgrund des
Quantisierungsrauschens bei verwendeter TNS-Technik, während
im rechten Diagramm die TNS-Technik aus Vergleichszwecken
nicht verwendet wurde. Wie erwartet ist das Fehlersignal im
linken Diagramm nicht gleichmäßig über den Block verteilt,
sondern in dem Bereich konzentriert, in dem auch ein hoher
Signalanteil vorhanden ist, welcher dieses Quantisierungs
rauschen optimal verdecken wird. Im rechten Fall ist dagegen
das eingeführte Quantisierungsrauschen gleichmäßig im Block,
d. h. über der Zeit, verteilt, was dazu führt, daß im vor
deren Bereich, in dem tatsächlich kein oder fast kein Signal
ist, ebenfalls Rauschen vorhanden, ist, das zu hören sein
wird, während in dem Bereich, in dem hohe Signalanteile
vorhanden sind, ein relativ kleines Rauschen vorhanden ist,
durch das die Markierungsmöglichkeiten des Signals nicht
vollständig ausgenützt werden.
Eine Implementierung eines TNS-Filters 804 in einen Codierer
ist in Fig. 8a gezeigt. Derselbe ist zwischen einer Analyse
filterbank 802 und einem Quantisierer 806 angeordnet. Das
zeitdiskrete Eingangssignal wird bei dem in Fig. 8a gezeig
ten Codierer in einen Audioeingang 800 eingespeist, während
das quantisierte Audiosignal bzw. quantisierte Spektralwerte
oder die quantisierten spektralen Restwerte an einem Ausgang
808 ausgegeben werden, dem ein Redundanz-Codierer nachge
schaltet sein kann. Das Eingangssignal wird also in Spek
tralwerte transformiert. Basierend auf den berechneten Spek
tralwerten wird eine übliche lineare Prädiktionsrechnung
ausgeführt, welche beispielsweise durch Bilden der Auto
korrelationsmatrix der Spektralwerte und unter Verwendung
einer Levinson-Durbin-Rekursion stattfindet. Fig. 8b zeigt
eine detailliertere Ansicht des TNS-Filters 804. An einem
Filtereingang 810 werden die Spektralwerte x(1), . . ., x(i),
. . ., x(n) eingespeist. Es kann vorkommen, daß lediglich ein
bestimmter Frequenzbereich transiente Signale aufweist,
während wiederum ein anderer Frequenzbereich eher statio
närer Natur ist. Diese Tatsache wird bei dem TNS-Filter 804
durch einen Eingangsschalter 812 sowie durch einen Ausgangs
schalter 814 berücksichtigt, wobei die Schalter zunächst
jedoch für eine Parallel-zu-Seriell- bzw. Seriell-zu-Pa
rallel-Wandlung der zu verarbeitenden Daten sorgen. Abhängig
davon, ob ein bestimmter Frequenzbereich instationär ist und
einen bestimmten Codierungsgewinn durch die TNS-Technik
verspricht, wird nur dieser Spektralbereich TNS-verarbeitet,
was dadurch geschieht, daß der Eingangsschalter 812 bei
spielsweise bei dem Spektralwert x(i) startet und z. B. bis
zu dem Spektralwert x(i + 2) läuft. Der innere Bereich des
Filters besteht wieder aus der Vorwärtsprädiktionsstruktur,
d. h. dem Prädiktor 610 sowie dem Summationspunkt 600.
Die Berechnung zur Bestimmung der Filterkoeffizienten des
TNS-Filters bzw. zur Bestimmung der Prädiktionskoeffizienten
wird folgendermaßen durchgeführt. Das Bilden der Autokorre
lationsmatrix und das Verwenden der Levinson-Durbin-Rekur
sion wird für die höchste erlaubte Ordnung des Rauschfor
mungsfilters, z. B. 20, durchgeführt. Wenn der berechnete
Prädiktionsgewinn eine bestimmte Schwelle überschreitet,
wird die TNS-Verarbeitung aktiviert.
Die Ordnung des verwendeten Rauschformungsfilters für den
gegenwärtigen Block wird dann durch anschließendes Entfernen
aller Koeffizienten mit einem ausreichend kleinen Absolut
wert vom Ende des Koeffizientenarrays bestimmt. Auf diese
Art und Weise liegen die Ordnungen von TNS-Filtern üblicher
weise in der Größenordnung von 4-12 für ein Sprachsignal.
Wenn für einen Bereich von Spektralwerten x(i) beispiels
weise ein ausreichend hoher Codierungsgewinn bestimmt wird,
wird derselbe verarbeitet, und es wird am Ausgang des TNS-
Filters nicht der Spektralwert x(i) sondern der spektrale
Restwert xR(i) ausgegeben. Dieser hat eine wesentlich ge
ringere Amplitude als der ursprüngliche Spektralwert x(i),
wie es aus Fig. 7a ersichtlich ist. Die zum Decodierer
übertragenen Seiteninformationen erhalten somit zusätzlich
zu den üblichen Seiteninformationen eine Flag, die die
Verwendung von TNS anzeigt, und falls erforderlich, Infor
mationen über den Zielfrequenzbereich und ebenfalls über das
TNS-Filter, das zum Codieren verwendet wurde. Die Filterda
ten können als quantisierte Filterkoeffizienten dargestellt
werden.
Im Decodierer, welcher in Fig. 9a skizziert ist, wird für
jeden Kanal eine TNS-Codierung rückgängig gemacht. Spektrale
Restwerte xR(i) werden in dem inversen Quantisierer 216
requantisiert und in ein inverses TNS-Filter 900 einge
speist, dessen näherer Aufbau in Fig. 9b dargestellt ist.
Das inverse TNS-Filter 900 liefert als Ausgangssignal wieder
Spektralwerte, die in einer Synthesefilterbank 218 in den
Zeitbereich transformiert werden. Das TNS-Filter 900 umfaßt
wiederum einen Eingangsschalter 902 sowie einen Ausgangs
schalter 908, welche zunächst wieder zur Parallel-Seriell-
Wandlung bzw. zur Seriell-Paralalel-Wandlung der verarbei
teten Daten dienen. Der Eingangsschalter 902 berücksichtigt
ferner einen eventuell verwendeten Zielfrequenzbereich, um
nur spektrale Restwerte einer inversen TNS-Codierung zuzu
führen, während nicht TNS-codierte Spektralwerte zu einem
Ausgang 910 unverändert durchgelassen werden. Das inverse
Prädiktionsfilter umfaßt wiederum einen Prädiktor 906 sowie
einen Summationspunkt 904. Dieselben sind jedoch im Unter
schied zum TNS-Filter folgendermaßen verbunden. Ein spektra
ler Restwert gelangt über den Eingangsschalter 902 an den
Summationspunkt 904, an dem derselbe mit dem Ausgangssignal
des Prädiktors 906 summiert wird. Der Prädiktor liefert als
Ausgangssignal einen geschätzten Spektralwerts xP(i). Der
Spektralwert x(i) wird über den Ausgangsschalter an den Aus
gang des inversen TNS-Filters ausgegeben. Die TNS-bezogenen
Seiteninformationen werden im Decodierer also decodiert,
wobei die Seiteninformationen eine Flag umfassen, die die
Verwendung von TNS anzeigt, und, falls erforderlich, Infor
mationen bezüglich der Zielfrequenzbereichs. Zusätzlich ent
halten die Seiteninformationen ferner die Filterkoeffizien
ten des Prädiktionsfilters, das zum Codieren eines Blocks
oder "Frames" verwendet wurde.
Das TNS-Verfahren läßt sich also folgendermaßen zusammen
fassen. Ein Eingangssignal wird in eine spektrale Dar
stellung mittels einer hochauflösenden Analysefilterbank
transformiert. Anschließend wird eine lineare Prädiktion im
Frequenzbereich ausgeführt, und zwar zwischen den frequenz
mäßig benachbarten Spektralwerten. Diese lineare Prädiktion
kann als Filterprozeß zum Filtern der Spektralwerte inter
pretiert werden, welcher im Spektralbereich ausgeführt wird.
Damit werden die ursprünglichen Spektralwerte durch den
Prädiktionsfehler, d. h. durch die spektralen Restwerte,
ersetzt. Diese spektralen Restwerte werden ebenso wie übli
che Spektralwerte quantisiert und codiert zum Decodierer
übertragen, indem die Werte wieder decodiert und invers
quantisiert werden. Vor der Anwendung der inversen Filter
bank (Synthesefilterbank) wird eine zur im Codierer vorge
nommenen Prädiktion inverse Prädiktion vorgenommen, indem
das inverse Prädiktionsfilter auf das übertragene Prädik
tionsfehlersignal, d. h. auf die requantisierten spektralen
Restwerte, angewendet wird.
Durch die Anwendung dieser Technik ist es möglich, die zeit
liche Hüllkurve des Quantisierungsrauschens an die des Ein
gangssignals anzupassen. Dies erlaubt eine bessere Aus
nutzung der Markierung der Fehlersignale bei Signalen, die
eine ausgeprägte Zeitfeinstruktur oder ein ausgeprägtes
transientes Wesen haben. Im Falle von transienten Signalen
vermeidet die TNS-Technik die sog. "Vorechos", bei denen das
Quantisierungsgeräusch bereits vor dem "Anschlag" eines
solchen Signals erscheint.
Weiterhin bekannt ist aus der Psychoakustik, daß der Wahrnehmungseindruck
von Rauschsignalen primär von deren spek
traler Zusammensetzung bestimmt wird und nicht von deren
tatsächlicher Signalform. Dies ermöglicht die Benutzung
einer sog. Rauschsubstitutionstechnik bei der Datenreduktion
von Audiosignalen.
Die "Rauschsubstitution" ist in Donald Schulz: "Improving
Audio Codecs by Noise Substitution", Journal of the Audio
Eng. Soc., Bd. 44, Nr. 7/8, S. 593-598, Juli/August 1996,
beschrieben. Wie bereits erwähnt wurde, verwenden herkömmli
che Audiocodieralgorithmen üblicherweise Maskierungseffekte
des menschlichen Ohrs, um die Datenrate oder die Anzahl von
zu übertragenden Bits entscheidend zu reduzieren. Maskierung
bedeutet also, daß eine oder mehrere Frequenzkomponenten als
Spektralwerte andere Komponenten mit niedrigeren Pegeln
unhörbar machen. Dieser Effekt kann auf zwei Arten und Wei
sen ausgenutzt werden. Zuerst müssen Audiosignalkomponenten,
die durch andere Komponenten maskiert werden, nicht codiert
werden. Zweitens ist das Einführen von Rauschen durch die
eben beschriebene Quantisierung erlaubt, wenn dieses Rau
schen durch Komponenten des ursprünglichen Signals verdeckt
wird.
Bei rauschhaften Signalen ist das menschliche Gehörsystem
nicht in der Lage, den exakten Zeitverlauf eines solchen
Signals zu erfassen. Bei üblichen Algorithmen führte dies
dazu, daß sogar die Wellenform des weißen Rauschens, welche
für das menschliche Gehör nahezu irrelevant ist, codiert
wurde. Ein gehörrichtiges Codieren von rauschhaltigen
Signalen erfordert daher hohe Bitraten für Informationen,
die nicht hörbar sind, wenn keine speziellen Vorkehrungen
getroffen werden. Falls jedoch rauschhaltige Komponenten von
Signalen erfaßt und mit Informationen über ihre Rauschpegel,
über ihren Frequenzbereich oder über ihren zeitlichen Aus
dehnungsbereich codiert werden, kann eine solche überflüssi
ge Codierung verringert werden, was zu außerordentlich
großen Biteinsparungen führen kann. Diese Tatsache wird
durch die Psychoakustik untermauert, die besagt, daß der
Wahrnehmungseindruck von Rauschsignalen primär von deren
spektraler Zusammensetzung und nicht von der tatsächlichen
Wellenform bestimmt wird. Dies ermöglicht also die Benutzung
der Rauschsubstitutionstechnik bei der Datenreduktion von
Audiosignalen.
Der Codierer steht daher vor der Aufgabe, in dem gesamten
Spektrum des Audiosignals rauschartige oder rauschhafte
Spektralwerte zu finden bzw. zu erkennen. Eine Definition
für rauschhafte Spektralwerte lautet wie folgt: Wenn eine
Signalkomponente durch ihren Pegel, durch ihren Frequenzbe
reich und durch ihren zeitlichen Ausdehnungsbereich derart
charakterisiert werden kann, daß sie ohne hörbare Unter
schiede für das menschliche Gehörsystem durch ein Rauscher
setzungsverfahren rekonstruiert werden kann, wird diese
Signalkomponente als Rauschen klassifiziert. Die Erfassung
dieser Charakteristik kann entweder im Frequenzbereich oder
im Zeitbereich durchgeführt werden, wie es in der zuletzt
zitierten Veröffentlichung dargestellt ist. Das einfachste
Verfahren besteht beispielsweise darin, tonale, d. h. nicht
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre
quenz-Transformation verwendet wird, und indem stationäre
Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt
werden. Diese Spitzen werden als tonal bezeichnet, alles
andere wird als rauschhaft bezeichnet. Dies stellt jedoch
eine relativ grobe Rauscherfassung dar. Eine weitere Mög
lichkeit, zwischen rauschhaften und tonalen Spektralkom
ponenten zu unterscheiden, besteht in der Verwendung eines
Prädiktors für Spektralwerte in aufeinanderfolgenden
Blöcken. Dabei wird eine Prädiktion von einem Spektrum zu
dem folgenden Spektrum, d. h. dem Spektrum, das dem nächsten
zeitlichen Block oder Frame zugeordnet ist, durchgeführt.
Unterscheidet sich ein prädizierter Spektralwert von einem
tatsächlich durch Transformation ermittelten Spektralwert
des nächsten zeitlichen Blocks oder Frames nicht oder nur
wenig, so wird davon ausgegangen, daß es sich bei diesem
Spektralwert um eine tonale Spektralkomponente handelt.
Daraus kann ein Tonalitätsmaß abgeleitet werden, dessen Wert
einer Entscheidung zugrundeliegt, um tonale und rauschhafte
Spektralwerte voneinander zu unterscheiden. Dieses Erfas
sungsverfahren ist jedoch lediglich für streng stationäre
Signale geeignet. Es versagt dabei, Situationen zu erfassen,
bei denen Sinussignale mit gering veränderten Frequenzen
über der Zeit vorhanden sind. Solche Signale erscheinen oft
in Audiosignalen, wie z. B. Vibratos, und es ist für den
Fachmann offensichtlich, daß diese nicht durch eine rausch
hafte Komponente ersetzt werden können.
Eine weitere Möglichkeit zur Erfassung von rauschhaften
Signalen besteht in der Rauscherfassung durch Prädiktion im
Zeitbereich. Hierfür eignet sich ein angepaßtes Filter als
Prädiktor, welcher wiederholt angewendet werden kann, um
eine lineare Prädiktion durchzuführen, wie es in der Technik
hinreichend bekannt ist. Vergangene Audiosignale werden ein
gespeist und das Ausgangssignal wird mit dem tatsächlichen
Audioabtastwert verglichen. Im Fall eines kleinen Prädikti
onsfehlers kann Tonalität angenommen werden. Um den Charak
ter unterschiedlicher Frequenzregionen zu bestimmen, d. h.
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek
tralwerten eine rauschhafte Gruppe ist, müssen Zeit-Fre
quenz-Transformationen sowohl des ursprünglichen als auch
des prädizierten Signals durchgeführt werden. Dann kann für
jede Frequenzgruppe ein Tonalitätsmaß berechnet werden, in
dem die ursprünglichen und die prädizierten Werte mit
einander verglichen werden. Ein Hauptproblem dabei ist der
begrenzte dynamische Bereich des Prädiktors. Eine rausch
hafte Frequenzgruppe mit einem hohen Pegel dominiert den
Prädiktor aufgrund des resultierenden großen Fehlers. Andere
Frequenzregionen mit tonalen Komponenten könnten als rausch
haft interpretiert werden. Dieses Problem kann durch Verwen
dung eines iterativen Algorithmus verringert werden, bei dem
das Fehlersignal normalerweise einen geringeren Pegel als
das Ursprungssignal hat und wieder durch einen weiteren Prä
diktor eingespeist wird, wonach beide prädizierten Signale
addiert werden. Weitere Verfahren sind in der Veröffentli
chung von Schulz ausgeführt.
Die nun als rauschhaft klassifizierte Gruppe von Spektral
werten wird nicht wie üblich quantisiert und Entropie- bzw.
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta
belle) zum Empfänger übertragen. Stattdessen wird nur eine
Kennung zur Anzeige der Rauschsubstitution sowie ein Maß für
die Energie der rauschhaften Gruppe von Spektralwerten als
Seiteninformationen übertragen. Im Empfänger werden dann für
die substituierten Koeffizienten Zufallswerte (Rauschen) mit
der übertragenen Energie eingesetzt. Die rauschhaften Spek
tralwerte werden also durch Zufallsspektralwerte mit ent
sprechendem Energiemaß substituiert.
Durch die Übertragung einer einzigen Energieinformation an
stelle einer Gruppe von Codes, d. h. mehrerer quantisierter
und codierter Spektralwerte, für die quantisierten Spektral
koeffizienten sind erhebliche Dateneinsparungen möglich. Es
ist offensichtlich, daß die erreichbaren Datenrateneinspa
rungen vom Signal abhängen. Handelt es sich z. B. um ein
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen
rauschhaften Gruppen, oder mit transienten Eigenschaften, so
wird eine geringere Datenrateneinsparung möglich sein, als
wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf
ten Gruppen codiert wird.
Der eingangs beschriebene Standard MPEG-2 Advanced Audio
Coding (AAC) unterstützt die Möglichkeit der Rauschsubsti
tution nicht. Die erheblichen Datenrateneinsparungen sind
mit dem bisherigen Standard daher nicht möglich.
Fig. 3 zeigt wiederum einen Überblick über einen Codierer
und einen Decodierer, wobei der Codierer und der Decodierer
in Fig. 3 dem beschriebenen Codierer bzw. Decodierer von
Fig. 2 entsprichen, wobei jedoch die Rauschsubstitution
enthalten ist. An dieser Stelle sei noch einmal betont, daß
die in Fig. 3 gezeigte Implementation der Rauschsubstitution
nicht zum Stand der Technik gehört, wie es im vorhergehenden
Absatz bereits festgestellt wurde. Gleiche Bezugszeichen
bezeichnen gleiche Funktionsblöcke. Es ist also zu sehen,
daß der Codierer in Fig. 3 lediglich einen neuen Block
Rauschdetektion 310 im Vergleich zu Fig. 2 aufweist. Die
Rauschdetektion wird mit den Ausgangssignalen, d. h. den
Spektralwerten, der Analysefilterbank 202 durchgeführt. Zur
Rauschdetektion können jedoch auch die zeitlichen Eingangs
signale der Analysefilterbank herangezogen werden, was durch
den Pfeil symbolisiert ist, der den Audioeingang 200 mit dem
Block Rauschdetektion 310 verbindet. Die Rauschsubstitution
erfordert zwei Kategorien von Seiteninformationen, wie es
durch die beiden Pfeile symbolisiert ist, die von dem Block
Rauschdetektion aus zum Block Quantisierung und Codierung
204 bzw. von dem Block Rauschdetektion 310 aus zu dem Block
Bitstrommultiplexer 208 verlaufen. Um ein rauschsubstituier
tes codiertes Signal wieder decodieren zu können, muß eine
Rauschersetzungsanzeige als Seiteninformationen übertragen
werden, welche anzeigt, in welchem Frequenzbereich oder bei
einem bevorzugten Verfahren in welchem Skalenfaktorband eine
Rauschersetzung durchgeführt wurde. Ferner muß das Maß für
die Energie der Spektralwerte in der rauschhaften Gruppe
bzw. dem rauschhaften Skalenfaktorband ebenfalls als
Seiteninformationen übertragen werden. An dieser Stelle sei
darauf hingewiesen, daß rauschsubstituierte Spektralwerte
nicht quantisiert und codiert werden, dem Block Quantisie
rung und Codierung 204 wird also mitgeteilt, daß in einem
Skalenfaktorband eine Rauschersetzung vorliegt. Der Bit
strommultiplexer erhält ebenfalls die Rauschersetzungsan
zeige sowie als Seiteninformationen das Maß für die Energie
der Spektralwerte in einer rauschhaften Gruppe.
Der Decodierer gleicht ebenfalls dem bereits beschriebenen
Decodierer in Fig. 2, mit Ausnahme des neuen Blocks Rausch
ersetzung 312. Der Block Rauschersetzung 312 erhält als
Eingangssignals vom Bitstromdemulitplexer 204 die Seiten
informationen Rauschersetzungsanzeige und die Energien der
ersetzten Signale, d. h. das Maß für die Energie der Spek
tralwerte in einer rauschhaften Gruppe bzw. in einem rausch
haften Skalenfaktorband. Der Block Rauschersetzung generiert
für die rauschhaften Gruppen bzw. rauschhaften Skalenfaktor
bänder Zufalls- oder "Rausch-"Spektralwerte, die der Synthe
sefilterbank 218 zugeführt werden, um wieder ein codiertes
und decodiertes zeitdiskretes Audiosignal zu erhalten. Es
ist offensichtlich, daß es für die Synthesefilterbank 218
keine Rolle spielt, ob sie Rausch-Spektralwerte oder "nor
male" requantisierte Spektralwerte in den Zeitbereich trans
formiert.
Bei der bekannten Rauschsubstitutionstechnik besteht das
Problem, daß Teile des Eingangssignals durch Rauschen
substituiert und dann mit nichthörbaren Qualitätseinbußen
wieder decodiert werden können, wenn das Eingangssignal eine
gleichmäßige Rauschstruktur, d. h. ein ebenes oder flaches
Spektrum enthält. Bei transienten Signalen oder Sprachsigna
len ist dies nicht gegeben, so daß entweder auf den Einsatz
der Rauschsubstitution gänzlich verzichtet werden muß und
eine erhöhte Datenrate in Kauf genommen werden muß, oder daß
bei trotzdem eingesetzter Rauschsubstitution störende Ver
fälschungen des Signals entstehen.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren zum Codieren bzw. Decodieren von Audiosignalen zu
schaffen, das eine hohe Codiereffizienz ermöglicht und doch
möglichst keine hörbaren Signalverfälschungen zur Folge hat.
Diese Aufgabe wird durch ein Verfahren zum Codieren gemäß
Anspruch 1 sowie durch ein Verfahren zum Decodieren gemäß
Anspruch 2 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde,
daß eine entsprechende Kombination der TNS-Technik mit der
Rauschsubstitution zu einer weiteren Erhöhung des Codier
ungsgewinns ohne hörbare Signalverfälschungen führt. Die
durch die TNS-Verarbeitung entstehenden spektralen Restwerte
weisen von sich aus einen wesentlich geringeren Energie
gehalt als die ursprünglichen Spektralwerte auf. Das zu den
spektralen Restwerten gehörige Signal hat im Vergleich zu
dem ursprünglichen Signal einen wesentlich flacheren Ver
lauf. Durch Prädiktion der Spektralwerte über der Frequenz
wird der stark schwankende Verlauf der Hüllkurve von transi
enten Signalen gewissermaßen extrahiert, wodurch ein Signal
mit flacher Hüllkurve zurückbleibt, auf das die Rauschsub
stitution erfindungsgemäß angewendet werden kann, um auch
bei transienten Signalen erhebliche Biteinsparungen errei
chen zu können.
Ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfin
dung wird nachfolgend bezugnehmend auf die beiliegenden Zei
chnungen detaillierter erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm eines Codierers sowie eines Deco
dierers gemäß der vorliegenden Erfindung;
Fig. 2 ein Blockdiagramm, das das Grundkonzept eines be
kannten Codierers und Decodierers darstellt;
Fig. 3 ein Blockdiagramm des in Fig. 2 gezeigten Codierers,
der um die Rauschsubstitution erweitert ist;
Fig. 4 eine Tabelle zur Veranschaulichung der Dualität zwi
schen dem Zeit- und dem Frequenzbereich;
Fig. 5a ein Beispiel für ein transientes Signal;
Fig. 5b Hilbert-Hüllkurven von Teilbandpaßsignalen aufgrund
des in Fig. 5a gezeigten transienten Zeitsignals;
Fig. 6 eine Prinzipdarstellung der Prädiktion im Frequenz
bereich;
Fig. 7a ein Beispiel zur Veranschaulichung der TNS-Technik;
Fig. 7b eine Gegenüberstellung des zeitlichen Verlaufs eines
eingeführten Quantisierungsrauschens mit (links) und
ohne (rechts) TNS-Technik;
Fig. 8a eine vereinfachte Blockdarstellung eines Codierers,
der ein TNS-Filter aufweist;
Fig. 8b eine Detaildarstellung des TNS-Filters von Fig. 8a;
Fig. 9a eine vereinfachte Blockdarstellung eines Deco
dierers, der ein inverses TNS-Filter aufweist; und
Fig. 9b eine detailliertere Darstellung des inversen TNS-
Filters von Fig. 9a.
Fig. 1 zeigt einen Codierer und einen Decodierer gemäß der
vorliegenden Erfindung. Im Vergleich zu dem in Fig. 3 be
schriebenen Codierer enthält der erfindungsgemäße Codierer
aus Fig. 1 eine Kombination der TNS-Filterung und der
Rauschsubstitution. Im Gegensatz zum bekannten Codierer, der
eine Rauschsubstitution von Spektralwerten durchführt, wird
bei dem in Fig. 1 gezeigten Codierer zusätzlich eine Rausch
substitution der spektralen Restwerte am Ausgang des TNS-
Filters 804 ausgeführt. In Gruppen von spektralen Restwerten
oder Skalenfaktorbändern mit spektralen Restwerten wird bei
der Rauschsubstitution ein Maß für die Energie der spektra
len Restwerte in einer Gruppe oder in einem Skalenfaktorband
ermittelt und eine Rauschersetzungsanzeige zum Quantisierer
und Codierer 204 sowie Bitstrommultiplexer 208 in Analogie
zu einer Rauschsubstitution für ursprüngliche Spektralwerte
ausgeführt.
Im Decodierer findet wiederum der entgegengesetzte analoge
Prozeß statt. Der Bitstromdemultiplexer 214 leitet TNS-
Seiteninformationen zu dem inversen TNS-Filter. Diese
TNS-Seiteninformationen sind, wie bereits mehrmals erwähnt,
die Prädiktionskoeffizienten bzw. Filterkoeffizienten des
TNS-Filters, eine Anzeige bezüglich des Zielfrequenzbe
reichs, wenn die TNS-Verarbeitung frequenzselektiv ausge
führt wurde, sowie eine Flag, die anzeigt, wo die TNS-
Technik aktiviert war oder nicht.
Vom Bitstromdemultiplexer werden ferner die Rauschersetz
ungsanzeige sowie die Maße für die Energien der ersetzten
Spektralwerte oder spektralen Restwerte in den entsprechen
den Skalenfaktorbändern zu dem Rauscherzeugungsblock 312
geleitet. Der Rauscherzeugungsblock 312 erzeugt, unabhängig
davon, ob es sich um rauschsubstituierte Spektralwerte oder
rauschsubstituierte spektrale Restwerte handelt, Rausch-
Spektralwerte, welche in das inverse TNS-Filter 900
eingegeben werden. Das inverse TNS-Filter läßt nicht-TNS-
verarbeitete Spektralwerte, seien sie tonaler Natur oder
seien sie Rausch-Spektralwerte, unverändert passieren. Spek
trale Restwerte werden dagegen wieder TNS-rückverarbeitet,
damit die Synthesefilterbank 218 ein codiertes und wieder
decodiertes zeitdiskretes Audiosignal am Audioausgang 220
ausgeben kann.
Im nachfolgenden sei auf die Rauschdetektion im Vergleich
von Spektralwerten zu spektralen Restwerten eingegangen. Wie
es bereits eingangs erwähnt wurde, sind in der Schrift von
Schulz mehrere Methoden zum Erfassen von Rauschbereichen in
Spektralwerten dargestellt. Diese Verfahren können allein
auf den Spektralwerten selbst oder auch auf dem zeitdiskre
ten Audiosignal allein oder sowohl auf dem zeitdiskreten
Audiosignal als auch auf den Spektralwerten des zeitdis
kreten Audiosignals basieren. Dies ist in Fig. 1 sowie in
den Fig. 2 und 3 durch den Pfeil symbolisiert, der den
Audioeingang 200 mit dem Block Rauschdetektion verbindet.
Zusammenfassend lautet das Verfahren der vorliegenden Erfin
dung wie folgt. Im Codierer wird die zeitliche Feinstruktur
des Signals durch die TNS-Filterung "herausgenommen". Das
Restspektrum bzw. die spektralen Restwerte entsprechen somit
einer amplitudenmäßig "equalisierten" Version des zeitdis
kreten Audiosignals am Eingang des Codierers, wobei das
Residualspektrum, das die spektralen Restwerte aufweist,
eine näherungsweise konstante Einhüllendenstruktur besitzt.
Die Informationen über den ursprünglichen Hüllkurvenverlauf
sind in den Filterkoeffizienten des TNS-Filters, das durch
lineare Prädiktion erhalten wird, enthalten, wobei diese
Informationen als Seiteninformationen zum Decodierer über
tragen werden.
Auf das zeitlich näherungsweise konstante Residualspektrum,
das die spektralen Restwerte umfaßt, kann nun eine Rausch
substitution in Analogie zur Rauschsubstitution auf nicht-
TNS-verarbeitete Spektralwerte angewendet werden. Entspre
chende Seiteninformationen (Anzeige der ersetzten Frequenz
bänder und Bandenergien) werden zum Decodierer als Seitenin
formationen übermittelt. Im Decodierer findet der bekannte
Decodierungsprozeß für nichtrauschersetzte und rauscher
setzte Frequenzbänder statt. Das durch die Rauschsubstitu
tion eingesetzte Rauschen besitzt keine zeitliche Feinstruk
tur, es hat also eine etwa flache zeitliche Hüllkurve. Bei
der nachfolgenden inversen TNS-Filterung wird die Original-
Zeitfeinstruktur entsprechend der übertragenen TNS-Seitenin
formationen wieder in das Signal eingeführt, bevor die Spek
tralwerte mittels der Synthesefilterbank wieder in den Zeit
bereich transformiert werden.
Somit ermöglicht die Kombination der Verfahrensschritte der
Rauschsubstitution und des "Temporal Noise Shaping" eine
verbesserte Rauschsubstitution, welche auch für Signale mit
zeitlicher Feinstruktur wirkungsvoll eingesetzt werden kann,
wobei aufgrund des TNS-Verfahrens das eingeführte Quanti
sierungsrauschen zeitlich geformt und damit "unter" das
zeitliche Signal gepackt wird.
Claims (8)
1. Verfahren zum Codieren eines Audiosignals mit folgenden
Schritten:
Transformieren (202) eines zeitlichen Audiosignals in den Frequenzbereich, um Spektralwerte (x(1), . . ., x(n)) des zeitlichen Audiosignals zuerhalten;
Durchführen einer Prädiktion der Spektralwerte über der Frequenz (804), um spektrale Restwerte (xR(1), . . ., xR(n)) zu erhalten;
Erfassen (310) von Rauschbereichen in den spektralen Restwerten;
Rausch-Substituieren (310) der spektralen Restwerte in den Rauschbereichen; und
Einbringen (208) von Informationen bezüglich der Rausch bereiche sowie der Rauschsubstitution in Seiteninforma tionen eines codierten Audiosignals.
Transformieren (202) eines zeitlichen Audiosignals in den Frequenzbereich, um Spektralwerte (x(1), . . ., x(n)) des zeitlichen Audiosignals zuerhalten;
Durchführen einer Prädiktion der Spektralwerte über der Frequenz (804), um spektrale Restwerte (xR(1), . . ., xR(n)) zu erhalten;
Erfassen (310) von Rauschbereichen in den spektralen Restwerten;
Rausch-Substituieren (310) der spektralen Restwerte in den Rauschbereichen; und
Einbringen (208) von Informationen bezüglich der Rausch bereiche sowie der Rauschsubstitution in Seiteninforma tionen eines codierten Audiosignals.
2. Verfahren zum Decodieren eines codierten Audiosignals,
mit folgenden Schritten:
Empfangen (212) des codierten Audiosignals;
Erfassen (214) von Informationen in den Seiteninforma tionen, die sich auf eine Rauschsubstitution und auf Rauschbereiche der spektralen Restwerte beziehen;
Erzeugen (312) von spektralen Rausch-Restwerten aufgrund der erfaßten Informationen in den Rauschbereichen;
Durchführen einer inversen Prädiktion (900) über der Frequenz, um aus den rauschsubstituierten spektralen Rausch-Restwerten Spektralwerte zu erhalten; und
Transformieren (218) der Spektralwerte in den Zeit bereich, um ein decodiertes Audiosignal zu erhalten.
Empfangen (212) des codierten Audiosignals;
Erfassen (214) von Informationen in den Seiteninforma tionen, die sich auf eine Rauschsubstitution und auf Rauschbereiche der spektralen Restwerte beziehen;
Erzeugen (312) von spektralen Rausch-Restwerten aufgrund der erfaßten Informationen in den Rauschbereichen;
Durchführen einer inversen Prädiktion (900) über der Frequenz, um aus den rauschsubstituierten spektralen Rausch-Restwerten Spektralwerte zu erhalten; und
Transformieren (218) der Spektralwerte in den Zeit bereich, um ein decodiertes Audiosignal zu erhalten.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Prädiktion
(804) bzw. inverse Prädiktion (900) nur für einen be
stimmten Bereich der Spektralwerte (x(1), . . ., x(n))
ausgeführt wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem ein Hinweis, daß die Prädiktion verwendet wurde,
Prädiktionskoeffizienten und gegebenenfalls Frequenzbe
reichsangaben für die Prädiktion (804) in den Seitenin
formationen des codierten Audiosignals vorhanden sind.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem durch die Prädiktion (804) erzeugte Filterkoeffi
zienten in Seiteninformationen des codierten Audiosi
gnals eingebracht werden (208).
6. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem die Rauschsubstitution (310) skalenfaktorbandweise
durchgeführt wird.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem der Schritt des Rauschsubstituierens (310) das
Berechnen der Energie der spektralen Restwerte (xR(1),
. . ., xR(n)) in einem erfaßten Rauschbereich, der ein
Skalenfaktorband aufweist, umfaßt, wobei die die Rausch
substitution betreffenden Informationen in den Seitenin
formationen des codierten Audiosignals an der im Bit
strom vorgesehenen Stelle für den/die Skalenfaktoren für
das eine Skalenfaktorband stehen, und die Energie der
Fehlerrestwerte in einem entsprechenden Rauschbereich
umfassen.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem während des Codierens die spektralen Restwerte, die
nicht in Rauschbereichen liegen, unter Berücksichtigung
der psychoakustischen Maskierung quantisiert werden, und
bei dem während des Decodierens die quantisierten spek
tralen Restwerte, die nicht in Rauschbereichen liegen,
requantisiert und dann der inversen Prädiktion unterzo
gen werden, um die Spektralwerte (x(1), . . ., x(n)) zu
erhalten.
Priority Applications (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19730130A DE19730130C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Codieren eines Audiosignals |
DK98922620T DK0954909T3 (da) | 1997-07-14 | 1998-03-13 | Fremgangsmåde til kodning af et audiosignal |
KR1019997008398A KR100346066B1 (ko) | 1997-07-14 | 1998-03-13 | 오디오신호 코딩방법 |
ES98922620T ES2161052T3 (es) | 1997-07-14 | 1998-03-13 | Procedimiento para codificar una señal audio. |
CA002286068A CA2286068C (en) | 1997-07-14 | 1998-03-13 | Method for coding an audio signal |
AU75207/98A AU723582B2 (en) | 1997-07-14 | 1998-03-13 | Method for coding an audio signal |
PCT/EP1998/001481 WO1999004506A1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
JP50619499A JP3577324B2 (ja) | 1997-07-14 | 1998-03-13 | オーディオ信号の符号化方法 |
EP98922620A EP0954909B1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
AT98922620T ATE205030T1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
US09/402,684 US6424939B1 (en) | 1997-07-14 | 1998-03-13 | Method for coding an audio signal |
DE59801307T DE59801307D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19730130A DE19730130C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Codieren eines Audiosignals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19730130A1 DE19730130A1 (de) | 1999-01-21 |
DE19730130C2 true DE19730130C2 (de) | 2002-02-28 |
Family
ID=7835664
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19730130A Expired - Lifetime DE19730130C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Codieren eines Audiosignals |
DE59801307T Expired - Lifetime DE59801307D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59801307T Expired - Lifetime DE59801307D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum codieren eines audiosignals |
Country Status (11)
Country | Link |
---|---|
US (1) | US6424939B1 (de) |
EP (1) | EP0954909B1 (de) |
JP (1) | JP3577324B2 (de) |
KR (1) | KR100346066B1 (de) |
AT (1) | ATE205030T1 (de) |
AU (1) | AU723582B2 (de) |
CA (1) | CA2286068C (de) |
DE (2) | DE19730130C2 (de) |
DK (1) | DK0954909T3 (de) |
ES (1) | ES2161052T3 (de) |
WO (1) | WO1999004506A1 (de) |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6300888B1 (en) * | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US6931372B1 (en) * | 1999-01-27 | 2005-08-16 | Agere Systems Inc. | Joint multiple program coding for digital audio broadcasting and other applications |
US6871180B1 (en) | 1999-05-25 | 2005-03-22 | Arbitron Inc. | Decoding of information in audio signals |
US6687663B1 (en) * | 1999-06-25 | 2004-02-03 | Lake Technology Limited | Audio processing method and apparatus |
DE10000934C1 (de) * | 2000-01-12 | 2001-09-27 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals |
US6735561B1 (en) | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US6778953B1 (en) * | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
EP1168734A1 (de) * | 2000-06-26 | 2002-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Verfahren zur Reduzierung der Verzerrung in einer Sprachübertragung über Datennetze |
US20020049586A1 (en) * | 2000-09-11 | 2002-04-25 | Kousuke Nishio | Audio encoder, audio decoder, and broadcasting system |
EP1199709A1 (de) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Fehlerverdeckung in Bezug auf die Dekodierung von kodierten akustischen Signalen |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
AUPR433901A0 (en) | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
JP4391088B2 (ja) * | 2001-04-18 | 2009-12-24 | アイピージー エレクトロニクス 503 リミテッド | 部分暗号化を用いるオーディオ符号化 |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP4676140B2 (ja) | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
ES2297083T3 (es) * | 2002-09-04 | 2008-05-01 | Microsoft Corporation | Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel. |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
US7254533B1 (en) * | 2002-10-17 | 2007-08-07 | Dilithium Networks Pty Ltd. | Method and apparatus for a thin CELP voice codec |
JP4657570B2 (ja) * | 2002-11-13 | 2011-03-23 | ソニー株式会社 | 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体 |
US6845360B2 (en) * | 2002-11-22 | 2005-01-18 | Arbitron Inc. | Encoding multiple messages in audio data and detecting same |
US7318027B2 (en) * | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
US7610553B1 (en) * | 2003-04-05 | 2009-10-27 | Apple Inc. | Method and apparatus for reducing data events that represent a user's interaction with a control interface |
US7742926B2 (en) * | 2003-04-18 | 2010-06-22 | Realnetworks, Inc. | Digital audio signal compression method and apparatus |
US20040208169A1 (en) * | 2003-04-18 | 2004-10-21 | Reznik Yuriy A. | Digital audio signal compression method and apparatus |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
WO2004107318A1 (en) * | 2003-05-27 | 2004-12-09 | Koninklijke Philips Electronics N.V. | Audio coding |
US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
US7283968B2 (en) | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
CN1910656B (zh) * | 2004-01-20 | 2010-11-03 | 杜比实验室特许公司 | 基于块分组的音频编码 |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
US7457747B2 (en) * | 2004-08-23 | 2008-11-25 | Nokia Corporation | Noise detection for audio encoding by mean and variance energy ratio |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
JP5106115B2 (ja) * | 2004-11-30 | 2012-12-26 | アギア システムズ インコーポレーテッド | オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1817766B1 (de) * | 2004-11-30 | 2009-10-21 | Agere Systems Inc. | Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix |
KR100707173B1 (ko) * | 2004-12-21 | 2007-04-13 | 삼성전자주식회사 | 저비트율 부호화/복호화방법 및 장치 |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
CN101322182B (zh) | 2005-12-05 | 2011-11-23 | 高通股份有限公司 | 用于检测音调分量的系统、方法和设备 |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
US20080071550A1 (en) * | 2006-09-18 | 2008-03-20 | Samsung Electronics Co., Ltd. | Method and apparatus to encode and decode audio signal by using bandwidth extension technique |
WO2008035949A1 (en) * | 2006-09-22 | 2008-03-27 | Samsung Electronics Co., Ltd. | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding |
US20080147385A1 (en) * | 2006-12-15 | 2008-06-19 | Nokia Corporation | Memory-efficient method for high-quality codebook based voice conversion |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
WO2008126382A1 (ja) * | 2007-03-30 | 2008-10-23 | Panasonic Corporation | 符号化装置および符号化方法 |
US20080255688A1 (en) * | 2007-04-13 | 2008-10-16 | Nathalie Castel | Changing a display based on transients in audio data |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
US8179974B2 (en) * | 2008-05-02 | 2012-05-15 | Microsoft Corporation | Multi-level representation of reordered transform coefficients |
ES2645375T3 (es) * | 2008-07-10 | 2017-12-05 | Voiceage Corporation | Dispositivo y método de cuantificación y cuantificación inversa de filtro LPC de tasa de bits variable |
US8406307B2 (en) | 2008-08-22 | 2013-03-26 | Microsoft Corporation | Entropy coding/decoding of hierarchically organized data |
US8233629B2 (en) * | 2008-09-04 | 2012-07-31 | Dts, Inc. | Interaural time delay restoration system and method |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
EP2182513B1 (de) * | 2008-11-04 | 2013-03-20 | Lg Electronics Inc. | Vorrichtung zur Verarbeitung eines Audiosignals und Verfahren dafür |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
PL2471061T3 (pl) * | 2009-10-08 | 2014-03-31 | Fraunhofer Ges Forschung | Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej |
CA2778382C (en) * | 2009-10-20 | 2016-01-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
BR112012009445B1 (pt) | 2009-10-20 | 2023-02-14 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, método para codificar uma informação de áudio, método para decodificar uma informação de áudio que utiliza uma detecção de um grupo de valores espectrais previamente decodificados |
RU2644141C2 (ru) | 2010-01-12 | 2018-02-07 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., | Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая модификацию числового представления числового значения предыдущего контекста |
US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
CN104737227B (zh) | 2012-11-05 | 2017-11-10 | 松下电器(美国)知识产权公司 | 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法 |
EP2830059A1 (de) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Rauschfüllungsenergieanpassung |
EP3028274B1 (de) * | 2013-07-29 | 2019-03-20 | Dolby Laboratories Licensing Corporation | Vorrichtung und verfahren zum reduzieren zeitlicher artefakte für übergangssignale in einer dekorrelatorschaltung |
EP3105865B1 (de) * | 2014-02-10 | 2019-01-02 | Audimax LLC | Kommunikationssysteme, verfahren und vorrichtungen mit verbesserter störfestigkeit |
CN104978970B (zh) * | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
EP2980792A1 (de) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Erzeugung eines verbesserten Signals mit unabhängiger Rausch-Füllung |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4805193A (en) * | 1987-06-04 | 1989-02-14 | Motorola, Inc. | Protection of energy information in sub-band coding |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5285498A (en) | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
EP0559348A3 (de) | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder |
DE4331376C1 (de) * | 1993-09-15 | 1994-11-10 | Fraunhofer Ges Forschung | Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen |
ATE211869T1 (de) | 1994-10-28 | 2002-01-15 | Rai Radiotelevisione Italiana | Teilbandkodierung mit auf tonhöhen basierter prädiktionskodierung in jedem einzelnen teilband |
US5727119A (en) * | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
-
1997
- 1997-07-14 DE DE19730130A patent/DE19730130C2/de not_active Expired - Lifetime
-
1998
- 1998-03-13 JP JP50619499A patent/JP3577324B2/ja not_active Expired - Lifetime
- 1998-03-13 EP EP98922620A patent/EP0954909B1/de not_active Expired - Lifetime
- 1998-03-13 WO PCT/EP1998/001481 patent/WO1999004506A1/de active IP Right Grant
- 1998-03-13 ES ES98922620T patent/ES2161052T3/es not_active Expired - Lifetime
- 1998-03-13 DK DK98922620T patent/DK0954909T3/da active
- 1998-03-13 KR KR1019997008398A patent/KR100346066B1/ko not_active IP Right Cessation
- 1998-03-13 AT AT98922620T patent/ATE205030T1/de active
- 1998-03-13 US US09/402,684 patent/US6424939B1/en not_active Expired - Lifetime
- 1998-03-13 CA CA002286068A patent/CA2286068C/en not_active Expired - Lifetime
- 1998-03-13 DE DE59801307T patent/DE59801307D1/de not_active Expired - Lifetime
- 1998-03-13 AU AU75207/98A patent/AU723582B2/en not_active Expired
Non-Patent Citations (3)
Title |
---|
HERRE, J. JOHNSTON, D.: "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", 101st AES Convention, Los Angeles 1996, Preprint 4384) * |
MARKEL, John D., GRAY, Augustine J., Jr.: Linear Prediction of Speech, Berlin u.a.: Springer, 1976, S. 3-6 und 239-240 * |
SCHULZ, Donald: "Improving Audio Codecs by Noise Substitution", Journal of the Audio Eng. Soc., Bd. 44, Nr. 7/8, S. 593-598, Juli/August 1996 * |
Also Published As
Publication number | Publication date |
---|---|
DE59801307D1 (de) | 2001-10-04 |
JP2001500640A (ja) | 2001-01-16 |
ATE205030T1 (de) | 2001-09-15 |
WO1999004506A1 (de) | 1999-01-28 |
EP0954909B1 (de) | 2001-08-29 |
DE19730130A1 (de) | 1999-01-21 |
US6424939B1 (en) | 2002-07-23 |
KR20000076297A (ko) | 2000-12-26 |
CA2286068A1 (en) | 1999-01-28 |
EP0954909A1 (de) | 1999-11-10 |
CA2286068C (en) | 2004-04-27 |
DK0954909T3 (da) | 2001-10-08 |
ES2161052T3 (es) | 2001-11-16 |
AU723582B2 (en) | 2000-08-31 |
AU7520798A (en) | 1999-02-10 |
KR100346066B1 (ko) | 2002-07-24 |
JP3577324B2 (ja) | 2004-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19730130C2 (de) | Verfahren zum Codieren eines Audiosignals | |
EP0931386B1 (de) | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals | |
DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
DE602004005197T2 (de) | Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
DE69927505T2 (de) | Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom | |
DE69737489T2 (de) | Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum | |
EP1145227B1 (de) | Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals | |
DE69833834T2 (de) | Skalierbares Audiokodier-und Dekodierverfahren und Gerät | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE60310716T2 (de) | System für die audiokodierung mit füllung von spektralen lücken | |
EP2022043B1 (de) | Informationssignalcodierung | |
DE102006051673A1 (de) | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale | |
EP1112621A1 (de) | Vorrichtung und verfahren zum entropie-codieren von informationswörtern und vorrichtung und verfahren zum decodieren von entropie-codierten informationswörtern | |
DE102004043521A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes | |
DE60311334T2 (de) | Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals | |
DE60112407T2 (de) | Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten | |
EP1277346B1 (de) | Vorrichtung und Verfahren zum Analysieren der spektralen Darstellung eines decodierten Zeitsignales | |
DE19742201C1 (de) | Verfahren und Vorrichtung zum Codieren von Audiosignalen | |
DE69803457T2 (de) | Audiokodierer | |
DE19829284C2 (de) | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms | |
DE4209382C1 (de) | ||
EP1028539B1 (de) | Verfahren zum Transkodieren eines Audiodatenstroms | |
DE19804584A1 (de) | Verfahren und Vorrichtung zum Codieren und Decodieren von Audiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |