DE69122306T2

DE69122306T2 - Digitales Teilbandsignalkodiergerät

Info

Publication number: DE69122306T2
Application number: DE69122306T
Authority: DE
Inventors: Kenzo Akagiri; Yoshihito Fujiwara; Kyoya Tsutsui
Original assignee: Sony Corp
Current assignee: Mobilemedia Ideas LLC
Priority date: 1990-05-25
Filing date: 1991-05-23
Publication date: 1997-03-06
Anticipated expiration: 2011-05-24
Also published as: AU640780B2; ATE143543T1; DE69122306D1; EP0458645A3; US5241603A; JP2751564B2; CA2043133A1; AU7720691A; EP0458645A2; KR910021054A; KR100188381B1; JPH0435123A; EP0458645B1

Description

Diese Erfindung betrifft ein digitales Signalkodiergerät.
Zur hocheffizienten Kodierung von Audio- oder Tonfrequenzsignalen ist eine Kodierungstechnik zur adaptiven Bitzuteilung bekannt, bei welcher die Eingangssignale, beispielsweise die Audio- oder Tonfrequenzsignale auf der Zeitachse oder der Frequenzachse in mehrere Kanäle geteilt und die Zahlen Bits adaptiv den jeweiligen Kanälen zugeordnet werden. Unter den Kodierungstechniken der Audiosignale durch adaptive Bitzuteilung gibt es eine Subbandkodierung (SBC), bei welcher die Audiosignale auf der Zeitachse zur Kodierung in mehrere Frequenzbänder geteilt werden, eine adaptive Transformierungskodierung (ATC), bei welcher Signale auf der Zeitachse durch orthogonale Transformation in solche auf der Zeitachse umgewandelt und in mehrere Frequenzbänder geteilt werden, in deren jedem eine adaptive Signalkodierung ausgeführt wird, sowie eine sogenannte adaptive Bitkodierung (APC-AB), bei welcher die Subbandkodierung und adaptive Transformationskodierung derart kombiniert sind, daß die Signale auf der Zeitachse in Frequenzbänder geteilt und die Signale der jeweiligen Bänder in Basisbandsignale umgewandelt und durch lineare Prädiktionsanalysen n-ter Ordnung vorhersagbar kodiert werden, wobei n eine ganze Zahl gleich 2 oder größer ist.
Auf dem Gebiet der hocheffizienten Kodierung sind weit verbreitet Techniken zur hocheffizienten Kodierung angenommen, bei welchen sog. Maskierungscharakteristiken des menschlichen Gehörsinns in Betracht gezogen wird. Der Maskierungseffekt bedeutet ein pHänomen, bei welchem ein Signal durch ein anderes Signal maskiert und dadurch unhörbar wird. Dieser Maskierungseffekt wird in den auf den Audiosignalen auf der Zeitachse und in den auf den Signalen auf der Frequenzachse klassifiziert.
Es wird nun der Maskierungseffekt auf den Audiosignalen auf der Frequenzachse erklärt. Im Fall einer Sinuswelle Ws mit einer Frequenz fs ist das Maskierungsspektrum oder die Maskierungskurve MS, welche den Maskierungseffekt durch den menschlichen Gehörsinn darstellt, so, wie in der Figur 1 gezeigt. Durch dieses Maskierungsspektrum MS wird ein durch Schraffierungslinien angedeuteter Bereich maskiert. Infolgedessen wird das Rauschen bzw. Geräusch, wenn überhaupt vorhanden, innerhalb des Maskierungsspektrums MS unhörbar, so daß im tatsächlichen Audiosignal jedes beliebige Geräusch innerhalb des Maskierungsspektrums MS zulässig ist. Infolgedessen liegt im Fall der Sinuswelle Ws der zulässige Rauschpegel unter dem bei j in Figur 9 gezeigten Pegel. Auch ist der Maskierungseffekt bei der Frequenz fs der Sinuswelle WS maximal und wird um so niedriger, je weiter die Frequenz von der Frequenz fs der Sinuswelle Ws entfernt ist.
Die Maskierung auf den Audiosignalen auf der Zeitachse wird in zeitmäßige Maskierung und gleichzeitige Maskierung klassifiziert. Gleichzeitige Maskierung bedeutet den Effekt, bei welchem ein gleichzeitig mit einem größeren Ton erzeugter kleinerer Ton (oder erzeugtes kleineres Geräusch bzw. Rauschen) durch den größeren Ton maskiert und unhörbar wird. Zeitmäßige bzw. zeitliche Maskierung bedeutet einen Effekt, bei welchem, wie in Figur 2 gezeigt, der kleinere Ton oder das kleinere Geräusch bzw. Rauschen vor und nach einem größeren Ton (ein hochpegeliger Signalteil C in der Figur) zeitmäßig durch den größeren Ton maskiert und unhörbar wird. Bei der zeitmäßigen Maskierung wird die Maskierung des Tones zeitmäßig nach dem größeren Ton als Vorwärtsmaskierung und die Maskierung des Tons zeitmäßig vor dem größeren Ton als Rückwärtsmaskierung bezeichnet. Bei der zeitmäßigen Maskierung besteht der Effekt der Vorwärtsmaskierung FM in Figur 2 lange Zeit (beispielsweise 100 ms), während der Effekt der Rückwärtsmaskierung BM eine kürzere Dauer aufweist (beispielsweise etwa 5 ms), wegen der Charakteristiken des menschlichen Gehörsinns. Der Maskierungspegel oder die Maskierungsquantität beträgt bei der Vorwärtsmaskierung etwa 20 dB und bei der Rückwärtsmaskierung etwa 30 dB.
Bei der oben beschriebenen hocheffizienten Kodierung ist es erwünscht, eine weitere Erhöhung der Bitkompressionsrate L oder der Größe der Bitreduzierung zu erreichen. Bei der hocheffizienten Kodierung jedoch, bei welcher die Kompression durch Ausnutzung des oben beschriebenen Maskierungseffekts erreicht wird, wird entweder nur der Maskierungseffekt auf den Signalen auf der Frequenzachse oder der Maskierungseffekt auf den Signalen auf der Zeitachse in Betracht gezogen, d.h. es ist nicht versucht worden, beide Maskierungseffekte gleichzeitig in Betracht zu ziehen.
Aus der am 2. Juni 1988 veröffentlichten internationalen (PCT-)Patentanmeldungen WO 88/04117 (die mit dem am 20. Nov. 1990 veröffentlichten US-Patent US-A-4 972 484 korrespondiert) geht ein Gerät zum Übertragen oder Speichern eines digitalisierten Audiosignals hervor, bei welchem eine Bank aus Quadraturspiegelfiltern zum Teilen des digitalen Audiosignals in mehrere Frequenzbandsignale (Subbänder) verwendet ist. Die Quantisierung der Abtastwerte in den Subbändern wird derart gesteuert, daß die Quantisierungsrauschpegel der individuellen Subbandsignale bei etwa der gleichen Pegeldifferenz vom Maskierungspegel des von den individuellen Subbandsignalen resultierenden menschlichen Gehörsystems liegen.
Aus Thomas Vaupel: "TRANSFORMATIONSKODIERUNG FÜR QUALITATIV HOCHWERTIGE AUDIOSIGNALE MIT SIGNALVOR- UND NACHARBEITUNG IM ZEITBEREICH" in Funktechnische Mitteilungen, Bd. 33, Nr. 4, Aug. 1989, Seiten 149 bis 154 geht ein Gerät zum Kodieren eines digitalen Audiosignals hervor. Das Gerät umfaßt einen MSC-Kodierer, in welchem das digitale Signale in Blöcke segmentiert und einer Fourier-Transformationskodierung unterworfen wird. Um das Signal-Rausch-verhältnis des Geräts zu vergrößern, wird ein Übergang in einen Transformationsblock detektiert und in Abhängigkeit davon die Leistung des Signals hervorgehoben, bevor die Transformationskodierung ausgeführt wird. Der Hervorhebungsfaktor wird aus den mittleren Signalleistungen vor und nach dem übergang berechnet. Die Leistung des Signals wird dann nach der Kodierungsoperation beim Empfänger entzerrt.
Gemäß der vorliegenden Erfindung ist ein digitales Signalkodierungsgerät zum Kodieren eines digitalen Eingangssignals bereitgestellt, das besteht aus:
einer mit dem digitalen Eingangssignal beaufschlagten Teileinrichtung zum Teilen des Frequenzbereichs des Eingangssignals in mehrere Frequenzbänder,
einer ersten Rauschpegel-Einstelleinrichtung zum Einstellen eines ersten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energie jedes Frequenzbandes,
einer zweiten Rauschpegel-Einstelleinrichtung zum Einstellen eines zweiten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energie von Signalen in dem zeitmäßig benachbarten korrespondierenden Frequenzband,
einer Kombiniereinrichtung zum Kombinieren des ersten und zweiten zulässigen Rauschpegels zur Erzeugung eines kombinierten zulässigen Rauschpegels und
einer Quantisierungseinrichtung zum Quantisieren von Signalkomponenten jedes Frequenzbandes mit einer vom kombinierten zulässigen Rauschpegel abhängigen Zahl Bits.
Auf diese Weise stellt eine Ausführungsform der vorliegenden Erfindung ein digitales Signalkodierungsgerät zum Kodieren eines digitalen Eingangssignals bereit, welches aufweist:
eine mit dem digitalen Eingangssignal beaufschlagte Teileinrichtung, welche den Frequenzbereich des digitalen Eingangssignals in mehrere Frequenzbänder unterteilt,
eine erste Rauschpegel-Einstelleinrichtung zum Einstellen eines ersten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energie jedes Frequenzbandes,
eine zweite Rauschpegeleinstelleinrichtung zum Einstellen eines zweiten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energien der Signale, die zeitmäßig den Signalen des für die Quantisierung in Betracht gezogenen Frequenzbandes benachbart sind, eine Kombiniereinrichtung zum Kombinieren des ersten und zweiten zulässigen Rauschpegels und eine Einrichtung zum Quantisieren von Signalkomponenten jedes Frequenzbandes mit einer Zahl Bits, die mit dem Pegel der Differenz zwischen der Energie jedes Frequenzbandes und dem Ausgangssignal der Kombiniereinrichtung korrespondiert.
Bei einer Ausführungsform der vorliegenden Erfindung wird ein zulässiger Rauschpegel, der die Maskierung auf der Frequenzachse in Betracht zieht, durch die erste Rauschpegel- Einstelleinrichtung für das Signal des für die Quantisierung in Betracht gezogenen Frequenzbandes eingestellt, während der andere zulässige Rauschpegel, der die Maskierung der Signale berücksichtigt, die den Signalen des in Betracht gezogenen Frequenzbandes zeitmäßig benachbart sind, durch die zweite Rauschpegel-Einstelleinrichtung für das gleiche Signal des für die Quantisierung in Betracht gezogenen Frequenzbandes eingestellt wird.
Bei einem derartigen digitalen Signalkodierungsgerät wird der Frequenzbereich des digitalen Eingangssignals derart in mehrere Frequenzbänder geteilt, daß die Bandbreite der Frequenzbänder mit zunehmender Frequenz der Frequenzbänder breiter wird. Der erste zulässige Rauschpegel wird auf der Basis der Energie jedes Frequenzbandes von einem Frequenzband auf ein anderes eingestellt, während der zweite zulässige Rauschpegel auf der Basis der Energien der Signale eingestellt wird, die den Signalen des für die Quantisierung in Betracht gezogenen Bandes zeitmäßig benachbart sind. Die Signalkomponenten jedes Frequenzbandes werden mit der Zahl Bits quantisiert, die mit dem Pegel der Differenz zwischen dem Summenausgangssignal des ersten und zweiten zulässigen Rauschpegels und der Energie dieses Frequenzbandes korrespondiert. Auf diese Weise kann sowohl der Maskierungseffekt für die Signale des in Betracht gezogenen Frequenzbandes auf der Frequenzachse als auch der Maskierungseffekt für die Signale auf der Zeitachse effektiv zur Erhöhung des Grades an Bitreduktion oder der Erniedrigung der Bitrate verwendet werden, während eine Verschlechterung der Tonqualität auch dann minimiert wird, wenn die Zahl Bits reduziert ist.
Die Erfindung wird nun unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft beschrieben, in denen durchgängig gleiche Teile mit gleichen Bezugszeichen bezeichnet sind und in denen:
Figur 1 ein Diagramm ist, welches das Spektrum von Audiosignalen zeigt,
Figur 2 ein Diagramm zur Darstellung einer zeitmäßigen Maskierung ist,
Figur 3 ein Blockschaltbild ist, welches den Aufbau eines digitalen Signalkodierungsgeräts gemäß einer Ausführungsform der vorliegenden Erfindung zeigt,
Figur 4 ein Diagramm zur Darstellung kritischer Bänder ist,
Figur 5 ein Diagramm zur Darstellung eines Hüll- bzw. Barkspektrums ist,
Figur 6 ein Schaltbild ist, welches eine Filterschaltung zeigt,
Figur 7 ein Diagramm zur Darstellung eines Maskierungsspektrums ist,
Figur 8 ein Diagramm zur Darstellung der Synthese einer Minimalhörbarkeitskurve und des Maskierungsspektrums ist,
Figur 9 ein Blockschaltbild ist, welches den Aufbau einer modifizierten Ausführungsform zeigt, und
Figur 10 ein Diagramm zur Darstellung der Auflösung der Frequenzdomäne und der Zeitdomäne ist.
Unter Bezugnahme auf die Figur 3 umfaßt ein digitales Signalkodierungsgerät gemäß der vorliegenden Erfindung eine Bandteilschaltung 13, eine Summendetektionsschaltung 14, ein Filter 15, eine Subtraktionsschaltung 16, eine Divisionsschaltung 17 und eine Synthetisierungsschaltung 18, die gemeinsam als erste Geräuschpegel- bzw. Rauschpegel-Einstelleinrichtung zum Teilen des digitalen Eingangssignals in mehrere Frequenzbänder derart, daß die Bandbreite der Frequenzbänder mit zunehmender Frequenz der Frequenzbänder breiter wird, und Einstellen eines ersten zulässigen Geräusch- bzw. Rauschpegels auf der auf der Energie jedes Bandes basierenden Band-um- Band-Basis arbeiten. Das digitale Signalkodierungsgerät umfaßt auch Speicher 51 und 52' Koeffizientenmultiplikationseinheiten 53 und 54 und eine Synthetisierungsschaltung 55, die gemeinsam als zweite Geräuschpegel- bzw. Rauschpegel- Einstelleinrichtung zum Einstellen eines zweiten zulässigen Geräusch- bzw.Rauschpegels auf der Basis der Energien von Signalen, die den Signalen einer für die Quantisierung in Betracht gezogenen Frequenz zeitmäßig benachbart sind, arbeiten. Das Signalkodierungsgerät umfaßt außerdem eine Synthetisierungsschaltung (Kombinierschaltung) 56 als Synthetisierungseinrichtung zum Synthetisieren der zulässigen Ausgangsrauschpegel der ersten und zweiten Pegeleinstelleinrichtung und eine Quantisierungsschaltung 24 zum Quantisieren von Signalkomponenten jedes Frequenzbandes mit der Zahl Bits, die mit dem Pegel der Differenz zwischen der Energie jedes Frequenzbandes und dem Ausgangssignal aus der Synthetisierungsschaltung 56 korrespondiert. Infolgedessen wird bei dem vorliegenden Gerät der erste zulässige Rauschpegel, der die Maskierung auf der Frequenzachse und eine Minimalhörbarkeitskurve in Rechnung stellt, durch die erste Rauschpegel-Einstelleinrichtung für das Signal des für die Quantisierung in Betracht gezogenen Frequenzbandes eingestellt, während der zweite zulässige Rauschpegel, der die zeitmäßige Maskierung durch Signale, die den Signalen des in Betracht gezogenen Frequenzbandes zeitmäßig benachbart sind, in Betracht zieht, durch die zweite Rauschpegel-Einstelleinrichtung für das gleiche Signal des in Betracht gezogenen Frequenzbandes eingestellt wird. Das Quantisierungsausgangssginal aus der Quantisierungsschaltung 24 wird über einen Pufferspeicher 25 an einen Ausgangsanschluß 2 ausgegeben.
Bei dem vorliegenden Gerät wird eine adaptive Transformationskodierung (ATC) verwendet, bei welcher beispielsweise Audiosignale durch eine schnelle Fourier-Transformation (FFT) zum Umwandeln der Signale auf der Zeitachse in solche auf der Frequenzachse verarbeitet und die resultierenden Signale auf der Frequenzachse kodiert oder requantisiert werden. Insbesondere werden die Audiosignale, die Signale auf der Zeitachse sind, einem Eingangsanschluß 1 zugeführt und dann zu einer FFT-Schaltung 11 übertragen. In der FFT-Schaltung 11 werden die Audiosignale auf der Zeitachse in einem vorbestimmten Zeitintervall, beispielsweise alle 512 Samples, in Signale auf der Frequenzachse umgewandelt, um FFT- Koeffizienten zu erzeugen, deren jeder aus einer Realzahlkomponente Re und einer Imaginärzahlkomponente Im besteht. Diese FFT-Koeffizienten werden zu einer Erzeugungsschaltung 12 für eine Amplituden-Phasen-Information übertragen, bei welcher ein Amplitudenwert Am und ein Phasenwert aus der Realzahlkomponente Re und der Imaginärzahlkomponente Im erzeugt werden, wobei die Information des Amplitudenwertes Am in das vorhegenden Gerät als das digitale Eingangssignal eingegeben wird. Es sei darauf hingewiesen, daß der menschliche Gehörsinn generell für die Amplitudeoder Leistung in der Frequenzdomäne sensitiv ist, während er für die Phase ziemlich unempfindlich ist. Im Hinblick darauf wird nur der Amplitudenwert Am aus dem Ausgang der Erzeugungsschaltung 12 für die Amplituden- Phasen-Information als das oben genannte digitale Eingangssginale ausgegeben.
Das auf diese Weise erzeugte digitale Eingangssignal des Amplitudenwertes Am wird zur Bandteilschaltung 13 übertragen, bei welcher das als der Amplitudenwert Am ausgedrückte digitale Eingangssignale beispielsweise in sogenannte kritische Bänder geteilt wird. Die kritischen Bänder ziehen menschliche Gehörcharakteristiken oder ein Frequenzanalysierungsvermögen in Betracht. So wird der Frequenzbereich von 0 bis 24 kHz derart in 24 Frequenzbänder geteilt, daß die Bandbreiten der Bänder in Richtung zu höheren Frequenzbändern breiter wird. Es sei darauf hingewiesen, daß der menschliche Gehörsinn Charakteristiken nach Art von Bandpaßfiltern aufweist, wobei die Bänder des durch die Filter geteilten Frequenzbereichs als die in Figur 4 gezeigten kritischen Bänder bezeichnet werden. In dieser Figur ist die Zahl der kritischen Bänder gleich 12 und die Bänder sind mit B&sub1; bis B&sub1;&sub2; bezeichnet.
Die Amplitudenwerte Am für die an der Bandteilschaltung 13 erhaltenen kritischen Bänder, beispielsweise 24 kritische Bänder, werden zur Summendetektionsschaltung 14 übertragen, bei welcher die Energien oder spektralen Intensitäten aller Bänder dadurch erhalten werden, daß die Summe der Amplitudenwerte in jedem Band (der Spitzenwert oder Mittelwert der Amplitudenwerte Am oder die Energiesumme in jedem Band) genommen werden. Die Ausgangssignale der Summendetektionsschaltung 14, d.h. das Spektrum der Summen der Bänder, werden generell als Hüll- bzw. Barkspektrum bezeichnet, dessen Werte beispielsweise in der Figur 5 gezeigt sind.
Um den Effekt des Barkspektrums auf der Maskierung zu berücksichtigen, wird auf dem Barkspektrum eine vorbestimmte Gewichtsfunktion konvolviert (Konvolution). Zu diesem Zweck werden die Ausgangssignale der Summendetektionsschaltung 14, d.h. die Werte des Barkspektrums SB, zur Filterschaltung 15 mittels des Speichers 51 übertragen, der die jeweils aus beispielsweise 512 Samples bestehenden Ausgangssignale der Summendetektionsschaltung 14 liest und/oder schreibt. Die Filterschaltung 15 besteht aus Verzögerungselementen (Z&supmin;¹- Elementen) 101m-2 bis 101m+3 zur sequentiellen Verzögerung der Eingangsdaten, Multiplikationseinheiten 102m-3 bis 102&sbplus;&sub3; zum multiplizieren der Ausgangssignale aus den Verzögerungselementen mit Filterkoeffizienten (Gewichtsfunktionen) und einer Summationsschaltung 104. Insbesondere werden die Ausgangssignale der Verzögerungselemente in den Multiplikationseinheiten 102m-3 bis 102m+3 mit beispielsweise Filterkoeffizienten 0,0000086, 0,0019, 0,15, 1, 0,4, 0,06 bzw. 0,007 durch Ausführen einer Konvolution des Barkspektrums SB multipliziert. Durch diese Konvolution wird die Summe der Effekte von den benachbarten Werten des Barkspektrums auf den Werten des in Betracht gezogenen Barkspektrums, wie durch die gestrichelte Linie in Figur 5 gezeigt, als die Ausgangssignale aus der Summationsschaltung 104 erhalten, und die Ergebnisse der Konvolution werden am Ausgangsanschluß 105 ausgegeben.
Wenn indessen ein mit dem zur Berechnung des Maskierungsspektrums (zulässiges Rauschspektrum) des Barkspektrums SB verwendeten ersten zulässigen Rauschpegel korrespondierender Pegel α niedrig ist, ist das Maskierungsspektrum oder die Maskierungskurve in Bezug auf Signale auf der Frequenzachse ebenfalls niedrig, so daß es notwendig wird, die Zahl von zur Quantisierung durch die Quantisierungsschaltung 24 zugeteilten Bits zu erhöhen. Wenn umgekehrt der Pegel α höher ist, wird das Maskierungsspektrum erhöht, so daß es möglich wird, die Zahl der der Quantisierung zugeteilten Bits zu reduzieren. Es sei darauf hingewiesen, daß der Pegel α ein Rauschpegel ist, der sich als der oben erwähnte erste zulässige Rauschpegel für jedes kritische Band bei der Dekonvolution erweist, was im folgenden erklärt wird. Generell sind die Spektralintensitäten oder Energien des Audiosignals im höheren Frequenzbereich niedrig. Im Hinblick darauf wird der Pegel α so eingestellt, daß er in Richtung des höheren Frequenzbereiches mit den niedrigen Energiewerten höher wird, um die Zahl der dem höheren Frequenzbereich zugeteilten Bits zu reduzieren. Infolgedessen wird in der ersten Rauschpegel- Einstelleinrichtung der Pegel α so eingestellt, daß er für den gleichen Energiewert für die kritischen Bänder höherer Frequenzen höher wird.
Infolgedessen berechnet das vorliegende Gerät den Pegel α entsprechend dem ersten zulässigen Rauschpegel und steuert den Pegel α so, daß er in Richtung der Bänder höherer Frequenzen höher wird. Zu diesem Zweck wird das Ausgangssignal der Filterschaltung 15 dem Subtrahierer 16 zum Finden des Pegels α im konvolvierten Bereich zugeführt. Dem Subtrahierer 16 wird eine Erlaubnisfunktion (eine den Maskierungspegel ausdrückende Funktion) zum Finden des Pegels α zugeführt. Der Pegel α wird durch Erhöhung oder Erniedrigung der von einer Funktionserzeugungsschaltung 29 zugeführten Erlaubnisfunktion gesteuert.
Der mit dem zulässigen Rauschpegel korrespondierende Pegel α kann durch
α = S-(n-ai) ... (1)
gefunden werden, wobei i die den kritischen Bändern in der Ordnung zunehmender Frequenzen gegebene Nummer bzw. Zahl ist.
In der Formel (1) sind n und a Konstanten, wobei a < 0 gilt, S ist die Intensität des der Konvolution folgenden Barkspektrums, und (n-ai) in der Formel (1) wird zur Erlaubnisfunktion. Da es wie oben beschrieben, vorteilhafter ist, die Zahl Bits von dem höheren Bereich mit weniger Energiebeträgen zwecks Erniedrigung der Zahl Bits als Ganzes zu erniedrigen, werden bei der vorliegenden Ausführungsform die Werte n und a so eingestellt, daß n = 38 und a = 1 gilt, wodurch eine zufriedenstellende Kodierung ohne Verschlechterung der Tonqualität erreicht werden kann.
Der auf diese Weise gefundene Pegel α wird zur Divisionseinheit 17 übertragen. Die Divisionseinheit 17 wirkt so, daß sie den Pegel α im konvolvierten Bereich dekonvolviert. So kann durch diese Dekonvolution das Maskierungsspektrum vom Pegel α erhalten werden. D.h., dieses Maskierungsspektrum erweist sich als das von einem Band zum anderen gefundene zulässige Rauschspektrum. Obgleich die Dekonvolution eine komplexe Verarbeitungsoperation benötigt, wird sie bei der vorliegenden Ausführungsform unter Verwendung einer vereinfachten Divisionseinheit 17 ausgeführt.
Das Maskierungsspektrum wird mittels Synthetisierungsschaltungen 18 und 56 mit einem Subtrahierer 19 zugeführt. Dem Subtrahierer 19 wird das Ausgangssignal der Summendetektionsschaltung 14, welches das Barkspektrum SB ist, mittels einer Verzögerungsschaltung 21 zugeführt. Auf diese Weise werden das Maskierungsspektrum und das Barkspektrum SB durch den Subtrahierer 19 durch eine Subtraktionsoperation verarbeitet, wodurch, wie ein Figur 7 gezeigt, das Barkspektrum SB niedriger als der durch den Pegel des Maskierungsspektrums angezeigte Pegel maskiert wird.
Das Ausgangssignal des Subtrahierers 19 wird mittels eines ROM 20 der Quantisierungsschaltung 24 zugeführt. In der Quantisierungsschaltung 24 wird die ihr mittels der Verzögerungsschaltung 23 zugeführte Amplitude Am mit der an das Ausgangssignal aus dem Subtrahierer 19 angepaßten Zahl Bits quantisiert. In anderen Worten ausgedrückt werden die Signalkomponenten jedes Frequenzbandes mit der entsprechend der Pegeldifferenz zwischen der Energie jedes kritischen Bandes und dem Ausgangssignal der Synthetisierungsschaltung 56 zugeteilten Zahl Bits quantisiert. Indessen ist die Verzögerungsschaltung 21 zum Verzögern des Barkspektrums SB aus der Summendetektionsschaltung 14 unter Berücksichtigung der Verzögerung in jeder stromaufwärts der Synthetisierungsschaltung 46 liegenden Schaltung vorgesehen, während die Verzögerungsschaltung 23 zum Verzögern der Amplitude Am unter Berücksichtigung der in jeder Schaltung stromaufwärts des ROM 20 verursachten Verzögerung vorgesehen ist. Der ROM 20 speichert das Datum der zur Quantisierung in der Quantisierungsschaltung 24 zugeteilten Zahl Bits und gibt das Datum der zugeteilten Zahl Bits, die an das Ausgangssignal des Subtrahierers 19 angepaßt ist, aus.
Es sei darauf hingewiesen, daß bei der Synthese durch die Synthetisierungsschaltung 18 die Daten aus einer in Figur 8 gezeigten Minimalhörbarkeitskurven-Erzeugungsschaltung 22, welche die sogenannte, die Charakteristiken des menschlichen Gehörsinns darstellende Minimalhörbarkeitskurve (Gleichlautstärkekurve) RC anzeigen, und das Maskierungsspektrum MS synthetisiert werden. Durch derartige Synthetisierung der Minimalhörbarkeitskurve RC und des Maskierungsspektrums MS kann der zulässige Rauschpegel als die obere Grenze eines durch die Schraffurlinien in der Zeichnung angedeuteten Bereichs definiert werden, so daß die diesem Bereich zugeteilte Zahl Bits verkleinert werden kann. Indessen ist in der Figur 8 der Frequenzbereich in die in Figur 4 gezeigten kritischen Bänder geteilt worden und das Signalspektrum SS ist gleichzeitig gezeigt.
Bei dem vorliegenden digitalen Signalkodierungsgerät wird der zulässige Rauschpegel erhöht und die zugeteilte Zahl Bits in Richtung zu den höheren Frequenzen mit dem geringeren Energiebetrag erniedrigt, während die Signalkomponenten mit der Zahl Bits quantisiert werden, welche die Maskierung der Signale auf der Frequenzachse von einem Band zum anderen in Betracht zieht, so daß der Betrag an Bitreduzierung erhöht werden kann, d.h. die Bitrate kann erniedrigt werden.
Auch wird bei der vorliegenden Ausführungsform die der Quantisierung zugeteilte Zahl Bits unter Berücksichtigung der erwähnten Maskierung auf der Frequenzachse bestimmt, während der zweite zulässige Rauschpegel des in Betracht gezogenen Bandes auf der Basis der Energien der Signale eingestellt wird, die dem für die Quantisierung in Betracht gezogenen Band zeitmäßig benachbart sind. Auf diese Weise kann die der Quantisierung zugeteilte Zahl Bits, welche die zeitmäßige Maskierung auf der Zeitachse in Rechnung stellt, gleichzeitig bestimmt werden. D.h. der zweite zulässige Rauschpegel wird für das in Betracht gezogene Frequenzband beim laufenden Zeitpunkt, für den der erste zulässige Rauschpegel der ersten Rauschpegel-Einstelleinrichtung eingestellt worden ist, zusätzlich eingestellt, so daß die zeitmäßige Maskierung durch Signale, die bei dem zeitmäßig benachbarten früheren und späteren Punkt auf der Zeitachse liegen, ebenfalls in Betracht gezogen werden können. Zu diesem Zweck wird nicht nur das Ausgangssignal der Synthetisierungsschaltung 18, sondern auch das Ausgangssignal der Synthetisierungsschaltung 55 der zweiten Rauschpegel-Einstelleinrichtung der Synthetisierungsschaltung 56 zugeführt.
Auf diese Weise wird der Pegel der auf den Energien der Signale, die in Bezug auf das Signal beim laufenden Zeitpunkt des in Betracht gezogenen Bandes bei benachbarten Zeitpunkten liegen, als das Signal des zweiten zulässigen Rauschpegels berechnet und der Synthetisierungschaltung 55 zugeführt, so daß der zulässige Rauschpegel durch diese zeitmäßig benachbarten Signale durch die Synthetisierungsschaltung 55 gebildet wird.
Zur Gewinnung des zweiten zulässigen Rauschpegels ist das vorliegende Gerät mit dem Speicher 51 zum Schreiben/Lesen des Ausgangssignals der Summendetektionsschaltung 14 alle 512 Samples, dem Speicher 52, der ähnlich dem Speicher 51 ist, den Koeffizientenmultiplikationseinheiten 53 und 54 und der Synthetisierungsschaltung 55 versehen. D.h., wenn der Zeitpunkt, bei welchem das Ausgangssignal des Speichers 51 erhalten wird, der laufende Zeitpunkt T&sub0; ist, ist der Zeitpunkt, bei welchem das Ausgangssignale der Summendetektionsschaltung 14 dem Speicher 51 zugeführt wird, der spätere Zeitpunkt T&sbplus;&sub1;, der zeitmäßig nach dem laufenden Zeitpunkt T&sub0; ist (zukünftige Zeit relativ zum laufenden Zeitpunkt T&sub0;), während der Zeitpunkt der Ausgabe aus dem Speicher 52 der frühere Zeitpunkt T&submin;&sub1;, ist, der zeitmäßig vor dem laufenden Zeitpunkt T&sub0; liegt (vergangene Zeit relativ zum laufenden Zeitpunkt T&sub0;).
Das Signal beim späteren Zeitpunkt T&sbplus;&sub1;, welches das Ausgangssignal der Summendetektionsschaltung 14 ist, wird der Koeffizientenmultiplikationseinheit 53 zugeführt. In der Koeffizientenmultiplikationseinheit 53 wird das Signal zum späteren Zeitpunkt T&sbplus;&sub1; mit einem Multiplikationskoeffizienten multipliziert, der unter Berücksichtigung der zeitmäßigen Maskierung durch das zu dem späteren Zeitpunkt T&sbplus;&sub1; der Koeffizientenmultiplikationseinheit 53 zugeführte Signal des in Betracht gezogenen Bandes zum laufenden Zeitpunkt T&sub0; bestimmt worden ist (Rückwärtsmaskierung) D.h., der Multiplikationskoeffizient wird unter Inbetrachtziehung der bei den Syntheseschaltungen 55 und 56 zustande gebrachten Effekte eingestellt. Wenn das Signal zum späteren Zeitpunkt T&sbplus;&sub1; auf 1 normalisiert wird, wird das Signal zum späteren zeitpunkt T&sbplus;&sub1; mit einem Multiplikationskoeffizienten kB multipliziert, der mit dem Pegel korrespondiert, bei welchem die Rückwärtsmaskierung durch das Signal zum späteren Zeitpunkt T&sbplus;&sub1; auf das Signal zum laufenden Zeitpunkt T&sub0; wirkt. Das Signal zum früheren Zeitpunkt T&sbplus;&sub1;, d.h. das Ausgangssignal aus dem Speicher 52 wird der Koeffizientenmultiplikationseinheit 54 zugeführt Bei der Koeffizientenmultiplikationseinheit 54 wird das Signal zum früheren Zeitpunkt T&submin;&sub1; mit einem Multiplikationskoeffizienten multipliziert, der unter Berücksichtigung des zeitmäßigen Maskierungseffektes des Signals des in Betrracht gezogenen Bandes zum laufenden Zeitpunkt T&sub0; durch das Siganl des zum früheren Zeitpunkt T&submin;&sub1; der Koeffizientenmultiplikationseinheit 54 zugeführten Signals des in Betracht gezogenen Bandes bestimmt wird (Vorwärtsmaskierung). Infolgedessen wird der Multiplikationskoeffizient auch bestimmt, um den bei den Synthetisierungsschaltungen 55 und 56 zustande gebrachten Effekt in Rechnung zu stellen. Wenn das Signal zum früheren Zeitpunkt T&submin;&sub1; normalisiert wird, wird das Signal zum früheren Zeitpunkt T&submin;&sub1; mit einem Multiplikationskoeffizienten kF multipliziert, der mit dem Pegel korrespondiert. bei welchem die Vorwärtsmaskierung durch das Signal zum früheren Zeitpunkt T&submin;&sub1; auf das Signal zum laufenden Zeitpunkt T&sub0; wirkt. Die Aus- gangssignale der Koeffizientenmultiplikationseinheiten 53 und 54 werden in der Synthetisierungsschaltung 55 zu dem oben genannten zweiten zulässigen Rauschpegel synthetisiert. Die Synthetisierungsschaltung 55 arbeitet so, daß sie die Ausgangssignale der Koeffizientenmultiplikationseinheiten 53 und 54 zusammenaddiert. Das so erzeugte Ausgangssignal der Synthetisierungsschaltung 55 wird der Synthetisierungsschaltung 56 zugeführt.
In der Synthetisierungsschaltung 56 wird das größere der Ausgangssignale der Synthetisierungsschaltung 55 und 18 ausgewählt oder alternativ dazu werden die Ausgangssignale der Schaltungen 55, 18 nach Multiplikation mit vorbestimmten Gewichtskoeffizienten zusammenaddiert. Die letztgenannte Synthetisierungsoperation durch Addition kann auch so ausgeführt werden, daß beim Auffinden des zweiten zulässigen Rauschpegels die Energien der Gesamtheit der Frequenzbänder in Betracht gezogen werden.
Die oben beschriebene Minimalhörbarkeitskurven-Synthetisierungsoperation kann weggelassen werden, in welchem Fall die in Figur 3 gezeigte Minimumhörbarkeitskurven- Erzeugungsschaltung 22 und Synthetisierungsschaltung 18 eliminiert werden können. Infolgedessen kann das Ausgangssignal des Subtrahierers 16 nach der Dekonvolution durch die Divisionsschaltung 17 direkt zur Synthetisierungsschaltung 56 übertragen werden.
Bei dem oben beschriebenen digitalen Signalkodierungsgerät wird der die Maskierung auf der Frequenzachse in Betracht ziehende erste zulässige Rauschpegel durch die erste Rauschpegel-Einstelleinrichtung für die zur Quantisierung in Betracht gezogenen Signale zum gleichen Zeitpunkt eingestellt, bei welchem der zweite zulässige Rauschpegel, welcher die zeitmäßige Maskierung durch zeitmäßig den Signalen des in Betracht gezogenen Bandes benachbarte Signale in Betracht zieht, ebenfalls durch die zweite Rauschpegel-Einstelleinrichtung für die zur Quantisierung in Betracht gezogenen gleichen Signale ebenfalls eingestellt wird. Die Zahl der von der Quantisierungsschaltung 24 der Quantisierung zugeteilten Bits wird von einem Band zum anderen auf der Basis dieses ersten und zweiten Rauschpegels eingestellt, so daß der Betrag der Bitreduzierung erhöht werden kann oder umgekehrt, die Bitrate erniedrigt werden kann, ohne daß die Tonqualität verschlechtert wird.
Die vorliegende Erfindung kann auch neben dem beispielsweise in Figur 3 gezeigten Gerät zur adaptiven Transformation und Kodierung auf ein beispielsweise in Figur 9 gezeigtes Bandteil- und Kodierungsgerät angewendet werden.
Unter Bezugnahme auf die Figur 9 werden Audiosignale auf der Zeitachse über einen Eingangsanschluß 61 Bandpaßfiltern (BPF) 62&sub1; bis 62&sub3; zugeführt. Das BPF 62&sub1; weist den Frequenzbereich von 0 bis 6 kHz des Eingangsaudiosignals als Durchlaßbereich auf, das BPF 62&sub2; weist den Frequenzbereich von 6 bis 12 kHz des Eingangsaudiosignals als Durchlaßbereich auf, und das BPF 62&sub3; weist den Frequenzbereich von 12 bis 24 kHz des Eingangsaudiosignals als Durchlaßbereich auf. Die Ausgangssignale dieser BPFS werden schnellen Fourier-Transformationsschaltungen (FFT-Schaltungen) 63&sub1; bis 63&sub3; zugeführt. In der FFT- Schaltung 63&sub1; wird beispielsweise alle 128 Samples eine FFT- Verarbeitung ausgeführt, während in den FFT-Schaltungen 63&sub2; und 63&sub3; alle 64 Samples eine FFT-Verarbeitung ausgeführt wird. Die Ausgangssignale FFT-Schaltungen 63&sub1; bis 63&sub3; werden zu Quantisierungsschaltungen 64&sub1; bis 64&sub3; übertragen, die ähnlich den Schaltungen stromabwärts der FFT-Schaltung 11 in Figur 3 sind, um ähnlich wie bei den vorhergehenden Ausführungsformen verarbeitet zu werden. Die Ausgangssignale der Quantisierungsschaltungen 64&sub1;bis 64&sub3; werden in einer Synthetisierungsschaltung 65 synnthetisiert und an einem Ausgangsanschluß 66 ausgegeben. Bei der in Figur 9 gezeigten Anordnung ist es möglich, den Betrag der Bitreduktion zu erhöhen, während ähnlich wie bei dem in Figur 1 gezeigten Gerät die Verschlechterung der Tonqualität minimiert wird.
Die Figur 10 zeigt die Auflösung in der Frequenzdomäne bei dem in Figur 9 gezeigten Gerät, wobei eine Einheit einer Verarbeitung durch Bandteilung einer schnellen Fouriertransformation gezeigt ist und jeder Block durch zwei Parameter m und n gekennzeichnet und mit b(m, n) bezeichnet ist, wobei m die Bandzahl und n die Zeitzahl ist. Aus der Figur 8 ist zu entnehmen, daß für den niedrigeren Bereich von 0 bis 6 kHz jeder Block in jedem Frequenzband eine Zeitdauer (Zeitauflösung) von 10,67 ms aufweist und daß für den mittleren und höheren Frequenzbereich von 6 bis 12 kHz bzw. 12 bis 24 kHz jeder Block die Zeitdauer von 5,3 ms bzw. die Zeitdauer von 2,67 ms aufweist.

Claims

1. Digitales Signalkodiergerät zum Kodieren eines digitalen Eingangssignals, bestehend aus:

einer mit dem digitalen Eingangssignal beaufschlagten Teileinrichtung (13) zum Teilen des Frequenzbereichs des Eingangssignals in mehrere Frequenzbänder,

einer ersten Rauschpegel-Einstelleinrichtung (14 bis 18) zum Einstellen eines ersten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energie jedes Frequenzbandes, einer zweiten Rauschpegel-Einstelleinrichtung (51 bis 55) zum Einstellen eines zweiten zulässigen Rauschpegels jedes Frequenzbandes auf der Basis der Energie von Signalen in dem zeitmäßig benachbarten korrespondierenden Frequenzband,

einer Kombiniereinrichtung (55, 56) zum Kombinieren des ersten und zweiten zulässigen Rauschpegels zur Erzeugung eines kombinierten zulässigen Rauschpegels, und

einer Quantisierungseinrichtung (24) zum Quantisieren von Signalkomponenten jedes Frequenzbandes mit einer vom kombinierten zulässigen Rauschpegel abhängigen Zahl Bits.

2. Gerät nach Anspruch 1, wobei die Teileinrichtung (13) den Frequenzbereich des digitalen Eingangssignals derart in mehrere Frequenzbänder teilt, daß die Bandbreite der Frequenzbänder mit zunehmender Frequenz der Frequenzbänder breiter wird.

3. Gerät nach Anspruch 1, wobei die Teileinrichtung (13) eine Transformationskodiereinrichtung zum Transformationskodieren einer vorbestimmten Zahl Samples des digitalen Eingangssignals zum Erzeugen koeffizienter Daten aufweist.

4. Gerät nach Anspruch 3, wobei die mehreren Frequenzbänder mit einem kritischen Band korrespondieren.

5. Gerät nach Anspruch 1, wobei das digitale Eingangssignal aus den bei einer orthogonalen Transformation eines Audiosignals erhaltenen koeffizienten Daten besteht.

6. Gerät nach Anspruch 1, wobei das digitale Eingangssignal die auf den bei der orthogonalen Transformation des Audiosignals erhaltenen koeffizienten Daten basierenden Amplitudenwertinformation ist.

7. Gerät nach Anspruch 5 oder 6, wobei das durch die orthogonale Transformation zu verarbeitende Audiosignal das durch ein Bandteilungsfilter in vorbestimmte Frequenzbereiche geteilte Audiosignal ist.

8. Gerät nach einem der Ansprüche 1 bis 7, wobei der erste zulässige Rauschpegel auf der Basis der Energie jedes Frequenzbandes, auf dem eine vorbestimmten Gewichtsfunktion konvolviert ist, gefunden wird.

9 Gerät nach einem der Ansprüche 1 bis 7, wobei der erste und zweite zulässige Rauschpegel auf der Basis des Maskierungseffektes für jedes Frequenzband gefunden werden.

10. Gerät nach einem der Ansprüche 1 bis 7, wobei der erste zulässige Rauschpegel auf der Basis einer Kurve gleicher Lautstärke korrigiert worden ist.