DE3587251T2 - ADAPTABLE METHOD AND DEVICE FOR VOICE CODING. - Google Patents
ADAPTABLE METHOD AND DEVICE FOR VOICE CODING.Info
- Publication number
- DE3587251T2 DE3587251T2 DE8686900480T DE3587251T DE3587251T2 DE 3587251 T2 DE3587251 T2 DE 3587251T2 DE 8686900480 T DE8686900480 T DE 8686900480T DE 3587251 T DE3587251 T DE 3587251T DE 3587251 T2 DE3587251 T2 DE 3587251T2
- Authority
- DE
- Germany
- Prior art keywords
- coefficients
- spectrum
- subbands
- transmitted
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000001228 spectrum Methods 0.000 claims description 72
- 238000010606 normalization Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 17
- 238000013139 quantization Methods 0.000 description 11
- 230000005284 excitation Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft einen Sprachcodierer, wie er im Oberbegriff des Anspruches 1 angegeben ist. Ein Sprachcodierer dieser Art ist aus WP-8-0 176 243 bekannt.The invention relates to a speech coder as specified in the preamble of claim 1. A speech coder of this type is known from WP-8-0 176 243.
In der obengenannten Druckschrift ist ein Codierer für Sprachsignale geoffenbart, der umfaßt eine Trenneinrichtung zum Empfangen von Sprachsignalen und zum Erzeugen von Wertereihen, wobei jede Reihe entsprechende Bereiche des Frequenzspektrums des Eingangsignals darstellt, und eine Codiereinrichtung zum digitalen Codieren jeder Reihe, und eine Bit-Feststelleinrichtung zum Ändern der Anzahl von Bit, die zum Codieren der entsprechenden Reihen in Abhängigkeit von deren relativen Energieinhalt verwendet worden sind, wobei die Anzahl von Reihen, denen irgendeine gegebene Zahl von Bit zugeordnet ist, konstant ist und nur die Auswahl der Reihen, denen entsprechende Anzahlen von Bit zugeordnet sind, verändert wird.In the above-mentioned document, an encoder for speech signals is disclosed which comprises separating means for receiving speech signals and generating series of values, each series representing respective portions of the frequency spectrum of the input signal, and encoding means for digitally encoding each series, and bit detection means for changing the number of bits used to encode the respective series depending on their relative energy content, the number of series to which any given number of bits is assigned being constant and only the selection of the series to which respective numbers of bits are assigned being changed.
Herkömmliche Analogtelefonsysteme werden durch digitale Systeme ersetzt. Bei digitalen Systemen werden die Analogsignale mit einer Geschwindigkeit von ungefähr dem Zweifachen der Bandbreite der Analogsignale oder ungefähr 8 Kilohertz abgetastet und die Abtastungen werden dann codiert. Bei einem einfachen Pulscode-Modulationssystem (PCN) wird jede Abtastung als ein Wert eines bestimmten Satzes von vorgewählten Werten quantisiert und als ein Digitalwort codiert, das dann über die Telefonleitungen übertragen wird. Beispielsweise wird bei Digitalwörtern von 8 Bit die Analogprobe zu 2&sup8; oder 256 Pegeln quantisiert, von denen jeder durch ein unterschiedliches Wort von 8 Bit bezeichnet ist. Wenn eine nichtlineare Quantisierung verwendet wird, kann Sprache ausgezeichneter Qualität mit nur 7 Bit pro Abtastung erhalten werden; da aber ein Wort mit 7 Bit weiterhin für jede Abtastung verlangt wird, sind Bitübertragungsraten von 56 Kilobit pro Sekunde notwendig.Conventional analog telephone systems are being replaced by digital systems. In digital systems, the analog signals are sampled at a rate of about twice the bandwidth of the analog signals, or about 8 kilohertz, and the samples are then encoded. In a simple pulse code modulation (PCN) system, each sample is quantized as one of a certain set of preselected values and encoded as a digital word, which is then transmitted over the telephone lines. For example, with digital words of 8 bits, the analog sample is quantized to 28, or 256 levels, each of which is denoted by a different word of 8 bits. When nonlinear quantization is used, excellent quality speech can be transmitted using only 7 bits per sample. can be obtained; however, since a 7-bit word is still required for each sample, bit transfer rates of 56 kilobits per second are necessary.
Anstrengungen sind unternommen worden, um die Bitraten zu verringern, die benötigt werden, die Sprache zu codieren und ein klares, decodiertes Sprachsignal am Empfangsende des Systems zu erhalten. Die lineare prädiktive Codiertechnik (LPC) basiert auf dem Erkennen, daß die Spracherzeugung eine Anregung und einen Filtervorgang beinhaltet. Die Anregung wird durch die Stimmbandschwingung für gesprochene Sprache und durch Turbulenzen für sprachfreie Sprache bestimmt und dieses Betätigungssignal wird dann durch den Filtervorgang der Stimmresonanzkammern unter Einschluß des Mund- und Nasendurchlasses abgeändert. Für eine besondere Gruppe von Abtastungen kann ein Digitalfilter, das die Formant-Wirkungen der Resonanzkammern simuliert, definiert werden und die Definition kann codiert werden. Ein Restsignal, das die Anregung annähert, kann dann erhalten werden, indem das Sprachsignal durch ein umgekehrtes Formant-Filter hindurchgeschickt wird, und das Restsignal kann codiert werden. Da ausreichend Information in dem niederfrequenten Abschnitt des Restspektrums enthalten ist, ist es möglich, nur das niederfrequente Grundband zu codieren und trotzdem eine ausreichend klare Sprache zu erhalten. Beim Empfänger werden eine Definition des Formant-Filters und des Restgrundbandes decodiert. Das Grundband wird wiederholt, um das Spektrum des Restsignals zu vervollständigen. Indem das decodierte Filter auf das wiederholte Grundbandsignal angewendet wird, kann die Ausgangssprache rekonstruiert werden.Efforts have been made to reduce the bit rates required to encode speech and obtain a clear, decoded speech signal at the receiving end of the system. The linear predictive coding technique (LPC) is based on the recognition that speech production involves an excitation and a filtering process. The excitation is determined by the vocal cord vibration for spoken speech and by turbulence for non-speech speech and this excitation signal is then modified by the filtering process of the vocal resonant chambers including the mouth and nose passages. For a particular group of samples, a digital filter simulating the formant effects of the resonant chambers can be defined and the definition can be coded. A residual signal approximating the excitation can then be obtained by passing the speech signal through an inverted formant filter and the residual signal can be coded. Since sufficient information is contained in the low frequency portion of the residual spectrum, it is possible to encode only the low frequency baseband and still obtain sufficiently clear speech. At the receiver, a definition of the formant filter and the residual baseband are decoded. The baseband is repeated to complete the spectrum of the residual signal. By applying the decoded filter to the repeated baseband signal, the source speech can be reconstructed.
Ein bedeutendes Problem beim Ansatz der vorhersagenden Codiertechnik (LPC) liegt im Definieren des Formant-Filters, das mit jedem Fenster von oben redefiniert werden muß. Ein komplexer Codierer und ein komplexer Decodierer werden benötigt, um Übertragungsraten von so niedrig wie 16.000 Bit pro Sekunde zu erhalten. Ein anderes Problem bei solchen System ist, daß sie nicht immer eine zufriedenstellende Rekonstruktion gewisser Formant liefern, wie beispielsweise dasjenige, das sich aus der Nasalresonanz ergibt. Es ist die Zielsetzung der Erfindung, diese Schwierigkeiten zu lösen.A significant problem with the predictive coding (LPC) approach is defining the formant filter, which must be redefined with each window from above. A complex encoder and a complex decoder are required to obtain transmission rates as low as 16,000 bits per second. Another problem with such systems is that they do not always provide a satisfactory reconstruction of certain formants, such as that resulting from nasal resonance. It is the object of the invention to solve these difficulties.
Diese Zielsetzung wird durch die kennzeichnenden Merkmale des Anspruches 1 bzw. 14 erreicht. Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der Unteransprüche.This objective is achieved by the characterizing features of claim 1 and 14. Preferred embodiments of the invention are the subject of the subclaims.
In einem System wird die ungefähre Einhüllende des Transformationsspektrums in jedem einer Mehrzahl von Unterbändern der Koeffizienten definiert und jede Definition der Einhüllenden wird zur Übertragung codiert. Jeder Spektralkoeffizient wird dann relativ zu der definierten Einhüllenden des entsprechenden Unterbandes skaliert, und jeder skalierte Koeffizient wird in einer Anzahl von Bit codiert, die durch die definierte Einhüllende ihres Unterbandes bestimmt ist.In one system, the approximate envelope of the transform spectrum is defined in each of a plurality of subbands of the coefficients, and each definition of the envelope is encoded for transmission. Each spectral coefficient is then scaled relative to the defined envelope of the corresponding subband, and each scaled coefficient is encoded in a number of bits determined by the defined envelope of its subband.
Null-Bit können einer Anzahl von weniger bedeutenden Unterbändern zugeteilt werden, wie es durch die definierten einhüllenden angegeben ist; und veränderbare Anzahlen von Bit können für jeden codierten Koeffizienten in Abhängigkeit von der Größe der definierten Einhüllenden für das jeweilige Unterband verwendet werden. Somit werden die Unterbänder, die übertragen werden und die Auflösung, mit der die übertragenen Unterbänder codiert werden, für jedes Abtastungsfenster auf der Grundlage der definierten Einhüllenden der Unterbänder anpassungsmäßig bestimmt.Zero bits may be allocated to a number of less significant subbands as indicated by the defined envelopes; and variable numbers of bits may be used for each coded coefficient depending on the size of the defined envelope for the respective subband. Thus, the subbands that are transmitted and the resolution with which the transmitted subbands are encoded are adaptively determined for each sampling window based on the defined envelopes of the subbands.
Beim Empfänger werden die Unterbänder, die übertragen worden sind, wiederholt, um Koeffizienten der Frequenzen zu definieren, die nicht übertragen worden sind. Einem ListenWiederholungsverfahren wird gefolgt, durch das ein n-ter Koeffizient, der übertragen worden ist, als ein n-ter Koeffizient wiederholt wird, der nicht übertragen worden ist. Nach der Wiederholung kann das Sprachsignal wieder erzeugt werden, indem die übertragenen Definitionen der Einhüllenden verwendet werden, um Koeffizienten der jeweiligen Unterbänder umgekehrt zu skalieren und indem eine umgekehrte Transformation durchgeführt wird.At the receiver, the subbands that have been transmitted are repeated to define coefficients of the frequencies that have not been transmitted. A list repetition procedure is followed by which an nth coefficient that has been transmitted is repeated as an nth coefficient that has not been transmitted. After repetition, the speech signal can be regenerated by using the transmitted envelope definitions used to inversely scale coefficients of the respective subbands and by performing an inverse transformation.
Bei einem anderen System wird das Spektrum zuerst in bezug auf nur einige wenige Abschnitte normalisiert und nachfolgend in bezug auf eine größere Anzahl von Unterabschnitten. Die maximale Größe in jedem der Abschnitte und in jedem der Unterabschnitte wird codiert. Die Maxima werden logarithmisch codiert und nur ein Grundband des normalisierten Spektrums wird codiert.In another system, the spectrum is first normalized with respect to only a few bins and subsequently with respect to a larger number of subbins. The maximum magnitude in each of the bins and in each of the subbins is encoded. The maxima are logarithmically encoded and only a baseband of the normalized spectrum is encoded.
Die vorgenannten und andere Zielsetzungen, Merkmale und Vorteile der Erfindung werden offensichtlich aus der folgenden, mehr ins einzelne gehenden Beschreibung einer bevorzugten Ausführungsform der Erfindung, wie sie in den beigefügten Zeichnungen dargestellt ist, in denen sich gleiche Bezugszeichen auf die gleichen Teile durchgehend bei den unterschiedlichen Darstellungen beziehen. Die Zeichnungen sind nicht notwendigerweise maßstabsgerecht, wobei statt dessen die Betonung auf die Darstellung der Grundsätze der Erfindung gelegt worden ist.The foregoing and other objects, features and advantages of the invention will become apparent from the following more particular description of a preferred embodiment of the invention as illustrated in the accompanying drawings, in which like reference characters refer to like parts throughout the several views. The drawings are not necessarily to scale, emphasis instead being placed upon illustrating the principles of the invention.
Fig. 1 ist eine Blockdiagrammdarstellung eines Codierers und eines Decodierers, die die Erfindung verkörpern;Fig. 1 is a block diagram representation of an encoder and a decoder embodying the invention;
Fig. 2 ist ein Blockdiagramm eines Sprachcodierers und eines entsprechenden Decodierers einer bevorzugten Ausführungsform des Systems der Fig. 1.Fig. 2 is a block diagram of a speech encoder and a corresponding decoder of a preferred embodiment of the system of Fig. 1.
Fig. 3 ist ein Beispiel eines Größenspektrums der Fourier-Transformierten eines Sprachfensters, das die Grundgedanken des Systems der Fig. 2 darstellt;Fig. 3 is an example of a magnitude spectrum of the Fourier transform of a speech window illustrating the principles of the system of Fig. 2;
Fig. 4 ist ein von der Fig. 3 normalisiertes Beispielsspektrum auf der Grundlage der Grundgedanken der vorliegenden Erfindung;Fig. 4 is an example spectrum normalized from Fig. 3 based on the principles of present invention;
Fig. 5 zeigt schematisch eine Quantisierungseinrichtung für komplexe Werte des normalisierten Spektrums;Fig. 5 shows schematically a quantization device for complex values of the normalized spectrum;
Fig. 6 ist eine Beispielsdarstellung von Koeffizientengruppen, die übertragen werden, und zeigt die Wiederholungstechnik des Systems der Fig. 2.Figure 6 is an example representation of coefficient groups being transmitted and shows the repetition technique of the system of Figure 2.
Fig. 7 ist ein Beispiel eines Größenspektrums eines Sprachfensters, wobei die Grundgedanken eines anderen Systems dargestellt sind, das die vorliegende Erfindung verkörpert;Fig. 7 is an example of a range of sizes of a speech window illustrating the principles of another system embodying the present invention;
Fig. 8 ist ein von dem Spektrum der Fig. 7 normalisiertes Beispielsspektrum, wobei vier Formant-Abschnitte verwendet werden;Fig. 8 is an example spectrum normalized from the spectrum of Fig. 7 using four formant sections;
Fig. 9 ist ein Beispielsspektrum, das von dem der Fig. 8 in Unterbändern normalisiert ist;Fig. 9 is an example spectrum normalized from that of Fig. 8 into subbands;
Fig. 10 stellt schematisch eine Quantisierungseinrichtung für komplexe Werte des normalisierten Spektrums dar;Fig. 10 schematically illustrates a quantization device for complex values of the normalized spectrum ;
Fig. 11 ist eine Blockdiagrammdarstellung des spektralen Entzerrungs-Codierkreises der Fig. 1 bei einer alternativen Ausführungsform.Figure 11 is a block diagram representation of the spectral equalization coding circuit of Figure 1 in an alternative embodiment.
Ein Blockdiagramm des Systems ist in Fig. 1 gezeigt. Die Sprache wird mit einem Telefonbandpaßfilter 20 gefiltert, das Bilden von Pseudonymen verhindert, wenn das Signal 8.000 mal pro Sekunde in einem Abtastkreis 22 abgetastet wird. Die Analogabtastungen werden digital in einem Analog/Digital-Codierer 24 codiert und bei 26 vorverarbeitet, bevor sie an eine diskrete Fourier-Transformationseinheit 28 gegeben werden.A block diagram of the system is shown in Fig. 1. The speech is filtered with a telephone bandpass filter 20, which prevents pseudonymization as the signal is sampled 8,000 times per second in a sampling circuit 22. The analog samples are digitally encoded in an analog-to-digital encoder 24 and preprocessed at 26 before being passed to a discrete Fourier transform unit 28.
Der Ausgang des Fourier-Transformationskreises 28 ist eine Reihe von Koeffizienten, die die Größe und Phase des Fourier-Transformationsspektrum bei jeder der 97 Frequenzen anzeigen, die 41.667 Hertz voneinander beabstandet sind. Das Größenspektrum des Fourier-Transformationsausgangs ist in Fig. 3 als eine fortlaufende Funktion dargestellt, aber man sieht, daß der Transformationskreis 28 tatsächlich nur 97 schrittmäßige Ausgänge liefert.The output of the Fourier transform circuit 28 is a series of coefficients indicating the magnitude and phase of the Fourier transform spectrum at each of 97 frequencies spaced 41,667 hertz apart. The magnitude spectrum of the Fourier transform output is shown in Fig. 3 as a continuous function, but it can be seen that the transform circuit 28 actually provides only 97 stepwise outputs.
Gemäß der vorliegenden Erfindung wird das Fourier-Transformationsspektrum der vollen Sprache innerhalb eines ausgewählten Fensters ausgeglichen und in einem Kreis 30 auf eine Weise codiert, die unten erörtert werden wird. Das sich ergebende Digitalsignal kann mit 16.000 Bit pro Sekunde über eine Leitung 32 zu einem Empfänger übertragen werden. Beim Empfänger wird das volle Spektrum der Fig. 3 in dem Kreis 34 rekonstruiert. Die umgekehrte Fourier-Transformation wird in dem Kreis 36 ausgeführt und auf sie wird eine Nachbearbeitungseinrichtung 38 angewendet, die der Vorverarbeitungseinrichtung 26 entspricht. Dieses Signal wird dann in analoge Form in einem Digital/Analog-Umwandler 40 umgewandelt. Eine abschließende Filterung im Filter 42 liefert dem Hörer eine klare Sprache.According to the present invention, the Fourier transform spectrum of the full speech is equalized within a selected window and encoded in a circuit 30 in a manner to be discussed below. The resulting digital signal can be transmitted to a receiver at 16,000 bits per second over a line 32. At the receiver, the full spectrum of Figure 3 is reconstructed in the circuit 34. The inverse Fourier transform is performed in the circuit 36 and applied to a post-processor 38 corresponding to the pre-processor 26. This signal is then converted to analog form in a digital-to-analog converter 40. Final filtering in the filter 42 provides clear speech to the listener.
Bei einem bevorzugten System wird eine Mehrfachprozessor- Architektur mit Pipeline verwendet. Ein Mikrocomputer ist für die Analog/Digital-Umwandlung mit Vorverzerrungsfiltern vorgesehen, einer ist der Vorwärts-Fourier-Transformation gewidmet und ein dritter ist dem Spektralausgleich und dem Codieren gewidmet. Ähnlich ist in dem Empfänger ein Mikrocomputer der Spektralrekonstruktion gewidmet, ein anderer der umgekehrten Fourier-Transformation und ein dritter der Digital/Analog-Umwandlung mit Nachentzerrungsfiltern.A preferred system uses a pipelined multiprocessor architecture. One microcomputer is dedicated to analog-to-digital conversion with pre-emphasis filters, one is dedicated to forward Fourier transform, and a third is dedicated to spectral equalization and coding. Similarly, in the receiver, one microcomputer is dedicated to spectral reconstruction, another to inverse Fourier transform, and a third to digital-to-analog conversion with post-emphasis filters.
Die spektrale Ausgleichs- und Codiertechnik der vorliegenden Erfindung basiert auf dem Erkennen, das die Fourier-Transformierte des Gesamtsignals ein relativ flaches Spektrum der Tonlage einschließt, das in Fig. 4 dargestellt und durch die Formant-Signale geformt ist. Bei dem vorliegenden System wird das Signal der Fig. 4 erhalten, indem das Spektrum der Fig. 3 auf wenigstens eine Kurve normalisiert wird, die selbst von dem Restspektrum der Fig. 4 getrennt codiert werden kann.The spectral equalization and coding technique of the present invention is based on the recognition that the Fourier transform of the total signal has a relatively flat spectrum of pitch shown in Fig. 4 and shaped by the formant signals. In the present system, the signal of Fig. 4 is obtained by normalizing the spectrum of Fig. 3 to at least one curve which can itself be coded separately from the residual spectrum of Fig. 4.
Eine Ausführung des Codiersystems der Fig. 1 ist in Fig. 2 gezeigt. Vor der Komprimierung wird das analoge Sprachsignal in dem Filter 20 bei 3,4 Kilohertz tiefpaßgefiltert, in dem Abtaster 22 bei einer Rate von 8 Kilohertz abgetastet und unter Verwendung eines linearen 12-Bit-Analog/Digital-Umwandlers 24 digitalisiert. Man erkennt, daß der Eingang zu dem Codierer bereits in digitaler Form sein kann und eine Umwandlung in den Code verlangt, der von dem Codierer akzeptiert werden kann. Das digitale Sprachsignal in Rahmen von N-Abtastungen wird in einer Skalierungseinrichtung 26 zuerst aufskaliert, um seinen dynamischen Bereich in jedem Rahmen zu maximieren. Die skalierten Eingangsabtastungen werden dann in einer Einrichtung für eine schnelle Fourier- Transformation 28 fourier-transformiert, um ein entsprechendes, diskretes Spektrum zu erhalten, das durch (N/2)+1 komplexe Frequenzkoeffizienten dargestellt wird.An embodiment of the coding system of Fig. 1 is shown in Fig. 2. Before compression, the analog speech signal is low-pass filtered in filter 20 at 3.4 kilohertz, sampled in sampler 22 at a rate of 8 kilohertz, and digitized using a 12-bit linear analog-to-digital converter 24. It will be appreciated that the input to the encoder may already be in digital form and requires conversion to the code that can be accepted by the encoder. The digital speech signal in frames of N samples is first scaled up in a scaling device 26 to maximize its dynamic range in each frame. The scaled input samples are then Fourier transformed in a fast Fourier transform facility 28 to obtain a corresponding discrete spectrum represented by (N/2)+1 complex frequency coefficients.
Bei einer besonderen Ausgestaltung gleicht die Eingangsrahmengröße 180 Abtastungen und entspricht einem Rahmen alle 22,5 Millisekunden. Jedoch wird die diskrete Fourier-Transformation bei 192 Abtastungen durchgeführt, wobei 12 mit dem vorhergehenden Rahmen überlappte Abtastungen eingeschlossen sind, wobei eine Trapezfensterbildung mit einer Neigung von 12 Punkten an jedem Ende vorausgeht. Der sich ergebende Ausgang der schnellen Fourier-Transformation schließt 97 komplexe Frequenzkoeffizienten ein, die 41.667 Hertz voneinander beabstandet sind.In a particular embodiment, the input frame size is equal to 180 samples, corresponding to one frame every 22.5 milliseconds. However, the discrete Fourier transform is performed on 192 samples, including 12 samples overlapped with the previous frame, preceded by trapezoidal windowing with a slope of 12 points at each end. The resulting fast Fourier transform output includes 97 complex frequency coefficients spaced 41,667 hertz apart.
Ein beispielhaftes Größenspektrum einer Fourier-Transformation, die von der schnellen Fourier-Transformation 28 ausgegeben wird, ist in Fig. 3 dargestellt. Obgleich sie als durchgehende Funktion dargestellt ist, erkennt man, daß der Transformationskreis 28 tatsächlich nur 97 schrittweise, komplexe Ausgänge liefert.An example of a Fourier transform magnitude spectrum output by the fast Fourier transform 28 is shown in Fig. 3. Although it is shown as a continuous function, it can be seen that the transformation circuit 28 actually provides only 97 stepwise, complex outputs.
Das Größenspektrum des Fourier-Transformationsausgangs wird ausgeglichen und codiert. Hierfür wird das Spektrum in aneinanderangrenzende Unterbänder unterteilt und eine abgeschätzte, spektrale Einhüllende basiert auf einer stückweisen Annäherung dieser Unterbänder bei 44. Bei einer besonderen Ausführung wird das Spektrum in zwanzig Unterbänder unterteilt, von denen jedes vier komplex Koeffizienten einschließt. Frequenzen oberhalb von 3.291,67 Herz werden nicht codiert und beim Empfänger gleich null gesetzt. Um das Spektrum auszugleichen, wird die spektrale Einhüllende von jedem Unterband als konstant angenommen und wird durch die Spitzengröße in jedem Unterband definiert, wie es durch die horizontalen Linien in Fig. 3 dargestellt ist. Jede Größe, oder genauer das Umgekehrte von ihr, kann als ein Skalierungsfaktor für ihr jeweiliges Unterband behandelt werden. Jeder Skalierungsfaktor wird in einer Quantisierungseinrichtung 45 mit vier Bit quantisiert.The magnitude spectrum of the Fourier transform output is equalized and encoded. To do this, the spectrum is divided into adjacent subbands and an estimated spectral envelope is based on a piecewise approximation of these subbands at 44. In a particular implementation, the spectrum is divided into twenty subbands, each of which includes four complex coefficients. Frequencies above 3,291.67 Hz are not encoded and are set equal to zero at the receiver. To equalize the spectrum, the spectral envelope of each subband is assumed to be constant and is defined by the peak magnitude in each subband, as shown by the horizontal lines in Figure 3. Each magnitude, or more precisely its inverse, can be treated as a scaling factor for its respective subband. Each scaling factor is quantized in a quantization device 45 with four bits.
Indem dann bei 46 die Größe von jedem Koeffizienten des Spektrums mit dem diesem Koeffizienten zugeordneten Skalierungsfaktor multipliziert wird, wird das flachgemachte Restspektrum der Fig. 4 erhalten. Dieses Planieren des Spektrums ist dem umgekehrten Filtern des Signals auf der Grundlage der stückweise-konstanten Abschätzung der spektralen Einhüllenden äquivalent.Then, by multiplying the magnitude of each coefficient of the spectrum by the scaling factor associated with that coefficient at 46, the residual flattened spectrum of Fig. 4 is obtained. This flattening of the spectrum is equivalent to reverse filtering of the signal based on the piecewise constant estimate of the spectral envelope.
Nur ausgewählte Unterbänder des flachgemachten Spektrums der Fig. 4 werden quantisiert und übertragen. Die Auswahl bei 48 der zu übertragenden Unterbänder basiert auf dem Skalierungsfaktor der Unterbänder. Bei einer besonderen Ausführung werden die zwölf Unterbänder, die die kleinsten Skalierungsfaktoren, das heißt die größte Energie haben, codiert und übertragen. Für die 8 Energiebänder niederer Energie werden nur die Skalierungsfaktoren übertragen.Only selected subbands of the flattened spectrum of Fig. 4 are quantized and transmitted. The selection of 48 subbands to be transmitted is based on the scaling factor of the subbands. In a particular embodiment, the twelve subbands that have the smallest scaling factors, i.e. the highest energy, are encoded and For the 8 low energy bands, only the scaling factors are transmitted.
Eine ungleichförmige Bit-Zuordnung wird für die komplexen Koeffizienten verwendet, die übertragen werden. Drei getrennte, zweidimensionale Quantisierungseinrichtungen 50 werden für die übertragenen 12 Unterbänder verwendet. Die sechzehn komplexen Koeffizienten für die vier Unterbänder, die die kleinsten Skalierungsfaktoren haben, werden jeweils mit sieben Bit quantisiert. Die Koeffizienten der vier Unterbänder, die die nächstkleinsten Skalierungsfaktoren haben, werden jeweils mit 6 Bit quantisiert, und die Koeffizienten der übrigen vier der übertragenen Untergruppen werden jeweils mit 4 Bit quantisiert. Tatsächlich werden die Koeffizienten der acht Unterbänder, die nicht übertragen werden, mit Null-Bit quantisiert.A non-uniform bit allocation is used for the complex coefficients that are transmitted. Three separate two-dimensional quantizers 50 are used for the 12 subbands transmitted. The sixteen complex coefficients for the four subbands that have the smallest scale factors are each quantized with seven bits. The coefficients of the four subbands that have the next smallest scale factors are each quantized with 6 bits, and the coefficients of the remaining four of the transmitted subgroups are each quantized with 4 bits. In fact, the coefficients of the eight subbands that are not transmitted are quantized with zero bits.
Jede der zweidimensionalen Quantisiereinrichtungen ist unter Verwendung eines Ansatzes entworfen, der angegeben ist von Linde u. a. "An Algorithm for Vector Quantizer Design", IEEE Trans on Commun, Vol COM-28, S. 84-95, Januar 1980. Das Ergebnis für die Quantisierungseinrichtung mit 7 Bit ist in Fig. 5 gezeigt. Die zwei Dimensionen der Quantisierungseinrichtung sind der Real- und der Imaginärteil jedes komplexen Koeffizienten. Jedes Bündel hat eine Darstellung von 7 Bit, auf die jeder komplexe Punkt in dem Bündel quantisiert ist. Die aktuelle Quantisierung kann durch eine Nachsehtabelle in einem Nur-Lesespeicher erfolgen.Each of the two-dimensional quantizers is designed using an approach given by Linde et al., "An Algorithm for Vector Quantizer Design", IEEE Trans on Commun, Vol COM-28, pp. 84-95, January 1980. The result for the 7-bit quantizer is shown in Fig. 5. The two dimensions of the quantizer are the real and imaginary parts of each complex coefficient. Each bundle has a 7-bit representation to which each complex point in the bundle is quantized. The actual quantization can be done by a look-up table in read-only memory.
Die Bit-Zuordnung für einen einzelnen Rahmen kann wie folgt zusammengefaßt werden:The bit allocation for a single frame can be summarized as follows:
Skalierungsfaktoren 20 · jeweils 4 Bit = 80 BitScaling factors 20 · 4 bits each = 80 bits
16 · 7 Bit = 112 Bit16 · 7 bits = 112 bits
16 · 6 Bit = 96 Bit16 · 6 bits = 96 bits
16 · 4 Bit = 64 Bit16 · 4 bits = 64 bits
Zeitskalierung = 4 BitTime scaling = 4 bit
Synchronisierung = 4 BitSynchronization = 4 bits
Gesamt = 360 BitTotal = 360 bits
Beim Empfänger werden die übertragenen zwölf Koeffizientengruppen auf entsprechende umgekehrte Quantisierungseinrichtungen von sieben Bit, sechs Bit und vier Bit bei 52 angewendet. Die Frequenzunterbänder, denen die sich ergebenden Koeffizienten entsprechen, werden durch die Skalierungsfaktoren bestimmt, die der Reihe nach für alle Unterbänder übertragen werden. Somit werden die Koeffizienten von der umgekehrten Quantisierungseinrichtung mit sieben Bit in den Unterbändern angeordnet, von denen die Skalierungsfaktoren angeben, welches die größte Größe aufweist.At the receiver, the transmitted twelve groups of coefficients are applied to respective inverse quantizers of seven bits, six bits and four bits at 52. The frequency subbands to which the resulting coefficients correspond are determined by the scale factors transmitted in turn for all subbands. Thus, the coefficients from the seven bit inverse quantizer are arranged in the subbands of which the scale factors indicate which has the largest magnitude.
Die Koeffizienten der acht Unterbänder, die nicht übertragen worden sind, werden durch die Wiederholung der übertragenen Unterbänder bei 54 angenähert. Hierfür wird eine Listenwiederholungsannäherung verwendet. Diese Annäherung ist durch die Fig. 6 dargestellt. In der Fig. 6 sind die Koeffizienten für jedes Unterband durch einen einzelnen Vektor angegeben. Die übertragenen Unterbänder sind mit T1, T2, T3,... Tn,... bezeichnet, und die Unterbänder, die durch Wiederholung in dem Empfänger erzeugt werden müssen, sind mit R1, R2, R3,... Rn,... bezeichnet. Gemäß der Wiederholungstechnik des vorliegenden Systems werden die Koeffizienten des Unterbandes Tn sowohl für Tn als auch für Rn verwendet. Somit werden die skalierten Koeffizienten für das Unterband T1 bei dem Unterband R1 wiederholt, jene des Unterbandes T2 werden bei R2 wiederholt, und jene beim Unterband T3 werden bei R3 wiederholt. Der Grund für diese Listenwiederholungstechnik ist, daß die Unterbänder selbst üblicherweise in Blöcke übertragener Unterbänder und Blöcke nichtübertragener Unterbänder gruppiert sind. Somit werden große Blöcke von Koeffizienten typischerweise wiederholt, wobei dieses Verfahren verwendet wird, und die Sprachharmonischen werden bei dem Wiederholungsverfahren aufrechterhalten.The coefficients of the eight subbands that have not been transmitted are approximated by repeating the transmitted subbands at 54. A list repetition approximation is used for this. This approximation is shown in Figure 6. In Figure 6, the coefficients for each subband are given by a single vector. The transmitted subbands are denoted T1, T2, T3,... Tn,... and the subbands that must be generated by repetition in the receiver are denoted R1, R2, R3,... Rn,... According to the repetition technique of the present system, the coefficients of subband Tn are used for both Tn and Rn. Thus, the scaled coefficients for subband T1 are repeated at subband R1, those of subband T2 are repeated at R2, and those of subband T3 are repeated at R3. The reason for this list repetition technique is that the subbands themselves are usually grouped into blocks of transmitted subbands and blocks of non-transmitted subbands. Thus, large blocks of coefficients are typically repeated using this method, and the speech harmonics are maintained in the repetition process.
Sobald das gleichgemachte Spektrum der Fig. 4 durch Wiederholung der Unterbänder wiedererzeugt worden ist, kann eine Wiederherstellung des Spektrums der Fig. 3 bei 56 erzeugt werden, indem die Skalierungsfaktoren auf das gleichgemachte Spektrum angewendet werden. Aus dieser Wiederherstellung der Fourier-Transformierten der ursprünglichen Fourier-Transformierten kann die Sprache durch eine umgekehrte, schnelle Fourier-Transformationseinrichtung 36, einen umgekehrten Zähler 38, einen Digital/Analog-Umwandler 40 und ein Wiederherstellungsfilter 42 erhalten werden.Once the equalized spectrum of Figure 4 has been recreated by repeating the subbands, a reproduction of the spectrum of Figure 3 can be created at 56 by applying the scaling factors to the equalized spectrum. From this reproduction of the Fourier transform of the original Fourier transform, the speech can be obtained by an inverse fast Fourier transformer 36, an inverse counter 38, a digital-to-analog converter 40 and a reproduction filter 42.
Ein hervorragender Vorteil der vorliegenden Erfindung ist, daß der Codierer nicht auf einem angenommenen, festen Tiefpaß-Spektralmodell basiert, das sprachspezifisch ist. Sprachband-Daten und Sprachband-Signalisierung nehmen die Form von Sinuswellen einiger Bandbreite an, die bei irgendeiner Frequenz auftreten kann. Wo nur ein unteres und ein oberes Grundband von Koeffizienten übertragen wird, können Sprachband-Daten verloren werden. Bei dem vorliegenden System sind die Unterbänder, in denen die digitalen Informationen übertragen werden, wegen ihrer höheren Energie natürlich ausgewählt.An outstanding advantage of the present invention is that the encoder is not based on an assumed fixed low-pass spectral model that is speech specific. Voiceband data and voiceband signaling take the form of sine waves of some bandwidth that may occur at any frequency. Where only a lower and an upper baseband of coefficients are transmitted, voiceband data may be lost. In the present system, the subbands in which the digital information is transmitted are naturally selected for their higher energy.
Ein anderes anziehendes Merkmal des Codiersystems ist seine integrierte Datenraten-Codefähigkeit. Integriertes Codieren, das als ein Verfahren zur Überlastungssteuerung bei Telefonanwendungen von Bedeutung ist, gestattet, daß die Daten den Codierer mit einer konstanten Bitrate verlassen, jedoch beim Decodierer mit einer niedrigeren Bitrate empfangen werden, da einige Bit auf dem Weg entfernt werden. Integriertes Codieren schließt ein Paket oder einen Block von Bit ein, in dem es eine Hierarchie von Unterblöcken gibt. Die am wenigsten kritischen Unterblöcke können zuerst entfernt werden, wenn der Kanal überlastet wird. Dieses hierarchische Prinzip ist bei dem vorliegen-den System ein natürliches, bei dem die Teilbandinformation, die durch einen Satz von Frequenzkoeffizienten beschrieben ist, mit abnehmender Bedeutung geordnet wird und die fehlenden Koeffizienten stets durch die empfangenen angenähert werden können. Je mehr Koeffizienten in dem Satz vorhanden sind, desto größer ist die Rate und desto besser ist die Qualität. Jedoch nimmt die Sprachqualität sehr sanft mit geringer Abnahme der Rate ab. Die Eingliederung eines integrierten Codiersystems in Verbindung mit diesem Verfahren ist deshalb recht einfach und sehr attraktiv.Another attractive feature of the coding system is its integrated data rate coding capability. Integrated coding, which is important as a method of congestion control in telephone applications, allows the data to leave the encoder at a constant bit rate but be received at the decoder at a lower bit rate because some bits are removed along the way. Integrated coding involves a packet or block of bits in which there is a hierarchy of sub-blocks. The least critical sub-blocks may be removed first when the channel becomes congested. This hierarchical principle is a natural one in the present system, in which the sub-band information described by a set of frequency coefficients is ordered in decreasing order of importance. and the missing coefficients can always be approximated by the received ones. The more coefficients there are in the sentence, the higher the rate and the better the quality. However, the speech quality decreases very smoothly with a small decrease in the rate. The incorporation of an integrated coding system in conjunction with this method is therefore quite simple and very attractive.
Die vorstehend beschriebene Codiertechnik liefert eine ausgezeichnete Sprachcodierung und Wiedergabe bei 16 Kilobit pro Sekunde. Ausgezeichnete Ergebnisse, so niedrig wie 8,0 Kilobit pro Sekunde, können erhalten werden, indem diese Technik in Verbindung mit einer Frequenzskalierungstechnik verwendet wird, die als harmonische Skalierung des Zeitbereiches bekannt und beschrieben ist von D. Malah, "Time Domain Algorithmus for Harmonic Bandwidth Reduction and Time Scaling of Speech, Signals", IEEE Trans. Acoust., Speech, Signal Processing, Bd. ASSP-27, S. 121-133, April 1979. Bei diesem Verfahren wird vor der Durchführung der schnellen Fourier-Transformation Sprache mit der doppelten Rate der ursprünglichen Sprache aber mit der ursprünglichen Tonhöhe durch Kombination benachbarter Tonhöhenzyklen erzeugt. Die frequenzskalierte Sprache kann dann schneller in der obenbeschriebenen Technik Fourier-transformiert werden.The coding technique described above provides excellent speech coding and reproduction at 16 kilobits per second. Excellent results, as low as 8.0 kilobits per second, can be obtained by using this technique in conjunction with a frequency scaling technique known as time domain harmonic scaling, described by D. Malah, "Time Domain Algorithm for Harmonic Bandwidth Reduction and Time Scaling of Speech, Signals," IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-27, pp. 121-133, April 1979. In this technique, speech at twice the rate of the original speech but at the original pitch is generated by combining adjacent pitch cycles before performing the fast Fourier transform. The frequency-scaled speech can then be more quickly Fourier transformed in the technique described above.
Obgleich jeder der Schritte der Restgewinnung, der Unterbandauswahl und der Quantisierung und die Schritte der umgekehrten Quantisierung, der Wiederholung und der Erregung der Einhüllenden als einzelne Elemente des Systems gezeigt sind, erkennt man, daß sie in ein aktuelles System integriert werden können. Beispielsweise muß das Restspektrum für Unterbänder, die nicht übertragen werden, nicht erhalten werden. Das System dann ausgeführt werden, indem eine Kombination aus Software und Hardware verwendet wird.Although each of the residue extraction, subband selection and quantization steps and the reverse quantization, repetition and envelope excitation steps are shown as individual elements of the system, it will be appreciated that they can be integrated into an actual system. For example, the residue spectrum need not be obtained for subbands that are not transmitted. The system can then be implemented using a combination of software and hardware.
Bei einem anderen Codiersystem wird die Form des Spektrums durch ein zweistufiges Verfahren bestimmt. Dieses Verfahren codiert auch die Form des gesamten Spektrums von 100 bis 3.800 Hz, da dieses bei der Grundbandcodierung zweckmäßig ist. Beim ersten Schritt wird das Spektrum in vier Abschnitte unterteilt, die in Fig. 7 gezeigt sind.In another coding system, the shape of the spectrum by a two-step process. This process also encodes the shape of the entire spectrum from 100 to 3800 Hz, as this is convenient for baseband coding. In the first step, the spectrum is divided into four sections, which are shown in Fig. 7.
125 - 583 Hz125 - 583 Hz
625 - 1959 Hz625 - 1959 Hz
2000 - 3416 Hz2000 - 3416 Hz
3468 - 3833 Hz3468 - 3833 Hz
Diese Abschnitt entsprechen grob der Lage der ersten vier Formants. Der dynamische Bereich der Größen der Spektralkoeffizienten ist innerhalb eines jeden dieser Abschnitte viel kleiner als in dem Spektrum als Ganzes. Für Tonlagenphänomene kann die Spitzengröße nahe 250 Hz um 30 dB oberhalb der Größen nahe von 3.800 Hz sein. Der erste Schritt der spektralen Normalisierung wird durchgeführt, indem die Spitzengrößen innerhalb jeden Abschnittes gefunden werden, diese Spitzen jeweils zu 5 Bit mit einer logarithmischen Quantisiereinrichtung quantisiert werden und jeder Spektralkoeffizient durch die quantisierte Spitze in diesem Abschnitt dividiert wird. Das Ergebnis ist ein Vektor spektraler Koeffizienten mit maximaler Größe gleich der Einheit. Die Unterteilung in Abschnitte sollte ergeben, daß die Spektralkoeffizienten vernünftig gleichförmig innerhalb der komplexen Scheibe mit dem Radius eins verteilt sind.These bins roughly correspond to the location of the first four formants. The dynamic range of the spectral coefficient magnitudes is much smaller within each of these bins than in the spectrum as a whole. For pitch phenomena, the peak magnitude near 250 Hz may be 30 dB above the magnitudes near 3800 Hz. The first step of spectral normalization is performed by finding the peak magnitudes within each bin, quantizing these peaks to 5 bits each with a logarithmic quantizer, and dividing each spectral coefficient by the quantized peak in that bin. The result is a vector of spectral coefficients with maximum magnitude equal to unity. The division into bins should result in the spectral coefficients being reasonably uniformly distributed within the complex disk of radius one.
Der zweite Schritt gewinnt eine detailliertere Struktur. Das Spektrum wird in gleiche Bänder von jeweils ungefähr 165 Hz unterteilt. Die Spitzengröße innerhalb eines jeden Bandes wird festgestellt und zu 3 Bit quantisiert. Die komplexen Spektralkoeffizienten innerhalb des Bandes werden durch die quantisierte Größe dividiert und jeweils zu 6 Bit unter Verwendung einer hexagonalen Quantisierungseinrichtung codiert. Diese Codierung bewahrt die Phaseninformation, die für die Wiederherstellung von Rahmengrenzen bedeutend ist.The second step gains a more detailed structure. The spectrum is divided into equal bands of approximately 165 Hz each. The peak magnitude within each band is detected and quantized to 3 bits. The complex spectral coefficients within the band are divided by the quantized magnitude and encoded to 6 bits each using a hexagonal quantizer. This encoding preserves the phase information, which is important for recovering frame boundaries.
Die Einzelheiten dieser alternativen Methode sind unter Bezugnahme auf die Fig. 7 bis 11 dargestellt. In diesem System ist der Vorprozessor 26 ein einpoliges Vorverzerrungsfilter. Niedere Frequenzen werden um ungefähr 5 dB abgeschwächt. Hohe Frequenzen werden angehoben. Die höchste Frequenz (4 kHz) wird um ungefähr 24 dB hervorgehoben. Das Filter ist beim Gleichmachen des Spektrums zweckmäßig, indem die Tiefpaßwirkungen des Anfangsfilters und die Hochfrequenzabschwächung der Lippen verringert werden. Das Hervorheben hilft die numerische Genauigkeit bei der nachfolgenden Berechnung der Fourier-Transformierten aufrechtzuerhalten.The details of this alternative approach are shown with reference to Figures 7 through 11. In this system, the preprocessor 26 is a single pole preemphasis filter. Low frequencies are attenuated by approximately 5 dB. High frequencies are boosted. The highest frequency (4 kHz) is emphasized by approximately 24 dB. The filter is useful in equalizing the spectrum by reducing the low pass effects of the initial filter and the high frequency attenuation of the lips. The emphasis helps maintain numerical accuracy in the subsequent calculation of the Fourier transform.
In jedem der vier Formant-Abschnitte wird das Spektrum auf eine Kurve normalisiert, die in diesem Fall als eine horizontale Linie durch die Spitzengröße des Spektrums in jedem Bereich ausgewählt ist. Diese Kurven sind als Linien 58, 60, 62 und 64 in Fig. 7 gezeigt. Die Spitzengröße der komplexen Zahlen in jedem Abschnitt wird bestimmt und zu fünf Bit bei der Einheit 66 der Fig. 11 codiert, indem ein Wert k gefunden wird, der so codiert wird, daß der Spitzenwert zwischen 162 · 212(k-1)/32 und 162 · 212k/32 ist. Dies ergibt eine logarithmische Codierung der Spitzengröße. Die vier k-Werte, von denen jeder zu 5 Bit codiert ist, ergeben insgesamt 20 Bit von dem Formant-Codierer, die die signifikantesten Bit des übertragenen Codes für das Fenster sind. Alle Spektralkoeffizienten in jedem der vier Bereiche werden dann durch 162 · 212k/32 in der spektralen Normalisierungseinheit 68 dividiert. Mit diesem Verfahren werden alle sich ergebenden Größen, die in Fig. 8 dargestellt sind, kleiner als 1.In each of the four formant sections, the spectrum is normalized to a curve, which in this case is chosen to be a horizontal line through the peak magnitude of the spectrum in each region. These curves are shown as lines 58, 60, 62 and 64 in Figure 7. The peak magnitude of the complex numbers in each section is determined and encoded to five bits at unit 66 of Figure 11 by finding a value k which is encoded such that the peak value is between 162 x 212(k-1)/32 and 162 x 212k/32. This gives a logarithmic encoding of the peak magnitude. The four k values, each encoded to 5 bits, give a total of 20 bits from the formant encoder, which are the most significant bits of the transmitted code for the window. All spectral coefficients in each of the four regions are then divided by 162 212k/32 in the spectral normalization unit 68. With this procedure, all resulting quantities shown in Fig. 8 are less than 1.
Als nächstes werden die normalisierten Koeffizienten, die von der Einheit 68 ausgegeben werden, in zwanzig Bereiche zu vier und zwei Unterbereiche zu fünf gruppiert, die in Fig. 8 dargestellt sind. Die Spitzengröße in jedem dieser Unterbereiche wird bestimmte und zu 3 Bit mit einer logarithmischen Quantisierungseinrichtung in der Einheit 70 codiert. Die Spitze wird immer auf den nächstgrößten Wert codiert. Die drei Bit von jedem der 22 Unterbereiche liefern zusätzliche 66 Bit des Endsignals für das Fenster. Jeder Ausgang innerhalb eines Unterbereichs wird mit dem Reziproken der quantisierten Größe in der Abtastungsnormalisierungseinheit 72 multipliziert, wodurch sichergestellt wird, daß alle Ausgänge, wie es in Fig. 9 dargestellt ist, kleiner als 1 bleiben.Next, the normalized coefficients output from unit 68 are grouped into twenty ranges of four and two subranges of five, shown in Fig. 8. The peak size in each of these subranges is determined and encoded to 3 bits with a logarithmic quantizer in unit 70. The peak is always encoded to the next largest value. The three bits from each of the 22 subranges provide an additional 66 bits of final signal for the window. Each output within a subrange is multiplied by the reciprocal of the quantized magnitude in the sample normalization unit 72, thereby ensuring that all outputs remain less than 1, as shown in Fig. 9.
Jeder komplexe Ausgang von dem Grundband von 125 Hz bis 1959 Hz des normalisierten Spektrums der Fig. 9 wird zu 6 Bit mit der zweidimensionalen Quantisierungs- und Codiereinrichtung 74 codiert. Die zweidimensionale Quantisierungseinrichtung wird gebildet, indem eine komplexe Scheibe mit dem Radius eins in Sechsecke unterteilt wird, wie es in Fig. 10 gezeigt ist. Die x, y-Koordinaten werden radial durch eine Exponentialfunktion deformiert, um eine logarithmische Codierung der Größe anzunähern. Alle Punkte innerhalb eines Sechsecks werden auf die Koordinaten der Mitte des Sechsecks quantisiert. Als Ergebnis werden Koeffizienten größerer Größe mit besserer Phasenauflösung als Koeffizienten kleiner Größe codiert. Die tatsächliche Quantisierung wird durch eine Nachsehtabelle durchgeführt, aber wirkungsvolle Rechen-Algorithmen sind möglich.Each complex output from the baseband of 125 Hz to 1959 Hz of the normalized spectrum of Figure 9 is encoded to 6 bits by the two-dimensional quantizer and encoder 74. The two-dimensional quantizer is formed by dividing a complex disk of radius one into hexagons as shown in Figure 10. The x, y coordinates are radially deformed by an exponential function to approximate a logarithmic encoding of magnitude. All points within a hexagon are quantized to the coordinates of the center of the hexagon. As a result, larger magnitude coefficients are encoded with better phase resolution than smaller magnitude coefficients. The actual quantization is performed by a look-up table, but efficient computational algorithms are possible.
Die Bitzuordnung für einen einzelnen Rahmen kann in der folgenden Weise zusammengefaßt werden:The bit allocation for a single frame can be summarized as follows:
Formant-Bereichsskalierungsfaktoren 4 · je 5 Bit = 20 BitFormant range scaling factors 4 · 5 bits each = 20 bits
Unterband-Skalierungsfaktoren 22 · je 3 Bit = 66 BitSubband scaling factors 22 · 3 bits each = 66 bits
Grundband-Komponenten 45 · je 6 Bit = 270 BitBaseband components 45 · 6 bits each = 270 bits
Gesamtsumme 356 BitTotal 356 bit
Bei einem praktischen 16-Kb/s-Übertragungssystem erlaubt dies 4 Bit pro Rahmen für zusätzliche Funktionen, wie Rahmensynchronisierung. Die aktuellen Codiertransformationen, Bit-Zuordnungen und Unterbandgrößen können geändert werden, wenn der Codierer für unterschiedliche Anwendungen optimiert wird.For a practical 16 Kb/s transmission system, this allows 4 bits per frame for additional functions such as frame synchronization. The actual coding transforms, bit allocations and subband sizes can be changed as the encoder is optimized for different applications.
Alle Normalisierungsfaktoren (vier mit jeweils 5 Bit, 22 mit je drei Bit) und die codierten, normalisierten Grundbandkoeffizienten (45 zu 6 Bit) werden übertragen. Beim Empfänger wird das Grundband decodiert und zu dem oberen Frequenzbereich kopiert. Die Normalisierungsfaktoren werden auf das Spektrum angewendet, um die ursprüngliche Form wiederherzustellen. Insbesondere werden in dem Empfänger die Eingaben 0 bis 2 und 92 bis 96 zur umgekehrten Fourier-Transformation auf null gesetzt. Die normalisierten, komplexen Koeffizienten für die Eingänge 3 bis 47 werden aus den Quantisierungscoden durch Tabellennachsehen rekonstruiert. Sie werden in die Stellen 48 bis 92 kopiert. Dieses Kopieren ist der nichtlineare Wiederherstellungsschritt. Die Skalierungsfaktoren für die Unterbereiche und die größeren Bereiche werden dann angewendet.All normalization factors (four of 5 bits each, 22 of three bits each) and the encoded, normalized baseband coefficients (45 of 6 bits) are transmitted. At the receiver, the baseband is decoded and copied to the upper frequency range. The normalization factors are applied to the spectrum to restore the original shape. In particular, in the receiver, inputs 0 to 2 and 92 to 96 are set to zero for the inverse Fourier transform. The normalized complex coefficients for inputs 3 to 47 are reconstructed from the quantization codes by table lookup. They are copied to locations 48 to 92. This copying is the nonlinear recovery step. The scaling factors for the subranges and the larger ranges are then applied.
Die umgekehrte Transformierte wird in der Einheit 36 berechnet. Die Wirkungen der Fensterbildung werden entfernt, indem die letzten zwölf Punkte der vorhergehenden, umgekehrten Transformierten zu den ersten zwölf Punkten der gegenwärtigen, umgekehrten Transformierten addiert werden. Die Sprache geht nun durch das Filter 38 hindurch, das ein zu dem Vorverzerrungsfilter umgekehrtes ist und das die hohen Frequenzen abschwächt, die Wirkungen der Anhebung der hohen Tonlage entfernt und hochfrequentes Quantisierungsrauschen verringert. Die Ausgänge werden mit einem linearen 12-Bit-Analog/Digital-Umwandler 40 ins Analoge umgewandelt.The inverse transform is calculated in unit 36. The effects of windowing are removed by adding the last twelve points of the previous inverse transform to the first twelve points of the current inverse transform. The speech now passes through filter 38, which is an inverse of the preemphasis filter and which attenuates the high frequencies, removes the effects of high pitch boost and reduces high frequency quantization noise. The outputs are converted to analog using a 12-bit linear analog-to-digital converter 40.
Das Grundband, das in der Spektrums-Wiederherstellung wiederholt wird, wurde als ein Band niederer Frequenzen beschrieben. Jedoch kann das Grundband irgendeinen Frequenzbereich innerhalb des Spektrums einschließen. Für einige Töne, wo sich höhere Energiepegel bei den höheren Frequenzen gefunden haben, wird ein Grundband höherer Frequenzen bevorzugt.The baseband that is repeated in spectrum reconstruction has been described as a band of lower frequencies. However, the baseband can include any frequency range within the spectrum. For some sounds, where higher energy levels are found at the higher frequencies, a higher frequency baseband is preferred.
Es sollte beachtet werden, daß das Grundband Verschlechterungen nur von Quantisierungsfehlern erleidet. Die Wiederherstellung der oberen Frequenzen ist nur so gut wie das Modell und die Formungsinformation. Indem jedoch sichergestellt wird, daß wenigstens irgendein Koeffizient in jedem 165 Hz Band des normalisierten Grundbandes seine natürliche Größe aufweist, wird jeder Formant bei ungefähr der richtigen Frequenz erregt. Dies ist eine Verbesserung gegenüber einer Grundband-Resterregung, bei der einige Teile des Spektrums eine zu geringe Energie haben können. Die Verringerung der Rechenkomplexität aufgrund des Findens und Skalierens der Spitze statt der linearen Vorhersageanalyse und des Filterns ist sehr bedeutend.It should be noted that the baseband deteriorates suffers only from quantization errors. The recovery of the upper frequencies is only as good as the model and the shaping information. However, by ensuring that at least some coefficient in each 165 Hz band of the normalized baseband is at its natural magnitude, each formant is excited at approximately the correct frequency. This is an improvement over baseband residual excitation, where some parts of the spectrum may be under-energetic. The reduction in computational complexity due to finding and scaling the peak rather than linear prediction analysis and filtering is very significant.
Diese Methode ist ein Breitbandansatz, da der gesamte Tonlagen-Frequenzbereich codiert wird. Die Hauptschwierigkeit bei anderen Breitbandsystemen bei 16 kb/s ist, daß dort kaum genügend Bit zur Verfügung stehen, um eine grobe Beschreibung der Wellenform zu geben. Grundband-Anregungssysteme, wie das vorliegende System, werden dieser Schwierigkeit gerecht, indem die meisten Bit dem Grundband gewidmet werden und das Anregungssignal für höhere Frequenzen wiederhergestellt wird. Bei einer Abänderung der gerade beschriebenen Unterband-Codiertransformation könnte man das Grundband, wie vorstehend beschrieben, codieren, aber nur einige Energiewerte für die höheren Frequenzen codieren. Eine Frequenzübersetzung des Grundbandes erzeugt wieder die Feinstruktur des oberen Spektrums.This method is a wideband approach because the entire pitch frequency range is encoded. The main difficulty with other wideband systems at 16 kb/s is that there are hardly enough bits available to give a rough description of the waveform. Baseband excitation systems, such as the present system, deal with this difficulty by devoting most of the bits to the baseband and restoring the excitation signal for higher frequencies. A modification of the subband coding transformation just described could encode the baseband as described above, but encode only some energy values for the higher frequencies. Frequency translation of the baseband recreates the fine structure of the upper spectrum.
Während die Erfindung insbesondere unter Bezugnahme auf eine bevorzugte Ausführungsform dargestellt und beschrieben worden ist, erkennt der Durchschnittsfachmann auf dem Gebiet, daß verschiedene Änderungen in der Form und in Einzelheiten durchgeführt werden können, ohne von dem Umfang der Erfindung abzuweichen, wie sie durch die beigefügten Ansprüche abgegrenzt ist.While the invention has been particularly shown and described with reference to a preferred embodiment, those of ordinary skill in the art will recognize that various changes in form and details may be made without departing from the scope of the invention as defined by the appended claims.
Claims (18)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US68438284A | 1984-12-20 | 1984-12-20 | |
US06/798,174 US4790016A (en) | 1985-11-14 | 1985-11-14 | Adaptive method and apparatus for coding speech |
PCT/US1985/002448 WO1986003872A1 (en) | 1984-12-20 | 1985-12-11 | Adaptive method and apparatus for coding speech |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3587251D1 DE3587251D1 (en) | 1993-05-13 |
DE3587251T2 true DE3587251T2 (en) | 1993-07-15 |
Family
ID=27103309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8686900480T Expired - Lifetime DE3587251T2 (en) | 1984-12-20 | 1985-12-11 | ADAPTABLE METHOD AND DEVICE FOR VOICE CODING. |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0208712B1 (en) |
DE (1) | DE3587251T2 (en) |
WO (1) | WO1986003872A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3629434C2 (en) * | 1986-08-29 | 1994-07-28 | Karlheinz Dipl Ing Brandenburg | Digital coding method |
US5924060A (en) * | 1986-08-29 | 1999-07-13 | Brandenburg; Karl Heinz | Digital coding process for transmission or storage of acoustical signals by transforming of scanning values into spectral coefficients |
SE0004163D0 (en) | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance or high frequency reconstruction coding methods by adaptive filtering |
DE102004059979B4 (en) | 2004-12-13 | 2007-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Device and method for calculating a signal energy of an information signal |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
PL3544009T3 (en) | 2010-07-19 | 2020-10-19 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5857758B2 (en) * | 1979-09-28 | 1983-12-21 | 株式会社日立製作所 | Audio pitch period extraction device |
US4330689A (en) * | 1980-01-28 | 1982-05-18 | The United States Of America As Represented By The Secretary Of The Navy | Multirate digital voice communication processor |
DE3102822C2 (en) * | 1981-01-28 | 1984-02-16 | Siemens AG, 1000 Berlin und 8000 München | Method for frequency-band-compressed speech transmission |
US4535472A (en) * | 1982-11-05 | 1985-08-13 | At&T Bell Laboratories | Adaptive bit allocator |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
GB8421498D0 (en) * | 1984-08-24 | 1984-09-26 | British Telecomm | Frequency domain speech coding |
-
1985
- 1985-12-11 DE DE8686900480T patent/DE3587251T2/en not_active Expired - Lifetime
- 1985-12-11 WO PCT/US1985/002448 patent/WO1986003872A1/en active IP Right Grant
- 1985-12-11 EP EP86900480A patent/EP0208712B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE3587251D1 (en) | 1993-05-13 |
WO1986003872A1 (en) | 1986-07-03 |
EP0208712B1 (en) | 1993-04-07 |
EP0208712A4 (en) | 1988-01-28 |
EP0208712A1 (en) | 1987-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69125909T2 (en) | Method and device for transformation coding with subband excitation and dynamic bit order | |
DE69133458T2 (en) | Method for speech quantization and error correction | |
DE68916944T2 (en) | Procedure for the rapid determination of the basic frequency in speech coders with long-term prediction. | |
DE69529356T2 (en) | Waveform interpolation by breaking it down into noise and periodic signal components | |
EP2022043B1 (en) | Information signal coding | |
US4790016A (en) | Adaptive method and apparatus for coding speech | |
DE69529393T2 (en) | Weighted noise filtering method | |
DE60024123T2 (en) | LPC HARMONIOUS LANGUAGE CODIER WITH OVERRIDE FORMAT | |
EP1979901B1 (en) | Method and arrangements for audio signal encoding | |
DE60207061T2 (en) | AUDIO COMPRESSION | |
US4914701A (en) | Method and apparatus for encoding speech | |
DE60319590T2 (en) | METHOD FOR CODING AND DECODING AUDIO AT A VARIABLE RATE | |
DE602004003610T2 (en) | Half-breed vocoder | |
DE69730779T2 (en) | Improvements in or relating to speech coding | |
DE69620967T2 (en) | Synthesis of speech signals in the absence of encoded parameters | |
EP0076234B1 (en) | Method and apparatus for reduced redundancy digital speech processing | |
DE69620560T2 (en) | Coding method of a speech or music signal by quantizing harmonic components and then quantizing the residuals | |
DE60017825T2 (en) | Method and device for coding and decoding audio signals and record carriers with programs therefor | |
DE69708191T2 (en) | Signal coding device | |
EP1023777B1 (en) | Method and device for limiting a stream of audio data with a scaleable bit rate | |
DE60124079T2 (en) | language processing | |
DE3884839T2 (en) | Coding acoustic waveforms. | |
DE60102975T2 (en) | Apparatus and method for broadband coding of speech signals | |
DE69720527T2 (en) | METHOD FOR ENCODING A VOICE SIGNAL | |
DE3587251T2 (en) | ADAPTABLE METHOD AND DEVICE FOR VOICE CODING. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: VERIZON LABORATORIES INC., WILMINGTON, DEL., US |