DE3785189T2 - Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit. - Google Patents
Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.Info
- Publication number
- DE3785189T2 DE3785189T2 DE87430010T DE3785189T DE3785189T2 DE 3785189 T2 DE3785189 T2 DE 3785189T2 DE 87430010 T DE87430010 T DE 87430010T DE 3785189 T DE3785189 T DE 3785189T DE 3785189 T2 DE3785189 T2 DE 3785189T2
- Authority
- DE
- Germany
- Prior art keywords
- subband
- signal
- sequence
- phase
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000012545 processing Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 2
- 238000000819 phase cycle Methods 0.000 claims 2
- 238000005215 recombination Methods 0.000 claims 2
- 230000006798 recombination Effects 0.000 claims 2
- 230000006978 adaptation Effects 0.000 claims 1
- 230000001133 acceleration Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Description
- Diese Erfindung beschäftigt sich mit der Verarbeitung der gesprochenen Sprache und insbesondere mit Verfahren zur Beschleunigung oder Verlangsamung von sprachlichen Nachrichten.
- Sprachbeschleunigung oder Sprache mit variabler Geschwindigkeit bezeichnet gewöhnlich ein Mittel, um aufgezeichnete sprachliche Nachrichten ohne Änderung ihrer Qualität entweder zu verlangsamen oder zu beschleunigen.
- Solche Mittel sind von großem Interesse für Systeme zur Verarbeitung der gesprochenen Sprache wie etwa Sprachspeicher- und Übertragungssysteme, in denen akustische Signale gespeichert werden, damit sie später mit einer geänderten Geschwindigkeit wieder abgespielt werden können. Sie sind besonders für Bediener nützlich, die innerhalb einer aufgezeichneten Nachricht nach einem besonderen Sprachteil suchen, weil sie das Beschleunigen des Abspielens zum schnellen Finden des gesuchten Teils ermöglichen und dann den Prozeß verlangsamen, während sie den genannten Teil der Nachricht anhören. Es sollte beachtet werden, daß die variable Geschwindigkeit mit mechanischen Mitteln auf herkömmliche Weise erreicht werden kann, wenn die Sprache in ihrer analogen Form auf beweglichen Speichermedien gespeichert ist; dies würde aber das Signal verzerren (Tonhöhe), und außerdem wäre es nicht auf digitale Systeme anwendbar, in denen die Sprache digital verarbeitet wird.
- Ein hochentwickeltes Verfahren zur Implementation der Sprachbeschleunigung wurde von M.R. Portnoff in den IEEE Trans. on Acoust., Speech and Signal Processing, Vol. ASSP Nr. 3, 5. 243-248, Juni 1976, vorgeschlagen (Implementation of the digital phase vocoder using the Fast Fourier Transform). Diese Methode beruht auf der adaptiven Messung der Tonhöhenperiode und der Einfügung oder Entfernung von Sprachabtastwerten auf der Grundlage der Tonhöhenperiode. Diese Methode erfordert die genaue Schätzung der Tonhöhenperiode, deren Ermittlung sowohl komplex als auch aufwendig ist, insbesondere bei Anwendungen mit Telefonsignalen, bei denen der untere Teil der Frequenzbandbreite (0 bis 300 Hz) einschließlich der Tonhöhe entfernt wurde.
- Eine andere Vorgehensweise, die unabhängig von der Tonhöhe ist, wurde von Thomas F. Quatieri et al in den IEEE Transactions on ASSP, Vol. 34, Nr. 6, Dez. 1986, S. 1449-1463, dargestellt. Die Quatieri-Methode beruht auf einer sinusförmigen Darstellung der Sprache, die ein Modell der Spracherzeugung enthält. Die Rekonstruktion erfordert funktionale Schätzungen, die die zeitliche Entwicklung der Stimmbanderregung und der Stimmbereichsbeiträge der Amplitude und Phase jeder Sinuswellenkomponente beschreibt. Mit anderen Worten - obwohl diese Methode keine Tonhöhenberechnungen erfordert, so erfordert sie doch eine ziemlich komplexe Berechnung, die auch von der Bestimmung der Stimmbereichsimpulsantwort abhängt.
- Diese Erfindung schlägt ein feineres und einfaches Verfahren zur Realisierung der Sprachgeschwindigkeitsänderung vor, ohne daß Tonhöhen- oder Sprachbereichsmessungen notwendig sind, wobei ein Qualitätsniveau erreicht wird, das den Methoden mit Tonhöhenbetrachtung entspricht. Die vorgeschlagene Methode besitzt eine geringe Komplexität, die früher der Subband-Codierung zugeschrieben wurde, sie kann aber separat betrachtet werden. Sie kann auch auf Stimmerregte Vorhersagende Codierung (Voice-Excited Predictive Coding = VEPC) angewendet werden.
- Ein Gegenstand dieser Erfindung ist also ein Verfahren zur digitalen Beschleunigung oder Verlangsamung einer Sprachnachricht; es besteht aus dem Aufteilen wenigstens eines Teils der betrachteten Sprachsignalbandbreite in mehrere schmale Subbänder, der Umwandlung jedes Subbandinhaltes in eine Phasen-Amplituden-Darstellung und dem Entfernen/Einfügen von Abtastwerten in allen Subbandphasen- und amplitudendaten, entsprechend der gewünschten Änderung der Sprachgeschwindigkeit, und der Rekombination der Subbandinhalte zur Sprache.
- Dementsprechend ist ein digitales Verfahren zur Verlangsamung oder Beschleunigung eines Sprachsignals entsprechend der Erfindung in Anspruch 1 definiert. Eine Vorrichtung zur Verarbeitung einer Sprachnachricht entsprechend dieser Erfindung wird in Anspruch 5 beansprucht. Die vorhergehenden und weitere Ziele, Eigenschaften und Vorteile der Erfindung werden aus der nachfolgenden ausführlichen Beschreibung einer bevorzugten Ausführung der Erfindung ersichtlich, so wie sie in den beigefügten Zeichnungen dargestellt ist.
- Fig. 1 ist ein Blockdiagramm einer Ausführung dieser Erfindung.
- Fig. 2. bis 4 sind Schaltungen, die in der Vorrichtung gemäß Fig. 1 zu verwenden sind.
- Fig. 5 bis 7 sind Blockdiagramme, die die Anwendung dieser Erfindung in einem System zeigen, in dem das akustische Originalsignal mit Hilfe von Bandaufteilungsverfahren codiert wurde.
- Diese Erfindung wird für ein digital codiertes akustisches Signal beschrieben, unter der Voraussetzung, daß die Codierung keine Bandaufteilung enthielt. Es wird dann angewendet, um Bandcodierer aufzuteilen.
- Fig. 1 zeigt eine bevorzugte Ausführung dieser Erfindung. Das Sprachsignal s(n), das den Inhalt einer begrenzten Bandbreite des zu verarbeitenden akustischen Signals darstellt, das bei einer gegebenen Frequenz (zum Beispiel Nyquist) fs abgetastet und digital codiert wurde, wird zuerst durch einen Satz von Quadraturspiegelfiltern (QMF) 10 in N Subbänder aufgeteilt. Die QMF sind Filter, die in der akustischen Sprachverarbeitung bekannt sind und von A. Croisier, D. Esteban und C. Galand auf der International Conference on Information Sciences and Systems 1976 in Patras in einem Vortrag mit dem Titel "Perfect Chanel splitting by use of interpolation/decimation/tree decomposition techniques" vorgestellt wurden. Die Vorrichtung 10 liefert N Subbandsignale x(1,n), x(2,n), . . ., x(N,n). Die Subbandauflösung muß hoch genug sein, um die harmonische Struktur des Sprachsignals in allen Fällen einzufangen. Da die menschliche Stimmhöhenfrequenz bis auf 80 Hz heruntergehen kann, würde theoretisch ein Filtersatz mit N = 40 Subbändern notwendig sein, um die Telefonbandbreite (300 bis 3400 Hz) abzudecken.
- Jedes Subbandsignal wird auf ein Verhältnis fs/N heruntergetastet, um eine konstante Gesamtabtastgeschwindigkeit im System einzuhalten. Die Subbandsignale x(i,n) mit i = 1, 2, . . ., N werden in komplexe QMF (CQMF) 12 übertragen und verarbeitet, um daraus das analytische Signal abzuleiten, das aus einer gleichphasigen Komponente u(i,n) und einer Quadraturkomponente v(i,n) besteht, die durch Weglassen jedes zweiten Abtastwertes auf die Hälfte heruntergetastet werden. Die komplexen QMF-Mittel werden weiter unter Bezugnahme auf Fig. 2 beschrieben.
- Eine Ausführung der Phasen-Amplituden-Darstellung des aufgeteilten Subbandsignals ist in EP-A-070948 dargestellt.
- In jedem Subband werden die gleichphasigen Komponenten u(n) und die Quadraturkomponenten v(n) des Signals dann als kartesische Koordinaten in einer Polarkoordinatenumwandlungsschaltung 14 verarbeitet, um daraus ein digitales Amplitudensingal M(i,n) und ein digitales Phasensignal P(i,n) abzuleiten:
- M(i,n) = (u²(i,n) + v²(i,n))1/2 (1)
- P(i,n) = Arctg v(i,n)/u(i,n) (2)
- i = 1, 2, . . ., N bezeichnet das betrachtete Subband. Das Amplitudensignal M(i,n) und das Phasensignal P(i,n) jedes Subbandes (i = 1, 2, . . ., N) wird dann durch die später zu beschreibende aufwärts und abwärts beschleunigende Vorrichtung 16 verarbeitet. Die Vorrichtung 16 liefert geschwindigkeitsvariierte Paare von Ausgangssignalen M'(i,n) und P'(i,n), die dann in einer Vorrichtung 18 in kartesische Koordinaten rückverwandelt werden; dies ergibt ein Paar von gleichphasigen Komponenten und Quadraturkomponenten:
- u'(i,n) = M'(i,n)·cos P'(i,n)
- v'(i,n) = M'(i,n)·sin P'(i,n)
- Dabei ist P'(i,n) die Phaseninformation des geschwindigkeitsvariierten Subbandsignals, die so, wie nachfolgend beschrieben, zu bestimmen ist (siehe Fig. 4).
- In jedem Subband repräsentieren die u'- und v'-Komponenten das ursprüngliche Subbandsignal bei der neuen Geschwindigkeit und werden dann durch die (inversen) komplexen Quadraturspiegelfilter (CQMF) 20 rekombiniert. Die entstehenden Subbandsignale x'(i,n) werden durch einen Satz von inversen QMF 22 verarbeitet, um die geschwindigkeitsvariierten Sprachsignale s'(n) zu erzeugen.
- In Fig. 2 ist eine Schaltung dargestellt, die die Operationen der direkten und inversen QMF ausführen, d. h. die Vorrichtungen 12 beziehungsweise 20. Mit anderen Worten - die Schaltung von Fig. 2 ermöglicht das Aufteilen eines Signals x(n), das bei einer Frequenz fs abgetastet wurde, in zwei Signale u(n) und v(n), die bei fs/2 abgetastet und die Rückwärtssynthese eines Sprachsignals x(n) aus u(n) und v(n).
- Der komplexe QMF (CQMF) wurde von H.J. Nussbaumer und C. Galand auf der Konferenz EUSIPCO 83 in einem Vortrag "Parallel filter banks using complex quadraturee mirror filters" beschrieben. Unter Benutzung der CQMF-Verfahren werden die zwei Quadratursignale u(n) aus dem realen Subbandsignal x(n) abgeleitet durch
- Dabei bezeichnet SUM die Addition.
- X(Z), U(Z), V(Z) sind die Z-Transformierten von x(n), u(n) und v(n), und H(Z) ist die z-Transformierte eines Tiefpaß-CQMF mit M Abgriffen, wobei M gerade ist. Setzt man voraus, daß die lineare Verzerrung aufgrund des CQMF (Welligkeit) vernachlässigt wird, dann kann die Amplitude M(n) und die Phase P(n) von x(n) aus u(n) und v(n) entsprechend den Gleichungen (1) und (2) berechnet werden.
- Um eine perfekte Rekonstruktion zu sichern, muß der Filter H(Z) bei der Frequenz fs/4N eine Dämpfung von 3 dB haben, und für die Amplitude H(w) der Fourier-Transformierten muß
- H² (w + ws/4) + H² (w - ws/4) = 1 (7)
- mit
- ws = 2π·fs
- w = 2π·f
- gelten.
- In der Praxis muß der Filter H(Z) genügend scharf sein, um die Kruezmodulationsterme zu entfernen, die bei der Berechnung von (1) und (2) auftreten.
- Bezüglich weiterer Details zu den Entwurfsregeln für diese Filter sei hingewiesen auf den Artikel "Magnitude-Phase coding of base-band speech signals", der von C. Galand, H. Nussbaumer und J. Perrini auf der IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Tokio 1986, vorgestellt wurde. Setzt man nun voraus, daß das Eingangssprachsignal x(n) eine harmonische Struktur besitzt und die jeweiligen Subbänder ziemlich schmal sind, ohne Verfälschung, dann würde jedes Subband eine einzelne Harmonische enthalten. Wenn das Eingangssignal stationär ist, dann ist die Amplitude M(n) jedes Subbandsignals konstant, und seine Phase P(n) ändert sich linear.
- Tatsächlich ist das Sprachsignal nicht stationär, aber die obigen Bedingungen werden sehr genau approximiert. Im Ergebnis dessen ändert sich die Amplitude M(n) des Signals in jedem Subband langsam (mit Silbengeschwindigkeit), und die Phase P(n) des gleichen Signals ändert sich nahezu linear.
- Sind die Subbandsignale M(i,n) und P(i,n) einmal in Phasen-Amplituden-Daten umgewandelt, dann werden sie in einer Aufwärts- Abwärts-Vorrichtung 16 verarbeitet. Vor der Beschreibung dieser Vorrichtung sollen praktische Situationen für Aufwärts- und Abwärts-Beschleunigungsverhältnisse betrachtet werden. In akustischen Verteilungssystemen wird dieses Verhältnis im Bereich von 0,5 bis 2 gewählt. Mit anderen Worten - die Sprache kann wenigstens mit der Hälfte und höchstens mit der zweifachen Originalgeschwindigkeit abgespielt werden. Praktisch wird dieser Bereich nicht kontinuierlich überdeckt, sondern durch einige diskrete Werte im Intervall (0,5-2). Die Auswahl ist nicht wirklich kritisch, und die Verhältnisse zur Beschleunigung bzw. Verlangsamung der Sprache wurden zu K/K-1 bzw. K/K+1 gewählt, womit die Originalgeschwindigkeit auf 1 normalisiert wird.
- Beschleunigung Verhältnis K/K-1
- 2 2/1
- 1,5 3/2
- 1,25 5/4
- Verlangsamung Verhältnis K/K+1
- 0,75 3/4
- 0,5 1/2
- Fig. 3 zeigt eine schematische Darstellung der innerhalb jedes Subbandes über die Amplitudendaten M(n) auszuführenden Operationen. Zur Beschleunigung werden die Amplitudensignale einfach im entsprechenden Verhältnis vernichtet. Es sei beispielsweise vorausgesetzt, daß die gewünschte Sprachgeschwindigkeit verdoppelt werden soll (K/K-1 = 2/1). Dann wird einfach jeder zweite Abtastwert des Amplitudensignals weggelassen. Für ein Verhältnis von 1,5 wird jeder dritte Abtastwert des Amplitudensignals unterdrückt. Allgemein gesprochen wird für jedes Verhältnis K/K-1 jeder K-te Abtastwert des Amplitudensignals M(n) weggelassen. Die Operation über jedem Block von K Eingabewerten M(n), n = 1, ..., K wird durch die folgenden Beziehungen beschrieben:
- M'(n) = M(n) n = 1, . . ., K-1 (8)
- Dabei stellt M(n), n = 1, . . ., K-1 die Ausgangsfolge der Amplitudenwerte dar.
- Zur Verlangsamung wird eine ähnliche Operation ausgeführt. Für ein Verhältnis von K/K+1 wird jeder K-te Abtastwert des Amplitudensignals verdoppelt. Die Operation über jedem Block von K Eingabeabtastwerten M(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
- M'(n) = M(n) n=1, . . ., K (9)
- M'(K+1) = M(K)
- Dabei stellt M'(n), n = 1, . . ., K+1 die Ausgangsfolge der Amplitudenwerte dar.
- Beispielsweise führt eine Verlangsamungsoperation von 2 zu 1 zu einer Wiederholung jedes Abtastwertes M(n), um M'(n) abzuleiten.
- In Fig. 4 ist die in der Verlangsamungs-Beschleunigungs-Vorrichtung 16 zur Verarbeitung des Phasensignals P(n) innerhalb jedes Subbandes verwendete Schaltung dargestellt. Die Geschwindigkeitsänderung über dem Phasensignal wird wie folgt implementiert. Die Phasenabtastwerte P(n) werden zuerst vorverarbeitet, um ein Differenzsignal oder eine Phaseninkrementfolge D(n) abzuleiten, wobei eine Verzögerungszelle (T) 40 für einen Abtastwert und ein Subtrahierer (42) benutzt wird, an die jeweils die Folge P(n) angelegt wird.
- D(n) = P(n)-P(n-1) (10)
- Für eine Beschleunigung im Verhältnis K/K-1 wird jeder K-te Abtastwert des Differenzsignals D(n) weggelassen. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird in der Vorrichtung 44 durchgeführt:
- D'(n) = D(n) n = 1,..., K-1 (11)
- Dabei stellt D'(n), n = 1, . . ., K-1 die Differenzausgabefolge dar.
- Für einen Verlangsamungsprozeß wird eine ähnliche Operation ausgeführt. Die Verlangsamung im Verhältnis K/K+1 wird erreicht, indem in der Vorrichtung 46 jeder K-te Abtastwert des Differenzsignals D(n) verdoppelt wird. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
- D'(n) = D(n) n = 1,..., K
- D'(K+1) = D(K)
- Dabei stellt D'(n), n = 1, . . ., K+1 die Ausgabefolge der einmal verlangsamten Differenzabtastwerte dar.
- In beiden Fällen, der Verlangsamung und der Beschleunigung, wird die Wiederherstellung der Phasenabtastwerte aus den Differenzabtastwerten realisiert, indem eine Verzögerungszelle (T) für eine Abtastperiode und ein Addierer (+) entsprechend der folgenden Beziehung benutzt wird:
- P'(n) = P'(n-1) + D'(n).
- In beiden Fällen, beim Verlangsamen und beim Beschleunigen, kann sich das Verhältnis von K/K+1 oder K/K-1 unterscheiden, indem mehr als ein Abtastwerte pro Block der Länge K entfernt oder eingefügt wird. Der oben beschriebene Prozeß ermöglicht die Implementation eines beschleunigten Sprachsystems unabhängig von irgendeiner Betrachtung der Herkunft des Sprachsignals. Es kann so in Verbindung mit einem digitalen Codierer verwendet werden. Offensichtlich ist er aber besonders gut geeignet für Subband- Codierer (SBC), in denen die harmonische Analyse durch QMF bereits verfügbar ist. Diese Codierer wurden in der Literatur umfangreich beschrieben, aber man kann sich auf die folgenden Publikationen oder Patente beziehen, die hier zum Nachschlagen aufgeführt wurden:
- "Voice excited predictive coder (VEPC), implementation on high-perfomance signal processor" von C. Galand, C. Couturier, G. Platel und R. Vermot-Gauchy, IBM Journal of Research and Development, Volume 29, Nummer 2, März 1985.
- Europäisches Patent 0 002 998 (USA-Patent 4,216,354) Französisches Patent 77 13225 (USA-Patent 4,142,071).
- In dem oben dargestellten Subband-Decodierer wurde die Eingangssignalbandbreite in mehrere Subbänder aufgeteilt. Dann wurde der Inhalt jedes Subbandes mit Quantisiergeräten codiert, die dynamisch auf den jeweiligen Subbandinhalt eingestellt werden. Mit anderen Worten - die Bits (oder Pegel), die die Ressourcen für die gesamte ursprüngliche Bandbreite codieren, werden dynamisch unter den Subbändern aufgeteilt. Setzt man zusätzlich voraus, daß die Codierungsmethode die Verwendung der Blockkompandierungs-PCM-Techniken (BCPCM) umfaßt, dann wurde die Codierung auf Blockbasis ausgeführt. Mit anderen Worten - die Quantisierunsparameter des Codierers wurden auf aufeinanderfolgende Blöcke von Abtastwerten mit vorher festgelegter Länge eingestellt. Für jeden Block von Abtastwerten lieferte der Codierer mit Multiplexübertragung an seinem Ausgang: quantisierte Subband-Abtastwerte S(i,j), wobei i = 1, . . ., N der Subbandindex und j der Zeitindex innerhalb eines Blockes ist; einen Schritt Q des Quantisiergerätes und N Terme n'(i), von denen jeder die Zahl der Bits darstellt, die zur Quantisierung der betrachteten Subbandinhalte dynamisch zugeordnet wurden. In der Praxis sollte beachtet werden, daß andere Datenarten als Q und n'(i) benutzt werden können, so lange diese Daten für den Quantisierungsschritt die Wiederherstellung des Schrittes ermöglichen, der den inversen Quantisierungsoperationen zuzuordnen ist, die ausgeführt werden müssen, um die quantisierten Abtastwerte in digital codierte Abtastwerte umzuwandeln.
- In Fig. 5 ist ein Blockdiagramm der Synthesevorrichtung dargestellt, die verwendet werden muß, um die S(i,j)-, Q- und n'(i)- Daten in das ursprüngliche Sprachsignal s(n) zurückzuverwandeln. Grundsätzlich wird das Eingangssignal der Synthesevorrichtung zuerst in 52 mit einem Demultiplexer in seine Komponenten zerlegt, bevor es in eine inversen Quantisiergerät 54 subband-decodiert wird. Zu diesem Zweck wird jedem Subband-Decodierer ein Block von quantisierten Abtastwerten S(i,j) zugeführt und durch Q und n'(i) gesteuert. Jeder Decodierer oder jede inverse Quantisiervorrichtung liefert eine Menge von digital codierten Abtastwerten x(i,j), die zu einem inversen QMF geführt werden und ein zurückverwandeltes Sprachsignal s(n) liefern.
- Diese Art der Codierer-Decodierer-Struktur eignet sich besonders gut für diese Erfindung, wie in Fig. 6 gezeigt ist; dort ist ein Blockdiagramm der Sprachbeschleunigung dieser Erfindung dargestellt, angewendet auf den in Fig. 5 dargestellten Teilbanddecodierer. Die subband-decodierten Signale x(i,j), die bei fs/N abgetastet wurden, werden direkt in die komplexen QMF 64 geführt, die als die CQMF 12 von Fig. 1 arbeiten. Mit anderen Worten - der QMF-Satz von Fig. 1 ist nicht notwendig, da eine vollständige Bandaufteilung bereits im Codierungsprozeß ausgeführt und mit der Demultiplexeraufteilung in 60 und der Subband-Decodierung in 62 abgeschlossen wurde.
- Die übrigen Teile (64, 66, 68, 70, 72 und 74) entsprechen jeweils den Schaltungen (12, 14, 16, 18, 20 und 22) von Fig. 1. Schließlich ist das Ausgangssignal s'(n), so wie gefordert, ein beschleunigtes oder verlangsamtes Sprachsignal. Grundsätzlich spart man also durch Anwendung dieser Erfindung auf das aufgeteilte bandcodierte Signal zwei Filterblöcke, nämlich die QMF 10 und die inversen QMF 22.
- Das vorgeschlagene Verfahren für die beschleunigte Sprache kann auch mit dem Prozeß der stimmerregten vorhersagenden Codierung (VEPC) kombiniert werden, da dieser Codierertyp die Verwendung der Subband-Codierung auf der unteren Frequenzbandbreite (Basisband) des Sprachsignals umfaßt. Zusätzlich ist die Bandbreite jedes Subbandes schmal genug, um den korrekten Betrieb der Vorrichtung für die Sprachbeschleunigung zu sichern.
- In Fig. 7 ist ein Blockdiagramm dargestellt, das die Einfügung der Vorrichtung dieser Erfindung in eine VEPC-Synthesevorrichtung zeigt, die entsprechend der Vorrichtung von Fig. 8 des oben zitierten Europa-Patentes 0 002 998 oder der Vorrichtung von Fig. 3 des zitierten IBM Journal of Research and Development beschaffen ist. Die von einem Eingangsdemultiplexer DMPX(71) gelieferten Basisband-Subband-Signale S(i,j) werden in eine Menge von Signalen x(i,n) decodiert, die zu einer Beschleunigungs- Verlangsamungs-Vorrichtung (70) geführt werden, die entsprechend dieser Erfindung beschaffen ist (siehe Fig. 1). Das beschleunigte/verlangsamte Basisbandsignal x'(n) wird dann benutzt, um die Hochfrequenzbandbreite (HB) zurückzugewinnen, die durch die decodierte (DECODEDI) Hochfrequenzenergie (ENERG) in 72 moduliert wurde, so wie in der zitierten Literatur dargestellt ist. Dann werden das hohe und das niedrige Bandsignal, die zur Kompensation der Übergangszeit in 72 verzögert wurden, in 74 addiert.
- Der Addiererausgang treibt dann einen Filter des Stimmbereiches, dessen Koeffizienten mit den decodierten COEF-Daten eingestellt wurden und dessen Ausgang das rekonstruierte Sprachsignal s'(n) ist.
- Die Sprachdeskriptoren, d. h. die Hochfrequenzenergie (ENERG) und die PARCOR-Koeffizienten (COEFF) werden auf Blockbasis erneuert und linear interpoliert. Die Operation der Sprachbeschleunigung, die diese Parameter betrifft, wird in einer Vorrichtung 78 erreicht, indem die Größe des linearen Interpolationsschrittes auf die neue Blocklänge eingestellt wird.
- Obwohl die Erfindung unter Bezugnahme auf die bevorzugten Ausführungen dargestellt wurde, die zwei spezielle Bandaufteilungscodierungstechniken anwenden, wird es für Fachleute verständlich sein, daß sie auch auf andere Sprachcodierungs- und -decodierungsschemata anwendbar ist.
Claims (5)
1. Ein digitales Verfahren zur Verlangsamung oder
Beschleunigung eines Sprachsignals, das die folgenden Schritte
enthält:
- die Aufteilung wenigsten eines Teils der
Sprachfrequenzbandbreite in N aufeinanderfolgende schmale
Subbänder;
- die Verarbeitung des Inhaltes jedes Subbandes, um
daraus Phasenabtastwerte P(i,n) und Amplitudenabtastwerte
M(i,n) abzuleiten, die repräsentativ für den
Subbandsignalinhalt sind, ausgedrückt in Polarkoordinaten,
wobei i = 1, . . ., N der Index des Subbandes und n der
Zeitindex ist;
- die Verlangsamung oder Beschleunigung des
Subbandsignalinhaltes, wobei modifizierte Subbandphasendaten
P(i,n) und Amplitudendaten M(i,n) erzeugt werden;
- die Rekombination aller modifizierten
Phasen-/Amplituden-Subbanddaten zu einem Subbandsignal; und
- die Rekombination der Subbandsignale zu einer Sprache,
wobei die rekombinierte Sprache eine
verlangsamte/beschleunigte Version des verarbeiteten Sprachsignals
ist;
dadurch gekennzeichnet, daß für ein beliebiges i-tes
Subband die folgenden Operationen ausgeführt werden:
- es wird eine Phaseninkrementfolge D(n) gemäß
D(n) = P(n)-P(n-1) erzeugt;
- das Sprachsignal wird entweder mit einer Rate von
K/K-1 beschleunigt, wobei K ein vorher
festgelegter ganzzahliger Wert ist und gleichzeitig für
jedes Subband
- die Folge M(n) durch Löschung jedes K-ten
Abtastwertes M(n) in eine beschleunigte
Folge M'(n) umgewandelt wird;
- die Folge D(n) durch Löschung jedes K-ten
Abtastwertes in D'(n) umgewandelt wird;
- oder das Sprachsignal wird um eine Rate K/K+1
verlangsamt, wobei für jedes Subband
- die Folge M(n) durch Wiederholung jedes K-ten
Abtastwertes M(n) in eine verlangsamte
Folge M'(n) umgewandelt wird;
- die Folge D(n) durch Verdoppelung jedes K-ten
Abtastwertes in D'(n) umgewandelt wird;
- und für beide Alternativen wird eine
beschleunigte oder verlangsamte Phasenfolge P'(n) mit P'(n)
= P'(n-1) + D'(n) erzeugt.
2. Ein Verfahren gemäß Anspruch 1, in dem die
Subband-Verarbeitung zur Ableitung von Phasen-/Amplituden-Abtastwerten
folgende Schritte umfaßt:
- von jedem Subbandsignalinhalt wird durch Anwendung
komplexer Quadraturspiegelfilter-Techniken ein
analytisches Signal abgeleitet, das aus einer
gleichphasigen Komponente und einer Quadraturkomponente besteht;
- das analytische Signal wird durch Weglassen jedes
zweiten Abtastwertes in den gleichphasigen Komponenten
und den Quadraturkomponenten heruntergetastet;
- das heruntergetastete analytische Signal wird in seine
Phasen-/Amplituden-Komponenten umgewandelt.
3. Ein Verfahren gemäß Anspruch 1 oder gemäß Anspruch 2,
dadurch gekennzeichnet, daß der Teil der
Sprachfrequenzbandbreite auf das Sprachsignalbasisband begrenzt ist.
4. Ein Verfahren gemäß Anspruch 1, bei dem das Aufteilen in
Subbänder einen ersten Schritt eines
Bandaufteilungsverfahrens bildet; das Aufteilen beinhaltet die Quantisierung des
Signalinhaltes von jedem Subband mit dynamischer Anpassung
der Signalquantisierungsressourcen und anschließend die
Decodierung und inverse Quantisierung der quantisierten
Subbandsignalinhalte.
5. Ein Mittel zur Verarbeitung einer Sprachnachricht, die mit
der Frequenz fs abgetastet wurde und die folgenden
Komponenten hat:
- eine erste Gruppe von Quadraturspiegelfiltern (QMF)
zur Aufteilung einer begrenzten Bandbreite des
Sprachsignals in N schmale Subbänder;
- Mittel für das Heruntertasten, die mit der QMF-Gruppe
verbunden sind, zur Heruntertastung jedes
Subbandsignals mit einer Rate von fs/N;
- Mittel zur komplexen Quadraturspiegelfilterung (CQMF),
die mit der ersten QMF-Gruppe verbunden sind, zur
Umwandlung jedes Subbandinhaltes in ein analytisches
Signal, das durch gleichphasige Komponenten und
Quadraturkomponenten dargestellt wird;
- ein zweites Mittel für das Heruntertasten, das mit der
CQMF-Gruppe verbunden ist, zum Heruntertasten der
gleichphasigen Komponenten und der
Quadraturkomponenten auf fs/2N;
- Koordinatenumwandlungsmittel, die mit dem zweiten
Mittel für das Heruntertasten verbunden sind, zur
Umwandlung des analytischen Signals in Amplitudenkomponenten
M(i,n) und Phasenkomponenten P(i,n), wobei i = 1, . . ..,
N der Subbandindex und n der Zeitindex ist;
- Sprachenverarbeitungsmittel, die mit den
Koordinatenumwandlungsmitteln verbunden sind, wobei die M'(i,n)-
und die P'(i,n)-Daten erzeugt werden;
- Koordinatenumwandlungsmittel, die mit den Aufwärts/-
Abwärts-Geschwindigkeiten verbunden sind, um die
M'(i,n) und P'(i,n) in geschwindigkeitsverwandelte
analytische Daten u'(i,n), v'(i,n) umzuwandeln;
- Mittel, um u'(i,n), v'(i,n) in fs/N umzuwandeln;
- inverse komplexe QMF-Filter, die mit den Abtastmitteln
verbunden sind;
- Abtastmittel, um die CQMF-Filter auf eine
Geschwindigkeit fs zu bringen;
- eine inverse QMF-Filtergruppe, die mit den
Abtastmitteln verbunden ist und ein verlangsamtes oder
beschleunigtes Sprachsignal s'(n) liefert;
dadurch gekennzeichnet, daß das Sprachverarbeitungsmittel
die Sprachnachricht verlangsamt oder beschleunigt und für
irgendein i-tes Subband die folgenden Mittel enthält:
- Mittel zur Erzeugung einer Phaseninkrementfolge
D(n) gemäß D(n) = P(n)-P(n-1);
- Mittel zur Beschleunigung des Sprachsignals auf
eine Geschwindigkeit K/K-1, wobei K eine vorher
festgelegte ganze Zahl ist und für jedes Subband
- Mittel zur Umwandlung der Folge M(n) in eine
beschleunigte Folge M'(n) durch Löschung
jedes K-ten M(n)-Abtastwertes und
- Mittel zur Umwandlung der Folge D(n) in
D'(n) durch Löschung jedes K-ten
Abtastwertes von D(n) vorhanden sind;
- Mittel zur Verlangsamung des Sprachsignals auf
eine Geschwindigkeit K/K+1, wobei für jedes
Subband
- Mittel zur Umwandlung der Folge M(n) in eine
verlangsamte Folge M'(n) durch Wiederholung
jedes K-ten Abtastwertes M(n),
- Mittel zur Umwandlung der Folge D(n) in
D'(n) durch Verdoppelung jedes K-ten
Abtastwertes und
- Mittel zur Erzeugung einer beschleunigten
oder verlangsamten Phasenfolge P'(n) mit
= P'(n-1) + D'(n) vorhanden sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP87430010A EP0287741B1 (de) | 1987-04-22 | 1987-04-22 | Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3785189D1 DE3785189D1 (de) | 1993-05-06 |
DE3785189T2 true DE3785189T2 (de) | 1993-10-07 |
Family
ID=8198300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE87430010T Expired - Lifetime DE3785189T2 (de) | 1987-04-22 | 1987-04-22 | Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit. |
Country Status (4)
Country | Link |
---|---|
US (1) | US5073938A (de) |
EP (1) | EP0287741B1 (de) |
JP (1) | JPS63273898A (de) |
DE (1) | DE3785189T2 (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5392044A (en) * | 1993-03-08 | 1995-02-21 | Motorola, Inc. | Method and apparatus for digitizing a wide frequency bandwidth signal |
US5285499A (en) * | 1993-04-27 | 1994-02-08 | Signal Science, Inc. | Ultrasonic frequency expansion processor |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5920842A (en) * | 1994-10-12 | 1999-07-06 | Pixel Instruments | Signal synchronization |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
US5727119A (en) * | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
JP2955247B2 (ja) * | 1997-03-14 | 1999-10-04 | 日本放送協会 | 話速変換方法およびその装置 |
FR2768545B1 (fr) * | 1997-09-18 | 2000-07-13 | Matra Communication | Procede de conditionnement d'un signal de parole numerique |
US6266643B1 (en) | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
SE9903223L (sv) * | 1999-09-09 | 2001-05-08 | Ericsson Telefon Ab L M | Förfarande och anordning i telekommunikationssystem |
US6868377B1 (en) * | 1999-11-23 | 2005-03-15 | Creative Technology Ltd. | Multiband phase-vocoder for the modification of audio or speech signals |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
EP2041742B1 (de) * | 2006-07-04 | 2013-03-20 | Electronics and Telecommunications Research Institute | Vorrichtung und verfahren zum wiederherstellen eines mehrkanaligen audiosignals unter verwendung eines he-aac-decoders und eines mpeg-surround-decoders |
CN102257567B (zh) * | 2009-10-21 | 2014-05-07 | 松下电器产业株式会社 | 音响信号处理装置、音响编码装置及音响解码装置 |
ES2565959T3 (es) | 2010-06-09 | 2016-04-07 | Panasonic Intellectual Property Corporation Of America | Método de extensión del ancho de banda, aparato de extensión del ancho de banda, programa, circuito integrado y aparato de decodificación de audio |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3462555A (en) * | 1966-03-23 | 1969-08-19 | Bell Telephone Labor Inc | Reduction of distortion in speech signal time compression systems |
US3816664A (en) * | 1971-09-28 | 1974-06-11 | R Koch | Signal compression and expansion apparatus with means for preserving or varying pitch |
JPS5146808A (de) * | 1974-10-18 | 1976-04-21 | Matsushita Electric Ind Co Ltd | |
FR2389277A1 (fr) * | 1977-04-29 | 1978-11-24 | Ibm France | Procede de quantification a allocation dynamique du taux de bits disponible, et dispositif de mise en oeuvre dudit procede |
FR2412987A1 (fr) * | 1977-12-23 | 1979-07-20 | Ibm France | Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede |
JPS55147697A (en) * | 1979-05-07 | 1980-11-17 | Sharp Kk | Sound synthesizer |
US4464784A (en) * | 1981-04-30 | 1984-08-07 | Eventide Clockworks, Inc. | Pitch changer with glitch minimizer |
EP0070948B1 (de) * | 1981-07-28 | 1985-07-10 | International Business Machines Corporation | Sprachkodierungsverfahren und Ausführungsanordnung für das genannte Verfahren |
US4700391A (en) * | 1983-06-03 | 1987-10-13 | The Variable Speech Control Company ("Vsc") | Method and apparatus for pitch controlled voice signal processing |
JPS606998A (ja) * | 1983-06-24 | 1985-01-14 | ソニー株式会社 | 信号処理装置 |
US4709390A (en) * | 1984-05-04 | 1987-11-24 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech message code modifying arrangement |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
-
1987
- 1987-04-22 EP EP87430010A patent/EP0287741B1/de not_active Expired - Lifetime
- 1987-04-22 DE DE87430010T patent/DE3785189T2/de not_active Expired - Lifetime
-
1988
- 1988-03-19 JP JP63064756A patent/JPS63273898A/ja active Pending
-
1989
- 1989-10-17 US US07/423,732 patent/US5073938A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE3785189D1 (de) | 1993-05-06 |
JPS63273898A (ja) | 1988-11-10 |
US5073938A (en) | 1991-12-17 |
EP0287741A1 (de) | 1988-10-26 |
EP0287741B1 (de) | 1993-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3785189T2 (de) | Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit. | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE69107841T2 (de) | Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale. | |
DE69028675T2 (de) | Wahrnehmungsgebundene Kodierung von Audiosignalen | |
DE69323106T2 (de) | Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen | |
DE2934489C2 (de) | ||
DE69804478T2 (de) | Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate | |
DE69031517T2 (de) | Variable Blocklängenkodierung für unterschiedliche Charakteristiken der Eingangsabtastwerte | |
DE69125909T2 (de) | Verfahren und Einrichtung zur Transformationskodierung mit Teilbandanregung und dynamischer Bitzordnung | |
DE69230308T2 (de) | Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten | |
DE69232251T2 (de) | Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung | |
DE3688980T2 (de) | Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens. | |
DE69326492T2 (de) | Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen | |
DE69712230T2 (de) | Verfahren und gerät zur frequenzdomäneabwärtsumsetzung mit zwangblockschaltung für audiodekoderfunktionen | |
DE69515907T2 (de) | Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
EP0978172B1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
DE3506912A1 (de) | Verfahren zur uebertragung eines audiosignals | |
DE2551632A1 (de) | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE69206300T2 (de) | Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals. | |
DE3884839T2 (de) | Codierung von akustischen Wellenformen. | |
DE69028434T2 (de) | System zur Codierung von Breitbandaudiosignalen | |
DE69425768T2 (de) | Kodierverfahren, Kodierer und Dekodierer für ein Digitalsignal | |
DE68927927T2 (de) | Kodierung von Audiosignalen unter Berücksichtigung der Wahrnehmbarkeit |