DE69223335T2 - Sprachkodiersystem - Google Patents
SprachkodiersystemInfo
- Publication number
- DE69223335T2 DE69223335T2 DE69223335T DE69223335T DE69223335T2 DE 69223335 T2 DE69223335 T2 DE 69223335T2 DE 69223335 T DE69223335 T DE 69223335T DE 69223335 T DE69223335 T DE 69223335T DE 69223335 T2 DE69223335 T2 DE 69223335T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- speech
- delay
- correlation values
- excitation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005284 excitation Effects 0.000 claims abstract description 48
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 230000003044 adaptive effect Effects 0.000 abstract description 11
- 230000001934 delay Effects 0.000 abstract description 8
- 238000000034 method Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013277 forecasting method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Diese Erfindung betrifft ein Sprachcodiersystem zum Codieren eines Sprachsignals mit hoher Qualität bei geringer Bitrate, insbesondere bei etwa 8 bis 4,8 kb/s.
- Es sind schon verschiedene Verfahren zum Codieren eines Sprachsignals bei einer geringen Bitrate von etwa 8 bis 4,8 kb/s bekannt. Ein Beispiel solcher herkömmlichen Codierverfahren ist CELP (Code Excited Linear Prediction = Anregung zu linearer Code-Voraussage), das z. B. in "CODE-EXCITED LINEAR PREDICTION (CELP): HIGH-QUALITY SPEECH AT VERY LOW BIT RATES" von M. R. Schroeder und B. S. Atal, Proc. ICASSP, Seite 937- 940, 1985 (Verweis 1) offenbart wurde. Gemäß diesem Verfahren wird auf der Sendeseite ein Spektralparameter, der eine Spektralcharakteristik eines Sprachsignals darstellt, bei jedem Datenblock (z. B. 20 ms) aus einem Sprachsignal entnommen. Jeder Datenblock ist in Teil-Datenblöcke von z. B. 5 ms unterteilt, und ein Tonhöhe-Parameter, der eine Langzeit-Korrelation (Teil- Korrelation) darstellt, ist für jeden Teil-Datenblock einem früheren Anregungssignal entnommen. Dann wird unter Verwendung des Tonhöhe-Parameters eine Langzeit-Voraussage (Tonhöhe-Voraussage) des Sprachsignals von dem Teil-Datenblock durchgeführt. Aus einem Codebuch, das aus vorgegebenen, unterschiedlichen Geräuschsignalen besteht, die vorher aufbereitet wurden, wird ein Geräuschsignal gewählt, so daß die Verfälschung (error power) zwischen dem Sprachsignal und einem Signal, das unter Verwendung des ausgewählten Signals künstlich erzeugt wurde, minimiert werden kann, obgleich eine optimale Verstärkung einkalkuliert wurde. Ein für das auf diese Weise ausgewählte Geräuschsignal typischer Index und die Verstärkung werden zusammen mit dem Spektralparameter und dem Tonhöhe-Parameter übertragen. Eine Beschreibung der Konstruktion und der Funktion auf der Empfangsseite werden hierin weggelassen.
- Auch sind schon verschiedene Langzeit-Voraussageverfahren bekannt. Ein Beispiel solcher herkömmlicher Langzeit-Voraussageverfahren verwendet ein lernfähiges Codebuch so, daß frühere Anregungssignale durch je einen Abtastabstand abgelöst werden, so daß ein Wert einer solchen Verschiebung (ganzzahligen Laufzeit), die den quadrierten Fehler minimiert, und eine Verstärkung, die der Laufzeit entspricht, gefunden werden. Das gerade beschriebene Langzeit-Voraussageverfahren ist z. B. von W. Kleijn et al. in "An Efficient Stochastically Excited Linear Predictive Coding Algorithm for High Quality Low Bit Rate Transmission of Speech", Speech Communication, 71 Seite 305 - 316, 1988 (Verweis 2) offenbart worden. Mit dem Langzeit-Voraussageverfahren ist jedoch die Tonhöhendauer eines aktuellen Sprachsignals nicht ein ganzzahliges Vielfaches einer Abtastfrequenz, und wenn versucht wird, die Tonhöhendauer von z. B. 20,5 Abtastungen mit einem ganzzahligen Wert darzustellen, besonders wenn die Stimme hoch ist (wenn die Tonhöhendauer kurz ist), wie sie bei einer Sprecherin klingt, wird wahrscheinlich die Laufzeit von 41 Abtastungen gewählt, was der doppelten Tonhöhendauer entspricht und die Qualität der rekonstruierten Sprache wesentlich verschlechtert. Dies ist einer der Gründe für die Verschlechterung der Stimmqualität einer weiblichen Sprache mit einer kurzen Tonhöhendauer.
- Um das Problem zu lösen, ist ein Verfahren vorgeschlagen worden, eine Laufzeit (Tonhöhendauer) in einem Teilwert darzustellen, und z. B. in "PITCH PREDICTORS WITH HIGH TEMPORAL RESOLUTION"; Proc. ICASSP, Seite 661-664, 1990 (Verweis 3) von P. Kroon et al. offenbart worden. Gemäß dem Verfahren wird eine Teil-Laufzeit realisiert, um die Tonqualität durch Überabtastung oder Mehrphasenfilterung eines Anregungssignals zu verbessern.
- Das Verfahren von P. Kroon et al. ist jedoch ungünstig, da ein wesentlich höherer Berechnungsaufwand erforderlich ist, weil, wenn eine Laufzeit in einen Teilwert umgewandelt werden soll, falls das Interpolationsverhältnis 4 angewendet wird, der Berechnungsaufwand für eine Teil-Laufzeit in einem lernfähigen Codebuch auf das vierfache einer ganzzahligen Laufzeit ansteigt.
- Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachcodiersystem bereitzustellen, das eine Teil-Laufzeit mit einem geringen Berechnungsaufwand realisiert. Diese Aufgabe ist mit den Merkmalen der Patentansprüche gelöst.
- In dem Sprachcodiersystem werden Korrelationswerte zwischen einem bewerteten Signal eines momentanen Teil-Datenblocks und bewerteten Signalen von früheren Teil-Datenblöcken zunächst über einen vorgegebenen Bereich der Tonhöhendauer in einem ganzzahligen Wert errechnet, um eine vorgegebene Vielzahl an Kandidaten mit einer ganzzahligen Laufzeit in der Größenordnung der Korrelationswerte zu finden. Dann wird für einen Laufzeitbereich einiger Vor- und Nachabtastungen jedes der Laufzeitkandidaten mit ganzzahligem Wert durch Mehrphasenfilterung eines früheren Anregungssignals eine Teil-Laufzeit gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt. Das im Verweis 3 offenbarte, oben erwähnte Mehrphasenfilterverfahren kann für eine solche Mehrphasenfilterung angewandt werden.
- In einem alternativen Sprachcodiersystem der Erfindung werden Korrelationswerte zwischen einem früheren Anregungssignal und einem Umkehr-Filtersignal (Vorhersage-Fehlersignal) eines Eingangssignals eines Teil-Datenblocks über einen vorgegebenen Bereich einer Tonhöhendauer in einem ganzzahligen Wert berechnet, um eine vorgegebene Vielzahl an Kandidaten mit ganzzahliger Laufzeit in der Größenordnung der Korrelationswerte zu finden. Durch eine Mehrphasenfilterung des früheren Anregungssignals wird eine Teil-Laufzeit für mehrere Vor- und Nachabtastungen jedes der Laufzeitkandidaten mit ganzzahligem Wert gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt.
- In einem weiteren alternativen Sprachcodiersystem der Erfindung werden Korrelationswerte zwischen einem Umkehr-Filtersignal (Vorhersage-Fehlersignal) eines momentanen Teil-Datenblocks und Restsignalen früherer Teil-Datenblöcke über einen vorgegebenen Bereich einer Tonhöhendauer in einem ganzzahligen Wert berechnet, um eine vorgegebene Vielzahl an Kandidaten mit einer ganzzahligen Laufzeit in der Größenordnung der Korrelationswerte zu finden. Für mehrere Vor- und Nachabtastungen jedes der Lauf zeitkandidaten mit ganzzahligem Wert wird durch Mehrphasenfilterung eines früheren Anregungssignals eine Teil-Laufzeit gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt.
- Wenn bei der Funktion des oben beschriebenen Sprachcodiersystems der vorliegenden Erfindung zwei Signale durch x(n) und y(n) dargestellt werden, so wird eine ganzzahlige Laufzeit T gefunden, so daß die folgende Gleichung E auf ein Minimum reduziert werden kann:
- In diesem Fall wird E auf ein Minimum reduziert, wenn der Verstärkungsfaktor γ durch folgende Gleichung bestimmt wird:
- und folglich wird die Verfälschung E auf ein Minimum reduziert, wenn die folgende Gleichung M ein Maximum erreicht:
- Alternativ kann, um den Berechnungsaufwand weiter zu reduzieren, der Ausdruck:
- als Korrelationswert verwendet werden.
- Danach wird durch eine Mehrphasenfilterung des früheren Anregungssignals eine Teil-Laufzeit für einen Bereich von mehreren Vor- und Nachabtastungen jedes Laufzeitkandidaten mit ganzzahligem Wert gefunden.
- Die Ermittlungseinrichtung ermittelt für jeden aus der Vielzahl von Kandidaten mit ganzzahliger Laufzeit vorzugsweise eine Vielzahl von Teil-Laufzeiten gemäß dem früheren Anregungssignal, und die Ableitungseinrichtung leitet von dem Anregungs- Codebuch ein optimales Anregungssignal gemäß jeder der Teil- Laufzeiten ab, um ein Signal zu rekonstruieren, und wählt eine Teil-Laufzeit und ein Anregungssignal aus, welche die Verfälschung zwischen dem Sprachsignal und dem rekonstruierten Signal auf ein Minimum reduzieren.
- Da eine Vielzahl an Kandidaten mit ganzzahliger Laufzeit zuerst durch eine offene Schleife gefunden werden und anschließend eine Teil-Laufzeit für einen Bereich einiger Vor- und Nachabtastungen jedes Kandidaten durch eine Endlosschleife gefunden wird, wird mit den Sprachcodiersystemen ein wesentlicher Vorteil dadurch erreicht, daß man im Vergleich zu herkömmlichen Sprachcodiersystemen, wie z. B. dem im Verweis 3 hierin oben erwähnten offenbarten Sprachcodiersystem durch einen wesentlich reduzierten Berechnungsaufwand eine hohe Tongualität erzielt.
- Die obige und weitere Aufgaben, Eigenschaften und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den anhängenden Patentansprüchen zusammen mit den begleitenden Zeichnungen, in welchen gleiche Teile oder Elemente mit gleichen Bezugszeichen gekennzeichnet sind, offensichtlich.
- Die Erfindung wird in Verbindung mit den Zeichnungen ausführlich beschrieben, wobei
- Fig. 1 ein Blockdiagramm eines Sprachcodiersystems ist, das ein erstes bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt;
- Fig. 2 eine ähnliche Ansicht ist, aber ein zweites bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
- Fig. 3 eine ähnliche Ansicht ist, aber ein drittes bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt.
- Zuerst zu Fig. 1, in der ein Sprachcodiersystem gemäß einem ersten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem beinhaltet eine Puffereinrichtung 110, um darin ein Sprachsignal zu speichern, einen Datenblock-Teiler 120 zum Teilen eines Sprachsignals, das in der Puffereinrichtung 110 gespeichert ist, in eine vorgegebene Vielzahl von Teil-Datenblöcken, und einen LPC- (Linear Predictive Coefficient = linearen Vorhersagekoeffizienten-) Analysierer 210 zum Ableiten eines LPC-Koeffizienten, welcher einen Spektralparameter der Sprache darstellt, aus einem Sprachsignal für jeden Datenblock. Für die Puffereinrichtung 110, den Datenblock-Teiler 120 und den LPC-Analysierer 210 können vorhandene Einrichtungen verwendet werden.
- Das Sprachcodiersystem enthält außerdem einen LPC-Koeffizienten-Wandler 215 zum Quantisieren eines LPC-Koeffizienten unter Verwendung irgendeiner bekannten Methode. Ein Bewertungsfilter 130 führt eine bekannte, die Bewertung betreffende Operation für ein Sprachsignal durch, nachdem es in Teil-Datenblöcke geteilt wurde. Das hierin oben in Verweis 1 erwähnte offenbarte Verfahren kann für eine solche Bewertungsoperation angewendet werden. Ein Korrelationsrechner 140 berechnet die Korrelationswerte von zwei unterschiedlichen Signalarten einschließlich einem bewerteten Signal eines momentanen Teil- Datenblocks und bewerteter Signale von früheren Teil-Datenblöcken, um zu ermöglichen, daß nachfolgend Kandidaten mit ganzzahliger Laufzeit ermittelt werden. Die Korrelationswerte hier können aus einer der oben angegebenen Gleichungen (3) und (4) gewonnen werden. Ein Kandidaten-Entscheidungs-Schaltkreis 150 wählt eine vorgegebene Anzahl von Kandidaten mit ganzzahliger Laufzeit in der Größenordnung der so berechneten Korrelationswerte aus. Ein Beeinflussungssignal-Subtraktivfilter 160 subtrahiert von einem bewerteten Signal ein Beeinflussungssignal, das durch Null-Anregung mit einem Anfangszustand einer bewerteten Synthesefiltergruppe zu dem letzten Zustand eines bewerteten Synthesesignals eines vorhergehenden Teil-Datenblocks berechnet worden ist. Ein Suchbereichbegrenzer 170 gibt einen Teil von mehr oder weniger verschiedenen Abtastungen für eine ganzzahlige Laufzeit für jeden der Kandidaten mit ganzzahliger Laufzeit vor, die von dem Kandidaten-Entscheidungs- Schaltkreis 150 ausgewählt worden sind
- Ein lernfähiger Codebuch-Suchschaltkreis 180 führt Mehrphasenfilterung eines früheren Anregungssignals durch, um durch den Suchbereichbegrenzer 170 für eine Teilgruppe eine optimale Teil-Laufzeit zu ermitteln, welche die Verfälschung auf ein Minimum reduziert. Ein Bewertungsfilter 190 führt eine Synthese der Sprache durch, indem es einen Filterkoeffizienten verwendet, der durch ein bekanntes, das Bewerten eines LPC-Koeffizienten betreffendes Analysieren in dem LPC-Analysierer 210 gewonnen wurde. Ein Anregungs-Codebuch-Suchschaltkreis 200 führt eine Suche eines Anregungs-Codebuchs durch. Das Anregungs-Codebuch hier kann ein Geräusch-Codebuch sein, das in dem oben erwähnten Verweis 1 offenbart wurde, oder ein gebildetes Codebuch, das sich gemäß einem VQ- (Vector Quantization = Vektorquantifizierungs-) Algorithmus, wie z. B. einem LBG-Verfahren, gebildet hat. Was ein Verfahren der Verwendung eines solchen wissenschaftlichen Codebuchs betrifft, sei z. B. auf die JF-A-2-42955 (Verweis 4) oder die Jp-A-2-42956 (Verweis 5) verwiesen. Die Positionszahl 220 bezeichnet einen Multiplexer.
- Im Betrieb wird ein Sprachsignal über einen Spracheingang 100 in das Sprachcodiersystem eingegeben und in die Puffereinrichtung 110 eingespeichert. Das auf diese Weise gespeicherte Signal wird von dem LPC-Analysierer 210 LPC-analysiert, um einen LPC-Koeffizienten zu berechnen, der einen Spektralparameter darstellt. Der so berechnete LPC-Koeffizient wird von dem LPC- Koeffizientenwandler 215 quantisiert und dann an den Multiplexer 220 gesendet, wobei er in einen LPC-Koeffizienten zurück codiert wird, der bei der nachfolgend beschriebenen Verarbeitung verwendet wird. Das in der Puffereinrichtung 110 gespeicherte Sprachsignal wird dann von dem Datenblock-Teiler 120 in eine vorgegebene Vielzahl von Teil-Datenblöcken geteilt, und dann wird die nachfolgende Verarbeitung für das Sprachsignal für jeden Teil-Datenblock durchgeführt.
- Als erstes wird von dem Bewertungsfilter 130 eine Bewertung des Sprachsignals durchgeführt und dann von dem Korrelationsrechner 140 die Werte der hierin schon dargestellten Gleichung (3) oder (4) als Korrelationswerte zwischen dem bewerteten Signal und den bewerteten Signalen der früheren Teil- Datenblöcke berechnet. Dann werden eine vorgegebene Anzahl an Kandidaten mit ganzzahliger Laufzeit, die Maximumwerte der Gleichung (3) oder (4) besitzen, von dem Kandidaten-Entscheidungs-Schaltkreis 150 ausgewählt (Auswahl von Kandidaten mit ganzzahliger Laufzeit durch eine offene Schleife). Nach der Beendigung dieser Berechnung der Korrelationswerte wird das bewertete Signal für den momentanen Teil-Datenblock für einen nächsten Teil-Datenblock in die Puffereinrichtung 135 eingespeichert. Das Beeinflussungssignal-Subtraktivfilter 160 berechnet ein Beeinflussungssignal und subtrahiert es von dem bewerteten Signal. Der Suchbereichbegrenzer 170 begrenzt einen Suchbereich des lernfähigen Codebuchs auf mehr oder weniger verschiedene Abtastungen jedes der ganzzahligen Laufzeitkandidaten, die von dem Kandidaten-Entscheidungs-Schaltkreis 150 ausgewählt wurden, und der Suchschaltkreis des lernfähigen Codebuchs 180 führt die Auswahl einer Teil-Laufzeit für jeden der Suchbereiche durch, indem er ein früheres mehrphasig gefiltertes Anregungssignal verwendet. Eine Teil-Laufzeit, die durch eine solche Auswahl erzielt wird und die Verfälschung auf ein Minimum reduziert, wird als optimale Laufzeit des lernfähigen Codebuchs ermittelt, und die optimale Teil-Laufzeit und eine entsprechende Verstärkung werden zu dem Multiplexer 220 übertragen. Das Bewertungsfilter 190 führt eine Synthese der Sprache durch ein Synthesebewertungsfilter und den Verstärkungsfaktor unter Verwendung eines Anregungssignals, das auf der optimalen Laufzeit des lernfähigen Codebuchs basiert, durch und subtrahiert das auf diese Weise erzeugte Signal von dem bewerteten Signal. Der Anregungs-Codebuch-Suchschaltkreis 200 sucht das Anregungs-Codebuch nach dem durch diese Subtraktion erhaltenen Differenzsignal ab. Der Anregungs-Codebuch-Suchschaltkreis 200 sendet dann einen Index eines auf diese Weise ausgesuchten Anregungssignals des Codebuchs und einen entsprechenden Verstärkungsfaktor an den Multiplexer 220. Der Multiplexer 220 kombiniert die Ausgangssignale des LPC-Koeffizientenwandlers 215, des Suchschaltkreises des lernfähigen Codebuchs 180 und des Anregungs-Codebuch-Suchschaltkreises 200 zu einer Codefolge und gibt die Codefolge über einen Ausgabeanschluß 300 aus. Eine solche Verarbeitung, wie sie oben beschrieben wurde, wird für jeden Teil-Datenblock des Sprachsignals wiederholt.
- Nun zu Fig. 2, in der ein Sprachcodiersystem gemäß einem zweiten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem des bevorzugten Ausführungsbeispiels ist eine Modifizierung des Sprachcodiersystems des ersten Ausführungsbeispiels von Fig. 1 und unterscheidet sich von dem letzteren nur durch ein Signal, das verwendet wird, um einen Korrelationswert zu berechnen. Insbesondere berechnet in dem Sprachcodiersystem des vorliegenden Ausführungsbeispiels ein Umkehrfilter 125, das als Umkehrfilter für ein Synthesefilter dient, welches durch eine LPC-Analyse gewonnen wurde, ein Voraussage-Restsignal aus einem Signal, das von dem Datenblock-Teiler 120 empfangen wurde, und der Korrelationsrechner 140 berechnet die Korrelationswerte zwischen dem Voraussage-Restsignal und dem Anregungssignal der früheren Teil-Datenblöcke, d. h., bereitgestellte Signale aus einer Summe von Signalen des lernfähigen Codebuchs und des Anregungs- Codebuchs. Entsprechend wird das für die Teil-Datenblöcke berechnete und für die Berechnung eines Korrelationswerts notwendige Anregungssignal in eine Puffereinrichtung 135 eingespeichert.
- Nun zu Fig. 3, in der ein Sprachcodiersystem gemäß einem dritten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem des vorliegenden Ausführungsbeispiels besitzt eine andere Modifizierung als das Sprachcodiersystem des ersten Ausführungsbeispiels von Fig. 1 und unterscheidet sich von dem letzteren nur durch ein Signal, das zur Berechnung eines Korrelationswertes verwendet wird. Insbesondere berechnet in dem Sprachcodiersystem des vorliegenden Ausführungsbeispiels das Umkehrfilter 125 ein Voraussage- Restsignal eines momentanen Teil-Datenblocks, und der Korrelationsrechner 140 berechnet Korrelationswerte zwischen dem Voraussage-Restsignal des momentanen Teil-Datenblocks und Voraussage-Restsignale der früheren Teil-Datenblöcke. Entsprechend werden für die Teil-Datenblöcke berechnete Restsignale in die Puffereinrichtung 135 eingespeichert.
- Nachdem Kandidaten mit ganzzahliger Laufzeit durch irgendeines der Sprachcodiersysteme des ersten bis dritten oben beschriebenen Ausführungsbeispiels ermittelt worden sind, wird durch eine Mehrphasenfilterung für einige Vor- und Nachabtastungen des Kandidaten für jeden der Kandidaten eine Teil- Laufzeit berechnet. In diesem Fall wird eine solche Teil-Laufzeit nicht maßgebend festgelegt, aber eine Vielzahl unterschiedlicher Kandidaten mit Teil-Laufzeit wird temporär ermittelt. Dann wird das Anregungs-Codebuch nach einem optimalen Anregungssignal für jeden der Kandidaten mit Teil-Laufzeit abgesucht, und es wird unter Verwendung jedes auf diese Weise teilweise verzögerten, ausgewählten Anregungssignals ein Signal rekonstruiert. Dann wird für jede der Teil-Laufzeiten die Verfälschung zwischen der Eingangssprache und dem rekonstruierten Signal gefunden und eine Kombination einer Teil-Laufzeit und einem Anregungssignal des Anregungs-Codebuchs, das die Verfälschung auf ein Minimum reduziert, ausgegeben.
- Es können zu den Sprachcodiersystemen der oben beschriebenen Ausführungsbeispiele verschiedene Modifikationen erstellt werden. Obgleich eine Teil-Laufzeit des lernfähigen Codebuchs und ein Anregungssignal des Anregungs-Codebuchs für jeden Teil- Datenblock maßgebend ermittelt werden, müssen diese z. B. nicht für jeden Teil-Datenblock maßgebend ermittelt werden. Z. B. können sie so ermittelt werden, daß eine Vielzahl von Kandidaten erst in der Größenordnung der geringsten Verfälschung für jeden Teil-Datenblock berechnet werden, und dann werden solche Kandidaten für den Datenblock gesammelt, um eine akkumulierte Verfälschung für den ganzen Datenblock herauszufinden, wonach eine Kombination einer Teil-Laufzeit des lernfähigen Codebuchs und eines Anregungssignals des Anregungs-Codebuchs, das die akkumulierte Verfälschung des ganzen Datenblocks auf ein Minimum reduziert, gewählt wird.
- Nachdem die Erfindung nun vollständig beschrieben wurde, wird es für den Fachmann offensichtlich sein, daß viele Änderungen und Modifizierungen dazu durchgeführt werden können, ohne von dem Schutzumfang der durch die anhängenden Patentanspruche festgelegten Erfindung abzuweichen.
Claims (7)
1. Sprachcodiersystem mit:
einer Einrichtung (110) zum Speichern eines Sprachsignals
darin;
einer Einrichtung (120) zum Teilen des Sprachsignals in
eine Vielzahl von Teil-Datenblöcken;
einer Einrichtung (210) zum Analysieren des Sprachsignals;
einer Einrichtung (130) zum Wahrnehmungsbewerten des
Sprachsignals;
einer Einrichtung (140) zum Berechnen von Korrelationswerten;
einer Einrichtung (150) zum Finden einer Vielzahl von
Kandidaten mit ganzzahliger Laufzeit gemäß den Korrelationswerten;
einer Einrichtung (180) zum Ermitteln einer Teil-Laufzeit
für jeden der Kandidaten durch Mehrphasenfilterung von früheren
Anregungssignalen für einen Bereich einiger Vor- und
Nachabtastungen jedes Laufzeitkandidaten mit ganzzahligem Wert;
Einrichtungen (190, 200) zum Rekonstruieren eines Signals
und zum Ableiten eines optimalen Anregungssignals von einem
Anregungs-Codebuch, das mit der Teil-Laufzeit kombiniert die
Verfälschung zwischen der Eingabesprache und dem rekonstruierten
Signal auf ein Minimum reduziert.
2. System nach Anspruch 1, wobei die Einrichtung zum
Berechnen von Korrelationswerten Korrelationen zwischen dem
bewerteten Signal des momentanen Teil-Datenblocks und den früher
bewerteten Signalen berechnet.
3. System nach Anspruch 1, wobei die Einrichtung zum
Berechnen von Korrelationswerten folgendes aufweist:
eine Einrichtung zum Berechnen eines
Voraussage-Restsignals aus dem Sprachsignal;
eine Einrichtung zum Berechnen der Korrelationswerte
zwischen dem Voraussage-Restsignal und einem früheren
Anregungssignal.
4. System nach Anspruch 1, wobei die Einrichtung zum
Berechnen von Korrelationswerten folgendes aufweist:
eine Einrichtung zum Berechnen eines
Voraussage-Restsignals aus dem Sprachsignal;
eine Einrichtung zum Berechnen der Korrelationswerte
zwischen dem Voraussage-Restsignal des momentanen Teil-Datenblocks
und Voraussage-Restsignalen von früheren Teil-Datenblöcken.
5. System nach Anspruch 1, wobei das System zusätzlich ein
Umkehrfilter (125) zum Berechnen eines Voraussage-Restsignals
aus dem Sprachsignal umfaßt und die Korrelationsberechnungs-
Einrichtung (140) Korrelationswerte zwischen dem Voraussage-
Restsignal und einem früheren Anregungssignal berechnet.
6. System nach Anspruch 1, wobei das System zusätzlich ein
Umkehrfilter (125) zum Berechnen eines Voraussage-Restsignals
aus dem Sprachsignal beinhaltet und die
Korrelationsberechnungs-Einrichtung (140) Korrelationswerte zwischen dem
Voraussage-Restsignal in dem momentanen Teil-Datenblock und ein
früheres Anregungssignal berechnet.
7. System nach irgendeinem der Ansprüche 1 bis 6, wobei die
Ermittlungseinrichtung eine Vielzahl von Teil-Laufzeiten für
jeden aus der Vielzahl der Kandidaten mit ganzzahliger Laufzeit
gemäß dem früheren Anregungssignal ermittelt und die
Ableitungseinrichtung ein optimales Anregungssignal aus dem
Anregungs-Codebuch gemäß jeder der Teil-Laufzeiten ableitet, um ein
Signal zu rekonstruieren, und eine Teil-Laufzeit und ein
Anregungssignal auswählt, welche die Verfälschung zwischen dem
Sprachsignal und dem rekonstruierten Signal auf ein Minimum
reduzieren.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10326291A JP3254687B2 (ja) | 1991-02-26 | 1991-02-26 | 音声符号化方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69223335D1 DE69223335D1 (de) | 1998-01-15 |
DE69223335T2 true DE69223335T2 (de) | 1998-03-26 |
Family
ID=14349524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69223335T Expired - Lifetime DE69223335T2 (de) | 1991-02-26 | 1992-02-25 | Sprachkodiersystem |
Country Status (5)
Country | Link |
---|---|
US (1) | US5426718A (de) |
EP (1) | EP0501421B1 (de) |
JP (1) | JP3254687B2 (de) |
CA (1) | CA2061830C (de) |
DE (1) | DE69223335T2 (de) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2746039B2 (ja) * | 1993-01-22 | 1998-04-28 | 日本電気株式会社 | 音声符号化方式 |
JP2800618B2 (ja) * | 1993-02-09 | 1998-09-21 | 日本電気株式会社 | 音声パラメータ符号化方式 |
JP2658816B2 (ja) * | 1993-08-26 | 1997-09-30 | 日本電気株式会社 | 音声のピッチ符号化装置 |
JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
JP3087591B2 (ja) * | 1994-12-27 | 2000-09-11 | 日本電気株式会社 | 音声符号化装置 |
JPH08292797A (ja) * | 1995-04-20 | 1996-11-05 | Nec Corp | 音声符号化装置 |
JP3308764B2 (ja) * | 1995-05-31 | 2002-07-29 | 日本電気株式会社 | 音声符号化装置 |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
TW317051B (de) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
CA2218217C (en) * | 1996-02-15 | 2004-12-07 | Philips Electronics N.V. | Reduced complexity signal transmission system |
US5799271A (en) * | 1996-06-24 | 1998-08-25 | Electronics And Telecommunications Research Institute | Method for reducing pitch search time for vocoder |
KR100366700B1 (ko) * | 1996-10-31 | 2003-02-19 | 삼성전자 주식회사 | 코드여기 선형 예측 부호화에 있어서 상관함수에 기초한 적응 코드북 탐색방법 |
JP3180786B2 (ja) * | 1998-11-27 | 2001-06-25 | 日本電気株式会社 | 音声符号化方法及び音声符号化装置 |
SE9903223L (sv) * | 1999-09-09 | 2001-05-08 | Ericsson Telefon Ab L M | Förfarande och anordning i telekommunikationssystem |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
GB2466670B (en) | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466672B (en) | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466669B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
US8452606B2 (en) | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
US4441201A (en) * | 1980-02-04 | 1984-04-03 | Texas Instruments Incorporated | Speech synthesis system utilizing variable frame rate |
NL8302985A (nl) * | 1983-08-26 | 1985-03-18 | Philips Nv | Multipulse excitatie lineair predictieve spraakcodeerder. |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
EP0331857B1 (de) * | 1988-03-08 | 1992-05-20 | International Business Machines Corporation | Verfahren und Einrichtung zur Sprachkodierung mit niedriger Datenrate |
GB8806185D0 (en) * | 1988-03-16 | 1988-04-13 | Univ Surrey | Speech coding |
US4964166A (en) * | 1988-05-26 | 1990-10-16 | Pacific Communication Science, Inc. | Adaptive transform coder having minimal bit allocation processing |
EP0392126B1 (de) * | 1989-04-11 | 1994-07-20 | International Business Machines Corporation | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion |
US4975956A (en) * | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5097508A (en) * | 1989-08-31 | 1992-03-17 | Codex Corporation | Digital speech coder having improved long term lag parameter determination |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
-
1991
- 1991-02-26 JP JP10326291A patent/JP3254687B2/ja not_active Expired - Lifetime
-
1992
- 1992-02-25 DE DE69223335T patent/DE69223335T2/de not_active Expired - Lifetime
- 1992-02-25 EP EP92103181A patent/EP0501421B1/de not_active Expired - Lifetime
- 1992-02-25 CA CA002061830A patent/CA2061830C/en not_active Expired - Lifetime
- 1992-02-26 US US07/842,040 patent/US5426718A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0501421A3 (en) | 1993-03-31 |
EP0501421B1 (de) | 1997-12-03 |
CA2061830A1 (en) | 1992-08-27 |
US5426718A (en) | 1995-06-20 |
JP3254687B2 (ja) | 2002-02-12 |
EP0501421A2 (de) | 1992-09-02 |
JPH04270398A (ja) | 1992-09-25 |
CA2061830C (en) | 1996-10-29 |
DE69223335D1 (de) | 1998-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69223335T2 (de) | Sprachkodiersystem | |
DE69420431T2 (de) | Sprachkodierungssystem | |
DE69232892T2 (de) | Sprachkodierungssystem | |
DE69032551T2 (de) | Einrichtung zur Sprachkodierung | |
DE69214969T2 (de) | Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE69328450T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE60308567T2 (de) | Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69718234T2 (de) | Sprachkodierer | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69426860T2 (de) | Sprachcodierer und Verfahren zum Suchen von Codebüchern | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE69126062T2 (de) | System zur Sprachcodierung und -decodierung | |
DE69610915T2 (de) | Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese | |
DE69708191T2 (de) | Vorrichtung zur Signalkodierung | |
DE69727256T2 (de) | Sprachkodierer hoher Qualität mit niedriger Bitrate | |
DE68913691T2 (de) | System zur Sprachcodierung und -decodierung. | |
DE69420683T2 (de) | Kodierer für Sprachparameter | |
DE69921066T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69523032T2 (de) | Vorrichtung und Verfahren zur Kodierung der Sprachgrundfrequenz | |
DE69228858T2 (de) | Methode zur Sprachkodierung und Sprachkodierer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |