Nothing Special   »   [go: up one dir, main page]

DE69223335T2 - Sprachkodiersystem - Google Patents

Sprachkodiersystem

Info

Publication number
DE69223335T2
DE69223335T2 DE69223335T DE69223335T DE69223335T2 DE 69223335 T2 DE69223335 T2 DE 69223335T2 DE 69223335 T DE69223335 T DE 69223335T DE 69223335 T DE69223335 T DE 69223335T DE 69223335 T2 DE69223335 T2 DE 69223335T2
Authority
DE
Germany
Prior art keywords
signal
speech
delay
correlation values
excitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69223335T
Other languages
English (en)
Other versions
DE69223335D1 (de
Inventor
Keiichi Funaki
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Application granted granted Critical
Publication of DE69223335D1 publication Critical patent/DE69223335D1/de
Publication of DE69223335T2 publication Critical patent/DE69223335T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Diese Erfindung betrifft ein Sprachcodiersystem zum Codieren eines Sprachsignals mit hoher Qualität bei geringer Bitrate, insbesondere bei etwa 8 bis 4,8 kb/s.
  • Es sind schon verschiedene Verfahren zum Codieren eines Sprachsignals bei einer geringen Bitrate von etwa 8 bis 4,8 kb/s bekannt. Ein Beispiel solcher herkömmlichen Codierverfahren ist CELP (Code Excited Linear Prediction = Anregung zu linearer Code-Voraussage), das z. B. in "CODE-EXCITED LINEAR PREDICTION (CELP): HIGH-QUALITY SPEECH AT VERY LOW BIT RATES" von M. R. Schroeder und B. S. Atal, Proc. ICASSP, Seite 937- 940, 1985 (Verweis 1) offenbart wurde. Gemäß diesem Verfahren wird auf der Sendeseite ein Spektralparameter, der eine Spektralcharakteristik eines Sprachsignals darstellt, bei jedem Datenblock (z. B. 20 ms) aus einem Sprachsignal entnommen. Jeder Datenblock ist in Teil-Datenblöcke von z. B. 5 ms unterteilt, und ein Tonhöhe-Parameter, der eine Langzeit-Korrelation (Teil- Korrelation) darstellt, ist für jeden Teil-Datenblock einem früheren Anregungssignal entnommen. Dann wird unter Verwendung des Tonhöhe-Parameters eine Langzeit-Voraussage (Tonhöhe-Voraussage) des Sprachsignals von dem Teil-Datenblock durchgeführt. Aus einem Codebuch, das aus vorgegebenen, unterschiedlichen Geräuschsignalen besteht, die vorher aufbereitet wurden, wird ein Geräuschsignal gewählt, so daß die Verfälschung (error power) zwischen dem Sprachsignal und einem Signal, das unter Verwendung des ausgewählten Signals künstlich erzeugt wurde, minimiert werden kann, obgleich eine optimale Verstärkung einkalkuliert wurde. Ein für das auf diese Weise ausgewählte Geräuschsignal typischer Index und die Verstärkung werden zusammen mit dem Spektralparameter und dem Tonhöhe-Parameter übertragen. Eine Beschreibung der Konstruktion und der Funktion auf der Empfangsseite werden hierin weggelassen.
  • Auch sind schon verschiedene Langzeit-Voraussageverfahren bekannt. Ein Beispiel solcher herkömmlicher Langzeit-Voraussageverfahren verwendet ein lernfähiges Codebuch so, daß frühere Anregungssignale durch je einen Abtastabstand abgelöst werden, so daß ein Wert einer solchen Verschiebung (ganzzahligen Laufzeit), die den quadrierten Fehler minimiert, und eine Verstärkung, die der Laufzeit entspricht, gefunden werden. Das gerade beschriebene Langzeit-Voraussageverfahren ist z. B. von W. Kleijn et al. in "An Efficient Stochastically Excited Linear Predictive Coding Algorithm for High Quality Low Bit Rate Transmission of Speech", Speech Communication, 71 Seite 305 - 316, 1988 (Verweis 2) offenbart worden. Mit dem Langzeit-Voraussageverfahren ist jedoch die Tonhöhendauer eines aktuellen Sprachsignals nicht ein ganzzahliges Vielfaches einer Abtastfrequenz, und wenn versucht wird, die Tonhöhendauer von z. B. 20,5 Abtastungen mit einem ganzzahligen Wert darzustellen, besonders wenn die Stimme hoch ist (wenn die Tonhöhendauer kurz ist), wie sie bei einer Sprecherin klingt, wird wahrscheinlich die Laufzeit von 41 Abtastungen gewählt, was der doppelten Tonhöhendauer entspricht und die Qualität der rekonstruierten Sprache wesentlich verschlechtert. Dies ist einer der Gründe für die Verschlechterung der Stimmqualität einer weiblichen Sprache mit einer kurzen Tonhöhendauer.
  • Um das Problem zu lösen, ist ein Verfahren vorgeschlagen worden, eine Laufzeit (Tonhöhendauer) in einem Teilwert darzustellen, und z. B. in "PITCH PREDICTORS WITH HIGH TEMPORAL RESOLUTION"; Proc. ICASSP, Seite 661-664, 1990 (Verweis 3) von P. Kroon et al. offenbart worden. Gemäß dem Verfahren wird eine Teil-Laufzeit realisiert, um die Tonqualität durch Überabtastung oder Mehrphasenfilterung eines Anregungssignals zu verbessern.
  • Das Verfahren von P. Kroon et al. ist jedoch ungünstig, da ein wesentlich höherer Berechnungsaufwand erforderlich ist, weil, wenn eine Laufzeit in einen Teilwert umgewandelt werden soll, falls das Interpolationsverhältnis 4 angewendet wird, der Berechnungsaufwand für eine Teil-Laufzeit in einem lernfähigen Codebuch auf das vierfache einer ganzzahligen Laufzeit ansteigt.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachcodiersystem bereitzustellen, das eine Teil-Laufzeit mit einem geringen Berechnungsaufwand realisiert. Diese Aufgabe ist mit den Merkmalen der Patentansprüche gelöst.
  • In dem Sprachcodiersystem werden Korrelationswerte zwischen einem bewerteten Signal eines momentanen Teil-Datenblocks und bewerteten Signalen von früheren Teil-Datenblöcken zunächst über einen vorgegebenen Bereich der Tonhöhendauer in einem ganzzahligen Wert errechnet, um eine vorgegebene Vielzahl an Kandidaten mit einer ganzzahligen Laufzeit in der Größenordnung der Korrelationswerte zu finden. Dann wird für einen Laufzeitbereich einiger Vor- und Nachabtastungen jedes der Laufzeitkandidaten mit ganzzahligem Wert durch Mehrphasenfilterung eines früheren Anregungssignals eine Teil-Laufzeit gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt. Das im Verweis 3 offenbarte, oben erwähnte Mehrphasenfilterverfahren kann für eine solche Mehrphasenfilterung angewandt werden.
  • In einem alternativen Sprachcodiersystem der Erfindung werden Korrelationswerte zwischen einem früheren Anregungssignal und einem Umkehr-Filtersignal (Vorhersage-Fehlersignal) eines Eingangssignals eines Teil-Datenblocks über einen vorgegebenen Bereich einer Tonhöhendauer in einem ganzzahligen Wert berechnet, um eine vorgegebene Vielzahl an Kandidaten mit ganzzahliger Laufzeit in der Größenordnung der Korrelationswerte zu finden. Durch eine Mehrphasenfilterung des früheren Anregungssignals wird eine Teil-Laufzeit für mehrere Vor- und Nachabtastungen jedes der Laufzeitkandidaten mit ganzzahligem Wert gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt.
  • In einem weiteren alternativen Sprachcodiersystem der Erfindung werden Korrelationswerte zwischen einem Umkehr-Filtersignal (Vorhersage-Fehlersignal) eines momentanen Teil-Datenblocks und Restsignalen früherer Teil-Datenblöcke über einen vorgegebenen Bereich einer Tonhöhendauer in einem ganzzahligen Wert berechnet, um eine vorgegebene Vielzahl an Kandidaten mit einer ganzzahligen Laufzeit in der Größenordnung der Korrelationswerte zu finden. Für mehrere Vor- und Nachabtastungen jedes der Lauf zeitkandidaten mit ganzzahligem Wert wird durch Mehrphasenfilterung eines früheren Anregungssignals eine Teil-Laufzeit gefunden, und diejenige der Teil-Laufzeiten, welche die Verfälschung minimiert, wird als Teil-Laufzeit ausgewählt.
  • Wenn bei der Funktion des oben beschriebenen Sprachcodiersystems der vorliegenden Erfindung zwei Signale durch x(n) und y(n) dargestellt werden, so wird eine ganzzahlige Laufzeit T gefunden, so daß die folgende Gleichung E auf ein Minimum reduziert werden kann:
  • In diesem Fall wird E auf ein Minimum reduziert, wenn der Verstärkungsfaktor γ durch folgende Gleichung bestimmt wird:
  • und folglich wird die Verfälschung E auf ein Minimum reduziert, wenn die folgende Gleichung M ein Maximum erreicht:
  • Alternativ kann, um den Berechnungsaufwand weiter zu reduzieren, der Ausdruck:
  • als Korrelationswert verwendet werden.
  • Danach wird durch eine Mehrphasenfilterung des früheren Anregungssignals eine Teil-Laufzeit für einen Bereich von mehreren Vor- und Nachabtastungen jedes Laufzeitkandidaten mit ganzzahligem Wert gefunden.
  • Die Ermittlungseinrichtung ermittelt für jeden aus der Vielzahl von Kandidaten mit ganzzahliger Laufzeit vorzugsweise eine Vielzahl von Teil-Laufzeiten gemäß dem früheren Anregungssignal, und die Ableitungseinrichtung leitet von dem Anregungs- Codebuch ein optimales Anregungssignal gemäß jeder der Teil- Laufzeiten ab, um ein Signal zu rekonstruieren, und wählt eine Teil-Laufzeit und ein Anregungssignal aus, welche die Verfälschung zwischen dem Sprachsignal und dem rekonstruierten Signal auf ein Minimum reduzieren.
  • Da eine Vielzahl an Kandidaten mit ganzzahliger Laufzeit zuerst durch eine offene Schleife gefunden werden und anschließend eine Teil-Laufzeit für einen Bereich einiger Vor- und Nachabtastungen jedes Kandidaten durch eine Endlosschleife gefunden wird, wird mit den Sprachcodiersystemen ein wesentlicher Vorteil dadurch erreicht, daß man im Vergleich zu herkömmlichen Sprachcodiersystemen, wie z. B. dem im Verweis 3 hierin oben erwähnten offenbarten Sprachcodiersystem durch einen wesentlich reduzierten Berechnungsaufwand eine hohe Tongualität erzielt.
  • Die obige und weitere Aufgaben, Eigenschaften und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den anhängenden Patentansprüchen zusammen mit den begleitenden Zeichnungen, in welchen gleiche Teile oder Elemente mit gleichen Bezugszeichen gekennzeichnet sind, offensichtlich.
  • Die Erfindung wird in Verbindung mit den Zeichnungen ausführlich beschrieben, wobei
  • Fig. 1 ein Blockdiagramm eines Sprachcodiersystems ist, das ein erstes bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • Fig. 2 eine ähnliche Ansicht ist, aber ein zweites bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
  • Fig. 3 eine ähnliche Ansicht ist, aber ein drittes bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung zeigt.
  • Zuerst zu Fig. 1, in der ein Sprachcodiersystem gemäß einem ersten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem beinhaltet eine Puffereinrichtung 110, um darin ein Sprachsignal zu speichern, einen Datenblock-Teiler 120 zum Teilen eines Sprachsignals, das in der Puffereinrichtung 110 gespeichert ist, in eine vorgegebene Vielzahl von Teil-Datenblöcken, und einen LPC- (Linear Predictive Coefficient = linearen Vorhersagekoeffizienten-) Analysierer 210 zum Ableiten eines LPC-Koeffizienten, welcher einen Spektralparameter der Sprache darstellt, aus einem Sprachsignal für jeden Datenblock. Für die Puffereinrichtung 110, den Datenblock-Teiler 120 und den LPC-Analysierer 210 können vorhandene Einrichtungen verwendet werden.
  • Das Sprachcodiersystem enthält außerdem einen LPC-Koeffizienten-Wandler 215 zum Quantisieren eines LPC-Koeffizienten unter Verwendung irgendeiner bekannten Methode. Ein Bewertungsfilter 130 führt eine bekannte, die Bewertung betreffende Operation für ein Sprachsignal durch, nachdem es in Teil-Datenblöcke geteilt wurde. Das hierin oben in Verweis 1 erwähnte offenbarte Verfahren kann für eine solche Bewertungsoperation angewendet werden. Ein Korrelationsrechner 140 berechnet die Korrelationswerte von zwei unterschiedlichen Signalarten einschließlich einem bewerteten Signal eines momentanen Teil- Datenblocks und bewerteter Signale von früheren Teil-Datenblöcken, um zu ermöglichen, daß nachfolgend Kandidaten mit ganzzahliger Laufzeit ermittelt werden. Die Korrelationswerte hier können aus einer der oben angegebenen Gleichungen (3) und (4) gewonnen werden. Ein Kandidaten-Entscheidungs-Schaltkreis 150 wählt eine vorgegebene Anzahl von Kandidaten mit ganzzahliger Laufzeit in der Größenordnung der so berechneten Korrelationswerte aus. Ein Beeinflussungssignal-Subtraktivfilter 160 subtrahiert von einem bewerteten Signal ein Beeinflussungssignal, das durch Null-Anregung mit einem Anfangszustand einer bewerteten Synthesefiltergruppe zu dem letzten Zustand eines bewerteten Synthesesignals eines vorhergehenden Teil-Datenblocks berechnet worden ist. Ein Suchbereichbegrenzer 170 gibt einen Teil von mehr oder weniger verschiedenen Abtastungen für eine ganzzahlige Laufzeit für jeden der Kandidaten mit ganzzahliger Laufzeit vor, die von dem Kandidaten-Entscheidungs- Schaltkreis 150 ausgewählt worden sind
  • Ein lernfähiger Codebuch-Suchschaltkreis 180 führt Mehrphasenfilterung eines früheren Anregungssignals durch, um durch den Suchbereichbegrenzer 170 für eine Teilgruppe eine optimale Teil-Laufzeit zu ermitteln, welche die Verfälschung auf ein Minimum reduziert. Ein Bewertungsfilter 190 führt eine Synthese der Sprache durch, indem es einen Filterkoeffizienten verwendet, der durch ein bekanntes, das Bewerten eines LPC-Koeffizienten betreffendes Analysieren in dem LPC-Analysierer 210 gewonnen wurde. Ein Anregungs-Codebuch-Suchschaltkreis 200 führt eine Suche eines Anregungs-Codebuchs durch. Das Anregungs-Codebuch hier kann ein Geräusch-Codebuch sein, das in dem oben erwähnten Verweis 1 offenbart wurde, oder ein gebildetes Codebuch, das sich gemäß einem VQ- (Vector Quantization = Vektorquantifizierungs-) Algorithmus, wie z. B. einem LBG-Verfahren, gebildet hat. Was ein Verfahren der Verwendung eines solchen wissenschaftlichen Codebuchs betrifft, sei z. B. auf die JF-A-2-42955 (Verweis 4) oder die Jp-A-2-42956 (Verweis 5) verwiesen. Die Positionszahl 220 bezeichnet einen Multiplexer.
  • Im Betrieb wird ein Sprachsignal über einen Spracheingang 100 in das Sprachcodiersystem eingegeben und in die Puffereinrichtung 110 eingespeichert. Das auf diese Weise gespeicherte Signal wird von dem LPC-Analysierer 210 LPC-analysiert, um einen LPC-Koeffizienten zu berechnen, der einen Spektralparameter darstellt. Der so berechnete LPC-Koeffizient wird von dem LPC- Koeffizientenwandler 215 quantisiert und dann an den Multiplexer 220 gesendet, wobei er in einen LPC-Koeffizienten zurück codiert wird, der bei der nachfolgend beschriebenen Verarbeitung verwendet wird. Das in der Puffereinrichtung 110 gespeicherte Sprachsignal wird dann von dem Datenblock-Teiler 120 in eine vorgegebene Vielzahl von Teil-Datenblöcken geteilt, und dann wird die nachfolgende Verarbeitung für das Sprachsignal für jeden Teil-Datenblock durchgeführt.
  • Als erstes wird von dem Bewertungsfilter 130 eine Bewertung des Sprachsignals durchgeführt und dann von dem Korrelationsrechner 140 die Werte der hierin schon dargestellten Gleichung (3) oder (4) als Korrelationswerte zwischen dem bewerteten Signal und den bewerteten Signalen der früheren Teil- Datenblöcke berechnet. Dann werden eine vorgegebene Anzahl an Kandidaten mit ganzzahliger Laufzeit, die Maximumwerte der Gleichung (3) oder (4) besitzen, von dem Kandidaten-Entscheidungs-Schaltkreis 150 ausgewählt (Auswahl von Kandidaten mit ganzzahliger Laufzeit durch eine offene Schleife). Nach der Beendigung dieser Berechnung der Korrelationswerte wird das bewertete Signal für den momentanen Teil-Datenblock für einen nächsten Teil-Datenblock in die Puffereinrichtung 135 eingespeichert. Das Beeinflussungssignal-Subtraktivfilter 160 berechnet ein Beeinflussungssignal und subtrahiert es von dem bewerteten Signal. Der Suchbereichbegrenzer 170 begrenzt einen Suchbereich des lernfähigen Codebuchs auf mehr oder weniger verschiedene Abtastungen jedes der ganzzahligen Laufzeitkandidaten, die von dem Kandidaten-Entscheidungs-Schaltkreis 150 ausgewählt wurden, und der Suchschaltkreis des lernfähigen Codebuchs 180 führt die Auswahl einer Teil-Laufzeit für jeden der Suchbereiche durch, indem er ein früheres mehrphasig gefiltertes Anregungssignal verwendet. Eine Teil-Laufzeit, die durch eine solche Auswahl erzielt wird und die Verfälschung auf ein Minimum reduziert, wird als optimale Laufzeit des lernfähigen Codebuchs ermittelt, und die optimale Teil-Laufzeit und eine entsprechende Verstärkung werden zu dem Multiplexer 220 übertragen. Das Bewertungsfilter 190 führt eine Synthese der Sprache durch ein Synthesebewertungsfilter und den Verstärkungsfaktor unter Verwendung eines Anregungssignals, das auf der optimalen Laufzeit des lernfähigen Codebuchs basiert, durch und subtrahiert das auf diese Weise erzeugte Signal von dem bewerteten Signal. Der Anregungs-Codebuch-Suchschaltkreis 200 sucht das Anregungs-Codebuch nach dem durch diese Subtraktion erhaltenen Differenzsignal ab. Der Anregungs-Codebuch-Suchschaltkreis 200 sendet dann einen Index eines auf diese Weise ausgesuchten Anregungssignals des Codebuchs und einen entsprechenden Verstärkungsfaktor an den Multiplexer 220. Der Multiplexer 220 kombiniert die Ausgangssignale des LPC-Koeffizientenwandlers 215, des Suchschaltkreises des lernfähigen Codebuchs 180 und des Anregungs-Codebuch-Suchschaltkreises 200 zu einer Codefolge und gibt die Codefolge über einen Ausgabeanschluß 300 aus. Eine solche Verarbeitung, wie sie oben beschrieben wurde, wird für jeden Teil-Datenblock des Sprachsignals wiederholt.
  • Nun zu Fig. 2, in der ein Sprachcodiersystem gemäß einem zweiten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem des bevorzugten Ausführungsbeispiels ist eine Modifizierung des Sprachcodiersystems des ersten Ausführungsbeispiels von Fig. 1 und unterscheidet sich von dem letzteren nur durch ein Signal, das verwendet wird, um einen Korrelationswert zu berechnen. Insbesondere berechnet in dem Sprachcodiersystem des vorliegenden Ausführungsbeispiels ein Umkehrfilter 125, das als Umkehrfilter für ein Synthesefilter dient, welches durch eine LPC-Analyse gewonnen wurde, ein Voraussage-Restsignal aus einem Signal, das von dem Datenblock-Teiler 120 empfangen wurde, und der Korrelationsrechner 140 berechnet die Korrelationswerte zwischen dem Voraussage-Restsignal und dem Anregungssignal der früheren Teil-Datenblöcke, d. h., bereitgestellte Signale aus einer Summe von Signalen des lernfähigen Codebuchs und des Anregungs- Codebuchs. Entsprechend wird das für die Teil-Datenblöcke berechnete und für die Berechnung eines Korrelationswerts notwendige Anregungssignal in eine Puffereinrichtung 135 eingespeichert.
  • Nun zu Fig. 3, in der ein Sprachcodiersystem gemäß einem dritten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Das Sprachcodiersystem des vorliegenden Ausführungsbeispiels besitzt eine andere Modifizierung als das Sprachcodiersystem des ersten Ausführungsbeispiels von Fig. 1 und unterscheidet sich von dem letzteren nur durch ein Signal, das zur Berechnung eines Korrelationswertes verwendet wird. Insbesondere berechnet in dem Sprachcodiersystem des vorliegenden Ausführungsbeispiels das Umkehrfilter 125 ein Voraussage- Restsignal eines momentanen Teil-Datenblocks, und der Korrelationsrechner 140 berechnet Korrelationswerte zwischen dem Voraussage-Restsignal des momentanen Teil-Datenblocks und Voraussage-Restsignale der früheren Teil-Datenblöcke. Entsprechend werden für die Teil-Datenblöcke berechnete Restsignale in die Puffereinrichtung 135 eingespeichert.
  • Nachdem Kandidaten mit ganzzahliger Laufzeit durch irgendeines der Sprachcodiersysteme des ersten bis dritten oben beschriebenen Ausführungsbeispiels ermittelt worden sind, wird durch eine Mehrphasenfilterung für einige Vor- und Nachabtastungen des Kandidaten für jeden der Kandidaten eine Teil- Laufzeit berechnet. In diesem Fall wird eine solche Teil-Laufzeit nicht maßgebend festgelegt, aber eine Vielzahl unterschiedlicher Kandidaten mit Teil-Laufzeit wird temporär ermittelt. Dann wird das Anregungs-Codebuch nach einem optimalen Anregungssignal für jeden der Kandidaten mit Teil-Laufzeit abgesucht, und es wird unter Verwendung jedes auf diese Weise teilweise verzögerten, ausgewählten Anregungssignals ein Signal rekonstruiert. Dann wird für jede der Teil-Laufzeiten die Verfälschung zwischen der Eingangssprache und dem rekonstruierten Signal gefunden und eine Kombination einer Teil-Laufzeit und einem Anregungssignal des Anregungs-Codebuchs, das die Verfälschung auf ein Minimum reduziert, ausgegeben.
  • Es können zu den Sprachcodiersystemen der oben beschriebenen Ausführungsbeispiele verschiedene Modifikationen erstellt werden. Obgleich eine Teil-Laufzeit des lernfähigen Codebuchs und ein Anregungssignal des Anregungs-Codebuchs für jeden Teil- Datenblock maßgebend ermittelt werden, müssen diese z. B. nicht für jeden Teil-Datenblock maßgebend ermittelt werden. Z. B. können sie so ermittelt werden, daß eine Vielzahl von Kandidaten erst in der Größenordnung der geringsten Verfälschung für jeden Teil-Datenblock berechnet werden, und dann werden solche Kandidaten für den Datenblock gesammelt, um eine akkumulierte Verfälschung für den ganzen Datenblock herauszufinden, wonach eine Kombination einer Teil-Laufzeit des lernfähigen Codebuchs und eines Anregungssignals des Anregungs-Codebuchs, das die akkumulierte Verfälschung des ganzen Datenblocks auf ein Minimum reduziert, gewählt wird.
  • Nachdem die Erfindung nun vollständig beschrieben wurde, wird es für den Fachmann offensichtlich sein, daß viele Änderungen und Modifizierungen dazu durchgeführt werden können, ohne von dem Schutzumfang der durch die anhängenden Patentanspruche festgelegten Erfindung abzuweichen.

Claims (7)

1. Sprachcodiersystem mit:
einer Einrichtung (110) zum Speichern eines Sprachsignals darin;
einer Einrichtung (120) zum Teilen des Sprachsignals in eine Vielzahl von Teil-Datenblöcken;
einer Einrichtung (210) zum Analysieren des Sprachsignals;
einer Einrichtung (130) zum Wahrnehmungsbewerten des Sprachsignals;
einer Einrichtung (140) zum Berechnen von Korrelationswerten;
einer Einrichtung (150) zum Finden einer Vielzahl von Kandidaten mit ganzzahliger Laufzeit gemäß den Korrelationswerten;
einer Einrichtung (180) zum Ermitteln einer Teil-Laufzeit für jeden der Kandidaten durch Mehrphasenfilterung von früheren Anregungssignalen für einen Bereich einiger Vor- und Nachabtastungen jedes Laufzeitkandidaten mit ganzzahligem Wert;
Einrichtungen (190, 200) zum Rekonstruieren eines Signals und zum Ableiten eines optimalen Anregungssignals von einem Anregungs-Codebuch, das mit der Teil-Laufzeit kombiniert die Verfälschung zwischen der Eingabesprache und dem rekonstruierten Signal auf ein Minimum reduziert.
2. System nach Anspruch 1, wobei die Einrichtung zum Berechnen von Korrelationswerten Korrelationen zwischen dem bewerteten Signal des momentanen Teil-Datenblocks und den früher bewerteten Signalen berechnet.
3. System nach Anspruch 1, wobei die Einrichtung zum Berechnen von Korrelationswerten folgendes aufweist:
eine Einrichtung zum Berechnen eines Voraussage-Restsignals aus dem Sprachsignal;
eine Einrichtung zum Berechnen der Korrelationswerte zwischen dem Voraussage-Restsignal und einem früheren Anregungssignal.
4. System nach Anspruch 1, wobei die Einrichtung zum Berechnen von Korrelationswerten folgendes aufweist:
eine Einrichtung zum Berechnen eines Voraussage-Restsignals aus dem Sprachsignal;
eine Einrichtung zum Berechnen der Korrelationswerte zwischen dem Voraussage-Restsignal des momentanen Teil-Datenblocks und Voraussage-Restsignalen von früheren Teil-Datenblöcken.
5. System nach Anspruch 1, wobei das System zusätzlich ein Umkehrfilter (125) zum Berechnen eines Voraussage-Restsignals aus dem Sprachsignal umfaßt und die Korrelationsberechnungs- Einrichtung (140) Korrelationswerte zwischen dem Voraussage- Restsignal und einem früheren Anregungssignal berechnet.
6. System nach Anspruch 1, wobei das System zusätzlich ein Umkehrfilter (125) zum Berechnen eines Voraussage-Restsignals aus dem Sprachsignal beinhaltet und die Korrelationsberechnungs-Einrichtung (140) Korrelationswerte zwischen dem Voraussage-Restsignal in dem momentanen Teil-Datenblock und ein früheres Anregungssignal berechnet.
7. System nach irgendeinem der Ansprüche 1 bis 6, wobei die Ermittlungseinrichtung eine Vielzahl von Teil-Laufzeiten für jeden aus der Vielzahl der Kandidaten mit ganzzahliger Laufzeit gemäß dem früheren Anregungssignal ermittelt und die Ableitungseinrichtung ein optimales Anregungssignal aus dem Anregungs-Codebuch gemäß jeder der Teil-Laufzeiten ableitet, um ein Signal zu rekonstruieren, und eine Teil-Laufzeit und ein Anregungssignal auswählt, welche die Verfälschung zwischen dem Sprachsignal und dem rekonstruierten Signal auf ein Minimum reduzieren.
DE69223335T 1991-02-26 1992-02-25 Sprachkodiersystem Expired - Lifetime DE69223335T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10326291A JP3254687B2 (ja) 1991-02-26 1991-02-26 音声符号化方式

Publications (2)

Publication Number Publication Date
DE69223335D1 DE69223335D1 (de) 1998-01-15
DE69223335T2 true DE69223335T2 (de) 1998-03-26

Family

ID=14349524

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69223335T Expired - Lifetime DE69223335T2 (de) 1991-02-26 1992-02-25 Sprachkodiersystem

Country Status (5)

Country Link
US (1) US5426718A (de)
EP (1) EP0501421B1 (de)
JP (1) JP3254687B2 (de)
CA (1) CA2061830C (de)
DE (1) DE69223335T2 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
JP2800618B2 (ja) * 1993-02-09 1998-09-21 日本電気株式会社 音声パラメータ符号化方式
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
JP2655046B2 (ja) * 1993-09-13 1997-09-17 日本電気株式会社 ベクトル量子化装置
JP3087591B2 (ja) * 1994-12-27 2000-09-11 日本電気株式会社 音声符号化装置
JPH08292797A (ja) * 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
JP3308764B2 (ja) * 1995-05-31 2002-07-29 日本電気株式会社 音声符号化装置
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
TW317051B (de) * 1996-02-15 1997-10-01 Philips Electronics Nv
CA2218217C (en) * 1996-02-15 2004-12-07 Philips Electronics N.V. Reduced complexity signal transmission system
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
KR100366700B1 (ko) * 1996-10-31 2003-02-19 삼성전자 주식회사 코드여기 선형 예측 부호화에 있어서 상관함수에 기초한 적응 코드북 탐색방법
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
US4441201A (en) * 1980-02-04 1984-04-03 Texas Instruments Incorporated Speech synthesis system utilizing variable frame rate
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
EP0331857B1 (de) * 1988-03-08 1992-05-20 International Business Machines Corporation Verfahren und Einrichtung zur Sprachkodierung mit niedriger Datenrate
GB8806185D0 (en) * 1988-03-16 1988-04-13 Univ Surrey Speech coding
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
EP0392126B1 (de) * 1989-04-11 1994-07-20 International Business Machines Corporation Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer

Also Published As

Publication number Publication date
EP0501421A3 (en) 1993-03-31
EP0501421B1 (de) 1997-12-03
CA2061830A1 (en) 1992-08-27
US5426718A (en) 1995-06-20
JP3254687B2 (ja) 2002-02-12
EP0501421A2 (de) 1992-09-02
JPH04270398A (ja) 1992-09-25
CA2061830C (en) 1996-10-29
DE69223335D1 (de) 1998-01-15

Similar Documents

Publication Publication Date Title
DE69223335T2 (de) Sprachkodiersystem
DE69420431T2 (de) Sprachkodierungssystem
DE69232892T2 (de) Sprachkodierungssystem
DE69032551T2 (de) Einrichtung zur Sprachkodierung
DE69214969T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69227401T2 (de) Verfahren zum Kodieren und Dekodieren von Sprachsignalen
DE69328450T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60308567T2 (de) Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69718234T2 (de) Sprachkodierer
DE69636209T2 (de) Vorrichtung zur Sprachkodierung
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE69126062T2 (de) System zur Sprachcodierung und -decodierung
DE69610915T2 (de) Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE69727256T2 (de) Sprachkodierer hoher Qualität mit niedriger Bitrate
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
DE69420683T2 (de) Kodierer für Sprachparameter
DE69921066T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69523032T2 (de) Vorrichtung und Verfahren zur Kodierung der Sprachgrundfrequenz
DE69228858T2 (de) Methode zur Sprachkodierung und Sprachkodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition