Nothing Special   »   [go: up one dir, main page]

DE102010040553A1 - Spracherkennungsverfahren - Google Patents

Spracherkennungsverfahren Download PDF

Info

Publication number
DE102010040553A1
DE102010040553A1 DE102010040553A DE102010040553A DE102010040553A1 DE 102010040553 A1 DE102010040553 A1 DE 102010040553A1 DE 102010040553 A DE102010040553 A DE 102010040553A DE 102010040553 A DE102010040553 A DE 102010040553A DE 102010040553 A1 DE102010040553 A1 DE 102010040553A1
Authority
DE
Germany
Prior art keywords
speech recognition
audio signal
audio signals
examined
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102010040553A
Other languages
English (en)
Inventor
Dr. Grundmann Hans-Jörg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Priority to DE102010040553A priority Critical patent/DE102010040553A1/de
Priority to US13/229,913 priority patent/US20120065968A1/en
Publication of DE102010040553A1 publication Critical patent/DE102010040553A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung geht aus von einem Spracherkennungsverfahren, bei dem aus einer Spracheingabe mehrerer Äußerungen zumindest eines Sprechers in ein Aufnahmesystem (10) mehrere Audiosignale (16) gewonnen werden, die Audiosignale (16) mit einem Spracherkennungsalgorithmus untersucht werden und zu jedem Audiosignal (16) ein Erkennungsergebnis (24) gewonnen wird. Zur zuverlässigen Erkennung von Schlüsselwörtern in einem Gespräch wird vorgeschlagen, dass bei der Untersuchung eines der Audiosignale (16) durch den Spracherkennungsalgorithmus ein Erkennungsergebnis (16) zu zumindest einem anderen Audiosignal (16) einbezogen wird.

Description

  • Die Erfindung betrifft ein Spracherkennungsverfahren, bei dem aus einer Spracheingabe mehrerer Äußerungen zumindest eines Sprechers in ein Aufnahmesystem mehrere Audiosignale gewonnen werden, die Audiosignale mit einem Spracherkennungsalgorithmus untersucht werden und zu jedem Audiosignal ein Erkennungsergebnis gewonnen wird.
  • Bei der Spracherkennung von ganzen Sätzen stellt die korrekte Abgrenzung einzelner Wörter innerhalb eines Satzes ein erhebliches Problem dar. Während in der Schriftsprache jedes Wort durch ein Leerzeichen von seinen beiden Nachbarn getrennt und somit gut zu erkennen ist, gehen benachbarte Wörter in der gesprochenen Sprache ineinander über, ohne dass sie akustisch getrennt voneinander zu hören sind. Vorgänge, die einen Menschen befähigen, den Sinn eines gesprochenen Satzes zu verstehen, wie eine Einordnung der gehörten Phoneme in einen Gesamtzusammenhang unter Berücksichtigung der Situation, in der sich der Sprecher befindet, lassen sich durch Computer nicht ohne weiteres durchführen.
  • Die Unsicherheiten bei der Segmentierung eines fließend gesprochenen Satzes in Phoneme schlagen auf eine mangelnde Qualität bei der Identifizierung vermeintlich erkannter Wörter durch. Auch wenn nur einzelne Wörter, wie Schlüsselwörter in einem Gespräch, erkannt werden sollen, führt eine falsche Segmentierung nachfolgende Grammatikalgorithmen oder auf Multi-Grammen basierende Statistiken in die Irre. Als Folge davon werden auch die Schlüsselwörter nicht oder nur schwer erkannt.
  • Das Problem wird durch starke Hintergrundgeräusche, die eine Segmentierung und eine Worterkennung weiter erschweren, noch verschärft. Ein darüber hinausgehendes Problem bilden so genannte unkooperative Sprecher. Während beim Diktieren in ein Spracherkennungssystem in der Regel kooperativ gesprochen wird, der Sprecher also sein Diktat möglichst so ausführt, dass die Spracherkennung erfolgreich ist, ist die Spracherkennung von Alltagssprache vor das Problem gestellt, dass häufig undeutlich, nicht in ganzen Sätzen oder in Umgangssprache gesprochen wird. Die Spracherkennung solcher unkooperativer Sprache stellt Sprecherkennungssysteme vor extreme Anforderungen.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Spracherkennung anzugeben, mit dem auch unter widrigen Umständen ein gutes Ergebnis erzielt wird.
  • Diese Aufgabe wird durch ein Spracherkennungsverfahren der eingangs genannten Art gelöst, bei dem erfindungsgemäß bei der Untersuchung eines der Audiosignale durch den Spracherkennungsalgorithmus ein Erkennungsergebnis aus zumindest einem anderen Audiosignal einbezogen wird.
  • Die Erfindung geht hierbei von der Überlegung aus, dass es zur Spracherkennung einer Äußerung mit einer ausreichenden Erkennungsqualität gerade bei nachteiligen Randbedingungen notwendig sein kann, ein oder mehrere Erkennungskriterien zu verwenden, deren Ergebnisse über die Erkennungsergebnisse hinausgehen, die aus der Äußerung an sich gewonnen werden können. Hierfür können Informationen außerhalb der eigentlichen Äußerung ausgewertet werden.
  • Eine solche zusätzliche Information kann aus der Annahme gewonnen werden, dass in einem Gespräch – jedenfalls über einen gewissen Zeitraum hinweg – ein einziges Thema verfolgt wird. Ein Thema ist in der Regel mit einem eingeschränkten Wortschatz verbunden, so dass sich der Sprecher, der sich zu diesem Thema äußert, dieses Wortschatzes bedient. Ist der Wortschatz aus einigen Äußerungen zumindest teilweise bekannt, kann den Wörtern dieses Wortschatzes bei der Spracherkennung nachfolgender Äußerungen eine größere Auftrittswahrscheinlichkeit zugemessen werden. Für die Spracherkennung einer Äußerung bzw. eines aus der Äußerung gewonnenen Audiosignals ist es daher hilfreich, ein Erkennungsergebnis von vorangegangenen Äußerungen zu berücksichtigen, die bereits durch den Spracherkennungsalgorithmus untersucht wurden, deren Worte also bekannt sind.
  • Eine Äußerung kann ein oder mehrere Zeichen, ein oder mehrere Worte, ein Satz oder ein Satzteil sein. Sie wird zweckmäßigerweise als Einheit von dem Spracherkennungsalgorithmus untersucht, also beispielsweise in mehrere Phoneme segmentiert, denen mehrere Worte zugewiesen werden, die die Äußerung bilden. Es ist jedoch auch möglich, dass eine Äußerung nur ein einziger Laut ist, der von einem Sprecher beispielsweise als integrale Aussage formuliert wurde, wie ein Laut für eine Bestätigung, eines Zweifels oder eines Gefühls. Kommt ein solcher Laut innerhalb mehrerer weiterer Äußerungen öfter vor, kann er nach der Untersuchung seines ersten Auftretens später wieder als solcher identifiziert werden. Bei mehrmaliger Identifikation kann seine semantische Bedeutung aus seinem Zusammenhang mit zeitlich umgebenden Äußerungen leichter erkannt werden.
  • Aus jeder Äußerung wird zweckmäßigerweise genau ein Audiosignal erzeugt, so dass eine eindeutige Zuordnung von Äußerung und Audiosignal besteht. Das Audiosignal kann ein kontinuierlicher Energiepuls sein oder einen solchen Darstellen, der aus der Äußerung gewonnen wurde. Ein Audiosignal kann beispielsweise mit einem Satzerkennungsalgorithmus segmentiert und auf Phoneme und/oder Wörter untersucht werden. Das Erkennungsergebnis des Spracherkennungsalgorithmus kann in Form einer Zeichenkette, z. B. eines Worts, gewonnen werden, so dass aus vorhergehenden und erkannten Wörtern auf ein Wort der gerade zu untersuchenden Äußerung geschlossen werden kann.
  • Der Spracherkennungsalgorithmus kann ein Computerprogramm oder ein Computerprogrammteil sein, das in der Lage ist, mehrere hintereinander und in einem Zusammenhang ausgesprochene Wörter in ihrem Zusammenhang zu erkennen und als Wörter bzw. Zeichenketten auszugeben.
  • Eine vorteilhafte Ausführungsform der Erfindung sieht vor, dass das Erkennungsergebnis des anderen Audiosignals als Zeichenkette vorliegt und zumindest ein Teil der Zeichenkette bei der Untersuchung des Audiosignals einbezogen wird. Liegt beispielsweise eine vom Spracherkennungsalgorithmus gebildete Kandidatenliste mit mehreren Kandidaten, z. B. Worten, vor, so kann ein Vergleich zwischen zumindest einem der Kandidaten und zuvor erkannten Zeichenketten erfolgen. Wird eine Übereinstimmung gefunden, kann ein Ergebniswert oder Glaubwürdigkeitswert des betreffenden Kandidaten verändert werden, z. B. erhöht werden.
  • Zweckmäßigerweise wird als Erkennungsergebnis verwendet, wie häufig eine Zeichenkette, z. B. ein Wort, innerhalb der anderen Audiosignale vorkommt. Je öfter ein Wort vorkommt, desto höher ist die Wahrscheinlichkeit, dass es erneut vorkommt. Entsprechend kann der Ergebniswert eines Kandidaten, der bereits zuvor mehrfach erkannt wurde entsprechend der Häufigkeit seines Auftretens verändert werden.
  • Bevor eine Kandidatenliste erstellt werden kann, ist eine Segmentierung des zu untersuchenden Audiosignals durchzuführen, z. B. in einzelne Phoneme. Bei undeutlicher Sprache stellt die Segmentierung bereits eine große Hürde dar. Zur Verbesserung der Segmentierung kann als Erkennungsergebnis zumindest eine Segmentierung aus einem anderen Audiosignal verwendet werden. Bereits untersuchte Audiosignale können auf Eigenschaften untersucht werden, z. B. von Schwingungen, die einer Eigenschaft des zu untersuchenden Audiosignals in vorgegebener Weise ähnlich sind. Bei in vorgegebener Weise hinreichender Eigenschaftsähnlichkeit kann ein Segmentierungsergebnis oder eine Segmentierungseigenschaft – im Folgenden vereinfacht als Segmentierung bezeichnet – übernommen werden.
  • Hinsichtlich einer zeitlichen Reihenfolge des zu untersuchenden Audiosignals zu den anderen Audiosignalen ist jede Reihenfolge möglich. Das zu untersuchende Audiosignal kann zu einer Äußerung gehören, die zumindest teilweise, insbesondere vollständig, zeitlich nach den Äußerungen gemacht wurde, die den anderen Audiosignalen zugeordnet sind. Es ist jedoch auch denkbar und vorteilhaft, wenn eine zweifelhafte Segmentierung oder ein anderes Erkennungsergebnis eines Audiosignals aufgrund eines Erkennungsergebnisses eines nachfolgenden Audiosignals korrigiert wird. Wird z. B. im Nachhinein festgestellt, dass in einer Kandidatenliste zuvor niedrig bewerteter Kandidat später häufig und mit hoher Gewichtung vorkommt, so kann die Erkennung des früheren Audiosignals korrigiert werden.
  • Weiter ist es vorteilhaft, wenn zur Untersuchung des Audiosignals Erkennungsergebnisse aus den anderen Audiosignalen nach Kriterien untersucht werden, die von einer Eigenschaft des zu untersuchenden Audiosignals abhängen. So kann z. B. eine Suche nach Wörtern mit ähnlichen klanglichen Eigenschaften erfolgen, um ein Wort des zu untersuchenden Audiosignals zu erkennen.
  • Insbesondere bei einem Dialog zweier Sprecher ist es sinnvoll, die Audiosignale mit Hilfe eines vorbestimmten Kriteriums in zumindest einen ersten und einen zweiten Sprachzug aufzuteilen, wobei zweckmäßigerweise der erste Sprachzug dem ersten Sprecher und der zweite Sprachzug dem zweiten Sprecher zugeordnet sind. Auf diese Weise kann dem ersten Sprecher das zu untersuchende Audiosignal und dem zweiten Sprecher die anderen Audiosignale zugewiesen werden. Die Sprachzüge können Kanäle sein, so dass jedem Sprecher während des Gesprächs – und damit allen seinen Äußerungen – jeweils ein Kanal zugeordnet wird. Dieses Vorgehen hat den Vorteil, dass weitgehend unabhängige Erkennungsergebnisse bei der Untersuchung des zu untersuchenden Audiosignals einbezogen werden können. So kann ein Wort, das einer der Sprecher spricht, leicht zu erkennen sein, wohingegen das gleiche Wort, vom zweiten Sprecher gesprochen, regelmäßig schwer zu erkennen ist. Ist bekannt, dass der erste Sprecher ein Wort oft verwendet, so ist die Wahrscheinlichkeit hoch, dass auch der zweite Sprecher das Wort verwendet, auch wenn es in einer Kandidatenliste nur ein schlechtes Ergebnis erzielt.
  • Besonders zuverlässig kann die Zuweisung der Audiosignale zu den Sprechern anhand von außerhalb der Spracherkennung liegenden Kriterien gewonnen werden. So hat das Aufnahmesystem bei einem Telefongespräch zwei der mehr Sprachempfänger, nämlich je ein Mikrofon in jedem der verwendeten Telefone, so dass die Audiosignals zuverlässig den Sprechern zugeordnet werden können.
  • Sind beispielsweise keine zuverlässigen und außerhalb der Spracherkennung liegenden Kriterien vorhanden, so kann die Zuweisung der Audiosignale anhand von klanglichen Kriterien mit Hilfe des Spracherkennungsalgorithmus erfolgen.
  • Eine weitere Ausführungsvariante der Erfindung sieht vor, dass das Erkennungsergebnis aus den anderen Audiosignalen nach einem vorbestimmten Kriterium gewichtet wird und sein Einbeziehen in die Untersuchung des zu untersuchenden Audiosignals in Abhängigkeit von der Gewichtung durchgeführt wird. So kann das Kriterium z. B. ein zeitlicher Zusammenhang zwischen dem zu untersuchenden und den anderen Audiosignalen sein. Eine Erkennungsergebnis einer Äußerung, die zeitlich nahe zu den zu untersuchenden steht, kann höher bewertet werden als ein lange zurückliegendes Erkennungsergebnis.
  • Ebenfalls ist es möglich und vorteilhaft, wenn das Kriterium ein inhaltlicher Zusammenhang zwischen dem zu untersuchenden und den anderen Audiosignalen ist. Der inhaltliche Zusammenhang kann ein semantischer Zusammenhang zwischen Äußerungen sein, z. B. eine Gleichbedeutung oder ähnliche Bedeutung eines Kandidaten mit einem zuvor oft erkannten Wort.
  • Ein weiteres vorteilhaftes Kriterium ist eine Intonation in einem der Audiosignale. Wird eine Äußerung mit besonderem Pathos gesprochen, kann ein Audiosignal, zu dem ein ähnliches Pathos erkannt wurde, besonders gründlich mit dem Erkennungsergebnis der pathetischen Äußerung verglichen werden. Die Intonation kann im zu untersuchenden und/oder den anderen Audiosignalen vorliegen.
  • Außerdem ist die Erfindung gerichtet auf eine Spracherkennungsvorrichtung mit einem Aufnahmesystem, einem Speichermedium, auf dem ein Spracherkennungsalgorithmus hinterlegt ist, und einem Prozessmittel, das einen Zugriff auf das Speichermedium hat und dazu vorbereitet ist, aus einer Spracheingabe mehrerer Äußerungen zumindest eines Sprechers mehrere Audiosignale zu gewinnen und die Audiosignale mit dem Spracherkennungsalgorithmus zu untersuchen und zu jedem Audiosignal ein Erkennungsergebnis zu gewinnen
  • Es wird vorgeschlagen, dass der Spracherkennungsalgorithmus erfindungsgemäß dazu ausgeführt ist, bei der Untersuchung eines der Audiosignale ein Erkennungsergebnis aus zumindest einem anderen Audiosignal einzubeziehen.
  • Die Erfindung wird anhand von Ausführungsbeispielen näher erläutert, die in den Zeichnungen dargestellt sind.
  • Es zeigen:
  • 1 ein Schema einer Spracherkennungsvorrichtung mit einem Prozessmittel und Datenspeichern,
  • 2 ein Übersichtsschema, das die Segmentierung einer Äußerung durch zwei Spracherkennungseinrichtungen darstellt,
  • 3 ein Schema einer Kandidatenliste und einer Vergleichsliste bereits erkannter Wörter,
  • 4 ein Schema einer Kandidatenliste und zwei Vergleichslisten aus unterschiedlichen Sprachkanälen,
  • 5 ein Schema zur Darstellung einer nachträglichen Korrektur von Kandidatenbewertungen einer Kandidatenliste und
  • 6 ein Schema mit einer Synonyme beinhaltenden Vergleichsliste.
  • 1 zeigt eine stark vereinfachte Darstellung einer Spracherkennungsvorrichtung 2 mit einem Prozessmittel 4, zwei Speichermedien 6, 8 und einem Aufnahmesystem 10. Das Speichermedium 6 enthält ein Spracherkennungsalgorithmus in Form eines Datenverarbeitungsprogramms, das mehrere Unteralgorithmen enthalten kann, z. B. einen Segmentieralgorithmus, einen Worterkennungsalgorithmus und einen Satzerkennungsalgorithmus. Das Speichermedium 8 enthält eine Datenbank, in der Erkennungsergebnisse der durch das Prozessmittel 4 durchgeführten Spracherkennung abgelegt werden, wie Audiosignale, Segmentierungen, erkannte Zeichen, Worte und Wortfolgen.
  • Das Aufnahmesystem 10 umfasst ein oder mehrere Mikrofone zur Aufnahme und Aufzeichnung von Äußerungen von einem oder mehreren Sprechern. Die Umwandlung der Äußerungen in analoge oder binäre Audiosignale erfolgt durch das Prozessmittel 4, das an das Aufnahmesystem 10 mittels einer Datenübertragungsverbindung angeschlossen ist. Ein fließender Sprachstrom wird vom Prozessmittel 4 in eine Mehrzahl von Audiosignalen umgewandelt, wobei die Umwandlung nach vorgegebenen Kriterien erfolgt, z. B. nach zulässigen Längenbereichen der Audiosignale, Sprechpausen und dergleichen. Aus den Audiosignalen erstellt das Prozessmittel 4 für jedes ermittelte Wort oder für Wortfolgen der Äußerungen jeweils eine Kandidatenliste 12 möglicher Wortkandidaten oder Wortfolgekandidaten.
  • 2 zeigt ein Ausführungsbeispiel, in dem Äußerungen von zwei miteinander telefonierenden Sprechern der Spracherkennungsvorrichtung 2 zugeführt werden. Entsprechend umfasst das Aufnahmesystem 10 zwei Mobiltelefone 14, z. B. in verschiedenen Ländern, wobei einer der Sprecher in das eine und der andere Sprecher in das andere Mobiltelefon 14 spricht. Jedes der Mobiltelefone 14 wandelt die Äußerungen seines Sprechers in Audiosignale um, die dem in 2 nicht dargestellten Prozessmittel 4 direkt oder in Form einer Aufzeichnung später zugeführt werden. Das Prozessmittel 4 verwendet die Audiosignale direkt oder wandelt sie in andere, für die Spracherkennung geeignetere Audiosignale 16 um, von denen eines in 2 schematisch dargestellt ist.
  • Das Audiosignal 16 wird einem Spracherkennungssystem 18 zugeführt, das aus zwei Spracherkennungseinheiten 18A, 18B besteht. Das Audiosignal 14 wird hierbei jeder der Spracherkennungseinheiten 18A, 18B in identischer Form zugeführt, sodass es durch die Spracherkennungseinheiten 18A, 18B unabhängig voneinander bearbeitet wird. Die beiden Spracherkennungseinheiten 18A, 18B arbeiten hierbei nach unterschiedlichen Satzerkennungsalgorithmen, die auf unterschiedlichen Verarbeitungs- bzw. Analysemethoden beruhen. Die Spracherkennungseinheiten 18A, 18B sind insofern unterschiedliche Produkte, die von unterschiedlichen Firmen entwickelt sein können. Sie sind beides Einheiten zur Erkennung kontinuierlicher Sprache und beinhalten jeweils einen Segmentierungsalgorithmus, einen Worterkennungsalgorithmus und einen Satzerkennungsalgorithmus, die in mehreren aufeinander aufbauenden Verfahrensschritten arbeiten. Der Algorithmen sind Teil des Spracherkennungsalgorithmus.
  • In einem Verfahrensschritt wird das Audiosignal 16 auf hintereinander abfolgende Wort- oder Phonem-Bestandteile untersucht und entsprechend segmentiert. Der Segmentierungsalgorithmus vergleicht in einem Segmentierungsverfahren vorab definierte Phoneme mit Energiemodulationen und Frequenzcharakteristiken des Audiosignals 16. Bei diesem Verarbeiten des Audiosignals 16 und dem Zuordnen von Phonemen zu Signalsequenzen setzt der Satzerkennungsalgorithmus Phoneme-Ketten zusammen, die iterativ mit Vokabeleinträgen in einem oder mehreren Wörterbüchern verglichen werden, die im Speichermedium 6 abgelegt sind, um mögliche Worte zu finden, die somit Segmentgrenzen im Kontinuum des Audiosignals 16 festlegen, so dass hierdurch die Segmentierung stattfindet. Die Segmentierung beinhaltet hierdurch bereits eine Worterkennung, durch deren Hilfe die Segmentierung erfolgt.
  • Die Segmentierung wird von jeder Spracherkennungseinheit 18A, 18B separat und unabhängig von der jeweils anderen Spracherkennungseinheit 18B, 18A durchgeführt. Hierbei bildet die Spracherkennungseinheit 18A – ebenso wie die Spracherkennungseinheit 18B – eine Vielzahl von möglichen Segmentierungen SAi, die jeweils mit einem Ergebniswert 20 versehen sind. Der Ergebniswert 20 ist ein Maß der Wahrscheinlichkeit für ein korrektes Ergebnis. Die Ergebniswerte 20 werden in der Regel normiert, da die unterschiedlichen Spracherkennungseinheiten 18A, 18B eine unterschiedliche Spanne für ihre Ergebniswerte 20 verwenden. In den Figuren sind die Ergebniswerte 20 normiert dargestellt.
  • Die Segmentierungen SAi mit den höchsten Ergebniswerten 20 werden in einer Kandidatenliste EA zusammengefasst, die mehrere Kandidaten EAi enthält. Im dargestellten Ausführungsbeispiel erzeugt jede Spracherkennungseinheit 18A, 18B jeweils eine Kandidatenliste EA bzw. EB mit jeweils drei Kandidaten. Jedem Kandidat EAi liegt eine Segmentierung SAi bzw. SBi zugrunde, so dass als Ergebnis sechs Kandidaten mit sechs – ggf. verschiedenen – Segmentierungen SAi, SBi vorliegen. Jeder Kandidat enthält neben dem Ergebniswert 20 ein Ergebnis, das aus Zeichenketten aufgebaut ist, die Wörter sein können. Diese Wörter werden im Segmentierungsverfahren gebildet.
  • In jeder Segmentierung SAi, SBi wird das Audiosignal 16 in mehrere Segmente SAi,i, SBi,i eingeteilt. Bei dem in 2 dargestellten Ausführungsbeispiel haben die Segmentierungen SAi, SBi allermeist drei Segmente SAi,i, SBi,i. Es ist jedoch möglich, dass die Segmentierungen noch größere Unterschiede aufweisen.
  • Die Ergebnisse der Segmentierung sind Wortketten aus mehreren Worten, die anschließend mittels Hidden-Markov-Prozessen, Multigramstatistiken, Grammatikprüfungen und dergleichen bearbeitet werden können, bis schließlich als Ergebnis zu beispielsweise jedem Audiosignal eine Kandidatenliste 12 mit mehreren möglichen Kandidaten 22 erstellt ist. Solche Kandidatenlisten 22 sind in 3 bis 6 dargestellt. Die Kandidatenlisten 22 enthalten in den dargestellten Ausführungsbeispielen jeweils vier Kandidaten 22, wobei auch Kandidatenlisten mit mehr oder weniger Kandidaten möglich und sinnvoll sind. Jedem Kandidat 22 ist ein Ergebniswert 24 zugewiesen, der eine berechnete Wahrscheinlichkeit der Übereinstimmung des Kandidaten 22 mit der zugeordneten Äußerung wiedergibt. Der höchste Ergebniswert 24 gibt die höchste Wahrscheinlichkeit der korrekten Spracherkennung der Äußerung wieder. Die Kandidaten 22 bilden jeweils ein Erkennungsergebnis der Spracherkennung und können jeweils ein Phonem, ein Wort, eine Wortkette, ein Satz oder dergleichen sein. Die Ergebniswerte 24 bilden ebenfalls jeweils ein Erkennungsergebnis.
  • 3 zeigt ein erstes Ausführungsbeispiel der Erfindung, bei dem das Prozessmittel 4 aus einem Audiosignal 16 einer Äußerung innerhalb eines Gesprächs zweier Sprecher eine Kandidatenliste 12 mit vier Kandidaten 22 erstellt hat, deren Ergebniswert 24 alle unter einem Schwellwert liegen, beispielsweise unter 3000. Die Wahrscheinlichkeit der korrekten Spracherkennung sei somit nicht ausreichend hoch. Hierdurch werden ein oder mehrere Verfahrensschritte ausgelöst, die zu 3 bis 6 beschrieben sind, wobei diese Verfahrensschritte auch stets zusätzlich zu der vorangehend beschriebenen Spracherkennung durchgeführt werden können, also auch dann, wenn ein Ergebniswert zumindest des besten Kandidaten 22 über dem Schwellwert liegt.
  • Ein solcher Verfahrensschritt beinhaltet, dass die Datenbank des Speichermediums 8 daraufhin untersucht wird, ob sie mit den Kandidaten 22 der Kandidatenliste 12 übereinstimmende Einträge aufweist. Wurde beispielsweise ein Wort in dem Gespräch bereits einmal oder mehrfach ausgesprochen, so ist es – eine korrekte Spracherkennung des Worts jeweils vorausgesetzt – in der Datenbank als Erkennungsergebnis, in diesem Fall als korrekt erachteter Kandidat von vorhergehend untersuchten Audiosignalen, abgelegt. Jedes Erkennungsergebnis ist mit einer Zeitangabe 26 versehen, die sich auf einen vorgegebenen Initialzeitpunkt beziehen kann, z. B. den Anfang des Gesprächs oder den zeitlichen Abstand vom gerade zu untersuchenden Audiosignal, wobei die Zeitangabe dann variabel ist.
  • In dem dargestellten Ausführungsbeispiel wird zu Kandidat A mit dem höchsten Ergebniswert 24 kein früheres Erkennungsergebnis gefunden, zu Kandidat B vier, zu Kandidat C keins und zu Kandidat D ein früheres Erkennungsergebnis. Die früheren Erkennungsergebnisse liegen 21 Sekunden, 24 Sekunden usw. vor dem Aufzeichnungsbeginn der Äußerung des zu untersuchenden Audiosignals 16.
  • Unter Beachtung der früheren Erkennungsergebnisse ergibt sich eine gewisse Wahrscheinlichkeit, dass Kandidat B der korrekte Kandidat ist, da er bereits mehrfach im Gespräch gefallen ist. Diese zusätzliche Wahrscheinlichkeit wird mit dem Ergebniswert 24 des Kandidaten B mathematisch verrechnet, z. B. addiert, so dass das Gesamtergebnis des Kandidaten B ggf. über dem Schwellwert liegt und als akzeptabel gewertet wird. Bei der Berechnung der Wahrscheinlichkeit für einen Kandidaten 22 kann der Ergebniswert der früher erkannten Wörter einbezogen werden. Wenn ein früher erkanntes Wort einen hohen Wahrscheinlichkeitswert hat, ist es vermutlich korrekt erkannt worden, so dass eine Übereinstimmung mit dem entsprechenden Kandidaten 22 ein gutes Indiz für die Korrektheit des Kandidaten 22 ist.
  • Anhand der Zeitangabe 26 kann die Verwendung der gefundenen Treffer gewichtet werden. So ist beispielsweise die Gewichtung so, dass je größer die Zeit ist, desto geringer die Gewichtung ist, da eine zeitliche Nähe von Treffern in der Datenbank die Wahrscheinlichkeit der Korrektheit eines Kandidaten 22 erhöht.
  • Eine weitere oder zusätzliche Möglichkeit ist in 4 gezeigt. Das Gespräch wird in zwei Sprachzüge eingeteilt, in diesem Ausführungsbeispiel zwei Kanäle CH1, CH2, wobei den Äußerungen des einen Sprechers ein Kanal CH1 und den Äußerungen des anderen Sprechers der andere Kanal CH2 zugewiesen wird. Die Kanalzuweisung ist in diesem Fall einfach, da er durch die Mobiltelefone vorgenommen wird, die die Äußerungen getrennt aufnehmen. In anderen Fällen kann eine Klangeigenschaft der Äußerungen zur Aufteilung in die Sprachzüge verwendet werden, z. B. eine Klangfarbe oder eine Tonhöhe, so dass mehrere Sprecher unterschieden werden können.
  • Wie zu 3 beschrieben, werden die Kandidaten 22 auf Vorhandensein in der Datenbank überprüft. Die Kandidaten 22 wurden aus einer Äußerung des Sprechers ermittelt, dem Kanal CH1 zugewiesen wurde. Dieser Sprecher hat das zu den Kandidaten 22 gehörende Wort im Gespräch zu ersten Mal erwähnt, es taucht in der ihm zugewiesenen Datenbank des ersten Kanals nicht auf. Allerdings taucht Kandidat C unter den vom anderen Sprecher gebrauchten Worten zweimal auf, nämlich zwei und acht Sekunden bevor der erste Sprecher das durch den Kandidaten C wiedergegebene Wort ausgesprochen hat. Das Vorhandensein dieses Worts im zweiten Kanal, zumal mit sehr kurzem Zeitabstand von wenigen Sekunden ist ein starkes Indiz, dass der Sprecher des Kanals CH1 das Wort wiederholt bzw. ebenfalls verwendet hat, das in Kanal CH2 kurz zuvor fiel. Entsprechend werden die Wahrscheinlichkeiten verrechnet, wie zu 3 erläutert.
  • Sollte einer der Kandidaten 22, z. B. Kandidat A, in Kanal CH1 bzw. dessen Datenbank bzw. Datenbankteil ebenfalls vorhanden sein, so stehen sich die Ergebnisse aus beiden Kanälen CH1, CH2 entgegen. In diesem Fall ist neben der Zeitangabe auch die Tatsache von Bedeutung, in welchem Kanal ein Kandidat 22 zuvor fiel. Hierbei kann dem Sprachzug bzw. Kanal eine niedrigere Gewichtung gegeben werden, der zu dem Sprecher gehört, dessen Audiosignal zu untersuchen ist. Dem oder den anderen Sprachzügen bzw. Kanälen, im Ausführungsbeispiel Kanal CH2, wird eine höhere Gewichtung gegeben. Dieses Vorgehen liegt in der Erfahrung begründet, dass ein schlecht zu erkennendes Wort eines Sprechers zuvor wahrscheinlich auch schlecht zu verstehen ist, weshalb die Fehlerquote einer falschen Erkennung höher ist. Die Verwendung von Informationen aus dem gleichen Kanal erhöht somit die Gefahr, Einzelfehler zu systematischen Fehlern zu machen. Die Information aus dem oder den anderen Kanälen hingegen ist unabhängige Information, die eine Fehlerwahrscheinlichkeit nicht erhöht.
  • 5 zeigt ein Ausführungsbeispiel, bei dem ein Wort nachträglich korrigiert wird. Ergibt beispielsweise das Verfahren aus 3 oder aus 4 keine weiterführende und die Wahrscheinlichkeit erhöhende Information, so kann das Audiosignal 16 später erneut dem Spracherkennungsalgorithmus zugeführt werden. Nun kann die Datenbank nicht nur auf in Bezug zu den Kandidaten 22 vorhergehende Äußerungen untersucht werden, sondern es können auch Wiederholungen berücksichtigt werden.
  • In 5 ist dargestellt, dass das Wort des Kandidaten B eine Sekunde später nochmals fiel und vier und 15 Sekunden ein zweites und drittes Mal. Kandidat C wurde 47 Sekunden zuvor ausgesprochen. Dieses Ergebnis erhöht die Wahrscheinlichkeit für Kandidat B deutlich, da anzunehmen ist, dass das ihm zugeordnete Wort mehrere Male kurz hintereinander fiel. Der Treffer zu Kandidat C wird nicht verwendet, da er zeitlich zu weit entfernt vom zu untersuchenden Audiosignal 16 liegt.
  • Eine Einbeziehung von Synonymen ist in 6 dargestellt. Die Datenbank aus dem Speichermedium 8 enthält hierbei eine Synonymliste zu einer Vielzahl von Wörtern. Die Synonyme können in einem einfachen Thesaurus-Verfahren gefunden werden, es wird also nach üblichen, gleiches bedeutenden oder ähnliches bedeutenden Wörtern einer Sprache gesucht. Eine Erweiterung dieses Verfahrensschritts beinhaltet, dass auch umgangssprachliche Synonyme aufgelistet werden, beispielsweise Kohle, Mäuse, Flöhe zu „Geld”. Eine noch weitere Ergänzung beinhaltet solche Worte, die einschlägig aus Fachkreisen bekannt sind, also nicht zum allgemeinen Sprachschatz gehören, sondern nur in den einzelnen Fachkreisen bekannt sind, wobei auch Synonymwörterbücher aus zwielichten „Fachkreisen” Verwendung finden können. Eine andere Erweiterung sieht vor, dass Dialektsynonyme verwendet werden, also Wörter aus verschiedenen Dialekten einer Sprache, die Gleiches oder Ähnliches bedeuten wie das Stammwort, zu dem die Synonyme gesucht werden.
  • In 6 werden unter Einbeziehung der Synonyme zu Kandidat B zwei Einträge gefunden, die sieben und 16 Sekunden zuvor verwendet wurden. Da das hinter den Synonymen jeweils das gleiche Wort steht, also zweimal das gleiche Wort bzw. Synonym gefunden wurde, ist ein mit der mittleren Zahl angegebener Ähnlichkeitswert, in diesem Fall die Zahl 12, für beide gefundenen – und gleichen Worte – gleich. Werden verschiedene Synonyme gefunden, kann der Ähnlichkeitswert Aufschluss geben, wie nah – und damit wie wahrscheinlich – die Synonyme zum zu prüfenden Kandidaten sind. Auch in diesem Ausführungsbeispiel erhöhen die Treffer in der Datenbank die Erkennungswahrscheinlichkeit des betreffenden Kandidaten, in diesem Fall des Kandidaten B.
  • Alternativ oder zusätzlich zu den hier beschriebenen Wort- oder Zeichenkettenvergleichen ist es insbesondere bei einer Zweikanalauswertung vorteilhaft, ein anderes Kriterium eines Audiosignals auszuwerten, z. B. eine Intonation eines Audiosignals. Hierbei bestehen mehrere Möglichkeiten, die alternativ oder gemeinsam durchgeführt werden können. Zunächst kann die Intonation des zu untersuchenden Audiosignals ausgewertet werden, also des Audiosignals, aus der die Kandidatenliste erzeugt wurde. Eine Intonation, die einen oder mehrere der Parameter Stimmhöhe, Stimmlautstärke, verstärktes Verrauschen, z. B. durch eine belegte Stimme, sowie Schwankungen bzw. Veränderungen dieser Parameter umfassen kann, kann Aufschluss über einen Wortinhalt geben, z. B. die Verwendung eines Synonyms zur Vermeidung eines geheim zu haltenden Begriffs.
  • Während die Intonation des Sprechers selbstverständlich auf Zusatzinformation zur Spracherkennung überwacht werden kann, ist die Überwachung des anderen Sprachzugs bzw. Kanals mit dem Vorteil versehen, dass vom Sprecher unabhängige Information gewonnen werden kann. Denn wenn ein Sprecher durch monotones Sprechen keine Zusatzhinweise liefert, kann sein Gesprächspartner sehr wohl Intonationsinformationen liefern, insbesondere zu den Äußerungen, die kurz vor oder nach dem Zeitpunkt des Auftretens der Intonationsinformationen liegen.
  • Weiter kann ein inhaltlicher Zusammenhang zwischen dem zu untersuchenden und den anderen Audiosignalen untersucht und zu Gewichtungszwecken verwendet werden. Ist beispielsweise ein direkter semantischer Zusammenhang zwischen zwei Sprachzügen erkannt – dies kann durch einen Identitätsgrad des verwendeten Vokabulars geschehen – kann mit höherer Wahrscheinlichkeit angenommen werden, dass Treffer aus dem anderen Sprachzug die Wahrscheinlichkeit eines Kandidaten erhöht.
  • Je nach Eigenschaft des zu untersuchenden Audiosignals 16 können die Erkennungsergebnisse der übrigen Audiosignale, also die Datenbank, nach einem oder mehreren Kriterien untersucht werden. Bei Auftreten z. B. einer bestimmten Intonation können Erkennungsergebnisse mit einer ähnlichen Intonation untersucht werden, bei Auftreten charakteristischer Pausen zwischen Wörtern, entsprechende Audiosignale, uns so weiter.
  • Die beschriebenen Ausführungsformen können einzeln oder in einer beliebigen Kombination miteinander verwendet werden. Entsprechend liegen zu einem oder mehreren Kandidaten 22 jeweils mehrere Ergebniswerte vor. Die abschließende Wahrscheinlichkeit für einen Kandidaten bzw. eine Wortkombination aus mehreren Kandidaten 22, die dem Audiosignal 14 zugeordnet wird, kann eine Funktion dieser Ergebniswerte bzw. Wahrscheinlichkeiten sein. Die einfachste Funktion ist die Addition der einzelnen Ergebniswerte.
  • Entsprechend der zuvor beschriebenen Ausführungsbeispiele kann eine Datenbankabfrage zu anderen aus einem Audiosignal gewonnenen Ergebnissen durchgeführt werden. Ist beispielsweise eine Segmentierung mit einem schlechten Segmentierungsergebnis behaftet, so dass eine Segmentierung schwer durchzuführen ist, so kann nach ähnlichen Audiosignalen gesucht werden, insbesondere im anderen oder in anderen Sprachzügen, die einen Aufschluss über eine korrekte Segmentierung liefern können. Entsprechend können die Kandidaten 22 nicht ein Wort oder eine Zeichenkette sein, sondern andere Ergebnisse aus dem Audiosignal, wie z. B. ein Segmentierungsparameter oder dergleichen.
  • Bezugszeichenliste
  • 2
    Spracherkennungsvorrichtung
    4
    Prozessmittel
    6
    Speichermedium
    8
    Speichermedium
    10
    Aufnahmesystem
    12
    Kandidatenliste
    14
    Mobiltelefon
    16
    Audiosignal
    18
    Spracherkennungssystem
    20
    Ergebniswert
    22
    Kandidat
    24
    Ergebniswert
    26
    Zeitangabe
    EA
    Ergebnisliste
    EAi
    Ergebnis
    EB
    Ergebnisliste
    EBi
    Ergebnis
    SAi
    Segmentierung
    SAi,i
    Segment
    SBi
    Segmentierung
    SBi,i
    Segment

Claims (14)

  1. Spracherkennungsverfahren, bei dem aus einer Spracheingabe mehrerer Äußerungen zumindest eines Sprechers in ein Aufnahmesystem (10) mehrere Audiosignale (16) gewonnen werden, die Audiosignale (16) mit einem Spracherkennungsalgorithmus untersucht werden und zu jedem Audiosignal (16) ein Erkennungsergebnis (24) gewonnen wird, dadurch gekennzeichnet, dass bei der Untersuchung eines der Audiosignale (16) durch den Spracherkennungsalgorithmus ein Erkennungsergebnis (16) aus zumindest einem anderen Audiosignal (16) einbezogen wird.
  2. Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Erkennungsergebnis des anderen Audiosignals (16) als Zeichenkette vorliegt und zumindest ein Teil der Zeichenkette bei der Untersuchung des Audiosignals (16) einbezogen wird.
  3. Spracherkennungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass als Erkennungsergebnis verwendet wird, wie häufig eine Zeichenkette innerhalb der anderen Audiosignale vorkommt.
  4. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als Erkennungsergebnis zumindest eine Segmentierung aus einem anderen Audiosignal (16) ist.
  5. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das zu untersuchende Audiosignal (16) zumindest teilweise zeitlich hinter den anderen Audiosignalen (16) liegt.
  6. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Untersuchung des Audiosignals (16) Erkennungsergebnisse aus den anderen Audiosignalen (16) nach Kriterien untersucht werden, die von einer Eigenschaft des zu untersuchenden Audiosignals (16) abhängen.
  7. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Äußerungen von einem ersten und einem zweiten Sprecher stammen und dem ersten Sprecher das zu untersuchende Audiosignal (16) und dem zweiten Sprecher die anderen Audiosignale zugewiesen wird.
  8. Spracherkennungsverfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Zuweisung der Audiosignale (16) zu den Sprechern anhand von außerhalb der Spracherkennung liegenden Kriterien gewonnen wird.
  9. Spracherkennungsverfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Zuweisung der Audiosignale (16) anhand von klanglichen Kriterien mit Hilfe des Spracherkennungsalgorithmus gewonnen wird.
  10. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Erkennungsergebnis aus den anderen Audiosignalen nach einem vorbestimmten Kriterium gewichtet wird und sein Einbeziehen in die Untersuchung des zu untersuchenden Audiosignals (16) in Abhängigkeit von der Gewichtung durchgeführt wird.
  11. Spracherkennungsverfahren nach Anspruch 10, dadurch gekennzeichnet, dass das Kriterium ein zeitlicher Zusammenhang zwischen dem zu untersuchenden und den anderen Audiosignalen ist.
  12. Spracherkennungsverfahren nach Anspruch 10 oder 11, dadurch gekennzeichnet, dass das Kriterium ein inhaltlicher Zusammenhang zwischen dem zu untersuchenden und den anderen Audiosignalen (16) ist.
  13. Spracherkennungsverfahren nach einem der Ansprüche 10 bis 12, dadurch gekennzeichnet, dass das Kriterium eine Intonation in einem der Audiosignale (16) ist.
  14. Spracherkennungsvorrichtung mit einem Aufnahmesystem (10), einem Speichermedium (6), auf dem ein Spracherkennungsalgorithmus hinterlegt ist, und einem Prozessmittel (4), das einen Zugriff auf das Speichermedium (6) hat und dazu vorbereitet ist, aus einer Spracheingabe mehrerer Äußerungen zumindest eines Sprechers mehrere Audiosignale (16) zu gewinnen und die Audiosignale (16) mit dem Spracherkennungsalgorithmus zu untersuchen und zu jedem Audiosignal (16) ein Erkennungsergebnis zu gewinnen, dadurch gekennzeichnet, dass der Spracherkennungsalgorithmus dazu ausgeführt ist, bei der Untersuchung eines der Audiosignale (16) ein Erkennungsergebnis aus zumindest einem anderen Audiosignal (16) einzubeziehen.
DE102010040553A 2010-09-10 2010-09-10 Spracherkennungsverfahren Withdrawn DE102010040553A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102010040553A DE102010040553A1 (de) 2010-09-10 2010-09-10 Spracherkennungsverfahren
US13/229,913 US20120065968A1 (en) 2010-09-10 2011-09-12 Speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102010040553A DE102010040553A1 (de) 2010-09-10 2010-09-10 Spracherkennungsverfahren

Publications (1)

Publication Number Publication Date
DE102010040553A1 true DE102010040553A1 (de) 2012-03-15

Family

ID=45755848

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102010040553A Withdrawn DE102010040553A1 (de) 2010-09-10 2010-09-10 Spracherkennungsverfahren

Country Status (2)

Country Link
US (1) US20120065968A1 (de)
DE (1) DE102010040553A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014114845A1 (de) 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112014026148A2 (pt) * 2012-04-27 2018-05-08 Interactive Intelligence Inc método para a utilização de exemplos negativos de palavras em um sistema de reconhecimento de fala e sistema para identificação de exemplos negativos de palavras-chaves.
US9607137B2 (en) * 2013-12-17 2017-03-28 Lenovo (Singapore) Pte. Ltd. Verbal command processing based on speaker recognition
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
TWI697890B (zh) * 2018-10-12 2020-07-01 廣達電腦股份有限公司 語音校正系統及語音校正方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638425A (en) * 1992-12-17 1997-06-10 Bell Atlantic Network Services, Inc. Automated directory assistance system using word recognition and phoneme processing method
WO2001001389A2 (de) * 1999-06-24 2001-01-04 Siemens Aktiengesellschaft Verfahren und vorrichtung zur spracherkennung
DE69814589T2 (de) * 1997-01-30 2004-03-25 Dragon Systems Inc., Newton Spracherkennung unter verwendung mehrerer spracherkenner
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
DE102005059390A1 (de) * 2005-12-09 2007-06-14 Volkswagen Ag Spracherkennung im Kraftfahrzeug
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638425A (en) * 1992-12-17 1997-06-10 Bell Atlantic Network Services, Inc. Automated directory assistance system using word recognition and phoneme processing method
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
DE69814589T2 (de) * 1997-01-30 2004-03-25 Dragon Systems Inc., Newton Spracherkennung unter verwendung mehrerer spracherkenner
WO2001001389A2 (de) * 1999-06-24 2001-01-04 Siemens Aktiengesellschaft Verfahren und vorrichtung zur spracherkennung
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE102005059390A1 (de) * 2005-12-09 2007-06-14 Volkswagen Ag Spracherkennung im Kraftfahrzeug
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014114845A1 (de) 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
EP3010014A1 (de) 2014-10-14 2016-04-20 Deutsche Telekom AG Verfahren zur interpretation von automatischer spracherkennung

Also Published As

Publication number Publication date
US20120065968A1 (en) 2012-03-15

Similar Documents

Publication Publication Date Title
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69514382T2 (de) Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE3783154T2 (de) Spracherkennungssystem.
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69616568T2 (de) Mustererkennung
DE68924134T2 (de) Spracherkennungssystem.
DE10111056A1 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69819438T2 (de) Verfahren zur Spracherkennung
DE19510083A1 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE102010040553A1 (de) Spracherkennungsverfahren
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese

Legal Events

Date Code Title Description
R163 Identified publications notified
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130403