DE102019217751A1 - Method for operating a speech dialogue system and speech dialogue system - Google Patents
Method for operating a speech dialogue system and speech dialogue system Download PDFInfo
- Publication number
- DE102019217751A1 DE102019217751A1 DE102019217751.4A DE102019217751A DE102019217751A1 DE 102019217751 A1 DE102019217751 A1 DE 102019217751A1 DE 102019217751 A DE102019217751 A DE 102019217751A DE 102019217751 A1 DE102019217751 A1 DE 102019217751A1
- Authority
- DE
- Germany
- Prior art keywords
- output
- dialogue
- relevance
- response
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Bei dem Verfahren zum Betreiben eines Sprachdialogsystems, wird eine Spracheingabe erfasst, eine erste Antwortausgabe wird anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse erzeugt und eine zweite Antwortausgabe wird anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse erzeugt. Eine erste Relevanzwahrscheinlichkeit wird für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit wird für die zweite Antwortausgabe bestimmt und anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit wird eine Sprachausgabe erzeugt. Das Sprachdialogsystem umfasst eine Erfassungseinheit (2), die dazu eingerichtet ist, eine Spracheingabe zu erfassen, eine erste (4) und eine zweite Dialoganalyseeinheit (5), die dazu eingerichtet sind, anhand der Spracheingabe eine erste und eine zweite Antwortausgabe zu erzeugen, eine Steuereinheit (3), die dazu eingerichtet ist, eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe zu bestimmen, und eine Ausgabeeinheit (6), die dazu eingerichtet ist, anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit eine Sprachausgabe zu erzeugen. In the method for operating a voice dialog system, a voice input is recorded, a first response output is generated based on the voice input by means of a non-targeted dialog analysis, and a second response output is generated based on the voice input by means of a targeted dialog analysis. A first relevance probability is determined for the first answer output and a second relevance probability is determined for the second answer output, and a voice output is generated on the basis of the answer output with the highest relevance probability. The speech dialogue system comprises a detection unit (2) which is set up to detect a speech input, a first (4) and a second dialogue analysis unit (5) which are set up to generate a first and a second response output based on the speech input, a Control unit (3) which is set up to determine a first relevance probability for the first answer output and a second relevance probability for the second answer output, and an output unit (6) which is set up to use the answer output with the highest relevance probability to assign a voice output produce.
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems und ein Sprachdialogsystem, insbesondere in einem Fahrzeug.The present invention relates to a method for operating a speech dialogue system and a speech dialogue system, in particular in a vehicle.
Sprachdialogsysteme können in vielfältigen Kontexten eingesetzt werden, um eine besonders einfache Bedienung elektronischer Einrichtungen zu ermöglichen. Der Nutzer muss dabei keine physischen Bedienelemente betätigen, sondern kann mittels sprachlicher Äußerungen Funktionen aktivieren oder einstellen, Eingaben vornehmen oder Kommunikationsaufgaben durchführen. Eingaben in natürlicher Sprache stellen allerdings bekannte Systeme häufig vor Probleme, etwa wenn dem Nutzer ein korrekter Sprachbefehl unbekannt ist oder er nicht weiß, welche Steuerungs- und Eingabemöglichkeiten ihm zur Verfügung stehen. Zudem eigenen sich nicht alle Ansätze zur Spracherkennung und -verarbeitung gleichermaßen für alle Aufgaben, etwa das Führen eines Gesprächs mit dem Nutzers und die Bedienung von konkreten elektronischen Einrichtungen.Speech dialog systems can be used in a wide variety of contexts in order to enable particularly simple operation of electronic devices. The user does not have to operate any physical control elements, but can activate or set functions, make entries or carry out communication tasks by means of verbal utterances. However, inputs in natural language often pose problems for known systems, for example if the user is unfamiliar with a correct voice command or does not know which control and input options are available to him. In addition, not all approaches to speech recognition and processing are equally suitable for all tasks, such as having a conversation with the user and operating specific electronic devices.
Aus der
Die
Bei dem in der
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Sprachdialogsystem und ein Verfahren zu seinem Betrieb bereitzustellen, wobei der Nutzer auf eine möglichst einfache und intuitive Weise eine sprachliche Bedienung vornehmen kann.The present invention is based on the object of providing a speech dialog system and a method for its operation, the user being able to operate verbally in the simplest and most intuitive way possible.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 und ein Sprachdialogsystem mit den Merkmalen des Anspruchs 9 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.According to the invention, this object is achieved by a method with the features of
Bei dem erfindungsgemäßen Verfahren zum Betreiben eines Sprachdialogsystems wird eine Spracheingabe erfasst. Eine erste Antwortausgabe wird anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse erzeugt und eine zweite Antwortausgabe wird anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse erzeugt. Eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe werden bestimmt. Anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit wird eine Sprachausgabe erzeugt.In the method according to the invention for operating a speech dialogue system, a speech input is recorded. A first response output is generated on the basis of the voice input by means of a non-targeted dialogue analysis and a second response output is generated on the basis of the voice input by means of a targeted dialogue analysis. A first relevance probability for the first answer output and a second relevance probability for the second answer output are determined. A voice output is generated on the basis of the response output with the highest probability of relevance.
Dies erlaubt es vorteilhafterweise, zwischen Antwortausgaben auszuwählen, die mittels verschiedener Analysemethoden erzeugt wurden, und abhängig vom jeweiligen Kontext die optimale Sprachausgabe bereitzustellen. Das Sprachdialogsystem kann dadurch insbesondere sowohl eine natürlichsprachliche, nicht-zielgeführte Unterhaltung mit dem Nutzer, als auch einen zielgeführten Dialog zum Steuern einer Einrichtung implementieren.This advantageously makes it possible to choose between response outputs that were generated by means of different analysis methods, and to provide the optimal speech output depending on the respective context. As a result, the speech dialogue system can in particular implement both a natural language, non-targeted conversation with the user and a targeted dialogue for controlling a facility.
Einem Nutzer, etwa dem Fahrer eines Fahrzeugs, sind häufig nicht alle bedienbaren Funktionalitäten und Anwendungen beziehungsweise Applikationen bekannt, etwa Funktionen eines Fahrzeugs oder weiterer Geräte wie Smartphones oder eines externen Rechnersystems. Dies ist etwa durch die Fülle der zur Verfügung stehende Funktionalitäten bedingt. Von besonderer Bedeutung ist dies bei einer Nutzung von Leihfahrzeugen, mit denen der Nutzer nicht vertraut ist. Zudem steht nur eine geringe Aufmerksamkeit für die Bedienung zur Verfügung, vor allem während des Führens des Fahrzeugs, was das Aufrufen und Nutzen verschiedener Funktionen erschwert. Das Verfahren erlaubt es nun, eine für den Nutzer unterstützende und informierende Small-Talk-Funktionalität bereitzustellen, die inhaltlich auch als nützlich empfunden wird, während gleichzeitig vorhandene Funktionalitäten, etwa eines Fahrzeugs oder eines Infotainmentsystems, und weitere Funktionen umfassend genutzt werden können.A user, for example the driver of a vehicle, is often not aware of all operable functionalities and applications or applications, for example functions of a vehicle or other devices such as smartphones or an external computer system. This is due, for example, to the abundance of functionalities available. This is of particular importance when using rental vehicles with which the user is not familiar. In addition, little attention is paid to operation, especially while driving the vehicle, which makes it difficult to call up and use various functions. The method now makes it possible to provide small talk functionality that supports and informs the user, the content of which is also felt to be useful, while existing functionalities, such as a vehicle or an infotainment system, and other functions can be used extensively at the same time.
Das Sprachdialogsystem wird dabei insbesondere nicht gezielt aufgerufen, um eine konkrete Applikation zu bedienen, sondern der Kontext wird automatisch erkannt und ein geeignetes System zur Dialoganalyse wird gewählt. Das heißt, der Nutzer muss die jeweilige gewünschte Applikation sowie deren bedienbare Funktionen nicht von Beginn an kennen. Ferner ist das System flexibel in einer Vielzahl verschiedener Situationen nutzbar.In particular, the speech dialogue system is not specifically called up in order to operate a specific application, but the context is automatically recognized and a suitable system for dialogue analysis is selected. This means that the user does not have to choose the respective desired application or its operable functions from the start know. Furthermore, the system can be used flexibly in a large number of different situations.
Die erfasste Spracheingabe ist insbesondere natürlichsprachlich ausgebildet, das heißt, sie ist nicht auf vorgegebene Befehle oder Schlüsselwörter beschränkt, sondern ein Nutzer kann frei formulierte Eingaben tätigen. Die Erfassung erfolgt auf an sich bekannte Weise, insbesondere mittels eines Mikrofons. Es wird eine Umwandlung der Spracheingabe in Text oder eine andere automatisch von einem Rechnersystem verarbeitbare Datenform durchgeführt. Dabei können an sich bekannte Verfahren zur Umwandlung von Sprache in Text (speech to text, SST) verwendet werden. Umgekehrt wird die Sprachausgabe insbesondere akustisch wahrnehmbar erzeugt, wobei ebenfalls bekannte Verfahren zur Umwandlung von Text in Sprache erfolgt (text to speech, TTS).The recorded voice input is particularly natural language, that is, it is not limited to given commands or key words, but a user can make freely formulated inputs. The detection takes place in a manner known per se, in particular by means of a microphone. The speech input is converted into text or another data form that can be processed automatically by a computer system. Methods known per se for converting speech to text (SST) can be used. Conversely, the voice output is generated in particular acoustically perceptible, with known methods for converting text into speech (text to speech, TTS) also taking place.
Bei einer „Dialoganalyse“ im Sinne der Erfindung wird ausgehend von zumindest einer Spracheingabe und einer Dialoghistorie zumindest eine Antwortausgabe oder eine Reihe von Kandidaten für eine Antwortausgabe erzeugt.In a “dialogue analysis” within the meaning of the invention, at least one response output or a series of candidates for an answer output is generated on the basis of at least one voice input and a dialogue history.
Bei der nicht-zielgeführten Dialoganalyse wird insbesondere nicht von einem Dialog ausgegangen, der entlang einer vordefinierten Abfolge von Eingaben eines Nutzers und eindeutig zugeordneten Antworten des Systems verläuft, um als Ziel der Interaktion beispielsweise eine Einstellung einer Funktionalität vorzunehmen. Stattdessen wird beispielsweise eine Small-Talk-Funktionalität ausgeführt, bei welcher die Sprachausgabe als Antwort des Systems so erzeugt werden soll, dass eine fortlaufende Unterhaltung mit dem Nutzer fortgeführt wird. Eine solche nicht-zielgeführte Analyse kann etwa mittels eines datengetriebenen Systems ausgeführt werden, bei dem die Antwortausgabe anhand von Trainingsdaten früherer Dialoge erzeugt wird.In the case of non-targeted dialogue analysis, a dialogue is in particular not assumed that runs along a predefined sequence of inputs by a user and uniquely assigned responses from the system in order, for example, to set a functionality as the target of the interaction. Instead, for example, a small talk functionality is carried out in which the voice output is to be generated as a response from the system in such a way that an ongoing conversation with the user is continued. Such a non-targeted analysis can be carried out, for example, by means of a data-driven system in which the response output is generated on the basis of training data from previous dialogues.
Bei einer erfindungsgemäßen Ausbildung wird die erste Antwortausgabe bei der nicht-zielgeführten Dialoganalyse mittels eines Maschinenlernsystems erzeugt. Insbesondere umfasst das Maschinenlernsystem ein tiefes neuronales Netz (deep neural network, DNN). Dadurch kann das System vorteilhafterweise besonders umfassend und mittels einer Vielzahl bereits vorbekannter Dialogverläufe und stetig neu erfasster Daten trainiert werden.In an embodiment according to the invention, the first response output in the non-targeted dialog analysis is generated by means of a machine learning system. In particular, the machine learning system comprises a deep neural network (DNN). As a result, the system can advantageously be trained particularly comprehensively and by means of a large number of previously known dialog processes and continuously newly acquired data.
Bei einer weiteren Ausbildung greift das Maschinenlernsystem zum Erzeugen der ersten Antwortausgabe auf eine personalisierte Präferenzen-Datenbank zu, die in Abhängigkeit von einer Dialoghistorie aktualisiert wird. Dadurch kann das Maschinenlernsystem vorteilhafterweise besonders flexibel an einen Nutzer, bestimmte Kontexte und Ansprüche angepasst werden.In a further embodiment, the machine learning system accesses a personalized preferences database to generate the first response output, which database is updated as a function of a dialog history. As a result, the machine learning system can advantageously be adapted particularly flexibly to a user, specific contexts and requirements.
Die Präferenzen-Datenbank wird beispielsweise anhand von erfassten Daten über die Annahme von Sprachausgaben durch den Nutzer erzeugt. Beispielsweise kann der Nutzer durch eine Eingabe zu erkennen geben, dass eine Sprachausgabe des Systems nicht relevant für seine Spracheingabe ist oder dass er den Dialogverlauf zu einem anderen Thema lenken möchte. Hieraus kann dann bestimmt werden, dass die ausgegebene Sprachausgabe nicht relevant für den Nutzer ist und in der Präferenzen-Datenbank kann eine negative Rückmeldung gespeichert werden. Umgekehrt kann eine positive Rückmeldung gespeichert werden, wenn der Nutzer die Sprachausgabe akzeptiert oder bestätigt.The preferences database is generated, for example, on the basis of recorded data about the acceptance of speech outputs by the user. For example, the user can use an input to indicate that a voice output of the system is not relevant for his voice input or that he would like to direct the course of the dialog to another topic. From this it can then be determined that the voice output is not relevant to the user and negative feedback can be stored in the preferences database. Conversely, positive feedback can be saved if the user accepts or confirms the voice output.
Die bei der Dialoganalyse berücksichtigte Dialoghistorie ist insbesondere so gebildet, dass sie einen Verlauf eines aktuellen Gesprächs umfasst. Der Verlauf kann etwa eine Reihe nacheinander erfasster Spracheingaben und Antwortausgaben umfassen oder es kann die innerhalb eines bestimmten Zeitraums erfassten Spracheingaben und die dazu erzeugten Antwortausgaben umfassen. Die Dialoghistorie wird insbesondere in einer Datenbank gespeichert, auf die beispielsweise zum Erzeugen der ersten und/oder zweiten Antwortausgabe zugegriffen werden kann.The dialog history taken into account in the dialog analysis is in particular formed in such a way that it includes the course of a current conversation. The course can include, for example, a series of voice inputs and response outputs recorded one after the other, or it can include the voice inputs recorded within a certain period of time and the response outputs generated for this purpose. The dialog history is in particular stored in a database that can be accessed, for example, to generate the first and / or second response output.
Die Dialoghistorie kann ferner weitere Informationen über einen Gesprächskontext umfassen. Beispielsweise können dies Informationen über einen Betriebszustand eines Fahrzeugs, eine aktuelle Verkehrssituation, eine Position und/oder eine geografische Umgebung des Fahrzeugs sein. Die weiteren Informationen können ferner aktuelle Informationen umfassen oder auf die Vergangenheit und Zukunft bezogen sein, etwa bei Terminen eines Nutzers oder Daten einer Nutzung einer Kommunikationseinrichtung, oder Informationen über weitere Personen in der Nähe eines Nutzers, etwa im gleichen Fahrzeug.The dialog history can also include further information about a conversation context. For example, this can be information about an operating state of a vehicle, a current traffic situation, a position and / or a geographical environment of the vehicle. The further information can also include current information or be related to the past and future, for example in the case of appointments of a user or data relating to the use of a communication device, or information about other people in the vicinity of a user, for example in the same vehicle.
Bei der zielgeführten beziehungsweise regelbasierten Dialoganalyse wird insbesondere von einem „geskripteten“, deterministisch vorgegebenen Dialogverlauf ausgegangen. Das heißt, einer Spracheingabe wird ein in einer Datenbank gespeicherter Dialogzustand zugeordnet, etwa ein Schritt einer Bedienung einer Einrichtung. Diesem Dialogzustand ist dann eine Antwortausgabe zugeordnet. Eine solche Dialoganalyse ist also beispielsweise dazu geeignet, einen Nutzer gezielt durch eine Bedienung zu führen, eine Eingabe zu erfassen oder einen anderen vorgegebenen Dialogablauf durchzuführen.In the targeted or rule-based dialogue analysis, a "scripted", deterministically specified course of the dialogue is assumed. That is, a voice input is assigned a dialog state stored in a database, for example a step in the operation of a device. A response output is then assigned to this dialog state. Such a dialog analysis is therefore suitable, for example, for guiding a user through an operation in a targeted manner, for capturing an input or for carrying out another predetermined dialog process.
Bei einer Weiterbildung wird bei der zielgeführten Dialoganalyse anhand eines regelbasierten Expertensystems eine Bedienanweisung für eine mittels des Sprachdialogsystems steuerbaren Funktionalität erzeugt. Der Dialog kann dadurch vorteilhafterweise dazu genutzt werden, eine Handlungsanweisung an der System gezielt zu erfassen.In a further development, in the targeted dialog analysis using a rule-based expert system, operating instructions for a functionality that can be controlled by means of the speech dialog system are generated. The dialogue can thereby can advantageously be used to specifically record an instruction on the system.
In diesem Fall entspricht also eine Bedienanweisung dem Ziel der zielgeführten Dialoganalyse, insbesondere eines geskripteten Dialogs, etwa um eine bestimmte Einrichtung zu bedienen oder um eine bestimmte Eingabe zu erfassen. Dabei wird eine vorgegebene Wissensbasis verwendet, um eine relevante Antwortausgabe zu bestimmen.In this case, an operating instruction corresponds to the goal of the targeted dialog analysis, in particular a scripted dialog, for example to operate a specific device or to record a specific input. A predefined knowledge base is used to determine a relevant answer output.
Das Expertensystem kann bei dem Verfahren lokal ausgebildet sein, etwa mit einer integrierten Speichereinheit das Sprachdialogsystems zum Speichern einer entsprechenden Datenbank das Sprachdialogsystem kann ferner auf eine externe Einheit mit dem Expertensystem zugreifen, etwa über ein Rechnernetzwerk wie das Internet oder durch eine Verbindung zu einer externen Einheit, wie einem mobilen Nutzergerät. Auf diese Weise können unterschiedliche Expertensysteme modular eingebunden werden.The expert system can be designed locally in the method, for example with an integrated memory unit, the speech dialog system for storing a corresponding database, the speech dialog system can also access an external unit with the expert system, for example via a computer network such as the Internet or through a connection to an external unit such as a mobile user device. In this way, different expert systems can be integrated in a modular way.
Die Handlungsanweisung betrifft insbesondere eine mit dem Sprachdialogsystem datentechnisch gekoppelte Einheit, an die die Bedienanweisung anschließend übertragen wird.The handling instruction relates, in particular, to a unit which is data-technically coupled to the speech dialogue system and to which the operating instruction is then transmitted.
Beispielsweise ist das Sprachdialogsystem in einem Fahrzeug integriert und die Handlungsanweisung wird für eine weitere Einrichtung des Fahrzeugs erzeugt. Derartige Einrichtungen können beispielsweise Einstellungen der Fahreigenschaften des Fahrzeugs, ein Infotainmentsystem oder eine Telekommunikationseinrichtung betreffen.For example, the speech dialogue system is integrated in a vehicle and the operating instruction is generated for a further set-up of the vehicle. Such devices can, for example, relate to settings of the driving characteristics of the vehicle, an infotainment system or a telecommunication device.
Bei einer Ausbildung zum Erzeugen der zweiten Antwortausgabe wird die Spracheingabe einem Dialogszenario zugeordnet, wobei das Dialogszenario eine Eingabeintention und eine für die Eingabeintention vorgegebene Ausgabeantwort umfasst. Dadurch wird vorteilhafterweise ein geskripteter Dialog besonders effizient durchgeführt.In an embodiment for generating the second response output, the voice input is assigned to a dialogue scenario, the dialogue scenario comprising an input intention and an output response predetermined for the input intention. As a result, a scripted dialog is advantageously carried out particularly efficiently.
Beim Bestimmen eines Dialogszenarios wird ein Kontext der Eingabe bestimmt, wobei die Dialoghistorie und weitere Daten über den Zustand des Sprachdialogsystems und der jeweiligen Umgebung berücksichtigt werden. Das Dialogszenario beschreibt eine potentiellen Ablauf des Dialogs mit System antworten, die bestimmten Eingaben zugeordnet sind, und darauf erwarteten potentiellen weiteren Eingaben eines Nutzers. Hierbei wird als Eingabeintention die Bedienung einer bestimmten Einheit, das Aufrufen einer Funktionalität oder die Ausführung einer Aufgabe zum Bereitstellen von bestimmten Informationen verstanden. Das heißt, die Eingabeintention gibt an, welchem Ziel die zielgeführte Dialoganalyse dienen soll.When determining a dialogue scenario, a context of the input is determined, the dialogue history and further data about the state of the speech dialogue system and the respective environment being taken into account. The dialog scenario describes a potential course of the dialog with system responses that are assigned to specific inputs and potential further inputs expected from a user. Here, the input intention is understood to be the operation of a specific unit, the calling up of a functionality or the execution of a task to provide specific information. This means that the input intention indicates which goal the goal-directed dialogue analysis should serve.
Bei dem Verfahren wird insbesondere laufend die Relevanz der zuletzt bestimmten Eingabeintention überprüft. Wenn bestimmt wird, dass eine andere Intention relevanter erscheint, wird das Dialogszenario entsprechend anders bestimmt. Auf diese Weise kann reagiert werden, wenn sich die Eingabeintention des Nutzers während des Dialogs verändert oder wenn der Nutzer zum Ausdruck bringt, dass eine falsche Eingabeintention erkannt wurde.In the method, the relevance of the input intention determined last is checked continuously. If it is determined that a different intention appears more relevant, the dialogue scenario is determined differently accordingly. In this way, it is possible to react if the input intention of the user changes during the dialogue or if the user expresses that a wrong input intention was recognized.
Bei einer weiteren Ausbildung werden Umgebungsdaten eines Nutzers erfasst und die erste und/oder zweite Antwortausgabe werden ferner anhand der erfassten Umgebungsdaten des Nutzers erzeugt werden. Dadurch kann vorteilhafterweise eine besonders relevante Antwortausgabe erzeugt werden.In a further embodiment, environmental data of a user are recorded and the first and / or second response output will also be generated on the basis of the recorded environmental data of the user. In this way, a particularly relevant response output can advantageously be generated.
Die Umgebungsdaten können beispielsweise den Betriebszustand eines Fahrzeugs oder einer anderen Einrichtung, eine aktuelle, vergangene oder prognostizierte Position und dieser Position zugeordnete Merkmale sowie persönliche Daten eines Nutzers umfassen. Sie können auch nutzerbezogene Informationen betreffen, anhand derer etwa eine Erkennung eines Zustands des Nutzers und/oder seiner Emotionen durchgeführt werden kann. Die erste und/oder zweite Antwortausgabe können daher ferner anhand der erfassten Informationen über einen Zustand und/oder Emotionen des Nutzers erzeugt werden. Sie können ferner in einer räumlichen Umgebung des Nutzers ermittelte und/oder gespeicherte Informationen betreffen. Die räumliche Umgebung kann dabei für einen aktuellen, vergangenen oder zukünftigen Zeitpunkt betrachtet werden.The environmental data can include, for example, the operating state of a vehicle or another device, a current, past or forecast position and features assigned to this position, as well as personal data of a user. They can also relate to user-related information, on the basis of which, for example, a state of the user and / or his emotions can be recognized. The first and / or second response output can therefore also be generated on the basis of the recorded information about a state and / or emotions of the user. They can also relate to information determined and / or stored in a spatial environment of the user. The spatial environment can be viewed for a current, past or future point in time.
Anhand der Umgebungsdaten wird insbesondere ein Kontext der Spracheingabe bestimmt und bei der nicht-zielgeführten beziehungsweise bei der zielgeführten Dialoganalyse verwendet. Beispielsweise kann die Menge der potentiell zu berücksichtigenden Antwortausgaben anhand der Umgebungsdaten beschränkt werden, etwa weil der sprachliche Bezug zwischen der Spracheingabe anhand der Umgebungsdaten geklärt werden kann.In particular, a context of the voice input is determined on the basis of the environmental data and is used in the non-targeted or in the targeted dialog analysis. For example, the amount of response outputs that are potentially to be taken into account can be limited on the basis of the environment data, for example because the linguistic relationship between the voice input can be clarified using the environment data.
Das Bestimmen der ersten und zweiten Relevanzwahrscheinlichkeit erfolgt auf an sich bekannte Weise. Die Wahrscheinlichkeiten werden insbesondere bei einer statistischen Analyse der erzeugten ersten und zweiten Antwortausgabe bestimmt und mit der jeweiligen Antwortausgabe zusammen ausgegeben. Die Relevanzwahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit eine Antwortausgabe eine für den Nutzer relevante Reaktion auf die zuvor erfasste Spracheingabe darstellt. Es können unterschiedliche Verfahren verwendet werden, um beispielsweise Beziehungen zwischen den Antwortausgaben und der Spracheingabe zu analysieren und einen Kontext sowie eine Eingabeintention anhand der Spracheingabe und der Dialoghistorie zu bestimmen. Beim Bestimmen der Relevanzwahrscheinlichkeiten können auch die Umgebungsdaten berücksichtigt werden.The first and second relevance probability are determined in a manner known per se. The probabilities are determined in particular during a statistical analysis of the generated first and second response output and output together with the respective response output. The relevance probability indicates the probability with which a response output represents a reaction to the previously recorded voice input that is relevant for the user. Different methods can be used, for example, to analyze relationships between the response outputs and the voice input and to assign a context and an input intention based on the voice input and the dialog history determine. When determining the relevance probabilities, the environmental data can also be taken into account.
Bei einer Weiterbildung werden die erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und die zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe mit einem Relevanz-Schwellenwert verglichen, wobei für die Erzeugung der Sprachausgabe nur Antwortausgaben mit einer Relevanzwahrscheinlichkeit oberhalb des Relevanz-Schwellenwerts berücksichtigt werden. Dadurch wird vorteilhafterweise sichergestellt, dass lediglich solche Antwortausgaben berücksichtigt werden, die zumindest eine bestimmte Wahrscheinlichkeit dafür aufweisen, dass sie der Eingabeintention des Nutzers entsprechen.In a further development, the first relevance probability for the first answer output and the second relevance probability for the second answer output are compared with a relevance threshold value, with only answer outputs with a relevance probability above the relevance threshold value being taken into account for generating the voice output. This advantageously ensures that only those response outputs are taken into account that have at least a certain probability that they correspond to the input intention of the user.
Der Relevanz-Schwellenwert kann fest vorgegeben sein. Er kann sich ferner je nach dem Verfahren unterscheiden, durch das die Antwortausgaben erzeugt wurden. Beispielsweise können unterschiedliche Relevanz-Schwellenwerte vorgesehen sein, wenn Antwortausgaben mittels eines neuronalen Netzes oder mittels eines Expertensystems erzeugt werden. Der Relevanz-Schwellenwert kann ferner dynamisch erzeugt werden und beispielsweise umso höher bestimmt werden, je höher eine für den Kontext bestimmte Kritikalität ist. Beispielsweise kann im Kontext eines Fahrzeugs bestimmt werden, dass bei hohem Verkehrsaufkommen eine höhere Kritikalität als bei niedrigem Verkehrsaufkommen vorliegt, und der Schwellenwert kann in diesem Fall höher angesetzt werden, um eine unnötige Ablenkung durch weniger relevante Antworten zu vermeiden. Es können zum Beispiel die Umgebungsdaten berücksichtigit werden, um die Relevanzwahrscheinlichkeit zu bestimmenThe relevance threshold value can be permanently specified. It may also differ depending on the method by which the response outputs were generated. For example, different relevance threshold values can be provided if response outputs are generated by means of a neural network or by means of an expert system. The relevance threshold value can also be generated dynamically and, for example, be determined higher the higher a criticality determined for the context is. For example, it can be determined in the context of a vehicle that there is a higher criticality when there is a high volume of traffic than when there is a low volume of traffic, and the threshold value can be set higher in this case in order to avoid unnecessary distraction from less relevant answers. For example, the environmental data can be taken into account in order to determine the probability of relevance
Bei einer Ausbildung wird eine von der Spracheingabe umfasste Entität bestimmt und die erste Relevanzwahrscheinlichkeit und die zweite Relevanzwahrscheinlichkeit werden in Abhängigkeit von der bestimmten Entität bestimmt. Die Bestimmung der Entitäten kann mittels an sich bekannter Verfahren, etwa mittels eines Named Entity Resolver oder eines Named Entity Recognizer(
Unter „Entitäten“ werden im Kontext der Erfindung insbesondere sprachliche Objekte verstanden, die gesammelte Informationen beinhalten. Zu den Entitäten können beispielsweise Attribute und Prädikate bestimmt werden, um den Inhalt der Spracheingabe weiter zu bestimmen. Auf diese Weise werden sie zum Erzeugen der Antwortausgaben genutzt und geben sowohl Aufschluss über den Kontext der Spracheingabe als auch über den Inhalt beziehungsweise die Eingabeintention des Nutzers.In the context of the invention, “entities” are understood to mean in particular linguistic objects that contain collected information. For example, attributes and predicates can be determined for the entities in order to further determine the content of the speech input. In this way, they are used to generate the response outputs and provide information about the context of the speech input as well as about the content or the input intention of the user.
Die bestimmten Entitäten sind damit zentral für die Entscheidung, welche der erzeugten Antwortausgaben die höchste Relevanz für den Nutzer aufweist. Insbesondere wird anhand der Entitäten unterschieden, ob eine Antwortausgabe der nicht-zielgeführten Dialoganalyse oder eine Antwortausgabe der zielgeführten Dialoganalyse ausgegeben werden soll.The specific entities are therefore central to the decision as to which of the response outputs generated has the highest relevance for the user. In particular, a distinction is made on the basis of the entities as to whether a response output of the non-targeted dialogue analysis or a response output of the targeted dialogue analysis is to be output.
Insbesondere werden Entitäten im Zusammenhang mit durch das Sprachdialogsystem bedienbaren Funktionalitäten, etwa mit Fahrzeug- und Infotainment-Funktionalitäten in einem Fahrzeug, durch ein Maschinenlernsystem trainiert und gelernt, wobei sie in einer Datenbank als sogenannte Knowledge-Base gespeichert werden. Die Nutzung bedienbarer Funktionalitäten wird insbesondere personalisiert mit einem Nutzer verknüpft. In einem aktuellen Dialog verwendete Entitäten werden beispielsweise durch ein Maschinenlernsystem generiert, indem Sprachdialoge und Umgebungsdaten ausgewertet werden, etwa von einem Fahrzeug erfasste Daten über die Fahrsituation, den Innenraum oder das Umfeld des Fahrzeugs, eine Verkehrssituation sowie erfasste Informationen über den Zustand des Fahrers. Insbesondere werden dabei auch persönliche Interessen des Fahrers und/oder für den Nutzer bestimmte Emotionen ausgewertet, um flexibel auf die jeweilige Stimmung des Fahrers reagieren zu können.In particular, entities in connection with functionalities that can be operated by the speech dialog system, for example with vehicle and infotainment functionalities in a vehicle, are trained and learned by a machine learning system, whereby they are stored in a database as a so-called knowledge base. The use of operable functionalities is linked, in particular, to a user in a personalized manner. Entities used in a current dialog are generated, for example, by a machine learning system in which voice dialogues and environmental data are evaluated, for example data recorded by a vehicle about the driving situation, the interior or the surroundings of the vehicle, a traffic situation and recorded information about the state of the driver. In particular, personal interests of the driver and / or emotions specific to the user are evaluated in order to be able to react flexibly to the driver's mood.
Die gegebenenfalls von den Umgebungsdaten umfassten Informationen über den Zustand des Nutzers können ihrerseits verschiedene Daten umfassen und werden insbesondere bei einer Nutzeremotions- und Nutzerzustandserkennung erfasst und ausgewertet. Dabei können etwa Bewegungsabläufe, Mimik und Gestik des Fahrers oder eines anderen Nutzers ausgewertet werden. Ferner können Sprachparameter analysiert werden, etwa Parameter einer Stimme, Sprechgeschwindigkeit, Lautstärke, verwendete Phrasen oder eine Gesprächsdynamik. Zudem können physiologische Parameter beziehungsweise Vitalparameter des Nutzers des Sprachdialogsystems berücksichtigt werden. Insbesondere sind hierfür in einem Fahrzeug eine Fahreremotions- und Fahrerzustandserkennung vorgesehen. Ferner kann etwa eine Smartphone-Applikation genutzt werden, um Informationen über den Zustand des Nutzers, wie etwa Bewegungsabläufe, Bewegungsmuster, Gestik und Mimik, zu ermitteln und zu klassifizieren. Ferner können physiologische Parameter beziehungsweise Vitalparameter des Nutzers über Sensoren erfasst werden, die etwa in Kleidungsstücken oder in tragbaren Messgeräten integriert sind und am Körper oder in der Nähe des Körpers des Nutzers angeordnet sind. Die so erfassten Daten können dann ausgelesen werden, etwa mittels einer Smartphone-Applikation, und für das Sprachdialogsystem ausgewertet und genutzt werden.The information about the condition of the user, which may be included in the environmental data, can in turn include various data and is recorded and evaluated in particular in the case of user emotion and user status detection. Movement sequences, facial expressions and gestures of the driver or another user can be evaluated. In addition, speech parameters can be analyzed, such as parameters of a voice, speaking speed, volume, used phrases or conversation dynamics. In addition, physiological parameters or vital parameters of the user of the speech dialogue system can be taken into account. In particular, driver emotion and driver status recognition are provided in a vehicle for this purpose. Furthermore, a smartphone application can be used to determine and classify information about the state of the user, such as movement sequences, movement patterns, gestures and facial expressions. Furthermore, physiological parameters or vital parameters of the user can be recorded via sensors, which are integrated, for example, in items of clothing or in portable measuring devices and are arranged on or in the vicinity of the body of the user. The data recorded in this way can then be read out, for example using a smartphone Application, and evaluated and used for the speech dialogue system.
Das erfindungsgemäße Sprachdialogsystem umfasst eine Erfassungseinheit, die dazu eingerichtet ist, eine Spracheingabe zu erfassen, eine erste Dialoganalyseeinheit, die dazu eingerichtet ist, anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse eine erste Antwortausgabe zu erzeugen, und eine zweite Dialoganalyseeinheit, die dazu eingerichtet ist, anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse eine zweite Antwortausgabe zu erzeugen. Es umfasst ferner eine Steuereinheit, die dazu eingerichtet ist, eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe zu bestimmen, und eine Ausgabeeinheit, die dazu eingerichtet ist, anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit eine Sprachausgabe zu erzeugen.The speech dialogue system according to the invention comprises a detection unit which is set up to detect a speech input, a first dialogue analysis unit which is set up to generate a first response output based on the speech input by means of a non-targeted dialogue analysis, and a second dialogue analysis unit which is set up to do so to generate a second response output on the basis of the voice input by means of a targeted dialogue analysis. It further comprises a control unit which is set up to determine a first relevance probability for the first answer output and a second relevance probability for the second answer output, and an output unit which is set up to generate a voice output based on the answer output with the highest relevance probability.
Das erfindungsgemäße Sprachdialogsystem ist insbesondere ausgebildet, das vorstehend beschriebene erfindungsgemäße Verfahren zu implementieren. Das Sprachdialogsystem weist somit dieselben Vorteile auf wie das erfindungsgemäße Verfahren.The speech dialog system according to the invention is designed in particular to implement the method according to the invention described above. The speech dialog system thus has the same advantages as the method according to the invention.
Bei einer Ausbildung des erfindungsgemäßen Sprachdialogsystems ist die zweite Dialoganalyseeinheit dazu eingerichtet, anhand eines regelbasierten Expertensystems eine Bedienanweisung für eine mittels des Sprachdialogsystems steuerbaren Funktionalität zu erzeugen. Dadurch wird die Antwortausgabe vorteilhafterweise gezielt anhand einer bestehenden Wissensbasis erzeugt. Ferner können Expertensysteme modular in das Sprachdialogsystem eingebunden oder über eine datentechnische Verbindung von einer externen Einheit bereitgestellt werden.In one embodiment of the speech dialogue system according to the invention, the second dialogue analysis unit is set up to generate operating instructions for a functionality that can be controlled by means of the speech dialogue system using a rule-based expert system. As a result, the response output is advantageously generated in a targeted manner using an existing knowledge base. Furthermore, expert systems can be integrated modularly into the speech dialogue system or provided by an external unit via a data connection.
Dabei können anhand einer Sprachinteraktion Funktionalitäten aufgerufen werden, für die dem Nutzer bereits vorgegebene Begriffe, Ausdrücke und Wörter bekannt sind. Dies erfolgt insbesondere über eine zielgeführte Dialoganalyse , insbesondere einen geskripteten Dialog. Ferner kann der Nutzer mittels einer nicht-zielgeführten Dialoganalyse zum Aufrufen, Aktivieren und Nutzen von Funktionalität und Anwendungen gelangen, die ihm unbekannt sind oder auf die er zunächst hingewiesen werden muss. Hierfür wird beispielsweise eine Small-Talk-Applikation genutzt, bei der anhand von Daten über einen Kontext oder eine Situation zu empfehlende Funktionalitäten bestimmt werden. Mittels der Small-Talk-Applikation und gegebenenfalls einer Situationserkennung kann ermittelt werden, auf welche Weise der Nutzer aktuell unterstützt werden möchte beziehungsweise welche relevante Unterstützung angeboten werden kann, wobei weniger relevante Funktionalitäten nicht angeboten werden. Über eine Small-Talk-Applikation kann auf Funktionalitäten und Anwendungen gezielter und schneller zugegriffen werden, wobei der Nutzer sich die Sprachbefehle dafür nicht merken muss. Üblicherweise vom Nutzer in einem bestimmten Kontext verwendete Funktionalitäten und Anwendungen können gezielt angeboten werden.Functionalities for which the user is already familiar with specified terms, expressions and words can be called up on the basis of a voice interaction. This is done in particular via a targeted dialogue analysis, in particular a scripted dialogue. Furthermore, by means of a non-targeted dialogue analysis, the user can access, activate and use functionality and applications that are unknown to him or to which he must first be informed. A small talk application is used for this, for example, in which functionalities to be recommended are determined on the basis of data about a context or a situation. By means of the small talk application and possibly a situation recognition, it can be determined in which way the user would like to be supported at the moment or which relevant support can be offered, whereby less relevant functionalities are not offered. Using a small talk application, functionalities and applications can be accessed more specifically and more quickly, without the user having to remember the voice commands. Functionalities and applications usually used by the user in a specific context can be offered in a targeted manner.
Somit erfolgt eine weitgehende Unterstützung bei der Nutzung bedienbarer Funktionalitäten, etwa in einem Fahrzeug und zur Bedienung einer Infotainmenteinrichtung, es wird ein intuitiver Zugang zu einer umfassenden Menge von Funktionalitäten und Anwendungen über das Sprachdialogsystem bereitgestellt. Beispielsweise kann auch eine Fahrzeugwartung oder die Nutzung einer Infrastruktur, etwa von Parkplätzen, intuitiv unterstützt werden.This provides extensive support for the use of operable functionalities, for example in a vehicle and for operating an infotainment device, and intuitive access to a comprehensive set of functionalities and applications is provided via the speech dialogue system. For example, vehicle maintenance or the use of an infrastructure, such as parking lots, can be supported intuitively.
Weiterhin kann für verschiedene Nutzer personalisiert gelernt werden, welche spezifischen Funktionalitäten in bestimmten Situationen verwendet werden sollen. Von den gesamten, beispielsweise in einem Fahrzeug, verfügbaren Funktionalitäten und Anwendungen werden anhand des Kontextes und der gegebenenfalls erfassten Daten über die Umgebung die relevantesten bestimmt und genutzt.Furthermore, it is possible to learn in a personalized way for different users which specific functionalities should be used in certain situations. Of all the functionalities and applications available, for example in a vehicle, the most relevant are determined and used on the basis of the context and the possibly recorded data about the environment.
Zudem kann mittels des Sprachdialogsystems und der nicht-zielgeführten Dialoganalyse ein „Freies Sprechen“ beziehungsweise ein „Small-Talk“ realisiert werden, bei dem auf geskriptete Dialogzustände verzichtet wird. Anhand solcher Zustände können allerdings auch zielgerichtete Aufgaben für einen Nutzer erfüllt werden, sodass bei dem Sprachdialogsystem ferner eine zielgeführte Dialoganalyse vorgesehen ist, insbesondere parallel durchgeführt wird. Die Entscheidung, anhand welcher Dialoganalyse die Antwortausgabe erzeugt wird, wird anhand von Relevanzwahrscheinlichkeiten getroffen, zu deren Bestimmung insbesondere Entitäten herangezogen werden. Das heißt, die Verknüpfung der verschiedenen Dialoganalysen des Sprachdialogsystems erfolgt mithilfe der Entitäten, mittels derer auf den jeweiligen Kontext und den aktuellen Dialoginhalt geschlossen wird.In addition, by means of the speech dialogue system and the non-targeted dialogue analysis, “free speaking” or “small talk” can be implemented in which scripted dialogue states are dispensed with. On the basis of such states, however, targeted tasks can also be carried out for a user, so that a targeted dialogue analysis is also provided in the speech dialogue system, in particular carried out in parallel. The decision as to which dialog analysis is used to generate the response output is made on the basis of relevance probabilities, for the determination of which entities in particular are used. This means that the various dialogue analyzes of the speech dialogue system are linked with the aid of the entities, which are used to infer the respective context and the current dialogue content.
Das Verfahren ermöglicht es, eine Small-Talk-Applikation so mit einer regelbasierten Analyse des Dialogs zu verbinden, dass verschiedene Funktionalitäten, etwa eines Fahrzeugs sowie externer Geräte, in einem einheitlichen Bedienkonzept bedient werden.The method makes it possible to combine a small talk application with a rule-based analysis of the dialogue in such a way that various functionalities, such as a vehicle and external devices, are operated in a uniform operating concept.
Zielgeführte Dialoganalysen werden dazu verwendet, konkrete Aufgaben zu erfüllen, etwa bei Spracheingaben wie „Wie ist das Wetter?“ oder „Kauf mir zwei Tickets!“. Insbesondere werden dazu geskriptete Dialogzustände genutzt, bei denen die Spracheingabe einem Dialogszenario zugeordnet wird, für das wiederum bestimmte Antwortaufgaben vorgegeben sind. Dagegen wird die nicht-zielgeführte Dialoganalyse dazu verwendet, ein freies Sprechen mit dem Sprachdialogsystem zu ermöglichen, auch als „Small-Talk“ bezeichnet. Hier wird auf geskriptete Dialogzustände verzichtet und relevante Antwortausgaben werden etwa mittels datengetriebener Maschinenlernsysteme erzeugt, wie beispielsweise ein tiefes neuronales Netz (deep neural network, DNN). Hier wird der Inhalt einer einzelnen Spracheingabe typischerweise nicht bestimmt, sondern die Antwortausgabe wird anhand statistischer Verfahren ermittelt. Bei dem Verfahren werden die beiden Ansätze der Dialoganalyse kombiniert und je nach Anwendungsfall wird zwischen beiden umgeschaltet.Targeted dialogue analyzes are used to perform specific tasks, such as voice input such as “What's the weather like?” Or “Buy me two tickets!”. In particular, scripted dialog states are used for this purpose, in which the voice input is assigned to a dialog scenario for which in turn certain response tasks are given. In contrast, the non-targeted dialogue analysis is used to enable free speech with the speech dialogue system, also known as "small talk". Scripted dialog states are dispensed with here and relevant response outputs are generated using data-driven machine learning systems, such as a deep neural network (DNN). Here, the content of an individual voice input is typically not determined, but the response output is determined using statistical methods. In the process, the two approaches of dialogue analysis are combined and, depending on the application, a switch is made between the two.
Die beiden Ansätze werden insbesondere mittels Entitäten verknüpft, die beispielsweise durch ein tiefes neuronales Netz in einer Trainingsphase gelernt werden. Die verfügbaren Entitäten werden mit zugeordneten Informationen in einer Datenbank gespeichert. Wenn eine Antwortausgabe durch das DNN Ende erzeugt wird, kann ein Dialogmanager über die in der Spracheingabe verwendeten und generierten Entitäten den Dialoginhalt und insbesondere eine Eingabeintention des Nutzers ermitteln. Wird eine Aufgabe erkannt, deren Erfüllung über das Ausführen von Small-Talk hinausgeht, kann ein geskripteter Dialog mittels der zielgeführten Dialoganalyse durchgeführt werden, bis die Aufgabe erfüllt ist.The two approaches are linked in particular by means of entities that are learned, for example, through a deep neural network in a training phase. The available entities are stored with associated information in a database. If a response output is generated by the DNN end, a dialog manager can determine the dialog content and in particular an input intention of the user via the entities used and generated in the voice input. If a task is recognized, the fulfillment of which goes beyond carrying out small talk, a scripted dialogue can be carried out by means of the targeted dialogue analysis until the task is fulfilled.
Bei dem Verfahren kann ferner erreicht werden, dass das Sprachdialogsystem personalisiert wird. Mithilfe eines Reinforcement-Ansatzes werden dabei personalisierte Nutzerinformationen generiert und verwendet, um das System für den Nutzer zu erweitern oder anzupassen. Wird beispielsweise eine Sprachausgabe erzeugt, die auf einer für den Nutzer nicht relevanten Antwortausgabe basiert, so kann das System dies an einem Themenwechsel oder eine andere Rückmeldung durch den Nutzer erkennen; eine negative Rückmeldung wird durch sogenanntes Reinforcement-Leaming genutzt, um in zukünftigen Dialoge ähnlicher Art solche nicht relevanten Ausgaben zu vermeiden.With the method it can also be achieved that the speech dialogue system is personalized. With the help of a reinforcement approach, personalized user information is generated and used to expand or adapt the system for the user. If, for example, a voice output is generated that is based on a response output that is not relevant for the user, the system can recognize this from a change of topic or other feedback from the user; A negative feedback is used by so-called reinforcement leaming in order to avoid such irrelevant issues in future dialogs of a similar type.
Zudem können weitere passende Entitäten erkannt und zugeordnet werden, für die bereits eine Small-Talk-Funktion oder ein Entitätenmodell eines empathischen Assistenten vorhanden ist. Ein Entitätenmodell ordnet dabei zueinander passende Entitäten einander zu. Beispielsweise werden durch eine Fusion von Daten verschiedener Umfeldsensoren oder weiterer Sensoren, etwa zur Situationserkennung in einem Fahrzeuginnenraum, Objekte und Situationen erkannt, die einem Softwareobjekt und/oder einem Begriff, das heißt einer möglichen Entität, in verschiedenen Systemen zugeordnet werden können. Insbesondere werden ferner in Fahrzeug- und Infotainment-Systemen eingestellte Parameter sowie Merkmale und Eigenschaften einer aktuellen Medien- und App-Nutzung im Fahrzeug gespeichert. Attribute für einzelne Objekten (Entitäten) können dabei im Fahrzeug- und Infotainmentsystem zugeordnet und gespeichert werden.In addition, other suitable entities can be identified and assigned for which a small talk function or an entity model of an empathic assistant is already available. An entity model assigns matching entities to one another. For example, by merging data from different environment sensors or other sensors, for example for situation recognition in a vehicle interior, objects and situations are recognized that can be assigned to a software object and / or a term, i.e. a possible entity, in different systems. In particular, parameters set in vehicle and infotainment systems as well as features and properties of current media and app usage are also stored in the vehicle. Attributes for individual objects (entities) can be assigned and saved in the vehicle and infotainment system.
Beispiele für eine Objekt- oder Situationserkennung sind das Erkennen eines Gebäudes oder einer geografischen Umgebung, die Klassifikation von Gebäuden oder anderer klassifizierbarer Einrichtungen, etwa als Theater, Oper, Kino, Hotel, Schule, Rathaus, Schwimmbad, Krankenhaus sowie Arztpraxis und Therapieeinrichtung, Restaurant, Haltestelle, Bahnhof, Parkplatz oder ähnliches. Dabei können ferner Informationen über Sonderziele (points of interest, POI) eines Navigationssystems berücksichtigt werden. Ferner können eine Verkehrssituation, Route, Gegend oder direkte Umgebung erfasst und berücksichtigt werden. Zudem können Merkmale und Eigenschaften einer aktuellen Nutzung von Medien oder Apps, etwa eine Lautstärke, ein Musik- oder Medientitel, ein Radiosender, eine genutzte App oder Funktionalität, eine Kurzbeschreibung eines Titels von Inhalten genutzt werden. Ein Navigationssystem kann in einer geografischen Umgebung angeordnete POls sowie für den Nutzer individuell interessante POls bereitstellen.Examples of object or situation recognition are the recognition of a building or a geographical environment, the classification of buildings or other classifiable facilities, such as a theater, opera, cinema, hotel, school, town hall, swimming pool, hospital as well as doctor's office and therapy facility, restaurant, Stop, train station, parking lot or the like. Information about points of interest (POI) of a navigation system can also be taken into account. Furthermore, a traffic situation, route, area or direct environment can be recorded and taken into account. In addition, features and properties of a current use of media or apps, such as volume, a music or media title, a radio station, an app used or functionality, a brief description of a title of content can be used. A navigation system can provide POIs arranged in a geographical area as well as POIs that are individually interesting for the user.
Diese Objekte und/oder deren Merkmale und Attribute können in einer Small-Talk-Datenbank (entity data store) permanent aktualisiert gespeichert werden, etwa bei einem externen Backend oder im Fahrzeug. Die Small-Talk-Datenbank zum Speichern von Attributen von Dateneinheiten kann zusätzlich genutzt oder angebunden werden. Während des Small-Talks werden erkannte Entitäten aus dem Gespräch in Beziehung zu Entitäten der (Fahrzeug-)Small-Talk-Datenbank gesetzt und der Small-Talk kann so in eine für den Fahrer informierende beziehungsweise unterstützende Richtung gelenkt werden.These objects and / or their features and attributes can be stored permanently updated in a small talk database (entity data store), for example in an external backend or in the vehicle. The small talk database for storing attributes of data units can also be used or linked. During the small talk, identified entities from the conversation are related to entities in the (vehicle) small talk database and the small talk can thus be steered in a direction that is informative or supportive for the driver.
Durch eine Sprachanalyse der von dem Fahrer und/oder weiteren Fahrzeuginsassen gesprochenen Dialoge können Entitäten gefunden werden, die zuvor im Small-Talk-System gespeichert wurden. Entitäten können über eine Datenbank, etwa bei einer Datenmodellierung mittels eines Entity-Relationship-Modells, für wissensbasierte Systeme (Wissensbasis, knowledge base) definiert sein und über semantische Entitätenmodelle in Beziehung zueinander gesetzt werden, sodass weitere die Thematik näher spezifizierende passende Fragen, Angebote, Vorschläge, Informationen und/oder Antworten durch das Small-Talk-System als Antwortausgaben erzeugt und ausgegeben werden können.Through a speech analysis of the dialogues spoken by the driver and / or other vehicle occupants, entities can be found that were previously stored in the small talk system. Entities can be defined for knowledge-based systems (knowledge base) using a database, for example in data modeling using an entity relationship model, and can be related to one another using semantic entity models, so that further relevant questions, offers, Suggestions, information and / or answers can be generated and output by the small talk system as answer outputs.
Die zueinander in Beziehung stehenden Entitäten werden in Entitätenmodellen hinterlegt und können zur weiteren Präzisierung von thematischen Inhalten für das Small-Talk-Gespräch verwendet werden. Dabei werden weitere Entitäten assoziiert, die in Entitätenmodellen hinterlegt sind, insbesondere auf Grundlage von im Sprachdialog bereits erkannten Entitäten. In dem Datenmodell, in dem die Entitäten und deren Verknüpfungen definiert sind, können Prognosen zu auf der Erfahrung basierenden linguistischen Zusammenhängen berücksichtigt werden, welche zuvor statisch aus Datenauswertungen erhoben wurden. Beispielsweise treten bestimmte Begriffe treten häufig in Kombination mit anderen Begriffen auf. Das Entitätenmodell kann daher auch für eine konkrete Person selbstlernend erweitert und personalisiert werden.The related entities are stored in entity models and can be used to further specify thematic content for the small talk conversation. In doing so, further entities are associated that are included in Entity models are stored, in particular on the basis of entities already recognized in the speech dialog. In the data model in which the entities and their links are defined, forecasts of linguistic relationships based on experience can be taken into account, which were previously collected statically from data evaluations. For example, certain terms often appear in combination with other terms. The entity model can therefore also be extended and personalized for a specific person in a self-learning manner.
In diesem Zusammenhang können auch Angebote bezüglich bereits vorhandener und beispielweise vom Fahrzeugsystem angebotener Applikationen und Dienste genutzt werden, wie Organisationsapplikationen, die Reservierungsmöglichkeit von beispielsweise Kino oder Theaterkarten, Bestellmöglichkeiten, etwa von Lebensmitteln, Musik, Nachrichten, Informationen, Beratung und so weiter.In this context, offers relating to applications and services that are already available and, for example, offered by the vehicle system can be used, such as organizational applications, the possibility of reserving cinema or theater tickets, for example, ordering options for food, music, news, information, advice and so on.
Weiterhin kann diese Art von an den Fahrer angepasstem Small-Talk genutzt werden, um die Fahrsicherheit zu erhöhen, die Verkehrssituation beziehungsweise Umgebung zu erkennen oder dem Fahrer neue Funktionalitäten des Fahrzeugs zu erschließen sowie auf dessen aktuelle Emotionen einzugehen. So können etwa bei vom Fahrzeugsystem erkannten Fahreremotionen, wie Ärger, Wut, Traurigkeit oder Ungeduld, mit Hilfe eines um die aktuellen Fahrerinteressen erweiterten Small-Talks durch gezielte Fragen an den Fahrer spezifische Angebote an diesen aus den im Fahrzeug vorhandenen Applikationen und Diensten angeboten werden, um den Fahrerzustand positiv zu beeinflussen, etwa gewünschte Bestellungen und Aufrufen des Infotainmentsystems mit Musik, Nachrichten, Informationen oder spezifischer Beratung. Somit kann ein Einbezug einer Emotionserkennung zum Small-Talk mit einem empathischen Assistenten erfolgen.Furthermore, this type of small talk adapted to the driver can be used to increase driving safety, to recognize the traffic situation or surroundings or to open up new functions of the vehicle to the driver and to respond to his current emotions. For example, in the case of driver emotions recognized by the vehicle system, such as anger, anger, sadness or impatience, with the help of a small talk expanded to include the current driver interests through targeted questions to the driver, specific offers can be offered to the driver from the applications and services available in the vehicle. in order to positively influence the driver's condition, such as desired orders and calling up the infotainment system with music, news, information or specific advice. This means that emotion recognition can be included in small talk with an empathic assistant.
Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Zeichnungen erläutert.
-
1 zeigt ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Sprachdialogsystems und -
2 zeigt eines Detailansicht des Ausführungsbeispiels des erfindungsgemäßen Sprachdialogsystems.
-
1 shows a vehicle with an embodiment of the speech dialogue system according to the invention and -
2 shows a detailed view of the embodiment of the speech dialog system according to the invention.
Mit Bezug zu
Das Fahrzeug
Die Erfassungseinheit
Auch die Ausgabeeinheit
Mit Bezug zu
Bei dem Ausführungsbeispiel des Verfahrens wird zunächst eine Spracheingabe eines Nutzers mittels der Erfassungseinheit
Die erste Datenbank
Anschließend werden zu der Spracheingabe passende Antwortausgaben ermittelt. Dies erfolgt mittels der ersten 4 und zweiten Dialoganalyseeinheit
Das DNN greift dabei ferner auf eine weitere Datenbank
Die zweite Dialoganalyseeinheit
Bei einem weiteren Ausführungsbeispiel greift auch die Skript-Einheit auf die Datenbank
Bei einem weiteren Ausführungsbeispiel werden ferner Umgebungsdaten erfasst. Diese umfassen beispielsweise Informationen über einen Zustand des Fahrzeugs
Die erzeugte erste und zweite Antwortausgabe werden an einen Dialog-Manager übertragen, der in einem Schritt S6 entscheidet, ob die erste oder die zweite Antwortausgabe ausgegeben werden soll. Das heißt, der Dialogmanager entscheidet zwischen mittels unterschiedlicher Dialoganalysen erzeugten Antworten auf die Spracheingabe. Hierzu werden Relevanzwahrscheinlichkeiten genutzt, die bei dem Ausführungsbeispiel bei der Erzeugung der Antwortausgaben durch die erste 4 und zweite Dialoganalyseeinheit
Das Bestimmen der Relevanzwahrscheinlichkeiten erfolgt auf an sich bekannte Weise. Beispielsweise wird die Antwortausgabe beziehungsweise eine Vielzahl potentieller Antwortausgaben durch das DNN der ersten Dialoganalyseeinheit
Zum Entscheiden zwischen der ersten und zweiten Antwortausgabe wird ferner der Kontext des durchgeführten Dialogs berücksichtigt, insbesondere durch Zugriff auf die Datenbank
In einem weiteren Schritt S7 erfolgt eine Umwandlung der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit in gesprochene Sprache, wobei hierzu auf an sich bekannte Weise eine Umwandlung des Textes in gesprochene Sprache (text-to-speech, TTS) erfolgt. Die Ausgabe wird schließlich mittels der Ausgabeeinheit
Ein Dialog zwischen dem Nutzer und dem als „Bot“ bezeichneten Sprachdialogsystem kann beispielsweise auf folgende Weise ablaufen:
- Nutzer: „Ich habe gestern den Trailer zum neuen „König der Löwen“-Film gesehen, was hältst du vom Film?‟
- Bot: „Ich mag die fotorealistische Darstellung der Tiere im Film.“
- Nutzer: „Das heißt, dass im Film keine echten Tiere vorkommen?“
- Bot: „Der gesamte Film entstand am Computer.“
- Nutzer: „Das klingt beeindruckend. Kannst du mir sagen, ob der Film irgendwo in der Nähe aufgeführt wird?“
- User: "I saw the trailer for the new" The Lion King "movie yesterday, what do you think of the film?"
- Bot: "I like the photo-realistic representation of the animals in the film."
- User: "That means that there are no real animals in the film?"
- Bot: "The entire film was made on the computer."
- User: “That sounds impressive. Can you tell me if the film is being shown anywhere in the area? "
Bis zu diesem Punkt werden die Ausgaben des Bots mittels des neuronalen Netzes der ersten Dialoganalyseeinheit
An diesem Punkt des Dialogverlaufs erkennt das System anhand der Frage des Nutzers, dass eine Handlungsanweisung an das System vorliegt, nämlich das Suchen eines Kinos in der Nähe, das den Film zeigt. Diese Funktion kann durch eine Funktion des Systems im Fahrzeug
BezugszeichenlisteList of reference symbols
- 11
- Fahrzeugvehicle
- 22
- ErfassungseinheitRegistration unit
- 33
- SteuereinheitControl unit
- 44th
- Erste DialoganalyseeinheitFirst dialogue analysis unit
- 55
- Zweite DialoganalyseeinheitSecond dialogue analysis unit
- 66th
- AusgabeeinheitOutput unit
- S1 bis S7S1 to S7
- Schrittstep
- DB1, DB2, DB3DB1, DB2, DB3
- DatenbankDatabase
- DMDM
- DialogmanagerDialogue manager
- NERNER
- Einheit zum Erkennen von EntitätenUnit for recognizing entities
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent literature cited
- US 2016/0071518 A1 [0003]US 2016/0071518 A1 [0003]
- DE 102017115936 A1 [0004]DE 102017115936 A1 [0004]
- US 2018/0090132 A1 [0005]US 2018/0090132 A1 [0005]
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019217751.4A DE102019217751A1 (en) | 2019-11-18 | 2019-11-18 | Method for operating a speech dialogue system and speech dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019217751.4A DE102019217751A1 (en) | 2019-11-18 | 2019-11-18 | Method for operating a speech dialogue system and speech dialogue system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019217751A1 true DE102019217751A1 (en) | 2021-05-20 |
Family
ID=75683372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019217751.4A Pending DE102019217751A1 (en) | 2019-11-18 | 2019-11-18 | Method for operating a speech dialogue system and speech dialogue system |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019217751A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022263179A1 (en) * | 2021-06-15 | 2022-12-22 | Mercedes-Benz Group AG | Method and device for generating voice outputs in a vehicle |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1346556B1 (en) * | 2000-12-18 | 2011-10-19 | Deutsche Telekom AG | Dialog system for man-machine interaction, comprising co-operating dialog devices |
DE102013222757A1 (en) * | 2012-11-13 | 2014-05-15 | Gm Global Technology Operations, Llc | Adaptation methods and systems for speech systems |
DE102013219649A1 (en) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal |
-
2019
- 2019-11-18 DE DE102019217751.4A patent/DE102019217751A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1346556B1 (en) * | 2000-12-18 | 2011-10-19 | Deutsche Telekom AG | Dialog system for man-machine interaction, comprising co-operating dialog devices |
DE102013222757A1 (en) * | 2012-11-13 | 2014-05-15 | Gm Global Technology Operations, Llc | Adaptation methods and systems for speech systems |
DE102013219649A1 (en) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022263179A1 (en) * | 2021-06-15 | 2022-12-22 | Mercedes-Benz Group AG | Method and device for generating voice outputs in a vehicle |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112016004863T5 (en) | Parameter collection and automatic dialog generation in dialog systems | |
DE19533541C1 (en) | Method for the automatic control of one or more devices by voice commands or by voice dialog in real time and device for executing the method | |
EP2176858B1 (en) | Method for voice recognition | |
DE102015213722B4 (en) | Method for operating a voice recognition system in a vehicle and voice recognition system | |
DE102019119171A1 (en) | VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS | |
DE102016125812A1 (en) | Learn pronunciations of a personalized entity | |
EP3108476B1 (en) | Method for acquiring at least two pieces of information to be acquired, comprising information content to be linked, using a speech dialogue device, speech dialogue device, and motor vehicle | |
DE102014109122A1 (en) | Systems and methods for result-based arbitration in speech dialogue systems | |
WO1998010413A1 (en) | Speech-processing system and method | |
CN110534104A (en) | Voice match method, electronic device, the computer equipment of Intelligent dialogue system | |
DE102005018174A1 (en) | Method for the targeted determination of a complete input data record in a speech dialogue 11 | |
EP1950672A1 (en) | Method and data processing system for manual access of structurally stored information | |
DE19933524A1 (en) | Procedure for entering data into a system | |
CN109545205A (en) | Virtual assistant based on context is realized | |
EP1926081A1 (en) | Method for dialogue adaptation and dialogue system for this purpose | |
DE112020002288T5 (en) | Method, system and apparatus for understanding and generating human conversational cues | |
DE60214850T2 (en) | FOR A USER GROUP, SPECIFIC PATTERN PROCESSING SYSTEM | |
DE10110977C1 (en) | Providing help information in a speech dialogue system | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
CN113821620B (en) | Multi-round dialogue task processing method and device and electronic equipment | |
DE102019218918A1 (en) | DIALOGUE SYSTEM, ELECTRONIC DEVICE AND METHOD OF CONTROLLING THE DIALOGUE SYSTEM | |
DE102019217751A1 (en) | Method for operating a speech dialogue system and speech dialogue system | |
WO2021144155A1 (en) | Method, computer program, and apparatus for processing a user input | |
EP3115886B1 (en) | Method for operating a voice controlled system and voice controlled system | |
EP1321851B1 (en) | Method and system for the usage of user selectable markers as entry points in the structure of a menu of a speech dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015220000 Ipc: G10L0015320000 |
|
R016 | Response to examination communication |