DE102019217751A1

DE102019217751A1 - Method for operating a speech dialogue system and speech dialogue system

Info

Publication number: DE102019217751A1
Application number: DE102019217751.4A
Authority: DE
Inventors: Fabian Galetzka; Tatjana Kruscha; Simon Jordan; Jewgeni Rose
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2021-05-20

Abstract

Bei dem Verfahren zum Betreiben eines Sprachdialogsystems, wird eine Spracheingabe erfasst, eine erste Antwortausgabe wird anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse erzeugt und eine zweite Antwortausgabe wird anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse erzeugt. Eine erste Relevanzwahrscheinlichkeit wird für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit wird für die zweite Antwortausgabe bestimmt und anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit wird eine Sprachausgabe erzeugt. Das Sprachdialogsystem umfasst eine Erfassungseinheit (2), die dazu eingerichtet ist, eine Spracheingabe zu erfassen, eine erste (4) und eine zweite Dialoganalyseeinheit (5), die dazu eingerichtet sind, anhand der Spracheingabe eine erste und eine zweite Antwortausgabe zu erzeugen, eine Steuereinheit (3), die dazu eingerichtet ist, eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe zu bestimmen, und eine Ausgabeeinheit (6), die dazu eingerichtet ist, anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit eine Sprachausgabe zu erzeugen.

In the method for operating a voice dialog system, a voice input is recorded, a first response output is generated based on the voice input by means of a non-targeted dialog analysis, and a second response output is generated based on the voice input by means of a targeted dialog analysis. A first relevance probability is determined for the first answer output and a second relevance probability is determined for the second answer output, and a voice output is generated on the basis of the answer output with the highest relevance probability. The speech dialogue system comprises a detection unit (2) which is set up to detect a speech input, a first (4) and a second dialogue analysis unit (5) which are set up to generate a first and a second response output based on the speech input, a Control unit (3) which is set up to determine a first relevance probability for the first answer output and a second relevance probability for the second answer output, and an output unit (6) which is set up to use the answer output with the highest relevance probability to assign a voice output produce.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems und ein Sprachdialogsystem, insbesondere in einem Fahrzeug.The present invention relates to a method for operating a speech dialogue system and a speech dialogue system, in particular in a vehicle.

Sprachdialogsysteme können in vielfältigen Kontexten eingesetzt werden, um eine besonders einfache Bedienung elektronischer Einrichtungen zu ermöglichen. Der Nutzer muss dabei keine physischen Bedienelemente betätigen, sondern kann mittels sprachlicher Äußerungen Funktionen aktivieren oder einstellen, Eingaben vornehmen oder Kommunikationsaufgaben durchführen. Eingaben in natürlicher Sprache stellen allerdings bekannte Systeme häufig vor Probleme, etwa wenn dem Nutzer ein korrekter Sprachbefehl unbekannt ist oder er nicht weiß, welche Steuerungs- und Eingabemöglichkeiten ihm zur Verfügung stehen. Zudem eigenen sich nicht alle Ansätze zur Spracherkennung und -verarbeitung gleichermaßen für alle Aufgaben, etwa das Führen eines Gesprächs mit dem Nutzers und die Bedienung von konkreten elektronischen Einrichtungen.Speech dialog systems can be used in a wide variety of contexts in order to enable particularly simple operation of electronic devices. The user does not have to operate any physical control elements, but can activate or set functions, make entries or carry out communication tasks by means of verbal utterances. However, inputs in natural language often pose problems for known systems, for example if the user is unfamiliar with a correct voice command or does not know which control and input options are available to him. In addition, not all approaches to speech recognition and processing are equally suitable for all tasks, such as having a conversation with the user and operating specific electronic devices.

Aus der US 2016/0071518 A1 ist ein Spracherkennungssystem bekannt, bei dem für Äußerungen eines Nutzers eine Intention bestimmt und anhand der Intention eine geeignete Erkennungsmaschine ausgewählt wird. Es wird eine Suche durchgeführt und die Ergebnisse werden dem Nutzer präsentiert.From the US 2016/0071518 A1 a speech recognition system is known in which an intention is determined for utterances by a user and a suitable recognition engine is selected on the basis of the intention. A search is performed and the results are presented to the user.

Die DE 10 2017 115 936 A1 beschreibt ein Verfahren, bei dem ein Sprachassistent aktiviert wird, wenn aus dem Zusammenhang des Sprache erkannt wird, dass eine hörbare Sprachunterstützung angemessen ist. Dabei werden mehrere Wörter als Eingabeargument verwendet, um eine Zusatzinformation zu ermitteln und auszugeben.The DE 10 2017 115 936 A1 describes a method in which a voice assistant is activated when it is recognized from the context of the language that audible language support is appropriate. Several words are used as input arguments in order to determine and output additional information.

Bei dem in der US 2018/0090132 A1 beschriebenen Sprachdialogsystem wird eine Vielzahl verschiedener Dialogszenarien gespeichert und ein Dialogtext wird zum Antworten auf eine Äußerung eines Nutzers erzeugt. Dabei wird überprüft, ob die Antwort des Nutzers auf eine erste Äußerung des Systems einer erwarteten Antwort entspricht, und gegebenenfalls wird eine passende weitere Äußerung des Systems als Antwort ausgegeben. Entspricht die Äußerung des Nutzers keiner erwarteten Antwort, so wird ein neues Dialogszenario ausgewählt, das dem Inhalt der Äußerung entspricht.The one in the US 2018/0090132 A1 A large number of different dialog scenarios are stored and a dialog text is generated for responding to an utterance by a user. A check is made as to whether the user's response to a first utterance by the system corresponds to an expected response, and, if necessary, a suitable further utterance by the system is output as a response. If the user's utterance does not correspond to an expected response, a new dialog scenario is selected that corresponds to the content of the utterance.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Sprachdialogsystem und ein Verfahren zu seinem Betrieb bereitzustellen, wobei der Nutzer auf eine möglichst einfache und intuitive Weise eine sprachliche Bedienung vornehmen kann.The present invention is based on the object of providing a speech dialog system and a method for its operation, the user being able to operate verbally in the simplest and most intuitive way possible.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 und ein Sprachdialogsystem mit den Merkmalen des Anspruchs 9 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.According to the invention, this object is achieved by a method with the features of claim 1 and a speech dialog system with the features of claim 9. Advantageous refinements and developments result from the dependent claims.

Bei dem erfindungsgemäßen Verfahren zum Betreiben eines Sprachdialogsystems wird eine Spracheingabe erfasst. Eine erste Antwortausgabe wird anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse erzeugt und eine zweite Antwortausgabe wird anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse erzeugt. Eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe werden bestimmt. Anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit wird eine Sprachausgabe erzeugt.In the method according to the invention for operating a speech dialogue system, a speech input is recorded. A first response output is generated on the basis of the voice input by means of a non-targeted dialogue analysis and a second response output is generated on the basis of the voice input by means of a targeted dialogue analysis. A first relevance probability for the first answer output and a second relevance probability for the second answer output are determined. A voice output is generated on the basis of the response output with the highest probability of relevance.

Dies erlaubt es vorteilhafterweise, zwischen Antwortausgaben auszuwählen, die mittels verschiedener Analysemethoden erzeugt wurden, und abhängig vom jeweiligen Kontext die optimale Sprachausgabe bereitzustellen. Das Sprachdialogsystem kann dadurch insbesondere sowohl eine natürlichsprachliche, nicht-zielgeführte Unterhaltung mit dem Nutzer, als auch einen zielgeführten Dialog zum Steuern einer Einrichtung implementieren.This advantageously makes it possible to choose between response outputs that were generated by means of different analysis methods, and to provide the optimal speech output depending on the respective context. As a result, the speech dialogue system can in particular implement both a natural language, non-targeted conversation with the user and a targeted dialogue for controlling a facility.

Einem Nutzer, etwa dem Fahrer eines Fahrzeugs, sind häufig nicht alle bedienbaren Funktionalitäten und Anwendungen beziehungsweise Applikationen bekannt, etwa Funktionen eines Fahrzeugs oder weiterer Geräte wie Smartphones oder eines externen Rechnersystems. Dies ist etwa durch die Fülle der zur Verfügung stehende Funktionalitäten bedingt. Von besonderer Bedeutung ist dies bei einer Nutzung von Leihfahrzeugen, mit denen der Nutzer nicht vertraut ist. Zudem steht nur eine geringe Aufmerksamkeit für die Bedienung zur Verfügung, vor allem während des Führens des Fahrzeugs, was das Aufrufen und Nutzen verschiedener Funktionen erschwert. Das Verfahren erlaubt es nun, eine für den Nutzer unterstützende und informierende Small-Talk-Funktionalität bereitzustellen, die inhaltlich auch als nützlich empfunden wird, während gleichzeitig vorhandene Funktionalitäten, etwa eines Fahrzeugs oder eines Infotainmentsystems, und weitere Funktionen umfassend genutzt werden können.A user, for example the driver of a vehicle, is often not aware of all operable functionalities and applications or applications, for example functions of a vehicle or other devices such as smartphones or an external computer system. This is due, for example, to the abundance of functionalities available. This is of particular importance when using rental vehicles with which the user is not familiar. In addition, little attention is paid to operation, especially while driving the vehicle, which makes it difficult to call up and use various functions. The method now makes it possible to provide small talk functionality that supports and informs the user, the content of which is also felt to be useful, while existing functionalities, such as a vehicle or an infotainment system, and other functions can be used extensively at the same time.

Das Sprachdialogsystem wird dabei insbesondere nicht gezielt aufgerufen, um eine konkrete Applikation zu bedienen, sondern der Kontext wird automatisch erkannt und ein geeignetes System zur Dialoganalyse wird gewählt. Das heißt, der Nutzer muss die jeweilige gewünschte Applikation sowie deren bedienbare Funktionen nicht von Beginn an kennen. Ferner ist das System flexibel in einer Vielzahl verschiedener Situationen nutzbar.In particular, the speech dialogue system is not specifically called up in order to operate a specific application, but the context is automatically recognized and a suitable system for dialogue analysis is selected. This means that the user does not have to choose the respective desired application or its operable functions from the start know. Furthermore, the system can be used flexibly in a large number of different situations.

Die erfasste Spracheingabe ist insbesondere natürlichsprachlich ausgebildet, das heißt, sie ist nicht auf vorgegebene Befehle oder Schlüsselwörter beschränkt, sondern ein Nutzer kann frei formulierte Eingaben tätigen. Die Erfassung erfolgt auf an sich bekannte Weise, insbesondere mittels eines Mikrofons. Es wird eine Umwandlung der Spracheingabe in Text oder eine andere automatisch von einem Rechnersystem verarbeitbare Datenform durchgeführt. Dabei können an sich bekannte Verfahren zur Umwandlung von Sprache in Text (speech to text, SST) verwendet werden. Umgekehrt wird die Sprachausgabe insbesondere akustisch wahrnehmbar erzeugt, wobei ebenfalls bekannte Verfahren zur Umwandlung von Text in Sprache erfolgt (text to speech, TTS).The recorded voice input is particularly natural language, that is, it is not limited to given commands or key words, but a user can make freely formulated inputs. The detection takes place in a manner known per se, in particular by means of a microphone. The speech input is converted into text or another data form that can be processed automatically by a computer system. Methods known per se for converting speech to text (SST) can be used. Conversely, the voice output is generated in particular acoustically perceptible, with known methods for converting text into speech (text to speech, TTS) also taking place.

Bei einer „Dialoganalyse“ im Sinne der Erfindung wird ausgehend von zumindest einer Spracheingabe und einer Dialoghistorie zumindest eine Antwortausgabe oder eine Reihe von Kandidaten für eine Antwortausgabe erzeugt.In a “dialogue analysis” within the meaning of the invention, at least one response output or a series of candidates for an answer output is generated on the basis of at least one voice input and a dialogue history.

Bei der nicht-zielgeführten Dialoganalyse wird insbesondere nicht von einem Dialog ausgegangen, der entlang einer vordefinierten Abfolge von Eingaben eines Nutzers und eindeutig zugeordneten Antworten des Systems verläuft, um als Ziel der Interaktion beispielsweise eine Einstellung einer Funktionalität vorzunehmen. Stattdessen wird beispielsweise eine Small-Talk-Funktionalität ausgeführt, bei welcher die Sprachausgabe als Antwort des Systems so erzeugt werden soll, dass eine fortlaufende Unterhaltung mit dem Nutzer fortgeführt wird. Eine solche nicht-zielgeführte Analyse kann etwa mittels eines datengetriebenen Systems ausgeführt werden, bei dem die Antwortausgabe anhand von Trainingsdaten früherer Dialoge erzeugt wird.In the case of non-targeted dialogue analysis, a dialogue is in particular not assumed that runs along a predefined sequence of inputs by a user and uniquely assigned responses from the system in order, for example, to set a functionality as the target of the interaction. Instead, for example, a small talk functionality is carried out in which the voice output is to be generated as a response from the system in such a way that an ongoing conversation with the user is continued. Such a non-targeted analysis can be carried out, for example, by means of a data-driven system in which the response output is generated on the basis of training data from previous dialogues.

Bei einer erfindungsgemäßen Ausbildung wird die erste Antwortausgabe bei der nicht-zielgeführten Dialoganalyse mittels eines Maschinenlernsystems erzeugt. Insbesondere umfasst das Maschinenlernsystem ein tiefes neuronales Netz (deep neural network, DNN). Dadurch kann das System vorteilhafterweise besonders umfassend und mittels einer Vielzahl bereits vorbekannter Dialogverläufe und stetig neu erfasster Daten trainiert werden.In an embodiment according to the invention, the first response output in the non-targeted dialog analysis is generated by means of a machine learning system. In particular, the machine learning system comprises a deep neural network (DNN). As a result, the system can advantageously be trained particularly comprehensively and by means of a large number of previously known dialog processes and continuously newly acquired data.

Bei einer weiteren Ausbildung greift das Maschinenlernsystem zum Erzeugen der ersten Antwortausgabe auf eine personalisierte Präferenzen-Datenbank zu, die in Abhängigkeit von einer Dialoghistorie aktualisiert wird. Dadurch kann das Maschinenlernsystem vorteilhafterweise besonders flexibel an einen Nutzer, bestimmte Kontexte und Ansprüche angepasst werden.In a further embodiment, the machine learning system accesses a personalized preferences database to generate the first response output, which database is updated as a function of a dialog history. As a result, the machine learning system can advantageously be adapted particularly flexibly to a user, specific contexts and requirements.

Die Präferenzen-Datenbank wird beispielsweise anhand von erfassten Daten über die Annahme von Sprachausgaben durch den Nutzer erzeugt. Beispielsweise kann der Nutzer durch eine Eingabe zu erkennen geben, dass eine Sprachausgabe des Systems nicht relevant für seine Spracheingabe ist oder dass er den Dialogverlauf zu einem anderen Thema lenken möchte. Hieraus kann dann bestimmt werden, dass die ausgegebene Sprachausgabe nicht relevant für den Nutzer ist und in der Präferenzen-Datenbank kann eine negative Rückmeldung gespeichert werden. Umgekehrt kann eine positive Rückmeldung gespeichert werden, wenn der Nutzer die Sprachausgabe akzeptiert oder bestätigt.The preferences database is generated, for example, on the basis of recorded data about the acceptance of speech outputs by the user. For example, the user can use an input to indicate that a voice output of the system is not relevant for his voice input or that he would like to direct the course of the dialog to another topic. From this it can then be determined that the voice output is not relevant to the user and negative feedback can be stored in the preferences database. Conversely, positive feedback can be saved if the user accepts or confirms the voice output.

Die bei der Dialoganalyse berücksichtigte Dialoghistorie ist insbesondere so gebildet, dass sie einen Verlauf eines aktuellen Gesprächs umfasst. Der Verlauf kann etwa eine Reihe nacheinander erfasster Spracheingaben und Antwortausgaben umfassen oder es kann die innerhalb eines bestimmten Zeitraums erfassten Spracheingaben und die dazu erzeugten Antwortausgaben umfassen. Die Dialoghistorie wird insbesondere in einer Datenbank gespeichert, auf die beispielsweise zum Erzeugen der ersten und/oder zweiten Antwortausgabe zugegriffen werden kann.The dialog history taken into account in the dialog analysis is in particular formed in such a way that it includes the course of a current conversation. The course can include, for example, a series of voice inputs and response outputs recorded one after the other, or it can include the voice inputs recorded within a certain period of time and the response outputs generated for this purpose. The dialog history is in particular stored in a database that can be accessed, for example, to generate the first and / or second response output.

Die Dialoghistorie kann ferner weitere Informationen über einen Gesprächskontext umfassen. Beispielsweise können dies Informationen über einen Betriebszustand eines Fahrzeugs, eine aktuelle Verkehrssituation, eine Position und/oder eine geografische Umgebung des Fahrzeugs sein. Die weiteren Informationen können ferner aktuelle Informationen umfassen oder auf die Vergangenheit und Zukunft bezogen sein, etwa bei Terminen eines Nutzers oder Daten einer Nutzung einer Kommunikationseinrichtung, oder Informationen über weitere Personen in der Nähe eines Nutzers, etwa im gleichen Fahrzeug.The dialog history can also include further information about a conversation context. For example, this can be information about an operating state of a vehicle, a current traffic situation, a position and / or a geographical environment of the vehicle. The further information can also include current information or be related to the past and future, for example in the case of appointments of a user or data relating to the use of a communication device, or information about other people in the vicinity of a user, for example in the same vehicle.

Bei der zielgeführten beziehungsweise regelbasierten Dialoganalyse wird insbesondere von einem „geskripteten“, deterministisch vorgegebenen Dialogverlauf ausgegangen. Das heißt, einer Spracheingabe wird ein in einer Datenbank gespeicherter Dialogzustand zugeordnet, etwa ein Schritt einer Bedienung einer Einrichtung. Diesem Dialogzustand ist dann eine Antwortausgabe zugeordnet. Eine solche Dialoganalyse ist also beispielsweise dazu geeignet, einen Nutzer gezielt durch eine Bedienung zu führen, eine Eingabe zu erfassen oder einen anderen vorgegebenen Dialogablauf durchzuführen.In the targeted or rule-based dialogue analysis, a "scripted", deterministically specified course of the dialogue is assumed. That is, a voice input is assigned a dialog state stored in a database, for example a step in the operation of a device. A response output is then assigned to this dialog state. Such a dialog analysis is therefore suitable, for example, for guiding a user through an operation in a targeted manner, for capturing an input or for carrying out another predetermined dialog process.

Bei einer Weiterbildung wird bei der zielgeführten Dialoganalyse anhand eines regelbasierten Expertensystems eine Bedienanweisung für eine mittels des Sprachdialogsystems steuerbaren Funktionalität erzeugt. Der Dialog kann dadurch vorteilhafterweise dazu genutzt werden, eine Handlungsanweisung an der System gezielt zu erfassen.In a further development, in the targeted dialog analysis using a rule-based expert system, operating instructions for a functionality that can be controlled by means of the speech dialog system are generated. The dialogue can thereby can advantageously be used to specifically record an instruction on the system.

In diesem Fall entspricht also eine Bedienanweisung dem Ziel der zielgeführten Dialoganalyse, insbesondere eines geskripteten Dialogs, etwa um eine bestimmte Einrichtung zu bedienen oder um eine bestimmte Eingabe zu erfassen. Dabei wird eine vorgegebene Wissensbasis verwendet, um eine relevante Antwortausgabe zu bestimmen.In this case, an operating instruction corresponds to the goal of the targeted dialog analysis, in particular a scripted dialog, for example to operate a specific device or to record a specific input. A predefined knowledge base is used to determine a relevant answer output.

Das Expertensystem kann bei dem Verfahren lokal ausgebildet sein, etwa mit einer integrierten Speichereinheit das Sprachdialogsystems zum Speichern einer entsprechenden Datenbank das Sprachdialogsystem kann ferner auf eine externe Einheit mit dem Expertensystem zugreifen, etwa über ein Rechnernetzwerk wie das Internet oder durch eine Verbindung zu einer externen Einheit, wie einem mobilen Nutzergerät. Auf diese Weise können unterschiedliche Expertensysteme modular eingebunden werden.The expert system can be designed locally in the method, for example with an integrated memory unit, the speech dialog system for storing a corresponding database, the speech dialog system can also access an external unit with the expert system, for example via a computer network such as the Internet or through a connection to an external unit such as a mobile user device. In this way, different expert systems can be integrated in a modular way.

Die Handlungsanweisung betrifft insbesondere eine mit dem Sprachdialogsystem datentechnisch gekoppelte Einheit, an die die Bedienanweisung anschließend übertragen wird.The handling instruction relates, in particular, to a unit which is data-technically coupled to the speech dialogue system and to which the operating instruction is then transmitted.

Beispielsweise ist das Sprachdialogsystem in einem Fahrzeug integriert und die Handlungsanweisung wird für eine weitere Einrichtung des Fahrzeugs erzeugt. Derartige Einrichtungen können beispielsweise Einstellungen der Fahreigenschaften des Fahrzeugs, ein Infotainmentsystem oder eine Telekommunikationseinrichtung betreffen.For example, the speech dialogue system is integrated in a vehicle and the operating instruction is generated for a further set-up of the vehicle. Such devices can, for example, relate to settings of the driving characteristics of the vehicle, an infotainment system or a telecommunication device.

Bei einer Ausbildung zum Erzeugen der zweiten Antwortausgabe wird die Spracheingabe einem Dialogszenario zugeordnet, wobei das Dialogszenario eine Eingabeintention und eine für die Eingabeintention vorgegebene Ausgabeantwort umfasst. Dadurch wird vorteilhafterweise ein geskripteter Dialog besonders effizient durchgeführt.In an embodiment for generating the second response output, the voice input is assigned to a dialogue scenario, the dialogue scenario comprising an input intention and an output response predetermined for the input intention. As a result, a scripted dialog is advantageously carried out particularly efficiently.

Beim Bestimmen eines Dialogszenarios wird ein Kontext der Eingabe bestimmt, wobei die Dialoghistorie und weitere Daten über den Zustand des Sprachdialogsystems und der jeweiligen Umgebung berücksichtigt werden. Das Dialogszenario beschreibt eine potentiellen Ablauf des Dialogs mit System antworten, die bestimmten Eingaben zugeordnet sind, und darauf erwarteten potentiellen weiteren Eingaben eines Nutzers. Hierbei wird als Eingabeintention die Bedienung einer bestimmten Einheit, das Aufrufen einer Funktionalität oder die Ausführung einer Aufgabe zum Bereitstellen von bestimmten Informationen verstanden. Das heißt, die Eingabeintention gibt an, welchem Ziel die zielgeführte Dialoganalyse dienen soll.When determining a dialogue scenario, a context of the input is determined, the dialogue history and further data about the state of the speech dialogue system and the respective environment being taken into account. The dialog scenario describes a potential course of the dialog with system responses that are assigned to specific inputs and potential further inputs expected from a user. Here, the input intention is understood to be the operation of a specific unit, the calling up of a functionality or the execution of a task to provide specific information. This means that the input intention indicates which goal the goal-directed dialogue analysis should serve.

Bei dem Verfahren wird insbesondere laufend die Relevanz der zuletzt bestimmten Eingabeintention überprüft. Wenn bestimmt wird, dass eine andere Intention relevanter erscheint, wird das Dialogszenario entsprechend anders bestimmt. Auf diese Weise kann reagiert werden, wenn sich die Eingabeintention des Nutzers während des Dialogs verändert oder wenn der Nutzer zum Ausdruck bringt, dass eine falsche Eingabeintention erkannt wurde.In the method, the relevance of the input intention determined last is checked continuously. If it is determined that a different intention appears more relevant, the dialogue scenario is determined differently accordingly. In this way, it is possible to react if the input intention of the user changes during the dialogue or if the user expresses that a wrong input intention was recognized.

Bei einer weiteren Ausbildung werden Umgebungsdaten eines Nutzers erfasst und die erste und/oder zweite Antwortausgabe werden ferner anhand der erfassten Umgebungsdaten des Nutzers erzeugt werden. Dadurch kann vorteilhafterweise eine besonders relevante Antwortausgabe erzeugt werden.In a further embodiment, environmental data of a user are recorded and the first and / or second response output will also be generated on the basis of the recorded environmental data of the user. In this way, a particularly relevant response output can advantageously be generated.

Die Umgebungsdaten können beispielsweise den Betriebszustand eines Fahrzeugs oder einer anderen Einrichtung, eine aktuelle, vergangene oder prognostizierte Position und dieser Position zugeordnete Merkmale sowie persönliche Daten eines Nutzers umfassen. Sie können auch nutzerbezogene Informationen betreffen, anhand derer etwa eine Erkennung eines Zustands des Nutzers und/oder seiner Emotionen durchgeführt werden kann. Die erste und/oder zweite Antwortausgabe können daher ferner anhand der erfassten Informationen über einen Zustand und/oder Emotionen des Nutzers erzeugt werden. Sie können ferner in einer räumlichen Umgebung des Nutzers ermittelte und/oder gespeicherte Informationen betreffen. Die räumliche Umgebung kann dabei für einen aktuellen, vergangenen oder zukünftigen Zeitpunkt betrachtet werden.The environmental data can include, for example, the operating state of a vehicle or another device, a current, past or forecast position and features assigned to this position, as well as personal data of a user. They can also relate to user-related information, on the basis of which, for example, a state of the user and / or his emotions can be recognized. The first and / or second response output can therefore also be generated on the basis of the recorded information about a state and / or emotions of the user. They can also relate to information determined and / or stored in a spatial environment of the user. The spatial environment can be viewed for a current, past or future point in time.

Anhand der Umgebungsdaten wird insbesondere ein Kontext der Spracheingabe bestimmt und bei der nicht-zielgeführten beziehungsweise bei der zielgeführten Dialoganalyse verwendet. Beispielsweise kann die Menge der potentiell zu berücksichtigenden Antwortausgaben anhand der Umgebungsdaten beschränkt werden, etwa weil der sprachliche Bezug zwischen der Spracheingabe anhand der Umgebungsdaten geklärt werden kann.In particular, a context of the voice input is determined on the basis of the environmental data and is used in the non-targeted or in the targeted dialog analysis. For example, the amount of response outputs that are potentially to be taken into account can be limited on the basis of the environment data, for example because the linguistic relationship between the voice input can be clarified using the environment data.

Das Bestimmen der ersten und zweiten Relevanzwahrscheinlichkeit erfolgt auf an sich bekannte Weise. Die Wahrscheinlichkeiten werden insbesondere bei einer statistischen Analyse der erzeugten ersten und zweiten Antwortausgabe bestimmt und mit der jeweiligen Antwortausgabe zusammen ausgegeben. Die Relevanzwahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit eine Antwortausgabe eine für den Nutzer relevante Reaktion auf die zuvor erfasste Spracheingabe darstellt. Es können unterschiedliche Verfahren verwendet werden, um beispielsweise Beziehungen zwischen den Antwortausgaben und der Spracheingabe zu analysieren und einen Kontext sowie eine Eingabeintention anhand der Spracheingabe und der Dialoghistorie zu bestimmen. Beim Bestimmen der Relevanzwahrscheinlichkeiten können auch die Umgebungsdaten berücksichtigt werden.The first and second relevance probability are determined in a manner known per se. The probabilities are determined in particular during a statistical analysis of the generated first and second response output and output together with the respective response output. The relevance probability indicates the probability with which a response output represents a reaction to the previously recorded voice input that is relevant for the user. Different methods can be used, for example, to analyze relationships between the response outputs and the voice input and to assign a context and an input intention based on the voice input and the dialog history determine. When determining the relevance probabilities, the environmental data can also be taken into account.

Bei einer Weiterbildung werden die erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und die zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe mit einem Relevanz-Schwellenwert verglichen, wobei für die Erzeugung der Sprachausgabe nur Antwortausgaben mit einer Relevanzwahrscheinlichkeit oberhalb des Relevanz-Schwellenwerts berücksichtigt werden. Dadurch wird vorteilhafterweise sichergestellt, dass lediglich solche Antwortausgaben berücksichtigt werden, die zumindest eine bestimmte Wahrscheinlichkeit dafür aufweisen, dass sie der Eingabeintention des Nutzers entsprechen.In a further development, the first relevance probability for the first answer output and the second relevance probability for the second answer output are compared with a relevance threshold value, with only answer outputs with a relevance probability above the relevance threshold value being taken into account for generating the voice output. This advantageously ensures that only those response outputs are taken into account that have at least a certain probability that they correspond to the input intention of the user.

Der Relevanz-Schwellenwert kann fest vorgegeben sein. Er kann sich ferner je nach dem Verfahren unterscheiden, durch das die Antwortausgaben erzeugt wurden. Beispielsweise können unterschiedliche Relevanz-Schwellenwerte vorgesehen sein, wenn Antwortausgaben mittels eines neuronalen Netzes oder mittels eines Expertensystems erzeugt werden. Der Relevanz-Schwellenwert kann ferner dynamisch erzeugt werden und beispielsweise umso höher bestimmt werden, je höher eine für den Kontext bestimmte Kritikalität ist. Beispielsweise kann im Kontext eines Fahrzeugs bestimmt werden, dass bei hohem Verkehrsaufkommen eine höhere Kritikalität als bei niedrigem Verkehrsaufkommen vorliegt, und der Schwellenwert kann in diesem Fall höher angesetzt werden, um eine unnötige Ablenkung durch weniger relevante Antworten zu vermeiden. Es können zum Beispiel die Umgebungsdaten berücksichtigit werden, um die Relevanzwahrscheinlichkeit zu bestimmenThe relevance threshold value can be permanently specified. It may also differ depending on the method by which the response outputs were generated. For example, different relevance threshold values can be provided if response outputs are generated by means of a neural network or by means of an expert system. The relevance threshold value can also be generated dynamically and, for example, be determined higher the higher a criticality determined for the context is. For example, it can be determined in the context of a vehicle that there is a higher criticality when there is a high volume of traffic than when there is a low volume of traffic, and the threshold value can be set higher in this case in order to avoid unnecessary distraction from less relevant answers. For example, the environmental data can be taken into account in order to determine the probability of relevance

Bei einer Ausbildung wird eine von der Spracheingabe umfasste Entität bestimmt und die erste Relevanzwahrscheinlichkeit und die zweite Relevanzwahrscheinlichkeit werden in Abhängigkeit von der bestimmten Entität bestimmt. Die Bestimmung der Entitäten kann mittels an sich bekannter Verfahren, etwa mittels eines Named Entity Resolver oder eines Named Entity Recognizer(NER) erfolgen. Anhand der Entitäten können vorteilhafterweise besonders relevante und an den jeweiligen Kontext angepasste Antwortausgaben erzeugt werden.In one training, an entity comprised by the voice input is determined and the first relevance probability and the second relevance probability are determined as a function of the determined entity. The entities can be determined using methods known per se, for example using a Named Entity Resolver or a Named Entity Recognizer ( NER ) respectively. On the basis of the entities, particularly relevant response outputs adapted to the respective context can advantageously be generated.

Unter „Entitäten“ werden im Kontext der Erfindung insbesondere sprachliche Objekte verstanden, die gesammelte Informationen beinhalten. Zu den Entitäten können beispielsweise Attribute und Prädikate bestimmt werden, um den Inhalt der Spracheingabe weiter zu bestimmen. Auf diese Weise werden sie zum Erzeugen der Antwortausgaben genutzt und geben sowohl Aufschluss über den Kontext der Spracheingabe als auch über den Inhalt beziehungsweise die Eingabeintention des Nutzers.In the context of the invention, “entities” are understood to mean in particular linguistic objects that contain collected information. For example, attributes and predicates can be determined for the entities in order to further determine the content of the speech input. In this way, they are used to generate the response outputs and provide information about the context of the speech input as well as about the content or the input intention of the user.

Die bestimmten Entitäten sind damit zentral für die Entscheidung, welche der erzeugten Antwortausgaben die höchste Relevanz für den Nutzer aufweist. Insbesondere wird anhand der Entitäten unterschieden, ob eine Antwortausgabe der nicht-zielgeführten Dialoganalyse oder eine Antwortausgabe der zielgeführten Dialoganalyse ausgegeben werden soll.The specific entities are therefore central to the decision as to which of the response outputs generated has the highest relevance for the user. In particular, a distinction is made on the basis of the entities as to whether a response output of the non-targeted dialogue analysis or a response output of the targeted dialogue analysis is to be output.

Insbesondere werden Entitäten im Zusammenhang mit durch das Sprachdialogsystem bedienbaren Funktionalitäten, etwa mit Fahrzeug- und Infotainment-Funktionalitäten in einem Fahrzeug, durch ein Maschinenlernsystem trainiert und gelernt, wobei sie in einer Datenbank als sogenannte Knowledge-Base gespeichert werden. Die Nutzung bedienbarer Funktionalitäten wird insbesondere personalisiert mit einem Nutzer verknüpft. In einem aktuellen Dialog verwendete Entitäten werden beispielsweise durch ein Maschinenlernsystem generiert, indem Sprachdialoge und Umgebungsdaten ausgewertet werden, etwa von einem Fahrzeug erfasste Daten über die Fahrsituation, den Innenraum oder das Umfeld des Fahrzeugs, eine Verkehrssituation sowie erfasste Informationen über den Zustand des Fahrers. Insbesondere werden dabei auch persönliche Interessen des Fahrers und/oder für den Nutzer bestimmte Emotionen ausgewertet, um flexibel auf die jeweilige Stimmung des Fahrers reagieren zu können.In particular, entities in connection with functionalities that can be operated by the speech dialog system, for example with vehicle and infotainment functionalities in a vehicle, are trained and learned by a machine learning system, whereby they are stored in a database as a so-called knowledge base. The use of operable functionalities is linked, in particular, to a user in a personalized manner. Entities used in a current dialog are generated, for example, by a machine learning system in which voice dialogues and environmental data are evaluated, for example data recorded by a vehicle about the driving situation, the interior or the surroundings of the vehicle, a traffic situation and recorded information about the state of the driver. In particular, personal interests of the driver and / or emotions specific to the user are evaluated in order to be able to react flexibly to the driver's mood.

Die gegebenenfalls von den Umgebungsdaten umfassten Informationen über den Zustand des Nutzers können ihrerseits verschiedene Daten umfassen und werden insbesondere bei einer Nutzeremotions- und Nutzerzustandserkennung erfasst und ausgewertet. Dabei können etwa Bewegungsabläufe, Mimik und Gestik des Fahrers oder eines anderen Nutzers ausgewertet werden. Ferner können Sprachparameter analysiert werden, etwa Parameter einer Stimme, Sprechgeschwindigkeit, Lautstärke, verwendete Phrasen oder eine Gesprächsdynamik. Zudem können physiologische Parameter beziehungsweise Vitalparameter des Nutzers des Sprachdialogsystems berücksichtigt werden. Insbesondere sind hierfür in einem Fahrzeug eine Fahreremotions- und Fahrerzustandserkennung vorgesehen. Ferner kann etwa eine Smartphone-Applikation genutzt werden, um Informationen über den Zustand des Nutzers, wie etwa Bewegungsabläufe, Bewegungsmuster, Gestik und Mimik, zu ermitteln und zu klassifizieren. Ferner können physiologische Parameter beziehungsweise Vitalparameter des Nutzers über Sensoren erfasst werden, die etwa in Kleidungsstücken oder in tragbaren Messgeräten integriert sind und am Körper oder in der Nähe des Körpers des Nutzers angeordnet sind. Die so erfassten Daten können dann ausgelesen werden, etwa mittels einer Smartphone-Applikation, und für das Sprachdialogsystem ausgewertet und genutzt werden.The information about the condition of the user, which may be included in the environmental data, can in turn include various data and is recorded and evaluated in particular in the case of user emotion and user status detection. Movement sequences, facial expressions and gestures of the driver or another user can be evaluated. In addition, speech parameters can be analyzed, such as parameters of a voice, speaking speed, volume, used phrases or conversation dynamics. In addition, physiological parameters or vital parameters of the user of the speech dialogue system can be taken into account. In particular, driver emotion and driver status recognition are provided in a vehicle for this purpose. Furthermore, a smartphone application can be used to determine and classify information about the state of the user, such as movement sequences, movement patterns, gestures and facial expressions. Furthermore, physiological parameters or vital parameters of the user can be recorded via sensors, which are integrated, for example, in items of clothing or in portable measuring devices and are arranged on or in the vicinity of the body of the user. The data recorded in this way can then be read out, for example using a smartphone Application, and evaluated and used for the speech dialogue system.

Das erfindungsgemäße Sprachdialogsystem umfasst eine Erfassungseinheit, die dazu eingerichtet ist, eine Spracheingabe zu erfassen, eine erste Dialoganalyseeinheit, die dazu eingerichtet ist, anhand der Spracheingabe mittels einer nicht-zielgeführten Dialoganalyse eine erste Antwortausgabe zu erzeugen, und eine zweite Dialoganalyseeinheit, die dazu eingerichtet ist, anhand der Spracheingabe mittels einer zielgeführten Dialoganalyse eine zweite Antwortausgabe zu erzeugen. Es umfasst ferner eine Steuereinheit, die dazu eingerichtet ist, eine erste Relevanzwahrscheinlichkeit für die erste Antwortausgabe und eine zweite Relevanzwahrscheinlichkeit für die zweite Antwortausgabe zu bestimmen, und eine Ausgabeeinheit, die dazu eingerichtet ist, anhand der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit eine Sprachausgabe zu erzeugen.The speech dialogue system according to the invention comprises a detection unit which is set up to detect a speech input, a first dialogue analysis unit which is set up to generate a first response output based on the speech input by means of a non-targeted dialogue analysis, and a second dialogue analysis unit which is set up to do so to generate a second response output on the basis of the voice input by means of a targeted dialogue analysis. It further comprises a control unit which is set up to determine a first relevance probability for the first answer output and a second relevance probability for the second answer output, and an output unit which is set up to generate a voice output based on the answer output with the highest relevance probability.

Das erfindungsgemäße Sprachdialogsystem ist insbesondere ausgebildet, das vorstehend beschriebene erfindungsgemäße Verfahren zu implementieren. Das Sprachdialogsystem weist somit dieselben Vorteile auf wie das erfindungsgemäße Verfahren.The speech dialog system according to the invention is designed in particular to implement the method according to the invention described above. The speech dialog system thus has the same advantages as the method according to the invention.

Bei einer Ausbildung des erfindungsgemäßen Sprachdialogsystems ist die zweite Dialoganalyseeinheit dazu eingerichtet, anhand eines regelbasierten Expertensystems eine Bedienanweisung für eine mittels des Sprachdialogsystems steuerbaren Funktionalität zu erzeugen. Dadurch wird die Antwortausgabe vorteilhafterweise gezielt anhand einer bestehenden Wissensbasis erzeugt. Ferner können Expertensysteme modular in das Sprachdialogsystem eingebunden oder über eine datentechnische Verbindung von einer externen Einheit bereitgestellt werden.In one embodiment of the speech dialogue system according to the invention, the second dialogue analysis unit is set up to generate operating instructions for a functionality that can be controlled by means of the speech dialogue system using a rule-based expert system. As a result, the response output is advantageously generated in a targeted manner using an existing knowledge base. Furthermore, expert systems can be integrated modularly into the speech dialogue system or provided by an external unit via a data connection.

Dabei können anhand einer Sprachinteraktion Funktionalitäten aufgerufen werden, für die dem Nutzer bereits vorgegebene Begriffe, Ausdrücke und Wörter bekannt sind. Dies erfolgt insbesondere über eine zielgeführte Dialoganalyse , insbesondere einen geskripteten Dialog. Ferner kann der Nutzer mittels einer nicht-zielgeführten Dialoganalyse zum Aufrufen, Aktivieren und Nutzen von Funktionalität und Anwendungen gelangen, die ihm unbekannt sind oder auf die er zunächst hingewiesen werden muss. Hierfür wird beispielsweise eine Small-Talk-Applikation genutzt, bei der anhand von Daten über einen Kontext oder eine Situation zu empfehlende Funktionalitäten bestimmt werden. Mittels der Small-Talk-Applikation und gegebenenfalls einer Situationserkennung kann ermittelt werden, auf welche Weise der Nutzer aktuell unterstützt werden möchte beziehungsweise welche relevante Unterstützung angeboten werden kann, wobei weniger relevante Funktionalitäten nicht angeboten werden. Über eine Small-Talk-Applikation kann auf Funktionalitäten und Anwendungen gezielter und schneller zugegriffen werden, wobei der Nutzer sich die Sprachbefehle dafür nicht merken muss. Üblicherweise vom Nutzer in einem bestimmten Kontext verwendete Funktionalitäten und Anwendungen können gezielt angeboten werden.Functionalities for which the user is already familiar with specified terms, expressions and words can be called up on the basis of a voice interaction. This is done in particular via a targeted dialogue analysis, in particular a scripted dialogue. Furthermore, by means of a non-targeted dialogue analysis, the user can access, activate and use functionality and applications that are unknown to him or to which he must first be informed. A small talk application is used for this, for example, in which functionalities to be recommended are determined on the basis of data about a context or a situation. By means of the small talk application and possibly a situation recognition, it can be determined in which way the user would like to be supported at the moment or which relevant support can be offered, whereby less relevant functionalities are not offered. Using a small talk application, functionalities and applications can be accessed more specifically and more quickly, without the user having to remember the voice commands. Functionalities and applications usually used by the user in a specific context can be offered in a targeted manner.

Somit erfolgt eine weitgehende Unterstützung bei der Nutzung bedienbarer Funktionalitäten, etwa in einem Fahrzeug und zur Bedienung einer Infotainmenteinrichtung, es wird ein intuitiver Zugang zu einer umfassenden Menge von Funktionalitäten und Anwendungen über das Sprachdialogsystem bereitgestellt. Beispielsweise kann auch eine Fahrzeugwartung oder die Nutzung einer Infrastruktur, etwa von Parkplätzen, intuitiv unterstützt werden.This provides extensive support for the use of operable functionalities, for example in a vehicle and for operating an infotainment device, and intuitive access to a comprehensive set of functionalities and applications is provided via the speech dialogue system. For example, vehicle maintenance or the use of an infrastructure, such as parking lots, can be supported intuitively.

Weiterhin kann für verschiedene Nutzer personalisiert gelernt werden, welche spezifischen Funktionalitäten in bestimmten Situationen verwendet werden sollen. Von den gesamten, beispielsweise in einem Fahrzeug, verfügbaren Funktionalitäten und Anwendungen werden anhand des Kontextes und der gegebenenfalls erfassten Daten über die Umgebung die relevantesten bestimmt und genutzt.Furthermore, it is possible to learn in a personalized way for different users which specific functionalities should be used in certain situations. Of all the functionalities and applications available, for example in a vehicle, the most relevant are determined and used on the basis of the context and the possibly recorded data about the environment.

Zudem kann mittels des Sprachdialogsystems und der nicht-zielgeführten Dialoganalyse ein „Freies Sprechen“ beziehungsweise ein „Small-Talk“ realisiert werden, bei dem auf geskriptete Dialogzustände verzichtet wird. Anhand solcher Zustände können allerdings auch zielgerichtete Aufgaben für einen Nutzer erfüllt werden, sodass bei dem Sprachdialogsystem ferner eine zielgeführte Dialoganalyse vorgesehen ist, insbesondere parallel durchgeführt wird. Die Entscheidung, anhand welcher Dialoganalyse die Antwortausgabe erzeugt wird, wird anhand von Relevanzwahrscheinlichkeiten getroffen, zu deren Bestimmung insbesondere Entitäten herangezogen werden. Das heißt, die Verknüpfung der verschiedenen Dialoganalysen des Sprachdialogsystems erfolgt mithilfe der Entitäten, mittels derer auf den jeweiligen Kontext und den aktuellen Dialoginhalt geschlossen wird.In addition, by means of the speech dialogue system and the non-targeted dialogue analysis, “free speaking” or “small talk” can be implemented in which scripted dialogue states are dispensed with. On the basis of such states, however, targeted tasks can also be carried out for a user, so that a targeted dialogue analysis is also provided in the speech dialogue system, in particular carried out in parallel. The decision as to which dialog analysis is used to generate the response output is made on the basis of relevance probabilities, for the determination of which entities in particular are used. This means that the various dialogue analyzes of the speech dialogue system are linked with the aid of the entities, which are used to infer the respective context and the current dialogue content.

Das Verfahren ermöglicht es, eine Small-Talk-Applikation so mit einer regelbasierten Analyse des Dialogs zu verbinden, dass verschiedene Funktionalitäten, etwa eines Fahrzeugs sowie externer Geräte, in einem einheitlichen Bedienkonzept bedient werden.The method makes it possible to combine a small talk application with a rule-based analysis of the dialogue in such a way that various functionalities, such as a vehicle and external devices, are operated in a uniform operating concept.

Zielgeführte Dialoganalysen werden dazu verwendet, konkrete Aufgaben zu erfüllen, etwa bei Spracheingaben wie „Wie ist das Wetter?“ oder „Kauf mir zwei Tickets!“. Insbesondere werden dazu geskriptete Dialogzustände genutzt, bei denen die Spracheingabe einem Dialogszenario zugeordnet wird, für das wiederum bestimmte Antwortaufgaben vorgegeben sind. Dagegen wird die nicht-zielgeführte Dialoganalyse dazu verwendet, ein freies Sprechen mit dem Sprachdialogsystem zu ermöglichen, auch als „Small-Talk“ bezeichnet. Hier wird auf geskriptete Dialogzustände verzichtet und relevante Antwortausgaben werden etwa mittels datengetriebener Maschinenlernsysteme erzeugt, wie beispielsweise ein tiefes neuronales Netz (deep neural network, DNN). Hier wird der Inhalt einer einzelnen Spracheingabe typischerweise nicht bestimmt, sondern die Antwortausgabe wird anhand statistischer Verfahren ermittelt. Bei dem Verfahren werden die beiden Ansätze der Dialoganalyse kombiniert und je nach Anwendungsfall wird zwischen beiden umgeschaltet.Targeted dialogue analyzes are used to perform specific tasks, such as voice input such as “What's the weather like?” Or “Buy me two tickets!”. In particular, scripted dialog states are used for this purpose, in which the voice input is assigned to a dialog scenario for which in turn certain response tasks are given. In contrast, the non-targeted dialogue analysis is used to enable free speech with the speech dialogue system, also known as "small talk". Scripted dialog states are dispensed with here and relevant response outputs are generated using data-driven machine learning systems, such as a deep neural network (DNN). Here, the content of an individual voice input is typically not determined, but the response output is determined using statistical methods. In the process, the two approaches of dialogue analysis are combined and, depending on the application, a switch is made between the two.

Die beiden Ansätze werden insbesondere mittels Entitäten verknüpft, die beispielsweise durch ein tiefes neuronales Netz in einer Trainingsphase gelernt werden. Die verfügbaren Entitäten werden mit zugeordneten Informationen in einer Datenbank gespeichert. Wenn eine Antwortausgabe durch das DNN Ende erzeugt wird, kann ein Dialogmanager über die in der Spracheingabe verwendeten und generierten Entitäten den Dialoginhalt und insbesondere eine Eingabeintention des Nutzers ermitteln. Wird eine Aufgabe erkannt, deren Erfüllung über das Ausführen von Small-Talk hinausgeht, kann ein geskripteter Dialog mittels der zielgeführten Dialoganalyse durchgeführt werden, bis die Aufgabe erfüllt ist.The two approaches are linked in particular by means of entities that are learned, for example, through a deep neural network in a training phase. The available entities are stored with associated information in a database. If a response output is generated by the DNN end, a dialog manager can determine the dialog content and in particular an input intention of the user via the entities used and generated in the voice input. If a task is recognized, the fulfillment of which goes beyond carrying out small talk, a scripted dialogue can be carried out by means of the targeted dialogue analysis until the task is fulfilled.

Bei dem Verfahren kann ferner erreicht werden, dass das Sprachdialogsystem personalisiert wird. Mithilfe eines Reinforcement-Ansatzes werden dabei personalisierte Nutzerinformationen generiert und verwendet, um das System für den Nutzer zu erweitern oder anzupassen. Wird beispielsweise eine Sprachausgabe erzeugt, die auf einer für den Nutzer nicht relevanten Antwortausgabe basiert, so kann das System dies an einem Themenwechsel oder eine andere Rückmeldung durch den Nutzer erkennen; eine negative Rückmeldung wird durch sogenanntes Reinforcement-Leaming genutzt, um in zukünftigen Dialoge ähnlicher Art solche nicht relevanten Ausgaben zu vermeiden.With the method it can also be achieved that the speech dialogue system is personalized. With the help of a reinforcement approach, personalized user information is generated and used to expand or adapt the system for the user. If, for example, a voice output is generated that is based on a response output that is not relevant for the user, the system can recognize this from a change of topic or other feedback from the user; A negative feedback is used by so-called reinforcement leaming in order to avoid such irrelevant issues in future dialogs of a similar type.

Zudem können weitere passende Entitäten erkannt und zugeordnet werden, für die bereits eine Small-Talk-Funktion oder ein Entitätenmodell eines empathischen Assistenten vorhanden ist. Ein Entitätenmodell ordnet dabei zueinander passende Entitäten einander zu. Beispielsweise werden durch eine Fusion von Daten verschiedener Umfeldsensoren oder weiterer Sensoren, etwa zur Situationserkennung in einem Fahrzeuginnenraum, Objekte und Situationen erkannt, die einem Softwareobjekt und/oder einem Begriff, das heißt einer möglichen Entität, in verschiedenen Systemen zugeordnet werden können. Insbesondere werden ferner in Fahrzeug- und Infotainment-Systemen eingestellte Parameter sowie Merkmale und Eigenschaften einer aktuellen Medien- und App-Nutzung im Fahrzeug gespeichert. Attribute für einzelne Objekten (Entitäten) können dabei im Fahrzeug- und Infotainmentsystem zugeordnet und gespeichert werden.In addition, other suitable entities can be identified and assigned for which a small talk function or an entity model of an empathic assistant is already available. An entity model assigns matching entities to one another. For example, by merging data from different environment sensors or other sensors, for example for situation recognition in a vehicle interior, objects and situations are recognized that can be assigned to a software object and / or a term, i.e. a possible entity, in different systems. In particular, parameters set in vehicle and infotainment systems as well as features and properties of current media and app usage are also stored in the vehicle. Attributes for individual objects (entities) can be assigned and saved in the vehicle and infotainment system.

Beispiele für eine Objekt- oder Situationserkennung sind das Erkennen eines Gebäudes oder einer geografischen Umgebung, die Klassifikation von Gebäuden oder anderer klassifizierbarer Einrichtungen, etwa als Theater, Oper, Kino, Hotel, Schule, Rathaus, Schwimmbad, Krankenhaus sowie Arztpraxis und Therapieeinrichtung, Restaurant, Haltestelle, Bahnhof, Parkplatz oder ähnliches. Dabei können ferner Informationen über Sonderziele (points of interest, POI) eines Navigationssystems berücksichtigt werden. Ferner können eine Verkehrssituation, Route, Gegend oder direkte Umgebung erfasst und berücksichtigt werden. Zudem können Merkmale und Eigenschaften einer aktuellen Nutzung von Medien oder Apps, etwa eine Lautstärke, ein Musik- oder Medientitel, ein Radiosender, eine genutzte App oder Funktionalität, eine Kurzbeschreibung eines Titels von Inhalten genutzt werden. Ein Navigationssystem kann in einer geografischen Umgebung angeordnete POls sowie für den Nutzer individuell interessante POls bereitstellen.Examples of object or situation recognition are the recognition of a building or a geographical environment, the classification of buildings or other classifiable facilities, such as a theater, opera, cinema, hotel, school, town hall, swimming pool, hospital as well as doctor's office and therapy facility, restaurant, Stop, train station, parking lot or the like. Information about points of interest (POI) of a navigation system can also be taken into account. Furthermore, a traffic situation, route, area or direct environment can be recorded and taken into account. In addition, features and properties of a current use of media or apps, such as volume, a music or media title, a radio station, an app used or functionality, a brief description of a title of content can be used. A navigation system can provide POIs arranged in a geographical area as well as POIs that are individually interesting for the user.

Diese Objekte und/oder deren Merkmale und Attribute können in einer Small-Talk-Datenbank (entity data store) permanent aktualisiert gespeichert werden, etwa bei einem externen Backend oder im Fahrzeug. Die Small-Talk-Datenbank zum Speichern von Attributen von Dateneinheiten kann zusätzlich genutzt oder angebunden werden. Während des Small-Talks werden erkannte Entitäten aus dem Gespräch in Beziehung zu Entitäten der (Fahrzeug-)Small-Talk-Datenbank gesetzt und der Small-Talk kann so in eine für den Fahrer informierende beziehungsweise unterstützende Richtung gelenkt werden.These objects and / or their features and attributes can be stored permanently updated in a small talk database (entity data store), for example in an external backend or in the vehicle. The small talk database for storing attributes of data units can also be used or linked. During the small talk, identified entities from the conversation are related to entities in the (vehicle) small talk database and the small talk can thus be steered in a direction that is informative or supportive for the driver.

Durch eine Sprachanalyse der von dem Fahrer und/oder weiteren Fahrzeuginsassen gesprochenen Dialoge können Entitäten gefunden werden, die zuvor im Small-Talk-System gespeichert wurden. Entitäten können über eine Datenbank, etwa bei einer Datenmodellierung mittels eines Entity-Relationship-Modells, für wissensbasierte Systeme (Wissensbasis, knowledge base) definiert sein und über semantische Entitätenmodelle in Beziehung zueinander gesetzt werden, sodass weitere die Thematik näher spezifizierende passende Fragen, Angebote, Vorschläge, Informationen und/oder Antworten durch das Small-Talk-System als Antwortausgaben erzeugt und ausgegeben werden können.Through a speech analysis of the dialogues spoken by the driver and / or other vehicle occupants, entities can be found that were previously stored in the small talk system. Entities can be defined for knowledge-based systems (knowledge base) using a database, for example in data modeling using an entity relationship model, and can be related to one another using semantic entity models, so that further relevant questions, offers, Suggestions, information and / or answers can be generated and output by the small talk system as answer outputs.

Die zueinander in Beziehung stehenden Entitäten werden in Entitätenmodellen hinterlegt und können zur weiteren Präzisierung von thematischen Inhalten für das Small-Talk-Gespräch verwendet werden. Dabei werden weitere Entitäten assoziiert, die in Entitätenmodellen hinterlegt sind, insbesondere auf Grundlage von im Sprachdialog bereits erkannten Entitäten. In dem Datenmodell, in dem die Entitäten und deren Verknüpfungen definiert sind, können Prognosen zu auf der Erfahrung basierenden linguistischen Zusammenhängen berücksichtigt werden, welche zuvor statisch aus Datenauswertungen erhoben wurden. Beispielsweise treten bestimmte Begriffe treten häufig in Kombination mit anderen Begriffen auf. Das Entitätenmodell kann daher auch für eine konkrete Person selbstlernend erweitert und personalisiert werden.The related entities are stored in entity models and can be used to further specify thematic content for the small talk conversation. In doing so, further entities are associated that are included in Entity models are stored, in particular on the basis of entities already recognized in the speech dialog. In the data model in which the entities and their links are defined, forecasts of linguistic relationships based on experience can be taken into account, which were previously collected statically from data evaluations. For example, certain terms often appear in combination with other terms. The entity model can therefore also be extended and personalized for a specific person in a self-learning manner.

In diesem Zusammenhang können auch Angebote bezüglich bereits vorhandener und beispielweise vom Fahrzeugsystem angebotener Applikationen und Dienste genutzt werden, wie Organisationsapplikationen, die Reservierungsmöglichkeit von beispielsweise Kino oder Theaterkarten, Bestellmöglichkeiten, etwa von Lebensmitteln, Musik, Nachrichten, Informationen, Beratung und so weiter.In this context, offers relating to applications and services that are already available and, for example, offered by the vehicle system can be used, such as organizational applications, the possibility of reserving cinema or theater tickets, for example, ordering options for food, music, news, information, advice and so on.

Weiterhin kann diese Art von an den Fahrer angepasstem Small-Talk genutzt werden, um die Fahrsicherheit zu erhöhen, die Verkehrssituation beziehungsweise Umgebung zu erkennen oder dem Fahrer neue Funktionalitäten des Fahrzeugs zu erschließen sowie auf dessen aktuelle Emotionen einzugehen. So können etwa bei vom Fahrzeugsystem erkannten Fahreremotionen, wie Ärger, Wut, Traurigkeit oder Ungeduld, mit Hilfe eines um die aktuellen Fahrerinteressen erweiterten Small-Talks durch gezielte Fragen an den Fahrer spezifische Angebote an diesen aus den im Fahrzeug vorhandenen Applikationen und Diensten angeboten werden, um den Fahrerzustand positiv zu beeinflussen, etwa gewünschte Bestellungen und Aufrufen des Infotainmentsystems mit Musik, Nachrichten, Informationen oder spezifischer Beratung. Somit kann ein Einbezug einer Emotionserkennung zum Small-Talk mit einem empathischen Assistenten erfolgen.Furthermore, this type of small talk adapted to the driver can be used to increase driving safety, to recognize the traffic situation or surroundings or to open up new functions of the vehicle to the driver and to respond to his current emotions. For example, in the case of driver emotions recognized by the vehicle system, such as anger, anger, sadness or impatience, with the help of a small talk expanded to include the current driver interests through targeted questions to the driver, specific offers can be offered to the driver from the applications and services available in the vehicle. in order to positively influence the driver's condition, such as desired orders and calling up the infotainment system with music, news, information or specific advice. This means that emotion recognition can be included in small talk with an empathic assistant.

Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Zeichnungen erläutert.

1 zeigt ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Sprachdialogsystems und
2 zeigt eines Detailansicht des Ausführungsbeispiels des erfindungsgemäßen Sprachdialogsystems.

The invention will now be explained on the basis of exemplary embodiments with reference to the drawings.

1 shows a vehicle with an embodiment of the speech dialogue system according to the invention and
2 shows a detailed view of the embodiment of the speech dialog system according to the invention.

Mit Bezug zu 1 wird ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Sprachdialogsystems erläutert.In reference to 1 a vehicle with an embodiment of the speech dialog system according to the invention is explained.

Das Fahrzeug 1 umfasst eine Steuereinheit 3, mit der eine Erfassungseinheit 2 und eine Ausgabeeinheit 6 gekoppelt sind. Die Steuereinheit 3 umfasst eine erste 4 und eine zweite Dialoganalyseeinheit 5.The vehicle 1 includes a control unit 3 , with which a registration unit 2 and an output unit 6th are coupled. The control unit 3 comprises a first 4 and a second dialogue analysis unit 5 .

Die Erfassungseinheit 2 ist auf an sich bekannte Weise ausgebildet und umfasst insbesondere ein Mikrofon. Die Erfassung von lautlichen Äußerungen eines Nutzers, insbesondere eines Fahrers des Fahrzeugs 1, erfolgt bei dem Ausführungsbeispiel fortlaufend, wobei in dem Beispiel erfasste Äußerungen in einem Ringspeicher so gespeichert werden, dass lediglich die Äußerungen innerhalb eines vergangenen Zeitintervalls vorgegebener Länge gespeichert und ältere Äußerungen wieder gelöscht werden. Erst wenn erfasst wurde, dass der Nutzer einen Dialog mit dem Sprachdialogsystem ausführen möchte, werden in diesem Fall auch Äußerungen über einen längeren Zeitraum hinweg gespeichert. Bei weiteren Ausführungsbeispielen erfolgt die Erfassung und Speicherung auf eine Eingabe des Nutzers hin, etwa ausgelöst durch Betätigen eines Eingabeelements oder durch ein Signal einer mittels Sprachbedienung bedienbaren Einrichtung, die den Nutzer zur Eingabe von Sprachbefehlen auffordert und das Sprachdialogsystem zum Erfassen der Sprachbefehle aktiviert.The registration unit 2 is designed in a manner known per se and includes, in particular, a microphone. The recording of spoken statements by a user, in particular a driver of the vehicle 1 , takes place continuously in the exemplary embodiment, with utterances recorded in the example being stored in a ring memory in such a way that only the utterances within a past time interval of a predetermined length are stored and older utterances are deleted again. Only when it has been detected that the user would like to carry out a dialogue with the speech dialogue system, in this case, utterances are also stored over a longer period of time. In further exemplary embodiments, the acquisition and storage takes place in response to an input by the user, for example triggered by actuating an input element or by a signal from a device that can be operated using voice control, which prompts the user to enter voice commands and activates the voice dialogue system to record the voice commands.

Auch die Ausgabeeinheit 5 ist auf an sich bekannte Weise ausgebildet und umfasst insbesondere einen Lautsprecher. Sie ist bei dem Ausführungsbeispiel in ein Infotainmentsystem des Fahrzeugs 1 integriert, das verschiedene Funktionen der Wiedergabe von Medien, den Betrieb von Kommunikationseinrichtungen und die Ausgabe von Meldungen von Fahrerassistenzsystemen sowie die jeweils zugeordnete Erfassung von Nutzereingaben implementiert.Also the output unit 5 is designed in a manner known per se and comprises in particular a loudspeaker. In the exemplary embodiment, it is in an infotainment system of the vehicle 1 integrated, which implements various functions of the playback of media, the operation of communication facilities and the output of messages from driver assistance systems as well as the respectively assigned acquisition of user inputs.

Mit Bezug zu 2 wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens erläutert. Dabei wird von dem oben mit Bezug zu 1 erläuterten Ausführungsbeispiel des erfindungsgemäßen Sprachdialogsystems ausgegangen, welches durch die Beschreibung des Verfahrens weiter spezifiziert wird.In reference to 2 an embodiment of the method according to the invention is explained. In doing so, from the above with reference to 1 explained embodiment of the speech dialog system according to the invention, which is further specified by the description of the method.

Bei dem Ausführungsbeispiel des Verfahrens wird zunächst eine Spracheingabe eines Nutzers mittels der Erfassungseinheit 2 erfasst und in einem ersten Schritt S1 in maschinenlesbaren Text umgewandelt. Dabei werden an sich bekannte Verfahren der Umwandlung (speech-to-text, STT) genutzt. In einem zweiten Schritt S2 wird der so erzeugte Text an eine Einheit zum Verständnis natürlicher Sprache (natural language understanding unit, NLU) übertragen und dort verarbeitet. Insbesondere erfolgt die Verarbeitung mittels einer Einheit zum Erkennen von Entitäten (named entity recognizer, NER), die hierfür eine datentechnische Verbindung zu einer ersten Datenbank DB1 aufbaut.In the exemplary embodiment of the method, first a voice input by a user is made by means of the acquisition unit 2 detected and converted into machine-readable text in a first step S1. Conversion processes known per se (speech-to-text, STT) are used. In a second step S2, the text generated in this way is transmitted to a natural language understanding unit (NLU) and processed there. In particular, the processing takes place by means of a unit for recognizing entities (named entity recognizer, NER ), which for this purpose has a data connection to a first database DB1 builds up.

Die erste Datenbank DB1 speichert Allgemein- und domänenspezifisches Wissen (knowledge base), das konkret die semantische Beziehung zwischen verschiedenen Entitäten repräsentiert. Solche Beziehungen können beispielsweise auf die folgende Weise repräsentiert werden: (Bill Gates; geboren in; Seattle), (Seattle; liegt in; USA). Im Schritt S2 bestimmte Entitäten werden nun dazu verwendet, zugeordnete Informationen zu erfassen und einen Kontext einer Gesprächssituation zwischen dem Nutzer und dem Sprachdialogsystem zu erkennen.The first database DB1 stores general and domain-specific knowledge (knowledge base) that concretely represents the semantic relationship between different entities. Such relationships can be represented in the following ways, for example: (Bill Gates; born in; Seattle), (Seattle; located in; USA). In step S2, certain entities are now used to record assigned information and to recognize a context of a conversation situation between the user and the speech dialogue system.

Anschließend werden zu der Spracheingabe passende Antwortausgaben ermittelt. Dies erfolgt mittels der ersten 4 und zweiten Dialoganalyseeinheit 5. Die erste Dialoganalyseeinheit 4 verarbeitet die Spracheingabe und die darin bestimmten Entitäten in einem Schritt S4 mittels eines tiefen neuronalen Netzes (deep neural network, DNN), das mittels statistischer Verfahren eine erste Antwortausgabe oder eine Reihe potentieller erster Antwortausgaben bestimmt. Das DNN greift hierfür ferner auf eine weitere Datenbank DB3 zu, die einen Dialogverlauf beziehungsweise eine Dialoghistorie zwischen dem Nutzer und dem System speichert. Aus den dort gespeicherten Daten kann daher ein Kontext für die aktuelle Spracheingabe bestimmt werden. Es wird eine nicht-zielgeführte Dialoganalyse durchgeführt, das heißt, es wird nicht ein Ziel bestimmt, auf welches der Dialog ausgerichtet ist, beispielsweise die Erlangung bestimmter Informationen als Nutzereingabe. Vielmehr dient die Dialoganalyse und das Erzeugen der ersten Antwortausgabe dazu, den Dialog weiterzuführen, bis erkannt wird, dass eine bestimmte Bedienhandlung durchgeführt werden soll und eine zielgeführte Dialoganalyse relevanter ist.Response outputs that match the voice input are then determined. This is done using the first 4 and second dialogue analysis units 5 . The first dialogue analysis unit 4th processes the voice input and the entities determined therein in a step S4 by means of a deep neural network (DNN) which, by means of statistical methods, determines a first response output or a series of potential first response outputs. The DNN also uses another database for this purpose DB3 to, which stores a dialog course or a dialog history between the user and the system. A context for the current voice input can therefore be determined from the data stored there. A non-targeted dialogue analysis is carried out, that is to say, a goal is not determined to which the dialogue is aimed, for example the acquisition of certain information as user input. Rather, the dialogue analysis and the generation of the first response output serve to continue the dialogue until it is recognized that a certain operating action is to be carried out and a targeted dialogue analysis is more relevant.

Das DNN greift dabei ferner auf eine weitere Datenbank DB2 zu, in der personalisierte Informationen über das Verhalten, die Interessen sowie Präferenzen des Nutzers gespeichert sind. Das heißt, bei dem Ausführungsbeispiel wird davon ausgegangen, dass eine Identität des Nutzers bekannt ist. Diese wird durch an sich bekannte Verfahren festgestellt, insbesondere mittels einer Eingabe, eines persönlichen Fahrzeugschlüssels oder eines mobilen Nutzergeräts.The DNN also accesses another database DB2 zu, in which personalized information about the behavior, interests and preferences of the user is stored. That is to say, in the exemplary embodiment it is assumed that an identity of the user is known. This is determined by methods known per se, in particular by means of an input, a personal vehicle key or a mobile user device.

Die zweite Dialoganalyseeinheit 5 umfasst eine Skript-Einheit, mittels derer in einem Schritt S5 eine zweite Antwortausgabe erzeugt wird. Hierbei erfolgt eine zielgeführte Dialoganalyse mittels eines regelbasierten Expertensystems, bei dem die Spracheingabe einem vorgegebenen aktuellen Dialogzustand zugeordnet wird, für den wiederum eine bestimmte zweite Antwortausgabe definiert ist. Die Skript-Einheit greift hierzu ebenfalls auf den in der Datenbank DB3 gespeicherten Dialogverlauf zu. Insbesondere wird zunächst eine Eingabeintention bestimmt, beispielsweise eine bestimmte bedienbare Funktion einer Einrichtung des Fahrzeugs 1, zu der im aktuellen Kontext mit einer bestimmten Wahrscheinlichkeit eine Bedienhandlung erfasst werden soll. Eine solche Bedienhandlung stellt dann das Ziel der Bedienung mittels der zweiten Dialoganalyseeinheit 5 dar, wobei in diesem Fall der Dialog so geführt wird, dass die notwendigen Eingaben des Nutzers für Bedienhandlung erfasst werden.The second dialogue analysis unit 5 comprises a script unit, by means of which a second response output is generated in a step S5. Here, a targeted dialogue analysis takes place by means of a rule-based expert system, in which the voice input is assigned to a given current dialogue state, for which in turn a specific second response output is defined. The script unit also accesses the one in the database for this purpose DB3 saved dialog history. In particular, an input intention is first determined, for example a specific operable function of a device of the vehicle 1 , for which an operator action is to be recorded in the current context with a certain probability. Such an operating action then sets the goal of operating by means of the second dialog analysis unit 5 , whereby in this case the dialogue is conducted in such a way that the necessary inputs of the user for the operator action are recorded.

Bei einem weiteren Ausführungsbeispiel greift auch die Skript-Einheit auf die Datenbank DB2 mit personalisierte Informationen zu und verwendet die dort gespeicherten Daten über den Nutzer, um beispielsweise die Eingabeintention oder den aktuellen Dialogzustand genauer zu bestimmen.In a further exemplary embodiment, the script unit also accesses the database DB2 with personalized information and uses the data stored there about the user, for example to determine the input intention or the current dialog state more precisely.

Bei einem weiteren Ausführungsbeispiel werden ferner Umgebungsdaten erfasst. Diese umfassen beispielsweise Informationen über einen Zustand des Fahrzeugs 1, seinen Fahrbetrieb oder eine Situation in seinem Innenraum. Ferner können Informationen über die Position des Fahrzeugs erfasst werden, sowohl betreffend den aktuellen Zeitpunkt, als auch vorhergegangenen Zeitpunkte oder Positionen einer geplanten Route. Anhand der Positionsinformationen können weitere Daten erfasst werden, etwa über Sonderziele in einer Umgebung, Gebäude und Einrichtungen, Gaststätten und Einkaufsmöglichkeiten oder ähnliches. Weiterhin können auch gespeicherte Daten und Informationen, wie zum Beispiel zu Einrichtungsgegenständen eines Smart Home des Nutzers, berücksichtigt werden. Ferner können weitere Informationen über die Umgebung des Fahrzeugs 1 beziehungsweise des Nutzers ermittelt und für eine weitere Bestimmung der Situation gespeichert werden. Die Erfassung von Umgebungsdaten oder anderen Informationen kann dabei nicht nur durch Sensoren des Fahrzeugs 1 erfolgen, sondern es können auch weitere Informationsquellen berücksichtigt werden, etwa ein Rechnernetzwerk, Eingaben eines Nutzers und/oder verfügbare Speichermedien. Die Antwortausgaben werden dann auch anhand dieser Umgebungsdaten und/oder weiteren Informationen erzeugt, wobei anhand der verfügbaren Daten beispielsweise ein Kontext bestimmt wird.In a further exemplary embodiment, environmental data are also recorded. These include, for example, information about a condition of the vehicle 1 , its driving operation or a situation in its interior. Furthermore, information about the position of the vehicle can be recorded, both with regard to the current point in time as well as previous points in time or positions of a planned route. On the basis of the position information, further data can be recorded, for example about points of interest in a surrounding area, buildings and facilities, restaurants and shops or the like. Furthermore, stored data and information, such as items of furniture in a smart home of the user, can also be taken into account. It can also provide additional information about the area around the vehicle 1 or the user can be determined and stored for a further determination of the situation. The acquisition of environmental data or other information can not only be done by the vehicle's sensors 1 instead, other information sources can also be taken into account, for example a computer network, inputs from a user and / or available storage media. The response outputs are then also generated on the basis of this environmental data and / or further information, a context, for example, being determined on the basis of the available data.

Die erzeugte erste und zweite Antwortausgabe werden an einen Dialog-Manager übertragen, der in einem Schritt S6 entscheidet, ob die erste oder die zweite Antwortausgabe ausgegeben werden soll. Das heißt, der Dialogmanager entscheidet zwischen mittels unterschiedlicher Dialoganalysen erzeugten Antworten auf die Spracheingabe. Hierzu werden Relevanzwahrscheinlichkeiten genutzt, die bei dem Ausführungsbeispiel bei der Erzeugung der Antwortausgaben durch die erste 4 und zweite Dialoganalyseeinheit 5 bestimmt wurden.The generated first and second answer output are transmitted to a dialog manager, which decides in a step S6 whether the first or the second answer output should be output. This means that the dialog manager decides between responses to the voice input generated by means of different dialog analyzes. For this purpose, relevance probabilities are used which, in the exemplary embodiment, are generated when the response outputs are generated by the first 4 and second dialogue analysis units 5 were determined.

Das Bestimmen der Relevanzwahrscheinlichkeiten erfolgt auf an sich bekannte Weise. Beispielsweise wird die Antwortausgabe beziehungsweise eine Vielzahl potentieller Antwortausgaben durch das DNN der ersten Dialoganalyseeinheit 4 mittels statistischer Verfahren bestimmt und dabei wird auch eine Wahrscheinlichkeit bestimmt, mit der die erste Antwortausgabe als Antwort auf die Spracheingabe relevant ist. Diese Wahrscheinlichkeit wird das Relevanzwahrscheinlichkeiten mit der ersten Antwortausgabe an den Dialogmanager Dialog-Manager übergeben. In analoger Weise wird durch die Skript-Einheit der zweiten Dialoganalyseeinheit 5 eine Relevanzwahrscheinlichkeit für die ausgegebene zweite Antwortausgabe bestimmt, wobei beispielsweise eine Konfidenz beim Bestimmen der Eingabeintention berücksichtigt wird, und an den Dialog-Manager übergeben.The relevance probabilities are determined in a manner known per se. For example, the response output or a large number of potential response outputs are determined by the DNN of the first dialogue analysis unit 4th determined by means of statistical methods and a probability is also determined with which the first response output is relevant as a response to the voice input. This probability is transferred to the dialog manager Dialog Manager with the first response output. In an analogous manner, the script unit of the second dialog analysis unit 5 a relevance probability for the output second response output is determined, for example a confidence is taken into account when determining the input intention, and transferred to the dialog manager.

Zum Entscheiden zwischen der ersten und zweiten Antwortausgabe wird ferner der Kontext des durchgeführten Dialogs berücksichtigt, insbesondere durch Zugriff auf die Datenbank DB3, die den Dialogverlauf speichert, sowie auf die Datenbank DB2 mit personalisierten Informationen. Anhand der dort erfassten Daten wird der Kontext näher bestimmt und die Relevanzwahrscheinlichkeiten für die erste und zweite Antwortausgabe kann präzisiert werden. Umgekehrt werden im Schritt S6 auch Daten bereitgestellt, um die Datenbanken DB2, DB3 zu aktualisieren, beispielsweise indem der Dialogverlauf um die schließlich ausgegebene Antwortausgabe ergänzt und eine dabei bestimmte persönliche Präferenz des Nutzers gespeichert wird.To decide between the first and second response output, the context of the dialogue carried out is also taken into account, in particular through access to the database DB3 , which saves the course of the dialog, as well as to the database DB2 with personalized information. Based on the data recorded there, the context is determined in more detail and the relevance probabilities for the first and second response output can be specified more precisely. Conversely, in step S6, data is also made available to the databases DB2 , DB3 to update, for example by adding the answer output to the course of the dialogue and storing a specific personal preference of the user.

In einem weiteren Schritt S7 erfolgt eine Umwandlung der Antwortausgabe mit der höchsten Relevanzwahrscheinlichkeit in gesprochene Sprache, wobei hierzu auf an sich bekannte Weise eine Umwandlung des Textes in gesprochene Sprache (text-to-speech, TTS) erfolgt. Die Ausgabe wird schließlich mittels der Ausgabeeinheit 6 im Fahrzeug 1 ausgegeben.In a further step S7, the response output with the highest probability of relevance is converted into spoken language, with the text being converted into spoken language (text-to-speech, TTS) in a manner known per se. The output is finally made by means of the output unit 6th in the vehicle 1 issued.

Ein Dialog zwischen dem Nutzer und dem als „Bot“ bezeichneten Sprachdialogsystem kann beispielsweise auf folgende Weise ablaufen:

Nutzer: „Ich habe gestern den Trailer zum neuen „König der Löwen“-Film gesehen, was hältst du vom Film?‟
Bot: „Ich mag die fotorealistische Darstellung der Tiere im Film.“
Nutzer: „Das heißt, dass im Film keine echten Tiere vorkommen?“
Bot: „Der gesamte Film entstand am Computer.“
Nutzer: „Das klingt beeindruckend. Kannst du mir sagen, ob der Film irgendwo in der Nähe aufgeführt wird?“

A dialogue between the user and the speech dialogue system known as a "bot" can, for example, take place in the following way:

User: "I saw the trailer for the new" The Lion King "movie yesterday, what do you think of the film?"
Bot: "I like the photo-realistic representation of the animals in the film."
User: "That means that there are no real animals in the film?"
Bot: "The entire film was made on the computer."
User: “That sounds impressive. Can you tell me if the film is being shown anywhere in the area? "

Bis zu diesem Punkt werden die Ausgaben des Bots mittels des neuronalen Netzes der ersten Dialoganalyseeinheit 4 erzeugt, die einen Small-Talk-Bot implementiert. Die Antworten werden datengetrieben erzeugt, das heißt, das System generiert die wahrscheinlichsten Antworten auf der Grundlage zuvor gelernter, früherer Dialoge.Up to this point, the outputs of the bot are recorded by the neural network of the first dialogue analysis unit 4th that implements a small talk bot. The answers are generated data-driven, which means that the system generates the most likely answers on the basis of previously learned dialogues.

An diesem Punkt des Dialogverlaufs erkennt das System anhand der Frage des Nutzers, dass eine Handlungsanweisung an das System vorliegt, nämlich das Suchen eines Kinos in der Nähe, das den Film zeigt. Diese Funktion kann durch eine Funktion des Systems im Fahrzeug 1 ausgeführt werden. Hierzu wird durch Identifizieren der Entitäten in der Anfrage des Nutzers sowie in der Dialoghistorie die Entität „der Film“ als Referenz auf den Filmtitel „König der Löwen“ aufgelöst und zusammen mit dem Befehl zur Suche nach einer entsprechenden Spielstätte, im Allgemeinen also zu einer POI-Suche, an das Sprachdialogsystem weitergegeben. Nachfolgend werden nun Antwortausgaben durch die zweite Dialoganalyseeinheit 5 ausgegeben, wobei ein skriptbasierter Dialog zum Abarbeiten einer Anfrage des Nutzers an die POI-Suche durchgeführt wird und gegebenenfalls weitere Informationen vom Nutzer abgefragt werden. Beispielsweise kann nun auch aus dem Dialog heraus eine Bedienhandlung erfasst werden, durch die das Navigationssystem des Fahrzeugs 1 für eine Fahrt zu einem entsprechenden Kino eingestellt wird und/oder in einem Kalender des Nutzers ein Termin für einen Kinobesuch geplant wird.At this point in the course of the dialogue, the system recognizes, based on the user's question, that the system has been instructed to act, namely to search for a nearby cinema that is showing the film. This function can be performed by a function of the system in the vehicle 1 are executed. For this purpose, by identifying the entities in the user's request and in the dialog history, the entity “the film” is resolved as a reference to the film title “The Lion King” and together with the command to search for a corresponding venue, generally a POI -Search, passed on to the speech dialogue system. Response outputs by the second dialog analysis unit are now shown below 5 output, with a script-based dialog for processing a request from the user to the POI search being carried out and, if necessary, further information being requested from the user. For example, an operating action can now also be recorded from the dialogue, by means of which the navigation system of the vehicle 1 is set for a trip to a corresponding cinema and / or an appointment for a visit to the cinema is planned in a calendar of the user.

BezugszeichenlisteList of reference symbols

11: Fahrzeugvehicle
22: ErfassungseinheitRegistration unit
33: SteuereinheitControl unit
44th: Erste DialoganalyseeinheitFirst dialogue analysis unit
55: Zweite DialoganalyseeinheitSecond dialogue analysis unit
66th: AusgabeeinheitOutput unit
S1 bis S7S1 to S7: Schrittstep
DB1, DB2, DB3DB1, DB2, DB3: DatenbankDatabase
DMDM: DialogmanagerDialogue manager
NERNER: Einheit zum Erkennen von EntitätenUnit for recognizing entities

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

US 2016/0071518 A1 [0003]
DE 102017115936 A1 [0004]
US 2018/0090132 A1 [0005]

Claims

Method for operating a speech dialogue system in which a speech input is recorded; a first response output is generated on the basis of the voice input by means of a non-targeted dialogue analysis; and a second response output is generated on the basis of the voice input by means of a targeted dialogue analysis; a first probability of relevance for the first answer output and a second probability of relevance for the second answer output are determined; and a voice output is generated on the basis of the response output with the highest probability of relevance.

Procedure according to Claim 1 , characterized in that the first response output in the non-targeted dialogue analysis is generated by means of a machine learning system.

Procedure according to Claim 2 , characterized in that the machine learning system accesses a personalized preferences database for generating the first response output, which database is updated as a function of a dialog history.

Method according to one of the preceding claims, characterized in that during the targeted dialogue analysis using a rule-based expert system, an operating instruction for a functionality that can be controlled by means of the speech dialogue system is generated.

Procedure according to Claim 4 , characterized in that, in order to generate the second response output, the voice input is assigned to a dialogue scenario; wherein the dialogue scenario comprises an input intention and an output response predetermined for the input intention.

Method according to one of the preceding claims, characterized in that environmental data of a user are recorded and the first and / or second response output are furthermore generated on the basis of the recorded environmental data of the user.

Method according to one of the preceding claims, characterized in that the first relevance probability for the first answer output and the second relevance probability for the second answer output are compared with a relevance threshold value; only response outputs with a relevance probability above the relevance threshold value are taken into account for the generation of the voice output.

Method according to one of the preceding claims, characterized in that an entity comprised by the voice input is determined; and the first probability of relevance and the second probability of relevance are determined as a function of the determined entity.

Speech dialog system, comprising a detection unit (2) which is set up to detect a voice input; a first dialogue analysis unit (4) which is set up to generate a first response output on the basis of the voice input by means of a non-targeted dialogue analysis; a second dialogue analysis unit (5) which is set up to generate a second response output on the basis of the voice input by means of a targeted dialogue analysis; a control unit which is set up to determine a first relevance probability for the first answer output and a second relevance probability for the second answer output; and an output unit (6) which is set up to generate a voice output based on the response output with the highest probability of relevance.

Speech dialog system according to Claim 9 , characterized in that the second dialogue analysis unit (5) is set up to use a rule-based expert system to generate operating instructions for a functionality that can be controlled by means of the speech dialogue system.