DE102020131949A1

DE102020131949A1 - System und verfahren zum erlernen einer fahrerpräferenz und zum anpassen einer spurzentrierungssteuerung an ein fahrerverhalten

Info

Publication number: DE102020131949A1
Application number: DE102020131949.5A
Authority: DE
Inventors: Mohammadali Shahriari; Amir Takhmar; Reza Zarringhalam
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2020-01-09
Filing date: 2020-12-02
Publication date: 2021-07-15
Also published as: US20210213959A1; CN113173163A; US11420638B2

Abstract

Ein Fahrzeug sowie ein System und Verfahren zum Betrieb eines Fahrzeugs sind angegeben. Das System umfasst einen Prozessor. Der Prozessor erlernt ein Fahrerverhalten eines Fahrers des Fahrzeugs, während der Fahrer ein Straßensegment befährt, erzeugt eine Verhaltensrichtlinie basierend auf dem Fahrerverhalten und einem dem Straßensegment zugeordneten Schwellenwert und steuert das Fahrzeug, um das Straßensegment unter Verwendung der Verhaltensrichtlinie zu befahren.

Description

EINLEITUNG
Die Offenbarung bezieht sich auf die Fahrzeugnavigation und insbesondere auf ein System und Verfahren zum Anpassen eines Verhaltens eines autonomen Fahrzeugs an ein Fahrerverhalten des Fahrzeugs.
Ein autonomes Fahrzeug oder halbautonomes Fahrzeug ist in der Lage, Straßen und Autobahnen gemäß einem vorher festgelegten Verhalten zu befahren. Das genaue Verhalten des autonomen Fahrzeugs wird sich höchstwahrscheinlich von dem Verhalten des Fahrzeugs unterscheiden, wenn es von einer Person hinter dem Lenkrad gefahren wird. Zum Beispiel wird das autonome Fahrzeug oft eine Kurve befahren, indem es sich in der Mitte zwischen einem äußeren und einem inneren Rand der Kurve hält, während ein Fahrer entweder den äußeren oder den inneren Rand berührt. Es ist jedoch wünschenswert, dass sich der Fahrer mit der Art und Weise, wie sich das autonome Fahrzeug verhält, wohl fühlt. Dementsprechend ist es wünschenswert, ein autonomes Fahrzeug zu trainieren, dass es sein Verhalten so anpasst, dass es das Fahrerverhalten imitiert.
BESCHREIBUNG
In einer beispielhaften Ausführungsform wird ein Verfahren zum Betrieb eines Fahrzeugs offenbart. Ein Fahrerverhalten eines Fahrers des Fahrzeugs wird an einem Prozessor erlernt, während der Fahrer einen Straßensegment befährt. Am Prozessor wird eine Verhaltensrichtlinie erzeugt, basierend auf dem Fahrerverhalten und einem dem Straßensegment zugeordneten Schwellenwert. Der Prozessor steuert das Fahrzeug, um das Straßensegment mit Hilfe der Verhaltensrichtlinie zu befahren.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale wird eine Wissensmatrix konstruiert, indem das Fahrerverhalten für eine Vielzahl von Befahrungen des Straßensegments erlernt, eine Handlung aus der Wissensmatrix auf der Grundlage eines Umgebungszustands ausgewählt und die Verhaltensrichtlinie auf der Grundlage der ausgewählten Handlung erzeugt wird. Die Wissensmatrix basiert auf mindestens einem der Umgebungszustände, einem Fahrzeugzustand und einem Fahrerzustand. Das Erlernen des Fahrerverhaltens umfasst ferner das Messen mindestens einer aus einer vom Fahrer ausgewählten Fahrzeuggeschwindigkeit, einer vom Fahrer ausgewählten Seitensteuerung des Fahrzeugs und einer vom Fahrer ausgewählten Beschleunigung oder Verzögerung des Fahrzeugs, wenn der Fahrer mit dem Fahrzeug das Straßensegment befährt. In einer Ausführungsform umfasst der dem Straßensegment zugeordnete Schwellenwert eine Sicherheitsgrenze des Straßensegments, und das Erzeugen der Verhaltensrichtlinie umfasst das Modifizieren des erlernten Fahrerverhaltens basierend auf der Sicherheitsgrenze des Straßensegments. Das Fahrerverhalten umfasst mindestens eines des Fahrerverhaltens innerhalb einer Fahrspur des Straßensegments und des Fahrerverhaltens beim Spurwechsel in dem Straßensegment. Das Verfahren umfasst ferner das Erlernen des Fahrerverhaltens in einem von einem Offline-Lernmodus, in dem das Fahrzeug vom Fahrer gefahren wird, und einem Online-Lernmodus, in dem das Fahrzeug vom Prozessor gesteuert wird, während der Fahrer eine Steuerung des Fahrzeugs bedient.
In einer weiteren beispielhaften Ausführungsform wird ein System zum Betreiben eines Fahrzeugs offenbart. Das System umfasst einen Prozessor, der so konfiguriert ist, dass er ein Fahrerverhalten eines Fahrers des Fahrzeugs erlernt, während der Fahrer ein Straßensegment befährt, eine Verhaltensrichtlinie erzeugt, basierend auf dem Fahrerverhalten und einem dem Straßensegment zugeordneten Schwellenwert, und das Fahrzeug steuert, um das Straßensegment mit Hilfe der Verhaltensrichtlinie zu befahren.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale ist der Prozessor ferner so konfiguriert, dass er eine Wissensmatrix konstruiert, indem er das Fahrerverhalten für eine Vielzahl von Befahrungen des Straßensegments erlernt, eine Handlung aus der Wissensmatrix auf der Grundlage eines Umgebungszustands auswählt und die Verhaltensrichtlinie auf der Grundlage der ausgewählten Handlung erstellt. Die Wissensmatrix basiert auf mindestens einem des Umweltzustands, eines Fahrzeugzustands und eines Fahrerzustands. Der Prozessor ist ferner so konfiguriert, dass er das Fahrerverhalten erlernt, indem er mindestens eines aus einer vom Fahrer ausgewählten Fahrzeuggeschwindigkeit, einer vom Fahrer ausgewählten Seitensteuerung des Fahrzeugs und einer vom Fahrer ausgewählten Beschleunigung oder Verzögerung des Fahrzeugs misst, wenn der Fahrer mit dem Fahrzeug das Straßensegment befährt. Der dem Straßensegment zugeordnete Schwellenwert beinhaltet eine Sicherheitsgrenze des Straßensegments, und der Prozessor ist so konfiguriert, dass er die Verhaltensrichtlinie erzeugt, indem er das erlernte Fahrerverhalten auf der Grundlage der Sicherheitsgrenze des Straßensegments modifiziert. In einer Ausführungsform enthält das System ferner ein Elektronikpaket, das auf das Fahrzeug und von dem Fahrzeug übertragbar ist. Der Prozessor ist ferner so konfiguriert, dass er das Fahrerverhalten in einem Offline-Lernmodus, in dem das Fahrzeug vom Fahrer gefahren wird, oder in einem Online-Lernmodus lernt, in dem das Fahrzeug vom Prozessor gesteuert wird, während der Fahrer eine Steuerung des Fahrzeugs bedient.
In einer weiteren beispielhaften Ausführungsform wird ein Fahrzeug offenbart. Das Fahrzeug enthält einen Prozessor. Der Prozessor ist so konfiguriert, dass er ein Fahrerverhalten eines Fahrers des Fahrzeugs erlernt, während der Fahrer ein Straßensegment befährt, eine Verhaltensrichtlinie erzeugt, basierend auf dem Fahrerverhalten und einem dem Straßensegment zugeordneten Schwellenwert, und das Fahrzeug steuert, um das Straßensegment mit Hilfe der Verhaltensrichtlinie zu befahren.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale ist der Prozessor ferner so konfiguriert, dass er eine Wissensmatrix konstruiert, indem er das Fahrerverhalten für eine Vielzahl von Befahrungen des Straßensegments erlernt, eine Handlung aus der Wissensmatrix auf der Grundlage eines Umgebungszustands auswählt und die Verhaltensrichtlinie auf der Grundlage der ausgewählten Handlung erstellt. Das Fahrzeug enthält ferner einen zusätzlichen Prozessor, der auf das Fahrzeug und von dem Fahrzeug übertragbar ist, wobei der zusätzliche Prozessor so konfiguriert ist, dass er einen Wegplanungsbefehl auf der Grundlage des erlernten Fahrerverhaltens modifiziert und/oder einen Fahrspurzentrierungs-Steuerbefehl an das erlernte Fahrerverhalten anpasst. Der Prozessor ist ferner so konfiguriert, dass er das Fahrerverhalten erlernt, indem er mindestens eine aus einer vom Fahrer ausgewählten Fahrzeuggeschwindigkeit, einer vom Fahrer ausgewählten Seitensteuerung des Fahrzeugs und einer vom Fahrer ausgewählten Beschleunigung oder Verzögerung des Fahrzeugs misst, wenn der Fahrer mit dem Fahrzeug das Straßensegment befährt. Der dem Straßensegment zugeordnete Schwellenwert umfasst eine Sicherheitsgrenze des Straßensegments, und der Prozessor ist so konfiguriert, dass er die Verhaltensrichtlinie erzeugt, indem er das erlernte Fahrerverhalten auf der Grundlage der Sicherheitsgrenze des Straßensegments modifiziert. Der Prozessor ist ferner so konfiguriert, dass er das Fahrerverhalten entweder in einem Offline-Lernmodus, in dem das Fahrzeug vom Fahrer gefahren wird, oder in einem Online-Lernmodus erlernt, in dem das Fahrzeug vom Prozessor gesteuert wird, während der Fahrer eine Steuerung des Fahrzeugs bedient.
Die oben genannten Merkmale und Vorteile sowie andere Merkmale und Vorteile der Offenbarung sind aus der folgenden detaillierten Beschreibung einfach ersichtlich, wenn sie in Verbindung mit den beigefügten Zeichnungen genommen werden.
Figurenliste
Weitere Merkmale, Vorteile und Details erscheinen lediglich beispielhaft in der folgenden ausführlichen Beschreibung, wobei sich die ausführliche Beschreibung auf die Zeichnungen bezieht, in denen:

1 ein Fahrzeug nach einer beispielhaften Ausführungsform zeigt;
2 ein Flussdiagramm zeigt, das ein Verfahren zum Trainieren eines Fahrzeugs zum Befahren eines Straßensegments mit einem Verhalten zeigt, das das Verhalten eines ausgewählten Fahrers imitiert;
3 eine Draufsicht auf ein Straßensegment mit einem gekrümmten Abschnitt zeigt;
4 eine Draufsicht auf das Straßensegment von 3 zeigt;
5A-5E verschiedene Fahrverhalten veranschaulichen, die von einem Fahrer gezeigt werden können;
6 eine schematische Darstellung eines Systems zum Erlernen und Modifizieren eines Verhaltens zeigt, das geeignet ist, ein Fahrerverhalten zu erlernen und das autonome Fahrzeug so zu bedienen, dass das Fahrerverhalten imitiert wird;
7 ein Flussdiagramm zeigt, das ein Verfahren veranschaulicht, mit dem das System das Fahrerverhalten erlernt und anschließend das Fahrzeug auf der Grundlage des erlernten Verhaltens steuert;
8 eine Draufsicht auf eine Fahrbahn zeigt, die einen Lernvorgang des autonomen Fahrzeugs illustriert;
9 eine Klassifizierung des Straßen- und Umgebungsfaktors für die Fahrbahn von 8 zeigt; und
10 ein Belohnungsprofil zeigt, das über die Fahrbahn von 8 quantifiziert werden kann.

DETAILLIERTE BESCHREIBUNG
Die folgende Beschreibung hat lediglich beispielhaften Charakter und soll die vorliegende Offenbarung, ihre Anwendung oder Verwendungen nicht einschränken. Es ist zu verstehen, dass in den Zeichnungen durchgehend entsprechende Referenzziffern auf gleiche oder entsprechende Teile und Merkmale hinweisen. Wie hier verwendet, bezieht sich der Begriff Modul auf Verarbeitungsschaltungen, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppe) und Speicher, der ein oder mehrere Software- oder Firmware-Programme ausführt, eine kombinierte Logikschaltung und/oder andere geeignete Komponenten, die die beschriebene Funktionalität bereitstellen, umfassen können.
Gemäß einer beispielhaften Ausführungsform zeigt 1 ein Fahrzeug 10. In einer beispielhaften Ausführungsform ist das Fahrzeug 10 ein teilautonomes oder autonomes Fahrzeug. In verschiedenen Ausführungsformen enthält das Fahrzeug 10 mindestens ein Fahrerassistenzsystem sowohl für die Lenkung als auch für die Beschleunigung/Verzögerung unter Verwendung von Informationen über die Fahrumgebung, wie z.B. Tempomat und Spurzentrierung. Während der Fahrer von der physischen Bedienung des Fahrzeugs 10 abgekoppelt werden kann, indem er gleichzeitig die Hände vom Lenkrad und den Fuß vom Pedal nimmt, muss der Fahrer bereit sein, die Kontrolle über das Fahrzeug zu übernehmen.
Im Allgemeinen bestimmt ein Trajektorieplanungssystem 100 einen Trajektorieplan für das automatisierte Fahren des Fahrzeugs 10. Das Fahrzeug 10 umfasst im Allgemeinen ein Fahrgestell 12, eine Karosserie 14, Vorderräder 16 und Hinterräder 18. Die Karosserie 14 ist auf dem Fahrgestell 12 angeordnet und umschließt im Wesentlichen Komponenten des Fahrzeugs 10. Die Karosserie 14 und das Fahrgestell 12 können gemeinsam einen Rahmen bilden. Die Räder 16 und 18 sind jeweils in der Nähe der jeweiligen Ecken der Karosserie 14 mit dem Fahrgestell 12 drehgekoppelt.
Wie gezeigt, umfasst das Fahrzeug 10 im Allgemeinen ein Antriebssystem 20, ein Getriebesystem 22, ein Lenksystem 24, ein Bremssystem 26, ein Sensorsystem 28, ein Aktuatorsystem 30, mindestens eine Datenspeichervorrichtung 32, mindestens eine Steuerung 34 und ein Kommunikationssystem 36. Das Antriebssystem 20 kann in verschiedenen Ausführungsformen einen Verbrennungsmotor, eine elektrische Maschine, wie z.B. einen Fahrmotor, und/oder ein Brennstoffzellen-Antriebssystem umfassen. Das Getriebesystem 22 ist so konfiguriert, dass es die Leistung vom Antriebssystem 20 auf die Fahrzeugräder 16 und 18 entsprechend wählbarer Geschwindigkeitsverhältnisse überträgt. Gemäß verschiedenen Ausführungsformen kann das Getriebesystem 22 ein gestuftes Automatikgetriebe, ein stufenloses Getriebe oder ein anderes geeignetes Getriebe umfassen. Das Bremssystem 26 ist so konfiguriert, dass es Bremsmoment an die Fahrzeugräder 16 und 18 abgibt. Das Bremssystem 26 kann in verschiedenen Ausführungsformen Reibungsbremsen, Brake-by-Wire, ein regeneratives Bremssystem, wie z.B. eine elektrische Maschine, und/oder andere geeignete Bremssysteme umfassen. Das Lenksystem 24 beeinflusst eine Position der Fahrzeugräder 16 und 18. Obwohl das Lenksystem 24 zur Veranschaulichung mit einem Lenkrad dargestellt wird, mag es in einigen Ausführungsformen, die im Rahmen dieser Offenbarung in Betracht gezogen werden, kein Lenkrad enthalten.
Das Sensorsystem 28 umfasst eine oder mehrere Sensorvorrichtungen 40a-40n, die beobachtbare Bedingungen der äußeren Umgebung und/oder der inneren Umgebung des Fahrzeugs erfassen 10. Die Sensorvorrichtungen 40a-40n können unter anderem Radare, Lidare, globale Positionierungssysteme, optische Kameras, Wärmebildkameras, Ultraschallsensoren und/oder andere Sensoren zur Beobachtung und Messung von Parametern der äußeren Umgebung umfassen. Die Sensorvorrichtungen 40a-40n können ferner Bremssensoren, Lenkwinkelsensoren, Radgeschwindigkeitssensoren usw. zur Beobachtung und Messung fahrzeuginterner Parameter des Fahrzeugs umfassen. Die Kameras können zwei oder mehrere Digitalkameras umfassen, die in einem ausgewählten Abstand voneinander angeordnet sind, wobei die zwei oder mehreren Digitalkameras dazu verwendet werden, stereoskopische Bilder der Umgebung zu erhalten, um ein dreidimensionales Bild zu erhalten. Das Aktuatorsystem 30 umfasst eine oder mehrere Aktuatorvorrichtungen 42a-42n, die ein oder mehrere Fahrzeugmerkmale steuern, wie z.B., aber nicht beschränkt auf, das Antriebssystem 20, das Getriebesystem 22, das Lenksystem 24 und das Bremssystem 26. In verschiedenen Ausführungsformen können die Fahrzeugmerkmale darüber hinaus innere und/oder äußere Fahrzeugmerkmale wie z.B., aber nicht beschränkt auf, Türen, einen Kofferraum und Kabinenmerkmale wie Luft, Musik, Beleuchtung usw. umfassen. (nicht nummeriert).
Die mindestens eine Steuerung 34 umfasst mindestens einen Prozessor 44 und ein computerlesbares Speichergerät oder -medium 46. Bei dem mindestens einen Prozessor 44 kann es sich um einen beliebigen kundenspezifischen oder handelsüblichen Prozessor, eine zentrale Prozessoreinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Hilfsprozessor unter mehreren Prozessoren, der mit der mindestens einen Steuerung 34 verbunden ist, einen Mikroprozessor auf Halbleiterbasis (in Form eines Mikrochips oder Chipsatzes), einen Makroprozessor, eine beliebige Kombination davon oder allgemein eine beliebige Vorrichtung zur Ausführung von Befehlen handeln. Das computerlesbare Speichergerät oder die computerlesbaren Speichermedien 46 können z.B. flüchtige und nichtflüchtige Speicherung im Nur-Lese-Speicher (ROM), Direktzugriffsspeicher (RAM) und Keep-Alive-Speicher (KAM) umfassen. KAM ist ein persistenter oder nichtflüchtiger Speicher, der zur Speicherung verschiedener Betriebsvariablen verwendet werden kann, während der mindestens eine Prozessor 44 abgeschaltet ist. Das computerlesbare Speichergerät oder -medium 46 kann unter Verwendung eines beliebigen aus einer Reihe bekannter Speichergeräte wie PROMs (programmierbarer Nur-Lese-Speicher), EPROMs (elektrischer PROM), EEPROMs (elektrisch löschbarer PROM), Flash-Speicher oder jedes anderen elektrischen, magnetischen, optischen oder kombinierten Speichergeräts implementiert werden, das in der Lage ist, Daten zu speichern, von denen einige ausführbare Befehle darstellen, die von der mindestens einen Steuerung 34 zur Steuerung des Fahrzeugs 10 verwendet werden.
Die Anweisungen können ein oder mehrere separate Programme umfassen, von denen jedes eine geordnete Auflistung ausführbarer Anweisungen zur Implementierung logischer Funktionen enthält.
Wenn die Befehle von dem mindestens einen Prozessor 44 ausgeführt werden, empfangen und verarbeiten sie Signale vom Sensorsystem 28, führen Logik, Berechnungen, Verfahren und/oder Algorithmen zur automatischen Steuerung der Komponenten des Fahrzeugs 10 aus und erzeugen Steuersignale für das Aktuatorsystem 30, um die Komponenten des Fahrzeugs 10 auf der Grundlage der Logik, Berechnungen, Verfahren und/oder Algorithmen automatisch zu steuern. Obwohl in 1 nur eine Steuerung dargestellt ist, können Ausführungsformen des Fahrzeugs 10 eine beliebige Anzahl von Steuerungen enthalten, die über ein beliebiges geeignetes Kommunikationsmedium oder eine Kombination von Kommunikationsmedien kommunizieren und die zusammenarbeiten, um die Sensorsignale zu verarbeiten, Logik, Berechnungen, Verfahren und/oder Algorithmen durchzuführen und Steuersignale zur automatischen Steuerung von Merkmalen des Fahrzeugs 10 zu erzeugen.
Das hier offenbarte Verfahren betreibt ein Fahrzeug autonom gemäß einem erlernten Verhalten oder einer Verhaltensrichtlinie, die auf Beobachtungen eines Fahrerverhaltens basiert. In einer Ausführungsform kann das hier offenbarte Verfahren auf dem Prozessor 44 durchgeführt werden. In einer alternativen Ausführungsform kann ein separates Fahrverhaltenssystem 50 am Fahrzeug angebracht und kommunikativ mit der Fahrzeugelektronik wie dem Prozessor 44 gekoppelt werden. Das Fahrerverhaltenssystem 50 führt das Verfahren für das autonome Fahren des Fahrzeugs durch, indem es das Fahrerverhalten beobachtet und seine Verhaltensrichtlinie für das autonome Fahren auf das Fahrerverhalten stützt. In verschiedenen Ausführungsformen modifiziert das Fahrerverhaltenssystem 50 einen Wegplanungsbefehl auf der Grundlage des erlernten Fahrerverhaltens und/oder passt einen Fahrspurzentrierungs-Steuerbefehl an das erlernte Fahrerverhalten an. Bei dem Fahrerverhaltenssystem 50 kann es sich um ein Elektronikpaket oder einen Prozessor handeln, der dem Fahrzeug 10 nach Wunsch hinzugefügt oder entfernt werden kann und auf das Fahrzeug und aus dem Fahrzeug übertragbar ist.
Das Kommunikationssystem 36 ist so konfiguriert, dass es drahtlos Informationen zu und von anderen Entitäten 48 übermittelt, wie z.B., aber nicht beschränkt auf, andere Fahrzeuge („V2V“-Kommunikation), Infrastruktur („V2I“-Kommunikation), entfernte Systeme und/oder persönliche Geräte. In einer beispielhaften Ausführungsform ist das Kommunikationssystem 36 ein drahtloses Kommunikationssystem, das so konfiguriert ist, dass es über ein drahtloses lokales Netzwerk (WLAN) unter Verwendung des IEEE 802.11-Standards oder unter Verwendung zellularer Datenkommunikation kommuniziert. Zusätzliche oder alternative Kommunikationsverfahren, wie z.B. ein dedizierter Nahbereichskommunikationskanal (DSRC-Kanal), werden jedoch auch im Rahmen dieser Offenbarung in Betracht gezogen. DSRC-Kanäle beziehen sich auf drahtlose Einweg- oder Zweiwege-Kommunikationskanäle mit kurzer bis mittlerer Reichweite, die speziell für den Einsatz in Kraftfahrzeugen entwickelt wurden, sowie auf einen entsprechenden Satz von Protokollen und Standards.
2 zeigt ein Flussdiagramm 200, das ein Verfahren zum Trainieren eines Fahrzeugs zum Befahren eines Straßensegments mit einem Verhalten, das das Verhalten eines ausgewählten Fahrers imitiert, veranschaulicht. Das Fahrerverhalten ist dadurch gekennzeichnet, wie der Fahrer ein bestimmtes Straßensegment oder eine bestimmte Art von Straßensegment befährt. Das Fahrerverhalten über ein Straßensegment kann durch verschiedene Parameter quantifiziert werden, wie z.B. die Geschwindigkeit oder Durchschnittsgeschwindigkeit des gefahrenen Fahrzeugs, die relative Position des Fahrzeugs innerhalb der Fahrspur (d.h. zentriert, links, rechts) usw. Bei einem Fahrzeug, das die Fahrspur wechselt, kann das Fahrerverhalten dadurch quantifiziert werden, wie abrupt oder sanft der Fahrer die Fahrspur wechselt, die Geschwindigkeit variiert, usw. Das Fahrerverhalten kann bestimmt werden, indem die Geschwindigkeit des Fahrers, die seitlichen Steuer- oder Lenkbefehle usw. an den verschiedenen Sensorvorrichtungen 40a-40n des Fahrzeugs aufgezeichnet werden.
In Block 202 wird ein Umgebungszustand des Fahrzeugs bestimmt. Der Umgebungszustand des Fahrzeugs kann auf der Geometrie der Straße oder des Straßensegments, die bzw. den das Fahrzeug durchquert oder befährt, dem Vorhandensein von Hindernissen sowie deren relativen Positionen und Geschwindigkeiten usw. beruhen. In Block 204 lernt das Fahrzeug das Fahrerverhalten für den Umgebungszustand, wenn der Fahrer mit dem Fahrzeug das Straßensegment befährt. Das Fahrerverhalten umfasst eine Fahrzeuggeschwindigkeit und Seitenführung usw. In Block 206 wird das erlernte Verhalten verwendet, um eine Wissensbasis für den Fahrer aufzubauen oder zu konstruieren. In Block 208 fährt das autonome Fahrzeug anschließend unter Verwendung einer auf der Wissensmatrix basierenden Verhaltensrichtlinie über das Straßensegment.
Das Fahrerverhalten kann offline oder online erlernt werden. In einem Offline-Lernmodus zeichnet der Prozessor 44 das Fahrerverhalten auf, während der Fahrer die vollständige Kontrolle über das Fahrzeug hat (d.h. es werden keine autonomen Fahrmodi aktiviert). In einem Online-Lernmodus bedient der Prozessor 44 das Fahrzeug entsprechend seinem vorgegebenen Fahrverhalten, während der Fahrer gleichzeitig das Lenkrad bedient. Der Prozessor 44 zeichnet alle Unterschiede zwischen dem Fahrerverhalten und dem Verhalten des autonomen Fahrzeugs auf und passt das Verhalten des Fahrzeugs („Fahrzeugverhalten“) innerhalb sicherer und stabiler Fahrverhaltensgrenzen an das des Fahrers an.
Während er hier als Erlernen des Fahrverhaltens eines einzelnen Fahrers beschrieben wird, kann der Prozessor 44 einen Fahrer auch anhand der Daten eines geeigneten, dem Fahrzeug zugeordneten Identifikationssensors identifizieren. Dadurch kann der Prozessor 44 das Fahrverhalten mehrerer Fahrer erlernen und sein Verhalten ändern, um es an das Fahrverhalten des aktuell am Steuer sitzenden Fahrers anzupassen.
3 zeigt eine Draufsicht 300 auf ein Straßensegment 310 einschließlich eines gekrümmten Abschnitts. Die Draufsicht 300 zeigt ein Fahrzeug 10 und eine spurzentrierende Steuertrajektorie 302, die vom autonomen Fahrzeug 10 ausgewählt wird, um das Straßensegment 310 zu befahren, indem das Fahrzeug 10 in der Mitte der Fahrspur, insbesondere über den gekrümmten Abschnitt, gehalten wird. Ebenfalls dargestellt ist eine vom Fahrer gewünschte Trajektorie 304, die vom Fahrer über das Straßensegment 310 genommen wird. Die vom Fahrer gewünschte Trajektorie 304 verläuft an den Innenkanten der Kurve über den gekrümmten Abschnitt des Straßensegments. Die Differenz zwischen der spurzentrierenden Steuertrajektorie 302 und der vom Fahrer gewünschten Trajektorie 304 wird aufgezeichnet, um das Fahrerverhalten zu erlernen.
4 zeigt eine Draufsicht 400 auf das Straßensegment 310 von 3. Die Draufsicht 400 zeigt eine aktualisierte spurzentrierende Steuertrajektorie 402, die auf einem Lernalgorithmus basiert, der auf die vom Fahrer gewünschte Trajektorie 304 von 3 angewendet wird. Die aktualisierte spurzentrierende Steuertrajektorie 402 weicht von der spurzentrierenden Steuertrajektorie 302 aus 3 ab, um besser auf die vom Fahrer gewünschte Trajektorie 304 ausgerichtet zu sein. Die aktualisierte spurzentrierende Steuertrajektorie 402 liegt innerhalb der vom Prozessor festgelegten Sicherheitsgrenzen 404 für das Straßensegment, die eine Breite des Straßensegments 310 definieren, die sicher von den Rändern des Straßensegments entfernt ist. Die aktualisierte spurzentrierende Steuertrajektorie 402 basiert auf der Änderung der vom Fahrer gewünschten Trajektorie, so dass sie innerhalb der Sicherheitsgrenzen 404 des Straßensegments liegt. Die Sicherheitsgrenzen können eine Straßensegmentbegrenzung, eine maximale Fahrzeuggeschwindigkeit, eine maximale Beschleunigung oder Verzögerung innerhalb des Straßensegments usw. definieren. In einer Ausführungsform, in der eine aktualisierte spurzentrierende Steuertrajektorie 402 durch die Sicherheitsgrenzen 404 begrenzt ist, imitiert die aktualisierte spurzentrierende Steuertrajektorie 402 die vom Fahrer gewünschte Trajektorie 304 nicht vollständig.
5A-5E veranschaulichen verschiedene Fahrverhaltensweisen, die von einem Fahrer gezeigt werden können. 5A veranschaulicht einen Fahrer auf einer Fahrspur, die an eine Fahrspur des Gegenverkehrs angrenzt. Der Fahrer weicht vorübergehend auf eine Seite (d.h. die rechte Seite) der Fahrzeugspur aus, während sich ein entferntes Fahrzeug auf der Gegenfahrbahn nähert (wie durch Pfeil 502 angezeigt), um einen Abstand zwischen dem Fahrzeug und dem entfernten Fahrzeug zu schaffen. 5B zeigt ein Fahrzeug auf einer Landstraße, wobei der Fahrer dazu neigt, versetzt zu einer Seite der Fahrspur (d.h. außerhalb der Fahrspur, wie durch Pfeil 504 angezeigt) zu fahren. 5C zeigt eine mehrspurige Straße, bei der ein Fahrzeug auf einer ganz linken Spur der mehrspurigen Straße die Seitenbegrenzung der Fahrspur berührt (wie durch Pfeil 506 angezeigt). 5D zeigt eine Fahrspur mit Kegeln in einer Nachbarspur und ein Fahrzeug, das seitlich der Fahrspur manövriert, um von den Kegeln wegzukommen (wie durch Pfeil 508 angezeigt). 5E zeigt ein Fahrzeug entlang eines gekrümmten Abschnitts einer Fahrbahn. Einige Fahrer neigen dazu, eine Innenseite der Kurve zu berühren, während andere Fahrer dazu neigen, eine Außenseite der Kurve zu berühren (wie durch Pfeil 510 angezeigt).
6 zeigt eine schematische Darstellung eines Verhaltenslern- und Modifikationssystems 600, das geeignet ist, das Fahrerverhalten zu erlernen und das autonome Fahrzeug so zu bedienen, dass es das Fahrerverhalten imitiert. Das System 600 umfasst ein Sensormodul 602, ein Fahrzeug- und Umgebungsmodul 604 und ein Wegplanungsmodul 606. Das Sensormodul 602 umfasst verschiedene Kameras, Lidar, Radar oder andere Sensoren zur Bestimmung des Zustands der Umgebungen des Fahrzeugs in Bezug auf die Straße sowie die Position von entfernten Fahrzeugen, Fußgängern, Hindernissen usw. Das Fahrzeug- und Umgebungsmodul 604 liefert Daten aus der Umgebung, wie z.B. Straßengeometrie, Standort, Geschwindigkeit und Orientierung von Fahrzeugen und anderen Hindernissen in der Umgebung usw. Die Daten des Sensormoduls 602 und des Fahrzeug- und Umgebungsmoduls 604 werden dem Wegplanungsmodul 606 zur Verfügung gestellt, das einen ausgewählten Pfad oder eine ausgewählte Trajektorie für das autonome Fahrzeug plant.
Das System 600 umfasst weiterhin ein Lernmodul 608 und ein adaptives Steuermodul 610 zum Erlernen des Fahrerverhaltens und zur Umsetzung des erlernten Verhaltens am Fahrzeug. Das Lernmodul 608 empfängt das Lenksignal des Fahrers von einem Lenk- oder Steuersensor 612, ein vom Fahrzeug genommenes Lenksignal vom adaptiven Steuermodul 610 sowie Zustandsdaten S_i vom Fahrzeug- und Umgebungsmodul 604. Die Zustandsdaten S_i für ein i-tes Straßensegment können wie in Gl. (2) dargestellt sein: $S_{i} = [S_{p, i} S_{ρ, i} S_{\dot{ρ}, i}]$
wobei S_p,i ein Positionszustand ist, S_p,i eine Krümmung des Straßenzustands ist und S_p,i eine Änderungsrate der Krümmung des Straßenzustandes ist.
Durch den Vergleich der Fahrereingabe mit der aktuellen Trajektorie für die aktuellen Zustandsdaten S_i ermittelt das Lernmodul 608 eine Belohnung P(i,j) für das autonome Fahrzeug. Die Belohnung P(i,j) quantifiziert eine Übereinstimmung oder Nicht-Übereinstimmung zwischen Fahrzeugtrajektorie und Fahrertrajektorie. Das Lernmodul 608 aktualisiert eine Wissensmatrix Q(i,j) auf der Grundlage der ermittelten Belohnung, wie sie durch die folgende Gleichung gegeben ist: $Q (i, j) = α P (i, j) + (1 - α) Q (i, j)$
wobei α = eine vom Benutzer gewählte Lernrate für die Aktualisierung der Wissensmatrix ist. Das adaptive Steuermodul 610 erhält eine geplante Trajektorie vom Bahnplanungsmodul 606, Zustandsdaten S_i vom Fahrzeug- und Umgebungsmodul 604 und eine beste Handlungsrichtlinie A_j vom Lernmodul 608. Die beste Handlungsrichtlinie A_j wird aus der Wissensmatrix Q(i,j) abgeleitet. Die Wissensmatrix baut auf der Überwachung verschiedener Handlungen A_j für eine Vielzahl von Zuständen S_i auf: $Q = \begin{matrix} A_{1} \\ ⋮ \\ A_{m} \end{matrix} \begin{matrix} \begin{matrix} S_{1} & \dots & S_{n} \end{matrix} \\ [\begin{matrix} Q_{11} & \dots & Q_{n 1} \\ ⋮ & ⋱ & ⋮ \\ Q_{1 m} & \dots & Q_{n m} \end{matrix}] \end{matrix}$
Das adaptive Steuermodul 610 berechnet auf der Grundlage der Eingangsdaten eine Verhaltensrichtlinie, die das Steuersignal δ_u umfasst. Das Lenksignal δ_u kann durch die folgende Gleichung angegeben werden: $δ_{u} = K (δ_{q}) \cdot e$
wobei K eine Matrix von Einträgen ist, die Funktionen von δ_q sind. In einer alternativen Ausführungsform sind die Verhaltensrichtlinie und das Steuerungssignal δ_u durch Gl. (5) gegeben: $δ_{u} = K \cdot e + δ_{q}$
wobei K ein Entwurfsparameter für die Spurfolgesteuerung ist und e ein Vorhersagefehler ist, der auf verschiedenen Parametern basiert, wie z.B. der seitlichen Position und dem Kurs des Fahrzeugs, der Straßenkrümmung, einer Steuereingabe, der Eingabe des Fahrers, der erlernten Steuereingabe, einem gewünschten Straßenradwinkel, einem Steuerungsdrehmoment und einem Fahrerdrehmoment. Das Fahrereingangsdrehmoment δ_q ist eine Funktion der ausgewählten Handlung: $δ_{q} = f (A_{j})$
Das adaptive Steuermodul 610 liefert die Verhaltensrichtlinie und das Steuersignal δ_u sowohl an das Steuermodul 614 als auch an das Lernmodul 608. Das Lenkmodul 614 lenkt das Fahrzeug anhand der Verhaltensrichtlinie und des Lenksignals.
7 zeigt ein Flussdiagramm 700, das ein Verfahren veranschaulicht, mit dem das System 600 das Fahrerverhalten erlernt und anschließend das Fahrzeug auf der Grundlage des erlernten Verhaltens steuert.
In Block 701 wird die Handlung oder Eingabe eines Fahrers empfangen. In Block 702 wird das Fahrerverhalten auf der Grundlage der Handlung oder Eingabe des Fahrers quantifiziert, was durch den Vektor q gekennzeichnet ist. In Block 704 bewertet das System 600, ob das Fahrerverhalten zu Lernzwecken genutzt werden soll. Wenn q größer oder gleich einem ausgewählten Schwellenwert ist, geht das Verfahren zu Block 705 über, wo das Fahrerverhalten nicht zum Lernen und nur zum Lenken des Fahrzeugs verwendet wird. Wenn jedoch q < Schwellenwert ist, lernt das System 600 aus dem Fahrerverhalten.
In Block 706 wird der Umgebungszustand und eine entsprechende vom Fahrzeug zu ergreifende Maßnahme geschätzt. In Block 708 wird eine Belohnungsfunktion P(i,j) auf der Grundlage des geschätzten Zustands und der zu ergreifenden Maßnahme berechnet. In Block 708 wird aus Block 712 die Eingabe des Fahrers und eine Straßenbenachrichtigung und aus Block 706 die geschätzte Handlung des Fahrzeugs empfangen. Die Belohnungsfunktion P(i,j) wird auf der Grundlage dieser Eingabe berechnet. In Block 710 wird eine Wissensmatrix Q(i,j) auf der Grundlage der berechneten Belohnung und der gewünschten Lernrate aktualisiert.
In Block 714 wird aus der in Block 710 ermittelten Wissensmatrix eine Richtlinie A_j und aus Block 712 ein Umgebungszustand ausgewählt. Die Richtlinie und der Umweltzustand werden verwendet, um eine Handlung für das Navigieren des Fahrzeugs zu berechnen.
In Block 716 wird eine Stabilitätsprüfung für die gewählte Handlung durchgeführt, um sicherzustellen, dass die Handlung innerhalb der Anforderungen an ein sicheres Fahrverhalten liegt.
Wenn die von der ausgewählten Richtlinie ausgeführte Handlung größer als eine Sicherheitsschwelle ist, kehrt das Verfahren zu Block 714 zurück, um eine aktualisierte Handlung zu erhalten. Wenn die von der ausgewählten Richtlinie ausgeführte Handlung innerhalb der Sicherheitsschwelle liegt, fährt das Verfahren mit Block 720 fort. In Block 720 wird die Steuerhandlung (und damit die Verhaltensrichtlinie) auf das Fahrzeug angewendet.
8 zeigt eine Draufsicht auf eine Fahrbahn 800, die einen Lernvorgang des autonomen Fahrzeugs illustriert. Die Fahrbahn 800 umfasst einen linken Fahrbahnmarkierer 802 und einen rechten Fahrbahnmarkierer 804. Ein erstes Segment (Segment A) der Fahrbahn 800 erstreckt sich in einer geraden Linie über etwa 25 Meter. Bei etwa x = 25 Meter biegt die Fahrbahn 800 nach links ab und verläuft in einem zweiten Segment (Segment B) geradeaus. Bei ca. x = 32,5 Meter biegt die Fahrbahn 800 nach rechts ab und verläuft in einem dritten Segment (Segment C) geradeaus. Bei ca. x = 40 Meter biegt die Fahrbahn 800 wieder nach links ab und verläuft in einem dritten Segment (Segment D) geradeaus. Segment D verläuft in der gleichen Richtung wie Segment A.
Es wird gezeigt, dass eine erste vom autonomen Fahrzeug ausgewählte Fahrzeugtrajektorie 806 über alle Segmente der Fahrbahn 800 den gleichen Abstand zwischen dem linken Fahrbahnmarkierer 802 und dem rechten Fahrbahnmarkierer 804 einhält. Eine zweite, von einem Fahrer des Fahrzeugs ausgewählte Fahrzeugtrajektorie 808 wird so dargestellt, dass sie in der Mitte der Fahrspur für Segment A bleibt. In Segment B jedoch weicht die zweite Fahrzeugtrajektorie von der Mitte in Richtung des rechten Fahrbahnmarkierers 804 ab. In Segment C bewegt sich die zweite Fahrzeugtrajektorie in Richtung des linken Fahrbahnmarkierers 802, in Segment D befindet sich die zweite Fahrzeugtrajektorie wieder in der Mitte der Fahrspur.
9 zeigt eine Klassifizierung des Straßen- und Umgebungsfaktors für die Fahrbahn 800 aus 8. Es wird ein Positionsfehlerzustand 902 zwischen dem Weg des autonomen Fahrzeugs und dem Weg des Fahrers aufgezeichnet. Ein Krümmungszustand 904 der Fahrbahn 800 wird ebenso aufgezeichnet wie ein Krümmungsänderungsratenzustand 906 für die Fahrbahn 800. Dieser Positionsfehlerzustand 902, Krümmungszustand 904 und Krümmungsänderungsratenzustand 906 sind jeweils Komponenten der Zustandsvariablen von Gl. (1).
10 zeigt ein Belohnungsprofil, das über die Fahrbahn 800 von 8 quantifiziert werden kann. Das Belohnungsprofil zeigt eine maximale Belohnung über Segmente, in denen die Trajektorie des Fahrers und die des ausgewählten Fahrzeugs die gleiche sind (d.h. gerades Segment A und Segment D). Das Belohnungsprofil nimmt über die Fahrbahnsegmente ab, in denen sich die vom Fahrer ausgewählte Trajektorie von der vom Fahrzeug ausgewählten Trajektorie unterscheidet (d.h. Segment B und Segment C).
Während die obige Offenbarung unter Bezugnahme auf beispielhafte Ausführungsformen beschrieben wurde, wird es von den Fachleuten verstanden werden, dass verschiedene Änderungen vorgenommen werden können und Elemente davon durch Äquivalente ersetzt werden können, ohne von ihrem Umfang abzuweichen. Darüber hinaus können viele Änderungen vorgenommen werden, um eine bestimmte Situation oder ein bestimmtes Material an die Lehren der Offenbarung anzupassen, ohne von ihrem wesentlichen Umfang abzuweichen. Es ist daher beabsichtigt, dass die vorliegende Offenbarung nicht auf die einzelnen offenbarten Ausführungsformen beschränkt ist, sondern alle Ausführungsformen umfasst, die in ihren Umfang fallen.

Claims

Verfahren zum Betreiben eines Fahrzeugs, umfassend: Erlernen eines Fahrerverhaltens eines Fahrers des Fahrzeugs an einem Prozessor, während der Fahrer ein Straßensegment befährt; Erzeugen einer Verhaltensrichtlinie am Prozessor, basierend auf dem Fahrerverhalten und einem Schwellenwert, der dem Straßensegment zugeordnet ist; und Steuern des Fahrzeugs über einen Prozessor, um das Straßensegment mit Hilfe der Verhaltensrichtlinie zu befahren.
Verfahren nach Anspruch 1, ferner umfassend das Konstruieren einer Wissensmatrix durch Erlernen des Fahrerverhaltens für eine Vielzahl von Befahrungen des Straßensegments, das Auswählen einer Handlung aus der Wissensmatrix basierend auf einem Umgebungszustand und das Erzeugen der Verhaltensrichtlinie basierend auf der ausgewählten Handlung.
Verfahren nach Anspruch 1, wobei das Erlernen des Fahrerverhaltens ferner das Messen mindestens einer aus einer vom Fahrer ausgewählten Fahrzeuggeschwindigkeit, einer vom Fahrer ausgewählten Seitensteuerung des Fahrzeugs und einer vom Fahrer ausgewählten Beschleunigung oder Verzögerung des Fahrzeugs, wenn der Fahrer des Fahrzeugs das Straßensegment befährt, umfasst.
Verfahren nach Anspruch 1, wobei der dem Straßensegment zugeordnete Schwellenwert eine Sicherheitsgrenze des Straßensegments umfasst, und das Erzeugen der Verhaltensrichtlinie das Modifizieren des erlernten Fahrerverhaltens basierend auf der Sicherheitsgrenze des Straßensegments umfasst.
System zum Betreiben eines Fahrzeugs, umfassend: einen Prozessor, der konfiguriert ist, um: ein Fahrerverhalten eines Fahrers des Fahrzeugs zu erlernen, während der Fahrer ein Straßensegment befährt; eine Verhaltensrichtlinie zu erzeugen, basierend auf dem Fahrerverhalten und einem dem Straßensegment zugeordneten Schwellenwert; und das Fahrzeug mit Hilfe der Verhaltensrichtlinie so zu steuern, dass es das Straßensegment befährt.
System nach Anspruch 5, wobei der Prozessor ferner so konfiguriert ist, dass er eine Wissensmatrix konstruiert, indem er das Fahrerverhalten für eine Vielzahl von Befahrungen des Straßensegments erlernt, eine Handlung aus der Wissensmatrix basierend auf einem Umgebungszustand auswählt und die Verhaltensrichtlinie basierend auf der ausgewählten Handlung erzeugt.
System nach Anspruch 5, wobei der Prozessor ferner so konfiguriert ist, dass er das Fahrerverhalten erlernt, indem er mindestens eine aus einer vom Fahrer ausgewählten Fahrzeuggeschwindigkeit, einer vom Fahrer ausgewählten Seitensteuerung des Fahrzeugs und einer vom Fahrer ausgewählten Beschleunigung oder Verzögerung des Fahrzeugs misst, wenn der Fahrer mit dem Fahrzeug das Straßensegment befährt.
System nach Anspruch 5, wobei der dem Straßensegment zugeordnete Schwellenwert eine Sicherheitsgrenze des Straßensegments umfasst und der Prozessor so konfiguriert ist, dass er die Verhaltensrichtlinie erzeugt, indem er das erlernte Fahrerverhalten basierend auf der Sicherheitsgrenze des Straßensegments modifiziert.
System nach Anspruch 5, ferner umfassend ein auf das Fahrzeug und von dem Fahrzeug übertragbares Elektronikpaket, wobei das Elektronikpaket so konfiguriert ist, dass es mindestens eines ausführt von: (i) Modifizieren der Wegplanungsbefehle basierend auf dem erlernten Fahrerverhalten; und (ii) Anpassen eines Fahrspurzentrierungs-Steuerbefehls an das erlernte Fahrerverhalten.
System nach Anspruch 5, wobei der Prozessor ferner so konfiguriert ist, dass er das Fahrerverhalten in einem von einem Offline-Lernmodus, in dem das Fahrzeug vom Fahrer gefahren wird, und einem Online-Lernmodus lernt, in dem das Fahrzeug durch den Prozessor gesteuert wird, während der Fahrer eine Steuerung des Fahrzeugs bedient.