DE112017007492T5

DE112017007492T5 - System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen

Info

Publication number: DE112017007492T5
Application number: DE112017007492.4T
Authority: DE
Inventors: Daniel Olmeda Reino; Bernt Schiele; Jan Hendrik Hosang; Rodrigo Benenson
Original assignee: Toyota Motor Europe NV SA; Max Planck Gesellschaft zur Foerderung der Wissenschaften
Current assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften; Toyota Motor Corp
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2020-02-13
Also published as: US11715281B2; WO2018197019A1; JP6889279B2; JP2020518076A; US20200193225A1; US20220129701A1

Abstract

Die Erfindung bezieht sich auf ein System zur Erfassung von Objekten in einem digitalen Bild. Das System umfasst ein neuronales Netzwerk, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung darstellt. Das Erzeugen der Bewertungen umfasst- Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,- Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und- Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung. Die Erfindung bezieht sich ferner auf ein System zur Neubewertung von Objekterfassungen in einem digitalen Bild und auf Verfahren zur Erfassung von Objekten und Neubewertung von Objekten.

Description

GEBIET DER OFFENBARUNG
Die vorliegende Offenbarung bezieht sich auf ein System und ein Verfahren zur Erfassung von Objekten in einem digitalen Bild und auf ein System und ein Verfahren zur Neubewertung von Objekterfassungen.
HINTERGRUND DER OFFENBARUNG
Moderne Objekterfassungseinrichtungen verfolgen ein dreistufiges Konzept: (1) Vorschlagen eines Suchraums von Fenstern (vollständig durch Schiebefenster oder spärlicher unter Verwendung von Vorschlägen), (2) Bewerten/Verfeinern des Fensters mit einem Klassifizierer/Regressor und (3) Zusammenfügen von Fenstern, die zum selben Objekt gehören könnten. Diese letzte Stufe wird allgemein als „Nicht-Maximum-Suppression“ (NMS) bezeichnet, siehe beispielsweise:

R. Girshick. Fast R-CNN. In ICCV, 2015,
P. Felzenszwalb, R. Girshick, D. McAllester, und D. Ramanan. Object detection with discriminatively trained part-based models. PAMI, 2010, und
W. Liu, D. Anguelov, D. Erhan, C. Szegedy, und S. Reed. Ssd: Single shot multibox detector. In ECCV, 2016,
L. Wan, D. Eigen, und R. Fergus. End-to-end integration of a convolutional network, deformable parts model and non-maximum suppression. In CVPR, 2015,
P. Henderson und V. Ferrari. End-to-end training of object class detectors for mean average precision. In ACCV, 2016.

Der Defacto-Standard für diese herkömmliche NMS ist eine einfache handgemachte Testzeit-Nachverarbeitung. Der Algorithmus wählt stark Erfassungen mit hoher Bewertung aus und löscht benachbarte weniger vertrauensvolle Nachbarn, da sie wahrscheinlich dasselbe Objekt abdecken.
Dieser Algorithmus ist einfach, schnell und verglichen mit vorgeschlagenen Alternativen konkurrenzfähig.
Der bemerkenswerteste kürzliche Leistungsdurchbruch bei der allgemeinen Objekterfassung wurde durch R-CNN markiert, das Merkmalsextraktion und Klassifizierer effektiv durch ein neuronales Netzwerk ersetzt hat, wodurch die Leistung bei Pascal VOC beinahe verdoppelt wird, siehe:

R. Girshick, J. Donahue, T. Darrell, und J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

Eine weitere signifikante Verbesserung war die Absorption der Objektvorschlagserzeugung in das Netzwerk, siehe beispielsweise:

S. Ren, K. He, R. Girshick, und J. Sun. Faster RCNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

Währenddessen vermeiden andere Arbeiten Vorschläge insgesamt, was sowohl zur Geschwindigkeits- als auch Qualitätsverbesserung geführt hat, siehe beispielsweise:

J. Redmon, S. Divvala, R. Girshick, und A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.

Es besteht ein allgemeiner Trend in Richtung durchgehendes Lernen, und es erscheint vernünftig, weitere Verbesserungen durch vollständiges durchgehendes Trainieren von Erfassungseinrichtungen zu erwarten. NMS ist ein Schritt in der Pipeline, die größtenteils das Paradigma des durchgehenden Lernens umgangen hat. Alle vorstehenden Erfassungseinrichtungen trainieren den Klassifizierer in einer Prozedur, die die Tatsache ignoriert, dass das NMS-Problem vorhanden ist, und dann eine herkömmliche NMS als getrennte Nachverarbeitung laufen lässt.
Es besteht das Bedürfnis zum Überwinden der herkömmlichen NMS auf Grund ihrer signifikanten konzeptuellen Defizite. Die herkömmliche NMS führt eine harte Entscheidung durch Löschen von Erfassungen durch und baut ihre Entscheidung auf einem festen Parameter auf, der steuert, wie weit die Suppression geht. Eine weitgehende Suppression würde Erfassungen nahe Erfassungen mit hoher Bewertung beseitigen, die wahrscheinlich falsche Positive sind, die die Präzision verringern. Wenn andererseits Objekte nahe sind (beispielsweise in Massenszenen), können nahe Erfassungen wahre Positive sein, in welchem Fall die Suppression eng sein sollte, um den Recall zu verbessern. Wenn Objekte in der Nähe sind, wird die herkömmliche NMS dazu verurteilt, Präzision oder Recall unabhängig von ihrem Parameter zu opfern.
Es gibt ferner einen Ansatz zum Kombinieren von Entscheidungen einer herkömmlichen NMS mit verschiedenen Überlappungsschwellenwerten, wodurch dem Netzwerk das lokale Auswählen des herkömmlichen NMS-Arbeitspunkts ermöglicht wird, siehe:

J Hosang, R. Benenson, und B. Schiele. A convent for non-maximum suppression. In GCPR, 2016.

KURZZUSAMMENFASSUNG DER OFFENBARUNG
Gegenwärtig bleibt die Bereitstellung eines Systems, Neubewertungssystems und Verfahrens mit einem neuronalen Netzwerk wünschenswert, die das Erfordernis einer herkömmlichen NMS-Nachverarbeitung überflüssig machen.
Gemäß Ausführungsbeispielen vorliegender Offenbarung ist daher ein System zur Erfassung von Objekten in einem digitalen Bild bereitgestellt. Das System umfasst ein neuronales Netzwerk, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Entscheidung darstellt. Die Erzeugung der Bewertungen (das heißt, einer Bewertung für jedes Kandidatenfenster) umfasst

- Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,
- Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung von benachbarten Kandidatenfenstern und
- Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.

Die benachbarten Kandidatenfenster beziehen sich vorzugsweise auf die Nachbarn des Kandidatenfensters, dessen latente Darstellung aktualisiert wird.
Das Neubewertungssystem ist demnach vorzugsweise zur Erkennung von Mehrfacherfassungen durch Verarbeiten jeder Objekterfassung (das heißt, Erzeugung der latenten Darstellung jedes Kandidatenfensters) zusammen mit ihren benachbarten Erfassungen (das heißt, durch Aktualisieren jeder Kandidatenfensterdarstellung, wodurch die latenten Darstellungen der benachbarten Kandidatenfenster des aktuell aktualisierten Kandidatenfensters berücksichtigt werden) eingerichtet. Infolgedessen werden vorzugsweise jene Objekterfassungen, die als Mehrfacherfassungen desselben Objekts erkannt werden, unterdrückt, sodass nur ein Objektkandidat verbleibt (das heißt, eine hohe Bewertung bezüglich seiner benachbarten Kandidatenfenster hat).
Durch die Bereitstellung eines derartigen Systems wird es möglich, dass das neuronale Netzwerk eine NMS lernt, um die Einschränkungen eines herkömmlichen NMS-Nachverarbeitungsschritts zu überwinden. Ein NMS-Ansatz beruhend auf einem neuronalen Netzwerk kann lernen, sich an die Datenverteilung anzupassen, kann den Zielkonflikt der herkömmlichen NMS bewältigen, und kann, was wichtig ist, in eine Erfassungseinrichtung aufgenommen werden.
Eine latente Darstellung kann ein mehrdimensionaler Merkmalsvektor sein. Die latente Darstellung kann beispielweise beruhend auf dem Kandidatenfenster, und insbesondere dem Bildinhalt im Kandidatenfenster bestimmt werden. Ein Beispiel wäre das Verwenden des Bildinhalts im Fenster und dessen Verarbeitung durch zumindest eine (oder beispielsweise drei) Schicht(en) des neuronalen Netzwerks, um die latente Darstellung/den Merkmalsvektor zu erhalten. Bei einem bestimmten Beispiel besteht die zumindest eine Schicht aus einer Faltungs- und/oder Pooling- und/oder FC-(Vollverbindungs-)Schicht.
Die latenten Darstellungen können derart aktualisiert werden, dass die resultierenden Bewertungen der Kandidatenfenster geändert werden. Vorzugsweise besteht diese Änderung darin, dass ein Kandidatenfenster eines erfassten Objekts seine Bewertung erhöht, während alle anderen Kandidatenfenster desselben Objekts ihre Bewertung verringern. Der Betrag der Erhöhung und/oder Verringerung kann beispielsweise ein gelernter Betrag sein, der aus den latenten Darstellungen hergeleitet wird.
Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt werden. Ein Paar benachbarter Kandidatenfenster kann das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfassen.
Die benachbarten Kandidatenfenster können alle Fenster sein, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
Das neuronale Netzwerk kann eine Wiederholungsstruktur zum Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster umfassen.
Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfassen. Das Paar der Erfassungen kann die latenten Darstellungen jedes Kandidatenfensters und des benachbarten Fensters enthalten. Das Paar der Erfassungen kann ein Paarmerkmalsvektor sein.
Der Paarmerkmalsvektor kann die gleichen oder verschiedenen Dimensionen wie der Merkmalsvektor einer latenten Darstellung aufweisen. Im Allgemeinen können die Dimensionen nach jeder FC-Schicht frei wählbar sein.
Die Aktualisierung der latenten Darstellung jedes Kandidatenfensters kann ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, beispielsweise der Geometrie der Kandidatenfenster umfassen.
Die Erfassungspaarmerkmale des Paars der Kandidatenfenster können zu dem Paarmerkmalsvektor verknüpft werden.
Der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verknüpft sind, kann unabhängig über Vollverbindungsschichten abgebildet werden.
Die Anzahl von Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, kann durch Pooling auf eine Darstellung fester Größe verringert werden. Die Paarmerkmalsvektoren können beispielsweise mittels einer elementweisen Operation auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
Der Pooling-Merkmalsvektor kann die gleichen oder verschiedene Dimensionen wie der Merkmalsvektor einer latenten Darstellung und/oder wie der Paarmerkmalsvektor aufweisen.
Die Vielzahl (k) von Paarmerkmalsvektoren von n Dimensionen wird vorzugsweise auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert.
Die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern können vor ihrer Kombination in den Paarmerkmalsvektor reduziert werden.
Demnach können Speichernutzung und/oder Rechenaufwand reduziert werden.
Nach dem Pooling-Vorgang können die Dimensionalitäten alternativ oder zusätzlich zum Zusammenpassen mit der Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
Ein Kandidatenfenster kann einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfassen.
Das neuronale Netzwerk kann unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und jeweiligen Objektanmerkungen trainiert werden, die die tatsächlichen Orte der Objekte angeben. Das Training kann umfassen:

- Erzeugen von Kandidatenfenstern, die Objektorte angeben,
- Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung angibt, und
- Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster maximal mit einer Objektanmerkung verknüpft wird, und sodass jede Objektanmerkung mit maximal einem Kandidatenfenster verknüpft wird.

Dementsprechend kann eine Übereinstimmung (Verknüpfung) zwischen eindeutigen Paaren von Objektanmerkungen und Kandidatenfenstern bestimmt werden, sodass keine der Objektanmerkungen oder der Kandidatenfenster zweimal passt (verknüpft wird).
Diese Zusammenpassung kann beispielweise erhalten werden durch:

- Erzeugen einer Liste mit den Kandidatenfenstern, wobei die Kandidatenfenster in absteigender Reihenfolge ihrer Konfidenz sortiert werden,
- Identifizieren einer nicht zusammengepassten Objektanmerkung mit der größten Überlappung mit dem ersten der Kandidatenfenster in der Liste (das heißt, mit der höchsten Konfidenz in der Liste),
- Entfernen des Kandidatenfensters aus der Liste und
- Zusammenpassen des Kandidatenfensters mit dieser Objektanmerkung, wenn die Überlappung einen vorbestimmten Schwellenwert überschreitet.

Das neuronale Netzwerk kann unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele trainiert werden.
Die Erfindung bezieht sich ferner auf ein System zur Neubewertung von Objekterfassungen in einem digitalen Bild. Eine Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Das System umfasst ein neuronales Netzwerk, das eingerichtet ist zum:

- Erzeugen einer latenten Darstellung für jede Objekterfassung,
- Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und
- Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.

Durch die Bereitstellung eines derartigen Systems wird es möglich, dass das neuronale Netzwerk NMS lernt, um die Einschränkungen eines herkömmlichen NMS-Nachverarbeitungsschritts zu bewältigen. Ein NMS-Ansatz beruhend auf einem neuronalen Netzwerk kann lernen, sich an die Datenverteilung anzupassen, und den Zielkonflikt der herkömmlichen NMS zu bewältigen.
Durch die Bereitstellung eines derartigen Systems schlägt die vorliegende Offenbarung ferner ein „pures NMS-Netzwerk“ vor, das die Aufgabe einer Nicht-Maximum-Suppression ohne Bildinhalt oder Zugang zu Entscheidungen eines anderen Algorithmus ausführen kann.
Das System zur Neubewertung von Objekterfassungen kann ein Teil (oder ein Untersystem) des Systems zur Erfassung von Objekten in einem digitalen Bild wie vorstehend beschrieben sein. Das heißt, das System zur Erfassung von Objekten kann das System zur Neubewertung von Objektentscheidungen umfassen.
Das System zur Erfassung von Objekten in einem digitalen Bild kann beispielsweise ein neuronales Netzwerk umfassen, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung angibt, wobei das neuronale Netzwerk ferner das System zur Neubewertung von Objekterfassungen wie vorstehend beschrieben umfassen kann.
Alternativ dazu kann das System zur Erfassung von Objekten ein erstes neuronales Netzwerk umfassen, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung darstellt. Das System zu Erfassung von Objekten kann ferner ein zweites neuronales System umfassen, das das System zur Neubewertung von Objekterfassungen bildet.
Diese Änderung liegt vorzugsweise darin, dass ein Kandidatenfenster eines erfassten Objekts seine Bewertung erhöht, während alle anderen Kandidatenfenster auf demselben Objekt ihre Bewertung verringern. Die Größe der Erhöhung und/oder Verringerung kann beispielsweise eine gelernte Größe sein, die aus den latenten Darstellungen hergeleitet wird.
Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt werden. Ein Paar benachbarter Kandidatenfenster kann das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfassen.
Die benachbarten Kandidatenfenster können alle Fenster umfassen, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
Das neuronale Netzwerk kann eine Wiederholungstruktur zur Aktualisierung der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster umfassen.
Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfassen. Das Paar von Erfassungen kann die latenten Darstellungen des Kandidatenfensters und des benachbarten Fensters enthalten. Das Paar von Erfassungen kann ein Paarmerkmalsvektor sein.
Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, beispielsweise der Geometrie der Kandidatenfenster umfassen.
Die Erfassungspaarmerkmale des Paars von Kandidatenfenstern können mit dem Paarmerkmalsvektor verkettet werden.
Der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verkettet sind, kann über Vollverbindungsschichten unabhängig abgebildet werden.
Die Anzahl von Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, kann durch Pooling auf eine Darstellung fester Größe reduziert werden. Die Paarmerkmalsvektoren können beispielsweise mittels einer elementweisen Operation auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
Die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern können reduziert werden, bevor sie in dem Paarmerkmalsvektor kombiniert werden.
Nach dem Pooling-Vorgang können die Dimensionalitäten alternativ oder zusätzlich zum Zusammenpassen mit der Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
Ein Kandidatenfenster kann einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfassen.
Das neuronale Netzwerk kann unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und entsprechenden Objektanmerkungen trainiert werden, die die tatsächlichen Orte der Objekte angeben. Das Training kann umfassen:

- Erzeugen von Kandidatenfenstern, die Objektorte angeben,
- Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung angibt, und
- Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster mit maximal einer Objektanmerkung verknüpft wird.

Das neuronale Netzwerk kann unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele gelernt werden.
Die vorliegende Offenbarung bezieht sich ferner auf ein Verfahren zur Erfassung von Objekten in einem digitalen Bild. Bei dem Verfahren führt ein neuronales Netzwerk folgende Schritte durch:

- Erzeugen von Kandidatenfenstern, die Objektorte angeben, und
- Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt.

Der Schritt des Erzeugens der Bewertungen umfasst

- Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,
- Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster, und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.

Das Verfahren kann ferner Verfahrensschritte umfassen, die den Funktionen des Systems zur Erfassung von Objekten in einem digitalen Bild wie vorstehend beschrieben entsprechen. Die weiter bevorzugten Verfahrensschritte sind im Folgenden beschrieben.
Die vorliegende Offenbarung bezieht sich ferner auf ein Verfahren zum Neubewerten von Objekterfassungen in einem digitalen Bild. Eine Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Bei dem Verfahren führt ein neuronales Netzwerk folgende Schritte durch:

- Erzeugen einer latenten Darstellung für jede Objekterfassung,
- Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen, und
- Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.

Das Verfahren kann ferner Verfahrensschritte umfassen, die den Funktionen des Systems zur Neubewertung von Objekterfassungen in einem digitalen Bild wie vorstehend beschrieben entsprechen. Die ferner bevorzugten Verfahrensschritte sind im Folgenden beschrieben.
Die vorliegende Offenbarung bezieht ferner auf ein Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens zur Erfassung von Objekten in einem digitalen Bild, wenn das Programm durch einen Computer ausgeführt wird.
Schließlich bezieht sich die vorliegende Offenbarung auf ein Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens zur Neubewertung von Objekterfassungen in einem digitalen Bild, wenn das Programm durch einen Computer ausgeführt wird.
Es ist beabsichtigt, dass Kombinationen der vorstehend beschriebenen Elemente und jener in der Beschreibung ausgeführt werden können, wenn sie ansonsten nicht widersprüchlich sind.
Es ist ersichtlich, dass sowohl die vorstehende allgemeine Beschreibung als auch die folgende ausführlichere Beschreibung beispielhaft sind und nur der Beschreibung dienen, und die Offenbarung wie beansprucht nicht einschränken.
Die beiliegenden Zeichnungen, die in dieser Spezifikation enthalten sind und einen Teil davon bilden, veranschaulichen Ausführungsbeispiele der Offenbarung zusammen mit der Beschreibung und dienen zur Erläuterung ihrer Prinzipien.
Figurenliste

1 zeigt ein Blockschaltbild eines Systems mit einer Erfassungseinrichtung und einem Neubewertungssystem gemäß Ausführungsbeispielen vorliegender Offenbarung,
2 zeigt eine schematische Darstellung, wie Erfassungsmerkmale gemäß Ausführungsbeispielen vorliegender Offenbarung in paarweisen Kontext kombiniert werden,
3 zeigt ein schematisches Ablaufdiagramm der Arbeitsweise des Neubewertungssystems, insbesondere eines neuronalen Netzwerks für die Neubewertungsprozedur gemäß Ausführungsbeispielen vorliegender Offenbarung,
4a zeigt ein schematisches Ablaufdiagramm einer Lernarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung, und
4b zeigt ein schematisches Ablaufdiagramm einer Testarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Nun wird im Detail auf Ausführungsbeispiele der Offenbarung Bezug genommen, deren Beispiele in den beiliegenden Zeichnungen veranschaulicht sind. Wann immer möglich, werden dieselben Bezugszeichen in den Zeichnungen verwendet, um auf gleiche oder ähnliche Abschnitte Bezug zu nehmen.
1 zeigt ein Blockschaltbild eines Systems 10 mit einer Objekterfassungseinrichtung 1 und einem Neubewertungssystems 2 (das heißt, einem System zur Neubewertung von Objekterfassungen) gemäß Ausführungsbeispielen vorliegender Offenbarung. Das System kann verschiedene weitere Funktionen aufweisen, kann beispielsweise ein Robotersystem oder ein Kamerasystem sein. Es kann ferner in einem Fahrzeug integriert sein.
Das System 10 kann eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppe), eine kombinatorische Logikschaltung, einen Speicher, der ein oder mehrere Softwareprogramme ausführt, und/oder andere geeignete Komponenten umfassen, die die beschriebene Funktionalität bereitstellen. Das heißt, das System 10 kann eine Computereinrichtung sein. Das System kann mit einem Speicher verbunden sein, der Daten speichern kann, beispielsweise ein Computerprogramm, das bei seiner Ausführung das Verfahren gemäß vorliegender Offenbarung ausführt. Das System oder der Speicher kann insbesondere Software speichern, die das neuronale Netzwerk gemäß vorliegender Offenbarung umfasst.
Das System 10, insbesondere die Erfassungseinrichtung 1, weist einen Eingang zum Empfangen eines digitalen Bildes oder eines Datenstroms digitaler Bilder auf. Das System 10, insbesondere die Erfassungseinrichtung 1, kann insbesondere mit einem optischen Sensor 3, insbesondere einer Digitalkamera verbunden sein. Die Digitalkamera 3 ist derart eingerichtet, dass sie eine Szene aufzeichnen kann, und insbesondere digitale Daten zu dem System 10, insbesondere der Erfassungseinrichtung 1 ausgeben kann.
Die Erfassungseinrichtung 1 kann als Software, die auf dem System 10 läuft, oder als Hardwareelement des Systems 10 implementiert sein. Die Erfassungseinrichtung 1 führt einen Computervisionsalgorithmus zur Erfassung des Vorhandenseins und eines Orts von Objekten in einer erfassten Szene aus. Es können beispielsweise Fahrzeuge, Personen und andere Objekte erfasst werden. Die Erfassungseinrichtung gibt Kandidatenfenster aus, die Objektorte angeben, und erzeugt eine Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt.
Ferner kann auch das Neubewertungssystem 2 als auf dem System 10 laufende Software oder als Hardwareelement des Systems 10 implementiert sein. Das System kann insbesondere ein neuronales Netzwerk umfassen, das sowohl die Erfassungseinrichtung als auch das Neubewertungssystem enthält. Alternativ kann das Neubewertungssystem als unabhängiges neuronales Netzwerk realisiert werden (insbesondere neben einem neuronalen Netzwerk, das die Erfassungseinrichtung umfasst).
Das Neubewertungssystem 2 empfängt die Erfassungsergebnisse als Eingabe von der Erfassungseinrichtung. Insbesondere empfängt es Informationen hinsichtlich einer oder mehrerer Objekterfassungen. Jede Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Das Neubewertungssystem bewertet diese Objekterfassungen derart neu, dass Doppelerfassungen unterdrückt werden. Das heißt, das Neubewertungssystem erzeugt eine latente Darstellung für jedes Kandidatenfenster. Die latente Darstellung jedes Kandidatenfensters wird danach beruhend auf der latenten Darstellung benachbarter Kandidatenfenster aktualisiert. Die (somit neu bewertete) Bewertung für jedes Kandidatenfenster wird dann beruhend auf ihrer aktualisierten latenten Darstellung erzeugt.
Dadurch ist das Neubewertungssystem zur Erkennung doppelter Erfassungen eingerichtet, indem jede Objekterfassung zusammen mit ihren benachbarten Erfassungen verarbeitet wird. Jene Objekterfassungen, die als Mehrfacherfassungen desselben Objekts erkannt werden, werden unterdrückt, sodass lediglich eine Objekterfassung verbleibt.
Im Folgenden wird die Arbeitsweise des neuronalen Netzwerks gemäß der vorliegenden Offenbarung unter Bezugnahme auf die 2 bis 4b näher besch rieben.
Herkömmliche Erfassungseinrichtungen geben nicht alle Erfassungen zurück, die bewertet wurden, sondern verwenden stattdessen NMS als Nachverarbeitungsschritt zum Beseitigen redundanter Erfassungen. Um echte durchgehend gelernte Erfassungseinrichtungen bereitzustellen, bezieht sich die vorliegende Offenbarung auf Erfassungseinrichtungen ohne jegliche Nachverarbeitung. Um zu verstehen, warum NMS erforderlich ist, ist es nützlich, die Aufgabe der Erfassung, und wie sie bewertet wird, anzuschauen.
Die Aufgabe der Objekterfassung besteht in der Abbildung eines Bildes auf einen Satz von Kästchen (das heißt, Kandidatenfenstern): ein Kästchen pro interessierendem Objekt in dem Bild, wobei jedes Kästchen ein Objekt eng umschließt. Das heißt, dass Erfassungseinrichtungen exakt eine Erfassung pro Objekt zurückgeben sollten. Da Ungewissheit ein inhärenter Teil des Erfassungsprozesses ist, ermöglichen Bewertungen, dass Erfassungen mit einer Konfidenz verknüpft werden. Konfidente falsche Erfassungen werden stärker bestraft als weniger konfidente. Insbesondere werden Fehler, die weniger konfident als die am wenigsten konfidente korrekte Erfassung sind, überhaupt nicht bestraft.
Das Erfassungsproblem kann als Klassifizierungsproblem interpretiert werden, das Wahrscheinlichkeiten von Objektklassen schätzt, die für jede mögliche Erfassung in einem Bild vorhanden sind. Dieser Gesichtspunkt ruft „Vermutungs- und Bewertungserfassungseinrichtungen“ hervor, die einen Suchraum von Erfassungen bilden (beispielsweise Schiebefenster, Vorschläge) und Klassenwahrscheinlichkeiten unabhängig für jede Erfassung schätzen. Als Ergebnis werden zwei stark überlappende Fenster, die dasselbe Objekt bedecken, beide in einer hohen Bewertung resultieren, da sie auf beinahe identischen Bildinhalt schauen. Im Allgemeinen löst jedes Objekt anstelle einer Erfassung pro Objekt mehrere Erfassungen variierender Konfidenz in Abhängigkeit davon aus, wie gut die Erfassungsfenster das Objekt bedecken.
Da das tatsächliche Ziel die Erzeugung exakt einer Erfassung pro Objekt (oder exakt einer Erfassung mit hoher Konfidenz) ist, besteht eine übliche Praxis (zumindest seit 1994) in der Annahme, dass stark überlappende Erfassungen zum selben Objekt gehören, und diese in eine Erfassung zu kollabieren. Der vorherrschende Algorithmus (die herkömmliche NMS) akzeptiert die Erfassung mit der höchsten Bewertung und weist dann alle Erfassungen zurück, die mit mehr als einem Schwellenwert überlappen, und wiederholt die Prozedur mit den verbleibenden Erfassungen, das heißt, akzeptiert stark lokale Maxima und verwirft ihre Nachbarn, daher der Name. Dieser Algorithmus akzeptiert schließlich auch falsche Erfassungen, was kein Problem darstellt, wenn ihre Konfidenz geringer als die Konfidenz korrekter Erfassungen ist.
Dieser herkömmliche NMS-Algorithmus arbeitet gut, wenn (1) die Suppression weit genug ist, um immer Erfassungen mit hoher Bewertung zu unterdrücken, die durch dasselbe Objekt ausgelöst werden, und (2) die Suppression eng genug ist, um nie Erfassungen des am nächsten kommenden Objekts mit hoher Bewertung zu unterdrücken. Wenn Objekte weit genug weg sind, ist die Bedingung (2) leicht zu erfüllen, und eine weite Suppression arbeitet gut. Bei Massenszenen mit starker Okklusion zwischen Objekten gibt es eine Spannung zwischen weiter und enger Suppression. Das heißt, bei einem Objekt pro Bild ist die NMS trivial, jedoch erfordern stark verdeckte Objekte einen besseren NMS-Algorithmus.
Die vorliegende Offenbarung beruht auf diesen Anforderungen an einen NMS-Algorithmus, schlägt aber eine Lösung vor, bei der NMS ein „pures NMS-Netzwerk“ ist, wobei sie insbesondere in einer Erfassungseinrichtung enthalten sein kann.
Eine unabhängige Verarbeitung von Bildfenstern führt zu überlappender Erfassung und ergibt ähnliche Bewertungen, wobei dies eine Anforderung an robuste Funktionen ist: ähnliche Eingaben führen zu ähnlichen Ausgaben. Eine Erfassungseinrichtung, die lediglich eine Erfassung mit hoher Bewertung pro Objekt ausgibt, muss somit auch bei anderen Erfassungen konditioniert werden: Mehrfacherfassungen bei demselben Objekt sollten gemeinsam verarbeitet werden, sodass die Erfassungseinrichtung mitteilen kann, dass wiederholte Erfassungen vorhanden sind, und nur eine von diesen eine hohe Bewertung erhalten sollte.
Eine typische Inferenz von Erfassungseinrichtungen besteht aus einem Klassifizierer, der zwischen Bildinhalt, der ein Objekt enthält, und Bildinhalt unterscheidet, der dies nicht tut. Die positiven und negativen Lernbeispiele für diese Erfassungseinrichtung werden üblicherweise durch ein Maß an Überlappung zwischen Objekten und Rahmen definiert. Da ähnliche Kästchen sowieso ähnliche Konfidenzen erzeugen, können kleine Perturbationen von Objektorten auch als positive Beispiele betrachtet werden. Dieses Verfahren erweitert die Lerndaten und führt zu robusteren Erfassungseinrichtungen. Die Verwendung dieser Art Klassifiziererlernens belohnt nicht mit einer Erfassung mit hoher Bewertung pro Objekt, und fördert stattdessen absichtlich mehrere Erfassungen mit hoher Bewertung pro Objekt.
Anhand dieser Analyse ergeben sich zwei Schlüsselzutaten für das System vorliegender Offenbarung, damit eine Erfassungseinrichtung exakt eine Erfassung pro Objekt erzeugt:

1. Ein Verlust, der doppelte Erfassungen bestraft, um die Erfassungseinrichtung zu lehren, da präzise eine Erfassung pro Objekt erforderlich ist.
2. Gemeinsame Verarbeitung benachbarter Erfassungen, damit die Erfassungseinrichtung die erforderlichen Informationen hat, um sagen zu können, ob ein Objekt mehrere Male erfasst wurde.

Der neuronale Netzwerkentwurf gemäß vorliegender Offenbarung beherbergt beide Zutaten. Der neuronale Netzwerkentwurf vermeidet harte Entscheidungen und verwirft keine Erfassungen, um einen kleineren Satz an Erfassungen zu erzeugen. Stattdessen wird NMS als Neubewertungsaufgabe umformuliert, die die Bewertung von Erfassungen verringern möchte, die Objekte abdecken, die bereits erfasst wurden. Nach einer Neubewertung kann ein einfaches Schwellenwertverfahren durchgeführt werden, um den Satz an Erfassungen zu reduzieren. Für eine Auswertung kann der vollständige Satz neubewerteter Erfassungen zu dem Auswertungsskript ohne jegliche Nachverarbeitung geleitet werden.
Verlust:

Eine Erfassungseinrichtung soll exakt eine Erfassung hoher Bewertung pro Objekt ausgeben. Der Verlust für eine derartige Erfassungseinrichtung muss Mehrfacherfassungen desselben Objekts ungeachtet dessen verhindern, wie nahe sich diese Erfassungen sind.

Die Erfassungseinrichtung kann durch das Auswertungskriterium eines Richtwerts beurteilt werden, das wiederum eine Zusammenpassungsstrategie zum Entscheiden definiert, welche Erfassungen korrekt oder falsch sind. Dies ist die Zusammenpassung, die zur Zeit des Lernens verwendet werden sollte. Typische Richtwerte sortieren Erfassungen in absteigender Reihenfolge ihrer Konfidenz und passen Erfassungen in dieser Reihenfolge mit Objekten zusammen, wobei am stärksten überlappende Objekte bevorzugt werden. Da bereits zusammengepasste Objekte nicht erneut zusammengepasst werden können, werden überschüssige Erfassungen als falsche Positive gezählt, die die Präzision der Erfassungseinrichtung verringern. Diese Zusammenpassungsstrategie kann zum Lernen verwendet werden.
Das Ergebnis der Zusammenpassung kann als Kennzeichen für den Klassifizierer verwendet werden: erfolgreich zusammengepasste Erfassungen sind positive Lernbeispiele, während nicht zusammengepasste Erfassungen negative Lernbeispiele für einen binären Standardverlust sind. Typischerweise weisen alle Erfassungen, die zum Trainieren eines Klassifizierers verwendet werden, eine zugeordnete Kennzeichnung auf, wenn sie in das Netzwerk geführt werden. In diesem Fall hat das Netzwerk Zugriff auf Erfassungen und Objektanmerkungen, und die Zusammenpassungsschicht erzeugt Kennzeichen, die von den Prädiktionen des Netzwerks abhängen. Die Klassenzuordnung ermutigt direkt das Neubewertungsverhalten, das erzielt werden soll.
di sei eine Erfassung, Yi (als Element von [-1, 1]) gebe an, ob di erfolgreich mit einem Objekt zusammengepasst wurde, und f sei die Bewertungsfunktion, die alle Erfassungen bei einem Bild gemeinsam bewertet. $f ({[d_{i}]}_{i = 1}^{n}) = {[s_{i}]}_{i = 1}^{n} .$
Es wird mit gewichtetem Verlust gelernt. $L (s_{i}, y_{i}) = \sum_{i = 1}^{N} w_{y_{1}} \cdot log (1 + exp (s_{i} \cdot y_{i})) .$
Hier ist Verlust pro Erfassung mit den anderen Erfassungen über die Zusammenpassung gekoppelt, die yi erzeugt. Die Gewichtung wyi wird zum Gegensteuern des extremen Klassenungleichgewichts der Erfassungsaufgabe verwendet. Die Gewichte können gewählt werden, sodass das erwartete klassenbedingte Gewicht eines Beispiels gleich einem folgenden Parameter ist. $E (w_{1} I (y_{i} = 1)) = γ .$
Bei einer Verallgemeinerung auf eine Mehrklasseneinstellung werden Erfassungen sowohl mit einer Konfidenz als auch einer Klasse verknüpft. Da lediglich Erfassungen neu bewertet werden, dürfen Erfassungen „ausgeschaltet“ werden, aber nicht ihre Klasse verändern. Infolgedessen werden nur Erfassungen mit Objekten derselben Klasse zusammengepasst, das Klassifizierungsproblem bleibt aber binär, und der vorstehende Verlust gilt immer noch. Bei der Darstellung der Erfassungsbewertungen kann eine One-Hot-Kodierung verwendet werden: ein Nullvektor, der lediglich die Bewertung an dem Ort in dem Vektor enthält, der der Klasse entspricht. Da eine mAP-Berechnung keine Klassen anhand ihrer Größe gewichtet, können die Beispielgewichte derart zugeordnet werden, dass ihr erwartetes klassenbedingtes Gewicht gleichmäßig verteilt ist.
Gemeinsame Verarbeitung:

Zum effektiven Minimieren des vorstehend beschriebenen Verlusts ist es erforderlich, dass das neuronale Netzwerk Erfassungen gemeinsam verarbeitet. Aus diesem Grund ist ein neuronales Netzwerk mit einer Wiederholungsstruktur entworfen, die „Blöcke“ (in 3 gezeigt) genannt wird. Ein Block gibt jeder Erfassung Zugriff auf die Darstellung ihrer Nachbarn und aktualisiert danach seine eigene Darstellung. Das Stapeln einer Vielzahl von Blöcken bedeutet, dass das Netzwerk dazwischen wechselt, jeder Erfassung ein „Sprechen“ mit ihren Nachbarn zu erlauben, und ihre eigene Darstellung zu aktualisieren. Das heißt, Erfassungen reden mit ihren Nachbarn, um ihre Darstellungen zu aktualisieren.

Hier gibt es zwei Nicht-Standardvorgänge, die der Kern sind. Der erste ist eine Schicht, die Darstellungen für Paare von Erfassungen wie in 2 gezeigt bildet. Dies führt zu dem Kernproblem: eine unregelmäßige Anzahl von Nachbarn für jede Erfassung. Da die Vermeidung eines Diskretisierungsschemas erwünscht ist, wird diese Aufgabe vorzugsweise durch Pooling über Erfassungen (zweiter Kern) gelöst.
Erfassungsmerkmale :

Die Blöcke des neuronalen Netzwerks verwenden den Erfassungsmerkmalsvektor jeder Erfassung als Eingang und geben einen aktualisierten Vektor aus (vergleiche abstrakte Darstellung in 4a, 4b). Ausgaben aus einem Block werden in den nächsten eingegeben. Die Werte innerhalb dieses c = 128-dimensionalen Merkmalsvektors werden implizit während des Trainings gelernt. Die Ausgabe des letzten Blocks wird zur Erzeugung der neuen Erfassungsbewertung für jede Erfassung verwendet.

Der erste Block verwendet einen insgesamt Null-Vektor als Eingang. Informationen der Erfassungen werden in dem Abschnitt „paarweise Berechnungen“ von 3 wie nachstehend beschrieben in das Netzwerk geführt. Diese Null-Eingabe könnte potenziell durch Bildmerkmale ersetzt werden.
Paarweiser Erfassungskontext:

Die erste ist eine Schicht, die Darstellungen für Paare von Erfassungen wie in 2 gezeigt bildet. 2 zeigt eine schematische Darstellung, wie Erfassungsmerkmale gemäß Ausführungsbeispielen vorliegender Offenbarung in einen paarweisen Kontext kombiniert werden. Jeder feste Block ist der Merkmalsvektor der Erfassung eines entsprechenden Musters (beispielsweise verschiedentlich schraffierter Linien). Die schraffierten Blöcke sind die „Erfassungspaarmerkmale“, die durch die zwei Erfassungen definiert sind, die den zwei Mustern entsprechen.

Jedes Minibatch besteht aus allen n Erfassungen bei einem Bild, jeweils dargestellt durch einen c-dimensionalen Merkmalsvektor, sodass Daten eine Größe von n x c aufweisen und Zugriff auf andere Darstellungen der Erfassung ein Arbeiten innerhalb der Batchelemente bedeutet. Eine Erfassungskontextschicht wird verwendet, die für jede Erfassung di alle Paare von Erfassungen (di; dj) erzeugt, für die dj mit di ausreichend überlappt (IoU > 0,2). Die Darstellung eines Paars von Erfassungen besteht aus einer Verkettung sowohl von Erfassungsdarstellungen als auch g-dimensionalen Erfassungspaarmerkmalen (siehe unten), was zu einem I = 2c + g - dimensionalen Merkmal führt. Zur unabhängigen Verarbeitung jedes Paars von Erfassungen werden die Merkmale aller Paare von Erfassungen entlang der Batch-Dimension angeordnet: wenn die Erfassung di ki benachbarte Erfassungen hat, ergibt sich ein Batch der Größe K x I, wobei gilt $K = \sum_{i = 1}^{n} (k_{i} + 1)$
da auch das Paar (di; di) enthalten ist. Die Anzahl an Nachbarn ki (die Anzahl an Paaren) ist für jede Erfassung verschieden, selbst innerhalb eines Minibatch. Zur Reduzierung der Nachbarschaft variabler Größe in eine Darstellung fester Größe verwendet die Architektur vorliegender Offenbarung globales Max-Pooling über alle Erfassungspaare, die zur selben Erfassung gehören (K x I -> n x I) woraufhin normale Vollverbindungsschichten zum Aktualisieren der Erfassungsdarstellung verwendet werden können (vergleiche 3).
Erfassungspaarmerkmale :

Die Merkmale jedes Erfassungspaars, die im Erfassungskontext verwendet werden, bestehen aus mehreren Eigenschaften eines Erfassungspaars: (1) die Schnittmenge über Vereinigungsmenge (IoU), (2-4) die normalisierte Entfernung in der x- und y-Richtung und die normalisierte I2-Entfernung (normalisiert durch den Mittelwert von Breite und Höhe der Erfassung), (4-5) der Maßstabsunterschied von Breite und Höhe (beispielsweise Log (wi=wj), (6) der Seitenverhältnisunterschied Log (ai=aj), (7-8) die Erfassungsbewertungen beider Erfassungen. Bei dem Mehrklassenaufbau liefert jede Erfassung anstelle eines Skalars einen Bewertungsvektor, wodurch die Anzahl von Paarmerkmalen erhöht wird. All diese rohen Merkmale werden in 3 Vollverbindungsschichten geführt, um die g Erfassungspaarmerkmale zu lernen, die in jedem Block verwendet werden.

Block:

Ein Block führt eine Iteration durch, wodurch Erfassungen ermöglicht wird, ihre jeweiligen Nachbarn anzusehen, und ihre Darstellung aktualisiert wird, wie es in 3 gezeigt ist. 3 zeigt ein schematisches Ablaufdiagramm der Arbeitsweise des Neubewertungssystems, insbesondere eines neuronalen Netzwerks für die Aktualisierungsprozedur gemäß Ausführungsbeispielen vorliegender Offenbarung. Ein Block des neuronalen Netzwerks vorliegender Offenbarung ist hier für eine Erfassung gezeigt. Die Darstellung jeder Erfassung wird reduziert und dann in benachbarte Erfassungspaare kombiniert und mit Erfassungspaarmerkmalen verkettet (gestrichelte Kästchen, entsprechende Merkmale und Erfassungen weisen dasselbe Muster auf). Merkmale von Erfassungspaaren werden unabhängig über Vollverbindungsschichten abgebildet. Die variable Anzahl von Paaren wird durch Max-Pooling auf eine Darstellung fester Größe reduziert. Paarweise Berechnungen werden für jede Erfassung unabhängig durchgeführt.

Das neuronale Netzwerk besteht insbesondere aus einer Dimensionalitätenreduktion, einer paarweisen Erfassungskontextschicht, zwei Vollverbindungsschichten, die bei jedem Paar unabhängig angewendet werden, Pooling über Erfassungen und zwei Vollverbindungsschichten, wobei die letzte die Dimensionalität wieder erhöht. Der Eingang und Ausgang eines Blocks werden wie bei der Resnet-Architektur addiert, vergleiche:

K. He, X. Zhang, S. Ren und J. Sun. Identity mappings in deep residual networks. In ECCV, 2016.

Der erste Block empfängt Null-Merkmale als Eingaben, weshalb jede Information, die zum Treffen der Entscheidung verwendet wird, aus den Erfassungspaarmerkmalen geladen wird. Die Ausgabe des letzten Blocks wird durch drei Vollverbindungsschichten zum Vorhersagen einer neuen Bewertung für jede Erfassung unabhängig verwendet (vergleiche 4a, 4b).
4a zeigt ein schematisches Ablaufdiagramm einer Lernarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung, und 4b zeigt ein schematisches Ablaufdiagramm einer Testarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung. 4a und 4b sind abstrakte Darstellungen der Offenbarung. Bei der Lernarchitektur von 4a entsprechen die Blöcke den in 3 beschriebenen. „FC“ bezeichnet Vollverbindungsschichten. Alle Merkmale in dieser Darstellung können 128 Dimensionen aufweisen (Eingangsvektor und Merkmale zwischen den Schichten/Blöcken). Die Ausgabe ist ein Skalar.
Parameter:

Das neuronale Netzwerk kann 16 Blöcke aufweisen. Die Merkmalsdimension für die Erfassungsmerkmale kann 128 sein und kann vor dem Bilden des paarweisen Erfassungskontexts auf 32 verringert werden. Die Erfassungspaarmerkmale können auch 32 Dimensionen aufweisen. Die Vollverbindungschichten nach dem letzten Block können 128-dimensionale Merkmale ausgeben. Wenn die Merkmalsdimension geändert wird, bleibt das Verhältnis zwischen der Anzahl an Merkmalen in jeder Schicht konstant, weshalb die Angabe der Erfassungsmerkmalsdimension ausreicht.

Nachrichtenaustausch:

Der Vorwärtsdurchlauf über mehrere gestapelte Blöcke kann als Nachrichtenaustausch interpretiert werden. Jede Erfassung sendet Nachrichten zu all ihren Nachbarn, um auszuhandeln, welcher Erfassung ein Objekt zugewiesen wird, und welche Erfassungen ihre Bewertungen reduzieren sollten. Anstelle eines handgefertigten Nachrichtenaustauschalgorithmus und seiner Regeln ist das Netzwerk zum latenten Lernen der Nachrichten konfiguriert, die ausgetauscht werden.

In der Beschreibung einschließlich der Ansprüche sollte der Ausdruck „Umfassen eines“ als Synonym zu „Umfassen zumindest eines“ verstanden werden, wenn nichts Anderes ausgesagt ist. Außerdem sollte jeder Bereich, der in der Beschreibung einschließlich der Ansprüche aufgeführt ist, so verstanden werden, dass er seinen Endwert/seine Endwerte enthält, wenn nichts Anderes gesagt ist. Bestimmte Werte für beschriebene Elemente sollten so verstanden werden, dass sie innerhalb akzeptierter Herstellungs- oder Industrietoleranzen liegen, die dem Fachmann bekannt sind, und jede Verwendung der Ausdrücke „im Wesentlichen“ und/oder „ungefähr“ und/oder „im Allgemeinen“ sollten so verstanden werden, dass sie in diese akzeptierten Toleranzen fallen.
Obwohl die vorliegende Offenbarung hier unter Bezugnahme auf bestimmte Ausführungsbeispiele beschrieben wurde, ist ersichtlich, dass diese Ausführungsbeispiele die Prinzipien und Anwendungen vorliegender Offenbarung lediglich veranschaulichen.
Die Beschreibung und Beispiele sollen lediglich als Beispiele betrachtet werden, wobei der wahre Schutzbereich der Offenbarung durch die folgenden Patentansprüche angegeben ist.

Claims

System zur Erfassung von Objekten in einem digitalen Bild, wobei das System ein neuronales Netzwerk umfasst, das eingerichtet ist zum Erzeugen von Kandidatenfenstern, die Objektorte angeben, und Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, wobei das Erzeugen der Bewertungen umfasst Erzeugen einer latenten Darstellung für jedes Kandidatenfenster, Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
System nach Anspruch 1, wobei die latenten Darstellungen derart aktualisiert werden, dass die resultierenden Bewertungen der Kandidatenfenster geändert werden.
System nach einem der vorhergehenden Ansprüche, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt wird, wobei ein Paar benachbarter Kandidatenfenster das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfasst.
System nach einem der vorhergehenden Ansprüche, wobei die benachbarten Kandidatenfenster alle Fenster umfassen, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
System nach einem der vorhergehenden Ansprüche, wobei das neuronale Netzwerk eine Wiederholstruktur zum Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster aufweist.
System nach einem der vorhergehenden Ansprüche, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfasst, wobei das Paar von Erfassungen die latenten Darstellungen des Kandidatenfensters und des benachbarten Kandidatenfensters enthält, wobei das Paar von Erfassungen ein Paarmerkmalsvektor ist.
System nach dem vorhergehenden Anspruch, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, insbesondere der Geometrie der Kandidatenfenster umfasst, wobei die Erfassungspaarmerkmale des Paars von Kandidatenfenstern mit dem Paarmerkmalsvektor verkettet sind.
System nach einem der vorhergehenden Ansprüche 6 oder 7, wobei der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verkettet sind, über Vollverbindungsschichten unabhängig abgebildet wird.
System nach einem der vorhergehenden Ansprüche 6 bis 8, wobei die Anzahl an Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, durch Pooling auf eine Darstellung fester Größe reduziert wird, wobei die Paarmerkmalsvektoren mittels eines elementweisen Vorgangs auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
System nach dem vorhergehenden Anspruch, wobei die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern vor ihrer Kombination in dem Paarmerkmalsvektor reduziert werden, und/oder die Dimensionalitäten nach dem Pooling-Vorgang zum Passen zur Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
System nach einem der vorhergehenden Ansprüche, wobei ein Kandidatenfenster einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfasst.
System nach einem der vorhergehenden Ansprüche, wobei das neuronale Netzwerk unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und entsprechenden Objektanmerkungen trainiert wird, die die aktuellen Orte der Objekte angeben, wobei das Training umfasst: Erzeugen von Kandidatenfenstern, die Objektorte angeben, Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, und Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster mit maximal einer Objektanmerkung verknüpft wird, und sodass jede Objektanmerkung maximal mit einem Kandidatenfenster verknüpft wird.
System nach dem vorhergehenden Anspruch, wobei das neuronale Netzwerk unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele trainiert wird.
System zur Neubewertung von Objekterfassungen in einem digitalen Bild, wobei eine Objekterfassung ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung umfasst, die die Konfidenz der Erfassung darstellt, wobei das System ein neuronales Netzwerk umfasst, das eingerichtet ist zum - Erzeugen einer latenten Darstellung für jede Objekterfassung, - Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und - Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.
Verfahren zur Erfassung von Objekten in einem digitalen Bild, wobei ein neuronales Netzwerk die Schritte durchführt Erzeugen von Kandidatenfenstern, die Objektorte angeben, und Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, wobei der Schritt des Erzeugens der Bewertungen umfasst Erzeugen einer latenten Darstellung für jedes Kandidatenfenster, Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
Verfahren zur Neubewertung von Objekterfassungen in einem digitalen Bild, wobei eine Objekterfassung ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung umfasst, die die Konfidenz der Erfassung darstellt, wobei ein neuronales Netzwerk die Schritte durchführt Erzeugen einer latenten Darstellung für jede Objekterfassung, Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und Erzeugen der neuen Bewertung für jede Objekterfassung beruhenden auf ihrer aktualisierten latenten Darstellung.
Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens nach Anspruch 15 oder Anspruch 16, wenn das Programm durch einen Computer ausgeführt wird.