Nothing Special   »   [go: up one dir, main page]

DE112017007492T5 - System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen - Google Patents

System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen Download PDF

Info

Publication number
DE112017007492T5
DE112017007492T5 DE112017007492.4T DE112017007492T DE112017007492T5 DE 112017007492 T5 DE112017007492 T5 DE 112017007492T5 DE 112017007492 T DE112017007492 T DE 112017007492T DE 112017007492 T5 DE112017007492 T5 DE 112017007492T5
Authority
DE
Germany
Prior art keywords
candidate
latent representation
candidate window
windows
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017007492.4T
Other languages
English (en)
Inventor
Daniel Olmeda Reino
Bernt Schiele
Jan Hendrik Hosang
Rodrigo Benenson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Europe NV SA
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Original Assignee
Toyota Motor Europe NV SA
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Europe NV SA, Max Planck Gesellschaft zur Foerderung der Wissenschaften eV filed Critical Toyota Motor Europe NV SA
Publication of DE112017007492T5 publication Critical patent/DE112017007492T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung bezieht sich auf ein System zur Erfassung von Objekten in einem digitalen Bild. Das System umfasst ein neuronales Netzwerk, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung darstellt. Das Erzeugen der Bewertungen umfasst- Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,- Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und- Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung. Die Erfindung bezieht sich ferner auf ein System zur Neubewertung von Objekterfassungen in einem digitalen Bild und auf Verfahren zur Erfassung von Objekten und Neubewertung von Objekten.

Description

  • GEBIET DER OFFENBARUNG
  • Die vorliegende Offenbarung bezieht sich auf ein System und ein Verfahren zur Erfassung von Objekten in einem digitalen Bild und auf ein System und ein Verfahren zur Neubewertung von Objekterfassungen.
  • HINTERGRUND DER OFFENBARUNG
  • Moderne Objekterfassungseinrichtungen verfolgen ein dreistufiges Konzept: (1) Vorschlagen eines Suchraums von Fenstern (vollständig durch Schiebefenster oder spärlicher unter Verwendung von Vorschlägen), (2) Bewerten/Verfeinern des Fensters mit einem Klassifizierer/Regressor und (3) Zusammenfügen von Fenstern, die zum selben Objekt gehören könnten. Diese letzte Stufe wird allgemein als „Nicht-Maximum-Suppression“ (NMS) bezeichnet, siehe beispielsweise:
    • R. Girshick. Fast R-CNN. In ICCV, 2015,
    • P. Felzenszwalb, R. Girshick, D. McAllester, und D. Ramanan. Object detection with discriminatively trained part-based models. PAMI, 2010, und
    • W. Liu, D. Anguelov, D. Erhan, C. Szegedy, und S. Reed. Ssd: Single shot multibox detector. In ECCV, 2016,
    • L. Wan, D. Eigen, und R. Fergus. End-to-end integration of a convolutional network, deformable parts model and non-maximum suppression. In CVPR, 2015,
    • P. Henderson und V. Ferrari. End-to-end training of object class detectors for mean average precision. In ACCV, 2016.
  • Der Defacto-Standard für diese herkömmliche NMS ist eine einfache handgemachte Testzeit-Nachverarbeitung. Der Algorithmus wählt stark Erfassungen mit hoher Bewertung aus und löscht benachbarte weniger vertrauensvolle Nachbarn, da sie wahrscheinlich dasselbe Objekt abdecken.
  • Dieser Algorithmus ist einfach, schnell und verglichen mit vorgeschlagenen Alternativen konkurrenzfähig.
  • Der bemerkenswerteste kürzliche Leistungsdurchbruch bei der allgemeinen Objekterfassung wurde durch R-CNN markiert, das Merkmalsextraktion und Klassifizierer effektiv durch ein neuronales Netzwerk ersetzt hat, wodurch die Leistung bei Pascal VOC beinahe verdoppelt wird, siehe:
    • R. Girshick, J. Donahue, T. Darrell, und J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
  • Eine weitere signifikante Verbesserung war die Absorption der Objektvorschlagserzeugung in das Netzwerk, siehe beispielsweise:
    • S. Ren, K. He, R. Girshick, und J. Sun. Faster RCNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.
  • Währenddessen vermeiden andere Arbeiten Vorschläge insgesamt, was sowohl zur Geschwindigkeits- als auch Qualitätsverbesserung geführt hat, siehe beispielsweise:
    • J. Redmon, S. Divvala, R. Girshick, und A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.
  • Es besteht ein allgemeiner Trend in Richtung durchgehendes Lernen, und es erscheint vernünftig, weitere Verbesserungen durch vollständiges durchgehendes Trainieren von Erfassungseinrichtungen zu erwarten. NMS ist ein Schritt in der Pipeline, die größtenteils das Paradigma des durchgehenden Lernens umgangen hat. Alle vorstehenden Erfassungseinrichtungen trainieren den Klassifizierer in einer Prozedur, die die Tatsache ignoriert, dass das NMS-Problem vorhanden ist, und dann eine herkömmliche NMS als getrennte Nachverarbeitung laufen lässt.
  • Es besteht das Bedürfnis zum Überwinden der herkömmlichen NMS auf Grund ihrer signifikanten konzeptuellen Defizite. Die herkömmliche NMS führt eine harte Entscheidung durch Löschen von Erfassungen durch und baut ihre Entscheidung auf einem festen Parameter auf, der steuert, wie weit die Suppression geht. Eine weitgehende Suppression würde Erfassungen nahe Erfassungen mit hoher Bewertung beseitigen, die wahrscheinlich falsche Positive sind, die die Präzision verringern. Wenn andererseits Objekte nahe sind (beispielsweise in Massenszenen), können nahe Erfassungen wahre Positive sein, in welchem Fall die Suppression eng sein sollte, um den Recall zu verbessern. Wenn Objekte in der Nähe sind, wird die herkömmliche NMS dazu verurteilt, Präzision oder Recall unabhängig von ihrem Parameter zu opfern.
  • Es gibt ferner einen Ansatz zum Kombinieren von Entscheidungen einer herkömmlichen NMS mit verschiedenen Überlappungsschwellenwerten, wodurch dem Netzwerk das lokale Auswählen des herkömmlichen NMS-Arbeitspunkts ermöglicht wird, siehe:
    • J Hosang, R. Benenson, und B. Schiele. A convent for non-maximum suppression. In GCPR, 2016.
  • KURZZUSAMMENFASSUNG DER OFFENBARUNG
  • Gegenwärtig bleibt die Bereitstellung eines Systems, Neubewertungssystems und Verfahrens mit einem neuronalen Netzwerk wünschenswert, die das Erfordernis einer herkömmlichen NMS-Nachverarbeitung überflüssig machen.
  • Gemäß Ausführungsbeispielen vorliegender Offenbarung ist daher ein System zur Erfassung von Objekten in einem digitalen Bild bereitgestellt. Das System umfasst ein neuronales Netzwerk, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Entscheidung darstellt. Die Erzeugung der Bewertungen (das heißt, einer Bewertung für jedes Kandidatenfenster) umfasst
    • - Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,
    • - Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung von benachbarten Kandidatenfenstern und
    • - Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
  • Die benachbarten Kandidatenfenster beziehen sich vorzugsweise auf die Nachbarn des Kandidatenfensters, dessen latente Darstellung aktualisiert wird.
  • Das Neubewertungssystem ist demnach vorzugsweise zur Erkennung von Mehrfacherfassungen durch Verarbeiten jeder Objekterfassung (das heißt, Erzeugung der latenten Darstellung jedes Kandidatenfensters) zusammen mit ihren benachbarten Erfassungen (das heißt, durch Aktualisieren jeder Kandidatenfensterdarstellung, wodurch die latenten Darstellungen der benachbarten Kandidatenfenster des aktuell aktualisierten Kandidatenfensters berücksichtigt werden) eingerichtet. Infolgedessen werden vorzugsweise jene Objekterfassungen, die als Mehrfacherfassungen desselben Objekts erkannt werden, unterdrückt, sodass nur ein Objektkandidat verbleibt (das heißt, eine hohe Bewertung bezüglich seiner benachbarten Kandidatenfenster hat).
  • Durch die Bereitstellung eines derartigen Systems wird es möglich, dass das neuronale Netzwerk eine NMS lernt, um die Einschränkungen eines herkömmlichen NMS-Nachverarbeitungsschritts zu überwinden. Ein NMS-Ansatz beruhend auf einem neuronalen Netzwerk kann lernen, sich an die Datenverteilung anzupassen, kann den Zielkonflikt der herkömmlichen NMS bewältigen, und kann, was wichtig ist, in eine Erfassungseinrichtung aufgenommen werden.
  • Eine latente Darstellung kann ein mehrdimensionaler Merkmalsvektor sein. Die latente Darstellung kann beispielweise beruhend auf dem Kandidatenfenster, und insbesondere dem Bildinhalt im Kandidatenfenster bestimmt werden. Ein Beispiel wäre das Verwenden des Bildinhalts im Fenster und dessen Verarbeitung durch zumindest eine (oder beispielsweise drei) Schicht(en) des neuronalen Netzwerks, um die latente Darstellung/den Merkmalsvektor zu erhalten. Bei einem bestimmten Beispiel besteht die zumindest eine Schicht aus einer Faltungs- und/oder Pooling- und/oder FC-(Vollverbindungs-)Schicht.
  • Die latenten Darstellungen können derart aktualisiert werden, dass die resultierenden Bewertungen der Kandidatenfenster geändert werden. Vorzugsweise besteht diese Änderung darin, dass ein Kandidatenfenster eines erfassten Objekts seine Bewertung erhöht, während alle anderen Kandidatenfenster desselben Objekts ihre Bewertung verringern. Der Betrag der Erhöhung und/oder Verringerung kann beispielsweise ein gelernter Betrag sein, der aus den latenten Darstellungen hergeleitet wird.
  • Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt werden. Ein Paar benachbarter Kandidatenfenster kann das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfassen.
  • Die benachbarten Kandidatenfenster können alle Fenster sein, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
  • Das neuronale Netzwerk kann eine Wiederholungsstruktur zum Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster umfassen.
  • Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfassen. Das Paar der Erfassungen kann die latenten Darstellungen jedes Kandidatenfensters und des benachbarten Fensters enthalten. Das Paar der Erfassungen kann ein Paarmerkmalsvektor sein.
  • Der Paarmerkmalsvektor kann die gleichen oder verschiedenen Dimensionen wie der Merkmalsvektor einer latenten Darstellung aufweisen. Im Allgemeinen können die Dimensionen nach jeder FC-Schicht frei wählbar sein.
  • Die Aktualisierung der latenten Darstellung jedes Kandidatenfensters kann ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, beispielsweise der Geometrie der Kandidatenfenster umfassen.
  • Die Erfassungspaarmerkmale des Paars der Kandidatenfenster können zu dem Paarmerkmalsvektor verknüpft werden.
  • Der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verknüpft sind, kann unabhängig über Vollverbindungsschichten abgebildet werden.
  • Die Anzahl von Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, kann durch Pooling auf eine Darstellung fester Größe verringert werden. Die Paarmerkmalsvektoren können beispielsweise mittels einer elementweisen Operation auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
  • Der Pooling-Merkmalsvektor kann die gleichen oder verschiedene Dimensionen wie der Merkmalsvektor einer latenten Darstellung und/oder wie der Paarmerkmalsvektor aufweisen.
  • Die Vielzahl (k) von Paarmerkmalsvektoren von n Dimensionen wird vorzugsweise auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert.
  • Die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern können vor ihrer Kombination in den Paarmerkmalsvektor reduziert werden.
  • Demnach können Speichernutzung und/oder Rechenaufwand reduziert werden.
  • Nach dem Pooling-Vorgang können die Dimensionalitäten alternativ oder zusätzlich zum Zusammenpassen mit der Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
  • Ein Kandidatenfenster kann einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfassen.
  • Das neuronale Netzwerk kann unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und jeweiligen Objektanmerkungen trainiert werden, die die tatsächlichen Orte der Objekte angeben. Das Training kann umfassen:
    • - Erzeugen von Kandidatenfenstern, die Objektorte angeben,
    • - Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung angibt, und
    • - Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster maximal mit einer Objektanmerkung verknüpft wird, und sodass jede Objektanmerkung mit maximal einem Kandidatenfenster verknüpft wird.
  • Dementsprechend kann eine Übereinstimmung (Verknüpfung) zwischen eindeutigen Paaren von Objektanmerkungen und Kandidatenfenstern bestimmt werden, sodass keine der Objektanmerkungen oder der Kandidatenfenster zweimal passt (verknüpft wird).
  • Diese Zusammenpassung kann beispielweise erhalten werden durch:
    • - Erzeugen einer Liste mit den Kandidatenfenstern, wobei die Kandidatenfenster in absteigender Reihenfolge ihrer Konfidenz sortiert werden,
    • - Identifizieren einer nicht zusammengepassten Objektanmerkung mit der größten Überlappung mit dem ersten der Kandidatenfenster in der Liste (das heißt, mit der höchsten Konfidenz in der Liste),
    • - Entfernen des Kandidatenfensters aus der Liste und
    • - Zusammenpassen des Kandidatenfensters mit dieser Objektanmerkung, wenn die Überlappung einen vorbestimmten Schwellenwert überschreitet.
  • Das neuronale Netzwerk kann unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele trainiert werden.
  • Die Erfindung bezieht sich ferner auf ein System zur Neubewertung von Objekterfassungen in einem digitalen Bild. Eine Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Das System umfasst ein neuronales Netzwerk, das eingerichtet ist zum:
    • - Erzeugen einer latenten Darstellung für jede Objekterfassung,
    • - Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und
    • - Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.
  • Durch die Bereitstellung eines derartigen Systems wird es möglich, dass das neuronale Netzwerk NMS lernt, um die Einschränkungen eines herkömmlichen NMS-Nachverarbeitungsschritts zu bewältigen. Ein NMS-Ansatz beruhend auf einem neuronalen Netzwerk kann lernen, sich an die Datenverteilung anzupassen, und den Zielkonflikt der herkömmlichen NMS zu bewältigen.
  • Durch die Bereitstellung eines derartigen Systems schlägt die vorliegende Offenbarung ferner ein „pures NMS-Netzwerk“ vor, das die Aufgabe einer Nicht-Maximum-Suppression ohne Bildinhalt oder Zugang zu Entscheidungen eines anderen Algorithmus ausführen kann.
  • Das System zur Neubewertung von Objekterfassungen kann ein Teil (oder ein Untersystem) des Systems zur Erfassung von Objekten in einem digitalen Bild wie vorstehend beschrieben sein. Das heißt, das System zur Erfassung von Objekten kann das System zur Neubewertung von Objektentscheidungen umfassen.
  • Das System zur Erfassung von Objekten in einem digitalen Bild kann beispielsweise ein neuronales Netzwerk umfassen, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung angibt, wobei das neuronale Netzwerk ferner das System zur Neubewertung von Objekterfassungen wie vorstehend beschrieben umfassen kann.
  • Alternativ dazu kann das System zur Erfassung von Objekten ein erstes neuronales Netzwerk umfassen, das zur Erzeugung von Kandidatenfenstern, die Objektorte angeben, und zur Erzeugung einer Bewertung für jedes Kandidatenfenster eingerichtet ist, die die Konfidenz der Erfassung darstellt. Das System zu Erfassung von Objekten kann ferner ein zweites neuronales System umfassen, das das System zur Neubewertung von Objekterfassungen bildet.
  • Diese Änderung liegt vorzugsweise darin, dass ein Kandidatenfenster eines erfassten Objekts seine Bewertung erhöht, während alle anderen Kandidatenfenster auf demselben Objekt ihre Bewertung verringern. Die Größe der Erhöhung und/oder Verringerung kann beispielsweise eine gelernte Größe sein, die aus den latenten Darstellungen hergeleitet wird.
  • Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt werden. Ein Paar benachbarter Kandidatenfenster kann das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfassen.
  • Die benachbarten Kandidatenfenster können alle Fenster umfassen, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
  • Das neuronale Netzwerk kann eine Wiederholungstruktur zur Aktualisierung der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster umfassen.
  • Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfassen. Das Paar von Erfassungen kann die latenten Darstellungen des Kandidatenfensters und des benachbarten Fensters enthalten. Das Paar von Erfassungen kann ein Paarmerkmalsvektor sein.
  • Die Aktualisierung der latenten Darstellung eines Kandidatenfensters kann ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, beispielsweise der Geometrie der Kandidatenfenster umfassen.
  • Die Erfassungspaarmerkmale des Paars von Kandidatenfenstern können mit dem Paarmerkmalsvektor verkettet werden.
  • Der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verkettet sind, kann über Vollverbindungsschichten unabhängig abgebildet werden.
  • Die Anzahl von Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, kann durch Pooling auf eine Darstellung fester Größe reduziert werden. Die Paarmerkmalsvektoren können beispielsweise mittels einer elementweisen Operation auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
  • Die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern können reduziert werden, bevor sie in dem Paarmerkmalsvektor kombiniert werden.
  • Nach dem Pooling-Vorgang können die Dimensionalitäten alternativ oder zusätzlich zum Zusammenpassen mit der Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
  • Ein Kandidatenfenster kann einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfassen.
  • Das neuronale Netzwerk kann unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und entsprechenden Objektanmerkungen trainiert werden, die die tatsächlichen Orte der Objekte angeben. Das Training kann umfassen:
    • - Erzeugen von Kandidatenfenstern, die Objektorte angeben,
    • - Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung angibt, und
    • - Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster mit maximal einer Objektanmerkung verknüpft wird.
  • Das neuronale Netzwerk kann unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele gelernt werden.
  • Die vorliegende Offenbarung bezieht sich ferner auf ein Verfahren zur Erfassung von Objekten in einem digitalen Bild. Bei dem Verfahren führt ein neuronales Netzwerk folgende Schritte durch:
    • - Erzeugen von Kandidatenfenstern, die Objektorte angeben, und
    • - Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt.
  • Der Schritt des Erzeugens der Bewertungen umfasst
    • - Erzeugen einer latenten Darstellung für jedes Kandidatenfenster,
    • - Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster, und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
  • Das Verfahren kann ferner Verfahrensschritte umfassen, die den Funktionen des Systems zur Erfassung von Objekten in einem digitalen Bild wie vorstehend beschrieben entsprechen. Die weiter bevorzugten Verfahrensschritte sind im Folgenden beschrieben.
  • Die vorliegende Offenbarung bezieht sich ferner auf ein Verfahren zum Neubewerten von Objekterfassungen in einem digitalen Bild. Eine Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Bei dem Verfahren führt ein neuronales Netzwerk folgende Schritte durch:
    • - Erzeugen einer latenten Darstellung für jede Objekterfassung,
    • - Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen, und
    • - Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.
  • Das Verfahren kann ferner Verfahrensschritte umfassen, die den Funktionen des Systems zur Neubewertung von Objekterfassungen in einem digitalen Bild wie vorstehend beschrieben entsprechen. Die ferner bevorzugten Verfahrensschritte sind im Folgenden beschrieben.
  • Die vorliegende Offenbarung bezieht ferner auf ein Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens zur Erfassung von Objekten in einem digitalen Bild, wenn das Programm durch einen Computer ausgeführt wird.
  • Schließlich bezieht sich die vorliegende Offenbarung auf ein Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens zur Neubewertung von Objekterfassungen in einem digitalen Bild, wenn das Programm durch einen Computer ausgeführt wird.
  • Es ist beabsichtigt, dass Kombinationen der vorstehend beschriebenen Elemente und jener in der Beschreibung ausgeführt werden können, wenn sie ansonsten nicht widersprüchlich sind.
  • Es ist ersichtlich, dass sowohl die vorstehende allgemeine Beschreibung als auch die folgende ausführlichere Beschreibung beispielhaft sind und nur der Beschreibung dienen, und die Offenbarung wie beansprucht nicht einschränken.
  • Die beiliegenden Zeichnungen, die in dieser Spezifikation enthalten sind und einen Teil davon bilden, veranschaulichen Ausführungsbeispiele der Offenbarung zusammen mit der Beschreibung und dienen zur Erläuterung ihrer Prinzipien.
  • Figurenliste
    • 1 zeigt ein Blockschaltbild eines Systems mit einer Erfassungseinrichtung und einem Neubewertungssystem gemäß Ausführungsbeispielen vorliegender Offenbarung,
    • 2 zeigt eine schematische Darstellung, wie Erfassungsmerkmale gemäß Ausführungsbeispielen vorliegender Offenbarung in paarweisen Kontext kombiniert werden,
    • 3 zeigt ein schematisches Ablaufdiagramm der Arbeitsweise des Neubewertungssystems, insbesondere eines neuronalen Netzwerks für die Neubewertungsprozedur gemäß Ausführungsbeispielen vorliegender Offenbarung,
    • 4a zeigt ein schematisches Ablaufdiagramm einer Lernarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung, und
    • 4b zeigt ein schematisches Ablaufdiagramm einer Testarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung.
  • BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Nun wird im Detail auf Ausführungsbeispiele der Offenbarung Bezug genommen, deren Beispiele in den beiliegenden Zeichnungen veranschaulicht sind. Wann immer möglich, werden dieselben Bezugszeichen in den Zeichnungen verwendet, um auf gleiche oder ähnliche Abschnitte Bezug zu nehmen.
  • 1 zeigt ein Blockschaltbild eines Systems 10 mit einer Objekterfassungseinrichtung 1 und einem Neubewertungssystems 2 (das heißt, einem System zur Neubewertung von Objekterfassungen) gemäß Ausführungsbeispielen vorliegender Offenbarung. Das System kann verschiedene weitere Funktionen aufweisen, kann beispielsweise ein Robotersystem oder ein Kamerasystem sein. Es kann ferner in einem Fahrzeug integriert sein.
  • Das System 10 kann eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppe), eine kombinatorische Logikschaltung, einen Speicher, der ein oder mehrere Softwareprogramme ausführt, und/oder andere geeignete Komponenten umfassen, die die beschriebene Funktionalität bereitstellen. Das heißt, das System 10 kann eine Computereinrichtung sein. Das System kann mit einem Speicher verbunden sein, der Daten speichern kann, beispielsweise ein Computerprogramm, das bei seiner Ausführung das Verfahren gemäß vorliegender Offenbarung ausführt. Das System oder der Speicher kann insbesondere Software speichern, die das neuronale Netzwerk gemäß vorliegender Offenbarung umfasst.
  • Das System 10, insbesondere die Erfassungseinrichtung 1, weist einen Eingang zum Empfangen eines digitalen Bildes oder eines Datenstroms digitaler Bilder auf. Das System 10, insbesondere die Erfassungseinrichtung 1, kann insbesondere mit einem optischen Sensor 3, insbesondere einer Digitalkamera verbunden sein. Die Digitalkamera 3 ist derart eingerichtet, dass sie eine Szene aufzeichnen kann, und insbesondere digitale Daten zu dem System 10, insbesondere der Erfassungseinrichtung 1 ausgeben kann.
  • Die Erfassungseinrichtung 1 kann als Software, die auf dem System 10 läuft, oder als Hardwareelement des Systems 10 implementiert sein. Die Erfassungseinrichtung 1 führt einen Computervisionsalgorithmus zur Erfassung des Vorhandenseins und eines Orts von Objekten in einer erfassten Szene aus. Es können beispielsweise Fahrzeuge, Personen und andere Objekte erfasst werden. Die Erfassungseinrichtung gibt Kandidatenfenster aus, die Objektorte angeben, und erzeugt eine Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt.
  • Ferner kann auch das Neubewertungssystem 2 als auf dem System 10 laufende Software oder als Hardwareelement des Systems 10 implementiert sein. Das System kann insbesondere ein neuronales Netzwerk umfassen, das sowohl die Erfassungseinrichtung als auch das Neubewertungssystem enthält. Alternativ kann das Neubewertungssystem als unabhängiges neuronales Netzwerk realisiert werden (insbesondere neben einem neuronalen Netzwerk, das die Erfassungseinrichtung umfasst).
  • Das Neubewertungssystem 2 empfängt die Erfassungsergebnisse als Eingabe von der Erfassungseinrichtung. Insbesondere empfängt es Informationen hinsichtlich einer oder mehrerer Objekterfassungen. Jede Objekterfassung umfasst ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung, die die Konfidenz der Erfassung darstellt. Das Neubewertungssystem bewertet diese Objekterfassungen derart neu, dass Doppelerfassungen unterdrückt werden. Das heißt, das Neubewertungssystem erzeugt eine latente Darstellung für jedes Kandidatenfenster. Die latente Darstellung jedes Kandidatenfensters wird danach beruhend auf der latenten Darstellung benachbarter Kandidatenfenster aktualisiert. Die (somit neu bewertete) Bewertung für jedes Kandidatenfenster wird dann beruhend auf ihrer aktualisierten latenten Darstellung erzeugt.
  • Dadurch ist das Neubewertungssystem zur Erkennung doppelter Erfassungen eingerichtet, indem jede Objekterfassung zusammen mit ihren benachbarten Erfassungen verarbeitet wird. Jene Objekterfassungen, die als Mehrfacherfassungen desselben Objekts erkannt werden, werden unterdrückt, sodass lediglich eine Objekterfassung verbleibt.
  • Im Folgenden wird die Arbeitsweise des neuronalen Netzwerks gemäß der vorliegenden Offenbarung unter Bezugnahme auf die 2 bis 4b näher besch rieben.
  • Herkömmliche Erfassungseinrichtungen geben nicht alle Erfassungen zurück, die bewertet wurden, sondern verwenden stattdessen NMS als Nachverarbeitungsschritt zum Beseitigen redundanter Erfassungen. Um echte durchgehend gelernte Erfassungseinrichtungen bereitzustellen, bezieht sich die vorliegende Offenbarung auf Erfassungseinrichtungen ohne jegliche Nachverarbeitung. Um zu verstehen, warum NMS erforderlich ist, ist es nützlich, die Aufgabe der Erfassung, und wie sie bewertet wird, anzuschauen.
  • Die Aufgabe der Objekterfassung besteht in der Abbildung eines Bildes auf einen Satz von Kästchen (das heißt, Kandidatenfenstern): ein Kästchen pro interessierendem Objekt in dem Bild, wobei jedes Kästchen ein Objekt eng umschließt. Das heißt, dass Erfassungseinrichtungen exakt eine Erfassung pro Objekt zurückgeben sollten. Da Ungewissheit ein inhärenter Teil des Erfassungsprozesses ist, ermöglichen Bewertungen, dass Erfassungen mit einer Konfidenz verknüpft werden. Konfidente falsche Erfassungen werden stärker bestraft als weniger konfidente. Insbesondere werden Fehler, die weniger konfident als die am wenigsten konfidente korrekte Erfassung sind, überhaupt nicht bestraft.
  • Das Erfassungsproblem kann als Klassifizierungsproblem interpretiert werden, das Wahrscheinlichkeiten von Objektklassen schätzt, die für jede mögliche Erfassung in einem Bild vorhanden sind. Dieser Gesichtspunkt ruft „Vermutungs- und Bewertungserfassungseinrichtungen“ hervor, die einen Suchraum von Erfassungen bilden (beispielsweise Schiebefenster, Vorschläge) und Klassenwahrscheinlichkeiten unabhängig für jede Erfassung schätzen. Als Ergebnis werden zwei stark überlappende Fenster, die dasselbe Objekt bedecken, beide in einer hohen Bewertung resultieren, da sie auf beinahe identischen Bildinhalt schauen. Im Allgemeinen löst jedes Objekt anstelle einer Erfassung pro Objekt mehrere Erfassungen variierender Konfidenz in Abhängigkeit davon aus, wie gut die Erfassungsfenster das Objekt bedecken.
  • Da das tatsächliche Ziel die Erzeugung exakt einer Erfassung pro Objekt (oder exakt einer Erfassung mit hoher Konfidenz) ist, besteht eine übliche Praxis (zumindest seit 1994) in der Annahme, dass stark überlappende Erfassungen zum selben Objekt gehören, und diese in eine Erfassung zu kollabieren. Der vorherrschende Algorithmus (die herkömmliche NMS) akzeptiert die Erfassung mit der höchsten Bewertung und weist dann alle Erfassungen zurück, die mit mehr als einem Schwellenwert überlappen, und wiederholt die Prozedur mit den verbleibenden Erfassungen, das heißt, akzeptiert stark lokale Maxima und verwirft ihre Nachbarn, daher der Name. Dieser Algorithmus akzeptiert schließlich auch falsche Erfassungen, was kein Problem darstellt, wenn ihre Konfidenz geringer als die Konfidenz korrekter Erfassungen ist.
  • Dieser herkömmliche NMS-Algorithmus arbeitet gut, wenn (1) die Suppression weit genug ist, um immer Erfassungen mit hoher Bewertung zu unterdrücken, die durch dasselbe Objekt ausgelöst werden, und (2) die Suppression eng genug ist, um nie Erfassungen des am nächsten kommenden Objekts mit hoher Bewertung zu unterdrücken. Wenn Objekte weit genug weg sind, ist die Bedingung (2) leicht zu erfüllen, und eine weite Suppression arbeitet gut. Bei Massenszenen mit starker Okklusion zwischen Objekten gibt es eine Spannung zwischen weiter und enger Suppression. Das heißt, bei einem Objekt pro Bild ist die NMS trivial, jedoch erfordern stark verdeckte Objekte einen besseren NMS-Algorithmus.
  • Die vorliegende Offenbarung beruht auf diesen Anforderungen an einen NMS-Algorithmus, schlägt aber eine Lösung vor, bei der NMS ein „pures NMS-Netzwerk“ ist, wobei sie insbesondere in einer Erfassungseinrichtung enthalten sein kann.
  • Eine unabhängige Verarbeitung von Bildfenstern führt zu überlappender Erfassung und ergibt ähnliche Bewertungen, wobei dies eine Anforderung an robuste Funktionen ist: ähnliche Eingaben führen zu ähnlichen Ausgaben. Eine Erfassungseinrichtung, die lediglich eine Erfassung mit hoher Bewertung pro Objekt ausgibt, muss somit auch bei anderen Erfassungen konditioniert werden: Mehrfacherfassungen bei demselben Objekt sollten gemeinsam verarbeitet werden, sodass die Erfassungseinrichtung mitteilen kann, dass wiederholte Erfassungen vorhanden sind, und nur eine von diesen eine hohe Bewertung erhalten sollte.
  • Eine typische Inferenz von Erfassungseinrichtungen besteht aus einem Klassifizierer, der zwischen Bildinhalt, der ein Objekt enthält, und Bildinhalt unterscheidet, der dies nicht tut. Die positiven und negativen Lernbeispiele für diese Erfassungseinrichtung werden üblicherweise durch ein Maß an Überlappung zwischen Objekten und Rahmen definiert. Da ähnliche Kästchen sowieso ähnliche Konfidenzen erzeugen, können kleine Perturbationen von Objektorten auch als positive Beispiele betrachtet werden. Dieses Verfahren erweitert die Lerndaten und führt zu robusteren Erfassungseinrichtungen. Die Verwendung dieser Art Klassifiziererlernens belohnt nicht mit einer Erfassung mit hoher Bewertung pro Objekt, und fördert stattdessen absichtlich mehrere Erfassungen mit hoher Bewertung pro Objekt.
  • Anhand dieser Analyse ergeben sich zwei Schlüsselzutaten für das System vorliegender Offenbarung, damit eine Erfassungseinrichtung exakt eine Erfassung pro Objekt erzeugt:
    1. 1. Ein Verlust, der doppelte Erfassungen bestraft, um die Erfassungseinrichtung zu lehren, da präzise eine Erfassung pro Objekt erforderlich ist.
    2. 2. Gemeinsame Verarbeitung benachbarter Erfassungen, damit die Erfassungseinrichtung die erforderlichen Informationen hat, um sagen zu können, ob ein Objekt mehrere Male erfasst wurde.
  • Der neuronale Netzwerkentwurf gemäß vorliegender Offenbarung beherbergt beide Zutaten. Der neuronale Netzwerkentwurf vermeidet harte Entscheidungen und verwirft keine Erfassungen, um einen kleineren Satz an Erfassungen zu erzeugen. Stattdessen wird NMS als Neubewertungsaufgabe umformuliert, die die Bewertung von Erfassungen verringern möchte, die Objekte abdecken, die bereits erfasst wurden. Nach einer Neubewertung kann ein einfaches Schwellenwertverfahren durchgeführt werden, um den Satz an Erfassungen zu reduzieren. Für eine Auswertung kann der vollständige Satz neubewerteter Erfassungen zu dem Auswertungsskript ohne jegliche Nachverarbeitung geleitet werden.
  • Verlust:
    • Eine Erfassungseinrichtung soll exakt eine Erfassung hoher Bewertung pro Objekt ausgeben. Der Verlust für eine derartige Erfassungseinrichtung muss Mehrfacherfassungen desselben Objekts ungeachtet dessen verhindern, wie nahe sich diese Erfassungen sind.
  • Die Erfassungseinrichtung kann durch das Auswertungskriterium eines Richtwerts beurteilt werden, das wiederum eine Zusammenpassungsstrategie zum Entscheiden definiert, welche Erfassungen korrekt oder falsch sind. Dies ist die Zusammenpassung, die zur Zeit des Lernens verwendet werden sollte. Typische Richtwerte sortieren Erfassungen in absteigender Reihenfolge ihrer Konfidenz und passen Erfassungen in dieser Reihenfolge mit Objekten zusammen, wobei am stärksten überlappende Objekte bevorzugt werden. Da bereits zusammengepasste Objekte nicht erneut zusammengepasst werden können, werden überschüssige Erfassungen als falsche Positive gezählt, die die Präzision der Erfassungseinrichtung verringern. Diese Zusammenpassungsstrategie kann zum Lernen verwendet werden.
  • Das Ergebnis der Zusammenpassung kann als Kennzeichen für den Klassifizierer verwendet werden: erfolgreich zusammengepasste Erfassungen sind positive Lernbeispiele, während nicht zusammengepasste Erfassungen negative Lernbeispiele für einen binären Standardverlust sind. Typischerweise weisen alle Erfassungen, die zum Trainieren eines Klassifizierers verwendet werden, eine zugeordnete Kennzeichnung auf, wenn sie in das Netzwerk geführt werden. In diesem Fall hat das Netzwerk Zugriff auf Erfassungen und Objektanmerkungen, und die Zusammenpassungsschicht erzeugt Kennzeichen, die von den Prädiktionen des Netzwerks abhängen. Die Klassenzuordnung ermutigt direkt das Neubewertungsverhalten, das erzielt werden soll.
  • di sei eine Erfassung, Yi (als Element von [-1, 1]) gebe an, ob di erfolgreich mit einem Objekt zusammengepasst wurde, und f sei die Bewertungsfunktion, die alle Erfassungen bei einem Bild gemeinsam bewertet. f ( [ d i ] i = 1 n ) = [ s i ] i = 1 n .
    Figure DE112017007492T5_0001
  • Es wird mit gewichtetem Verlust gelernt. L ( s i , y i ) = i = 1 N w y 1 log ( 1 + exp ( s i y i ) ) .
    Figure DE112017007492T5_0002
  • Hier ist Verlust pro Erfassung mit den anderen Erfassungen über die Zusammenpassung gekoppelt, die yi erzeugt. Die Gewichtung wyi wird zum Gegensteuern des extremen Klassenungleichgewichts der Erfassungsaufgabe verwendet. Die Gewichte können gewählt werden, sodass das erwartete klassenbedingte Gewicht eines Beispiels gleich einem folgenden Parameter ist. E ( w 1 I ( y i = 1 ) ) = γ .
    Figure DE112017007492T5_0003
  • Bei einer Verallgemeinerung auf eine Mehrklasseneinstellung werden Erfassungen sowohl mit einer Konfidenz als auch einer Klasse verknüpft. Da lediglich Erfassungen neu bewertet werden, dürfen Erfassungen „ausgeschaltet“ werden, aber nicht ihre Klasse verändern. Infolgedessen werden nur Erfassungen mit Objekten derselben Klasse zusammengepasst, das Klassifizierungsproblem bleibt aber binär, und der vorstehende Verlust gilt immer noch. Bei der Darstellung der Erfassungsbewertungen kann eine One-Hot-Kodierung verwendet werden: ein Nullvektor, der lediglich die Bewertung an dem Ort in dem Vektor enthält, der der Klasse entspricht. Da eine mAP-Berechnung keine Klassen anhand ihrer Größe gewichtet, können die Beispielgewichte derart zugeordnet werden, dass ihr erwartetes klassenbedingtes Gewicht gleichmäßig verteilt ist.
  • Gemeinsame Verarbeitung:
    • Zum effektiven Minimieren des vorstehend beschriebenen Verlusts ist es erforderlich, dass das neuronale Netzwerk Erfassungen gemeinsam verarbeitet. Aus diesem Grund ist ein neuronales Netzwerk mit einer Wiederholungsstruktur entworfen, die „Blöcke“ (in 3 gezeigt) genannt wird. Ein Block gibt jeder Erfassung Zugriff auf die Darstellung ihrer Nachbarn und aktualisiert danach seine eigene Darstellung. Das Stapeln einer Vielzahl von Blöcken bedeutet, dass das Netzwerk dazwischen wechselt, jeder Erfassung ein „Sprechen“ mit ihren Nachbarn zu erlauben, und ihre eigene Darstellung zu aktualisieren. Das heißt, Erfassungen reden mit ihren Nachbarn, um ihre Darstellungen zu aktualisieren.
  • Hier gibt es zwei Nicht-Standardvorgänge, die der Kern sind. Der erste ist eine Schicht, die Darstellungen für Paare von Erfassungen wie in 2 gezeigt bildet. Dies führt zu dem Kernproblem: eine unregelmäßige Anzahl von Nachbarn für jede Erfassung. Da die Vermeidung eines Diskretisierungsschemas erwünscht ist, wird diese Aufgabe vorzugsweise durch Pooling über Erfassungen (zweiter Kern) gelöst.
  • Erfassungsmerkmale :
    • Die Blöcke des neuronalen Netzwerks verwenden den Erfassungsmerkmalsvektor jeder Erfassung als Eingang und geben einen aktualisierten Vektor aus (vergleiche abstrakte Darstellung in 4a, 4b). Ausgaben aus einem Block werden in den nächsten eingegeben. Die Werte innerhalb dieses c = 128-dimensionalen Merkmalsvektors werden implizit während des Trainings gelernt. Die Ausgabe des letzten Blocks wird zur Erzeugung der neuen Erfassungsbewertung für jede Erfassung verwendet.
  • Der erste Block verwendet einen insgesamt Null-Vektor als Eingang. Informationen der Erfassungen werden in dem Abschnitt „paarweise Berechnungen“ von 3 wie nachstehend beschrieben in das Netzwerk geführt. Diese Null-Eingabe könnte potenziell durch Bildmerkmale ersetzt werden.
  • Paarweiser Erfassungskontext:
    • Die erste ist eine Schicht, die Darstellungen für Paare von Erfassungen wie in 2 gezeigt bildet. 2 zeigt eine schematische Darstellung, wie Erfassungsmerkmale gemäß Ausführungsbeispielen vorliegender Offenbarung in einen paarweisen Kontext kombiniert werden. Jeder feste Block ist der Merkmalsvektor der Erfassung eines entsprechenden Musters (beispielsweise verschiedentlich schraffierter Linien). Die schraffierten Blöcke sind die „Erfassungspaarmerkmale“, die durch die zwei Erfassungen definiert sind, die den zwei Mustern entsprechen.
  • Jedes Minibatch besteht aus allen n Erfassungen bei einem Bild, jeweils dargestellt durch einen c-dimensionalen Merkmalsvektor, sodass Daten eine Größe von n x c aufweisen und Zugriff auf andere Darstellungen der Erfassung ein Arbeiten innerhalb der Batchelemente bedeutet. Eine Erfassungskontextschicht wird verwendet, die für jede Erfassung di alle Paare von Erfassungen (di; dj) erzeugt, für die dj mit di ausreichend überlappt (IoU > 0,2). Die Darstellung eines Paars von Erfassungen besteht aus einer Verkettung sowohl von Erfassungsdarstellungen als auch g-dimensionalen Erfassungspaarmerkmalen (siehe unten), was zu einem I = 2c + g - dimensionalen Merkmal führt. Zur unabhängigen Verarbeitung jedes Paars von Erfassungen werden die Merkmale aller Paare von Erfassungen entlang der Batch-Dimension angeordnet: wenn die Erfassung di ki benachbarte Erfassungen hat, ergibt sich ein Batch der Größe K x I, wobei gilt K = i = 1 n ( k i + 1 )
    Figure DE112017007492T5_0004
    da auch das Paar (di; di) enthalten ist. Die Anzahl an Nachbarn ki (die Anzahl an Paaren) ist für jede Erfassung verschieden, selbst innerhalb eines Minibatch. Zur Reduzierung der Nachbarschaft variabler Größe in eine Darstellung fester Größe verwendet die Architektur vorliegender Offenbarung globales Max-Pooling über alle Erfassungspaare, die zur selben Erfassung gehören (K x I -> n x I) woraufhin normale Vollverbindungsschichten zum Aktualisieren der Erfassungsdarstellung verwendet werden können (vergleiche 3).
  • Erfassungspaarmerkmale :
    • Die Merkmale jedes Erfassungspaars, die im Erfassungskontext verwendet werden, bestehen aus mehreren Eigenschaften eines Erfassungspaars: (1) die Schnittmenge über Vereinigungsmenge (IoU), (2-4) die normalisierte Entfernung in der x- und y-Richtung und die normalisierte I2-Entfernung (normalisiert durch den Mittelwert von Breite und Höhe der Erfassung), (4-5) der Maßstabsunterschied von Breite und Höhe (beispielsweise Log (wi=wj), (6) der Seitenverhältnisunterschied Log (ai=aj), (7-8) die Erfassungsbewertungen beider Erfassungen. Bei dem Mehrklassenaufbau liefert jede Erfassung anstelle eines Skalars einen Bewertungsvektor, wodurch die Anzahl von Paarmerkmalen erhöht wird. All diese rohen Merkmale werden in 3 Vollverbindungsschichten geführt, um die g Erfassungspaarmerkmale zu lernen, die in jedem Block verwendet werden.
  • Block:
    • Ein Block führt eine Iteration durch, wodurch Erfassungen ermöglicht wird, ihre jeweiligen Nachbarn anzusehen, und ihre Darstellung aktualisiert wird, wie es in 3 gezeigt ist. 3 zeigt ein schematisches Ablaufdiagramm der Arbeitsweise des Neubewertungssystems, insbesondere eines neuronalen Netzwerks für die Aktualisierungsprozedur gemäß Ausführungsbeispielen vorliegender Offenbarung. Ein Block des neuronalen Netzwerks vorliegender Offenbarung ist hier für eine Erfassung gezeigt. Die Darstellung jeder Erfassung wird reduziert und dann in benachbarte Erfassungspaare kombiniert und mit Erfassungspaarmerkmalen verkettet (gestrichelte Kästchen, entsprechende Merkmale und Erfassungen weisen dasselbe Muster auf). Merkmale von Erfassungspaaren werden unabhängig über Vollverbindungsschichten abgebildet. Die variable Anzahl von Paaren wird durch Max-Pooling auf eine Darstellung fester Größe reduziert. Paarweise Berechnungen werden für jede Erfassung unabhängig durchgeführt.
  • Das neuronale Netzwerk besteht insbesondere aus einer Dimensionalitätenreduktion, einer paarweisen Erfassungskontextschicht, zwei Vollverbindungsschichten, die bei jedem Paar unabhängig angewendet werden, Pooling über Erfassungen und zwei Vollverbindungsschichten, wobei die letzte die Dimensionalität wieder erhöht. Der Eingang und Ausgang eines Blocks werden wie bei der Resnet-Architektur addiert, vergleiche:
    • K. He, X. Zhang, S. Ren und J. Sun. Identity mappings in deep residual networks. In ECCV, 2016.
  • Der erste Block empfängt Null-Merkmale als Eingaben, weshalb jede Information, die zum Treffen der Entscheidung verwendet wird, aus den Erfassungspaarmerkmalen geladen wird. Die Ausgabe des letzten Blocks wird durch drei Vollverbindungsschichten zum Vorhersagen einer neuen Bewertung für jede Erfassung unabhängig verwendet (vergleiche 4a, 4b).
  • 4a zeigt ein schematisches Ablaufdiagramm einer Lernarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung, und 4b zeigt ein schematisches Ablaufdiagramm einer Testarchitektur des neuronalen Netzwerks gemäß Ausführungsbeispielen vorliegender Offenbarung. 4a und 4b sind abstrakte Darstellungen der Offenbarung. Bei der Lernarchitektur von 4a entsprechen die Blöcke den in 3 beschriebenen. „FC“ bezeichnet Vollverbindungsschichten. Alle Merkmale in dieser Darstellung können 128 Dimensionen aufweisen (Eingangsvektor und Merkmale zwischen den Schichten/Blöcken). Die Ausgabe ist ein Skalar.
  • Parameter:
    • Das neuronale Netzwerk kann 16 Blöcke aufweisen. Die Merkmalsdimension für die Erfassungsmerkmale kann 128 sein und kann vor dem Bilden des paarweisen Erfassungskontexts auf 32 verringert werden. Die Erfassungspaarmerkmale können auch 32 Dimensionen aufweisen. Die Vollverbindungschichten nach dem letzten Block können 128-dimensionale Merkmale ausgeben. Wenn die Merkmalsdimension geändert wird, bleibt das Verhältnis zwischen der Anzahl an Merkmalen in jeder Schicht konstant, weshalb die Angabe der Erfassungsmerkmalsdimension ausreicht.
  • Nachrichtenaustausch:
    • Der Vorwärtsdurchlauf über mehrere gestapelte Blöcke kann als Nachrichtenaustausch interpretiert werden. Jede Erfassung sendet Nachrichten zu all ihren Nachbarn, um auszuhandeln, welcher Erfassung ein Objekt zugewiesen wird, und welche Erfassungen ihre Bewertungen reduzieren sollten. Anstelle eines handgefertigten Nachrichtenaustauschalgorithmus und seiner Regeln ist das Netzwerk zum latenten Lernen der Nachrichten konfiguriert, die ausgetauscht werden.
  • In der Beschreibung einschließlich der Ansprüche sollte der Ausdruck „Umfassen eines“ als Synonym zu „Umfassen zumindest eines“ verstanden werden, wenn nichts Anderes ausgesagt ist. Außerdem sollte jeder Bereich, der in der Beschreibung einschließlich der Ansprüche aufgeführt ist, so verstanden werden, dass er seinen Endwert/seine Endwerte enthält, wenn nichts Anderes gesagt ist. Bestimmte Werte für beschriebene Elemente sollten so verstanden werden, dass sie innerhalb akzeptierter Herstellungs- oder Industrietoleranzen liegen, die dem Fachmann bekannt sind, und jede Verwendung der Ausdrücke „im Wesentlichen“ und/oder „ungefähr“ und/oder „im Allgemeinen“ sollten so verstanden werden, dass sie in diese akzeptierten Toleranzen fallen.
  • Obwohl die vorliegende Offenbarung hier unter Bezugnahme auf bestimmte Ausführungsbeispiele beschrieben wurde, ist ersichtlich, dass diese Ausführungsbeispiele die Prinzipien und Anwendungen vorliegender Offenbarung lediglich veranschaulichen.
  • Die Beschreibung und Beispiele sollen lediglich als Beispiele betrachtet werden, wobei der wahre Schutzbereich der Offenbarung durch die folgenden Patentansprüche angegeben ist.

Claims (17)

  1. System zur Erfassung von Objekten in einem digitalen Bild, wobei das System ein neuronales Netzwerk umfasst, das eingerichtet ist zum Erzeugen von Kandidatenfenstern, die Objektorte angeben, und Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, wobei das Erzeugen der Bewertungen umfasst Erzeugen einer latenten Darstellung für jedes Kandidatenfenster, Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
  2. System nach Anspruch 1, wobei die latenten Darstellungen derart aktualisiert werden, dass die resultierenden Bewertungen der Kandidatenfenster geändert werden.
  3. System nach einem der vorhergehenden Ansprüche, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters durch Berücksichtigen von Paaren benachbarter Kandidatenfenster durchgeführt wird, wobei ein Paar benachbarter Kandidatenfenster das Kandidatenfenster und eines seiner benachbarten Kandidatenfenster umfasst.
  4. System nach einem der vorhergehenden Ansprüche, wobei die benachbarten Kandidatenfenster alle Fenster umfassen, die das Kandidatenfenster mit einem vorbestimmten Ausmaß überlappen, dessen latente Darstellung aktualisiert wird.
  5. System nach einem der vorhergehenden Ansprüche, wobei das neuronale Netzwerk eine Wiederholstruktur zum Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster aufweist.
  6. System nach einem der vorhergehenden Ansprüche, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters ein Bilden eines Paars von Erfassungen mit jedem seiner benachbarten Kandidatenfenster umfasst, wobei das Paar von Erfassungen die latenten Darstellungen des Kandidatenfensters und des benachbarten Kandidatenfensters enthält, wobei das Paar von Erfassungen ein Paarmerkmalsvektor ist.
  7. System nach dem vorhergehenden Anspruch, wobei das Aktualisieren der latenten Darstellung eines Kandidatenfensters ferner ein Bestimmen von Erfassungspaarmerkmalen beruhend auf den zwei Kandidatenfenstern, insbesondere der Geometrie der Kandidatenfenster umfasst, wobei die Erfassungspaarmerkmale des Paars von Kandidatenfenstern mit dem Paarmerkmalsvektor verkettet sind.
  8. System nach einem der vorhergehenden Ansprüche 6 oder 7, wobei der Paarmerkmalsvektor, mit dem die Erfassungspaarmerkmale verkettet sind, über Vollverbindungsschichten unabhängig abgebildet wird.
  9. System nach einem der vorhergehenden Ansprüche 6 bis 8, wobei die Anzahl an Paarmerkmalsvektoren, die der variablen Anzahl benachbarter Kandidatenfenster entspricht, durch Pooling auf eine Darstellung fester Größe reduziert wird, wobei die Paarmerkmalsvektoren mittels eines elementweisen Vorgangs auf einen n-dimensionalen Pooling-Merkmalsvektor reduziert werden.
  10. System nach dem vorhergehenden Anspruch, wobei die Dimensionalitäten der latenten Darstellungen von Kandidatenfenstern vor ihrer Kombination in dem Paarmerkmalsvektor reduziert werden, und/oder die Dimensionalitäten nach dem Pooling-Vorgang zum Passen zur Größe der latenten Darstellungen von Kandidatenfenstern erhöht werden.
  11. System nach einem der vorhergehenden Ansprüche, wobei ein Kandidatenfenster einen rechtwinkligen Rahmen und/oder eine bildelementweise Maske eines erfassten Objekts umfasst.
  12. System nach einem der vorhergehenden Ansprüche, wobei das neuronale Netzwerk unter Verwendung zumindest eines digitalen Lernbildes als Ground Truth mit einer Vielzahl von Objekten und entsprechenden Objektanmerkungen trainiert wird, die die aktuellen Orte der Objekte angeben, wobei das Training umfasst: Erzeugen von Kandidatenfenstern, die Objektorte angeben, Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, und Verknüpfen jeder Objektanmerkung mit dem am besten passenden Kandidatenfenster beruhend auf der Bewertung der Kandidatenfenster und der Überlappung zwischen der Objektanmerkung und den Kandidatenfenstern, sodass jedes Kandidatenfenster mit maximal einer Objektanmerkung verknüpft wird, und sodass jede Objektanmerkung maximal mit einem Kandidatenfenster verknüpft wird.
  13. System nach dem vorhergehenden Anspruch, wobei das neuronale Netzwerk unter Verwendung erfolgreich zusammengepasster Erfassungen als positive Lernbeispiele und nicht zusammengepasster Erfassungen als negative Lernbeispiele trainiert wird.
  14. System zur Neubewertung von Objekterfassungen in einem digitalen Bild, wobei eine Objekterfassung ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung umfasst, die die Konfidenz der Erfassung darstellt, wobei das System ein neuronales Netzwerk umfasst, das eingerichtet ist zum - Erzeugen einer latenten Darstellung für jede Objekterfassung, - Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und - Erzeugen der neuen Bewertung für jede Objekterfassung beruhend auf ihrer aktualisierten latenten Darstellung.
  15. Verfahren zur Erfassung von Objekten in einem digitalen Bild, wobei ein neuronales Netzwerk die Schritte durchführt Erzeugen von Kandidatenfenstern, die Objektorte angeben, und Erzeugen einer Bewertung für jedes Kandidatenfenster, die die Konfidenz der Erfassung darstellt, wobei der Schritt des Erzeugens der Bewertungen umfasst Erzeugen einer latenten Darstellung für jedes Kandidatenfenster, Aktualisieren der latenten Darstellung jedes Kandidatenfensters beruhend auf der latenten Darstellung benachbarter Kandidatenfenster und Erzeugen der Bewertung für jedes Kandidatenfenster beruhend auf seiner aktualisierten latenten Darstellung.
  16. Verfahren zur Neubewertung von Objekterfassungen in einem digitalen Bild, wobei eine Objekterfassung ein Kandidatenfenster, das den Objektort angibt, und eine Bewertung umfasst, die die Konfidenz der Erfassung darstellt, wobei ein neuronales Netzwerk die Schritte durchführt Erzeugen einer latenten Darstellung für jede Objekterfassung, Aktualisieren der latenten Darstellung jeder Objekterfassung beruhend auf der latenten Darstellung benachbarter Objekterfassungen und Erzeugen der neuen Bewertung für jede Objekterfassung beruhenden auf ihrer aktualisierten latenten Darstellung.
  17. Computerprogramm mit Anweisungen zur Ausführung der Schritte des Verfahrens nach Anspruch 15 oder Anspruch 16, wenn das Programm durch einen Computer ausgeführt wird.
DE112017007492.4T 2017-04-28 2017-04-28 System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen Pending DE112017007492T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/060273 WO2018197019A1 (en) 2017-04-28 2017-04-28 System and method for detecting objects in a digital image, and system and method for rescoring object detections.

Publications (1)

Publication Number Publication Date
DE112017007492T5 true DE112017007492T5 (de) 2020-02-13

Family

ID=58671627

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017007492.4T Pending DE112017007492T5 (de) 2017-04-28 2017-04-28 System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen

Country Status (4)

Country Link
US (2) US20200193225A1 (de)
JP (1) JP6889279B2 (de)
DE (1) DE112017007492T5 (de)
WO (1) WO2018197019A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003603A (zh) * 2017-10-30 2018-12-14 上海寒武纪信息科技有限公司 语音识别方法及相关产品
JP7253872B2 (ja) * 2017-12-01 2023-04-07 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
CN110826572B (zh) * 2018-08-09 2023-04-21 京东方科技集团股份有限公司 多目标检测的非极大值抑制方法、装置及设备
US12057110B2 (en) 2018-09-13 2024-08-06 Shanghai Cambricon Information Technology Co., Ltd. Voice recognition based on neural networks
CN109540138B (zh) * 2018-11-12 2021-05-25 中南大学 基于视觉神经网络的室内导航方法、系统及可读存储器
KR102701601B1 (ko) * 2018-11-21 2024-09-03 삼성전자주식회사 영상 처리 장치 및 그 제어방법
CN111415461B (zh) 2019-01-08 2021-09-28 虹软科技股份有限公司 物品识别方法及系统、电子设备
US11080884B2 (en) * 2019-05-15 2021-08-03 Matterport, Inc. Point tracking using a trained network
EP3832491A1 (de) * 2019-12-06 2021-06-09 Idemia Identity & Security France Verfahren zur verarbeitung einer vielzahl von kandidatenanmerkungen einer gegebenen instanz eines bildes und zum lernen von parametern eines rechenmodells
US10998006B1 (en) * 2020-12-08 2021-05-04 Turku University of Applied Sciences Ltd Method and system for producing binaural immersive audio for audio-visual content
CN113361413B (zh) * 2021-06-08 2024-06-18 南京三百云信息科技有限公司 一种里程显示区域检测方法、装置、设备及存储介质
US11967137B2 (en) 2021-12-02 2024-04-23 International Business Machines Corporation Object detection considering tendency of object location

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019538D0 (en) 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
US5214744A (en) 1990-12-14 1993-05-25 Westinghouse Electric Corp. Method and apparatus for automatically identifying targets in sonar images
US6298143B1 (en) * 1997-04-03 2001-10-02 Kabushiki Kaisha Toshiba Moving target detecting system and moving target detecting method
EP0998719A4 (de) 1997-07-25 2000-11-22 Arch Dev Corp Verfahren und system zur einteilung von teilen der lunge bei lateraler thorax-radiographie
US6647139B1 (en) 1999-02-18 2003-11-11 Matsushita Electric Industrial Co., Ltd. Method of object recognition, apparatus of the same and recording medium therefor
US6549646B1 (en) 2000-02-15 2003-04-15 Deus Technologies, Llc Divide-and-conquer method and system for the detection of lung nodule in radiological images
JP4228641B2 (ja) * 2002-09-20 2009-02-25 セイコーエプソン株式会社 出力対象画像データ選択
JP2006010652A (ja) * 2004-06-29 2006-01-12 Toyota Motor Corp 物体検出装置
JP4111198B2 (ja) * 2004-06-29 2008-07-02 セイコーエプソン株式会社 画像検索システム、画像検索プログラムおよび記憶媒体、並びに画像検索方法
US7685191B1 (en) 2005-06-16 2010-03-23 Enquisite, Inc. Selection of advertisements to present on a web page or other destination based on search activities of users who selected the destination
US9305088B1 (en) 2006-11-30 2016-04-05 Google Inc. Personalized search results
US7925072B2 (en) 2007-03-08 2011-04-12 Kla-Tencor Technologies Corp. Methods for identifying array areas in dies formed on a wafer and methods for setting up such methods
US8340435B2 (en) 2009-06-11 2012-12-25 California Institute Of Technology Method and system for object recognition search
JP5685031B2 (ja) * 2010-09-15 2015-03-18 キヤノン株式会社 画像処理装置および画像形成システムおよび画像形成方法
JP6448036B2 (ja) * 2015-09-03 2019-01-09 日本電信電話株式会社 物体領域特定方法、装置、及びプログラム
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
US9753949B1 (en) 2016-03-14 2017-09-05 Shutterstock, Inc. Region-specific image download probability modeling

Also Published As

Publication number Publication date
WO2018197019A1 (en) 2018-11-01
US11715281B2 (en) 2023-08-01
JP2020518076A (ja) 2020-06-18
US20200193225A1 (en) 2020-06-18
US20220129701A1 (en) 2022-04-28
JP6889279B2 (ja) 2021-06-18

Similar Documents

Publication Publication Date Title
DE112017007492T5 (de) System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE102020211853A1 (de) Effiziente gegnerische blackbox-angriffe unter ausnutzung einer eingabedatenstruktur
DE69333811T2 (de) Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE112020000537T5 (de) Verbesserung von fairness durch bestärkendes lernen
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
DE202017007528U1 (de) Differenzmetrik für auf maschinellem Lernen basierende Verarbeitungssysteme
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE102020126732A1 (de) Systeme und Verfahren zum Diagnostizieren von Wahrnehmungssystemen von Fahrzeugen anhand der zeitlichen Kontinuität von Sensordaten
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE112020005584T5 (de) Verdeckung berücksichtigende Innenraumszenenanalyse
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
DE69606468T2 (de) Erkennungs- und Beurteilungsgerät mit verschiedenen Lernfunktionen
DE102019127622B4 (de) Abwehrgenerator, Verfahren zur Verhinderung eines Angriffs auf eine KI-Einheit und computerlesbares-Speichermedium
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
DE112022002037T5 (de) Lernen von ordinalen repräsentationen für tiefe, auf verstärkungslernen basierende objektlokalisierung
DE102022201679A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE112021005555T5 (de) Multitasking-lernen über gradienteilung zur umfangreichen menschlichen analyse
EP2642749B1 (de) Vorrichtung und Verfahren zur Optimierung der Bestimmung von Aufnahmebereichen
DE102007025620A1 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichtkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm
DE102020203135A1 (de) Verfahren zur Qualitätssicherung eines beispielbasierten Systems
DE102019213059A1 (de) Verfahren und Datenverarbeitungssystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009320000

Ipc: G06V0030146000