DE102021201777A1

DE102021201777A1 - Verfahren zur Verhaltenserkennung, Vorrichtung zur Verhaltenserkennung und computerlesbares Aufzeichnungsmedium

Info

Publication number: DE102021201777A1
Application number: DE102021201777.0A
Authority: DE
Inventors: Yuya Obinata
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-02-28
Filing date: 2021-02-25
Publication date: 2021-09-02
Also published as: JP7413836B2; CN113326726B; CN113326726A; JP2021135898A; US20210271863A1; GB2598013A; GB202101800D0; US11721129B2

Abstract

In einem Verhaltenserkennungsverfahren führt ein Computer (100) einen Prozess aus, der das Erfassen von Positionen einer Vielzahl von jeweiligen Gelenken und das Erkennen eines Teilverhaltens, das ein zu erkennendes Subjekt ist, basierend auf einem Merkmalswert, der aus den Positionen der jeweiligen Gelenke berechnet wird, unter Verwendung von Gewichtungen, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Teilverhaltens geändert werden, umfasst.

Description

GEBIET
Die hier diskutierten Ausführungsformen beziehen sich auf ein Verhaltenserkennungsverfahren, ein Verhaltenserkennungsprogramm und ein Verhaltenserkennungsgerät.
HINTERGRUND
Als Technik zur Erkennung eines Verhaltens aus einem Video ist eine Technik zur Erkennung eines Verhaltens aus grundlegenden Merkmalen von 15 physischen Gelenken bekannt, die aus jedem Frame eines 3D-Videos geschätzt werden, d.h. Merkmale wie eine Körperhaltung, eine Geschwindigkeit und eine Bewegung (siehe beispielsweise die japanische Laid-open Patentveröffentlichung Nr. 2015-130151 ).
Die vorgenannte Technik hat jedoch manchmal Schwierigkeiten bei der Erkennung eines Verhaltens, dessen Bewegung in einem Teil eines Körpers erscheint.
Bei dieser Technik wird ein Verhalten anhand grundlegender Merkmale erkannt, die aus den 15 Körpergelenken extrahiert werden, das heißt Merkmale wie eine Körperhaltung, eine Geschwindigkeit und eine Bewegung. Wie oben beschrieben, werden in der oben genannten Technik Merkmale wie eine Haltung, eine Geschwindigkeit und eine Bewegung in Bezug auf die Gelenke des gesamten Körpers verwendet, um ein Verhalten zu erkennen. Aus diesem Grund wird in der Technik, wenn ein Verhalten, das Gegenstand der Erkennung ist, eine Bewegung ist, deren Bewegung nur in einem Teil des Körpers auftritt, eine Bewegung, die in einem anderen Teil auftritt, die Erkennung behindert und somit die Genauigkeit der Erkennung verringert.
Dementsprechend ist es in einem Aspekt einer Ausführungsform der Erfindung ein Ziel, ein Verhaltenserkennungsverfahren, ein Verhaltenserkennungsprogramm und eine Verhaltenserkennungsvorrichtung bereitzustellen, die es ermöglichen, die Erkennung eines Verhaltens zu realisieren, dessen Bewegung in einem Teil eines Körpers auftritt.
ZUSAMMENFASSUNG
Gemäß einem Aspekt der Ausführungsformen umfasst ein Verhaltenserkennungsverfahren, das von einem Computer ausgeführt wird, das Verhaltenserkennungsverfahren, umfassend: Erfassen von Positionen einer Vielzahl von jeweiligen Gelenken; und Erkennen eines Teilverhaltens, das ein zu erkennendes Subjekt ist, basierend auf einem Merkmalswert, der aus den Positionen der jeweiligen Gelenke unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Teilverhaltens geändert werden.
Figurenliste

1 ist ein Diagramm, das ein Beispiel für einen Verhaltenserkennungsdienst gemäß einer ersten Ausführungsform darstellt;
2 ist ein Diagramm, das ein Beispiel für eine Regel darstellt;
3 ist ein schematisches Diagramm, das ein Beispiel für die Anwendung des Verhaltenserkennungsdienstes gemäß der ersten Ausführungsform darstellt;
4A ist ein schematisches Diagramm, das Gewichte an Gelenken bei der Anwendung einer verwandten Technik darstellt;
4B ist ein schematisches Diagramm zur Veranschaulichung von Gewichtungen für Gelenke bei der Anwendung einer Elementverhalten-Erkennungsfunktion gemäß der ersten Ausführungsform;
5 ist ein Blockdiagramm, das ein Beispiel für eine funktionelle Konfiguration einer Verhaltenserkennungsvorrichtung gemäß der ersten Ausführungsform darstellt;
6 ist ein Diagramm, das ein Beispiel für erste Gewichtsdaten darstellt;
7 ist ein Diagramm, das ein Beispiel für zweite Gewichtsdaten darstellt;
8 ist ein Flussdiagramm, das ein Verfahren eines Modelllernprozesses gemäß der ersten Ausführungsform darstellt;
9 ist ein Flussdiagramm, das einen Prozess eines Verhaltenserkennungsprozesses gemäß der ersten Ausführungsform darstellt;
10 ist ein Diagramm, das ein Beispiel für die Anwendung auf ein GCNN darstellt;
11 ist ein schematisches Diagramm, das ein Bild von Parametern darstellt; und
12 ist ein Diagramm, das ein Beispiel einer Hardwarekonfiguration eines Computers darstellt.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Bevorzugte Ausführungsformen werden unter Bezugnahme auf die beigefügten Zeichnungen erläutert. Die Ausführungsformen schränken das offenbarte Verfahren nicht ein. Es ist möglich, die Ausführungsformen innerhalb eines Rahmens, in dem keine Inkonsistenz des Verfahrensinhalts verursacht wird, nach Bedarf zu kombinieren.
Erste Ausführungsform
Beispiel eines Verhaltenserkennungsdienstes
1 ist ein Diagramm, das ein Beispiel für einen Verhaltenserkennungsdienst gemäß einer ersten Ausführungsform zeigt. Ein in 1 dargestellter Verhaltenserkennungsdienst 1 bietet beispielsweise einen Dienst zur Erkennung eines Verhaltens eines Subjekts, wie beispielsweise eines Menschen, aus einem Video einer Kamera 2. In dem Verhaltenserkennungsdienst 1, der nur ein Beispiel ist, wird ein oberes Verhalten erkannt, das kompliziert ist, weil mehrere Bewegungen kombiniert werden, beispielsweise ein verdächtiges Verhalten oder ein Kaufverhalten.
Mit Ausnahme des oben erwähnten Verhaltenserkennungsdienstes 1 muss zur Erkennung des „oberen Verhaltens“ eine Menge von Videos, die das Verhalten enthalten, als Trainingsdaten vorbereitet werden. Die Vorbereitung einer solchen Menge von Trainingsdaten kann praktisch schwierig sein, oder, selbst wenn eine Menge von Trainingsdaten vorbereitet werden kann, kann es Zeit und Mühe kosten, und daher gibt es einen Aspekt, dass die Einführung der Erkennung des oberen Verhaltens in das Feld schwierig ist.
Um die Notwendigkeit zu beseitigen, eine solche Menge von Trainingsdaten vorzubereiten, erkennt der Verhaltenserkennungsdienst 1 das Oberverhalten gemäß einer Regel, die Kombinationen von „Elementverhalten“ definiert, die als „Grundbewegungen“ enthalten sein können, die im täglichen Leben ausgeführt werden, und Elemente des oberen Verhaltens.
Wie in 1 dargestellt, kann der Verhaltenserkennungsdienst 1 eine Skeletterkennungsfunktion 3, eine Grundbewegungserkennungsfunktion 4 und eine Oberverhaltenserkennungsfunktion 5 enthalten.
Die Skelett-Erkennungsfunktion 3 ist eine Funktion zur Erkennung von Skelett-Informationen, die die Position jedes Gelenks eines Subjekts enthalten, in jedem Bild eines Videos, das von der Kamera 2 aufgenommen wurde. Die Skelett-Erkennungsfunktion 3 kann, nur als Beispiel, durch eine zweidimensionale oder dreidimensionale Bewegungserfassungstechnik implementiert werden.
Die Grundbewegungserkennungsfunktion 4 ist eine Funktion zur Erkennung einer Grundbewegung aus den Skelettinformationen jedes Bildes. Nur als Beispiel: Die Grundbewegungserkennungsfunktion 4 kann mit einem Modell implementiert werden, das Grundbewegungen gemäß einem maschinellen Lernalgorithmus, wie beispielsweise Deep Learning, erlernt hat.
Die „Grundbewegungen“ können beispielsweise „Ganzkörper-Verhaltensweisen“ enthalten, deren Bewegungen in einem ganzen menschlichen Körper auftreten, und „Teilverhaltensweisen“, deren Bewegungen in einem Teil eines menschlichen Körpers auftreten. Verhaltensweisen wie „Gehen“, „Laufen“ und „Anhalten“ können als Beispiel für die „Ganzkörperverhaltensweisen“ genommen werden. Verhaltensweisen wie „die rechte Hand heben“, „nach unten schauen“ und „nach vorne schauen“ können als Beispiel für die „Teilverhaltensweisen“ angesehen werden.
Die „Ganzkörper-Verhaltensweisen“ und die „Teilverhaltensweisen“ sind „Grundbewegungen“, die normalerweise ausgeführt werden und somit einfache Bewegungen im Vergleich zu den „oberen Verhaltensweisen“ sind. Aus diesem Grund ist das Sammeln von Videos der „Grundbewegungen“ einfach und eine genaue Erkennung der „Grundbewegungen“ kann mit dem trainierten Modell realisiert werden.
Die Funktion zur Erkennung des oberen Verhaltens 5 ist eine Funktion zur Erkennung des oberen Verhaltens. Wie in 1 dargestellt, enthält die Funktion zur Erkennung des oberen Verhaltens 5 außerdem eine Zeitreihenanalysefunktion 5A und eine Regelzusammenstellungsfunktion 5B.
Die Zeitreihenanalysefunktion 5A ist eine Funktion zur Analyse, ob eine Grundbewegung einem bestimmten Zeitreihenmuster entspricht. Als Beispiele für das Zeitreihenmuster werden beispielsweise die Kontinuität der Basisbewegung oder ein Übergang des Zustands der Basisbewegung genommen. Eine Basisbewegung, die einem solchen Zeitreihenmuster entspricht, wird als „Elementverhalten“ erkannt.
Die Regelzuordnungsfunktion 5B ist eine Funktion zur Zuordnung des Ergebnisses der Erkennung eines Basisverhaltens und eines Elementverhaltens sowie einer Regel 6. Wenn die Regel 6 erfüllt ist, wird ein Oberverhalten erkannt, das ein zu erkennendes Subjekt ist.
In einem Aspekt definiert die Regel 6 das Oberverhalten, das das zu erkennende Subjekt ist, gemäß einer Kombination von Basisverhalten und Elementverhalten. Die Kombination kann beispielsweise Basisverhalten oder Elementverhalten oder sowohl Basisverhalten als auch Elementverhalten enthalten. Wenn die Regel 6 mehrere Kombinationen definiert, kann eine Reihenfolge und eine logische Beziehung zwischen den Kombinationen festgelegt werden.
In dem oben erwähnten Verhaltenserkennungsdienst 1 ist es möglich, die Regel 6 nicht nur gemäß einer Systemdefinition, sondern auch gemäß einer Benutzerdefinition festzulegen. Beispielsweise kann ein Benutzer U, wie ein Systemtechniker auf der Seite eines Unternehmens, das den oben beschriebenen Verhaltenserkennungsdienst 1 anbietet, oder ein Kunde des Verhaltenserkennungsdienstes 1, die Regel 6 bearbeiten, was eine Anpassung durch den Benutzer U ermöglicht.
1 zeigt exemplarisch die Zeitreihenanalyse. Parallel zur Zeitreihenanalyse kann eine räumliche Analyse durchgeführt werden, ob ein Ort, an dem ein grundlegendes Verhalten auftritt, eine bestimmte räumliche Bedingung erfüllt, beispielsweise ob der Ort innerhalb einer Region von Interesse (ROI) liegt. Wenn beispielsweise ein verdächtiges Verhalten ein zu erkennendes Subjekt ist, kann ein zu überwachendes Subjekt, beispielsweise im Falle einer Kommissionierung, eine Tür oder die Umgebung der Tür als ROI festgelegt werden. Wenn ein Einkaufsverhalten ein zu erkennendes Subjekt ist, kann ein Regal mit Waren als ROI eingestellt werden.
Beispiel für die Anwendung des Verhaltenserkennungsdienstes
Anhand von 2 und 3 wird ein Beispiel für die Anwendung des Verhaltenserkennungsdienstes 1 gemäß der ersten Ausführungsform beschrieben. 2 ist ein Diagramm, das ein Beispiel für die Regel 6 darstellt. 2 stellt eine Regel dar, die „Benutzen eines Smartphones während des Gehens“ als ein Beispiel für ein zu erkennendes Verhalten definiert. Wie in 2 dargestellt, definiert die Regel 6 eine Kombination in jedem Schritt in der Reihenfolge von Schritt S1 bis Schritt S2. Zum Beispiel werden in Schritt S1 ein Ganzkörperverhalten C1 „Gehen“, ein Elementverhalten C2 „Halten eines Smartphones“, ein Elementverhalten C3 „Nach unten schauen“ und ein Elementverhalten C5 „Starten der Bedienung eines Smartphones“ festgelegt. In Schritt S2 werden das Ganzkörperverhalten C1 „Gehen“, das Elementverhalten C2 „Halten eines Smartphones“, ein Elementverhalten C4 „Nach vorne schauen“ und ein Elementverhalten C6 „Beenden der Bedienung eines Smartphones“ eingestellt.
3 ist ein schematisches Diagramm, das ein Anwendungsbeispiel des Verhaltenserkennungsdienstes 1 gemäß der ersten Ausführungsform zeigt. 3 stellt schematisch ein Ergebnis der Erkennung eines Gesamtverhaltens und von Teilverhalten in jedem der Einzelbilder t1 bis t6 eines Videos dar, das von der Kamera 2 unter den Umständen eingegeben wird, unter denen die in 2 dargestellte Regel 6 definiert ist.
Wie in 3 dargestellt, wird das Ganzkörperverhalten C1 „Gehen“ bei den Schritten S1 und S2 kontinuierlich vom Bild t1 bis zum Bild t6 erkannt. Ein Teilverhalten des rechten Arms „vorwärts“ und ein Teilverhalten der rechten Hand „einen Gegenstand halten“ werden vom Bild t1 bis zum Bild t6 fortgesetzt. Die Kontinuität des Teilverhaltens des rechten Arms „vorwärts“ und des Teilverhaltens der rechten Hand „Halten eines Objekts“ entspricht einem Zeitreihenmuster des Elementverhaltens „Halten eines Smartphones“. Aus diesem Grund wird das Elementverhalten C2 „Halten des Smartphones“ bei den Schritten S1 und S2 vom Frame t1 bis zum Frame t6 kontinuierlich erkannt.
Außerdem wechselt in den Frames t1 und t2 das Teilverhalten des Gesichts von „vorwärts“ nach „abwärts“. Eine solche zeitliche Änderung des Teilverhaltens des Gesichts entspricht einem Zeitreihenmuster des Elementverhaltens C3 „nach unten schauend“. Entsprechend wird das Elementverhalten C3 im Schritt S1 zum Zeitpunkt des Frames t2 erkannt. Weiterhin wechselt in den Frames t2 und t3 das Teilverhalten des linken Arms von „nach unten“ nach „nach vorne“. Eine solche zeitliche Änderung des Teilverhaltens des linken Arms entspricht einem Zeitreihenmuster des Elementverhaltens C5 „Starten der Bedienung eines Smartphones“. Entsprechend wird das Elementverhalten C5 in Schritt S1 zum Zeitpunkt des Frames t3 erkannt.
Wie oben beschrieben, werden zum Zeitpunkt des Frames t3 das Ganzkörperverhalten C1 „Gehen“, das Elementverhalten C2 „Halten eines Smartphones“, das Elementverhalten C3 „Nach unten schauen“ und das Elementverhalten C5 „Starten der Bedienung eines Smartphones“ unter einer UND-Bedingung erkannt. Infolgedessen wird zum Zeitpunkt des Rahmens t3 der Schritt S1 ausgeführt.
Danach, in den Frames t5 und t6, wechselt das Teilverhalten des Gesichts von „nach unten“ auf „nach vorne“. Eine solche zeitliche Änderung des Teilverhaltens des Gesichts entspricht einem Zeitreihenmuster des Elementverhaltens C4 „nach vorne schauen“. Entsprechend wird das Elementverhalten C4 im Schritt S2 zum Zeitpunkt des Frames t6 erkannt. Weiterhin wechselt in den Bildern t5 und t6 das Teilverhalten des linken Arms von „vorwärts“ nach „abwärts“. Eine solche zeitliche Änderung des Teilverhaltens des linken Arms entspricht einem Zeitreihenmuster des Elementverhaltens C6 „Beenden der Bedienung eines Smartphones“. Entsprechend wird das Elementverhalten C6 in Schritt S2 zum Zeitpunkt des Frames t6 erkannt.
Wie oben beschrieben, werden zum Zeitpunkt des Rahmens t6 das Ganzkörperverhalten C1 „Gehen“, das Elementverhalten C2 „Halten eines Smartphones“, das Elementverhalten C4 „Nach vorne schauen“ und das Elementverhalten C6 „Beenden der Bedienung eines Smartphones“ unter einer UND-Bedingung erkannt. Als Ergebnis wird zum Zeitpunkt des Rahmens t6 der Schritt S2 ausgeführt.
Zum Zeitpunkt des Frames t6 werden sowohl der Schritt S1 als auch der Schritt S2 in dieser Reihenfolge ausgeführt und somit das Oberverhalten „Smartphone im Gehen benutzen“, das die Regel 6 erfüllt, erkannt.
Wie oben beschrieben, wird gemäß dem Verhaltenserkennungsdienst 1 gemäß der ersten Ausführungsform das Oberverhalten gemäß der Regel 6 erkannt, die Kombinationen von Grundbewegungen und Elementverhalten definiert, wodurch es möglich ist, die Notwendigkeit zu beseitigen, eine Menge von Trainingsdaten vorzubereiten. Darüber hinaus ist es gemäß dem Verhaltenserkennungsdienst 1 gemäß der ersten Ausführungsform möglich, nicht nur die Regel 6 zu verwenden, die durch die Systemdefinition voreingestellt ist, sondern auch dem Benutzer U zu erlauben, die Regel 6 anzupassen, wodurch es möglich ist, die Erkennung des oberen Verhaltens entsprechend dem Feld zu realisieren.
Ein Aspekt der Aufgabe
Wie oben beschrieben, ist es gemäß dem Verhaltenserkennungsdienst 1 gemäß der ersten Ausführungsform möglich, die Regel 6 unter Verwendung der Grundbewegungen und Elementverhalten, die durch die Systemdefinition voreingestellt sind, anzupassen.
Die benötigten Elementverhalten variieren jedoch je nach Feld und daher ist es nicht unbedingt möglich, ein dem Feld entsprechendes Oberverhalten nur mit den voreingestellten Elementverhalten zu definieren. Um Elementverhalten zu erkennen, die nicht voreingestellt sind, muss ein Zeitreihenmuster, das für eine Zeitreihenanalyse verwendet wird, neu eingestellt werden.
Das Setzen eines Zeitreihenmusters hat jedoch den Aspekt, dass das Erkennen von nicht voreingestellten Elementverhaltensweisen schwierig ist, da sowohl das Fachwissen des Verhaltenserkennungsdienstes 1 als auch des Feldes erforderlich ist und es Zeit und Mühe kostet.
Das Erkennen solcher Elementverhaltensweisen ist selbst mit der oben im Hintergrundteil beschriebenen Technik schwierig. Mit anderen Worten, wie im Hintergrundteil oben beschrieben, wird bei der oben beschriebenen Technik ein Verhalten aus grundlegenden Merkmalen erkannt, die aus den 15 Gelenken extrahiert werden, das heißt aus Merkmalen wie einer Körperhaltung, einer Geschwindigkeit und einer Bewegung. Wie oben beschrieben, werden in der oben beschriebenen Technik Merkmale wie eine Körperhaltung, eine Geschwindigkeit und eine Bewegung, die sich auf die Gelenke des gesamten Körpers beziehen, verwendet, um ein Verhalten zu erkennen. Aus diesem Grund werden bei der oben beschriebenen Technik, wenn ein zu erkennendes Verhalten eine Bewegung ist, die nur in einem Teil des Körpers auftritt, Bewegungen, die in anderen Teilen auftreten, die Erkennung behindern und die Genauigkeit der Erkennung entsprechend verringern.
Ein Aspekt des Ansatzes zur Lösung der Aufgabe
Unter den gegebenen Umständen wird in der ersten Ausführungsform dem Verhaltenserkennungsdienst 1 eine Elementverhalten-Erkennungsfunktion 7 zur Erkennung eines Elementverhaltens, das ein zu erkennendes Subjekt ist, auf der Grundlage von Merkmalswerten hinzugefügt, die unter Verwendung von Gewichten berechnet werden, die auf die jeweiligen Gelenke anzuwenden sind und die je nach Art des Verhaltens geändert werden. Die Elementverhalten-Erkennungsfunktion 7 verwendet einen Ansatz zur Lösung des Problems, um zu verhindern, dass Bewegungen, die in anderen Körperteilen als demjenigen auftreten, der einem Verhaltenselement entspricht, das ein zu erkennendes Subjekt ist, die Erkennung behindern.
Das Elementverhalten wird hier nur als Beispiel für das Verhalten, das ein zu erkennendes Subjekt ist, dargestellt. Nur als Beispiel: Das Verhalten, das ein zu erkennendes Subjekt ist, kann allgemeine Verhaltensweisen abdecken, von denen Bewegungen in einem Teil des Körpers auftreten, beispielsweise ein Teilverhalten sein. Wenn beispielsweise ein Teilverhalten ein zu erkennendes Subjekt ist, kann das Teilverhalten, das ein zu erkennendes Subjekt ist, auf der Grundlage von Merkmalswerten erkannt werden, die aus Zeitreihendaten von Positionen jeweiliger Gelenke unter Verwendung von Gewichten berechnet werden, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend der Art des Teilverhaltens geändert werden.
4A ist ein schematisches Diagramm, das die Gewichte für Gelenke in dem Fall zeigt, in dem die entsprechende Technik angewendet wird. 4B ist ein schematisches Diagramm, das die Gewichte der Gelenke in dem Fall veranschaulicht, in dem die Elementverhalten-Erkennungsfunktion 7 gemäß der ersten Ausführungsform angewendet wird. 4A und 4B veranschaulichen ein Beispiel, in dem „Heben der rechten Hand“ ein zu erkennendes Elementverhalten ist, und veranschaulichen ein Skelettmodell, das die Positionen der Gelenke in einem Rahmen t-k und einem Rahmen t enthält.
Nur beispielhaft wird ein Beispiel dargestellt, in dem eine Differenz zwischen der Position jedes Gelenks im Rahmen t und der Position jedes Gelenks im Rahmen t-k, also eine relative Position, als Geschwindigkeitsmerkmal berechnet wird und das zu erkennende Elementverhalten anhand der Geschwindigkeitsmerkmale der jeweiligen Gelenke erkannt wird.
Wenn die Geschwindigkeitsmerkmale der jeweiligen Gelenke berechnet werden, wird eine relative Position in Bezug auf jedes der Gelenke berechnet, beispielsweise das rechte und linke Handgelenk, die Ellbogen, die Schultern, die Taille, die Knie und die Knöchel. Beispielsweise wird ein Geschwindigkeitsmerkmal des rechten Handgelenks auf der Grundlage einer Differenz zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Handgelenks im Rahmen t-k, einer Differenz zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Ellbogens im Rahmen t-k, und einer Differenz zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des linken Knöchels im Rahmen t-k berechnet.
4A stellt durch die Dicke der gestrichelten Linien die Größe des Gewichts dar, das auf jedes Gelenk angewendet wird, dessen relative Position zum rechten Handgelenk in dem Fall berechnet wird, in dem ein Geschwindigkeitsmerkmal des rechten Handgelenks in der zugehörigen Technik berechnet wird. Wie in 4A dargestellt, weisen die gepunkteten Linien keinen Unterschied in der Dicke auf. Mit anderen Worten: Das Geschwindigkeitsmerkmal des rechten Handgelenks wird in dem Zustand berechnet, in dem gleich große Gewichte zwischen der relativen Position, die aus den Positionen des rechten Handgelenks, des rechten Ellbogens, der rechten Schulter und so weiter berechnet wird, die für das Elementverhalten „Heben der rechten Hand“ im Rahmen t-k relevant sind, und der relativen Position, die aus den Positionen des linken Arms, des Unterkörpers und so weiter berechnet wird, die für das Elementverhalten „Heben der rechten Hand“ im Rahmen t-k irrelevant sind, angewendet werden.
In 4B sind, nur als Beispiel, die Größen der Gewichte, die auf die jeweiligen Gelenke angewendet werden, deren relative Positionen in Bezug auf das rechte Handgelenk in dem Fall, in dem ein Geschwindigkeitsmerkmal des rechten Handgelenks in der Elementverhalten-Erkennungsfunktion 7 berechnet wird, durch die Dicke der gestrichelten Linien dargestellt. Es werden unterschiedliche Gewichtungen zwischen der relativen Position eines Gelenks, das für das Elementverhalten „Heben der rechten Hand“ im Rahmen t-k relevant ist, und der relativen Position eines Gelenks, das für das Elementverhalten „Heben der rechten Hand“ im Rahmen t-k irrelevant ist, angewendet. Wie in 4B dargestellt, werden Gewichte gemäß den Gewichtsdaten angewendet, in denen die Gewichte auf die jeweiligen Gelenke angewendet werden, die zur Berechnung der relativen Positionen zu einem Gelenk verwendet werden, dessen Geschwindigkeitsmerkmal gemäß der Art des zu erkennenden Elementverhaltens berechnet werden soll. Beispielsweise wird ein Gewicht „1“ auf eine relative Position angewendet, die zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Handgelenks im Rahmen t-k berechnet wird. Ein Gewicht „1/2“ wird auf eine relative Position angewendet, die zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Ellbogens im Rahmen t-k berechnet wird. Ein Gewicht „1/4“ wird auf eine relative Position angewandt, die zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks der rechten Schulter im Rahmen t-k berechnet wird. Andererseits wird ein Gewicht „0“ auf eine relative Position angewendet, die aus der Position des Gelenks, beispielsweise des linken Arms oder des Unterkörpers, im Rahmen t-k berechnet wird. Auf diese Weise wird das Geschwindigkeitsmerkmal des rechten Handgelenks mit einem Gewicht berechnet, das auf eine Relativposition anzuwenden ist, die aus der Position eines für das Elementverhalten „Heben der rechten Hand“ relevanten Gelenks im Rahmen t-k berechnet wird und das größer ist als das Gewicht, das auf eine Relativposition anzuwenden ist, die aus der Position eines für das Elementverhalten „Heben der rechten Hand“ irrelevanten Gelenks berechnet wird.
Die relative Position, die aus der Position eines für das Elementverhalten „Heben der rechten Hand“ irrelevanten Teils berechnet wird, führt zu einem Hindernis bei der Erkennung des Elementverhaltens „Heben der rechten Hand“, das heißt zu einem Rauschen. Nur als Beispiel wird der Fall dargestellt, dass ein aufgenommenes Video von „Heben der rechten Hand beim Gehen“ und ein aufgenommenes Video von „Gehen“ eingegeben werden. Zweckmäßigerweise wird angenommen, dass die Bewegungen anderer Gelenke als des rechten Handgelenks, des rechten Ellbogens und der rechten Schulter zwischen den beiden Videos gleich sind.
Wenn zum Beispiel ein Skelettmodell mit den Positionen von 12 Gelenken zusätzlich zum Kopf erhalten wird, ist die Anzahl der Gelenke, deren Positionen in jedem Frame zwischen den beiden Videos gleich sind, gleich 9, mit Ausnahme des rechten Handgelenks, des rechten Ellbogens und der rechten Schulter. Selbst wenn sich die Positionen der verbleibenden drei Gelenke in jedem Frame zwischen den beiden Videos unterscheiden, haben 75% (=912100) der relativen Positionen bei der Berechnung eines Geschwindigkeitsmerkmals des rechten Handgelenks die gleichen Werte.
Aus diesem Grund wird gemäß der zugehörigen Technik auf jedes Gelenk die gleiche Gewichtung angewendet und die 75% $(= 9 \div 12 \times 100)$
der relativen Positionen bei der Berechnung eines Geschwindigkeitsmerkmals des rechten Handgelenks ergeben ein Rauschen. Dies erhöht die Möglichkeit, dass die Geschwindigkeitsmerkmale des rechten Handgelenks, die zwischen den beiden Videos berechnet werden, einander ähnlich sind. Infolgedessen wird auch ein aufgenommenes Video des „Gehens“ als das zu erkennende Elementverhalten „Heben der rechten Hand“ erkannt und dementsprechend sinkt die Genauigkeit der Erkennung.
Andererseits ist es gemäß der Funktion zur Erkennung des Elementverhaltens 7 gemäß der ersten Ausführungsform möglich, ein Geschwindigkeitsmerkmal des rechten Handgelenks in dem Zustand zu berechnen, in dem das Rauschen ausgeschlossen ist, da auf ein Gelenk, das für das Elementverhalten „Heben der rechten Hand“ relevant ist, ein größeres Gewicht angewendet wird als auf ein Gelenk, das für das Elementverhalten „Heben der rechten Hand“ irrelevant ist. Dadurch kann verhindert werden, dass selbst ein aufgenommenes Video von „Gehen“ als das zu erkennende Elementverhalten „Heben der rechten Hand“ erkannt wird.
Somit ist es gemäß der Elementverhalten-Erkennungsfunktion 7 möglich, die Erkennung eines Elementverhaltens zu realisieren, das nicht als Beispiel für ein Verhalten voreingestellt ist, dessen Bewegung in einem Teil des Körpers erscheint. Wenn ein nicht voreingestelltes Elementverhalten zur Regel hinzugefügt wird, ist es gemäß der Elementverhalten-Erkennungsfunktion 7 außerdem möglich, die Zeit und den Aufwand für die Neueinstellung eines Zeitserienmusters, das für eine Zeitserienanalyse verwendet wird, zu reduzieren.
Funktionskonfiguration der Verhaltenserkennungsvorrichtung
5 ist ein Blockdiagramm, das ein Beispiel für eine funktionale Konfiguration einer Verhaltenserkennungsvorrichtung 10 gemäß der ersten Ausführungsform zeigt. Die in 5 dargestellte Verhaltenserkennungsvorrichtung 10 entspricht einem Computer, der den oben beschriebenen Verhaltenserkennungsdienst 1 bereitstellt.
In einer Ausführungsform ist es möglich, die Verhaltenserkennungsvorrichtung 10 zu implementieren, indem ein Verhaltenserkennungsprogramm, das die oben beschriebene Verhaltenserkennungsvorrichtung 10 implementiert, in einem bestimmten Computer als Paketsoftware oder Online-Software installiert wird. Beispielsweise kann die Verhaltenserkennungsvorrichtung 10 als SaaS-Anwendung (Software-as-a-Service) installiert werden, wodurch der oben beschriebene Verhaltenserkennungsdienst 1 als Cloud-Dienst bereitgestellt wird. Die Verhaltenserkennungsvorrichtung 10 ist hierauf nicht beschränkt, und die Verhaltenserkennungsvorrichtung 10 kann als Server installiert werden, der eine dem Verhaltenserkennungsdienst 1 entsprechende Funktion vor Ort bereitstellt.
Wie in 5 dargestellt, ist eine Kamera 2, die einem Beispiel für ein bildgebendes Gerät entspricht, mit der Verhaltenserkennungsvorrichtung 10 verbindbar. Die Verhaltenserkennungsvorrichtung 10 und die Kamera 2 sind über ein bestimmtes Netzwerk miteinander verbindbar, so dass die Verhaltenserkennungsvorrichtung 10 und die Kamera 2 miteinander kommunizieren können. Das Netzwerk kann beispielsweise jede Art von Kommunikationsnetzwerk sein, wie das Internet oder ein LAN (Local Area Network), unabhängig davon, ob das Netzwerk drahtgebunden oder drahtlos ist. In den 1 und 5 ist beispielhaft dargestellt, dass die einzelne Kamera 2 mit der einzelnen Verhaltenserkennungsvorrichtung 10 verbunden ist; dies hindert jedoch nicht daran, mehrere Kameras 2 mit der einzelnen Verhaltenserkennungsvorrichtung 10 zu verbinden.
Wie in 5 dargestellt, umfasst die Verhaltenserkennungsvorrichtung 10 eine Videoerfassungseinheit 11, eine Skelettinformation-Erfassungseinheit 12, eine Grundbewegungserkennungseinheit 13, eine Oberverhalten-Erkennungseinheit 14, einen Regelspeicher 15, eine Elementverhalten-Erkennungseinheit 17, einen ersten Gewichtsspeicher 18 und einen zweiten Gewichtsspeicher 19. Die Verhaltenserkennungsvorrichtung 10 kann zusätzlich zu den in 5 dargestellten Funktionseinheiten verschiedene Funktionseinheiten eines bekannten Computers enthalten, beispielsweise Funktionen, die einer Eingabe-/Ausgabeschnittstelle und einer Kommunikationsschnittstelle entsprechen.
Die Funktionseinheiten, wie beispielsweise die Videoerfassungseinheit 11, die Skelettinformation-Erfassungseinheit 12, die Grundbewegungserkennungseinheit 13, die Oberverhalten-Erkennungseinheit 14 und die Elementverhalten-Erkennungseinheit 17, werden virtuell von einem Hardware-Prozessor, wie beispielsweise einer Zentraleinheit (CPU) oder einer Mikroverarbeitungseinheit (MPU), implementiert. Mit anderen Worten, der Prozessor liest ein Programm, wie beispielsweise das Verhaltenserkennungsprogramm, das durch das Verpacken des oben beschriebenen Verhaltenserkennungsdienstes 1 erhalten wurde, zusätzlich zu einem Betriebssystem (OS) von einem Speichergerät (in der Zeichnung nicht dargestellt), wie beispielsweise einem Festplattenlaufwerk (HDD), einer optischen Platte oder einem Solid State Drive (SSD). Der Prozessor führt dann das oben beschriebene Verhaltenserkennungsprogramm aus, wodurch ein Prozess geladen wird, der den oben beschriebenen Funktionseinheiten in einem Speicher, wie beispielsweise einem Direktzugriffsspeicher (RAM), entspricht. Als Ergebnis der Ausführung des oben beschriebenen Verhaltenserkennungsprogramms, wie oben beschrieben, werden die oben beschriebenen Funktionseinheiten virtuell als Prozess implementiert. Die CPU oder MPU wird hier als Beispiel für den Prozessor angeführt, und die oben beschriebenen Funktionseinheiten können von einem gegebenen Prozessor implementiert werden, unabhängig davon, ob es sich um einen Allzweckprozessor oder einen speziellen Prozessor handelt. Die oben beschriebenen Funktionseinheiten oder ein Teil der Funktionseinheiten können unter Verwendung einer verdrahteten Logik durch Hardware implementiert werden, beispielsweise durch eine anwendungsspezifische integrierte Schaltung (ASIC) oder ein Field-Programmable-Gate-Array (FPGA).
Die oben beschriebenen Speicher, wie beispielsweise der Regelspeicher 15, der erste Gewichtsspeicher 18 und der zweite Gewichtsspeicher 19, können als Zusatzspeicher, wie beispielsweise eine HDD, eine optische Platte oder eine SSD, installiert sein oder durch Zuweisung eines Teils des Speicherbereichs eines Zusatzgeräts installiert werden.
Die Videoerfassungseinheit 11 ist ein Prozessor, der ein Video erfasst.
In einer Ausführungsform ist die Videoerfassungseinheit 11 in der Lage, ein Video zu erfassen, das von der Kamera 2 Bild für Bild übertragen wird. Die Informationsquelle, von der die Videoerfassungseinheit 11 ein Video erfasst, kann eine beliebige Informationsquelle sein und ist nicht auf die Kamera 2 beschränkt. Die Videoerfassungseinheit 11 kann beispielsweise auch ein Video von einem zusätzlichen Speichermedium, wie einer Festplatte oder einer optischen Platte, auf der Videos gespeichert sind, oder von einem Wechseldatenträger, wie einer Speicherkarte oder einem Universal Serial Bus (USB), erfassen. Die Videoerfassungseinheit 11 ist auch in der Lage, ein Video über ein Netzwerk NW von einem anderen externen Gerät als der Kamera 2 zu erfassen.
Die Skelettinformations-Erfassungseinheit 12 ist ein Prozessor, der die Skelettinformationen erfasst, die die Positionen der jeweiligen Gelenke eines Subjekts in jedem Bild des Videos enthalten. Nur ein Beispiel: Die Skelettinformations-Erfassungseinheit 12 gibt das Video in eine Motion-Capture-Engine in Bezug auf jedes Bild ein, in dem das Video von der Videoerfassungseinheit 11 erfasst wird, wodurch sie in der Lage ist, die Skelettinformationen zu erfassen, die die Positionen der jeweiligen Gelenke enthalten. Wenn zum Beispiel eine zweidimensionale Bewegungserfassung durchgeführt wird, können Sätze von Koordinaten (xt1, yt1), (xt2,yt2), ... (xtN,ytN) eines Gelenks n=1,...,N in einem Bild t erfasst werden. Die Indizes n identifizieren das rechte Handgelenk, den rechten Ellbogen, die rechte Schulter, das linke Handgelenk, ..., und den linken Knöchel in der Reihenfolge n=1,...,N. Die Bewegungserfassungs-Engine muss nicht notwendigerweise von einem Prozessor auf der Verhaltenserkennungsvorrichtung 10 ausgeführt werden, es kann auch eine externe Engine verwendet werden.
Die Grundbewegungserkennungseinheit 13 ist ein Prozessor, der eine Grundbewegung aus den Skelettinformationen auf jedem Bild erkennt. Nur als Beispiel: Die Grundbewegungserkennungseinheit 13 gibt die Positionen der jeweiligen Gelenke, die in jedem Bild von der Skelettinformation-Erfassungseinheit 12 erfasst werden, in ein Modell ein, das die Grundbewegungen gemäß einem maschinellen Lernalgorithmus, wie beispielsweise Deep Learning, gelernt hat. Dementsprechend kann ein Ergebnis der Erkennung einer Grundbewegung auf einer Frame-by-Frame-Basis erfasst werden.
Die Oberverhalten-Erkennungseinheit 14 ist ein Prozessor, der ein oberes Verhalten erkennt. Wie in 5 dargestellt, enthält die Oberverhalten-Erkennungseinheit 14 außerdem einen Zeitreihenanalysator 14A und einen Regelkollator 14B.
Der Zeitserienanalysator 14A ist ein Prozessor, der analysiert, ob eine Grundbewegung einem bestimmten Zeitserienmuster entspricht. Als Beispiel für das Zeitserienmuster kann die Kontinuität der Grundbewegung und der Übergang des Zustands der Grundbewegung genommen werden. Eine solche Grundbewegung, die einem Zeitreihenmuster entspricht, wird als „Elementverhalten“ erkannt.
Der Regelkollator 14B ist ein Prozessor, der ein Ergebnis der Erkennung eines Basisverhaltens und eines Elementverhaltens und eine Regel, die im Regelspeicher 15 gespeichert ist, kollationiert. Beispielsweise verwendet der Regelkollator 14B nicht nur das Elementverhalten, das in der vom Zeitreihenanalysator 14A durchgeführten Zeitreihenanalyse erkannt wird, sondern auch das Elementverhalten, das von der Elementverhalten-Erkennungseinheit 17, die weiter unten beschrieben wird, erkannt wird, für die Kollation mit der Regel. Wenn die Regel erfüllt ist, wird ein oberes Verhalten erkannt, das Gegenstand der Erkennung ist.
Im Regelspeicher 15 wird eine Regel gespeichert, die das Oberverhalten, das ein zu erkennendes Subjekt ist, durch eine Kombination von Basisverhalten und Elementverhalten definiert. Die Kombination kann beispielsweise Basisverhaltensweisen oder Elementverhaltensweisen oder sowohl Basisverhaltensweisen als auch Elementverhaltensweisen enthalten. Wenn die Regel mehrere Kombinationen definiert, kann eine Reihenfolge und eine logische Beziehung zwischen den Kombinationen definiert werden.
Der Regelspeicher 15 kann beispielsweise die in 2 dargestellte Regel 6 speichern, und so weiter Wie in 2 dargestellt, definiert die Regel 6 eine Kombination in jedem Schritt in der Reihenfolge von Schritt S1 bis Schritt S2. Zum Beispiel werden in Schritt S1 das Grundverhalten (Ganzkörperverhalten) C1 „Gehen“, das Elementverhalten C2 „Halten eines Smartphones“, das Elementverhalten C3 „Nach unten schauen“ und das Elementverhalten C5 „Starten der Bedienung eines Smartphones“ festgelegt. In Schritt S2 werden das Basisverhalten (Ganzkörperverhalten) C1 „Gehen“, das Elementverhalten C2 „Halten eines Smartphones“, das Elementverhalten C4 „Nach vorne schauen“ und das Elementverhalten C6 „Beenden der Bedienung eines Smartphones“ gesetzt.
Wie beschrieben, ist es möglich, im Regelspeicher 15 nicht nur die gemäß der Systemdefinition, sondern auch die gemäß der Benutzerdefinition gesetzte Regel 6 zu speichern.
Dadurch, dass der Benutzer U, beispielsweise ein Systemingenieur auf Seiten des Betreibers, der den oben beschriebenen Verhaltenserkennungsdienst 1 anbietet, oder ein Kunde des Verhaltenserkennungsdienstes 1, die Regel 6 bearbeiten kann, ist eine Anpassung durch den Benutzer U möglich.
Die Elementverhalten-Erkennungseinheit 17 ist ein Prozessor, der ein Elementverhalten erkennt, das ein zu erkennender Gegenstand ist. Wie in 5 dargestellt, umfasst die Elementverhaltens-Erkennungseinheit 17 außerdem einen Rechner 17A und eine Bestimmungseinheit 17B.
Die Recheneinheit 17A ist ein Prozessor, der einen Merkmalswert eines Elementverhaltens berechnet.
In einem Aspekt ändert der Rechner 17A das auf jedes Gelenk anzuwendende Gewicht entsprechend dem Typ des zu erkennenden Elementverhaltens. Ein Gewicht für jedes Gelenk, das entsprechend der Art eines Elementverhaltens, das ein zu erkennendes Subjekt ist, geändert wird, kann im Folgenden als „erstes Gewicht“ bezeichnet werden.
Ein Beispiel für die Berechnung eines Geschwindigkeitsmerkmals, das durch Gleichung (1) dargestellt wird, wird im Folgenden einfach als Beispiel für den Merkmalswert genommen. In einem Geschwindigkeitsmerkmal, das durch Gleichung (1) unten dargestellt wird, wird ein Geschwindigkeitsmerkmal fs(X^t _n) eines Gelenks n in einem Rahmen t gemäß Gleichung (2) unten berechnet. Beachten Sie, dass das in Gleichung (2) unten dargestellte „k“ eine Konstante bezeichnet, die vorher festgelegt wird und beispielsweise eine beliebige natürliche Zahl sein kann. $\begin{array}{l} Geschwindigkeitsmerkmal \\ = {f_{s} (x_{r e c h t e s H a n d g e l e n k}^{t}), f_{s} (x_{r e c h t e r E l l b o g e n}^{t}), \dots, f_{s} (x_{l i n k e s F u s s g e l e n k}^{t})} \end{array}$
$\begin{matrix} f_{s} (x_{n}^{t}) = {((x_{n}^{t} - x_{i}^{t - k}) \times b_{n} \times w^{i}) | i = 1, \dots, N}; t \\ = k + 1, \dots, T; k > 0 \end{matrix}$
Nur als Beispiel wird ein Beispiel beschrieben, in dem ein Geschwindigkeitsmerkmal für den Fall berechnet wird, dass das zu erkennende Elementverhalten „Heben der rechten Hand“ ist.
Zunächst wird der Fall beschrieben, in dem ein Geschwindigkeitsmerkmal fs(x^t _rechtes Handgelenk) des Gelenks des rechten Handgelenks im Rahmen t unter den Geschwindigkeitsmerkmalen von N Gelenken im Rahmen t berechnet wird (der Fall, in dem n=1). Mit anderen Worten, der Rechner 17A setzt ein erstes Gewicht wⁱ in Gleichung (2) oben gemäß den ersten Gewichtsdaten, die im ersten Gewichtsspeicher 18 gespeichert sind.
6 ist ein Diagramm, das ein Beispiel für die ersten Gewichtsdaten darstellt. 6 stellt, einfach als ein Beispiel der Gewichtsdaten, Gewichte zu Gelenken dar, die gemäß einem Algorithmus des maschinellen Lernens, wie SVM (Support-Vector-Machine) und Modellparametern, gelernt wurden. Wie in 6 dargestellt, können als Beispiel die ersten Gewichtsdaten verwendet werden, Daten, in denen ein erstes Gewicht wⁱ zu jedem Gelenk i=1,...,N, das verwendet wird, um eine relative Position in Bezug auf das Gelenk n zu berechnen, dessen Geschwindigkeitsmerkmal zu berechnen ist, mit jedem Elementverhalten, das ein zu erkennendes Subjekt ist, verbunden ist.
Wenn beispielsweise eine relative Position zwischen der Position des Gelenks des rechten Handgelenks in einem Rahmen t und der Position des Gelenks des rechten Handgelenks in einem Rahmen t-k (wenn i=1) berechnet wird, wird für das rechte Handgelenk in den in 6 dargestellten ersten Gewichtsdaten ein erstes Gewicht w1 festgelegt. Wenn eine relative Position zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Ellbogens im Rahmen t-k berechnet wird (wenn i=2), wird eine Gewichtung „1/2“ für den rechten Ellbogen in den in 6 dargestellten ersten Gewichtsdaten für ein erstes Gewicht w2 festgelegt. Wenn außerdem eine relative Position zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks der rechten Schulter im Rahmen t-k berechnet wird (wenn i=3), wird ein Gewicht „1/4“ für die rechte Schulter in den ersten Gewichtsdaten in 6 für ein erstes Gewicht w3 festgelegt. Auf diese Weise wird der gleiche Vorgang wiederholt, bis der Index i den Wert N erreicht.
In einem anderen Aspekt ändert der Rechner 17A das auf jedes Gelenk anzuwendende Gewicht entsprechend der Kooperativität zwischen den Gelenken. Eine Gewichtung für jedes Gelenk, die entsprechend der Kooperativität zwischen den Gelenken geändert wird, kann im Folgenden als „zweite Gewichtung“ bezeichnet werden.
Zum Beispiel setzt der Rechner 17A ein zweites Gewicht bn in Gleichung (2) oben entsprechend den zweiten Gewichtsdaten, die in dem zweiten Gewichtsspeicher 19 gespeichert sind.
7 ist ein Diagramm, das ein Beispiel für die zweiten Gewichtsdaten darstellt. Wie in 7 dargestellt, können Daten verwendet werden, in denen ein zweites Gewicht bn, das auf jedes Gelenk i im Rahmen t-k anzuwenden ist, das verwendet wird, um eine relative Position in Bezug auf ein Gelenk n zu berechnen, dessen Geschwindigkeitsmerkmal berechnet werden soll, mit jedem Gelenk n verbunden ist. Während zum Beispiel ein hoher Wert für das zweite Gewicht eingestellt wird, wenn die Kooperativität zwischen dem Gelenk n und dem Gelenk i zunimmt, wird ein niedriger Wert für das zweite Gewicht eingestellt, wenn die Zusammenarbeit zwischen dem Gelenk n und dem Gelenk i abnimmt.
Wenn beispielsweise ein Geschwindigkeitsmerkmal fs(xt_rechtes Handgelenk) des rechten Handgelenks berechnet wird (wenn n=1), wird der Datensatz in der ersten Zeile der in 7 dargestellten zweiten Gewichtsdaten herangezogen. Erstens, wenn eine relative Position zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des rechten Handgelenks im Rahmen t-k berechnet wird (wenn i=1), wird ein Gewicht „1“ für das rechte Handgelenk, das durch den Index i=1 unter den zweiten Gewichten für ein Gelenk i=1,...,N identifiziert wird, das in dem Datensatz in der ersten Zeile in 7 enthalten ist, für ein zweites Gewicht b1 gesetzt. Auch wenn die Gelenke im Rahmen t-k der rechte Ellbogen und die rechte Schulter sind, wird für die zweite Gewichtung b1 „1“ eingestellt. Wenn eine relative Position zwischen der Position des Gelenks des rechten Handgelenks im Rahmen t und der Position des Gelenks des linken Handgelenks im Rahmen t-k berechnet wird (wenn i=4), wird für die zweite Gewichtung b1 eine Gewichtung „0“ für das linke Handgelenk gesetzt, das durch den Index i=4 unter den zweiten Gewichtungen für ein Gelenk i=1,...,N identifiziert wird, das in dem in 7 dargestellten Datensatz in der ersten Zeile enthalten ist. Auf diese Weise wird der gleiche Vorgang wiederholt, bis der Index i N erreicht.
Nachdem die erste Gewichtung wⁱ und die zweite Gewichtung bn wie oben beschrieben eingestellt wurden, ordnet der Rechner 17A die Position jedes Gelenks im Rahmen t und die Position jedes Gelenks im Rahmen t-k der obigen Gleichung (2) zu, wodurch ein Geschwindigkeitsmerkmal fs(xt_rechtes Handgelenk) des Gelenks des rechten Handgelenks im Rahmen t berechnet wird. Auf die gleiche Weise berechnet der Rechner 17A Geschwindigkeitsfedern eines Geschwindigkeitsmerkmals fs(xt_rechter Ellbogen) des Gelenks des rechten Ellbogens im Rahmen t,...,eines Geschwindigkeitsmerkmals fs(xt_linkes Fussgelenk) des Gelenks des linken Knöchels im Rahmen t. Danach ordnet der Rechner 17A die N Geschwindigkeitsmerkmale fs(xt1) bis fs(xtN) im Rahmen t der Gleichung (1) zu und berechnet so ein Geschwindigkeitsmerkmal des Elementverhaltens „Heben der rechten Hand“, das ein zu erkennendes Subjekt im Rahmen t ist.
6 und 7 veranschaulichen den Fall, in dem alle Daten in Form einer Tabelle gespeichert sind; dies ist jedoch nur ein Beispiel und die Datenstruktur ist nicht auf eine relationale Datenbank beschränkt. Es können beispielsweise Daten verwendet werden, die in Form von Tags mit einer Auszeichnungssprache wie XML (Extensible-Markup-Language) beschrieben werden, oder Daten, die mit Kommas oder Zeilenvorschüben beschrieben werden, wie CSV (Comma-Separated-Values).
7 zeigt beispielhaft den Fall, in dem „1“ oder „0“ als zweite Gewichtung eingestellt wird; die zweite Gewichtung ist jedoch nicht notwendigerweise auf eine binäre Ziffer von „1“ oder „0“ beschränkt, und es kann jeder Wert von „0“ bis „1“ eingestellt werden.
Die Bestimmungseinheit 17B ist ein Prozessor, der auf der Grundlage eines vom Rechner 17A berechneten Merkmalswertes bestimmt, ob ein zu erkennendes Elementverhalten vorliegt.
Nur als Beispiel: Die Bestimmungseinheit 17B gibt das vom Rechner 17A berechnete Geschwindigkeitsmerkmal in das trainierte SVM-Modell ein. Wenn es sich bei dem trainierten Modell beispielsweise um ein lineares Identifikationsmodell handelt, gibt das trainierte Modell eine Kennzeichnung „1“ mit einem Elementverhalten oder eine Kennzeichnung „0“ ohne Elementverhalten aus, basierend auf einer Identifikationsgrenze, die durch einen Identifikationsgrenzparameter des in 6 dargestellten Modells bestimmt wird, das heißt eine Steigung a und einen Achsenabschnitt b. Auf diese Weise ist es möglich zu erkennen, ob es ein Elementverhalten gibt, das gemäß der vom trainierten Modell ausgegebenen Kennzeichnung zu erkennen ist.
Solche Modellparameter, beispielsweise die Steigung a und der Achsenabschnitt b, können nur wie folgt als Beispiel herangezogen werden. Beispielsweise wird ein Video verwendet, das einem Positivbeispiel oder einem Negativbeispiel des Elementverhaltens entspricht, das ein zu erkennendes Subjekt ist, und Trainingsdaten, die ein korrektes Label für das Positivbeispiel und das Negativbeispiel enthalten. Es werden Anfangswerte für die „erste Gewichtung“ in Gleichung (3) unten und den „Identifikationsgrenzparameter“ des Modells festgelegt und dann wird das Elementverhalten, das ein zu erkennendes Subjekt ist, basierend auf einem Geschwindigkeitsmerkmal erkannt, das aus den Trainingsdaten und dem Identifikationsgrenzparameter des Modells berechnet wird. Ein Prozess der Aktualisierung des „ersten Gewichts“ und des „Identifikationsgrenzparameters“ wird dann für eine bestimmte Anzahl von Epochen wiederholt, so dass eine Verlustfunktion L in Gleichung (4) unten minimiert wird. In Gleichung (4) bezeichnet „q(x)“ eine Aktivierungsfunktion und es kann beispielsweise eine tanh-Funktion, eine Sigmoid-Funktion oder eine RELU-Funktion verwendet werden. In Gleichung (4) bezeichnet „fs“ eine erste Gewichtung wi, die auf jedes Gelenk i anzuwenden ist. Die „erste Gewichtung“ und der „Identifikationsgrenzparameter“ werden beispielsweise durch Optimierung einer logarithmischen Wahrscheinlichkeit optimiert, die einen Parameter (t,q(fs)) auf einer Verlustfunktion L maximiert, dessen Wert mit zunehmender Anzahl korrekter Lösungen abnimmt, während der Wert mit abnehmender Anzahl korrekter Lösungen zunimmt. $\begin{array}{l} f_{s} (x_{r e c h t e s H a n d g e l e n k}^{t}) \\ = {(x_{r e c h t e s H a n d g e l e n k}^{t} - x_{r e c h t e s H a n d g e l e n k}^{t - k}) \\ \times G e w i c h t_{r e c h t e s H a n d g e l e n k - r e c h t e s H a n d g e l e n k'} \\ (x_{r e c h t e s H a n d g e l e n k}^{t} - x_{r e c h t e r E l l b o g e n}^{t - k}) \\ \times G e w i c h t_{r e c h t e s H a n d g e l e n k - r e c h t e r E l l b o g e n'} \\ (x_{r e c h t e s H a n d g e l e n k}^{t} - x_{r e c h t e S c h u l t e r}^{t - k}) \\ \times G e w i c h t_{r e c h t e s H a n d g e l e n k - r e c h t e S c h u l t e r}} \end{array}$
$L (t, q (f_{s})) = l o g (1 + e x p (+ t q (f_{s})))$
Prozessfluss
Der Ablauf eines Prozesses, der von der Verhaltenserkennungsvorrichtung 10 gemäß der ersten Ausführungsform durchgeführt wird, wird beschrieben. Es wird ein (1) Modelllernprozess und anschließend ein (2) Verhaltenserkennungsprozess beschrieben.
Modelllernprozess
8 ist ein Flussdiagramm, das einen Ablauf des Modelllernprozesses gemäß der ersten Ausführungsform darstellt. Der Modelllernprozess kann von jedem Lerngerät, einschließlich der Verhaltenserkennungsvorrichtung 10, ausgeführt werden. Der Modelllernprozess wird zum Beispiel gestartet, wenn eine Anforderung zum Modelllernen empfangen wird. Beachten Sie, dass die Anfangswerte für das „erste Gewicht“ und den „Identifikationsgrenzparameter“ in Gleichung (3) oben festgelegt werden.
Wie in 8 dargestellt, erhält die Lernvorrichtung Trainingsdaten, die Videos enthalten, die einem positiven Beispiel oder einem negativen Beispiel eines Elementverhaltens, das ein zu erkennendes Subjekt ist, und einem korrekten Label des positiven Beispiels oder des negativen Beispiels entsprechen (Schritt S101).
Die Lernvorrichtung erfasst dann Zeitseriendaten über Positionen von Gelenken aus dem Video, das in jedem Satz der Trainingsdaten enthalten ist, die in Schritt S101 erfasst wurden (Schritt S102).
Danach wiederholt die Lernvorrichtung den Prozess von Schritt S103 unten bis Schritt S108 unten, bis eine gegebene Anzahl von Epochen erreicht ist und beendet dann den Prozess. Außerdem wiederholt die Lernvorrichtung in einer Epoche den Prozess von Schritt S103 unten und Schritt S107 unten für die Anzahl von Malen, die der Anzahl von Sätzen von Trainingsdaten entspricht. Außerdem wiederholt die Lernvorrichtung für einen Satz von Trainingsdaten den Prozess von Schritt S103 unten und Schritt S106 unten für die Anzahl von Malen, die der Anzahl von Elementverhaltensweisen entspricht, die Themen sind, die erkannt werden sollen.
Mit anderen Worten, die Lernvorrichtung bezieht sich auf die ersten Gewichtungsdaten, die in dem ersten Gewichtungsspeicher 18 gespeichert sind, und legt für jedes Elementverhalten, das ein zu erkennendes Subjekt ist, ein erstes Gewicht wⁱ fest, das auf jedes Gelenk i=1,...,N anzuwenden ist, das zur Berechnung einer relativen Position in Bezug auf ein Gelenk n verwendet wird (Schritt S103). Die Lernvorrichtung bezieht sich dann auf die zweiten Gewichtungsdaten, die in dem zweiten Gewichtungsspeicher 19 gespeichert sind, und setzt ein zweites Gewicht bn, das auf jedes Gelenk n=1,...,N, dessen Geschwindigkeitsmerkmal berechnet wird, und auf jedes Gelenk i=1,...,N in einem Rahmen t-k angewendet wird, das verwendet wird, um eine relative Position in Bezug auf das Gelenk n zu berechnen (Schritt S104).
Die Lernvorrichtung ordnet dann weiter der obigen Gleichung (1) Geschwindigkeitsmerkmale fs(xt1) bis fs(xtN) in N Rahmen zu, die durch Zuordnen der Position jedes Gelenks in einem Rahmen t und der Position jedes Gelenks in dem Rahmen t-k zu Gleichung (2) nach Setzen der ersten Gewichte wⁱ und der zweiten Gewichte bn erhalten werden, wodurch ein Geschwindigkeitsmerkmal des Elementverhaltens in dem Rahmen t berechnet wird (Schritt S105).
Die Lernvorrichtung gibt das Geschwindigkeitsmerkmal des Elementverhaltens in dem Rahmen t, das in Schritt S105 berechnet wird, in einen Identifikationsgrenzparameter ein, zum Beispiel ein Modell mit einer Steigung a und einem Achsenabschnitt b, wodurch bestimmt wird, ob es ein Elementverhalten gibt, das ein zu erkennendes Subjekt ist, basierend auf einem Etikett, das von dem Modell ausgegeben wird (Schritt S106).
Danach vergleicht das Lerngerät das Ergebnis der Erkennung des zu erkennenden Elementverhaltens und der korrekten Kennzeichnung und zählt somit die Anzahl der richtigen Lösungen und die Anzahl der falschen Lösungen (Schritt S107).
Die Lernvorrichtung aktualisiert dann den Parameter, der das „erste Gewicht“ und den „Identifikationsgrenzparameter“ enthält, basierend auf der Anzahl der richtigen Lösungen und der Anzahl der falschen Lösungen, die in Schritt S107 gezählt wurden (Schritt S108).
Verhaltenserkennungsprozess
9 ist ein Flussdiagramm, das einen Ablauf des Verhaltenserkennungsprozesses gemäß der ersten Ausführungsform darstellt. Als Beispiel kann der Prozess gestartet werden, wenn die Videoerfassungseinheit 11 ein Video eines neuen Bildes erfasst.
Wie in 9 dargestellt, erfasst die Videoerfassungseinheit 11 ein Einzelbild eines Videos von der Kamera 2 o. ä. (Schritt S301). Die Skelettinformations-Erfassungseinheit 12 gibt das in Schritt S301 erfasste Video in die Motion-Capture-Engine ein, wodurch Skelettinformationen erfasst werden, die die Position jedes Gelenks enthalten (Schritt S302).
Nach Schritt S302 werden ein A-Prozess der Schritte SA303 bis SA307 zu einem Elementverhalten und ein B-Prozess der Schritte SB303 und SB304 parallel ausgeführt. Der A-Prozess und der B-Prozess müssen nicht notwendigerweise parallel ausgeführt werden, sondern können auch nacheinander ausgeführt werden. In diesem Fall können der A-Prozess und der B-Prozess in beliebiger Reihenfolge ausgeführt werden.
Zum Beispiel gibt die Grundbewegungserkennungseinheit 13 in Schritt SB303 die Position jedes Gelenks, die in Schritt S302 erfasst wurde, in das Modell ein, das Grundbewegungen gelernt hat, wodurch ein Ergebnis der Erkennung einer Grundbewegung erfasst wird, das vom Modell ausgegeben wird. In Schritt SB304 analysiert der Zeitserienanalysator 14A, ob die in Schritt SB303 erkannte Grundbewegung einem bestimmten Zeitserienmuster entspricht.
Wie oben beschrieben, wenn die Basisbewegung in Schritt SB303 erkannt wird, wird die Basisbewegung wie beschrieben in einem Arbeitsbereich eines Speichers gespeichert, der in der Zeichnung nicht dargestellt ist. Wenn die Basisbewegung im Schritt SB304 dem Zeitreihenmuster entspricht, wird ein dem Zeitreihenmuster der Basisbewegung entsprechendes Elementverhalten im Arbeitsbereich des in der Zeichnung nicht dargestellten Speichers gespeichert.
Andererseits wird der Vorgang von Schritt SA303 bis Schritt SA307 für jedes Bild so oft wiederholt, wie es der Anzahl der Elementverhalten entspricht, die Gegenstand der Erkennung sind.
Mit anderen Worten, der Rechner 17A bezieht sich auf die ersten Gewichtsdaten, die im ersten Gewichtsspeicher 18 gespeichert sind, und stellt für jedes Elementverhalten, das ein zu erkennendes Subjekt ist, ein erstes Gewicht wⁱ ein, das auf jedes Gelenk i=1,...,N anzuwenden ist, das zur Berechnung einer relativen Position zu einem Gelenk n verwendet wird, dessen Geschwindigkeitsmerkmal berechnet wird (Schritt SA303).
Anschließend bezieht sich der Rechner 17A auf die zweiten Gewichtungsdaten, die in dem zweiten Gewichtungsspeicher 19 gespeichert sind, und stellt ein zweites Gewicht bn ein, das auf jedes Gelenk n=1,...,N, dessen Geschwindigkeitsmerkmal berechnet wird, und auf jedes Gelenk i=1,...,N in einem Rahmen t-k anzuwenden ist, das verwendet wird, um eine relative Position in Bezug auf das Gelenk n zu berechnen (Schritt SA304).
Der Rechner 17A ordnet dann weiter der obigen Gleichung (1) Geschwindigkeitsmerkmale fs(xt1) bis fs(xtN) in N Rahmen zu, die durch Zuordnen der Position jedes Gelenks im Rahmen t und der Position jedes Gelenks im Rahmen t-k zu Gleichung (2) nach Setzen des ersten Gewichts wⁱ und des zweiten Gewichts bn erhalten werden, wodurch ein Geschwindigkeitsmerkmal des Elementverhaltens im Rahmen t berechnet wird (Schritt SA305).
Wenn das Elementverhalten in Schritt SA306 erkannt wird (JA in Schritt SA306), wird das in Schritt SA306 erkannte Elementverhalten in dem in der Zeichnung nicht dargestellten Arbeitsbereich des Speichers gespeichert (Schritt SA307). Wird dagegen das Elementverhalten im Schritt SA306 nicht erkannt (NEIN im Schritt SA306), wird der oben beschriebene Vorgang im Schritt SA307 übersprungen.
Nach Beendigung der Schritte SB304 und SA307 kollationiert der Regelkollator 14B das in Schritt SB303 erkannte Grundverhalten, das in Schritt SB304 erkannte Elementverhalten und das in Schritt SA307 erkannte Elementverhalten mit der im Regelspeicher 15 gespeicherten Regel (Schritt S308).
Der Regelkollator 14B gibt ein Ergebnis der Erkennung eines oberen Verhaltens an ein bestimmtes Ausgabeziel aus (Schritt S309). Das „Ausgabeziel“ kann hier eine beliebige Hardware oder Software sein. Beispielsweise kann das Ergebnis der Erkennung des oberen Verhaltens an einen Dienst oder eine Funktion zum Ausführen eines beliebigen Backend-Prozesses gemäß dem Ergebnis der Erkennung des oberen Verhaltens ausgegeben werden. Alternativ kann ein Anzeigegerät, ein Audioausgabegerät, ein Informationsverarbeitungsgerät oder ein mobiles Endgerät, das vom Benutzer U des oben beschriebenen Verhaltenserkennungsdienstes 1 eingestellt wird, über das Ergebnis der Erkennung des oberen Verhaltens informiert werden. Jede Form der Benachrichtigung, wie beispielsweise das Web oder eine E-Mail, kann verwendet werden.
Ein Aspekt des Effekts
Wie oben beschrieben, erkennt die Verhaltenserkennungsvorrichtung 10 gemäß der ersten Ausführungsform bei der Erkennung eines Elementverhaltens auf Basis von Zeitreihendaten der Positionen der jeweiligen Gelenke ein zu erkennendes Elementverhalten anhand eines Merkmalswertes, der unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die je nach Art des Elementverhaltens verändert werden. Dadurch wird verhindert, dass Bewegungen, die in anderen physikalischen Teilen auftreten als in einem physikalischen Teil, das einem zu erkennenden Elementverhalten entspricht, die Erkennung verhindern. Dementsprechend ist es gemäß der Verhaltenserkennungsvorrichtung 10 gemäß der ersten Ausführungsform möglich, die Erkennung eines Elementverhaltens zu realisieren, das nicht als Beispiel für ein Verhalten voreingestellt ist, dessen Bewegung in einem Körperteil auftritt. Darüber hinaus ist es gemäß der Verhaltenserkennungsvorrichtung 10 gemäß der ersten Ausführungsform möglich, wenn ein Elementverhalten, das nicht voreingestellt ist, zu der Regel hinzugefügt wird, den Aufwand zu eliminieren, ein Zeitserienmuster, das bei der Zeitserienanalyse verwendet wird, neu einzustellen.
Zweite Ausführungsform
Die Ausführungsform der offengelegten Vorrichtung wurde beschrieben, und die Offenbarung kann zusätzlich zu der oben beschriebenen Ausführungsform in verschiedenen anderen Modi ausgeführt werden. Eine weitere Ausführungsform, die von der Offenbarung erfasst wird, wird im Folgenden beschrieben.
Anwendungsbereich der Implementierung der Erkennung des Elementverhaltens
In der oben beschriebenen ersten Ausführungsform ist das Beispiel, in dem die Erkennung eines Elementverhaltens unter Verwendung der ersten Gewichte und der Modellparameter, die gemäß dem SVM-Algorithmus erlernt werden, realisiert wird, nur als Beispiel dargestellt; die Erkennung ist jedoch nicht darauf beschränkt, und die Erkennung eines Elementverhaltens kann mit jeder Methode realisiert werden. Als Beispiel dafür wird ein Beispiel gezeigt, in dem die Erkennung eines Elementverhaltens durch ein GCNN (Graph-Convolutional-Neural-Networks) realisiert wird, das eine Faltungsoperation auf einem Graphen durchführt.
10 ist ein Diagramm, das ein Beispiel für die Anwendung des GCNN zeigt. 11 ist ein schematisches Diagramm zur Veranschaulichung einer Abbildung von Parametern. 10 veranschaulicht das GCNN, in dem Gelenke durch Knoten ausgedrückt werden und eine menschliche Körperstruktur durch eine Graphenstruktur ausgedrückt wird. Weiterhin veranschaulichen 10 und 11 eine Faltungsoperation, die durchgeführt wird, wenn ein Geschwindigkeitsmerkmal fs(xt_rechtes Handgelenk) des Gelenks des rechten Handgelenks in einem Rahmen t unter den Geschwindigkeitsmerkmalen von N Gelenken in dem Rahmen t berechnet wird (wenn n=1).
Gemäß Gleichung (2) wird, wenn ein Geschwindigkeitsmerkmal fs(xt_rechtes Handgelenk) des Gelenks des rechten Handgelenks im Rahmen t berechnet wird, eine relative Position zwischen einer Position (x^t ₁, y^t ₁) eines Gelenks n=1 im Rahmen t und einer Position (x^t-k _i, y^t-k _i) jedes Gelenks i=1,...,N in einem Rahmen t-k berechnet. Auf jede dieser N relativen Positionen (x^t _n-x^t-k _i) wird ein zweites Gewicht b_rechtes _Handgelenk×erstes Gewicht wⁱ angewendet.
Andererseits wird in dem in 10 dargestellten GCNN-Modell die zweite Gewichtung helles Handgelenk×erste Gewichtung wⁱ auf eine Position (x^t-k _i, y^t-k _i) jedes Gelenks i=1,...,N im Rahmen t-k angewandt. Die Position (x^t-k _i, y^t-k _i) des Gelenks i=1,...,N im Rahmen t-k, auf die die zweite Gewichtung b rechtes Handgelenk ×erste Gewichtung wⁱ wie oben beschrieben angewendet wird, wird in die Position (x^t ₁, y^t ₁) des Gelenks n=1 des rechten Handgelenks von n=1 im Rahmen t gefaltet.
Eine schematische Darstellung davon ergibt sich in 11. Wie in 11 dargestellt, wird zum Beispiel, wenn i=1, das zweite Gewicht helles Handgelenk (=1) × erstes Gewicht w¹ (=1) auf eine Position (x^t-k _rechtes Handgelenk, y^t- rechtes Handgelenk) des Gelenks des rechten Handgelenks von i=1 im Rahmen t-k angewendet. Wenn i=2, wird das zweite Gewicht helles Handgelenk(=1)×erstes Gewicht w²(=1/2) an eine Position (x^t-k rechter Ellbogen, y^t-k rechter Ellbogen) des Gelenks des rechten Ellbogens von i=2 im Rahmen t-k angelegt. Wenn i=3, wird das zweite Gewicht helles Handgelenk(=1)×erstes Gewicht w3(=1/4) an eine Position (x^t-k rechte Schulter, y^t-k rechte Schulter) des Gelenks der rechten Schulter von i=3 im Rahmen t-k angelegt. Ein erstes Gewicht und ein zweites Gewicht werden auf ähnliche Weise auf i=4 und die folgenden angewendet. Zum Beispiel, wenn i=N, wird das zweite Gewicht helles Handgelenk(=0)×erstes Gewicht w^N(=1/128) auf eine Position (x^t-k _linkes Fußgelenk, y^t-k linkes Fußgelenk) des Gelenks des linken Fußgelenks von i=N im Rahmen t-k angewendet. Durch Ausführen eines Prozesses, der dem in 8 dargestellten Modelltrainingsprozess ähnlich ist, kann die zweite Gewichtung helles Handgelenk×erste Gewichtung wⁱ als Gewichte der Synapsen des GCNN-Modells gelernt werden.
Wie oben beschrieben, wird auch im GCNN-Modell die Position (x^t-k _i,y^t-k _i) des Gelenks i=1, ... , N im Rahmen t-k, auf die das zweite Gewicht b_rechtes Handgelenk × erstes Gewicht wⁱ gemäß Gleichung (2) oben angewendet wird, in eine Position (x^t ₁,Y^t ₁) des Gelenks n=1 des rechten Handgelenks von n=1 im Rahmen t gefaltet. Auch für das Geschwindigkeitsmerkmal fs(x^t _n) eines Gelenks bei oder nach n=2 im Rahmen t wird eine ähnliche Faltungsoperation durchgeführt. Als Ergebnis der Ausführung einer solchen Faltungsoperation bis zu n=N wird von einer Ausgabeschicht des GCNN-Modells ein Ergebnis der Erkennung eines zu erkennenden Elementverhaltens (wahr oder falsch) oder ein Gewissheitsfaktor des Elementverhaltens ausgegeben.
Wie oben beschrieben, ist es klar, dass es möglich ist, die oben beschriebene Erkennung eines Elementverhaltens unter Verwendung des GCNN-Modells oder durch jede andere Methode zu realisieren, mit Ausnahme des in der oben beschriebenen ersten Ausführungsform dargestellten Beispiels.
Anwendungsbereich des zu erkennenden Subjekts
In der oben beschriebenen ersten Ausführungsform wird ein Elementverhalten lediglich als Beispiel für ein Verhalten dargestellt, das ein zu erkennendes Subjekt ist; das Verhalten ist jedoch nicht darauf beschränkt. Nur als Beispiel kann das Verhalten, das ein zu erkennendes Subjekt ist, ein allgemeines Verhalten sein, dessen Bewegung in einem Teil eines Körpers auftritt, beispielsweise ein Teilverhalten. Wenn beispielsweise ein partielles Verhalten ein zu erkennendes Subjekt ist, kann das partielle Verhalten auf der Grundlage eines Merkmalswerts erkannt werden, der aus Zeitreihendaten über die Positionen der jeweiligen Gelenke unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend der Art des partiellen Verhaltens geändert werden. Mit anderen Worten, wenn man das „Elementverhalten“ in der Beschreibung der Elementverhaltens-Erkennungseinheit 17 als „Teilverhalten“ liest, kann man die Erkennung des Teilverhaltens wie bei der Erkennung eines Elementverhaltens realisieren.
Verteilung und Integration
Die einzelnen Komponenten der in den Zeichnungen dargestellten Geräte sind nicht notwendigerweise physisch so konfiguriert wie in den Zeichnungen dargestellt. Mit anderen Worten, die spezifischen Formen der Verteilung und Integration der Geräte sind nicht auf die in den Zeichnungen dargestellten beschränkt, und alle oder ein Teil der Komponenten können konfiguriert werden, indem sie funktional oder physisch in einer beliebigen Einheit entsprechend den verschiedenen Arten der Belastung und Verwendung verteilt oder integriert werden. Beispielsweise können die Videoerfassungseinheit 11, die Skelettinformation-Erfassungseinheit 12, die Grundbewegungserkennungseinheit 13, die Oberverhalten-Erkennungseinheit 14 oder die Elementverhalten-Erkennungseinheit 17 als externe Vorrichtung der Verhaltenserkennungsvorrichtung 10 über ein Netzwerk angeschlossen werden. Verschiedene Vorrichtungen können die Videoerfassungseinheit 11, die Skelettinformation-Erfassungseinheit 12, die Basisbewegungserkennungseinheit 13, die Oberverhalten-Erkennungseinheit 14 bzw. die Elementverhalten-Erkennungseinheit 17 umfassen und können über ein Netzwerk verbunden sein und miteinander zusammenarbeiten, wodurch die Funktionen der oben beschriebenen Verhaltenserkennungsvorrichtung 10 realisiert werden.
Programm zur Verhaltenserkennung
Es ist möglich, die verschiedenen Prozesse, die in den oben beschriebenen Ausführungsformen beschrieben sind, durch die Ausführung eines Programms zu implementieren, das zuvor mit einem Computer, wie beispielsweise einem Personal Computer oder einer Workstation, vorbereitet wurde. Anhand von 12 wird ein Beispiel für einen Computer beschrieben, der ein Verhaltenserkennungsprogramm mit der gleichen Funktion wie in den oben beschriebenen ersten und zweiten Ausführungsformen ausführt.
12 ist ein Diagramm, das ein Beispiel für eine Hardwarekonfiguration des Computers zeigt. Wie in 12 dargestellt, enthält ein Computer 100 eine Bedieneinheit 110a, einen Lautsprecher 110b, eine Kamera 110c, eine Anzeige 120 und eine Kommunikationseinheit 130. Der Computer 100 enthält außerdem eine CPU 150, einen ROM 160, eine Festplatte 170 und einen RAM 180. Die Einheiten 110 bis 180 sind über einen Bus 140 miteinander verbunden.
Wie in 12 dargestellt, ist auf der Festplatte 170 ein Verhaltenserkennungsprogramm 170a gespeichert, das die gleichen Funktionen wie die der Videoerfassungseinheit 11, der Skelettinformation-Erfassungseinheit 12, der Grundbewegungserkennungseinheit 13, der oberen Verhaltenserkennungseinheit 14 und der Elementverhalten-Erkennungseinheit 17 implementiert. Das Verhaltenserkennungsprogramm 170a kann integriert oder getrennt sein, so wie die Komponenten der Videoerfassungseinheit 11, der Skelettinformation-Erfassungseinheit 12, der Basisbewegungserkennungseinheit 13, der oberen Verhaltenserkennungseinheit 14 und der Elementverhalten-Erkennungseinheit 17 sein können. Mit anderen Worten, alle Daten, die in der oben beschriebenen Ausführungsform dargestellt sind, müssen nicht unbedingt auf der Festplatte 170 gespeichert werden, und Daten, die für Prozesse verwendet werden, können auf der Festplatte 170 gespeichert werden.
Unter den gegebenen Umständen liest die CPU 150 das Verhaltenserkennungsprogramm 170a von der HDD 170 und lädt dann das Verhaltenserkennungsprogramm 170a in den RAM 180. Infolgedessen funktioniert das Verhaltenserkennungsprogramm 170a, wie in 12 dargestellt, als ein Verhaltenserkennungsprozess 180a. Der Verhaltenserkennungsprozess 180a lädt verschiedene Arten von Daten, die von der Festplatte 170 gelesen werden, in einen dem Verhaltenserkennungsprozess 180a zugewiesenen Bereich im Speicherbereich des RAM 180 und führt verschiedene Prozesse unter Verwendung der geladenen verschiedenen Arten von Daten aus. Beispiele für den Prozess, der vom Verhaltenserkennungsprozess 180a ausgeführt wird, sind beispielsweise die in 8 und 9 dargestellten Prozesse. In der CPU 150 müssen nicht unbedingt alle in der oben beschriebenen ersten Ausführungsform dargestellten Prozessoren arbeiten, und ein Prozessor, der einem auszuführenden Prozess entspricht, kann virtuell implementiert sein.
Das Verhaltenserkennungsprogramm 170a muss nicht unbedingt von Anfang an auf der Festplatte 170 oder im ROM 160 gespeichert sein. Zum Beispiel kann das Verhaltenserkennungsprogramm 170a in einem „tragbaren physikalischen Medium“ gespeichert sein, wie beispielsweise einer flexiblen Platte, die in den Computer 100 eingelegt wird, das heißt einer FD, einer CD-ROM, einer DVD, einer magneto-optischen Platte oder einer IC-Karte. Der Computer 100 kann das Verhaltenserkennungsprogramm 170a von dem tragbaren physikalischen Medium erwerben und das Verhaltenserkennungsprogramm 170a ausführen. Das Verhaltenserkennungsprogramm 170a kann in einem anderen Computer oder einem Servergerät gespeichert sein, das mit dem Computer 100 über eine öffentliche Leitung, das Internet, ein LAN oder ein WAN verbunden ist, und der Computer 100 kann das Verhaltenserkennungsprogramm 170a von dem Computer oder dem Servergerät übernehmen und das Verhaltenserkennungsprogramm 170a ausführen.
Es ist möglich, die Erkennung eines Verhaltens zu realisieren, dessen Bewegung in einem Teil eines Körpers erscheint.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2015130151 [0002]

Claims

Ein Verhaltenserkennungsverfahren, das von einem Computer (100) ausgeführt wird, wobei das Verhaltenserkennungsverfahren Folgendes umfasst: Erfassen von Positionen einer Vielzahl von jeweiligen Gelenken; und Erkennen eines Teilverhaltens, das ein zu erkennendes Subjekt ist, basierend auf einem Merkmalswert, der aus den Positionen der jeweiligen Gelenke berechnet wird, unter Verwendung von Gewichten, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Teilverhaltens geändert werden.
Verhaltenserkennungsverfahren gemäß Anspruch 1, wobei das Erkennen weiterhin das Ändern der auf die jeweiligen Gelenke anzuwendenden Gewichte entsprechend der Zusammenarbeit zwischen den Gelenken umfasst.
Verhaltenserkennungsverfahren gemäß Anspruch 1, wobei das Erkennen das Erkennen eines Elementverhaltens, das einem Zeitreihenmuster des Teilverhaltens entspricht, auf der Grundlage eines Merkmalswerts umfasst, der aus Zeitreihendaten über die Positionen der jeweiligen Gelenke unter Verwendung von auf die jeweiligen Gelenke anzuwendenden Gewichten berechnet wird, die entsprechend einem Typ des Elementverhaltens geändert werden.
Verhaltenserkennungsverfahren gemäß Anspruch 1, wobei das Erkennen umfasst: Beziehen auf Gewichtsdaten, in denen die auf die jeweiligen Gelenke anzuwendenden Gewichte gemäß einem gegebenen maschinellen Lernalgorithmus gelernt wurden, und Berechnen eines auf relativen Positionen zwischen einer Position eines Gelenks in einem ersten Zeitpunkt und den Positionen der jeweiligen Gelenke zu einem zweiten Zeitpunkt, der vor dem ersten Zeitpunkt liegt, basierenden Merkmalswertes aus Zeitreihendaten über die Positionen der jeweiligen Gelenke, und Bestimmen, ob es das partielle Verhalten gibt, basierend auf dem berechneten Merkmalswert und einem Modell, das einen Parameter gemäß dem maschinellen Lernalgorithmus gelernt hat.
Verhaltenserkennungsverfahren gemäß Anspruch 1, wobei das Erkennen das Erkennen des Teilverhaltens auf der Grundlage einer Ausgabe von einem Modell umfasst, das durch Eingeben von Zeitreihendaten über die Positionen der jeweiligen Gelenke in ein Modell erhalten wird, das eine Operation der Faltung der Positionen der Gelenke zu einem zweiten Zeitpunkt vor einem ersten Zeitpunkt in eine Position eines Gelenks zu dem ersten Zeitpunkt auf der Grundlage von Gewichten durchführt, die auf Synapsen anzuwenden sind, die Knoten verbinden, die den jeweiligen Gelenken entsprechen.
Ein computerlesbares Aufzeichnungsmedium, in dem ein Verhaltenserkennungsprogramm (170a) gespeichert ist, das einen Computer (100) veranlasst, einen Prozess auszuführen, der Folgendes umfasst: Erfassen von Positionen einer Vielzahl von jeweiligen Gelenken; und Erkennen eines Teilverhaltens, das ein zu erkennendes Subjekt ist, basierend auf einem Merkmalswert, der aus den Positionen der jeweiligen Gelenke berechnet wird, unter Verwendung von Gewichten, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Teilverhaltens geändert werden.
Computerlesbares Aufzeichnungsmedium gemäß Anspruch 6, wobei das Erkennen ferner das Ändern der auf die jeweiligen Gelenke anzuwendenden Gewichte gemäß der Kooperativität zwischen den Gelenken umfasst.
Computerlesbares Aufzeichnungsmedium gemäß Anspruch 6, wobei das Erkennen das Erkennen eines Elementverhaltens, das einem Zeitreihenmuster des Teilverhaltens entspricht, auf der Grundlage eines Merkmalswerts umfasst, der aus Zeitreihendaten über die Positionen der jeweiligen Gelenke unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Elementverhaltens geändert werden.
Computerlesbares Aufzeichnungsmedium gemäß Anspruch 6, wobei das Erkennen umfasst: Beziehen auf Gewichtsdaten, in denen die auf die jeweiligen Gelenke anzuwendenden Gewichte gemäß einem gegebenen maschinellen Lernalgorithmus gelernt wurden, und Berechnen eines Merkmalswerts aus den Zeitreihendaten der jeweiligen Gelenke basierend auf relativen Positionen zwischen einer Position eines Gelenks zu einem ersten Zeitpunkt und den Positionen der jeweiligen Gelenke zu einem zweiten Zeitpunkt, der vor dem ersten Zeitpunkt liegt, und Bestimmen, ob es das partielle Verhalten gibt, basierend auf dem berechneten Merkmalswert und einem Modell, das einen Parameter gemäß dem Maschinenlernalgorithmus gelernt hat.
Computerlesbares Aufzeichnungsmedium gemäß Anspruch 6, wobei das Erkennen das Erkennen des Teilverhaltens auf der Grundlage einer Ausgabe von einem Modell umfasst, das durch Eingeben von Zeitreihendaten über die Positionen der jeweiligen Gelenke in ein Modell erhalten wird, das eine Operation der Faltung der Positionen der Gelenke zu einem zweiten Zeitpunkt vor einem ersten Zeitpunkt in eine Position eines Gelenks zu dem ersten Zeitpunkt auf der Grundlage von Gewichten durchführt, die auf Synapsen anzuwenden sind, die Knoten verbinden, die den jeweiligen Gelenken entsprechen.
Eine Verhaltenserkennungsvorrichtung (10), die Folgendes umfasst: eine Erfassungseinheit (12), die so konfiguriert ist, dass sie Positionen einer Mehrzahl von jeweiligen Gelenken erfasst; und eine Erkennungseinheit (17), die so konfiguriert ist, dass sie ein partielles Verhalten erkennt, das ein zu erkennendes Subjekt ist, basierend auf einem Merkmalswert, der aus den Positionen der jeweiligen Gelenke unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des partiellen Verhaltens geändert werden.
Verhaltenserkennungsvorrichtung gemäß Anspruch 11, wobei die Erkennungseinheit (17) konfiguriert ist, die auf die jeweiligen Gelenke anzuwendenden Gewichte entsprechend der Kooperativität zwischen den Gelenken weiter zu ändern.
Verhaltenserkennungsvorrichtung gemäß Anspruch 11, wobei die Erkennungseinheit (17) konfiguriert ist, ein Elementverhalten entsprechend einem Zeitserienmuster des Teilverhaltens basierend auf einem Merkmalswert zu erkennen, der aus Zeitseriendaten über die Positionen der jeweiligen Gelenke unter Verwendung von Gewichten berechnet wird, die auf die jeweiligen Gelenke anzuwenden sind und die entsprechend einem Typ des Elementverhaltens verändert werden.
Verhaltenserkennungsvorrichtung gemäß Anspruch 11, wobei die Erkennungseinheit (17) umfasst einen Rechner (17A), der so konfiguriert ist, dass er auf Gewichtsdaten Bezug nimmt, in denen die auf die jeweiligen Gelenke anzuwendenden Gewichte gemäß einem gegebenen maschinellen Lernalgorithmus gelernt wurden, und aus den Zeitreihendaten der jeweiligen Gelenke einen Merkmalswert berechnet, der auf relativen Positionen zwischen einer Position eines Gelenks zu einem ersten Zeitpunkt und den Positionen der jeweiligen Gelenke zu einem zweiten Zeitpunkt, der vor dem ersten Zeitpunkt liegt, basiert, und eine Bestimmungseinheit (17B), die so konfiguriert ist, dass sie basierend auf dem berechneten Merkmalswert und einem Modell, das einen Parameter gemäß dem maschinellen Lernalgorithmus erlernt hat, bestimmt, ob das Teilverhalten vorhanden ist.
Verhaltenserkennungsvorrichtung gemäß Anspruch 11, wobei die Erkennungseinheit (17) so konfiguriert ist, dass sie das partielle Verhalten auf der Grundlage einer Ausgabe von einem Modell erkennt, das durch Eingabe von Zeitreihendaten über die Positionen der jeweiligen Gelenke in ein Modell erhalten wird, das eine Operation der Faltung der Positionen der Gelenke zu einem zweiten Zeitpunkt vor einem ersten Zeitpunkt in eine Position eines Gelenks zu dem ersten Zeitpunkt auf der Grundlage von Gewichten durchführt, die auf Synapsen anzuwenden sind, die Knoten verbinden, die den jeweiligen Gelenken entsprechen.