WO2015110331A1 - Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method - Google Patents
Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method Download PDFInfo
- Publication number
- WO2015110331A1 WO2015110331A1 PCT/EP2015/050585 EP2015050585W WO2015110331A1 WO 2015110331 A1 WO2015110331 A1 WO 2015110331A1 EP 2015050585 W EP2015050585 W EP 2015050585W WO 2015110331 A1 WO2015110331 A1 WO 2015110331A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- detection
- movement
- detection area
- image
- pixel
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Definitions
- the content of German Patent Application 10 2014 201 313.5 is incorporated herein by reference.
- the invention relates to a method for detecting a movement path of at least one moving object within a detection area. Furthermore, the invention relates to a method for gesture recognition using such a recognition method and an apparatus for carrying out such a recognition method or Gestikerken- recognition method.
- the invention described measures a distribution density of motion correspondences between parts of successive images.
- the essential information that is processed is a movement pattern, whereby the moving structure is only deduced in a next step.
- a pattern recognition for example a face recognition, which is performed on one and the same image is not required.
- the essential motion information is obtained by comparing successive images. For this purpose, motion correspondences are determined between image sections of two successive images. Correspondence is given when two parts of the picture are similar. In this preprocessing, correspondences are also permitted which do not correspond to the optical flow.
- distributions of correspondence vectors of different direction and length are produced for small image regions in each case, thus correspondence distribution profiles over the entire image. These correspondence distribution profiles are converted into a correspondence distribution density. The image flow then corresponds to the largest values of an ideal correspondence distribution density.
- the ideal correspondence distribution density of an optical flow ie a "clean" optical flow
- the preprocessing process can therefore be characterized as flow-oriented examination (flox), with which correspondence A subset of such correspondence distribution densities is the optical flux
- flox flow-oriented examination
- the distribution density will find a variety of other correspondences
- the distribution densities are checked for potential movements of compact regions
- Correspondences between similar pixels or image parts that are not images of the same object, eg correspondences between two adjacent file folders lead to a pseudo-movement that usually does not continue locally but remains local, comparable to the speedometer indicator on spinning tires, by comparing more than two capturing images taken in succession exclude such apparent movements.
- the concatenation of plausibilized motion increments then leads to a movement, which in turn is checked for a gesture.
- a suitable average of the coordinates of the common movement is used to represent the actual object.
- it is not the position of the object that determines the motion gesture, but the shape of the path, which in this case is identical for all common movements.
- the supreme of all pixels traversing a common path can also be selected and assigned. This is, for example, the fingertip of an upward pointing finger in the picture.
- the accuracy of the web has to be so good that it is possible to differentiate the web shapes assigned to the gestures.
- camera images can be cyclically loaded into an evaluation computer.
- the temporal distance of the pictures may vary, but must be known. From two successive images, a correspondence distribution density is determined from which movement increments are calculated per image pair. From the sequence of motion increments, motion sequences are filtered which can correspond to selected gesture movements. The number of incorrect correspondence distribution densities can be reduced by coarse distance knowledge, by suitable depth sensors or by sharpness adjustments of the camera or flash lighting, in order to increase the security with the recognition.
- no object shape detection When pixel mapping is done no object shape detection. It is checked where, in corresponding pixel groups or image areas, movements, in particular fast movements, with high density, ie movements of pixel groups with comparable movement increments, are detected. From a detected pixel group, the selection and assignment of a representative pixel takes place on the basis of previously defined criteria for the determined distribution density and the associated movement increments. For example, a minimum density of moving pixels can be specified and it can under the then preselected pixels which lie within the pixel groups with the minimum density, a selection is made after the largest movement increment. Alternatively, it is possible to preselect according to certain movement increments and, within a pixel group which has this movement increment, a pixel which is excellent in terms of its position can be selected within this pixel group.
- a prediction algorithm can simplify an assignment of a specific pixel. For this purpose, it is checked on the basis of, for example, three successive acquisition images, if the last captured acquisition image is a candidate pixel in an image area in which it can actually be expected according to its movement in the first two consecutively acquired acquisition images. Only pixels in which a predicted image area is reached then correspond to the prediction and thus fulfill this selection criterion. As far as several pixels remain after passing through these different selection criteria, a simple geometric selection can be made. For example, it is possible to select and assign an uppermost pixel which is present in the detection area among the selection candidates.
- the image areas may be individual pixels or pixel groups.
- the method steps are executed automatically and computer-aided.
- the procedure can be performed without operator intervention.
- the trajectory detection method can be run on a standard computer in real time.
- the trajectory recognition method also extracts movement increments from "dirty" flow distributions, in particular via a 2D frequency matrix, which will be described below.
- a depth range according to claim 2 can be carried out with the aid of a depth sensor.
- the depth of field of a front optics of the camera sensor can be used.
- Autofocus techniques can also be used for this purpose, which can be used in particular for contrast enhancement and thus for improving the result of a comparison of the acquisition images.
- the object speed can also be measured and specified for the object movement.
- the correspondence distribution density can be determined not only from objects in the distance of the expected object but also from objects less or further away from the sensor.
- coarse-resolution depth sensors based on structured light, time-of-flight or even stereoscopy, image parts can be identified that are not in the distance range and whose distribution densities are ignored.
- a depth sensor based on structured light is known, for example, from US Pat. No. 4,954,962.
- a depth sensor based on time-of-flight is known from EP 2 378 310 A1.
- Coarser resolutions offer, for example, ultrasonic sensors. Through a combination of some ultrasonic sensors, the directions of objects that are within the expected distance can be determined and other image areas can be discriminated.
- a depth-range defmition according to claim 3 provided the presence of an appropriately controllable light source, with high precision possible.
- a temporal variation of an illumination period at an exposure time in the imaging acquisition can also take place.
- IR filter placed in front of the camera and the surroundings are irradiated with limited IR light power, the range is limited and correspondence of underlying objects is no longer detected. If objects are very close, they are so strongly illuminated by the IR radiation that no contrasts are recognizable on them. This creates a depth range for measurable correspondences. If the IR radiation line and the exposure time are varied in a short time sequence, measurable depth ranges can be offset in such a way that only chains of movement increments can be made plausible by the objects that have remained throughout the measurable areas.
- Another distance-dependent effect is the depth of field.
- the depth of field is less than with low-foc lenses. Only in this area can correspondences be measured.
- the focal length in a short time sequence, the measurable depth range can be shifted so that only chains of Movement increments of the objects can be made plausible, which have remained throughout the measurable range.
- Gestures are created by the movement of body parts. Immediate measurement of motion does not require modeling, such as images of hands or joint models. If the movement of compact, for example, fist-sized, objects measured directly, can be dispensed with the modeling, for example, a hand pose or joint models. In a monocular camera system, the fist-sized object should tend to be moved transversely to the viewing direction of the sensor. Together with a suitable depth sensor, it is also possible to directly measure removal speeds to the sensor. In both cases, however, neither hand poses have to be trained or joint models with an essentially undisturbed environment must be taken into account.
- the derived gestures can be further plausibilized via the use of known methods such as inverse kinematics or template matching.
- the movement must have been triggered by a specific object-like grayscale distribution.
- fingers as well as artificial objects (gloves, markers) can serve as a basis.
- “Inverse Kinematics” movement predictions can be made and thus the correspondence density distribution can be evaluated in a more targeted manner.
- the correspondence density distribution can also be better evaluated through simplified, for example planar, motion models such as the model of constant speed.
- An inverse kinematics method is known from CA 2 21 1 858 C.
- a template matching method is known from EP 1 203 344 B 1 corresponding image acquisition, a circle symbol can be selected, which is generated by an open or closed hand of the user within a detection area by corresponding circular motion. About the imaging detection of such a circle symbol, a circle center and a circle radius of this circle symbol can be detected and stored, for example, in a memory of a control module. Subsequent symbols can then be detected as being relevant for the control, insofar as they occur within the circle area thus defined within the detection area, plus, if necessary, an additional surrounding area which can be preset via an enlarged tolerance radius around the center of the circle.
- Within the circular area can then be defined via the control various sub-areas, such as circular sectors, which are analogous to how keys of a keypad controlled by the user and can trigger various signals.
- a persistence in such a subrange or a defined change between predetermined subrange sequences can then be recognized as a signal for triggering a specific control sequence.
- Other gestures which can be recognized after the activation gesture "circle symbol" are, for example, a clockwise and counterclockwise rotating gesture, which can be processed, for example, to amplify or reduce a signal intensity comparable to, for example, a volume control.
- the gesture recognition method described here can also be used separately from the motion path recognition method explained above by using a corresponding control module and is an independent component of the application.
- a method known from the prior art may alternatively be used which deals with an optical flow, for example the so-called KLT tracker described in "Bruce D. Lucas and Takeo Kanade.” “Iterative Image Registration Technique with an Application to Stereo Vision.” IJCAI, pages 674-679, 1981.
- KLT tracker described in "Bruce D. Lucas and Takeo Kanade.” "Iterative Image Registration Technique with an Application to Stereo Vision.” IJCAI, pages 674-679, 1981.
- methods known in the context of codec implementations may be used.
- the Gestikerkennungsverfah- ren can be designed so that it runs on a standard computer in real time.
- Model pixel movements according to claim 5 result in a gesture set that can be used for a variety of control tasks.
- the specification of an input area with an area specification gesture according to claim 6 makes it possible to define a sub-area which can be detected, for example, with high resolution, within the detection area, which can be used for detailed input purposes.
- the Range Preset gesture may be a circular motion. You can then make further entries in the defined input area.
- Face recognition can identify a person in the environment of the movement. It can then be ensured that only certain people have access.
- the device may include a light source which is in signal communication with the camera sensor and / or the evaluation computer so that the light source, for example an exposure intensity or an exposure period, can be preset by the camera sensor and / or the evaluation computer by appropriate control.
- a light source which is in signal communication with the camera sensor and / or the evaluation computer so that the light source, for example an exposure intensity or an exposure period, can be preset by the camera sensor and / or the evaluation computer by appropriate control.
- an input field or a multiple input field can be used, for example, in a given input area.
- number of input fields for example in the form of a keyboard, can be generated by projection.
- the user can then trigger a defined control action or also make an input, for example a yes / no selection or a text input.
- FIG. 1 shows very schematically a device for carrying out a
- Figs. 2 and 3 are snapshots of the detection area reproducing detection images at two consecutive detection times.
- FIG. 1 shows schematically a device 1 for carrying out a detection method.
- a movement path 2 of at least one moving object 3 within a detection area 4, which is shown in dashed lines in FIG. 1 can be detected.
- the path of a moving hand of the object 3 is shown in FIG. 1 using the example of a gesticulating user.
- the device 1 has a monocular camera sensor 5, which is a high-resolution CCD camera or CMOS camera with an optical attachment 6, which is capable of a predetermined depth or a Depth range T of the detection area 4 with predetermined image sharpness to capture.
- a monocular camera sensor 5 which is a high-resolution CCD camera or CMOS camera with an optical attachment 6, which is capable of a predetermined depth or a Depth range T of the detection area 4 with predetermined image sharpness to capture.
- the camera sensor 5 is in signal connection with an evaluation computer 8.
- the latter is connected via a further signal line 9 with a device 10 to be controlled in signal connection.
- the evaluation computer 8 and the device 10 to be controlled can be one and the same unit.
- the device 10 to be controlled may be a type of tablet PC equipped with components 5 and 8 for gesture recognition.
- the device 10 to be controlled may also be an external device with respect to the evaluation computer 8, for example a TV set or another consumer electronics device.
- a home automation device, such as a lighting system or a shutter control or a heating system is an example of the device to be controlled 10th
- the detection area 4 is imaged by the camera sensor 5. In this case, an acquisition image reproducing the detection area 4 is generated in the camera sensor 5.
- the acquisition image 12 is generated by the camera sensor 5 by a delay period later than the acquisition image 1 1.
- the two acquisition images 1 1 and 12 are digitized in real time or quasi in real time and stored in the evaluation computer 8.
- the evaluation computer 8 a determination and evaluation of correspondences of image areas of the acquisition images 1 1, 12 then takes place.
- the acquisition images 1 1 and 12 in the evaluation computer 8 are compared with each other. It Then, a distribution density of image areas corresponding to their change in position in the acquisition image is determined.
- the delay period ie a time interval between the detection times of the acquisition images 11 and 12, can be variable.
- the delay period can be in the range between 10 ms and 1 s.
- image areas are exemplified by small squares 13 to 22. These image areas may be individual pixels or groups of pixels.
- the procedure is as follows, in particular using the evaluation computer 8: First, the first captured acquisition image 1 1 is split into overlapping image parts.
- the capture image 1 1 is a digital image that is formed overall as an A x B pixel array.
- the integer values A and B which represent the numbers of pixels in the respective rows and columns of the array, are in the range between 500 and 10,000, for example.
- the overlapping image parts are then C x D subpixel arrays.
- the integer value C is included is significantly smaller than the value A and the integer value D is significantly smaller than the value B.
- C and D may for example be in the range between 8 and 30.
- Adjacent image parts, ie adjacent subpixelarrays, have at least one pixel row or at least one pixel column in common.
- each of these image parts is assigned an image signature.
- this signature is a bit sequence which represents a brightness distribution and / or a color distribution within the image part.
- each image part is split into overlapping sub-image parts.
- the subpictures may be E x F sub-subpixel arrays.
- the integer values E and F are smaller than the values C and D of the subpixel arrays.
- E and F may be in the range of 3 to 7.
- a mean gray value is determined by appropriate evaluation of the brightness and / or color values of the associated pixels with the aid of the evaluation computer 8.
- a tolerance deviation ⁇ is specified.
- a difference is determined in each case between the determined average sub-image gray value and the average image part gray value. If the resulting difference is smaller than - ⁇ , the value 0 is assigned as the first sub-image signature value. If the difference lies between the values - ⁇ and ⁇ , the value 1 is assigned as the second sub-image signature value. If the difference is greater than + ⁇ , the value 2 is assigned as the third sub-image signature value.
- the partial image signature to be assigned to the respective image part is then the result of the assigned sub-image signature values. With the allocation method explained above, the respective image part signatures are determined for the two acquisition images 1 1 and 12. Subsequently, the image parts of the second capture image 12 are assigned to the image parts of the first capture image 1 1 with the same signature.
- 2D vectors which can be understood as raw motion increments.
- These 2D vectors connect image parts, that is to say, for example, the image regions 13 to 22 of the two capture images 11, 12 with the same image signature. Image parts without associated 2D vectors are then discarded, so that the further evaluation is limited exclusively to the assigned image parts.
- the 2D vectors in the environment in particular in a predefined pixel environment, are compared in each case of a remaining image part and the frequency of similar vectors in this environment is determined. The result of this frequency determination is the distribution density of the image areas corresponding to their positional change in the acquisition image.
- Motionless image parts have a vector length 0 in both dimensions and form a central element of the distribution density. Moving parts of the picture increase the frequency of discrete 2D vectors with a certain length and direction.
- the central element of the frequency distribution including 2D vectors with a length below a given limit length subsequently rejected.
- the camera is moving, it is alternatively possible to suppress 2D vectors which correspond to this movement within a predetermined tolerance range.
- a maximum frequency of a 2D vector swarm with calculation of center point and extent in the second acquisition image 12 is now selected. This may be the hand 24.
- the selection can then be continued for the next most frequent 2D vector swarm, ie for at least one subpopulation.
- One result of this subswath selection can be, for example, the raindrop 23.
- a linear prediction of the respective center of swarm in the next image for tracking this 2D vector swarm can then take place. This can improve the detection accuracy to suppress interference by swarms overlapping each other in individual detection images.
- FIG. 3 shows a typical (intermediate) result when evaluating the determined distribution density by a corresponding evaluation algorithm.
- the correspondence determination to the image areas 19 to 22 assigned to the hand 24 there have actually been True correspondences (movement of the image areas 21 and 22) and actually false correspondences (movement of the image areas 19 and 20) result.
- FIGS. 2 and 3 together with other image areas that can be assigned to the hand 24, which are not shown in FIGS. 2 and 3, there is an increased distribution density of image areas that correspond with the image areas 21 and 22 with respect to their positional change in the acquisition image 12.
- the result of the evaluation is an assignment of individual pixels from pixel groups evaluated with respect to their distribution density with associated motion increment between the acquisition images 1 1, 12 on the basis of the evaluated distribution density.
- the result of the evaluation of the acquisition images 1 1 and 12 results respectively assigned pixels for the objects "raindrops” and "hand” with the actual trajectories 2 23 for the raindrop 23 and 2 21 and 2 22 for the hand 24th
- the pixel movements assigned to the assigned pixels 13, 21, 22 and the associated movement increments 2 23 and 21 1, 2 22 can then be evaluated.
- determining the distribution density takes place - as explained above - detecting selected portions of the detection images 1 1, 12, which differ in the detection images 1 1, 12. In the region of the raindrop 23 and in the region of the hand 24, therefore, a higher-resolution determination and evaluation of correspondences of the image regions takes place.
- methods of averaging and statistical methods are used.
- the determination and evaluation of correspondences can, of course, be carried out on the basis of a sequence of individual images of a larger number, for example using a sequence of three, four, five, six, eight, ten, twenty-five, fifty, one hundred or even more individual images.
- the recognition method makes it possible to detect the trajectories of several independent objects. These can also be more than two independent objects (for example, three, four, five, ten, or even more independent objects).
- a predefined depth area T that is to say a range of predetermined distances, within which objects, that is to say, for example, the user 3, can be detected. len, be defined.
- a depth range for example, a distance range from the camera sensor 5 between 0.5 m and 3 m or between 1 m and 2.5 m can be specified. Also, a more tolerant or more specific specification of a depth range is possible.
- the definition of the predetermined depth range can be done by means of a depth sensor. This technique can be used, which are known under the keywords "Structured Light", "TOF".
- a stereo horrtaged Light "TOF”.
- a light field can also be used or ultrasound or radar radiation can be used.
- the depth of field of the optical attachment 6 can also be used to define the depth range T.
- autofocus techniques can be used. As soon as the depth of the detected object 3, ie its distance from the camera sensor 5, is known with the aid of such a method, it is also possible to measure and indicate a speed of the object detected in its movement after detection of the movement path 2.
- the definition of the depth range can also be achieved by setting a lighting intensity of an illumination of the detection area by means of a light source 25 at an exposure time during the imaging acquisition.
- the light source 25 is connected via a signal connection, not shown, with the camera sensor 5 and / or the evaluation computer 8 in signal connection.
- a temporal variation of an illumination period during illumination with the light source 25 in relation to the exposure time of the camera sensor 5 during the imaging acquisition can also be used to define the depth range.
- the above-described trajectory recognition method can be used within a method of gesture recognition.
- model pixel movements or model object movements are provided as control symbols, and these model pixel movements are compared with the pixel movements which were evaluated by the movement path recognition method. Subsequently, the model pixel movement is identified as a selected control symbol, which has the greatest agreement with the evaluated pixel movement. Finally, a control action associated with the selected control icon is performed.
- gesture recognition technique techniques known in the art as “template matching” and “inverse kinematics” may be used.
- the model pixel movements may include at least one of the following motion patterns:
- the control action may include predetermining an input area 26 within the entire detection area 4 by an area specification gesture.
- This range setting gesture may be performed, for example, by a circular motion of an open or closed hand.
- the person 3 can thereby define within the entire detection area 4 the input area 26, which is subsequently detected by the camera sensor 5 in high-resolution.
- the attachment optics 6 can be designed, for example, as a zoom lens.
- an input raster for example a keyboard layout
- the user can then operate a keyboard projected into the detection area 4 with the projector device 27, which in turn is detected, recognized and evaluated by the camera sensor 5.
- the gesture recognition and subsequent gesture control can in particular work without distinction from different trajectory models for symbol gestures. This will be explained below with reference to another example:
- the associated circle-symbol gesture then represents a "point to unlock" gesture
- All 2D vectors in a neighborhood of the second highest frequency of the vector distribution density describe a vector swarm, which can be calculated using the mean 2D vector lengths as well as a Mean value and a standard deviation of positions of the respective swarm vectors in the subsequent image
- the mean 2D vector lengths describe the movement increment
- the mean of the vector positions describes a center of the swarm
- the position standard deviations are a measure of the size of the swarm.
- the center of the detected circle trajectory is then detected by the gesture controller as a polar coordinate system in the acquisition image, having a center and a reference radius.
- This polar coordinate system is assigned by the gesture control eight sectors, which - as in the cartography - the cardinal directions N, NO, O, SO, S, SW, W and NW can be assigned.
- An outer boundary ring with a 1.5-fold reference radius is defined around the detected reference radius.
- the gesture control interprets this as deactivation of the gesture.
- this can be, for example, clockwise in rotation as an enlargement of an intensity signal desired by the operator and vice versa upon detection of a rotation of the swarm counterclockwise interpreted as a reduction of the desired intensity signal.
- a volume of a terminal to be operated via the gesture control can be controlled by corresponding rotational gestures.
- a specific signal can be triggered.
- a shift of the swarm into certain sectors can trigger associated signals. For example, by shifting the swarm to a particular signal and maintaining that position, a switching signal may be triggered. In this way, a control operation similar to that of a touchpad operation can be performed.
- the original, initializing circle-symbol gesture can therefore be used to define a type of keyboard in the room over which the user can trigger desired control signals.
- Each of the sectors discussed above may then represent a key of that keyboard.
- facial recognition may be performed prior to the comparison step, which is a prerequisite for performing the further steps of gesture recognition.
- a selection of the provided model pixel movements can take place.
- a profile of model pixel movements can be assigned to the user respectively recognized via the face recognition. So you can specify user profiles.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
In a method for detecting a movement path (223; 221, 222) of at least one moving object (23, 24) within a detection region, the moving object is first detected so as to be imaged. In the process, a first detection image (11) is generated which reproduces the detection region at a first detection time. After a delay period, a second detection image (12) is generated which displays the detection region at a correspondingly later detection time. Correspondences of the image regions (13 to 22) of the detection images (12) are then determined and analyzed. For this purpose, the detection images (12) are compared, a distribution density of image regions (13 to 23) which correspond to one another with respect to their changes in position in the detection image (12) is ascertained, and the ascertained distribution density is analyzed. Pixels (23, 24) with a corresponding movement increment (223; 221, 222) between the detection images (12) are then assigned on the basis of the analyzed distribution density. The pixel movements are then analyzed. The method and a gesture detection method which uses said method can be carried out using simple optical means.
Description
Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches, Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens sowie Vorrichtung zur Durchführung eines derartigen Erken- nungsverfahrens Method for detecting a movement path of at least one moving object within a detection area, method for gesture recognition using such a detection method, and device for carrying out such a detection method
Der Inhalt der deutschen Patentanmeldung 10 2014 201 313.5 wird durch Bezugnahme hierin aufgenommen. Die Erfindung betrifft ein Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches. Ferner betrifft die Erfindung ein Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens und eine Vorrichtung zur Durchführung eines derartigen Erkennungsverfahrens bzw. Gestikerken- nungsverfahrens. The content of German Patent Application 10 2014 201 313.5 is incorporated herein by reference. The invention relates to a method for detecting a movement path of at least one moving object within a detection area. Furthermore, the invention relates to a method for gesture recognition using such a recognition method and an apparatus for carrying out such a recognition method or Gestikerken- recognition method.
Verfahren und Vorrichtungen zur Objekterkennung sind bekannt aus der WO 2012/095 258 AI und der WO 2013/020 872 AI . Der Fachartikel„A Probabilistic Framework for Matching Temporal Trajectories: Methods and devices for object recognition are known from WO 2012/095 258 AI and WO 2013/020 872 AI. The article "A Probabilistic Framework for Matching Temporal Trajectories:
CONDENSATION-Based ecognition of Gestures and Expressions" von Black et al. in H. Burckhardt, B. Neumann (Eds.): Computer Vision - ECCV '98, Vol I, LNCS 1406, pp. 909-924, 1998, © Springer- Verlag Berlin Heidelberg 1998, beschreibt eine Verwendung lokal gerasteter Vektoren, über die Trajektorien einer Mundbewegung erkannt werden sollen. CONDENSATION-Based ecognition of Gestures and Expressions "by Black et al., In H. Burckhardt, B. Neumann (Eds.): Computer Vision - ECCV '98, Vol I, LNCS 1406, pp. 909-924, 1998, © Springer - Verlag Berlin Heidelberg 1998, describes a use of locally rasterized vectors to detect the trajectories of a mouth movement.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Erkennungsverfahren mit einfachen optischen Mitteln zu ermöglichen.
Diese Aufgabe ist erfmdungsgemäß gelöst durch ein Erkennungsverfahren mit den im Anspruch 1 angegebenen Merkmalen. It is an object of the present invention to provide a detection method with simple optical means. This object is achieved according to the invention by a recognition method with the features specified in claim 1.
Die beschriebene Erfindung misst eine Verteilungsdichte von Bewegungs- Korrespondenzen zwischen Teilen aufeinanderfolgender Bilder. The invention described measures a distribution density of motion correspondences between parts of successive images.
Die wesentliche Information, die verarbeitet wird, ist ein Bewegungsmuster, wobei erst in einem nächsten Schritt auf die bewegte Struktur rückgeschlossen wird. Zur Durchführung des Verfahrens ist eine Mustererken- nung, beispielsweise eine Gesichtserkennung, die an ein und demselben Bild durchgeführt wird, nicht erforderlich. Die wesentlichen Bewegungsinformationen werden durch Vergleich aufeinanderfolgender Bilder gewonnen. Dazu werden zwischen Bildausschnitten von zwei aufeinanderfolgenden Bildern Bewegungs-Korrespondenzen ermittelt. Eine Korrespondenz ist gegeben, wenn sich zwei Bildausschnitte ähneln. Bei dieser Vorverarbeitung werden auch Korrespondenzen zugelassen, die nicht dem optischen Fluss entsprechen. Mit dem Verfahren entstehen jeweils für kleine Bildre- gionen Verteilungen von Korrespondenzvektoren unterschiedlicher Richtung und Länge, somit über das gesamte Bild Korrespondenzverteilungsverläufe. Diese Korrespondenzverteilungsverläufe werden in eine Korrespondenzverteilungsdichte umgerechnet. Der Bildfluss entspricht dann den größten Werten einer idealen Korrespondenzverteilungsdichte. Durch Messfehler, Bildwiederholungen und Messlücken wird die ideale Korrespondenzverteilungsdichte eines optischen Flusses, also ein„sauberer" optischer Fluss", in der Regel nicht erreicht. Das Vorverarbeitungsverfahren kann deshalb als fluss-orientierte Untersuchung (flow-oriented- examination, flox) charakterisiert werden, mit dem auch Korrespondenz-
verteilungsdichten ausgewertet werden könne, die von der idealen Korrespondenzverteilungsdichte eines optischen Flusses abweichen („unsaubere" Flussverteilungen). Eine Teilmenge solcher Korrespondenzverteilungsdichten ist der optische Fluss. Durch Zuordnungsfehler wird die Verteilungsdichte eine Vielzahl weiterer Korrespondenzen finden. Die Verteilungsdichten werden auf potentielle Bewegungen kompakter Regionen überprüft und Bewegungsinkremente abgeleitet. Aus einer Folge von Bewegungsinkrementen werden Objektbewegungen verkettet und plausibilisiert. Korrespondenzen zwischen ähnlichen Bildpunkten bzw. Bildteilen, die nicht Abbildungen desselben Objektes sind, z.B. Korrespondenzen zwischen zwei benachbarten Aktenordnern, führen zu einer Scheinbewegung, die sich in der Regel örtlich nicht fortsetzt, sondern lokal bleibt, vergleichbar mit der Tachoanzeige bei durchdrehenden Reifen. Durch Vergleich von mehr als zwei Erfassungsbildern, die nacheinander aufgenommen werden, lassen sich derartige Scheinbewegungen ausschließen. Die Verkettung plausibilisierter Bewegungsinkremente führt dann zu einer Bewegung, die ihrerseits auf eine Geste hin überprüft wird. The essential information that is processed is a movement pattern, whereby the moving structure is only deduced in a next step. To perform the method, a pattern recognition, for example a face recognition, which is performed on one and the same image is not required. The essential motion information is obtained by comparing successive images. For this purpose, motion correspondences are determined between image sections of two successive images. Correspondence is given when two parts of the picture are similar. In this preprocessing, correspondences are also permitted which do not correspond to the optical flow. With the method, distributions of correspondence vectors of different direction and length are produced for small image regions in each case, thus correspondence distribution profiles over the entire image. These correspondence distribution profiles are converted into a correspondence distribution density. The image flow then corresponds to the largest values of an ideal correspondence distribution density. Due to measurement errors, image repetitions and measurement gaps, the ideal correspondence distribution density of an optical flow, ie a "clean" optical flow, is generally not achieved. The preprocessing process can therefore be characterized as flow-oriented examination (flox), with which correspondence A subset of such correspondence distribution densities is the optical flux By allocation errors, the distribution density will find a variety of other correspondences The distribution densities are checked for potential movements of compact regions Correspondences between similar pixels or image parts that are not images of the same object, eg correspondences between two adjacent file folders, lead to a pseudo-movement that usually does not continue locally but remains local, comparable to the speedometer indicator on spinning tires, by comparing more than two capturing images taken in succession exclude such apparent movements. The concatenation of plausibilized motion increments then leads to a movement, which in turn is checked for a gesture.
Sollen Objekte im Nahbereich vermessen werden, wie z.B. Finger direkt vor der Kamera die in einer Brille eingebaut ist, werden mehrere Bildbereiche zu einer ähnlichen, also gemeinsamen Bewegung führen. In diesem Fall wird ein geeigneter Mittelwert der Koordinaten der gemeinsamen Be- wegung zur Repräsentation des eigentlichen Objektes verwendet. In der Regel ist nicht die Position des Objektes maßgebend für die Bewegungsgeste, sondern die Form der Bahn, die in diesem Fall für alle gemeinsamen Bewegungen identisch ist.
Neben einem Mittelwert kann auch der Oberste aller eine gemeinsame Bahn durchlaufenden Bildpunkte ausgewählt und zugeordnet werden. Das ist z.B. die Fingerspitze eines nach oben zeigenden Fingers im Bild. Die Genauigkeit der Bahn muss dabei nur so gut sein, dass die den Gesten zugeordneten Bahnformen unterschieden werden können. If objects in the vicinity are to be measured, such as fingers directly in front of the camera which is installed in a pair of glasses, several image areas will lead to a similar, ie common, movement. In this case, a suitable average of the coordinates of the common movement is used to represent the actual object. As a rule, it is not the position of the object that determines the motion gesture, but the shape of the path, which in this case is identical for all common movements. In addition to an average value, the supreme of all pixels traversing a common path can also be selected and assigned. This is, for example, the fingertip of an upward pointing finger in the picture. The accuracy of the web has to be so good that it is possible to differentiate the web shapes assigned to the gestures.
Beim bildgebenden Erfassen können Kamerabilder zyklisch in einen Auswerterechner geladen werden. In the case of imaging, camera images can be cyclically loaded into an evaluation computer.
Der zeitliche Abstand der Bilder darf variieren, muss aber bekannt sein. Aus zwei aufeinanderfolgenden Bildern wird eine Korrespondenzverteilungsdichte ermittelt, aus der pro Bildpaar Bewegungsinkremente errechnet werden. Aus der Folge von Bewegungsinkrementen werden Bewegungsse- quenzen gefiltert, die ausgewählten Gestenbewegungen entsprechen können. Die Anzahl fehlerhafter Korrespondenzverteilungsdichten können durch grobes Entfernungswissen, durch geeignete Tiefensensoren oder durch Schärfe-Einstellungen der Kamera oder Blitzbeleuchtung reduziert werden, um die Sicherheit bei der Erkennung zu erhöhen. The temporal distance of the pictures may vary, but must be known. From two successive images, a correspondence distribution density is determined from which movement increments are calculated per image pair. From the sequence of motion increments, motion sequences are filtered which can correspond to selected gesture movements. The number of incorrect correspondence distribution densities can be reduced by coarse distance knowledge, by suitable depth sensors or by sharpness adjustments of the camera or flash lighting, in order to increase the security with the recognition.
Bei der Bildpunkt-Zuordnung erfolgt keine Objektform-Erkennung. Es wird überprüft, wo in korrespondierenden Bildpunktgruppen bzw. Bildbereichen Bewegungen, insbesondere schnelle Bewegungen, mit hoher Dichte, also Bewegungen von Bildpunktgruppen mit vergleichbaren Bewe- gungsinkrementen, detektiert. Aus einer detektierten Bildpunktgruppe erfolgt die Auswahl und Zuordnung eines repräsentativen Bildpunktes aufgrund von vorher festgelegten Kriterien für die ermittelte Verteilungsdichte und die zugehörigen Bewegungsinkremente. Es kann beispielsweise eine Mindestdichte von bewegten Bildpunkten vorgegeben werden und es kann
unter den dann vorselektierten Bildpunkten, die innerhalb der Bildpunktgruppen mit der Mindestdichte liegen, eine Selektion nach dem größten Bewegungsinkrement vorgenommen werden. Alternativ kann nach bestimmten Bewegungsinkrementen vorselektiert werden und es kann inner- halb einer Bildpunktgruppe, die dieses Bewegungsinkrement aufweist, ein hinsichtlich seiner Lage ausgezeichneter Bildpunkt innerhalb dieser Bildpunktgruppe ausgewählt werden. Bei der Auswahl bzw. Zuordnung des Bildpunktes durch Auswertung der ermittelten Verteilungsdichte kann ein Vorhersage-Algorithmus eine Zuordnung eines spezifischen Bildpunktes vereinfachen. Hierzu wird anhand von beispielsweise drei aufeinanderfolgenden Erfassungsbildern überprüft, ob beim zuletzt aufgenommen Erfassungsbild ein Kandidaten-Bildpunkt in einem Bildbereich vorliegt, in dem er entsprechend seiner Bewegung in den ersten beiden nacheinander aufgenommenen Erfassungsbildern tatsächlich zu erwarten ist. Nur Bildpunkte, bei denen ein vorhergesagter Bildbereich erreicht wird, entsprechen dann der Vorhersage und erfüllen somit dieses Auswahlkriterium. Soweit nach Durchlaufen dieser verschiedenen Auswahlkriterien immer noch mehrere Bildpunkte verbleiben, kann eine einfache geometrische Auswahl erfolgen. Es kann beispielsweise ein oberster Bildpunkt ausgewählt und zugeordnet werden, der im Erfassungsbereich unter den Auswahlkandidaten vorliegt. Bei den Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln. When pixel mapping is done no object shape detection. It is checked where, in corresponding pixel groups or image areas, movements, in particular fast movements, with high density, ie movements of pixel groups with comparable movement increments, are detected. From a detected pixel group, the selection and assignment of a representative pixel takes place on the basis of previously defined criteria for the determined distribution density and the associated movement increments. For example, a minimum density of moving pixels can be specified and it can under the then preselected pixels which lie within the pixel groups with the minimum density, a selection is made after the largest movement increment. Alternatively, it is possible to preselect according to certain movement increments and, within a pixel group which has this movement increment, a pixel which is excellent in terms of its position can be selected within this pixel group. In the selection or assignment of the pixel by evaluation of the determined distribution density, a prediction algorithm can simplify an assignment of a specific pixel. For this purpose, it is checked on the basis of, for example, three successive acquisition images, if the last captured acquisition image is a candidate pixel in an image area in which it can actually be expected according to its movement in the first two consecutively acquired acquisition images. Only pixels in which a predicted image area is reached then correspond to the prediction and thus fulfill this selection criterion. As far as several pixels remain after passing through these different selection criteria, a simple geometric selection can be made. For example, it is possible to select and assign an uppermost pixel which is present in the detection area among the selection candidates. The image areas may be individual pixels or pixel groups.
Beim vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren wer- den die Verfahrensschritte automatisch und rechnergestützt abgearbeitet. Das Verfahren kann ohne Bedienereingriff durchgeführt werden. Das Bewegungsbahn-Erkennungsverfahren kann auf einem Standardrechner in Echtzeit ablaufen.
Das Bewegungsbahn-Erkennungsverfahren extrahiert Bewegungsinkremente auch aus„unsauberen" Flussverteilungen, insbesondere über eine 2D-Häufigkeitsmatrix, die nachfolgend noch beschrieben wird. In the motion path recognition method explained above, the method steps are executed automatically and computer-aided. The procedure can be performed without operator intervention. The trajectory detection method can be run on a standard computer in real time. The trajectory recognition method also extracts movement increments from "dirty" flow distributions, in particular via a 2D frequency matrix, which will be described below.
Die Definition eines Tiefenbereiches nach Anspruch 2 kann mit Hilfe eines Tiefensensors erfolgen. Hierzu kann auch die Schärfentiefe einer Vorsatzoptik des Kamerasensors genutzt werden. Auch Autofokus-Techniken können hierfür genutzt werden, was insbesondere zur Kontrastverstärkung und damit zur Verbesserung des Ergebnisses eines Vergleichs der Erfassungsbilder genutzt werden kann. Sobald eine Tiefe eines Objektes, dessen Bewegungsbahn erkannt wurde, bekannt ist, lassen sich zur Objektbewegung auch die Objektgeschwindigkeit messen und angeben. The definition of a depth range according to claim 2 can be carried out with the aid of a depth sensor. For this purpose, the depth of field of a front optics of the camera sensor can be used. Autofocus techniques can also be used for this purpose, which can be used in particular for contrast enhancement and thus for improving the result of a comparison of the acquisition images. As soon as a depth of an object whose trajectory has been detected is known, the object speed can also be measured and specified for the object movement.
Die Korrespondenzverteilungsdichte kann entsprechend nicht nur von Objekten in der Entfernung des erwarteten Objektes ermittelt werden, sondern auch von weniger oder weiter von dem Sensor entfernten Objekten. Mit auch grob auflösenden Tiefensensoren, auf Basis von strukturiertem Licht, Time-of-Flight oder auch Stereoskopie können Bildteile identifiziert werden, die nicht im Entfernungsbereich liegen und deren Verteilungsdichten ignoriert werden. Ein Tiefensensor auf Basis von strukturiertem Licht (Structured Light) ist beispielsweise bekannt aus der US 4,954,962. Ein Tiefensensor auf Basis„Time-of-Flight" ist bekannt aus der EP 2 378 310 AI . Accordingly, the correspondence distribution density can be determined not only from objects in the distance of the expected object but also from objects less or further away from the sensor. With coarse-resolution depth sensors, based on structured light, time-of-flight or even stereoscopy, image parts can be identified that are not in the distance range and whose distribution densities are ignored. A depth sensor based on structured light (structured light) is known, for example, from US Pat. No. 4,954,962. A depth sensor based on time-of-flight is known from EP 2 378 310 A1.
Gröbere Auflösungen bieten zum Beispiel Ultraschallsensoren. Durch eine Kombination von einigen Ultraschallsensoren können die Richtungen von Objekten, die in der erwarteten Entfernung liegen, ermittelt werden und andere Bildbereiche diskriminiert werden. Coarser resolutions offer, for example, ultrasonic sensors. Through a combination of some ultrasonic sensors, the directions of objects that are within the expected distance can be determined and other image areas can be discriminated.
Entfernungsinformationen geben auch sogenannte Lichtfeld-Sensoren.
Kann in bestimmten Bildbereichen keine Schärfe für die gewünschte Entfernung errechnet werden, werden auch diese diskriminiert. Eine Tiefenbereichs-Defmition nach Anspruch 3 ist, das Vorhandensein einer entsprechend ansteuerbaren Lichtquelle vorausgesetzt, mit hoher Präzision möglich. Alternativ oder zusätzlich kann zur Definition des Tiefenbereichs auch eine zeitliche Variation eines Beleuchtungszeitraums zu einem Belichtungszeitpunkt bei der bildgebenden Erfassung erfolgen. Distance information is also provided by so-called light field sensors. If no sharpness can be calculated for the desired distance in certain image areas, these too will be discriminated. A depth-range defmition according to claim 3, provided the presence of an appropriately controllable light source, with high precision possible. Alternatively or additionally, for the definition of the depth range, a temporal variation of an illumination period at an exposure time in the imaging acquisition can also take place.
Neben den direkten Tiefensensoren können also auch weitere entfernungsabhängige Effekte genutzt werden. Wird ein IR-Filter vor die Kamera gesetzt und die Umgebung mit begrenzter IR-Lichtleistung bestrahlt, ist die Reichweite begrenzt und Korrespondenzen dahinterliegender Objekte wer- den nicht mehr erfasst. Sind Objekte sehr nah, werden sie von der IR- Strahlung so stark angestrahlt, dass auf ihnen keine Kontraste mehr erkennbar sind. Es entsteht somit ein Tiefenbereich für messbare Korrespondenzen. Werden in kurzer zeitlicher Abfolge die IR-Strahlungsleitung und die Belichtungszeit variiert, können messbare Tiefenbereiche so versetzt werden, dass nur Ketten von Bewegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig in den messbaren Bereichen geblieben sind. In addition to the direct depth sensors so also further distance-dependent effects can be used. If an IR filter is placed in front of the camera and the surroundings are irradiated with limited IR light power, the range is limited and correspondence of underlying objects is no longer detected. If objects are very close, they are so strongly illuminated by the IR radiation that no contrasts are recognizable on them. This creates a depth range for measurable correspondences. If the IR radiation line and the exposure time are varied in a short time sequence, measurable depth ranges can be offset in such a way that only chains of movement increments can be made plausible by the objects that have remained throughout the measurable areas.
Ein weiterer entfernungsabhängiger Effekt ist die Schärfentiefe. Für licht- starke Objektive ist die Schärfentiefe geringer als bei lichtschwachen Objektiven. Nur in diesem Bereich können Korrespondenzen gemessen werden. Über in kurzer zeitlicher Abfolge variierte Brennweite kann der messbare Tiefenbereich so versetzt werden, dass auch hier nur Ketten von Be-
wegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig im messbaren Bereich geblieben sind. Another distance-dependent effect is the depth of field. For deep lenses, the depth of field is less than with low-foc lenses. Only in this area can correspondences be measured. By varying the focal length in a short time sequence, the measurable depth range can be shifted so that only chains of Movement increments of the objects can be made plausible, which have remained throughout the measurable range.
Die Kombination der beiden entfernungsabhängigen Effekte auch zusam- men mit ihrer zeitlichen Variation führt zu dem gewünschten Effekt der Einschränkung des messbaren Bereiches. Es können also auch Kombinationen aus Schärfentiefe und/oder Beleuchtungsstärke und/oder Beleuchtungsdauer zur Tiefenbereichs-Defmition herangezogen werden. Die Vorteile eines Gestikerkennungsverfahrens nach Anspruch 4 entsprechen denen, die vorstehend unter Bezugnahme auf das Bewegungsbahn- Erkennungsverfahren bereits erläutert wurden. The combination of the two distance-dependent effects together with their temporal variation leads to the desired effect of limiting the measurable range. It is therefore also possible to use combinations of depth of field and / or illuminance and / or illumination duration for the depth range definition. The advantages of a gesture recognition method according to claim 4 correspond to those which have already been explained above with reference to the movement path recognition method.
Gesten entstehen durch die Bewegung von Körperteilen. Die unmittelbare Messung der Bewegung benötigt keine Modellierung wie Abbildungen von Händen oder Gelenkmodellen. Wird die Bewegung von kompakten, zum Beispiel faustgroßen, Objekten unmittelbar gemessen, kann auf die Modellierung zum Beispiel einer Handpose oder auf Gelenkmodelle verzichtet werden. Bei einem monokularen Kamerasystem sollte das faustgroße Ob- jekt tendenziell quer zur Blickrichtung des Sensors bewegt werden. Zusammen mit einem geeigneten Tiefensensor können auch unmittelbar Entfernungsgeschwindigkeiten zum Sensor gemessen werden. In beiden Fällen müssen aber weder Handposen trainiert oder Gelenkmodelle mit einer im Wesentlichen ungestörten Umgebung berücksichtigt werden. Außerdem wird das Verhältnis Objektgröße zu Erfassungsbereich wegen der geringeren Anforderungen an Texturinformationen an das Objekt deutlich kleiner, so dass viele unabhängige Objekte in einem großen Volumen vermessen werden können.
Die abgeleiteten Gesten können über die Verwendung von bekannten Verfahren wie„Inverse Kinematics" oder„Template Matching" weiter plausi- bilisiert werden. Die Bewegung muss von einer bestimmten Objektähnlichen Grauwerte -Verteilung ausgelöst worden sein. Eine Hand, Finger wie auch künstliche Objekte (Handschuhe, Marker) können als Basis dienen. Mit„Inverse Kinematics" können Bewegungsvorhersagen getroffen werden und damit die Korrespondenzdichteverteilung gezielter ausgewertet werden. Durch vereinfachte, zum Beispiel planare, Bewegungsmodelle wie das Modell konstanter Geschwindigkeit kann die Korrespondenzdichtever- teilung ebenfalls besser ausgewertet werden. Gestures are created by the movement of body parts. Immediate measurement of motion does not require modeling, such as images of hands or joint models. If the movement of compact, for example, fist-sized, objects measured directly, can be dispensed with the modeling, for example, a hand pose or joint models. In a monocular camera system, the fist-sized object should tend to be moved transversely to the viewing direction of the sensor. Together with a suitable depth sensor, it is also possible to directly measure removal speeds to the sensor. In both cases, however, neither hand poses have to be trained or joint models with an essentially undisturbed environment must be taken into account. In addition, the smaller the object-to-detection-area ratio, the smaller the demands on texture information to the object, so that many independent objects in a large volume can be measured. The derived gestures can be further plausibilized via the use of known methods such as inverse kinematics or template matching. The movement must have been triggered by a specific object-like grayscale distribution. A hand, fingers as well as artificial objects (gloves, markers) can serve as a basis. With "Inverse Kinematics", movement predictions can be made and thus the correspondence density distribution can be evaluated in a more targeted manner.The correspondence density distribution can also be better evaluated through simplified, for example planar, motion models such as the model of constant speed.
Ein„Inverse Kinematics"- Verfahren ist bekannt aus der CA 2 21 1 858 C. Ein„Template Matching"- Verfahren ist bekannt aus der EP 1 203 344 B 1. Als eine Gestikerkennung bzw. eine Gestensteuerung aktivierende Geste kann, insbesondere über eine entsprechende Bilderfassung, ein Kreis- Symbol ausgewählt werden, das von einer offenen oder geschlossenen Hand des Benutzers innerhalb eines Erfassungsbereiches durch entsprechende Kreisbewegung erzeugt wird. Über die bildgebende Erfassung eines solchen Kreis-Symbols kann ein Kreismittelpunkt sowie ein Kreisradius dieses Kreis-Symbols erfasst und, beispielsweise in einem Speicher eines Steuerungsmoduls, abgelegt werden. Nachfolgende Symbole können dann als für die Steuerung relevant erfasst werden, sofern sie innerhalb des so definierten Kreisbereiches innerhalb des Erfassungsbereiches geschehen, ggf. zuzüglich eines zusätzlich Umgebungsbereiches, der über einen vergrößerten Toleranzradius um den Kreismittelpunkt vorgegeben werden kann.
Innerhalb des Kreisbereichs können dann über die Steuerung verschiedene Unterbereiche, beispielsweise Kreissektoren definiert werden, die analog wie Tasten eines Tastaturfeldes vom Benutzer angesteuert werden und verschiedene Signale auslösen können. Ein Verharren in einem solchen Un- terbereich oder ein definierter Wechsel zwischen vorgegebenen Unterbereichs-Abfolgen kann dann als Signal zur Auslösung einer bestimmten Steuerfolge erkannt werden. Weitere Gesten, die nach der Aktivierungsgeste„Kreis- Symbol" erkannt werden können, sind beispielsweise eine im Uhrzeigersinn und eine entgegen dem Uhrzeigersinn rotierende Geste, die beispielsweise zur Verstärkung oder Verringerung einer Signalintensität, vergleichbar beispielsweise zu einem Lautstärkeregler, verarbeitet werden können. An inverse kinematics method is known from CA 2 21 1 858 C. A template matching method is known from EP 1 203 344 B 1 corresponding image acquisition, a circle symbol can be selected, which is generated by an open or closed hand of the user within a detection area by corresponding circular motion. About the imaging detection of such a circle symbol, a circle center and a circle radius of this circle symbol can be detected and stored, for example, in a memory of a control module. Subsequent symbols can then be detected as being relevant for the control, insofar as they occur within the circle area thus defined within the detection area, plus, if necessary, an additional surrounding area which can be preset via an enlarged tolerance radius around the center of the circle. Within the circular area can then be defined via the control various sub-areas, such as circular sectors, which are analogous to how keys of a keypad controlled by the user and can trigger various signals. A persistence in such a subrange or a defined change between predetermined subrange sequences can then be recognized as a signal for triggering a specific control sequence. Other gestures which can be recognized after the activation gesture "circle symbol" are, for example, a clockwise and counterclockwise rotating gesture, which can be processed, for example, to amplify or reduce a signal intensity comparable to, for example, a volume control.
Das hier beschriebene Gestikerkennungsverfahren kann durch Einsatz ei- nes entsprechenden Steuermoduls auch losgelöst vom vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren genutzt werden und ist eigenständiger Bestandteil der Anmeldung. Zur Bewegungsbahn-Erkennung kann dann alternativ auch ein aus dem Stand der Technik bekanntes Verfahren zum Einsatz kommen, welches sich mit einem optischen Fluss be- schäftigt, zum Beispiel der sogenannte KLT-Tracker, beschrieben in„Bruce D. Lucas and Takeo Kanade."„An Iterative Image Registration Tech- nique with an Application to Stereo Vision." IJCAI, pages 674-679, 1981. Auch Verfahren, die im Zusammenhang mit Codec-Implementierungen bekannt sind, können zum Einsatz kommen. Das Gestikerkennungsverfah- ren kann so ausgeführt sein, dass es auf einem Standardrechner in Echtzeit abläuft. The gesture recognition method described here can also be used separately from the motion path recognition method explained above by using a corresponding control module and is an independent component of the application. For trajectory recognition, a method known from the prior art may alternatively be used which deals with an optical flow, for example the so-called KLT tracker described in "Bruce D. Lucas and Takeo Kanade." "Iterative Image Registration Technique with an Application to Stereo Vision." IJCAI, pages 674-679, 1981. Also, methods known in the context of codec implementations may be used. The Gestikerkennungsverfah- ren can be designed so that it runs on a standard computer in real time.
Modell-Bildpunktbewegungen nach Anspruch 5 ergeben einen Gestensatz, der für vielfältige Steuerungsaufgaben genutzt werden kann.
Die Vorgabe eines Eingabebereiches mit einer Bereichsvorgabe-Geste nach Anspruch 6 ermöglicht die Definition eines beispielsweise hochauflösend erfassbaren Unterbereiches innerhalb des Erfassungsbereiches, was zu de- taillierten Eingabezwecken genutzt werden kann. Bei der Bereichsvorgabe- Geste kann es sich um eine Kreisform-Bewegung handeln. In dem definierten Eingabebereich können dann weitere Eingaben erfolgen. Model pixel movements according to claim 5 result in a gesture set that can be used for a variety of control tasks. The specification of an input area with an area specification gesture according to claim 6 makes it possible to define a sub-area which can be detected, for example, with high resolution, within the detection area, which can be used for detailed input purposes. The Range Preset gesture may be a circular motion. You can then make further entries in the defined input area.
Durch eine Gesichtserkennung nach Anspruch 7 kann eine Freigabe der Gestikerkennung erfolgen. Eine Gesichtserkennung kann in der Umgebung der Bewegung eine Person identifizieren. Es kann dann sichergestellt werden, dass nur bestimmte Personen Zugriff haben. By a face recognition according to claim 7, a release of the gesture recognition can take place. Face recognition can identify a person in the environment of the movement. It can then be ensured that only certain people have access.
Durch eine Auswahl bereitgestellter Modell-Bildpunktbewegungen nach Anspruch 8 ist die Vorgabe eines Nutzerpro fils möglich. By a selection of provided model pixel movements according to claim 8, the specification of a user profile is possible.
Die Vorteile einer Vorrichtung nach Anspruch 9 entsprechen denen, die vorstehend im Zusammenhang mit dem Bewegungsbahn- Erkennungsverfahren und dem Gestikerkennungsverfahren bereits erläutert wurden. The advantages of a device according to claim 9 correspond to those which have already been explained above in connection with the movement path recognition method and the gesture recognition method.
Zur Vorrichtung kann eine Lichtquelle gehören, die mit dem Kamerasensor und/oder dem Auswerterechner in Signalverbindung steht, sodass die Lichtquelle, beispielsweise eine Belichtungsstärke oder ein Belichtungs- Zeitraum, vom Kamerasensor und/oder vom Auswerterechner durch entsprechende Ansteuerung vorgegeben werden kann. The device may include a light source which is in signal communication with the camera sensor and / or the evaluation computer so that the light source, for example an exposure intensity or an exposure period, can be preset by the camera sensor and / or the evaluation computer by appropriate control.
Mit Hilfe einer Projektoreinrichtung nach Anspruch 10 kann beispielsweise in einem vorgegebenen Eingabebereich ein Eingabefeld oder eine Mehr-
zahl von Eingabefeldern, beispielsweise in Form einer Tastatur, durch Projektion erzeugt werden. Durch Betätigung des mindestens einen, projizierten Eingabefeldes kann der Benutzer dann eine definierte Steuerungsaktion auslösen oder auch eine Eingabe, beispielsweise eine Ja/Nein-Auswahl oder eine Texteingabe vornehmen. With the aid of a projector device according to claim 10, an input field or a multiple input field can be used, for example, in a given input area. number of input fields, for example in the form of a keyboard, can be generated by projection. By actuating the at least one projected input field, the user can then trigger a defined control action or also make an input, for example a yes / no selection or a text input.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. In dieser zeigen: Fig. 1 stark schematisch eine Vorrichtung zur Durchführung eines An embodiment of the invention will be explained in more detail with reference to the drawing. 1 shows very schematically a device for carrying out a
Verfahrens zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches als Teil eines Gestikerkennungsverfahrens; Fig. 2 und 3 Momentaufnahmen von den Erfassungsbereich wiedergebenden Erfassungsbildern zu zwei aufeinanderfolgenden Erfassungszeitpunkten. Method for detecting a movement path of at least one moving object within a detection area as part of a gesture recognition method; Figs. 2 and 3 are snapshots of the detection area reproducing detection images at two consecutive detection times.
Fig. 1 zeigt schematisch eine Vorrichtung 1 zur Durchführung eines Er- kennungsverfahrens. Mit der Vorrichtung kann eine Bewegungsbahn 2 mindestens eines bewegten Objektes 3 innerhalb eines Erfassungsbereiches 4, der in der Fig. 1 gestrichelt dargestellt ist, erkannt werden. Als Beispiel für die Bewegungsbahn 2 ist in der Fig. 1 die Bahn einer bewegten Hand des Objektes 3 am Beispiel eines gestikulierenden Benutzers dargestellt. 1 shows schematically a device 1 for carrying out a detection method. With the device, a movement path 2 of at least one moving object 3 within a detection area 4, which is shown in dashed lines in FIG. 1, can be detected. As an example of the movement path 2, the path of a moving hand of the object 3 is shown in FIG. 1 using the example of a gesticulating user.
Die Vorrichtung 1 hat einen monokularen Kamerasensor 5, bei dem es sich um eine hochauflösende CCD-Kamera oder CMOS-Kamera mit einer Vorsatzoptik 6 handelt, die in der Lage ist, eine vorgegebene Tiefe bzw. einen
Tiefenbereich T des Erfassungsbereiches 4 mit vorgegebener Abbildungsschärfe zu erfassen. The device 1 has a monocular camera sensor 5, which is a high-resolution CCD camera or CMOS camera with an optical attachment 6, which is capable of a predetermined depth or a Depth range T of the detection area 4 with predetermined image sharpness to capture.
Über eine Signalleitung 7 steht der Kamerasensor 5 mit einem Auswerte- rechner 8 in Signalverbindung. Letzterer steht über eine weitere Signalleitung 9 mit einem zu steuernden Gerät 10 in Signalverbindung. Alternativ kann es sich beim Auswerterechner 8 und dem zu steuernden Gerät 10 um ein und dieselbe Einheit handeln. Bei dem zu steuernden Gerät 10 kann es sich um eine Art Tablet-PC, ausgerüstet mit den Komponenten 5 und 8 zur Gestikerkennung handeln. Alternativ kann es sich bei dem zu steuernden Gerät 10 auch um ein in Bezug auf den Auswerterechner 8 externes Gerät handeln, beispielsweise um ein TV-Gerät oder um ein sonstiges Gerät der Unterhaltungselektronik. Auch ein haustechnisches Gerät, beispielsweise eine Lichtanlage oder eine Rolladensteuerung oder eine Heizanlage ist ein Beispiel für das anzusteuernde Gerät 10. Via a signal line 7, the camera sensor 5 is in signal connection with an evaluation computer 8. The latter is connected via a further signal line 9 with a device 10 to be controlled in signal connection. Alternatively, the evaluation computer 8 and the device 10 to be controlled can be one and the same unit. The device 10 to be controlled may be a type of tablet PC equipped with components 5 and 8 for gesture recognition. Alternatively, the device 10 to be controlled may also be an external device with respect to the evaluation computer 8, for example a TV set or another consumer electronics device. A home automation device, such as a lighting system or a shutter control or a heating system is an example of the device to be controlled 10th
Zum Erkennen der Bewegungsbahn 2 wird der Erfassungsbereich 4 mit dem Kamerasensor 5 bildgebend erfasst. Hierbei wird ein den Erfassungsbereich 4 wiedergebendes Erfassungsbild im Kamerasensor 5 erzeugt. For detecting the movement path 2, the detection area 4 is imaged by the camera sensor 5. In this case, an acquisition image reproducing the detection area 4 is generated in the camera sensor 5.
Fig. 2 und 3 zeigen beispielhaft zwei derartige Erfassungsbilder 1 1 und 12 zu den Zeitpunkten t = 0 und t = 1 , wobei beispielhaft willkürliche Zeiteinheiten verwendet werden. Das Erfassungsbild 12 ist um einen Verzögerungszeitraum später vom Kamerasensor 5 erzeugt als das Erfassungsbild 1 1. Die beiden Erfassungsbilder 1 1 und 12 werden in Echtzeit oder quasi in Echtzeit digitalisiert und im Auswerterechner 8 hinterlegt. Im Auswerterechner 8 findet dann ein Bestimmen und Auswerten von Korrespondenzen von Bildbereichen der Erfassungsbilder 1 1, 12 statt. Hierzu werden die Erfassungsbilder 1 1 und 12 im Auswerterechner 8 miteinander verglichen. Es
wird sodann eine Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereichen ermittelt. By way of example, FIGS. 2 and 3 show two such acquisition images 1 1 and 12 at times t = 0 and t = 1, using arbitrary time units by way of example. The acquisition image 12 is generated by the camera sensor 5 by a delay period later than the acquisition image 1 1. The two acquisition images 1 1 and 12 are digitized in real time or quasi in real time and stored in the evaluation computer 8. In the evaluation computer 8, a determination and evaluation of correspondences of image areas of the acquisition images 1 1, 12 then takes place. For this purpose, the acquisition images 1 1 and 12 in the evaluation computer 8 are compared with each other. It Then, a distribution density of image areas corresponding to their change in position in the acquisition image is determined.
Der Verzögerungszeitraum, also ein zeitlicher Abstand zwischen den Er- fassungszeitpunkten der Erfassungsbilder 1 1 und 12 kann variierbar sein. Der Verzögerungszeitraum kann im Bereich zwischen 10 ms und 1 s liegen. The delay period, ie a time interval between the detection times of the acquisition images 11 and 12, can be variable. The delay period can be in the range between 10 ms and 1 s.
In den Fig. 2 und 3 sind derartige Bildbereiche durch kleine Quadrate 13 bis 22 beispielhaft dargestellt. Bei diesen Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln. In Figs. 2 and 3, such image areas are exemplified by small squares 13 to 22. These image areas may be individual pixels or groups of pixels.
Die Erfassungsbilder 1 1 und 12 zeigen als Bildpunktgruppen, die erfasste Objekte repräsentieren, beispielhaft einen Regentropfen 23, der beispiels- weise auf einer Kameralinse des Kamerasensors 5 vorliegen kann, sowie eine Hand 24 des Benutzers 3. Sowohl der Regentropfen 23 als auch die Hand 24 haben sich zwischen den beiden Erfassungszeitpunkten t = 0 und t = 1 der Erfassungsbilder 1 1 und 12 bewegt. Beim Bestimmen und Auswerten von Korrespondenzen insbesondere der Bildbereiche 13 bis 22 der Erfassungsbilder 1 1 und 12 wird unter Nutzung insbesondere des Auswerterechners 8 folgendermaßen vorgegangen: Zunächst wird das erste aufgenommene Erfassungsbild 1 1 in überlappende Bildteile aufgeteilt. Bei dem Erfassungsbild 1 1 handelt es sich um ein Digi- talbild, das insgesamt als A x B-Pixelarray ausgebildet ist. Die ganzzahligen Werte A und B, die die Anzahlen der Pixel in den jeweiligen Zeilen und Spalten des Arrays wiedergeben, liegen dabei beispielsweise im Bereich zwischen 500 und 10000. Bei den überlappenden Bildteilen handelt es sich dann um C x D-Teilpixelarrays. Der ganzzahlige Wert C ist dabei
deutlich kleiner als der Wert A und der ganzzahlige Wert D ist deutlich kleiner ist als der Wert B. C und D können beispielsweise im Bereich zwischen 8 und 30 liegen. Benachbarte Bildteile, also benachbarte Teilpixelar- rays haben mindestens eine Pixelreihe bzw. mindestens eine Pixelspalte gemeinsam. The detection images 1 1 and 12 show as pixel groups representing detected objects, for example, a raindrop 23, which may be present on a camera lens of the camera sensor 5, for example, and a hand 24 of the user 3. Both the raindrop 23 and the hand 24th have moved between the two detection times t = 0 and t = 1 of the acquisition images 1 1 and 12. When determining and evaluating correspondences, in particular of the image regions 13 to 22 of the acquisition images 1 1 and 12, the procedure is as follows, in particular using the evaluation computer 8: First, the first captured acquisition image 1 1 is split into overlapping image parts. The capture image 1 1 is a digital image that is formed overall as an A x B pixel array. The integer values A and B, which represent the numbers of pixels in the respective rows and columns of the array, are in the range between 500 and 10,000, for example. The overlapping image parts are then C x D subpixel arrays. The integer value C is included is significantly smaller than the value A and the integer value D is significantly smaller than the value B. C and D may for example be in the range between 8 and 30. Adjacent image parts, ie adjacent subpixelarrays, have at least one pixel row or at least one pixel column in common.
Nach dem Aufteilen in überlappende Bildteile wird jeden dieser Bildteile eine Bildsignatur zugeordnet. Bei dieser Signatur handelt es sich beispielsweise um eine Bitfolge, die eine Helligkeitsverteilung und/oder eine Farbverteilung innerhalb des Bildteiles repräsentiert. Zur Bildsignatur- Ermittlung und zur Bildsignatur- Zuordnung wird jedes Bildteil in überlappende Unter-Bildteile aufgeteilt. Bei den Unter-Bildteilen kann es sich um E x F-Unter-Teilpixelarrays handeln. Die ganzzahligen Werte E und F sind kleiner als die Werte C und D der Teilpixelarrays. E und F können bei- spielsweise im Bereich zwischen 3 und 7 liegen. Zum jeweiligen Bildteil und zu jedem Unter-Bildteil dieses Bildteils wird durch entsprechende Auswertung der Helligkeit- und/oder Farbwerte der zugehörigen Pixel mit- hilfe des Auswerterechners 8, beispielsweise ein mittlerer Grauwert bestimmt. Zudem wird eine Toleranzabweichung ε vorgegeben. Es wird nun eine Differenz jeweils des bestimmten mittleren Unter-Bildteil-Grauwerts zum mittleren Bildteil-Grauwert bestimmt. Soweit die sich ergebende Differenz kleiner ist als -ε, wird als erster Unter-Bildteilsignaturwert der Wert 0 vergeben. Soweit die Differenz zwischen den Werten -ε und ε liegt, wird als zweiter Unter-Bildteilsignaturwert der Wert 1 vergeben. Soweit die Dif- ferenz größer ist als +ε, wird als dritter Unter-Bildteilsignaturwert der Wert 2 vergeben. Die dem jeweiligen Bildteil zuzuordnende Bildteilsignatur ist dann die Folge der vergebenen Unter-Bildteilsignaturwerte.
Mit dem vorstehend erläuterten Zuordnungsverfahren werden für die beiden Erfassungsbilder 1 1 und 12 die jeweiligen Bildteilsignaturen bestimmt. Anschließend werden die Bildteile des zweiten Erfassungsbildes 12 den Bildteilen des ersten Erfassungsbildes 1 1 mit der gleichen Signatur zuge- ordnet. Es ergeben sich durch diese Zuordnung 2D-Vektoren, die als Roh- Bewegungsinkremente verstanden werden können. Diese 2D-Vektoren verbinden Bildteile, also beispielsweise die Bildbereiche 13 bis 22, der beiden Erfassungsbilder 1 1, 12 mit gleicher Bildteilsignatur. Bildteile ohne zugeordnete 2D-Vektoren werden anschließend verworfen, so dass die weitere Auswertung ausschließlich auf die zugeordneten Bildteile beschränkt ist. Es werden nun die 2D- Vektoren in der Umgebung, insbesondere in einer vordefinierten Pixelumgebung, jeweils eines verbleibenden Bildteils verglichen und die Häufigkeit ähnlicher Vektoren in die- ser Umgebung bestimmt. Das Ergebnis dieser Häufigkeitsbestimmung ist die Verteilungsdichte der hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereiche. After splitting into overlapping image parts, each of these image parts is assigned an image signature. By way of example, this signature is a bit sequence which represents a brightness distribution and / or a color distribution within the image part. For image signature detection and image signature mapping, each image part is split into overlapping sub-image parts. The subpictures may be E x F sub-subpixel arrays. The integer values E and F are smaller than the values C and D of the subpixel arrays. For example, E and F may be in the range of 3 to 7. For the respective image part and for each sub-image part of this image part, a mean gray value is determined by appropriate evaluation of the brightness and / or color values of the associated pixels with the aid of the evaluation computer 8. In addition, a tolerance deviation ε is specified. A difference is determined in each case between the determined average sub-image gray value and the average image part gray value. If the resulting difference is smaller than -ε, the value 0 is assigned as the first sub-image signature value. If the difference lies between the values -ε and ε, the value 1 is assigned as the second sub-image signature value. If the difference is greater than + ε, the value 2 is assigned as the third sub-image signature value. The partial image signature to be assigned to the respective image part is then the result of the assigned sub-image signature values. With the allocation method explained above, the respective image part signatures are determined for the two acquisition images 1 1 and 12. Subsequently, the image parts of the second capture image 12 are assigned to the image parts of the first capture image 1 1 with the same signature. This assignment results in 2D vectors, which can be understood as raw motion increments. These 2D vectors connect image parts, that is to say, for example, the image regions 13 to 22 of the two capture images 11, 12 with the same image signature. Image parts without associated 2D vectors are then discarded, so that the further evaluation is limited exclusively to the assigned image parts. Now the 2D vectors in the environment, in particular in a predefined pixel environment, are compared in each case of a remaining image part and the frequency of similar vectors in this environment is determined. The result of this frequency determination is the distribution density of the image areas corresponding to their positional change in the acquisition image.
Diejenigen 2D-Vektoren, deren Verteilungsdichte unterhalb eines vorgege- benen Grenzwerts liegt, werden anschließend verworfen. Those 2D vectors whose distribution density is below a predefined limit are then discarded.
Es wird nun eine 2D-Häufigkeitsverteilung aller verbleibender 2D- Vektoren, also eine 2D-Häufigkeitsmatrix, berechnet. Bewegungslose Bildteile haben eine Vektorlänge 0 in beiden Dimensionen und bilden ein zentrales Element der Verteilungsdichte. Bewegte Bildteile erhöhen die Häufigkeit diskreter 2D-Vektoren mit bestimmter Länge und Richtung. Now, a 2D frequency distribution of all remaining 2D vectors, ie a 2D frequency matrix, is calculated. Motionless image parts have a vector length 0 in both dimensions and form a central element of the distribution density. Moving parts of the picture increase the frequency of discrete 2D vectors with a certain length and direction.
Das zentrale Element der Häufigkeitsverteilung einschließlich 2D- Vektoren mit einer Länge unterhalb einer vorgegebenen Grenzlänge wer-
den anschließend verworfen. Bei stehender Kamera ergibt dies also eine Hintergrundunterdrückung. Bei bewegter Kamera kann alternativ eine Unterdrückung von 2D-Vektoren erfolgen, die dieser Bewegung innerhalb eines vorgegebenen Toleranzbereichs entsprechen. The central element of the frequency distribution including 2D vectors with a length below a given limit length subsequently rejected. When the camera is stationary, this results in background suppression. When the camera is moving, it is alternatively possible to suppress 2D vectors which correspond to this movement within a predetermined tolerance range.
Es wird nun eine größte Häufigkeit eines 2D-Vektorschwarms mit Berechnung von Mittelpunkt und Ausdehnung im zweiten Erfassungsbild 12 ausgewählt. Hierbei kann es sich um die Hand 24 handeln. Die Auswahl kann dann für den nächsthäufigen 2D-Vektorschwarm, also für mindestens einen Nebenschwarm, fortgesetzt werden. Ein Ergebnis dieser Nebenschwarm- Auswahl kann beispielsweise der Regentropfen 23 sein. A maximum frequency of a 2D vector swarm with calculation of center point and extent in the second acquisition image 12 is now selected. This may be the hand 24. The selection can then be continued for the next most frequent 2D vector swarm, ie for at least one subpopulation. One result of this subswath selection can be, for example, the raindrop 23.
Für weitere Erfassungsbilder kann dann eine lineare Vorhersage des jeweiligen Schwarmmittelpunktes im nächsten Bild zur Verfolgung dieses 2D- Vektorschwarms geschehen. Dies kann zur Unterdrückung einer Störung durch in einzelnen Erfassungsbildern einander überlappende Schwärme die Erfassungsgenauigkeit verbessern. For further acquisition images, a linear prediction of the respective center of swarm in the next image for tracking this 2D vector swarm can then take place. This can improve the detection accuracy to suppress interference by swarms overlapping each other in individual detection images.
Beim Ermitteln der Verteilungsdichte durch Vergleich der Erfassungsbilder 1 1 und 12 ergibt sich zum Beispiel, dass im Bereich des Regentropfens 23 praktisch sämtliche Bildpunkte längs einer vergleichbaren Bewegungsbahn 223 verlaufen, was in der Fig. 3 anhand der Bewegung des obersten Bildbereiches 13 veranschaulicht ist. Hierbei ist die Position des Bildbereiches 13 zum Erfassungszeitpunkt t = 0 in der Fig. 3 gestrichelt dargestellt. When determining the distribution density by comparing the acquisition images 1 1 and 12, it results, for example, that in the region of the raindrop 23 virtually all the pixels run along a comparable trajectory 2 23 , which is illustrated in FIG. 3 on the basis of the movement of the uppermost image area 13. Here, the position of the image area 13 at the detection time t = 0 is shown in dashed lines in FIG.
Die Fig. 3 zeigt ein typisches (Zwischen-)Ergebnis beim Auswerten der ermittelten Verteilungsdichte durch einen entsprechenden Auswertealgorithmus. Beispielsweise bei der Korrespondenzbestimmung zu den der Hand 24 zugeordneten Bildbereichen 19 bis 22 haben sich tatsächlich rieh-
tige Korrespondenzen (Bewegung der Bildbereiche 21 und 22) sowie tatsächlich falsche Korrespondenzen (Bewegung der Bildbereiche 19 und 20) ergeben. Zusammen mit anderen, der Hand 24 zuordenbaren Bildbereichen, die in den Fig. 2 und 3 nicht dargestellt sind, ergibt sich eine erhöhte Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild 12 mit den Bildbereichen 21 und 22 korrespondierenden Bildbereichen. FIG. 3 shows a typical (intermediate) result when evaluating the determined distribution density by a corresponding evaluation algorithm. For example, in the correspondence determination to the image areas 19 to 22 assigned to the hand 24, there have actually been True correspondences (movement of the image areas 21 and 22) and actually false correspondences (movement of the image areas 19 and 20) result. Together with other image areas that can be assigned to the hand 24, which are not shown in FIGS. 2 and 3, there is an increased distribution density of image areas that correspond with the image areas 21 and 22 with respect to their positional change in the acquisition image 12.
Dargestellt sind weiterhin nicht körperlich als Objekte wiedergegebene weitere erfasste Bildpunktgruppen in den Erfassungsbildern 1 1 und 12 durch zugehörige Bildbereiche 14 bis 18 sowie die sich bei der Auswertung der Verteilungsdichte ergebenden korrespondierenden Bildbereiche 14 bis 18 nach dem Verzögerungszeitraum, also zum Zeitpunkt t = 1 (vgl. Fig. 3). Aus den sich ergebenden Bewegungsbahnen bzw. Bewegungsinkrementen 2j (i = 13 bis 22) der Bildbereiche 13 bis 22 kann bei der Auswertung der jeweils zugehörigen ermittelten Verteilungsdichte der Bildbereiche darauf geschlossen werden, ob die sich ergebenden Bewegungsbahnen 2j real sein können oder nicht. Ergebnis des Auswertens ist ein Zuordnen einzelner Bildpunkte aus hinsichtlich ihrer Verteilungsdichte ausgewerteten Bildpunktgruppen mit zugehörigem Bewegungsinkrement zwischen den Erfassungsbildern 1 1, 12 aufgrund der ausgewerteten Verteilungsdichte. Das Ergebnis der Auswertung der Erfassungsbilder 1 1 und 12 ergibt jeweils zugeordnete Bildpunkte für die Objekte„Regentropfen" und„Hand" mit den tatsächlichen Bewegungsbahnen 223 für den Regentropfen 23 sowie 221 und 222 für die Hand 24.
Die den zugeordneten Bildpunkten 13, 21 , 22 und den zugeordneten Bewegungsinkrementen 223 sowie 221, 222 zugewiesenen Bildpunktbewegungen können dann ausgewertet werden. Beim Ermitteln der Verteilungsdichte erfolgt - wie vorstehend erläutert - ein Erfassen ausgewählter Abschnitte der Erfassungsbilder 1 1, 12, die sich in den Erfassungsbildern 1 1, 12 unterscheiden. Im Bereich des Regentropfens 23 und im Bereich der Hand 24 erfolgt also ein höher aufgelöstes Bestimmen und Auswerten von Korrespondenzen der Bildbereiche. Beim Auswerten der Verteilungsdichte kommen Verfahren der Mittelwertbildung sowie statistische Verfahren zum Einsatz. Also shown are further detected pixel groups reproduced as objects in the acquisition images 11 and 12 by associated image areas 14 to 18 and the corresponding image areas 14 to 18 resulting from the evaluation of the distribution density after the delay period, ie at time t = 1 (cf. Fig. 3). From the resulting movement paths or movement increments 2j (i = 13 to 22) of the image areas 13 to 22, it can be concluded in the evaluation of the respective associated distribution density of the image areas whether the resulting movement paths 2j can be real or not. The result of the evaluation is an assignment of individual pixels from pixel groups evaluated with respect to their distribution density with associated motion increment between the acquisition images 1 1, 12 on the basis of the evaluated distribution density. The result of the evaluation of the acquisition images 1 1 and 12 results respectively assigned pixels for the objects "raindrops" and "hand" with the actual trajectories 2 23 for the raindrop 23 and 2 21 and 2 22 for the hand 24th The pixel movements assigned to the assigned pixels 13, 21, 22 and the associated movement increments 2 23 and 21 1, 2 22 can then be evaluated. When determining the distribution density takes place - as explained above - detecting selected portions of the detection images 1 1, 12, which differ in the detection images 1 1, 12. In the region of the raindrop 23 and in the region of the hand 24, therefore, a higher-resolution determination and evaluation of correspondences of the image regions takes place. When evaluating the distribution density, methods of averaging and statistical methods are used.
Die Bestimmung und Auswertung von Korrespondenzen kann natürlich anhand einer Abfolge von Einzelbildern größerer Anzahl, zum Beispiel anhand einer Abfolge von drei, vier, fünf, sechs, acht, zehn, fünfundzwanzig, fünfzig, hundert oder noch mehr Einzelbildern erfolgen. The determination and evaluation of correspondences can, of course, be carried out on the basis of a sequence of individual images of a larger number, for example using a sequence of three, four, five, six, eight, ten, twenty-five, fifty, one hundred or even more individual images.
Zum reinen Erkennen der Bewegungsbahn 2 ist kein Gestenmodell erforderlich. For pure recognition of the trajectory 2 no gesture model is required.
Wie anhand des Beispiels„Regentropfen 23" und„Hand 24" schon demonstriert, ermöglicht das Erkennungsverfahren ein Erfassen der Bewegungsbahnen mehrerer unabhängiger Objekte. Hierbei kann es sich auch um mehr als zwei unabhängige Objekte handeln (beispielsweise um drei, vier, fünf, zehn oder noch mehr unabhängige Objekte). As already demonstrated by means of the example "Raindrop 23" and "Hand 24", the recognition method makes it possible to detect the trajectories of several independent objects. These can also be more than two independent objects (for example, three, four, five, ten, or even more independent objects).
Beim bildgebenden Erfassen des Erfassungsbereichs 4 kann ein vorgegebener Tiefenbereich T, also ein Bereich vorgegebener Entfernungen, innerhalb dem Objekte, also beispielsweise der Benutzer 3, erfasst werden sol-
len, definiert werden. Als Tiefenbereich kann beispielsweise ein Entfernungsbereich vom Kamerasensor 5 zwischen 0,5 m und 3 m oder auch zwischen 1 m und 2,5 m vorgegeben werden. Auch eine tolerantere oder spezifischere Vorgabe eines Tiefenbereiches ist möglich. Die Definition des vorgegebenen Tiefenbereichs kann mittels eines Tiefensensors erfolgen. Hierbei können Techniken zum Einsatz kommen, die unter den Stichworten„Structured Light",„TOF" bekannt sind. Auch ein stereobildgebendes Verfahren mit zwei Kamerasensoren kann zur Definition des Tiefenbereiches zum Einsatz kommen. Hierzu kann auch ein Lichtfeld ge- nutzt werden oder es kann Ultraschall bzw. Radarstrahlung genutzt werden. Auch die Schärfentiefe der Vorsatzoptik 6 kann zur Definition des Tiefenbereichs T herangezogen werden. Hierbei können beispielsweise Autofo- kus-Techniken zum Einsatz kommen. Sobald mit Hilfe eines derartigen Verfahrens die Tiefe des erfassten Objekts 3, also dessen Abstand zum Kamerasensor 5 bekannt ist, lässt sich nach Erfassen der Bewegungsbahn 2 auch eine Geschwindigkeit des in seiner Bewegung erfassten Objektes messen und angeben. In the case of imaging detection of the detection area 4, a predefined depth area T, that is to say a range of predetermined distances, within which objects, that is to say, for example, the user 3, can be detected. len, be defined. As a depth range, for example, a distance range from the camera sensor 5 between 0.5 m and 3 m or between 1 m and 2.5 m can be specified. Also, a more tolerant or more specific specification of a depth range is possible. The definition of the predetermined depth range can be done by means of a depth sensor. This technique can be used, which are known under the keywords "Structured Light", "TOF". A stereobildgebendes method with two camera sensors can be used to define the depth range. For this purpose, a light field can also be used or ultrasound or radar radiation can be used. The depth of field of the optical attachment 6 can also be used to define the depth range T. In this case, for example, autofocus techniques can be used. As soon as the depth of the detected object 3, ie its distance from the camera sensor 5, is known with the aid of such a method, it is also possible to measure and indicate a speed of the object detected in its movement after detection of the movement path 2.
Die Definition des Tiefenbereiches kann auch durch Einstellung einer Be- leuchtungs stärke einer Beleuchtung des Erfassungsbereiches mittels einer Lichtquelle 25 zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgen. Die Lichtquelle 25 steht über eine nicht näher dargestellte Signalverbindung mit dem Kamerasensor 5 und/oder dem Auswerterechner 8 in Signalverbindung. Alternativ oder zusätzlich zu einer Beleuchtungsstär- keneinstellung kann zur Definition des Tiefenbereiches auch eine zeitliche Variation eines Beleuchtungszeitraums bei der Beleuchtung mit der Lichtquelle 25 in Relation zur Belichtungszeit des Kamerasensors 5 bei der bildgebenden Erfassung genutzt werden.
Das vorstehend erläuterte Bewegungsbahn-Erkennungsverfahren kann innerhalb eines Verfahrens zur Gestikerkennung genutzt werden. The definition of the depth range can also be achieved by setting a lighting intensity of an illumination of the detection area by means of a light source 25 at an exposure time during the imaging acquisition. The light source 25 is connected via a signal connection, not shown, with the camera sensor 5 and / or the evaluation computer 8 in signal connection. As an alternative or in addition to an illuminance setting, a temporal variation of an illumination period during illumination with the light source 25 in relation to the exposure time of the camera sensor 5 during the imaging acquisition can also be used to define the depth range. The above-described trajectory recognition method can be used within a method of gesture recognition.
Hierbei werden mehrere Modell-Bildpunktbewegungen bzw. Modell- Objektbewegungen als Steuerungssymbole bereitgestellt und diese Modell- Bildpunktbewegungen werden mit den Bildpunktbewegungen verglichen, die mit dem Bewegungsbahn-Erkennungsverfahren ausgewertet wurden. Anschließend wird diejenige Modell-Bildpunktbewegung als ausgewähltes Steuerungssymbol identifiziert, welche die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat. Schließlich wird eine dem ausgewählten Steuerungssymbol zugeordnete Steuerungsaktion durchgeführt. Bei diesem Gestikerkennungsverfahren können Techniken zum Einsatz kommen, die im Stand der Technik als„Template Matching" und„Inverse Kinematics" bekannt sind. In this case, a plurality of model pixel movements or model object movements are provided as control symbols, and these model pixel movements are compared with the pixel movements which were evaluated by the movement path recognition method. Subsequently, the model pixel movement is identified as a selected control symbol, which has the greatest agreement with the evaluated pixel movement. Finally, a control action associated with the selected control icon is performed. In this gesture recognition technique, techniques known in the art as "template matching" and "inverse kinematics" may be used.
Die Modell-Bildpunktbewegungen können mindestens eines der folgenden Bewegungsmuster umfassen: The model pixel movements may include at least one of the following motion patterns:
Bewegung über den Erfassungsbereich von links nach rechts; Movement across the detection area from left to right;
- Bewegung über den Erfassungsbereich von rechts nach links; Movement across the detection area from right to left;
Bewegung über den Erfassungsbereich von oben nach unten; Movement across the detection area from top to bottom;
Bewegung über den Erfassungsbereich von unten nach oben; Movement across the detection area from bottom to top;
Bewegung über den Erfassungsbereich in Herzform; Movement over the detection area in heart shape;
Bewegung über den Erfassungsbereich in Z-Form; Movement over the detection area in Z-shape;
- Bewegung über den Erfassungsbereich in Kreisform; - movement over the detection area in circular form;
Schließen einer offenen Hand zu einer Faust; Closing an open hand into a fist;
keine Bewegung.
Die Steuerungsaktion kann die Vorgabe eines Eingabebereiches 26 innerhalb des gesamten Erfassungsbereiches 4 durch eine Bereichsvorgabe- Geste beinhalten. Diese Bereichsvorgabe-Geste kann beispielsweise durch eine Kreisform-Bewegung einer geöffneten oder geschlossenen Hand voll- führt werden. Die Person 3 kann hierdurch innerhalb des gesamten Erfassungsbereichs 4 den Eingabebereich 26 definieren, der anschließend vom Kamerasensor 5 hochauflösend erfasst wird. Hierzu kann die Vorsatzoptik 6 beispielsweise als Zoom-Optik ausgeführt sein. In dem dann definierten Eingabebereich 26 können dann weitere, detailliertere Eingaben erfolgen. Innerhalb des Erfassungsbereiches 26 kann beispielsweise durch eine entsprechende Projektionstechnik mit Hilfe eines Projektionsmoduls bzw. einer Projektoreinrichtung 27 ein Eingaberaster projiziert werden, beispielsweise eine Tastaturbelegung. Der Nutzer kann dann eine in den Erfassungsbereich 4 mit der Projektoreinrichtung 27 projizierte Tastatur bedie- nen, was wiederum vom Kamerasensor 5 erfasst, erkannt und ausgewertet wird. no movement. The control action may include predetermining an input area 26 within the entire detection area 4 by an area specification gesture. This range setting gesture may be performed, for example, by a circular motion of an open or closed hand. The person 3 can thereby define within the entire detection area 4 the input area 26, which is subsequently detected by the camera sensor 5 in high-resolution. For this purpose, the attachment optics 6 can be designed, for example, as a zoom lens. In the then defined input area 26 then more, more detailed inputs can be made. Within the detection area 26, an input raster, for example a keyboard layout, can be projected, for example, by means of a corresponding projection technology with the aid of a projection module or a projector device 27. The user can then operate a keyboard projected into the detection area 4 with the projector device 27, which in turn is detected, recognized and evaluated by the camera sensor 5.
Die Gestikerkennung und nachfolgende Gestensteuerung kann insbesondere ohne Unterscheidung von verschiedenen Trajektorien-Modellen für Symbol-Gesten funktionieren. Dies wird nachfolgend anhand eines weiteren Beispiels erläutert: The gesture recognition and subsequent gesture control can in particular work without distinction from different trajectory models for symbol gestures. This will be explained below with reference to another example:
Aus der Folge von - wie vorstehend im Zusammenhang mit den Fig. 2 und 3 erläutert - bestimmten Bewegungsinkrementen wird eine kreisförmige Trajektorie erkannt. Diese kreisförmige Trajektorie dient als Kreis-Symbol zur Aktivierung der Gestensteuerung. Zur Aktivierung des Systems ist also ausschließlich eine Unterscheidung der Ergebniszustände„Kreis" oder „Nicht-Kreis" bei der Bewegungsinkrement- Verfolgung eines 2D-Vektor- Hauptschwarms erforderlich. Hierbei erfolgt eine Auswertung der Bewe-
gungsinkremente mit anschließender Zuordnung zu einem der Ergebniszustände„Kreis" oder„Nicht-Kreis". Die zugehörige Kreis-Symbol-Geste stellt dann eine Entsperr-Geste („Point to Unlock") dar. Alle 2D-Vektoren in einer Umgebung der zweithöchsten Häufigkeit der Vektor- Verteilungsdichte beschreiben einen Vektorschwarm. Berechenbar sind hierbei die mittleren 2D-Vektorlängen sowie ein Mittelwert und eine Standardabweichung von Positionen der jeweiligen Schwarmvektoren im Folgebild. Die mittleren 2D-Vektorlängen beschreiben das Bewegungsin- krement. Der Mittelwert der Vektorpositionen beschreibt ein Zentrum des Schwarms. Die Positions-Standardabweichungen sind ein Maß für die Größe des Schwarms. From the sequence of - as explained above in connection with FIGS. 2 and 3 - certain movement increments a circular trajectory is detected. This circular trajectory serves as a circle symbol for activating the gesture control. In order to activate the system, only a distinction of the result states "circle" or "non-circle" in the movement increment tracking of a 2D vector main swarm is required. This involves an evaluation of the movement tion increments with subsequent assignment to one of the result states "circle" or "non-circle". The associated circle-symbol gesture then represents a "point to unlock" gesture All 2D vectors in a neighborhood of the second highest frequency of the vector distribution density describe a vector swarm, which can be calculated using the mean 2D vector lengths as well as a Mean value and a standard deviation of positions of the respective swarm vectors in the subsequent image The mean 2D vector lengths describe the movement increment The mean of the vector positions describes a center of the swarm The position standard deviations are a measure of the size of the swarm.
Der Mittelpunkt der erkannten Kreis-Trajektorie wird dann von der Gestik- Steuerung als polares Koordinatensystem im Erfassungsbild, aufweisend einen Mittelpunkt und einen Referenzradius, erfasst. Diesem polaren Koordinatensystem werden von der Gestensteuerung acht Sektoren zugeordnet, die - wie in der Kartografie - den Himmelsrichtungen N, NO, O, SO, S, SW, W und NW zugeordnet werden können. The center of the detected circle trajectory is then detected by the gesture controller as a polar coordinate system in the acquisition image, having a center and a reference radius. This polar coordinate system is assigned by the gesture control eight sectors, which - as in the cartography - the cardinal directions N, NO, O, SO, S, SW, W and NW can be assigned.
Um den erfassten Referenzradius wird ein äußerer Begrenzungsring mit 1,5-fachem Referenzradius definiert. An outer boundary ring with a 1.5-fold reference radius is defined around the detected reference radius.
Verlässt ein erfasster Schwarm-Mittelpunkt diesen Ring oder wird längere Zeit keine Schwarmbewegung erfasst, wird dies von der Gestensteuerung als Deaktivierung der Geste interpretiert. Wird eine Rotation des Schwarms innerhalb des Rings erfasst, kann dies bei Rotation beispielsweise im Uhrzeigersinn als Vergrößerung eines von der Bedienperson gewünschten Intensitätssignals und umgekehrt bei Erfassung einer Rotation des Schwarms
entgegen dem Uhrzeigersinn als Verkleinerung des gewünschten Intensitäts-Signals interpretiert werden. Durch entsprechende Rotations-Gesten kann also beispielsweise eine Lautstärke eines über die die Gestensteuerung zu bedienenden Endgeräts gesteuert werden. If a detected swarm center leaves this ring or if no swarm movement is detected for a longer time, the gesture control interprets this as deactivation of the gesture. When a rotation of the swarm within the ring is detected, this can be, for example, clockwise in rotation as an enlargement of an intensity signal desired by the operator and vice versa upon detection of a rotation of the swarm counterclockwise interpreted as a reduction of the desired intensity signal. Thus, for example, a volume of a terminal to be operated via the gesture control can be controlled by corresponding rotational gestures.
Abhängig davon, ob der Schwärm in einem bestimmten der acht Sektoren detektiert wird, kann ein bestimmtes Signal ausgelöst werden. Eine Verlagerung des Schwarms in bestimmte Sektoren kann dabei jeweils zugeordnete Signale auslösen. Durch Verlagern des Schwarms in ein bestimmtes Signal und Beibehalten dieser Position kann zum Beispiel ein Schaltsignal ausgelöst werden. Auf diese Weise kann eine Steuerungsbetätigung erfolgen, die derjenigen einer Touchpad-Bedienung nachempfunden ist. Depending on whether the swarm is detected in a specific one of the eight sectors, a specific signal can be triggered. A shift of the swarm into certain sectors can trigger associated signals. For example, by shifting the swarm to a particular signal and maintaining that position, a switching signal may be triggered. In this way, a control operation similar to that of a touchpad operation can be performed.
Über die ursprüngliche, initialisierende Kreis-Symbol-Geste kann also eine Art Tastatur im Raum definiert werden, über die der Benutzer gewünschte Steuerungssignale auslösen kann. Jeder der vorstehend erläuterten Sektoren kann dann eine Taste dieser Tastatur darstellen. The original, initializing circle-symbol gesture can therefore be used to define a type of keyboard in the room over which the user can trigger desired control signals. Each of the sectors discussed above may then represent a key of that keyboard.
Das Auslösen gewünschter Steuerungssignale nach erfolgter Kreis- Symbol-Initialisierung wird auch„Point to Control" genannt. The triggering of desired control signals after the circle symbol initialization is also called "Point to Control".
Bei der Gestikerkennung kann vor dem Vergleichsschritt eine Gesichtserkennung erfolgen, die eine Voraussetzung für die Durchführung der weiteren Schritte der Gestikerkennung ist. Abhängig vom Ergebnis der Ge- Sichtserkennung kann eine Auswahl der bereitgestellten Modell- Bildpunktbewegungen erfolgen. Hierdurch kann dem jeweils über die Gesichtserkennung erkannten Nutzer ein Profil an Modell- Bildpunktbewegungen zugeordnet werden. Es lassen sich also Nutzerprofile vorgeben.
In the gesture recognition, facial recognition may be performed prior to the comparison step, which is a prerequisite for performing the further steps of gesture recognition. Depending on the result of the face recognition, a selection of the provided model pixel movements can take place. As a result, a profile of model pixel movements can be assigned to the user respectively recognized via the face recognition. So you can specify user profiles.
Claims
Patentansprüche claims
1. Verfahren zur Erkennung einer Bewegungsbahn (2; 2j) mindestens eines bewegten Objektes (3; 23, 24) innerhalb eines Erfassungsbereiches (4) mit folgenden Schritten: 1. A method for detecting a movement path (2, 2j) of at least one moving object (3, 23, 24) within a detection area (4), comprising the following steps:
bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden ersten Erfassungsbildes (1 1) zu einem ersten Erfassungszeitpunkt, Imaging the detection area (4) and generating a detection area (1) reproducing the first detection image (1 1) at a first detection time,
bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden zweiten Erfassungsbildes (12) zu einem zweiten, um einen Verzögerungszeitraum späteren Erfassungszeitpunkt, Imaging the detection area (4) and generating a second detection image (12) representing the detection area (4) at a second detection time later by a delay period,
Bestimmen und Auswerten von Korrespondenzen von Bildbereichen (13 bis 22) der Erfassungsbilder (1 1 , 12) mit folgenden Schritten: Determining and evaluating correspondences of image areas (13 to 22) of the acquisition images (1 1, 12), comprising the following steps:
— Vergleichen der Erfassungsbilder (1 1 , 12), Comparing the acquisition images (1 1, 12),
— Ermitteln einer Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild (1 1 , 12) korrespondierenden Bildbereichen (13 bis 22), Determining a distribution density of image areas (13 to 22) corresponding to their change in position in the acquisition image (1 1, 12),
— Auswerten der ermittelten Verteilungsdichte, - evaluation of the determined distribution density,
Zuordnen von mindestens einem Bildpunkt einer Bildpunktgruppe (23, 24) und/oder eines Bildbereiches (13 bis 22) mit zugehörigem Bewegungsinkrement (223; 221, 222) zwischen den Erfassungsbildern (1 1 , 12) aufgrund der ausgewerteten Verteilungsdichte, - Auswerten von dem zugeordneten Bildpunkt und seinem Bewegungsinkrement (223; 221, 222) zugewiesenen Bildpunktbewegungen.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass beim bildgebenden Erfassen des Erfassungsbereiches (4) ein vorgegebener Tiefenbereich (T), also ein Bereich vorgegebener Entfernungen, innerhalb dem Bildpunkte erfasst werden sollen, definiert wird. Assigning at least one pixel of a pixel group (23, 24) and / or an image region (13 to 22) with associated motion increment (2, 23 , 21 , 22 ) between the detection images (11, 12) on the basis of the evaluated distribution density, Evaluating pixel movements assigned to the associated pixel and its movement increment (2 23 , 2 21 , 2 22 ). A method according to claim 1, characterized in that in the imaging detection of the detection area (4) a predetermined depth range (T), ie a range of predetermined distances to be detected within the pixels is defined.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass eine Definition des Tiefenbereiches (T) durch Einstellung einer Beleuchtungsstärke einer Beleuchtung des Erfassungsbereiches zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgt. A method according to claim 2, characterized in that a definition of the depth range (T) by adjusting an illuminance of an illumination of the detection area to an exposure time in the imaging acquisition takes place.
Verfahren zur Gestikerkennung unter Einsatz eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 3 mit folgenden weiteren Schritten: Method for detecting a gesture using a recognition method according to one of Claims 1 to 3, with the following further steps:
Bereitstellen mehrerer Modell-Bildpunktbewegungen als Steuerungssymbole, Providing multiple model pixel motions as control symbols
Vergleichen der mit dem Erkennungsverfahren ausgewerteten Bildpunktbewegungen mit den Modell-Bildpunktbewegungen, Identifizieren derjenigen Modell-Bildpunktbewegung, die die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat, als ausgewähltes Steuerungssymbol, Comparing the pixel movements evaluated with the recognition method with the model pixel movements, identifying the model pixel movement that has the greatest agreement with the evaluated pixel movement as the selected control symbol,
Durchführen einer dem ausgewählten Steuerungssymbol zugeordneten Steuerungsaktion. Perform a control action associated with the selected control icon.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Modell-Bildpunktbewegungen mindestens eine der folgenden Bewegungsmuster umfassen: A method according to claim 4, characterized in that the model pixel movements comprise at least one of the following movement patterns:
Bewegung über den Erfassungsbereich von links nach rechts; Movement across the detection area from left to right;
Bewegung über den Erfassungsbereich von rechts nach links;Movement across the detection area from right to left;
Bewegung über den Erfassungsbereich von oben nach unten;
Bewegung über den Erfassungsbereich von unten nach oben; Movement across the detection area from top to bottom; Movement across the detection area from bottom to top;
Bewegung über den Erfassungsbereich in Herzform; Movement over the detection area in heart shape;
Bewegung über den Erfassungsbereich in Z-Form; Movement over the detection area in Z-shape;
Bewegung über den Erfassungsbereich in Kreisform; Movement over the detection area in circular form;
- Schließen einer offenen Hand zu einer Faust; - closing an open hand into a fist;
keine Bewegung. no movement.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die6. The method according to claim 4 or 5, characterized in that the
Steuerungsaktion die Vorgabe eines Eingabebereichs (26) innerhalb des Erfassungsbereichs (4) durch eine Bereichsvorgabe-Geste beinhaltet. Control action includes the specification of an input area (26) within the detection area (4) by a range setting gesture.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass vor dem Vergleichen eine Gesichtserkennung erfolgt. 7. The method according to any one of claims 4 to 6, characterized in that prior to comparing a face recognition.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass abhängig vom Ergebnis der Gesichtserkennung eine Auswahl der bereitgestellten Modell-Bildpunktbewegungen erfolgt. 9. Vorrichtung (1) zur Durchführung eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 8 8. The method according to claim 7, characterized in that, depending on the result of the face recognition, a selection of the provided model pixel movements takes place. 9. Device (1) for carrying out a recognition method according to one of claims 1 to 8
mit einem monokularen Kamerasensor (5), with a monocular camera sensor (5),
mit einem Auswerterechner (8), der mit dem Kamerasensor (5) in with an evaluation computer (8) connected to the camera sensor (5) in
Signalverbindung (7) steht. Signal connection (7) is.
10. Vorrichtung nach Anspruch 9, gekennzeichnet durch eine Projektoreinrichtung (27).
10. Apparatus according to claim 9, characterized by a projector device (27).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15700309.6A EP3097511A1 (en) | 2014-01-24 | 2015-01-14 | Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102014201313.5 | 2014-01-24 | ||
DE102014201313.5A DE102014201313A1 (en) | 2014-01-24 | 2014-01-24 | Method for detecting a movement path of at least one moving object within a detection area, method for gesture recognition using such a detection method, and device for carrying out such a detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015110331A1 true WO2015110331A1 (en) | 2015-07-30 |
Family
ID=52347334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/EP2015/050585 WO2015110331A1 (en) | 2014-01-24 | 2015-01-14 | Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3097511A1 (en) |
DE (1) | DE102014201313A1 (en) |
WO (1) | WO2015110331A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3682371A1 (en) * | 2017-09-12 | 2020-07-22 | Robert Bosch GmbH | Method and device for evaluating images, operational assistance method and operating device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016201704A1 (en) | 2016-02-04 | 2017-08-10 | Bayerische Motoren Werke Aktiengesellschaft | A gesture recognition apparatus and method for detecting a gesture of an occupant of a vehicle |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030035583A1 (en) * | 2001-05-17 | 2003-02-20 | Anna Pelagotti | Segmentation unit for and method of determining a second segment and image processing apparatus |
US20100231522A1 (en) * | 2005-02-23 | 2010-09-16 | Zienon, Llc | Method and apparatus for data entry input |
US20100271494A1 (en) * | 2009-04-23 | 2010-10-28 | Canon Kabushiki Kaisha | Motion vector detection apparatus, motion vector detection method, and image capturing apparatus |
US20110299737A1 (en) * | 2010-06-04 | 2011-12-08 | Acer Incorporated | Vision-based hand movement recognition system and method thereof |
US20120308144A1 (en) * | 2011-06-01 | 2012-12-06 | Sony Corporation | Image processing device, image processing method, recording medium, and program |
EP2615525A2 (en) * | 2012-01-11 | 2013-07-17 | Biosense Webster (Israel), Ltd. | Touch free operation of devices by use of depth sensors |
WO2013109609A2 (en) * | 2012-01-17 | 2013-07-25 | Leap Motion, Inc. | Enhanced contrast for object detection and characterization by optical imaging |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4954962A (en) | 1988-09-06 | 1990-09-04 | Transitions Research Corporation | Visual navigation and obstacle avoidance structured light system |
US5889532A (en) | 1996-08-02 | 1999-03-30 | Avid Technology, Inc. | Control solutions for the resolution plane of inverse kinematic chains |
US6681034B1 (en) | 1999-07-15 | 2004-01-20 | Precise Biometrics | Method and system for fingerprint template matching |
EP2378310B1 (en) | 2010-04-15 | 2016-08-10 | Rockwell Automation Safety AG | Time of flight camera unit and optical surveillance system |
DE102011002577A1 (en) | 2011-01-12 | 2012-07-12 | 3Vi Gmbh | Remote control device for controlling a device based on a moving object and interface module for communication between modules of such a remote control device or between one of the modules and an external device |
DE102011080702B3 (en) | 2011-08-09 | 2012-12-13 | 3Vi Gmbh | Object detection device for a vehicle, vehicle having such an object detection device |
-
2014
- 2014-01-24 DE DE102014201313.5A patent/DE102014201313A1/en not_active Withdrawn
-
2015
- 2015-01-14 WO PCT/EP2015/050585 patent/WO2015110331A1/en active Application Filing
- 2015-01-14 EP EP15700309.6A patent/EP3097511A1/en not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030035583A1 (en) * | 2001-05-17 | 2003-02-20 | Anna Pelagotti | Segmentation unit for and method of determining a second segment and image processing apparatus |
US20100231522A1 (en) * | 2005-02-23 | 2010-09-16 | Zienon, Llc | Method and apparatus for data entry input |
US20100271494A1 (en) * | 2009-04-23 | 2010-10-28 | Canon Kabushiki Kaisha | Motion vector detection apparatus, motion vector detection method, and image capturing apparatus |
US20110299737A1 (en) * | 2010-06-04 | 2011-12-08 | Acer Incorporated | Vision-based hand movement recognition system and method thereof |
US20120308144A1 (en) * | 2011-06-01 | 2012-12-06 | Sony Corporation | Image processing device, image processing method, recording medium, and program |
EP2615525A2 (en) * | 2012-01-11 | 2013-07-17 | Biosense Webster (Israel), Ltd. | Touch free operation of devices by use of depth sensors |
WO2013109609A2 (en) * | 2012-01-17 | 2013-07-25 | Leap Motion, Inc. | Enhanced contrast for object detection and characterization by optical imaging |
DE112013000590T5 (en) * | 2012-01-17 | 2014-11-06 | Leap Motion, Inc. | Improved contrast for object detection and characterization through optical imaging |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3682371A1 (en) * | 2017-09-12 | 2020-07-22 | Robert Bosch GmbH | Method and device for evaluating images, operational assistance method and operating device |
US11443521B2 (en) | 2017-09-12 | 2022-09-13 | Robert Bosch Gmbh | Method and device for evaluating images, operational assistance method and operating device |
Also Published As
Publication number | Publication date |
---|---|
DE102014201313A1 (en) | 2015-07-30 |
EP3097511A1 (en) | 2016-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102010007455B4 (en) | System and method for contactless detection and recognition of gestures in a three-dimensional space | |
EP2005361A1 (en) | Multi-sensorial hypothesis based object detector and object pursuer | |
EP3642696B1 (en) | Method and device for detecting a user input on the basis of a gesture | |
DE102008052928A1 (en) | Device, method and computer program for detecting a gesture in an image, and device, method and computer program for controlling a device | |
DE102018133188A1 (en) | DISTANCE DETERMINATION OF A SAMPLE LEVEL IN A MICROSCOPE SYSTEM | |
DE102008016215A1 (en) | Information device operating unit | |
DE102007013664A1 (en) | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient | |
EP3642697B1 (en) | Method and device for detecting a user input on the basis of a gesture | |
EP3097511A1 (en) | Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method | |
EP2887010B1 (en) | Method and device for three dimensional optical measurement of objects with a topometric measuring method and computer programme for same | |
DE102014106661B4 (en) | Switch operating device, mobile device and method for operating a switch by a non-tactile translation gesture | |
DE102013217347A1 (en) | USER INTERFACE FOR PARAMETER ADJUSTMENT FOR EDGE MEASUREMENT VIDEO TOOLS | |
DE102014224599A1 (en) | Method for operating an input device, input device | |
EP3857304A2 (en) | Method for focusing a camera | |
WO2023194009A1 (en) | Method for predicting trajectories of objects | |
DE102014224632A1 (en) | Method for operating an input device, input device | |
EP3798969A1 (en) | Depth image processing method, image processing apparatus and depth camera | |
WO2019121729A1 (en) | Method for determining distance information from an image of a spatial region | |
WO2020043440A1 (en) | Directional estimation of an open space gesture | |
DE102019102423A1 (en) | Method for live annotation of sensor data | |
DE112019000857T5 (en) | Reference position setting method and apparatus for displaying a virtual image | |
DE102004050942B4 (en) | Bootstrap method for supervised teach-in of a pattern recognition system | |
EP3224955B1 (en) | Switch actuating device, mobile device, and method for actuating a switch by means of a non-tactile gesture | |
DE102016202526A1 (en) | Method and device for detecting a control gesture of a user, in particular in a motor vehicle | |
DE102022207266A1 (en) | Apparatus and method for augmenting an image for self-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15700309 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
REEP | Request for entry into the european phase |
Ref document number: 2015700309 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2015700309 Country of ref document: EP |