WO2022050742A1 - 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 - Google Patents
깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 Download PDFInfo
- Publication number
- WO2022050742A1 WO2022050742A1 PCT/KR2021/011899 KR2021011899W WO2022050742A1 WO 2022050742 A1 WO2022050742 A1 WO 2022050742A1 KR 2021011899 W KR2021011899 W KR 2021011899W WO 2022050742 A1 WO2022050742 A1 WO 2022050742A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- augmented reality
- reality device
- hand
- wearable augmented
- depth image
- Prior art date
Links
- 230000003190 augmentative effect Effects 0.000 title claims abstract description 90
- 230000033001 locomotion Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000013135 deep learning Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 210000002478 hand joint Anatomy 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 9
- 210000003128 head Anatomy 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
Definitions
- the present invention relates to a hand motion detection method of a wearable augmented reality device and a wearable augmented reality device capable of detecting hand motion, and more particularly, to a hand motion detection method of a wearable augmented reality device using a depth image and hand motion detection using a depth image It relates to a wearable augmented reality device capable of this.
- a head mounted display which is a type of wearable device, refers to various devices that a user can wear on the head to receive multimedia contents.
- the head mounted display is worn on the user's body and provides images to the user in various environments as the user moves.
- Such a head mounted display (HMD) is divided into a see-through type and a see-closed type, and the see-through type is mainly used for Augmented Reality (AR), and the closed type is mainly used for virtual reality (Virtual Reality). Reality, VR).
- FIG. 1 is a diagram illustrating a schematic configuration of a general glasses-type head mounted display (HMD)
- FIG. 2 is a diagram illustrating a schematic configuration of a general band-type head mounted display (HMD).
- a general head-mounted display in the form of glasses or a band is worn on the user's face or head and is transmitted through a lens that projects augmented reality (AR) image information to the real world. will be provided to the user.
- AR augmented reality
- an optimized input method for user interaction is required.
- an input method usable in the augmented reality of the head mounted display there may be a button provided in the HMD, a separate input device connected to the HMD, gesture recognition, and the like.
- gesture recognition can be said to be a suitable input method that can be used in augmented reality of a head-mounted display, but there is still a limit to the technology for accurately recognizing various gestures in real time.
- Registered Patent No. 10-1700569 (Title of the invention: an HMD device capable of gesture-based user authentication and a gesture-based user authentication method of the HMD device, registration date: January 2017) 23) have been disclosed.
- the present invention has been proposed to solve the above problems of the previously proposed methods, and by using the RGB-converted depth image, robust hand motion detection can be performed even in natural light, and hand joints using a deep learning-based joint inference model
- the hand motion detection method of the wearable augmented reality device using the depth image and the hand motion using the depth image can be quickly and accurately detected in real time from the depth image.
- An object of the present invention is to provide a wearable augmented reality device capable of detecting.
- It may be performed in an embedded environment on the wearable augmented reality device.
- step (1) is
- step (2) is
- step (3) is
- (3-3) may include the step of outputting coordinates as many as the number of joints.
- step (4) More preferably, in step (4),
- the hand gesture can be defined by mapping the coordinate information obtained in step (3) to an index.
- a wearable augmented reality device capable of detecting hand motion using a depth image according to a feature of the present invention for achieving the above object
- an image conversion module for obtaining an image captured by the wearable augmented reality device and converting the obtained image into a depth map
- a region of interest detection module for detecting a region of interest (ROI) including a hand region from the depth image converted by the image conversion module;
- a coordinate inference module for acquiring joint coordinates from the detected region of interest using a deep learning-based joint inference model
- It is characterized in that it includes a hand motion detection module that defines a hand motion through the relative positions of the coordinates obtained by the coordinate inference module.
- the image conversion module Preferably, the image conversion module, the image conversion module, and
- a depth image may be obtained by performing color mapping on the pixel values of the obtained image and converting the pixel values into RGB 3-channel depth images.
- the method for detecting hand motion of a wearable augmented reality device using a depth image and a wearable augmented reality device capable of detecting hand motion using a depth image which are proposed in the present invention, robust hand motion detection even in natural light by using an RGB-converted depth image
- a deep learning-based joint inference model to acquire the coordinates of the hand joints and defining the hand motions through the relative positions of the coordinates, it is possible to quickly and accurately detect hand motions from depth images in real time.
- HMD head mounted display
- HMD head mounted display
- FIG. 3 is a diagram illustrating a configuration of a hand motion detection device of a wearable augmented reality device capable of detecting hand motion using a depth image according to an embodiment of the present invention.
- FIG. 4 is a diagram illustrating a flow of a method for detecting a hand motion of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- step S100 is a diagram illustrating a detailed flow of step S100 in a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- FIG. 6 is a view showing, for example, a pre-conversion image and a converted depth image in a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- step S200 is a diagram illustrating a detailed flow of step S200 in a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- FIG. 8 is a diagram illustrating, for example, a detection screen of a region of interest in step S210 of a method for detecting a hand gesture of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- step S300 is a diagram illustrating a detailed flow of step S300 in a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- FIG. 10 is a diagram illustrating, for example, joint points in a method for detecting a hand motion of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- FIG. 11 is a view showing the overall configuration of a wearable augmented reality device capable of detecting hand motion using a depth image according to an embodiment of the present invention.
- region of interest detection module 120 region of interest detection module
- S120 A step of color mapping the pixel values of the image to convert the RGB 3-channel depth image
- S220 acquiring one ROI by applying NMS to a plurality of candidate regions
- S400 A step of defining a hand gesture through the relative positions of the obtained coordinates
- the wearable augmented reality device capable of detecting hand motion using a depth image according to an embodiment of the present invention acquires an image captured by the wearable augmented reality device, and uses the acquired image as a depth image
- An image conversion module 110 for converting (Depth map), a region of interest detection module 120 for detecting a region of interest (ROI) including a hand region from the depth image converted by the image conversion module 110 , a coordinate inference module 130 that acquires coordinates of a joint using a deep learning-based joint inference model from the detected region of interest, and a hand motion detection module that defines a hand motion through the relative positions of the coordinates obtained from the coordinate inference module 130 140 may be included.
- the image conversion module 110 , the region of interest detection module 120 , the coordinate inference module 130 , and the hand gesture detection module 140 constitute the hand gesture detection apparatus 100
- the hand gesture detection apparatus 100 is a wearable type. It may be one of the components of the augmented reality device.
- the hand motion detection apparatus 100 may perform a hand motion detection method of a wearable augmented reality device using a depth image according to an embodiment of the present invention, which will be described in detail later in FIG. 4 in an embedded environment on the wearable augmented reality device. .
- the wearable augmented reality device is worn on the user's head or head, and the user wearing the wearable augmented reality device sees the real world transmitted through the optical system and the image output from the display and transmitted to the user's pupil through the optical system
- It may be a device that allows the user to experience augmented reality by receiving information together.
- the wearable augmented reality device may be of various types, such as a glass type, a goggles type, etc., and if it is worn on the user's body to experience the augmented reality through the user's field of view, the wearable augmented reality device of the present invention is irrespective of its specific form or type. It can act as an augmented reality device.
- FIG. 4 is a diagram illustrating a flow of a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- an image captured by the wearable augmented reality device is acquired, and the acquired image is used as a depth image Converting to (S100), detecting a region of interest (ROI) including the hand region from the converted depth image (S200), obtaining joint coordinates from the detected region of interest using a deep learning-based joint inference model It may be implemented including a step (S300) of doing and a step (S400) of defining a hand gesture through the relative positions of the obtained coordinates.
- S100 depth image Converting to
- ROI region of interest
- S200 converted depth image
- S400 deep learning-based joint inference model
- step S100 the image conversion module 110 may acquire an image captured by the wearable augmented reality device, and convert the acquired image into a depth map.
- the detailed flow of step S100 will be described in detail with reference to FIG. 5 .
- step S100 of the method for detecting hand gestures of a wearable augmented reality device using a depth image includes obtaining an image collected from a depth camera (S110) and the image It may be implemented including the step (S120) of color mapping the pixel values to convert the RGB 3-channel depth image.
- an image collected from a depth camera of the wearable augmented reality device may be acquired. That is, a depth camera may be provided on the front or side of the wearable augmented reality device, and the image conversion module 110 may receive an image in the user's gaze direction acquired by the depth camera.
- pixel values of the image obtained in operation S110 may be color-mapped and converted into a depth image of three RGB channels. More specifically, in step S120, pixel values in a total range of 65,536 of the images collected by the depth camera may be color-mapped to 1024 colors, and converted into a depth image in which colors are differentiated according to depth.
- the image conversion module 110 may transmit the depth image converted to the RGB channel as described above to the ROI detection module 120 .
- FIG. 6 is a diagram illustrating, for example, a pre-conversion image and a converted depth image in a method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention.
- the image (the left image in FIG. 6 ) acquired from the depth camera is Accordingly, it may be converted into an RGB-converted depth image (the right image of FIG. 6 ) so that the colors are differentiated and displayed.
- the depth image converted to the RGB channel has a characteristic that is strong against the influence of natural light or lighting, as can be seen in the part indicated by the red oval.
- the obtained image may be pre-processed in step S110, and then the pre-processed image may be converted into a depth image in step S120. More specifically, in step S110, the resolution may be changed. That is, in order to convert the depth image to a depth image, preprocessing such as resolution change and black-and-white conversion may be performed.
- the region of interest detection module 120 may detect a region of interest (ROI) including the hand region from the depth image converted in operation S100 .
- ROI region of interest
- the coordinate inference module 130 may acquire the coordinates of the joint from the detected region of interest using a deep learning-based joint inference model.
- the joint inference model may be based on a pre-trained Convolutional Neural Network (CNN).
- CNN Convolutional Neural Network
- the hand gesture detection module 140 may define a hand gesture through the relative positions of the coordinates obtained in step S300 . More specifically, in step S400, a hand gesture may be defined by mapping the coordinate information obtained in step S300 to an index. That is, by using a predefined index, information on the hand joint can be mapped to the index to define a hand motion. In this case, the definition of the hand gesture may be classified as any one of a plurality of predefined hand gestures.
- step S200 of the method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention is a step of detecting a plurality of candidate regions including the hand region from the depth image. (S210) and applying NMS to a plurality of candidate regions to obtain one ROI (S220).
- a plurality of candidate regions including the hand region may be detected from the depth image converted in operation S100.
- at least a portion of the plurality of candidate regions may overlap.
- a candidate region is detected in the form of a bounding box.
- a plurality of candidate regions having various sizes and shapes can be detected for one target hand region. .
- a candidate region may be detected using a hand detection model learned based on deep learning for object recognition.
- the hand detection model may be a pre-trained model by applying neural network-based deep learning techniques such as CNN and YOLOv3 to detect the hand region, and in particular, it can be lightweight through model compression technology, ResNet, DenseNet, SqueezeNet, Lightweight deep learning algorithms such as MobileNet and ShuffleNet can be used.
- model compression technology or lightweight algorithm as described above, it is possible to quickly detect the hand region even in the embedded environment of the wearable augmented reality device.
- a random forest classifier may be trained and used as a hand detection model, and a weighted random forest classifier (WRFR) or a cascade regression forest may be used.
- WRFR weighted random forest classifier
- a pre-trained hand detection model using RGB 3-channel depth images as training data may be used.
- step S210 of the method for detecting hand gestures of a wearable augmented reality device using a depth image according to an embodiment of the present invention a hand detection model with a high operation speed to meet the purpose of real-time hand gesture detection is used.
- the purpose of detecting a user's hand motion as an input signal of a user wearing the wearable augmented reality device is to detect only one or two hand regions without the need to detect multiple hand regions, the calculation speed is higher than the detection sensitivity.
- a hand detection model can be constructed by focusing on However, FIG. 8 shows the detection state as an example, and in step S210, the hand region is detected from the depth image as shown on the right side of FIG. 6 rather than the image before conversion.
- one ROI may be obtained by applying Non-Maximum Suppression (NMS) to a plurality of candidate regions. That is, when at least a portion of the plurality of candidate regions detected in step S210 overlap, in step S220, NMS is applied to leave the highest accuracy among the overlapping regions to obtain one ROI.
- the plurality of candidate regions may have different sizes and shapes, and overlapping regions may be identified using IoU (Intersection over Union).
- IoU Intersection over Union
- step S300 of the method for detecting hand gestures of the wearable augmented reality device using a depth image according to an embodiment of the present invention a coordinate distribution map of a joint by using a region of interest as an input of a joint inference model It can be implemented including the step of estimating (S310), obtaining the coordinates of the joint by applying NMS to the coordinate distribution map of the joint (S320), and outputting the coordinates by the number of joints (S330).
- the coordinate distribution map of the joint may be estimated by using the region of interest detected in step S200 as an input of the joint inference model.
- the joint inference model may be based on a pre-trained Convolutional Neural Network (CNN).
- CNN Convolutional Neural Network
- the coordinates of the joint may be obtained by applying NMS to the coordinate distribution map of the joint estimated in step S310. That is, in step S310, a plurality of prediction results (a plurality of coordinates) for one joint can be derived as a coordinate distribution map of the joint. In step S320, one coordinate is obtained for each joint by applying NMS to the plurality of prediction results. can be obtained
- coordinates may be output as many as the number of joints. More specifically, it is possible to output as many matrix values as the number of joints.
- step S300 of the method for detecting hand motion of the wearable augmented reality device using a depth image according to an embodiment of the present invention one region of interest is 21 coordinates can be obtained.
- step S400 using the matrix value obtained in step S300, the hand motion may be defined through the relative positions of the coordinates of the hand joint.
- the wearable augmented reality device capable of detecting a hand motion using a depth image according to an embodiment of the present invention may include a hand motion detecting device 100 , and an HMD frame 200 .
- a control unit 300 , a GPS module 400 , a camera 500 , a power supply unit 600 , a switch unit 700 , and a communication unit 800 may be further included.
- the HMD frame 200 is a frame configuration of a wearable augmented reality device that can be worn on the user's head or head.
- the HMD frame 200 may be configured in the form of a helmet or goggles having a frame structure through which light can enter while being worn on the user's head.
- the HMD frame 200 when the HMD frame 200 is formed in the form of a helmet, it may be composed of a helmet (not shown) worn on the user's head and a display frame (not shown) disposed in front of the helmet.
- the HMD frame 200 when the HMD frame 200 is configured in the form of goggles, it may be configured of a band frame (not shown) that can be worn on a user's head, and a goggles frame (not shown) that is fastened and fixed to the band frame.
- the controller 300 may generate augmented reality image information and control it to be transmitted to the display.
- the controller 300 provides the depth image captured by the camera 500 to the hand gesture detection apparatus 100 , controls the hand gesture detection process, and receives the hand gesture defined by the hand gesture detection device 100 to respond to the hand gesture It is possible to control the wearable augmented reality device by generating a control signal.
- the wearable augmented reality device capable of detecting hand motion using a depth image according to an embodiment of the present invention is mounted on the HMD frame 200 and provides a GPS module 400 and HMD frame 200 for providing location information.
- the GPS module 400 may provide the user's location information.
- the camera 500 may capture an image in a gaze direction viewed by the user, and may include a depth camera supporting a depth image.
- the controller 300 generates image information to be provided to the user based on information collected from the GPS module 400, the camera 500, and other various sensors and controls it to be transmitted to the display, thereby allowing the user to experience augmented reality. Through this, additional information about the external environment, etc. can be delivered to the optimized screen.
- the switch unit 700 may be formed in a separate device connected to the HMD frame 200 and the HMD frame 200 by wire or by installing a switch for on/off of the power supply unit 600 on one side of the HMD frame 200 .
- the communication unit 800 may be connected and connected by interworking with other adjacent wearable augmented reality devices or servers, and may perform data communication so that various types of information such as location information and sensing information can be shared with each other.
- the communication unit 800 may be understood that various wireless communication methods including 3G/4G/5G and LTE capable of Internet access are applied.
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Optics & Photonics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
본 발명에서 제안하고 있는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 따르면, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있다.
Description
본 발명은 착용형 증강현실 장치의 손동작 검출 방법 및 손동작 검출이 가능한 착용형 증강현실 장치에 관한 것으로서, 보다 구체적으로는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 관한 것이다.
디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서, 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.
도 1은 일반적인 안경 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면이고, 도 2는 일반적인 밴드 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면이다. 도 1 및 도 2에 각각 도시된 바와 같이, 일반적인 안경 형태 또는 밴드 형태의 헤드 마운티드 디스플레이는 사용자의 안면 또는 두부에 착용 되어 투과되는 렌즈를 통해 실제 세계에 증강현실(AR)의 영상 정보를 투영하여 사용자에게 제공하게 된다.
헤드 마운티드 디스플레이는 기존의 터치스크린과 같은 입력 방식을 사용하기 어려우므로, 사용자 상호작용을 위한 최적화된 입력 방식이 필요하다. 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 입력 방식으로, HMD에 구비된 버튼이나 HMD와 연결된 별도의 입력 장치, 제스처 인식 등이 있을 수 있다. 그 중에서 제스처 인식은, 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 적합한 입력 방식이라고 할 수 있으나, 다양한 제스처를 실시간으로 정확하게 인식하는 기술에는 아직까지 한계가 있다.
최근에는 이미지 처리 분야에서 인공지능 기술이 활용되고 있는데, 대부분의 인공지능 기술은 계산 비용이 많이 들어서, 외부와의 통신 없이 HMD의 임베디드 환경에 인공지능 기술을 적용하기에는 한계가 있다. 또한, 실내외에서 자유롭게 사용할 수 있는 HMD의 특성상, 자연광이나 조명에도 강인한 제스처 인식 기술의 개발이 필요한 실정이다.
한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1700569호(발명의 명칭: 제스처 기반의 사용자 인증이 가능한 HMD 장치 및 상기 HMD 장치의 제스처 기반의 사용자 인증 방법, 등록일자: 2017년 01월 23일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법은,
(1) 상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 단계;
(2) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 단계;
(3) 상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계; 및
(4) 상기 단계 (3)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 착용형 증강현실 장치상의 임베디드 환경에서 수행될 수 있다.
더욱 바람직하게는, 상기 단계 (1)은,
(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및
(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (2)는,
(2-1) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및
(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (3)은,
(3-1) 상기 단계 (2)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;
(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및
(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (4)에서는,
상기 단계 (3)에서 획득한 좌표의 정보를 인덱스로 맵핑하여 상기 손동작을 정의할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는,
상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈;
상기 영상 변환 모듈에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈;
상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈; 및
상기 좌표 추론 모듈에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 영상 변환 모듈은,
(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및
(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환하는 단계를 수행하여, 깊이 영상을 획득할 수 있다.
본 발명에서 제안하고 있는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 따르면, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있다.
도 1은 일반적인 안경 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면.
도 2는 일반적인 밴드 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 손동작 검출 장치 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서 변환 전 영상과 변환된 깊이 영상을 예를 들어 도시한 도면.
도 7은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서 관심 영역의 검출 화면을 예를 들어 도시한 도면.
도 9는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 관절 포인트를 예를 들어 도시한 도면.
도 11은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 전체 구성을 도시한 도면.
<부호의 설명>
100: 손동작 검출 장치
110: 영상 변환 모듈
120: 관심 영역 검출 모듈
130: 좌표 추론 모듈
140: 손동작 검출 모듈
200: HMD 프레임
300: 제어부
400: GPS 모듈
500: 카메라
600: 전원 공급부
700: 스위치부
800: 통신부
S100: 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상으로 변환하는 단계
S110: 뎁스 카메라에서 수집된 영상을 획득하는 단계
S120: 영상의 픽셀값을 컬러 맵핑하여 RGB 3채널의 깊이 영상으로 변환하는 단계
S200: 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(ROI)을 검출하는 단계
S210: 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계
S220: 복수의 후보 영역에 NMS를 적용해 하나의 관심 영역을 획득하는 단계
S300: 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계
S310: 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계
S320: 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계
S330: 관절의 개수만큼 좌표를 출력하는 단계
S400: 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 3은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 손동작 검출 장치(100) 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈(110), 영상 변환 모듈(110)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈(120), 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈(130) 및 좌표 추론 모듈(130)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈(140)을 포함하여 구성될 수 있다.
즉, 영상 변환 모듈(110), 관심 영역 검출 모듈(120), 좌표 추론 모듈(130) 및 손동작 검출 모듈(140)은 손동작 검출 장치(100)를 구성하고, 손동작 검출 장치(100)는 착용형 증강현실 장치의 구성요소 중 하나일 수 있다. 손동작 검출 장치(100)는, 착용형 증강현실 장치상의 임베디드 환경에서 추후 도 4에서 상세히 설명할 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법을 수행할 수 있다.
여기서, 착용형 증강현실 장치는 사용자의 머리 또는 두부에 착용 되며, 착용형 증강현실 장치를 착용한 사용자가 광학계를 통해 투과되어 보이는 현실 세계와 디스플레이에서 출력되어 광학계를 통해 사용자의 동공으로 전달되는 영상 정보를 함께 제공받아 증강현실을 경험할 수 있도록 하는 장치일 수 있다. 여기서, 착용형 증강현실 장치는 글라스형, 고글형 등 다양할 수 있으며, 사용자의 신체에 착용 되어 사용자의 시야를 통한 증강현실을 경험할 수 있도록 한다면 그 구체적인 형태나 종류와 관계없이 본 발명의 착용형 증강현실 장치의 역할을 할 수 있다.
도 4는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법은, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상으로 변환하는 단계(S100), 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(ROI)을 검출하는 단계(S200), 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계(S300) 및 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계(S400)를 포함하여 구현될 수 있다.
단계 S100에서는, 영상 변환 모듈(110)이, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환할 수 있다. 이하에서는, 도 5를 참조하여 단계 S100의 세부적인 흐름에 대해 상세히 설명하도록 한다.
도 5는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S100은, 뎁스 카메라에서 수집된 영상을 획득하는 단계(S110) 및 영상의 픽셀값을 컬러 맵핑하여 RGB 3채널의 깊이 영상으로 변환하는 단계(S120)를 포함하여 구현될 수 있다.
단계 S110에서는, 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득할 수 있다. 즉, 착용형 증강현실 장치의 전면 또는 측면에 뎁스 카메라를 구비하고, 뎁스 카메라가 획득한 사용자의 시선 방향의 영상을 영상 변환 모듈(110)이 전달받을 수 있다. 여기서, 뎁스 카메라는 깊이 영상(Depth map)을 지원하는 카메라로써, 뎁스 카메라에서 촬영된 영상은 16비트의 픽셀값을 갖고, 총 65,536(=216) 범위를 가질 수 있다.
단계 S120에서는, 단계 S110에서 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환할 수 있다. 보다 구체적으로, 단계 S120에서는, 뎁스 카메라에서 수집된 영상의 총 65,536 범위의 픽셀값을 1024개의 색으로 컬러 맵핑하여, 깊이에 따라 색상이 차등화된 깊이 영상으로 변환할 수 있다. 영상 변환 모듈(110)은, 이처럼 RGB 채널로 변환된 깊이 영상을 관심 영역 검출 모듈(120)에 전달할 수 있다.
도 6은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서 변환 전 영상과 변환된 깊이 영상을 예를 들어 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S100에서는, 뎁스 카메라에서 획득한 영상(도 6의 좌측 이미지)을, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 변환된 깊이 영상(도 6의 우측 이미지)으로 변환할 수 있다. RGB 채널로 변환된 깊이 영상은, 빨간색 타원으로 표시된 부분에서 확인할 수 있는 바와 같이, 자연광이나 조명 등의 영향에도 강인한 특징이 있다.
한편, 단계 S110에서는 획득한 영상을 전처리한 다음, 단계 S120에서 전처리된 영상을 깊이 영상으로 변환할 수 있다. 보다 구체적으로, 단계 S110에서는 해상도를 변경할 수 있다. 즉, 깊이 영상으로 변환하기 위해, 해상도 변경, 흑백 변환 등의 전처리 과정을 수행할 수 있다.
단계 S200에서는, 관심 영역 검출 모듈(120)이, 단계 S100에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출할 수 있다. 단계 S200의 세부적인 흐름에 대해서는 추후 도 7을 참조하여 상세히 설명하도록 한다.
단계 S300에서는, 좌표 추론 모듈(130)이, 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득할 수 있다. 관절 추론 모델은, 사전 훈련된 CNN(Convoltional Neural Network)을 기반으로 할 수 있다. 단계 S300의 세부적인 흐름에 대해서는 추후 도 9를 참조하여 상세히 설명하도록 한다.
단계 S400에서는, 손동작 검출 모듈(140)이, 단계 S300에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의할 수 있다. 보다 구체적으로, 단계 S400에서는, 단계 S300에서 획득한 좌표의 정보를 인덱스로 맵핑하여 손동작을 정의할 수 있다. 즉, 사전 정의된 인덱스를 이용해, 손 관절의 정보를 인덱스로 맵핑하여 손동작을 정의할 수 있다. 이때, 손동작의 정의는, 사전 정의된 복수의 손동작 중 어느 하나로 분류하는 것일 수 있다.
도 7은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S200은, 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계(S210) 및 복수의 후보 영역에 NMS를 적용해 하나의 관심 영역을 획득하는 단계(S220)를 포함하여 구현될 수 있다.
단계 S210에서는, 단계 S100에서 변환한 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출할 수 있다. 여기서, 복수의 후보 영역들은 적어도 일부가 중첩될 수 있다. 사물 인식 기술을 이용해 손 영역을 검출하면, 바운딩 박스(bounding box) 형태로 후보 영역을 검출하게 되는데, 목표로 하는 하나의 손 영역에 대해 다양한 크기와 형태를 가지는 복수 개의 후보 영역이 검출될 수 있다. 이때, 단계 S200에서는 사물 인식을 위해 딥러닝 기반으로 학습된 손 검출 모델을 사용해 후보 영역을 검출할 수 있다.
보다 구체적으로, 손 검출 모델은, 손 영역 검출을 위해 CNN, YOLOv3 등의 신경망 기반 딥러닝 기술을 적용해 사전 학습된 모델일 수 있으며, 특히 모델 압축 기술을 통해 경량화하거나, ResNet, DenseNet, SqueezeNet, MobileNet, ShuffleNet 등 경량화된 딥러닝 알고리즘을 사용할 수 있다. 이와 같이 모델 압축 기술이나 경량화된 알고리즘을 이용하면, 착용형 증강현실 장치의 임베디드 환경에서도 빠르게 손 영역을 검출할 수 있다. 실시예에 따라서는, 랜덤 포레스트(Random Forest) 분류기를 손 검출 모델로 학습시켜 사용할 수 있으며, 가중 랜덤 포레스트 분류기(WRFR)나 캐스케이드 회귀 포레스트(Cascade Regression Forest) 등을 사용할 수도 있다. 이때, 학습 데이터로 RGB 3채널의 깊이 영상을 사용해 사전 학습된 손 검출 모델을 사용할 수 있다.
도 8은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서 관심 영역의 검출 화면을 예를 들어 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서는, 실시간 손동작 검출 목적에 맞도록 연산 속도가 빠른 손 검출 모델을 사용할 수 있다. 또한, 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하는 것이 목적이므로, 다수의 손 영역을 검출할 필요 없이 하나 또는 둘의 손 영역만 검출하면 되므로, 검출 민감도보다 연산 속도에 비중을 두어 손 검출 모델을 구성할 수 있다. 다만, 도 8은 검출 모습을 예를 들어 도시한 것으로서, 단계 S210에서는 변환 전 영상이 아닌 도 6의 우측에 도시된 바와 같은 깊이 영상에서 손 영역을 검출하게 된다.
단계 S220에서는, 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득할 수 있다. 즉, 단계 S210에서 검출한 복수의 후보 영역의 적어도 일부가 겹치는 경우, 단계 S220에서는 NMS를 적용해 겹치는 영역 중에서 정확도가 가장 높은 것을 남겨 하나의 관심 영역을 획득할 수 있다. 이때, 복수의 후보 영역은 그 크기와 모양이 서로 다를 수 있으며, IoU(Intersection over Union)를 사용해 겹치는 영역을 확인할 수 있다. NMS를 적용하면 깊이 영상에 촬영된 노이즈의 효과를 최소화하고, 손동작 검출에 핵심적인 부분인 최적의 관심 영역을 획득할 수 있다.
도 9는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S300은, 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계(S310), 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계(S320) 및 관절의 개수만큼 좌표를 출력하는 단계(S330)를 포함하여 구현될 수 있다.
단계 S310에서는, 단계 S200에서 검출된 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정할 수 있다. 여기서, 관절 추론 모델은, 사전 훈련된 CNN(Convoltional Neural Network)을 기반으로 할 수 있다. 즉, 백본 네트워크(Backbone Network)로 사전 훈련된 CNN 기반의 손동작 분류 모델을 사용해 관심 영역으로부터 특징맵을 추출하고, 추론 모델을 연결하여 깊이 영상 내에서 손 관절의 좌표 분포 맵을 도출할 수 있다.
단계 S320에서는, 단계 S310에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득할 수 있다. 즉, 단계 S310에서는, 하나의 관절에 대해 복수의 예측 결과(복수의 좌표)를 관절의 좌표 분포 맵으로 도출할 수 있는데, 단계 S320에서는 복수의 예측 결과에 NMS를 적용해 관절마다 하나의 좌표를 획득할 수 있다.
단계 S330에서는, 관절의 개수만큼 좌표를 출력할 수 있다. 보다 구체적으로는, 관절의 개수만큼의 행렬값으로 출력할 수 있다.
도 10은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 관절 포인트를 예를 들어 도시한 도면이다. 도 10에 도시된 바와 같이, 한 손에 21개의 관절 포인트가 있으므로, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S300에서는, 하나의 관심 영역에 대해 21개의 좌표를 획득할 수 있다. 단계 S400에서는, 단계 S300에서 획득한 행렬값을 이용해, 손 관절의 좌표들의 상대적인 위치를 통해 손동작을 정의할 수 있다.
도 11은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 전체 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, 손동작 검출 장치(100)를 포함하여 구성될 수 있으며, HMD 프레임(200), 제어부(300), GPS 모듈(400), 카메라(500), 전원공급부(600), 스위치부(700) 및 통신부(800)를 더 포함하여 구성될 수 있다.
HMD 프레임(200)은, 사용자가 머리나 두부에 착용할 수 있는 착용형 증강현실 장치의 프레임 구성이다. 이러한 HMD 프레임(200)은, 사용자가 머리에 착용한 상태에서 빛이 들어올 수 있는 프레임 구조를 갖는 헬멧(helmet) 형태 또는 고글(goggles) 형태로 구성될 수 있다. 여기서, HMD 프레임(200)이 헬멧 형태로 이루어지는 경우, 사용자의 머리에 착용되는 헬멧(미도시)과 헬멧의 전방에 배치되는 디스플레이 프레임(미도시) 구조로 구성될 수 있다. 또한, HMD 프레임(200)이 고글 형태로 구성되는 경우, 사용자의 머리에 착용될 수 있는 밴드 프레임(미도시)과, 밴드 프레임에 체결 고정되는 고글 프레임(미도시) 구조로 구성될 수 있다.
제어부(300)는, 증강현실 영상 정보를 생성하여 디스플레이로 전송되도록 제어할 수 있다. 특히, 제어부(300)는, 카메라(500)에서 촬영된 깊이 영상을 손동작 검출 장치(100)에 제공하고 손동작 검출 과정을 제어하며, 손동작 검출 장치(100)에서 정의된 손동작을 전달받아 손동작에 대응되는 제어 신호를 생성해 착용형 증강현실 장치를 제어할 수 있다.
또한, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, HMD 프레임(200)에 장착되어 위치 정보를 제공하기 위한 GPS 모듈(400), HMD 프레임(200)에 장착되어 손 영상을 포함하는 영상을 촬영하기 위한 카메라(500), 착용형 증강현실 장치의 구동을 위한 전원을 공급하기 위한 전원 공급부(600), 전원 공급부(600)의 온/오프를 위한 스위치부(700), 및 제어부(300)의 제어 하에 데이터 통신을 수행하는 통신부(800)를 더 포함하여 구성될 수 있다.
여기서, GPS 모듈(400)은 사용자의 위치 정보를 제공할 수 있다. 카메라(500)는 사용자가 바라보는 시선 방향의 영상을 촬영할 수 있으며, 깊이 영상을 지원하는 뎁스 카메라를 포함할 수 있다. 제어부(300)는, GPS 모듈(400), 카메라(500), 그 외 각종 센서에서 수집한 정보에 기초하여, 사용자에게 제공할 영상 정보를 생성해 디스플레이로 전송되도록 제어함으로써, 사용자가 증강현실을 통해 외부 환경에 대한 추가 정보 등을 최적화된 화면으로 전달받도록 할 수 있다.
또한, 스위치부(700)는 전원 공급부(600)의 온/오프를 위한 스위치를 HMD 프레임(200)의 일 측에 설치하거나, 또는 HMD 프레임(200)과 유선으로 연결되는 별도의 디바이스에 형성될 수 있다. 한편, 통신부(800)는 인접하는 다른 착용형 증강현실 장치나, 서버 등과 연동하여 연결 접속되고, 위치 정보, 센싱 정보 등 각종 정보가 서로 공유될 수 있도록 데이터 통신을 수행할 수 있다. 여기서, 통신부(800)는 인터넷 접속이 가능한 3G/4G/5G 및 LTE를 포함하는 다양한 무선 통신 방식이 적용되는 것으로 이해될 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 따르면, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
Claims (3)
- 착용형 증강현실 장치의 손동작 검출 방법으로서,(1) 상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 단계;(2) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 단계;(3) 상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계; 및(4) 상기 단계 (3)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계를 포함하며,상기 착용형 증강현실 장치상의 임베디드 환경에서 수행되어, 상기 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하며,상기 단계 (1)은,(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 3채널의 깊이 영상으로 변환하는 단계를 포함하며,상기 단계 (2)는,(2-1) 상기 단계 (1-2)에서 RGB 3채널로 변환된 깊이 영상으로부터, 경량화된 딥러닝 알고리즘으로 구현된 손 검출 모델을 사용해, 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 포함하며,상기 단계 (3)은,(3-1) 상기 단계 (2)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 포함하는 것을 특징으로 하는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법.
- 제1항에 있어서, 상기 단계 (4)에서는,상기 단계 (3)에서 획득한 좌표의 정보를 인덱스로 맵핑하여 상기 손동작을 정의하는 것을 특징으로 하는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법.
- 손동작 검출이 가능한 착용형 증강현실 장치로서,상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈(110);상기 영상 변환 모듈(110)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈(120);상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈(130); 및상기 좌표 추론 모듈(130)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈(140)을 포함하며,상기 착용형 증강현실 장치상의 임베디드 환경에서 수행되어, 상기 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하며,상기 영상 변환 모듈(110)은,(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 3채널의 깊이 영상으로 변환하는 단계를 수행하여, 깊이 영상을 획득하며,상기 관심 영역 검출 모듈(120)은,(2-1) 상기 단계 (1-2)에서 RGB 3채널로 변환된 깊이 영상으로부터, 경량화된 딥러닝 알고리즘으로 구현된 손 검출 모델을 사용해, 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 수행하며,상기 좌표 추론 모듈(130)은,(3-1) 상기 관심 영역 검출 모듈(120)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 수행하여, 관절의 좌표를 획득하는 것을 특징으로 하는, 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0112700 | 2020-09-03 | ||
KR1020200112700A KR102305404B1 (ko) | 2020-09-03 | 2020-09-03 | 적외선 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 적외선 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022050742A1 true WO2022050742A1 (ko) | 2022-03-10 |
Family
ID=77924576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/011899 WO2022050742A1 (ko) | 2020-09-03 | 2021-09-02 | 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102305404B1 (ko) |
WO (1) | WO2022050742A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024023743A1 (en) | 2022-07-28 | 2024-02-01 | Resmed Sensor Technologies Limited | Systems for detecting a leak in a respiratory therapy system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017213939A1 (en) * | 2016-06-09 | 2017-12-14 | Microsoft Technology Licensing, Llc | Six dof mixed reality input by fusing inertial handheld controller with hand tracking |
US10133342B2 (en) * | 2013-02-14 | 2018-11-20 | Qualcomm Incorporated | Human-body-gesture-based region and volume selection for HMD |
US20190295273A1 (en) * | 2018-03-22 | 2019-09-26 | Microsoft Technology Licensing, Llc | Hybrid depth detection and movement detection |
KR102305403B1 (ko) * | 2020-09-02 | 2021-09-29 | 주식회사 피앤씨솔루션 | 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 |
-
2020
- 2020-09-03 KR KR1020200112700A patent/KR102305404B1/ko active IP Right Grant
-
2021
- 2021-09-02 WO PCT/KR2021/011899 patent/WO2022050742A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133342B2 (en) * | 2013-02-14 | 2018-11-20 | Qualcomm Incorporated | Human-body-gesture-based region and volume selection for HMD |
WO2017213939A1 (en) * | 2016-06-09 | 2017-12-14 | Microsoft Technology Licensing, Llc | Six dof mixed reality input by fusing inertial handheld controller with hand tracking |
US20190295273A1 (en) * | 2018-03-22 | 2019-09-26 | Microsoft Technology Licensing, Llc | Hybrid depth detection and movement detection |
KR102305403B1 (ko) * | 2020-09-02 | 2021-09-29 | 주식회사 피앤씨솔루션 | 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 |
Non-Patent Citations (2)
Title |
---|
JANG, SEOK-WOO ET AL.: "Robust Hand Region Extraction Using a Joint -based Model", JOURNAL OF THE KOREA ACADEMIA-GAMMANDUSHIAL COOPERATION SOCIETY, vol. 20, no. 9, 30 September 2019 (2019-09-30), pages 525 - 531, XP055906730, DOI: 10.5762/KAIS.2019.20.9.525 * |
KIM, GYU-MIN ET AL.: "Real-Time Hand Gesture Recognition Based on Deep Learning", JOURNAL OF KOREA MULTIMEDIA SOCIETY, vol. 22, no. 4, April 2019 (2019-04-01), pages 424 - 431, XP055906959, DOI: 10.9717/kmms.2019.22.4.424 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024023743A1 (en) | 2022-07-28 | 2024-02-01 | Resmed Sensor Technologies Limited | Systems for detecting a leak in a respiratory therapy system |
Also Published As
Publication number | Publication date |
---|---|
KR102305404B1 (ko) | 2021-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022050668A1 (ko) | 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 | |
WO2019231216A1 (ko) | 시각 보조 장치 및 시각 보조 장치를 이용한 사용자의 시각 보조 방법 | |
WO2013129792A1 (en) | Method and portable terminal for correcting gaze direction of user in image | |
WO2015122566A1 (en) | Head mounted display device for displaying augmented reality image capture guide and control method for the same | |
WO2017150795A1 (en) | Video display apparatus and method for reducing vr sickness | |
WO2017090892A1 (ko) | Osd 정보 생성 카메라, osd 정보 합성 단말기(20) 및 이들로 구성된 osd 정보 공유 시스템 | |
WO2019066373A1 (ko) | 이미지에 포함된 오브젝트의 카테고리 및 인식률에 기반하여 이미지를 보정하는 방법 및 이를 구현한 전자 장치 | |
WO2019039870A1 (ko) | 이미지의 표시 효과를 제어할 수 있는 전자 장치 및 영상 표시 방법 | |
WO2020032585A1 (ko) | 이미지에 포함된 객체의 속성에 따라 이미지의 화이트 밸런스를 보정하는 전자 장치 및 전자 장치의 이미지 처리 방법 | |
EP3746923A1 (en) | Electronic device for performing biometric authentication and method of operating the same | |
WO2022050742A1 (ko) | 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치 | |
WO2016111470A1 (ko) | 마스터 기기, 슬레이브 기기 및 그 제어 방법 | |
WO2019221494A1 (en) | Electronic device for performing biometric authentication and method of operating the same | |
EP3365755A1 (en) | Video display apparatus and method for reducing vr sickness | |
WO2023048409A1 (ko) | 카메라를 포함하는 웨어러블 장치 및 그 제어 방법 | |
WO2018164316A1 (ko) | 전방향 영상 촬상 방법 및 이러한 방법을 수행하는 장치 | |
WO2021230568A1 (ko) | 증강 현실 서비스를 제공하기 위한 전자 장치 및 그의 동작 방법 | |
WO2019088407A1 (ko) | 보색관계의 필터 어레이를 포함하는 카메라 모듈 및 그를 포함하는 전자 장치 | |
WO2022080549A1 (ko) | 이중 라이다 센서 구조의 모션 트래킹 장치 | |
WO2023219254A1 (ko) | 증강현실 글래스 장치의 손 거리 추정 방법 및 장치 | |
KR102144483B1 (ko) | 헤드 마운트 디스플레이 타입의 체온 측정장치 | |
WO2017034323A1 (ko) | 적응적으로 저조도를 개선하는 영상 처리 장치 및 방법, 그리고 그를 이용한 객체 검출 장치 | |
WO2011040653A1 (ko) | 3차원 객체를 제공하는 사진 장치 및 그 제공방법 | |
WO2020130274A1 (ko) | 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법 | |
WO2020096192A1 (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21864701 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21864701 Country of ref document: EP Kind code of ref document: A1 |