Nothing Special   »   [go: up one dir, main page]

KR101738278B1 - 영상을 이용한 감정 인식 방법 - Google Patents

영상을 이용한 감정 인식 방법 Download PDF

Info

Publication number
KR101738278B1
KR101738278B1 KR1020150191185A KR20150191185A KR101738278B1 KR 101738278 B1 KR101738278 B1 KR 101738278B1 KR 1020150191185 A KR1020150191185 A KR 1020150191185A KR 20150191185 A KR20150191185 A KR 20150191185A KR 101738278 B1 KR101738278 B1 KR 101738278B1
Authority
KR
South Korea
Prior art keywords
value
image
computer device
region
signal
Prior art date
Application number
KR1020150191185A
Other languages
English (en)
Inventor
홍광석
오병훈
서은주
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020150191185A priority Critical patent/KR101738278B1/ko
Application granted granted Critical
Publication of KR101738278B1 publication Critical patent/KR101738278B1/ko

Links

Images

Classifications

    • G06K9/00281
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • G06K9/00268
    • G06K9/00885
    • G06K9/3233
    • G06K9/4652
    • G06K9/6202

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Cardiology (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

영상을 이용한 감정 인식 방법은 컴퓨터 장치가 영상에서 상기 영상에 포함된 얼굴 영역의 제1 관심 영역 및 상기 영상에 포함된 피부 영역 또는 상기 얼굴 영역의 제2 관심 영역 중 적어도 하나의 관심 영역을 검출하는 단계, 상기 컴퓨터 장치가 상기 제1 관심 영역에서 형태적 특징값 및 상기 제2 관심 영역에서 피부의 색상값 중 적어도 하나를 추출하는 단계, 상기 컴퓨터 장치가 상기 색상값을 이용하여 생체 신호를 추정하는 단계, 상기 컴퓨터 장치가 상기 형태적 특징값 및 상기 생체 신호 중 적어도 하나를 정서적 감응치에 대한 세기값으로 맵핑하는 단계 및 상기 컴퓨터 장치가 상기 세기값을 정서적 감응치 모델에 적용하여 감정 인식 결과를 산출하는 단계를 포함한다.

Description

영상을 이용한 감정 인식 방법{EMOTION RECOGNITION METHOD BASED ON IMAGE}
이하 설명하는 기술은 영상을 기반으로 사람의 감정을 인식하는 기법에 관한 것이다.
최근에 인간과 컴퓨터의 외형적인 상호 작용과 더불어, 감성적 교감을 통한 인터페이스의 관점에서 인간의 감정을 컴퓨터가 예측하거나 인식하기 위한 기술인 "감성 컴퓨팅"(Affective Computing)에 관한 연구가 활발하다. 감성 컴퓨팅은 기본적으로 일정한 디지털 데이터를 분석하여 사람의 감정을 인식하는 기술을 필요로 한다.
한국공개특허 제10-2010-0128023호
이하 설명하는 기술은 영상을 기반으로 얼굴 표정 및/또는 생체 신호를 이용하여 사람의 감정을 인식하는 기법을 제공하고자 한다.
영상을 이용한 감정 인식 방법은 컴퓨터 장치가 영상에서 상기 영상에 포함된 얼굴 영역의 제1 관심 영역 및 상기 영상에 포함된 피부 영역 또는 상기 얼굴 영역의 제2 관심 영역 중 적어도 하나의 관심 영역을 검출하는 단계, 상기 컴퓨터 장치가 상기 제1 관심 영역에서 형태적 특징값 및 상기 제2 관심 영역에서 피부의 색상값 중 적어도 하나를 추출하는 단계, 상기 컴퓨터 장치가 상기 색상값을 이용하여 생체 신호를 추정하는 단계, 상기 컴퓨터 장치가 상기 형태적 특징값 및 상기 생체 신호 중 적어도 하나를 정서적 감응치에 대한 세기값으로 맵핑하는 단계 및 상기 컴퓨터 장치가 상기 세기값을 정서적 감응치 모델에 적용하여 감정 인식 결과를 산출하는 단계를 포함한다.
이하 설명하는 기술은 다른 센서 장치없이 영상만으로 생체 신호를 검출하여 사람의 감정을 쉽게 인식할 수 있다. 나아가 이하 설명하는 기술은 생체 신호와 더불어 사람의 표정(얼굴의 형태적 특징)을 정서 모델에 적용하여 사람의 감정을 정확하게 인식할 수 있다.
도 1은 영상을 이용한 감정 인식을 수행하는 시스템에 대한 예이다.
도 2는 영상을 이용한 감정 인식 방법에 대한 순서도의 예이다.
도 3은 영상을 이용한 감정 인식 방법에 대한 순서도의 다른 예이다.
도 4는 영상을 이용한 감정 인식 방법에 대한 순서도의 또 다른 예이다.
도 5는 영상에서 객체를 검출하는 과정에 대한 예이다.
도 6는 얼굴 영상에서 특징점 및 형태적 특징값을 결정하는 기준에 대한 예이다.
도 7은 영상을 이용하여 혈압을 추정하는 과정에 대한 예이다.
도 8은 얼굴 영상을 이용하여 맥파 전달 시간을 추정하는 과정에 대한 예이다.
도 9는 영상을 이용한 산소포화도를 추정하는 과정에 대한 예이다.
도 10은 정서적 감응치 모델에 대한 예이다.
도 11은 정서적 감응치 모델을 이용하여 세기값을 산출하는 예이다.
도 12는 정서적 감응치 모델을 이용하여 감정을 맵핑하는 예이다.
도 13은 정서적 감응치 모델을 이용하여 감정을 맵핑하는 다른 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 영상에 포함된 얼굴 영역 및/또는 영상에 포함된 피부 영역을 기반으로 얼굴의 형태적 특징에 해당하는 표정 및/또는 피부 색상값에 기반한 생체신호를 기준으로 대상자의 감정을 추정하는 기법이다.
도 1은 영상을 이용한 감정 인식을 수행하는 시스템(100)에 대한 예이다. 영상을 이용하여 감정을 인식하기 위해서는 크게 세 가지 과정이 필요하다. 첫 째 과정은 사람의 얼굴 및/또는 피부가 노출된 부위를 카메라로 촬영하는 것이다. 즉 분석 대상이 포함된 영상을 획득하는 과정이다. 얼굴도 피부가 노출된 부위에 해당하므로 얼굴 영역만을 포함한 영상도 이용 가능하다. 얼굴 영상은 표정에 기반한 감정 인식을 위해 필수적인 소스 데이터이다. 생체 신호는 얼굴 영상뿐만 아니라 손, 손가락 등과 같은 다른 피부 영역도 이용할 수 있다. 도 1은 얼굴 영상을 획득하는 것을 예로 도시하였다. 두 번째 과정은 영상에서 관심 영역을 추출하고, 관심 영역에 대한 특징값을 추출하는 과정이다. 얼굴 영상에포 관심 영역(ROI)를 추출하고, 표정을 구성하는 특징값을 추출할 수 있다. 또 피부 영상에서 색상값을 기준으로 생체 신호를 추정할 수 있다. 마지막 세 번째 과정은 추출한 특징값 내지 생체 신호를 정서적 감응치 모델에 적용하여 감정을 추정하는 과정이다. 상기 과정들은 하나의 장치에서 수행될 수도 있고, 별도의 장치에서 각각 수행될 수도 있다.
(1) 도 1을 살펴보면, PC(120)에 연결된 카메라(125)가 사용자의 얼굴을 촬영한다. 카메라(125)가 촬영한 영상을 전달받은 PC(120)는 데이터를 수집한다. PC(120)가 수집한 데이터를 분석하여 감정을 인식할 수도 있다. 도 1에서는 PC(120)가 수집한 데이터를 원격지에 있는 서버(150)에 전달하는 것으로 도시하였다. 서버(150)는 영상에서 특징값을 추출하여 감정을 인식할 수 있다.
(2) 도 1을 살펴보면, 스마트폰과 같은 휴대용 단말(110)은 내장된 카메라로 사용자의 얼굴을 촬영한다. 휴대용 단말(110)은 영상 데이터를 분석하여 감정을 인식할 수 있다. 스마트폰 경우 특정 애플리케이션을 이용하여 영상을 이용한 감정 인식을 할 수 있다.
이하 영상을 분석하여 감정을 인식하는 장치를 컴퓨터 장치라고 명명한다. 컴퓨터 장치는 PC, 스마트폰, 태블릿 PC, 서버, 전용 영상 처리 장치 등을 포함하는 의미이다.
도 2는 영상을 이용한 감정 인식 방법(200)에 대한 순서도의 예이다. 도 2는 얼굴 영상에서 표정에 해당하는 특징값을 추출하여 감정을 인식하는 방법에 대한 예이다. 감정 인식 방법(200)의 각 과정에 대한 구체적인 설명은 후술하고, 먼저 간단하게 전체 과정을 설명하고자 한다.
컴퓨터 장치는 먼저 얼굴 영상을 획득한다(210). 컴퓨터 장치가 카메라는 이용하여 직접 얼굴 영상을 획득할 수도 있고, 네트워크를 통해 영상을 수신할 수도 있다. 또는 컴퓨터 장치가 하드 디스크, 메모리 카드와 같은 저장 매체에 저장된 영상에 접근하여 영상을 획득할 수도 있다.
컴퓨터 장치는 얼굴 영상에서 관심 영역을 추출한다(220). 이하 컴퓨터 장치가 표정에 따른 특징을 추출하기 위한 관심 영역을 제1 관심 영역이라고 명명한다. 즉, 제1 관심 영역은 얼굴 영역 중 일부에 해당한다. 제1 관심 영역은 추출하고자 하는 특징점에 따라 다양한 부위일 수 있다. 얼굴 표정은 눈썹, 눈, 코, 입, 피부와 같은 얼굴 요소들의 변형이 일어날 때 발생하는 얼굴 근육의 수축에 의하여 나타나며, 얼굴 표정의 강도는 얼굴 특징의 기하학적 변화 또는 근육표현의 밀도에 따라서 결정된다. 따라서 표정에 관련된 주요한 영역은 눈 영역, 눈썹 영역, 코 영역, 입 영역 등이다.
컴퓨터 장치는 제1 관심 영역에서 특징점(point)을 추출하고, 특징점을 이용하여 일정한 특징값을 결정할 수 있다(230). 특징값은 특징점 사이의 거리 등을 기반으로 사람의 표정을 나타내는 특정한 수치에 해당한다. 특징값은 복수의 값일 수 있고, 복수의 값이 조합된 값일 수도 있다.
컴퓨터 장치는 결정한 특징값을 정서적 감응치 모델에 적용하기 위하여 영상에 나타난 특징값에 대한 수치의 정도에 따라 일정한 세기값을 결정한다(240). 수치의 크기에 따라 세기값이 결정될 수 있다. 컴퓨터 장치는 미리 마련한 맵핑 테이블을 이용하여 각 특정값의 수치에 매칭하는 일정한 세기값을 결정한다. 특정값이 복수인 경우 세기값도 복수 일 수 있다. 맵핑 테이블은 정서적 감응치 모델에 따라 사전에 마련된다. 사람의 표정 경우 하나의 특징값으로 결정할 수도 있지만, 복수의 특징값을 조합해야 정확한 표정이 추출될 수 도 있다. 이하 설명하는 기술은 일정한 기준에 따라 맵핑 테이블이 마련된 것을 전제로 한다.
컴퓨터 장치는 정서적 감응치 모델과 세기값을 맵핑한다(250). 도 1에서 정서적 감응치 모델은 각성(Arousal), 정서가(Valence) 및 지배도(Dominance)를 사용하는 모델로 예시하였다. 정서적 감응치 모델에 대한 구체적인 설명은 후술한다.
컴퓨터 장치는 세기값을 정서적 감응치 모델에 적용한 결과에 따라 결정한 감정의 종류를 산출한다(260).
도 3은 영상을 이용한 감정 인식 방법(300)에 대한 순서도의 다른 예이다. 도 3은 생체 신호를 이용한 감정 인식 방법에 대한 예이다. 감정 인식 방법(300)의 각 과정에 대한 구체적인 설명은 후술하고, 먼저 간단하게 전체 과정을 설명하고자 한다.
컴퓨터 장치는 먼저 피부 영상을 획득한다(310). 피부 영상은 사람의 피부가 나타난 영상을 말한다. 따라서 피부 영상은 얼굴 영상, 손 영상, 손가락 영상 등과 같은 영상을 의미한다.
컴퓨터 장치는 피부 영상에서 관심 영역을 추출한다(320). 이하 컴퓨터 장치가 표정에 따른 특징을 추출하기 위한 관심 영역을 제2 관심 영역이라고 명명한다. 제2 관심 영역은 피부의 색상을 비교적 정확하게 검출할 수 있는 영역으로 결정한다.
컴퓨터 장치는 제2 관심 영역에서 색상값을 결정하고, 일정한 기준에 따라 생체 신호를 추정한다(330). 생체 신호 추정과 관련된 내용은 후술한다.
컴퓨터 장치는 결정한 생체 신호의 값을 정서적 감응치 모델에 적용하기 위하여 생체 신호의 세기(값) 정도에 따라 일정한 세기값을 결정한다(340). 컴퓨터 장치는 미리 마련한 맵핑 테이블을 이용하여 각 생체 신호 값의 수치에 매칭하는 일정한 세기값을 결정한다. 생체 신호가 복수인 경우 세기값도 복수 일 수 있다. 맵핑 테이블은 정서적 감응치 모델에 따라 사전에 마련된다. 즉, 감정과 관련된 생체 신호의 변화에 대한 사전 정보를 바탕으로 맵핑 테이블을 마련해야 한다. 이하 설명하는 기술은 일정한 기준에 따라 맵핑 테이블이 마련된 것을 전제로 한다.
컴퓨터 장치는 정서적 감응치 모델과 세기값을 맵핑한다(350). 도 2에서 정서적 감응치 모델은 각성(Arousal), 정서가(Valence) 및 지배도(Dominance)를 사용하는 모델로 예시하였다.
컴퓨터 장치는 세기값을 정서적 감응치 모델에 적용한 결과에 따라 결정한 감정의 종료를 산출한다(360).
도 4는 영상을 이용한 감정 인식 방법(400)에 대한 순서도의 또 다른 예이다. 도 4는 얼굴 영상에서 표정에 해당하는 특징값 및 생체 신호를 모두 이용하여 감정을 인식하는 방법에 대한 예이다. 감정 인식 방법(400)의 각 과정에 대한 구체적인 설명은 후술하고, 먼저 간단하게 전체 과정을 설명하고자 한다.
컴퓨터 장치는 얼굴 영상을 획득한다(410). 컴퓨터 장치는 얼굴 영상에서 제1 관심 영역을 추출한다(420). 컴퓨터 장치는 제1 관심 영역에서 특징점(point)을 추출하고, 특징점을 이용하여 일정한 특징값을 결정할 수 있다(430).
한편 컴퓨터 장치는 먼저 피부 영상을 획득한다(440). 피부 영상은 사람의 피부가 나타난 영상을 말한다. 따라서 컴퓨터 장치는 410 과정에서 획득한 얼굴 영상을 이용할 수도 있다. 컴퓨터 장치는 피부 영상에서 제2 관심 영역을 추출한다(450). 컴퓨터 장치는 제2 관심 영역에서 색상값을 결정하고, 일정한 기준에 따라 생체 신호를 추정한다(460).
컴퓨터 장치는 결정한 특징값 및 생체 신호의 값을 각각 정서적 감응치 모델에 적용하기 위하여 일정한 세기값을 결정한다(470). 이 과정에서 컴퓨터 장치는 특징값 및 생체 신호의 값에 대해 각각 별도의 세기값을 결정할 수 있다. 또한 컴퓨터 장치는 특징값 및 생체 신호의 값을 조합한 결과에 대하 하나의 조합된 세기값을 결정할 수도 있다. 이하 설명하는 기술은 일정한 기준에 따라 맵핑 테이블이 마련된 것을 전제로 한다.
컴퓨터 장치는 정서적 감응치 모델과 세기값을 맵핑한다(480). 도 3에서 정서적 감응치 모델은 각성(Arousal), 정서가(Valence) 및 지배도(Dominance)를 사용하는 모델로 예시하였다.
컴퓨터 장치는 세기값을 정서적 감응치 모델에 적용한 결과에 따라 결정한 감정의 종료를 산출한다(490).
도 5는 영상에서 객체를 검출하는 과정에 대한 예이다. 컴퓨터 장치는 소스 영상에서 얼굴 영역 및/또는 피부 영역이라는 특정 객체를 검출한다. 이하 컴퓨터 장치가 영상에서 얼굴 영역 및/또는 피부 영역을 검출하는 기법에 대해 설명하고자 한다. 다만 이하 설명하는 기법 외에도 컴퓨터 장치는 다른 다양한 기법을 사용하여 얼굴 영역 등을 검출할 수도 있다. 도 5는 얼굴 영역을 검출하는 예를 도시하였다.
컴퓨터 장치는 카메라로부터 획득한 영상에서 조명에 강인한 영상을 얻기 위하여 RGB 영상 정규화 과정을 거친다. RGB 영상 정규화는 RGB 컬러 모델의 각 픽셀에 대해서 아래의 수학식1과 같이 정규화한 것이다.
Figure 112015129374141-pat00001
수학식 1에서 R,G ,B는 각각의 컬러 채널을 나타내고, r, g, b는 정규화 된 각각의 컬러 채널을 나타내며, T=R+G+B를 나타낸다. 이후 정규화된 영상으로부터 그래디언트(Gradient) 정보를 이용한 얼굴 검출과 컬러 정보를 이용한 얼굴 검출을 병렬적으로 수행한다.
도 5에서 소스 영상(input image)에서 좌측으로 분기한 과정이 모폴로지컬 그레디언트 이미지를 처리하는 과정이고, 소스 영상에서 우측으로 분기한 과정이 YCbCr 영상을 처리하는 과정이다. 최종적으로 모폴로지컬 그레디언트 이미지와 YCbCr 영상을 결합연산(AND)하여 소스 영상에 대한 전처리가 완료된다.
Gradient 정보를 이용한 얼굴 검출은 얼굴의 검출 성분을 강조하기 위해 일반 그레이(Gray) 영상에서의 모폴로지 그래디언트(Morphological Gradient) 연산이 아닌 Red, Green, Blue 색상 각각의 채널에서 모폴로지 그래디언트 최대 값 픽셀만을 결합하여 생성할 수 있다. MMGC(Maximum Morphological Gradient Combination) 영상에 대한 수식은 아래의 수학식 2와 같다.
Figure 112015129374141-pat00002
여기서, i 및 j는 픽셀 좌표를 의미하고, MGr는 R 채널에서 모폴로지컬 그레디언트가 최대인 픽셀, MGg는 G 채널에서 모폴로지컬 그레디언트가 최대인 픽셀, MGb는 B 채널에서 모폴로지컬 그레디언트가 최대인 픽셀을 의미한다.
RGB 영상을 YCbCr 컬러로 변환하는 단계는 영상을 RGB 컬러 모델에서 YCbCr 컬러로 변환하는 단계, 소스 영상에 피부색의 임계치를 적용하는 단계 및 침식 및 팽창 연산을 이용하여 노이즈를 제거하는 단계를 포함한다.
배경과 얼굴 영역 이미지를 분리하기 위한 피부색(Skin Color)의 임계치를 아래의 수학식 3와 같이 설정할 수 있다.
Figure 112015129374141-pat00003
임계치는 피부색에 따라 달라질 수 있으며 이러한 임계치 설정은 해당분야의 통상의 지식을 가진 자가 설정할 수 있는 것이다.
이를 통해 검출된 피부색 영역은 이진 영상으로 변환(Binary Image Conversion)되고, 이후 침식(Erosion) 및 팽창(Dilation) 연산을 이용한 닫힘 연산(Closing Operation)을 통해 노이즈를 제거하게 된다. 노이즈 제거 단계에서 피부색을 포함한 영역 중 크기가 큰 부분은 제거되지 않는 현상이 발생할 수 있는데 이 경우 얼굴 영역 이미지를 제외한 다른 부분을 제거하기 위해 각 영역을 라벨링 한 후 얼굴 영역 이미지만 검출하게 된다. 최종적으로 배경이 제거된 얼굴 이미지만 검출된다(Blob detection).
마지막으로 모폴로지컬 그레디언트 이미지와 YCbCr 영상을 결합연산(AND)한다. 이후 컴퓨터 장치는 아다부스트(AdaBoost(Adaptive Boosting)) 알고리즘을 사용하여 얼굴 영역을 검출 할 수 있다. 아다부스트 알고리즘은 클래스의 샘플을 이용하여 약한 분류기를 반복적인 계산에 의해서 학습을 수행하고, 생성된 약한 분류기의 결합에 의해서 강한 분류기를 생성한다. 초기에는 모든 샘플에 대하여 동일한 가중치를 주고 약한 분류기를 학습시킨 후, 단계가 진행될수록 기초 분류기에서 올바르게 분류된 데이터에 대해서는 낮은 에러 가중치가 부과되고 올바르지 않게 분류된 데이터에 대해서는 높은 에러 가중치를 부과함으로써 약한 분류기의 성능을 높여가는 기법이다. 아다부트스 알고리즘 자체는 해당 분야의 통상의 지식을 가진자가 널리 알고 있는 것이므로 자세한 설명은 생략하기로 한다.
도 6는 얼굴 영상에서 특징점 및 형태적 특징값을 결정하는 기준에 대한 예이다. 도 6은 검출된 얼굴로부터 얼굴 구성요소 특징 추출하는 과정을 나타낸다. 컴퓨터 장치는 검출한 얼굴 영역을 기반으로 하여 기하하적 특성을 이용하여 검출 범위를 제한할 수 있다. 도 6(a)는 검출 범위를 제한하는 예를 도시한다. 예컨대, 검출된 얼굴 영역의 높이를 1이라 가정했을 때 얼굴 영역에서 눈, 코, 입 영역이 위치하는 평균 비율은 0.35, 0.18, 0.22로 분포할 수 있다. 따라서 해당 영역만을 대상으로 이후 과정을 진행할 수 있다. 컴퓨터 장치는 도 6(a)에서 설정한 제한된 범위 내에서 히스토그램 분석을 통해 얼굴 구성요소(오른쪽 눈, 왼쪽 눈, 코, 입)를 검출하여 13개의 지점(point)를 추출한다. 도 6(b)가 제한된 범위에서 얼굴 구성 요소(또는 표정 구성 요소)에 해당하는 지점을 추출한 예이다.
마지막으로 컴퓨터 장치는 추출된 지점을 바탕으로 감응치 예측을 위한 파라미터로를 결정할 수 있다. 여기서 파라미터는 감정에 영향을 미치는 얼굴 영역의 주요 특징 점에 대한 거리에 해당한다. 이 거리값이 전술한 특징값에 해당한다. 도 6(c)에서 특징값을 추출할 수 있는 특징 요소를 예시하였다. 이와 같이 추출된 얼굴 구성요소 특징(특징값)은 얼굴 표정 감정인식의 입력 파라미터로 사용된다.
도 6(c)에서 예시한 형태적 특징값은 1.안쪽 눈썹이 올라간 정도(Inner Brow Raiser), 2.바깥쪽 눈썹이 올라간 정도(Outer Brow Raiser), 3.양 눈썹 사이의 거리 내지 눈썹이 내려간 정도(Brow Lowerer), 4.윗입술이 올라간 정도(Upper Lip Raiser), 5.입 꼬리가 올라간 정도(Lip Corner Puller), 6.양 입술 사이의 거리 또는 입 크기(Mouth Stretch) 및 7.아랫 입술이 내려간 정도(Lower Lip Depressor)에 해당한다. 컴퓨터 장치는 추출한 특징값 중 적어도 하나를 감정 인식을 위한 입력값으로 사용할 수 있다.
이하 영상에서 생체 신호를 추정하는 과정에 대해 설명한다.
1. 맥파(PPG) 추정 방법
맥파는 혈액이 심장에서 파상을 이루며 전파하는 파장을 일컫는 것으로, 심박동(HRV) 측정 및 현재 혈액순환과 누적된 스트레스 상태를 파악하는데 주로 사용되고 있다. 맥파는 다양한 의료 장비로 측정할 수 있다.
영상을 이용하여 맥파를 검출하는 방법을 설명한다. 영상을 이용하여 맥파를 검출하는 방법은 아래와 같이 피부를 밀착시키지 않은 상태에서의 피부색(얼굴 및 신체 피부 부위)을 이용하는 방법과 피부를 카메라에 근접하여 얻은 영상을 이용하는 방법으로 가능하다.
1) 피부를 카메라에 근접시키지 않은 상태에서 얼굴 검출 또는 신체 피부 부위의 피부색 검출 방법을 적용하여 맥파를 추정하는 방법을 설명한다. 얼굴 및 손가락 등 사용자의 상태를 잘 반영할 수 있는 영역을 촬영한 후, 얼굴 검출 및 피부색 검출과 같은 전 처리 과정을 통해 피부색을 검출한다. 검출된 피부 영역으로부터 관심영역을 설정하며, 해당 영역 안의 모든 픽셀들의 Cg 또는 Red 등의 색상 평균값을 추출하여 PPG 신호를 검출 할 수 있다.
2) 피부를 카메라에 근접하여 얻은 영상을 이용하는 방법을 설명한다.
① 카메라로부터 얻은 영상을 모두 사용하지 않고, 각 프레임별로 추출된 RGB 색상 값들을 아래의 수학식 4에 대입하여 출력 값이 1인 프레임만 선별하여 사용한다. mean(R)은 Red signal의 평균값, mean(G)는 Green signal의 평균값, mean(B)는 Blue signal의 평균값을 나타내며, std(R), std(G), std(B)는 R, G, B 각 색상 채널의 표준편차 값을 나타낸다.
Figure 112015129374141-pat00004
② 맥파를 추정하기 위해 색상 임계치를 설정하게 되는데, 예를 들어 처음 5초 동안 Red signal 평균값의 최대값 및 최소값을 아래의 수학식 5에 대입하여 임계치를 계산할 수 있다.
Figure 112015129374141-pat00005
각 프레임에서 ①의 과정을 거쳐 출력 값이 1인 경우에 대해 아래의 수학식 6의 과정을 수행한다. I는 한 프레임에서 각 픽셀의 Red 값으로, 픽셀의 Red 값이 과정②에서 정한 Threshold(T) 값보다 큰 픽셀의 개수를 더하여 한 프레임에 대한 PPG값을 얻을 수 있다.
Figure 112015129374141-pat00006
이러한 과정을 매 프레임 반복하여, PPG신호를 얻을 수 있다. 피부를 카메라에 밀착시켜 얻은 영상을 이용하는 경우 상위의 방법뿐만 아니라 매 프레임마다 관심영역에 대한 모든 픽셀의 Red 색상 평균값을 추출하여 PPG 신호를 검출하는 것도 가능하다.
2. 맥박신호 추정 방법
맥박 신호 추정은 제2 기준 영역에 대한 밝기값을 이용한다. 컴퓨터 장치는 맥박신호를 추출하기 위해 RGB에서 YCgCo(휘도 Y, 녹색 색차 Cg 및 주황색 색차 Co로 구성된 색 공간)로 영상 모델을 변경한다. 이후 매 프레임마다 Cg 값의 평균을 계산하여 Cg 신호를 추출하고, 이 Cg 신호를 수십에서 수백 프레임에 대해 추출한 후 FFT를 이용하여 주파수 영역으로 변환한다. 컴퓨터 장치는 주파수영역에서 관찰하고 가장 큰 주파수성분을 맥박의 주기로 판단한다. 컴퓨터 장치는 주파수 영역 중 일정한 임계값 이상 큰 주파수 성분을 맥박이라고 추정할 수 있다. 정상적인 경우 안정 또는 흥분정도에 따라 약 40에서 200까지 분당 맥박수가 측정될 수 있으며, 이에 맞춰 주파수 영역에서 관찰하는 영역을 0.75Hz에서 4.00Hz까지로 제한할 수 있다.
3. 혈압신호 추정 방법
혈압은 심장에서 방출 된 혈액의 혈관 내에서의 압력이다. 수축기 혈압(systolic blood pressure)이란 심장이 수축할 때 동맥에 걸리는 압력을 말하며, 이완기 혈압(diastolic blood pressure)이란 심장 이완 시 동맥에 걸리는 압력을 말한다. 혈압은 몸무게, 키, 연령 등에 따라 크게 변동하며, 개인차도 비교적 심하다.
도 7은 영상을 이용하여 혈압을 추정하는 과정(500)에 대한 예이다.
먼저 카메라가 사용자의 영상을 획득한다(510). 카메라는 일정한 시간 동안에 영상을 획득한다. 이후 설명하겠지만 영상에서 밝기값의 변화 정도를 추출해야 하기 때문이다. 이때 사용자의 영상을 사용자의 피부가 포함되어야 한다. 예컨대, 카메라는 사용자의 얼굴, 팔, 손 등과 같이 피부가 포함된 영역을 촬영해야 한다. 이후 컴퓨터 장치는 영상에서 피부 영역을 추출한다(520). 피부 영역은 영상에서 피부가 나타난 영역을 의미한다. 예컨대, 얼굴 인식 알고리즘을 사용하여 영상에서 배경을 제거하고, 얼굴 영역만을 추출할 수 있다. 컴퓨터 장치는 얼굴 영역 검출 알고리즘 또는 피부 검출 알고리즘을 사용하여 영상에서 피부 영역을 검출할 수 있다. 컴퓨터 장치는 카메라를 내장한 스마트 기기, 카메라와 연결된 PC, 카메라가 수집한 영상을 전달받는 원격지에 있는 컴퓨터 장치, 카메라가 수집한 영상을 전달받는 서버 등을 포함하는 의미이다.
컴퓨터 장치는 피부 영역에서 2개의 대상 영역에 대한 밝기값의 변화를 저장한다(530). 530 과정은 2 개의 대상 영역을 설정하는 과정 및 각 대상 영역에 대한 밝기값의 변화를 저장하는 과정을 포함한다. 컴퓨터 장치는 피부 영역에서 2개의 대상 영역을 설정한다.
컴퓨터 장치가 하나의 연속된 피부 영역을 추출했다면 컴퓨터 장치는 하나의 피부 영역을 2분할하거나, 하나의 연속된 피부 영역에서 특정한 2개의 영역을 대상 영역으로 설정할 수 있다. 예컨대, 피부 영역이 얼굴 영역이라면 얼굴 영역을 2분할 하여 2개의 대상 영역을 설정할 수 있다. 나아가 2개의 카메라를 사용하여 사용자에 대한 영상을 획득한 경우라면 각 카메라가 획득한 영상에서 각각 피부 영역을 추출하고, 2개의 피부 영역을 대상 영역으로 설정할 수도 있다. 예컨대, 하나의 카메라는 얼굴 영역을 촬영하고, 하나의 카메라는 손을 촬영한 경우, 컴퓨터 장치는 얼굴 영역 및 손 영역을 대상 영역으로 설정할 수도 있다.
컴퓨터 장치는 2개의 대상 영역에 대한 밝기값의 변화를 저장한다. 피부는 피부 근처의 혈관에 흐르는 혈류에 따라 색이 변하게 된다. 즉 대상 영역에 대한 밝기값을 모니터링하면 일정한 규칙이 있는 혈류의 흐름을 파악할 수 있다. 일정한 규칙이란 심장의 박동에 따라 이동하는 혈류의 흐름의 의미한다. (1) 컴퓨터 장치는 프레임마다 대상 영역의 평균 밝기값을 연산하고, 프레임마다 평균 밝기값을 저장할 수 있다. 이 경우 컴퓨터 장치는 프레임단위로 밝기값의 변화를 저장하게 되는 것이다. (2) 또한 컴퓨터 장치는 일정한 간격을 두고 프레임에 대한 평균 밝기값을 연산하고 저장할 수도 있다. 이 경우 일정한 시간 간격을 두고 정지화면에 대한 밝기값을 연산하는 것이다. (3) 나아가 컴퓨터 장치는 일정한 프레임 단위로 프레임 단위의 전체 밝기값의 평균값을 연산하여 저장할 수도 있을 것이다.
컴퓨터 장치는 2개의 대상 영역의 밝기값의 변화를 기준으로 맥파 신호를 생성한다(540). 전술한 바와 같이 대상 영역의 밝기값은 혈류의 흐름과 연관있다. 세로축은 밝기값이고 가로축이 시간의 흐름인 그래프에서 밝기값의 변화는 일정한 파형을 갖는 신호가 될 수 있다. 컴퓨터 장치는 밴드 패스 필터(band pass filter)를 이용하여 밝기값이 나타내는 신호를 맥파 신호로 변환할 수 있다. 나아가 컴퓨터 장치는 맥파 신호에서 잡음 제거를 위한 다른 필터를 사용할 수도 있다.
컴퓨터 장치는 2개의 대상 영역에 대한 맥파 신호에서 연관된 피크 지점을 결정하고, 2개 피크 지점 사이의 시간 차이를 맥파 전달 시간(Pulse-wave Transit Time, PTT)으로 추정한다(550). 하나의 맥파 신호에서 여러 개의 피크 지점이 존재할 수 있다. 피크 지점은 밝기값이 높아지는 지점이다. 밝기값은 혈류의 흐름에 따라 달라질 수 있다.
심장이 한번 박동하면 박동하는 순간 일정한 혈류량을 동맥으로 전달하게 되고 이후 잠시 동맥으로 전달되는 혈류량이 줄어든다. 심장의 박동에 따라 이와 같은 과정이 반복된다. 심장이 박동하면 동맥을 따라 이어진 혈관도 심장 박동에 따라 혈류량 또는 혈류의 속도가 증가했다가 감소하는 패턴이 반복된다. 결국 대상 영역에서 밝기값이 높아지는 지점은 심장이 혈류를 동맥으로 밀어내는 동작에 기인한 것이다. 따라서 맥파 신호에서 피크 지점은 심장의 박동에 따라 일정하게 또는 다소 불규칙하게 나타날 수 있다.
컴퓨터 장치는 2개의 대상 영역에서 피크 지점을 찾는다. 이때 2개의 대상 영역에서 찾는 피크 지점은 서로 연관된 피크 지점이다. 연관된 피크 지점이란 심장의 특정 박동에 따라 영향을 받는 지점을 의미한다. 예컨대, 심장이 제1 박동하면 심장에 가까운 제1 지점의 혈관에서 혈류량이 먼저 증가하고, 이후 제1 지점으로부터 연장된 혈관으로 일정한 거리에 있는 제2 지점의 혈관에서 혈류량이 증가하게 된다. 동일한 박동에 따라 두 개의 지점이 서로 다른 시기에 혈류량이 증가하는 것이다. 동일한 박동에 따른 혈류량 변화는 두 개의 지점의 거리에 따라 변화가 일어나는 시간 간격이 달라진다. 2개의 대상 영역에서 서로 연관된 피크 지점은 동일한 박동에 따른 혈류량 변화에 기인한다. 따라서 컴퓨터 장치는 대상 영역의 거리를 고려하여 연관된 피크 지점을 찾는다. 컴퓨터 장치는 연관된 피크 지점 사이의 시간 간격을 기준으로 맥파 전달 시간을 추정한다.
최종적으로 컴퓨터 장치는 맥파 전달 시간을 이용하여 혈압을 추정할 수 있다(570). 혈압 추정에 사용되는 수식은 PPG 신호 및 ECG 신호를 이용한 연구에서 사용한 식을 이용할 수 있다. 대부분 회귀 방적식을 통해 혈압을 추정하고 있다. 혈압 추정을 위한 수식은 맥파 전달 시간 외에 사용자의 신체 정보를 포함한다. 따라서 컴퓨터 장치는 사전에 사용자로부터 신체 정보를 입력받거나, 신체 정보를 저장한 데이터베이스로부터 해당 사용자의 신체 정보를 수신해야 한다(560). 신체 정보는 사용자의 나이, 키, 몸무게 등을 포함한다.
도 8은 얼굴 영상을 이용하여 맥파 전달 시간을 추정하는 과정에 대한 예이다. 도 8(a)는 2개의 대상 영역에 대한 밝기값의 변화를 신호 형태로 표현하였다. 도 8에서 상부 영역에 대한 신호를 파란색으로 도시하였고, 하부 영역에 대한 신호를 붉은색으로 도시하였다.
도 8(a)는 대상 영역을 촬영한 동영상의 프레임마다 평균 밝기값을 결정하고, 전체 프레임에 대해 평균 밝기값에 대한 수치를 그래프로 표현한 것이다. 밝기는 컬러영상에서의 R, G, B 값을 기준으로 사용할 수 있다. 또는 RGB 영상을 휘도값을 표현하는 다른 색상 모델(YUV, YCbCr)을 사용하여 밝기값을 결정할 수도 있다.
도 8(b)는 도 8(a)에서 표현한 대상 영역의 밝기값을 맥파 신호로 변환한 예이다. 도 8(a)에서 각 프레임마다 저장된 밝기값의 변화에 대응하는 신호를 표현하였다. 대상 영역에 대한 밝기값 신호는 촬영 대상의 맥파 신호와 맥파신호와 함께 움직임에 따른 노이즈도 포함하고 있다. 노이즈를 없애기 위해서 필터링 과정이 필요하다. 필터는 맥파신호 성분만을 추출할 수 있게 해당 영역의 주파수만을 통과시키는 밴드 패스 필터를 사용할 수 있다. 도 8(b)는 밝기값 신호로부터 맥파에 해당하는 신호만을 추출한 예이다.
도 8(c)는 맥파 신호로부터 2 개의 대상 영역 사이의 맥파 전달 시간을 추정하는 예를 도시한다. 전술한 바와 같이 2개의 대상 영역의 맥파 신호는 일정한 주기를 갖고 높아지고 낮아지는 흐름을 반복한다. 2개의 대상 영역에 대해 서로 연관된 피크 지점을 찾는다. 도 8(c)에서는 2 개의 맥파 신호에서 서로 연관된 피크 지점을 점섬으로 표시하였다. 2 개의 맥파신호로부터 각 주기의 피크지점을 찾으면 도 8(c)와 같이 두 신호간의 피크지점이 나타나는 시간차이를 맥파전달시간(PTT)으로 결정한다. 물론 맥파전달시간은 반드시 맥파 신호의 피크 지점을 기준으로 해야 하는 것은 아니다. 맥파전달시간은 2개의 맥파 신호 사이의 시간 간격에 해당하기 때문에 다른 지점을 기준으로 삼아도 연산이 가능하다.
컴퓨터 장치는 몸무게, 키, 나이 그리고 PTT는 독립 변수로, 실제 혈압 값(최고 혈압 및 최소 혈압)은 종속 변수로 하여 아래의 수학식 7과 같은 형태의 최고 혈압 및 최소 혈압 측정 식을 각각 도출할 수 있다.
Figure 112015129374141-pat00007
수학식 7에서 PTT는 두 신호의 피크 점 사이의 시간 차이를 계산한 값이며, weight는 몸무게, height는 키, age는 나이에 대한 변수를 나타낸다. WPTT, Wweight, Wheight, Wage는 다중회귀 분석을 통해 도출된 각 변수에 대한 상수 값을 나타낸다.
4. 호흡수 추정 방법
영상으로부터 호흡수를 측정하는 방법을 설명한다. 호흡수도 영상에서 밝기값을 기준으로 추정할 수 있다. 컴퓨터 장치는 호흡수를 측정하기 위해 각 프레임으로부터 Cg값의 평균값을 계산하며, Cg신호에 FFT를 적용하여 주파수영역에서의 신호를 관찰한다. 즉 일정한 프레임 동안(일정한 시간 동안)의 Cg 신호에 대한 주파수 성분을 관찰한다. 컴퓨터 장치는 맥박과 호흡수의 연관성을 분석하여 설정한 0.13 ~ 0.33Hz의 주파수 범위 내에서 가장 큰 주파수성분을 갖는 주파수를 이용하여 호흡수를 추정한다. 컴퓨터 장치는 일정한 시간 단위로 호흡수를 추정할 수 있다.
5. 산소포화도 추정 방법
산소포화도 측정과 관찰을 통해 호흡관리 및 저산소증의 위험에 빠르게 대응할 수 있으며, 산소결핍은 다양한 질병의 원인이 되기 때문에 일상 생활에서 산소포화도는 관리를 요하는 중요 생체신호 중 하나이다. 본 발명에서는 카메라가 부착된 단말기를 통해 얻은 영상으로부터 산소포화도를 측정하는 방법을 사용한다. 산소포화도 측정을 위해 관심영역을 설정하며, 관심영역으로부터 RGB 색상 값을 추출한다.
추출된 RGB 각 채널에 가중치를 부여한 색상 조합을 특징 파라미터로 사용함으로써 산소포화도를 측정하게 된다. 산소포화도는 혈액 내 전체 헤모글로빈의 양에서 옥시헤모글로빈이 차지하는 비율을 백분율로 표시한 것으로, 산소포화도 측정 시 적외선 파장(750~940nm)과 적색 파장(660~750nm)을 사용하게 된다.
도 9는 영상을 이용한 산소포화도를 추정하는 과정(600)에 대한 예이다. 컴퓨터 장치는 카메라를 사용하여 사용자의 얼굴 및 손가락과 같이 관찰하고자 하는 신체 부위를 포함하는 영상을 획득한다(620). 여기서 카메라는 스마트폰에 내장된 카메라, PC에 연결된 카메라, 영상을 촬영할 수 있는 별도의 카메라 등을 의미한다. 카메라는 얼굴 및 손가락과 같은 신체 일부 영역을 포함하는 동영상을 촬영할 수도 있고, 얼굴 및 손가락과 같은 신체 일부 영역을 포함하는 정지 영상(사진)을 촬영할 수도 있다.
컴퓨터 장치는 이미지 처리 기술을 이용하여 영상에서 얼굴 및 손가락과 같이 관찰하고자 하는 신체 부위를 추출하고, 이후 얼굴 및 손가락과 같은 신체 일부 영역에서 특정한 관심 영역(ROI)을 결정할 수 있다(630). 일반적으로 얼굴 및 손가락과 같은 신체 일부 영역은 피부색을 이용하여 배경과 구별한다. 만약 영상에서 얼굴 영역을 검출하는 경우 적용될 수 있는 얼굴 검출 기법은 다양하다. 이후 컴퓨터 장치는 추출한 얼굴 영역에서 산소포화도 측정의 기준이 되는 관심 영역을 결정한다. 관심 영역은 다양한 영역이 사용될 수 있다. 다만 관심 영역은 피부색과 다른 색상이 최대한 적은 영역을 설정하는 것이 바람직하다. 사람의 눈, 코 또는 입 등을 포함하는 영역은 다른 색상을 갖고, 일정한 에지를 갖기 때문에 관심 영역으로 바람직하지 않다. 얼굴 영역에서 관심영역을 설정하게 된다면 비교적 노이즈가 적은 영역은 볼(cheek) 주변이 적절하다. 따라서 이하 관심 영역은 볼 영역이라고 가정하고 설명한다.
컴퓨터 장치는 관심 영역을 결정한 후에 관심 영역의 색상값을 이용하여 산소포화도 측정을 위한 특징 파라미터를 생성한다(640). 컴퓨터 장치는 관심 영역의 R 색상값, G 색상값 및 B 색상값을 이용하여 특징 파라미터를 생성한다.
종래 산소포화도 측정기는 적외선 파장과 적색 파장을 손가락에 조사하고, 반대 방향으로 투과되는 파장(빛)을 이용하여 산소포화도를 측정했다. 상기 특징 파라미터는 적외선 파장에 대응하는 제1 파라미터 및 적색 파장에 대응하는 제2 파라미터를 포함한다.
컴퓨터 장치는 관심 영역의 RGB 색상값을 이용하여 제1 파라미터(C660nm) 및 제2 파라미터(C940nm)를 결정한다. 특징 파라미터는 관심 영역의 RGB 색상값을 이용하여 결정한다. 제1 파라미터(C660nm) 및 제2 파라미터(C940nm)는 각각 아래의 수학식 8과 수학식 9로 표현된다.
Figure 112015129374141-pat00008
Figure 112015129374141-pat00009
여기서, mean(Red)는 관심 영역에 포함된 픽셀들의 R 색상값의 평균값, mean(Green)는 관심 영역에 포함된 픽셀들의 G 색상값의 평균값, mean(Blue)는 관심 영역에 포함된 픽셀들의 B 색상값의 평균값이다. WR, WG, WB는 C660nm을 얻기 위한 채널별 가중치이다. TR, TG, TB는 C940nm을 얻기 위한 채널별 가중치이다. 가중치 결정 방법은 후술하도록 한다. 도 9에 도시한 바와 같이 가중치는 컴퓨터 장치가 특징 파라미터를 생성하기 이전에 설정(610)되어야 한다.
이제 컴퓨터 장치는 관심 영역에 대한 특징 파라미터의 평균값 및 특징 파라미터의 표준편차를 연산한다(650). 여기서 특징 파라미터의 평균값은 전술한 제1 파라미터 및 제2 파라미터 각각에 대한 평균값을 포함한다. 특징 파라미터의 표준편차는 전술한 제1 파라미터 및 제2 파라미터 각각에 대한 표준편차를 포함한다. 여기서 평균값 및 표준편차는 관심 영역에 대한 복수의 프레임에 대한 평균값 및 표준편차를 의미한다. 컴퓨터 장치는 동영상 프레임별로 관심 영역에 대한 제1 파라미터 및 제2 파라미터를 결정하고, 복수의 프레임(일정한 시간 또는 프레임 개수를 기준으로)들에 대한 제1 파라미터 및 제2 파라미터 각각에 대한 평균값 내지 표준편차를 연산하는 것이다.
이제 마지막으로 컴퓨터 장치가 평균값 및 표준편차를 기준으로 산소포화도를 추정한다(660). 컴퓨터 장치는 아래의 수학식 10을 이용하여 산소포화도(SpO2)를 측정할 수 있다.
Figure 112015129374141-pat00010
상수 A 및 B 값은 실제 장비를 이용하여 측정한 산소포화도 값을 이용하여 결정할 수 있다. 아래 수학식 11를 최소화하도록 A 및 B를 결정할 수 있다. 즉 R값과 실제 산소포화도 측정 값 사이에 최소자승법을 적용하여 A 및 B를 결정할 수 있다.
Figure 112015129374141-pat00011
여기서, Oximeter i는 실제 장비를 이용하여 측정한 산소포화도 값을 의미한다. Ri는 아래 수학식 12를 이용하여 결정할 수 있다.
Figure 112015129374141-pat00012
심리학 및 인지과학 분야에서 인간의 감정을 구성하는 정서적 감응요소로 알려진 것들(Arousal, Valence, Dominance 등)에 대한 명시적 감응 정도 데이터를 이용하여 감응요소의 다차원으로 구성되는 감정모델을 생성할 수 있다. Russell의 감정차원 모델 등이 존재한다.
도 10은 정서적 감응치 모델에 대한 예이다. 도 10은 다차원 정서모델에 대한 기본적인 구조를 나타내고 있다. 기존 연구 결과들에 의하면, 인간의 감정은 다양한 정서적 감응치에 의해 형성된다는 것이 정설로 굳어졌다. 이에 따라, 모든 심리학적 이론이 정서적 감응치의 조합에 의한 다차원 정서모델을 기본으로 하고 있다.
도 10(a)를 살펴보면, Arousal은 각성의 강도를 나타내며, 수치가 높을수록 몸이 긴장되고 떨리는 느낌을 의미하며, 낮을수록 평온한 느낌을 의미한다. Valance는 긍정과 부정의 정도를 나타내며, 수치가 높을수록 기분이 좋고, 낮을수록 기분이 나쁘며 무게중심은 아무런 중심이 없는 평범한 상태를 나타낸다. Arousal과 Valence의 조합으로 인해 구성되는 2차원 정서 공간은 정서모델의 가장 기본적인 형태이다. 즉, 긍정과 부정의 정도 및 각성의 정도에 의해 인간의 감정 변화가 일어난다는 것이며, 이러한 정서적 감응 요소의 반응 정도를 알 수 있다면 인간의 감정을 알아낼 수 있다. 또한, 10 5(b)와 같이 Arousal 및 Valence 두 개의 축에 Dominance 축을 첨가하여 기존 2차원 정서 공간 모델을 3차원 정서 공간 모델로 확장 할 수 있다. 지배의 정도를 나타내는 Dominance는 감정 인식의 대상자 자신이 특정 대상에 대해 얼마나 지배적인지를 타나내는 기준으로 정의하여 Valence와 Arousal과 더불어 인간의 감정을 구성하는 요소로 인정되고 있다.
도 11은 정서적 감응치 모델을 이용하여 세기값을 산출하는 예이다. 컴퓨터 장치는 얼굴 구성요소(제1 관심 영역)에 대한 특징값 및 제2 관심 영역에 대한 생체 신호의 값을 입력으로하여 정서적 감응치 모델을 통해 감응치 예측을 수행한다. 정서적 감응치 모델은 Arousal, Valence, Dominance 모델로 각각 구성되어 있으며, 각각의 모델은 1점부터 9점까지의 해당하는 얼굴 구성요소 및 생체신호 특징 값을 바탕으로 생성된다. 컴퓨터 장치는 제1 관심 영역에 대한 특징값 및 제2 관심 영역데 대한 생체 신호가 검출되면 감응치 예측 모듈의 파라미터로 입력한다. 컴퓨터 장치는 패턴 인식 알고리즘을 통해 각각의 정서적 감응치 모델(Arousal, Valence, Dominance)과 비교하여 감응치를 예측하게 된다. 도 11의 감응치 예측 결과 표와 같이 감응치를 예측하게 되면 Arousal, Valence, Dominance 각각의 1점부터 9점까지의 유사도 점수를 도출할 수 있으며, 점수가 크면 클수록 해당하는 모델과 유사하다고 볼 수 있다. 세기값을 결정하는 일례로, 인식 알고리즘으로 랜덤 포레스트 알고리즘을 사용할 수 있으며, 랜덤 포레스트 알고리즘의 인식 결과는 1순위 후보부터 마지막 순위 후보까지 투표수 비례에 따라 결정짓게 된다. 이때 사용되는 투표수에 대해 백분율 하는 방법으로 스코어링을 할 수 있다. 위와 같이 도출된 감응치를 바탕으로 다양한 가중치 방법을 통해 감응치에 대한 세기값을 결정할 수 있다. 아래 수학식 13에서 A는 Arousal의 유사도 점수, V는 Valance의 유사도 점수 및 D는 Dominance의 유사도 점수를 의미한다. 또 α, β 및
Figure 112015129374141-pat00013
는 각각 Arousal, Valence, Dominance 각각에 곱할 가중치를 의미한다.
Figure 112015129374141-pat00014
일례로, 감정의 세기를 더 확실하게 보기 위하여 Arousal 및 Valence 값보다 Dominance 값에 가중치를 줄 수 있으며, 이를 통해 도출되는 결과가 달라 질 수 있다. 감응치 스코어링을 수행하고 나면 스코어링 된 Arousal의 1부터 9까지의 값, 스코어링 된 Valence의 1부터 9까지의 값, 스코어링 된 Dominance의 1부터 9까지의 값을 도출할 수 있으며, 이를 경우의 수로 계산하면 총 729개의 값을 얻을 수 있다. 이 값이 감정모델 맵핑 모듈의 입력으로 들어가서 3차원 상의 좌표로 매핑된다.
도 12는 정서적 감응치 모델을 이용하여 감정을 맵핑하는 예이다. 도 12는 감정모델 맵핑 모듈에 의해 수행되는 Arousal, Valence 및 Dominance의 3차원 감응요소를 이용한 감정모델 맵핑 방법의 개념을 보인 것이다. 앞서 설명한 바와 같이 Arousal 요소는 각성의 강도를 의미하고, Valence 요소는 긍정 또는부정을 의미하며, Dominance는 지배의 정도를 의미한다. 도 12(a)에서와 같이 감응치 스코어링 모듈로부터 나온 Arousal, Valence 각각의 1부터 9 사이의 결과 값을 통해 2차원 평면상에서의 다양한 감정들로 맵핑 할 수 있다. 또한, 도 12(b)에서와 같이 앞서 2차원 평면상에서 감정 매핑을 수행한 후에 Dominance의 1부터 9사이의 결과 값을 통해 해당 감정의 세기를 알 수 있다.
예를 들어 도 12(a)에서와 같이 가장 큰 Arousal 값이 7, Valence 값이 8이라고 가정하고, 이를 2차원 평면상에 매핑하면 Happy라는 감정이 출력된다. 나아가 도 12(b)와 같이 가장 큰 Arousal 값이 7, Valence 값이 8, Dominance 값이 2라고 가정하여 3차원 평면상에 매핑하면 약한 세기의 Happy 감정이라고 예측할 수 있다.
도 13은 정서적 감응치 모델을 이용하여 감정을 맵핑하는 다른 예이다. 도 13은 감응치 세기값으로 나온 729개의 값 중에 유사도가 큰 상위 1%인 7개의 예측된 복합감정을 3차원 정서 모델에 매핑 한 예를 보여준다. 색이 진하고 크기가 클수록 3차원 정서모델에서의 감정과 유사하며, 감정의 세기는 높다고 할 수 있다.
본 실시예 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시예는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
100 : 감정 인식을 수행하는 시스템
110 : 휴대용 단말
120 : PC
125 : 카메라
150 : 서버

Claims (12)

  1. 컴퓨터 장치가 영상에서 상기 영상에 포함된 얼굴 영역의 제1 관심 영역 및 상기 영상에 포함된 피부 영역 또는 상기 얼굴 영역의 제2 관심 영역 중 적어도 하나의 관심 영역을 검출하는 단계;
    상기 컴퓨터 장치가 상기 제1 관심 영역에서 형태적 특징값 및 상기 제2 관심 영역에서 피부의 색상값을 추출하는 단계;
    상기 컴퓨터 장치가 상기 색상값을 이용하여 생체 신호를 추정하는 단계;
    상기 컴퓨터 장치가 상기 형태적 특징값 및 상기 생체 신호를 정서적 감응치에 대한 세기값으로 맵핑하는 단계; 및
    상기 컴퓨터 장치가 상기 세기값을 정서적 감응치 모델에 적용하여 감정 인식 결과를 산출하는 단계를 포함하는 영상을 이용한 감정 인식 방법.
  2. 제1항에 있어서,
    상기 컴퓨터 장치는 상기 얼굴 영역에서 상기 영상에 대한 히스토그램을 분석하여 복수의 특징 지점을 검출하고, 상기 복수의 특징 지점 중 어느 2개의 지점 사이의 거리를 상기 형태적 특징값으로 결정하는 영상을 이용한 감정 인식 방법.
  3. 제1항에 있어서,
    상기 형태적 특징값은 안쪽 눈썹이 올라간 정도, 바깥쪽 눈썹이 올라간 정도, 양 눈썹 사이의 거리, 윗입술이 올라간 정도, 입 꼬리가 올라간 정도, 양 입술 사이의 거리 및 아랫 입술이 내려간 정도 중 적어도 하나를 포함하는 영상을 이용한 감정 인식 방법.
  4. 제1항에 있어서,
    상기 생체 신호는 맥파, 맥박, 혈압, 호흡수 및 산소포화도 중 적어도 하나인 영상을 이용한 감정 인식 방법.
  5. 제1항에 있어서,
    상기 생체 신호를 추정하는 단계에서
    상기 컴퓨터 장치는 상기 영상의 매 프레임마다 상기 제2 관심 영역에서 임계값 이상의 붉은색을 갖는 픽셀을 개수를 더하여 맥파(PPG) 신호를 추정하는 영상을 이용한 감정 인식 방법.
  6. 제1항에 있어서,
    상기 생체 신호를 추정하는 단계에서
    상기 컴퓨터 장치는 상기 영상의 매 프레임마다 상기 제2 관심 영역의 밝기값의 평균값을 연산하고, 일정한 길이의 연속된 프레임에서 추출한 상기 평균값 신호를 주파수 영역으로 변환하고, 주파수 성분 중 임계값 이상의 크기를 갖는 주파수 성분 사이의 시간 간격으로 맥박 신호를 추정하는 영상을 이용한 감정 인식 방법.
  7. 제1항에 있어서,
    상기 생체 신호를 추정하는 단계에서
    상기 컴퓨터 장치는 상기 영상의 매 프레임마다 두 개의 상기 제2 관심 영역의 밝기값의 평균값을 연산하고, 일정한 길이의 연속된 프레임에서 추출한 상기 평균값 신호를 주파수 영역으로 변환하고, 상기 두 개의 제2 관심 영역에 대해 각각 주파수 성분 중 임계값 이상의 크기를 갖는 연관된 피크 지점을 결정하고, 상기 2개의 피크 지점 사이의 시간차를 기준으로 맥파 전달 시간을 추정하고, 상기 맥파 전달 시간을 이용하여 혈압을 추정하는 영상을 이용한 감정 인식 방법.
  8. 제1항에 있어서,
    상기 생체 신호를 추정하는 단계에서
    상기 컴퓨터 장치는 상기 영상의 매 프레임마다 상기 제2 관심 영역의 밝기값의 평균값을 연산하고, 일정한 길이의 연속된 프레임에서 추출한 상기 평균값 신호를 주파수 영역으로 변환하고, 일정 시간 동안 주파수 성분 중 0.13Hz~0.33Hz 범위에 있는 주파수의 개수를 이용하여 호흡수를 추정하는 영상을 이용한 감정 인식 방법.
  9. 제1항에 있어서,
    상기 생체 신호를 추정하는 단계에서
    상기 컴퓨터 장치는 상기 영상의 복수의 프레임에서 상기 제2 관심 영역의 R 색상값, G 색상값 및 B 색상값 각각의 평균값을 연산하고, 상기 평균값에 서로 다른 가중치를 부여한 2개의 파라미터를 이용하여 산소포화도를 추정하는 영상을 이용한 감정 인식 방법.
  10. 제1항에 있어서,
    상기 맵핑하는 단계에서 상기 컴퓨터 장치는 사전에 마련한 맵핑 테이블을 이용하여 상기 형태적 특징에 대한 세기값을 결정하고, 사전에 마련한 맵핑 테이블을 이용하여 상기 생체 신호에 대한 세기값을 결정하는 영상을 이용한 감정 인식 방법.
  11. 제1항에 있어서,
    상기 정서적 감응치 모델은 각성(Arousal) 및 정서가(Valence)를 기반으로한 2차원 모델 또는 각성, 정서가 및 지배도(Dominance)를 기반으로한 3차원 모델인 영상을 이용한 감정 인식 방법.
  12. 제1항에 있어서,
    상기 산출하는 단계에서 상기 컴퓨터 장치는 상기 정서적 감응치 모델에서 산출된 인식 결과 중 감정의 세기가 기준값 이상인 적어도 하나의 인식 결과를 상기 감정 인식 결과로 산출하는 영상을 이용한 감정 인식 방법.
KR1020150191185A 2015-12-31 2015-12-31 영상을 이용한 감정 인식 방법 KR101738278B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150191185A KR101738278B1 (ko) 2015-12-31 2015-12-31 영상을 이용한 감정 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150191185A KR101738278B1 (ko) 2015-12-31 2015-12-31 영상을 이용한 감정 인식 방법

Publications (1)

Publication Number Publication Date
KR101738278B1 true KR101738278B1 (ko) 2017-05-22

Family

ID=59049827

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150191185A KR101738278B1 (ko) 2015-12-31 2015-12-31 영상을 이용한 감정 인식 방법

Country Status (1)

Country Link
KR (1) KR101738278B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190007803A (ko) * 2017-07-13 2019-01-23 성균관대학교산학협력단 적외선 영상을 이용한 생체신호 측정 방법 및 장치
WO2019078407A1 (ko) * 2017-10-18 2019-04-25 상명대학교산학협력단 주변 환경 영상을 이용한 감성 추정 장치 및 방법
KR20190053602A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 얼굴 인증 방법 및 장치
KR20190125707A (ko) * 2018-04-30 2019-11-07 한국과학기술원 사용자의 심리활동과 생체신호에 기반한 감정 추정 방법 및 그 시스템
KR20200010680A (ko) * 2018-07-11 2020-01-31 한국과학기술원 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체
KR20200017797A (ko) * 2018-08-09 2020-02-19 주식회사 룩시드랩스 사용자의 감정을 판단하기 위한 방법 및 이를 위한 장치
US20200110890A1 (en) * 2018-10-08 2020-04-09 Hyundai Motor Company Multi device system and method of controlling the same
KR20200140469A (ko) * 2019-06-07 2020-12-16 와이케이씨테크(주) 영상 이미지를 통해 사용자의 피부 및 건강 지표를 측정하는 방법 및 그를 이용한 장치
KR20210090305A (ko) * 2020-01-09 2021-07-20 주식회사 휴메닉 멀티형 인지재활 훈련 시스템 및 방법
WO2022211656A1 (en) * 2021-03-30 2022-10-06 Harman Becker Automotive Systems Gmbh Method and system for heart rate extraction from rgb images
CN117315745A (zh) * 2023-09-19 2023-12-29 中影年年(北京)文化传媒有限公司 基于机器学习的面部表情捕捉方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190007803A (ko) * 2017-07-13 2019-01-23 성균관대학교산학협력단 적외선 영상을 이용한 생체신호 측정 방법 및 장치
KR101996996B1 (ko) * 2017-07-13 2019-07-05 성균관대학교산학협력단 적외선 영상을 이용한 생체신호 측정 방법 및 장치
WO2019078407A1 (ko) * 2017-10-18 2019-04-25 상명대학교산학협력단 주변 환경 영상을 이용한 감성 추정 장치 및 방법
KR20190053602A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 얼굴 인증 방법 및 장치
US11551476B2 (en) 2017-11-10 2023-01-10 Samsung Electronics Co., Ltd. Facial verification method and apparatus
KR102415509B1 (ko) * 2017-11-10 2022-07-01 삼성전자주식회사 얼굴 인증 방법 및 장치
KR20190125707A (ko) * 2018-04-30 2019-11-07 한국과학기술원 사용자의 심리활동과 생체신호에 기반한 감정 추정 방법 및 그 시스템
KR102142183B1 (ko) 2018-04-30 2020-08-06 한국과학기술원 사용자의 심리활동과 생체신호에 기반한 감정 추정 방법 및 그 시스템
KR20200010680A (ko) * 2018-07-11 2020-01-31 한국과학기술원 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체
KR102152120B1 (ko) 2018-07-11 2020-09-04 한국과학기술원 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체
KR102186580B1 (ko) 2018-08-09 2020-12-03 주식회사 룩시드랩스 사용자의 감정을 판단하기 위한 방법 및 이를 위한 장치
KR20200017797A (ko) * 2018-08-09 2020-02-19 주식회사 룩시드랩스 사용자의 감정을 판단하기 위한 방법 및 이를 위한 장치
US20200110890A1 (en) * 2018-10-08 2020-04-09 Hyundai Motor Company Multi device system and method of controlling the same
KR20200140469A (ko) * 2019-06-07 2020-12-16 와이케이씨테크(주) 영상 이미지를 통해 사용자의 피부 및 건강 지표를 측정하는 방법 및 그를 이용한 장치
KR102305309B1 (ko) * 2019-06-07 2021-09-27 와이케이씨테크(주) 영상 이미지를 통해 사용자의 피부 및 건강 지표를 측정하는 방법 및 그를 이용한 장치
KR20210090305A (ko) * 2020-01-09 2021-07-20 주식회사 휴메닉 멀티형 인지재활 훈련 시스템 및 방법
KR102427569B1 (ko) * 2020-01-09 2022-08-02 주식회사 휴메닉 멀티형 인지재활 훈련 시스템 및 방법
WO2022211656A1 (en) * 2021-03-30 2022-10-06 Harman Becker Automotive Systems Gmbh Method and system for heart rate extraction from rgb images
CN117315745A (zh) * 2023-09-19 2023-12-29 中影年年(北京)文化传媒有限公司 基于机器学习的面部表情捕捉方法及系统
CN117315745B (zh) * 2023-09-19 2024-05-28 中影年年(北京)科技有限公司 基于机器学习的面部表情捕捉方法及系统

Similar Documents

Publication Publication Date Title
KR101738278B1 (ko) 영상을 이용한 감정 인식 방법
Wang et al. A comparative survey of methods for remote heart rate detection from frontal face videos
US10004410B2 (en) System and methods for measuring physiological parameters
CN111728602A (zh) 基于ppg的无接触血压测量装置
Gibert et al. Face detection method based on photoplethysmography
Alnaggar et al. Video-based real-time monitoring for heart rate and respiration rate
Bobbia et al. Remote photoplethysmography based on implicit living skin tissue segmentation
Sahindrakar et al. Improving motion robustness of contact-less monitoring of heart rate using video analysis
WO2020054122A1 (ja) 情報処理装置、プログラム及び情報処理方法
Liu et al. Detecting pulse wave from unstable facial videos recorded from consumer-level cameras: A disturbance-adaptive orthogonal matching pursuit
Jensen et al. Camera-based heart rate monitoring
Panigrahi et al. Non-contact HR extraction from different color spaces using RGB camera
KR102123121B1 (ko) 사용자의 신원 파악이 가능한 혈압 모니터링 방법 및 시스템
Mirabet-Herranz et al. LVT Face Database: A benchmark database for visible and hidden face biometrics
Oviyaa et al. Real time tracking of heart rate from facial video using webcam
KR102243017B1 (ko) 얼굴 피부 영상을 이용한 우울증 지수 측정 및 진단 방법
Nagasawa et al. Stress estimation using multimodal biosignal information from RGB facial video
Karmuse et al. A robust rPPG approach for continuous heart rate measurement based on face
Ben Salah et al. Contactless heart rate estimation from facial video using skin detection and multi-resolution analysis
Nair et al. Illumination invariant non-invasive heart rate and blood pressure estimation from facial thermal images using deep learning
Panigrahi et al. Video-based HR measurement using adaptive facial regions with multiple color spaces
Lee et al. Video-based bio-signal measurements for a mobile healthcare system
Goudarz et al. Introducing a new feature extraction method for non-contact blood pressure estimating through ippg signals extracted using gr method from video images of different facial regions
AV et al. Non-contact heart rate monitoring using machine learning
Sinhal et al. Color intensity: a study of RPPG algorithm for heart rate estimation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant