KR102120007B1

KR102120007B1 - 객체 추적 장치 및 객체 추적 방법

Info

Publication number: KR102120007B1
Application number: KR1020190062200A
Authority: KR
Inventors: 백중환; 박성준
Original assignee: 한국항공대학교산학협력단
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-06-05

Abstract

객체 추적 장치는 목표 객체 설정부, GOTURN 추적기, Mean-shift 추적기, 컬러 히스토그램 분석기, 분류기, 및 판단부를 포함한다. 목표 객체 설정부는 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 목표 객체의 위치에 상응하는 최초 경계 박스를 생성한다. GOTURN 추적기는 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 목표 객체의 위치를 추적하고, 추적된 위치에 상응하는 제1 경계 박스를 생성한다. Mean-shift 추적기는 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 목표 객체의 위치를 추적하고, 추적된 위치에 상응하는 제2 경계 박스를 생성한다. 컬러 히스토그램 분석기는 n번째 입력 프레임에서 제1 경계 박스의 컬러 히스토그램과 첫 번째 입력 프레임에서 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, n번째 입력 프레임에서 제2 경계 박스의 컬러 히스토그램과 첫 번째 입력 프레임에서 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, n번째 입력 프레임에서 제1 경계 박스의 컬러 히스토그램과 (n-k)번째 입력 프레임에서 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 n번째 입력 프레임에서 제2 경계 박스의 컬러 히스토그램과 (n-k)번째 입력 프레임에서 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정한다. 분류기는 제1 내지 제4 유사도들을 사용하여 GOTURN 추적기 및 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력한다. 판단부는 n번째 입력 프레임에서 제2 경계 박스에 상응하는 영역의 평균 밝기 및 n번째 입력 프레임의 제2 경계 박스와 (n-1)번째 입력 프레임의 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 분류값에 기초하여 n번째 입력 프레임의 제1 경계 박스 및 제2 경계 박스 중의 하나를 n번째 입력 프레임의 추적 경계 박스로 결정하고, n번째 입력 프레임에서 목표 객체의 추적된 위치로서 추적 경계 박스에 상응하는 2차원 좌표를 출력한다.

Description

객체 추적 장치 및 객체 추적 방법{OBJECT TRACKING DEVICE AND METHOD OF TRACKING OBJECT}

본 발명은 객체 추적 기술에 관한 것으로, 보다 상세하게는 영상 데이터에 포함되는 객체의 움직임을 매 프레임마다 추적하는 장치 및 영상 데이터에 포함되는 객체의 움직임을 매 프레임마다 추적하는 방법에 관한 것이다.

4차 산업 혁명의 핵심 기술인 인공지능 기술의 발달로 인하여 객체 추적에 대한 연구 및 응용이 다양하게 진행되고 있으며, 객체 추적 기술은 감시 시스템, 음향, 스포츠 등 다양한 분야에 적용되고 있다.

또한 사람이 관찰하지 못하는 부분이나 도달할 수 없는 곳에서의 촬영을 위해 무인항공기가 많이 사용되고 있는데, 이 경우에도 목표 객체를 지속적으로 추적하며 비행하는 데에 객체 추적 기술이 사용되고 있다.

그런데 최근 영상의 해상도가 증가하여 영상 데이터의 픽셀수가 증가함에 따라, 종래의 객체 추적 기술은 실시간으로 영상 데이터를 분석하여 목표 객체를 추적하기가 어렵다는 문제점이 있다.

이러한 문제점을 해결하기 위해 머신 러닝(machine learning)을 활용하여 객체를 추적하는 기술이 연구되고 있다.

그러나, 일반적인 머신 러닝 기반의 객체 추적 기술은 추적에 한번 실패하게 되면 실패한 추적의 위치를 토대로 계속해서 객체를 추적해 나가므로, 객체 추적이 한번 실패하는 경우 다시 해당 객체를 추적하지 못한다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 일 목적은 영상 데이터에 포함되는 객체를 추적하는 속도 및 정확성을 동시에 향상시킬 수 있는 객체 추적 장치를 제공하는 것이다.

본 발명의 다른 목적은 상기 객체 추적 장치를 포함하는 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 제공하는 것이다.

본 발명의 다른 목적은 영상 데이터에 포함되는 객체를 추적하는 속도 및 정확성을 동시에 향상시킬 수 있는 객체 추적 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 객체 추적 방법을 사용하는 몰입형 오디오-비디오 데이터 생성 방법을 제공하는 것이다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 객체 추적 장치는 목표 객체 설정부, GOTURN(General Object Tracking Using Regression Network) 추적기, Mean-shift 추적기, 컬러 히스토그램 분석기, 분류기, 및 판단부를 포함한다. 상기 목표 객체 설정부는 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스(bounding box)를 생성한다. 상기 GOTURN 추적기는 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN(General Object Tracking Using Regression Network) 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성한다. 상기 Mean-shift 추적기는 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성한다. 상기 컬러 히스토그램 분석기는 n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정한다. 상기 분류기는 상기 제1 내지 제4 유사도들을 사용하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력한다. 상기 판단부는 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 몰입형(immersive) 오디오-비디오 데이터 생성 장치는 목표 객체 설정부, GOTURN 추적기, Mean-shift 추적기, 컬러 히스토그램 분석기, 분류기, 판단부, 깊이 추정부, 및 오디오 믹서를 포함한다. 상기 목표 객체 설정부는 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성한다. 상기 GOTURN 추적기는 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN(General Object Tracking Using Regression Network) 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성한다. 상기 Mean-shift 추적기는 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성한다. 상기 컬러 히스토그램 분석기는 n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정한다. 상기 분류기는 상기 제1 내지 제4 유사도들을 사용하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력한다. 상기 판단부는 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력한다. 상기 깊이 추정부는 상기 판단부로부터 상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표를 수신하고, 상기 복수의 입력 프레임들 각각에 대해 상기 2차원 좌표에 상응하는 객체의 깊이(depth)를 추정하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 출력한다. 상기 오디오 믹서는 상기 목표 객체에 상응하는 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 객체 추적 방법에서, 학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성하고, 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하고, 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하고, n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하고, 상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하고, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법에서, 학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성하고, 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하고, 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하고, n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하고, 상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하고, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하고, 상기 복수의 입력 프레임들 각각에 대해 상기 2차원 좌표에 상응하는 객체의 깊이를 추정하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 출력하고, 상기 목표 객체에 상응하는 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형 오디오-비디오 데이터를 생성한다.

본 발명의 실시예들에 따른 객체 추적 장치 및 객체 추적 방법은 컨볼루션 신경망(Convolutional Neural Network; CNN) 기반의 GOTURN(General Object Tracking Using Regression Network) 추적기와 컬러 히스토그램 기반의 Mean-shift 추적기를 동시에 사용하여 영상 데이터에 포함되는 객체의 위치를 추적함으로써, 객체 추적의 속도를 높은 수준으로 유지하면서도 추적 정확성을 효과적으로 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 객체 추적 장치를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 객체 추적 방법을 나타내는 순서도이다.
도 3 내지 6은 도 2의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계의 예들을 나타내는 순서도들이다.
도 7은 본 발명의 일 실시예에 따른 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 나타내는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법을 나타내는 순서도이다.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 객체 추적 장치를 나타내는 블록도이다.

도 1을 참조하면, 객체 추적 장치(10)는 목표 객체 설정부(100), GOTURN(General Object Tracking Using Regression Network) 추적기(200), Mean-shift 추적기(300), 컬러 히스토그램 분석기(400), 학습 데이터 생성부(500), 분류기(600), 및 판단부(700)를 포함한다.

GOTURN 추적기(200)는 컨볼루션 신경망(Convolutional Neural Network; CNN) 기반의 객체 추적 알고리즘인 GOTURN 추적 알고리즘을 사용하여 영상 데이터에 포함되는 객체의 위치를 프레임 단위로 추적한다.

구체적으로, GOTURN 추적기(200)는 학습 단계에서 연속된 프레임 쌍을 무작위로 선택하고, 이전 프레임에서 추적할 객체의 영역을 지정하여 자르고 현재 프레임에서는 동일 위치의 영역을 잘라 각각의 컨볼루션 레이어(convolution layer)에서 객체와 객체 주변에 대한 정보를 학습하고, 완전 연결 레이어(fully-connected layer)에서 상기 각각의 컨볼루션 레이어의 가중치(weight)를 공유하여 현재 프레임에서 경계 박스(bounding box)의 위치를 예측하도록 학습한다.

따라서 GOTURN 추적기(200)는 최초의 프레임에서 추적할 객체의 위치에 상응하는 경계 박스를 설정하는 경우, 상기 학습된 모델을 사용하여 이후의 프레임들에서 상기 객체의 이동된 위치를 추적하고 상기 객체의 추적된 위치에 상응하는 경계 박스를 생성할 수 있다.

다양한 형태의 GOTURN 추적 알고리즘이 널리 알려져 있으며, 본 발명에 따른 객체 추적 장치(10)에 포함되는 GOTURN 추적기(200)는 다양한 형태의 GOTURN 추적 알고리즘을 사용하여 구현될 수 있다. GOTURN 추적 알고리즘은 널리 알려져 있으므로, GOTURN 추적기(200)의 세부 동작에 대한 상세한 설명은 생략한다.

Mean-shift 추적기(300)는 현재 위치의 주변에서 데이터가 가장 밀집된 방향으로 이동하는 방식으로 데이터 분포의 중심을 찾는 알고리즘인 Mean-shift 추적 알고리즘을 영상 데이터에 포함되는 객체의 추적에 적용하여 영상 데이터에 포함되는 객체의 위치를 프레임 단위로 추적한다.

구체적으로, Mean-shift 추적기(300)는 최초의 프레임에서 추적할 객체의 위치에 상응하는 경계 박스를 설정하는 경우, 상기 최초의 프레임에서 상기 경계 박스의 컬러 히스토그램과 가장 유사한 컬러 히스토그램을 갖는 영역을 이후의 프레임들 각각에서 찾아 해당 영역을 상기 객체의 추적된 위치에 상응하는 경계 박스로 생성할 수 있다.

다양한 형태의 Mean-shift 추적 알고리즘이 널리 알려져 있으며, 본 발명에 따른 객체 추적 장치(10)에 포함되는 Mean-shift 추적기(300)는 다양한 형태의 Mean-shift 추적 알고리즘을 사용하여 구현될 수 있다. Mean-shift 추적 알고리즘은 널리 알려져 있으므로, Mean-shift 추적기(300)의 세부 동작에 대한 상세한 설명은 생략한다.

이와 같이, 본 발명에 따른 객체 추적 장치(10)는 컨볼루션 신경망 기반의 GOTURN 추적기(200)와 컬러 히스토그램 기반의 Mean-shift 추적기(300)를 동시에 사용하여 영상 데이터에 포함되는 객체의 위치를 추적한다.

또한, 본 발명에 따른 객체 추적 장치(10)는 머신 러닝(Machine Learning) 기반의 이진 분류기에 상응하는 분류기(600)를 사용하여 매 프레임마다 GOTURN 추적기(200)와 Mean-shift 추적기(300) 중에서 추적 정확도가 더 높은 추적기를 선택하고, 판단부(700)는 매 프레임마다 분류기(600)의 선택 결과에 기초하여 GOTURN 추적기(200)가 객체를 추적한 결과에 상응하는 제1 경계 박스(BB_G)와 Mean-shift 추적기(300)가 객체를 추적한 결과에 상응하는 제2 경계 박스(BB_M) 중의 하나를 최종적으로 선택하고, 상기 선택된 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력한다.

도 2는 본 발명의 일 실시예에 따른 객체 추적 방법을 나타내는 순서도이다.

도 2에 도시된 객체 추적 방법은 도 1의 객체 추적 장치(10)를 통해 수행될 수 있다.

이하, 도 1 및 2를 참조하여 객체 추적 장치(10)의 상세 구성 및 동작과 객체 추적 장치(10)에 의해 수행되는 객체 추적 방법에 대해 상세히 설명한다.

객체 추적 장치(10)는 학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성한다(단계 S100).

구체적으로, 학습 데이터 생성부(500)는 상기 학습 영상 데이터에 상응하는 복수의 학습 프레임들(TFs) 중의 첫 번째 학습 프레임에서 학습 객체를 설정하고, 상기 학습 객체의 위치에 상응하는 경계 박스를 생성할 수 있다.

이후, 학습 데이터 생성부(500)는 복수의 학습 프레임들(TFs) 각각에 대해, 현재 학습 프레임에서 GOTURN 추적기(200)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 Mean-shift 추적기(300)를 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 GOTURN 추적기(200)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 현재 학습 프레임과 상기 첫 번째 학습 프레임 사이에 존재하는 비교 학습 프레임에서 상기 학습 객체의 실제 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 및 상기 현재 학습 프레임에서 Mean-shift 추적기(300)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 비교 학습 프레임에서 상기 학습 객체의 실제 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도를 입력값들로 하고, GOTURN 추적기(200)와 Mean-shift 추적기(300) 중에서 상기 현재 학습 프레임에서 더 높은 추적 정확도를 갖는 추적기를 나타내는 값을 상기 입력값들에 대한 라벨로 하는 학습 데이터(TR_DATA)를 생성할 수 있다.

일반적으로 GOTURN 추적 알고리즘이 객체 추적에 실패하는 경우, 객체 추적 실패의 결과가 세 프레임 이후에 생성되는 경계 박스에 나타난다. 따라서 상기 비교 학습 프레임은 상기 현재 학습 프레임보다 세 번째 이전의 학습 프레임에 상응할 수 있다.

분류기(600)는 머신 러닝 기반의 이진 분류기에 상응할 수 있다. 예를 들어, 분류기(600)는 SVM(Support Vector Machine) 알고리즘을 이용하여 구현될 수 있다.

분류기(600)는 학습 데이터 생성부(500)로부터 생성되는 학습 데이터(TR_DATA)를 사용하여 상기 네 개의 유사도들을 GOTURN 추적기(200)와 Mean-shift 추적기(300) 중의 하나로 분류하는 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성할 수 있다.

분류기(600)가 상술한 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성한 이후, 객체 추적 장치(10)는 입력 영상 데이터를 수신하고, 상기 입력 영상 데이터에 포함되는 객체를 추적하여 상기 추적된 객체의 위치에 상응하는 2차원 좌표(COOR_2D)를 출력한다.

구체적으로, 목표 객체 설정부(100)는 상기 입력 영상 데이터에 상응하는 복수의 입력 프레임들(IFs) 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스(BB_INIT)를 생성할 수 있다(단계 S200).

예를 들어, 목표 객체 설정부(100)는 사용자의 선택에 의해 상기 첫 번째 입력 프레임에 포함되는 복수의 객체들 중의 하나를 상기 목표 객체로 설정할 수 있다.

목표 객체 설정부(100)는 최초 경계 박스(BB_INIT)를 GOTURN 추적기(200), Mean-shift 추적기(300), 및 컬러 히스토그램 분석기(400)에 제공할 수 있다.

GOTURN 추적기(200)는 목표 객체 설정부(100)로부터 수신되는 최초 경계 박스(BB_INIT)에 기초하여 복수의 입력 프레임들(IFs) 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스(BB_G)를 생성할 수 있다(단계 S300).

또한, Mean-shift 추적기(300)는 목표 객체 설정부(100)로부터 수신되는 최초 경계 박스(BB_INIT)에 기초하여 복수의 입력 프레임들(IFs) 중에서 상기 첫 번째 입력 프레임을 제외한 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스(BB_M)를 생성할 수 있다(단계 S400).

도 2에 도시된 바와 같이, GOTURN 추적기(200)가 상기 목표 객체의 위치를 추적하여 제1 경계 박스(BB_G)를 생성하는 동작과 Mean-shift 추적기(300)가 상기 목표 객체의 위치를 추적하여 제2 경계 박스(BB_M)를 생성하는 동작은 동시에 수행될 수 있다.

컬러 히스토그램 분석기(400)는 목표 객체 설정부(100)로부터 최초 경계 박스(BB_INIT)를 수신할 수 있다. 또한, 컬러 히스토그램 분석기(400)는 매 입력 프레임마다 GOTURN 추적기(200)로부터 생성되는 제1 경계 박스(BB_G)와 매 입력 프레임마다 Mean-shift 추적기(300)로부터 생성되는 제2 경계 박스(BB_M)를 수신할 수 있다.

한편, 컬러 히스토그램 분석기(400)는 n(n은 2 이상의 정수)번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 최초 경계 박스(BB_INIT)의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도(CHS1), 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 최초 경계 박스(BB_INIT)의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도(CHS2), 상기 n번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도(CHS3), 및 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도(CHS4)를 결정할 수 있다(단계 S500).

일 실시예에 있어서, 두 개의 컬러 히스토그램들 사이의 유사도는 상기 두 개의 컬러 히스토그램들에서 동일한 그레이 레벨(gray level)에 상응하는 값들의 곱이 클수록 큰 값을 갖고, 동일한 그레이 레벨에 상응하는 값들의 곱이 작을수록 작은 값을 갖도록 결정할 수 있다.

분류기(600)는 컬러 히스토그램 분석기(400)로부터 매 프레임 별로 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)을 수신할 수 있다.

상술한 바와 같이, 분류기(600)는 학습 데이터 생성부(500)로부터 생성되는 학습 데이터(TR_DATA)를 사용하여 네 개의 유사도들을 GOTURN 추적기(200)와 Mean-shift 추적기(300) 중의 하나로 분류하는 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성할 수 있다.

따라서 분류기(600)는 상기 추적 알고리즘 선택 모델을 통해 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)에 기초하여 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 상기 n번째 입력 프레임에서 더 높은 추적 정확도를 가질 것으로 추정되는 추적기를 선택하고, 상기 선택된 추적기를 나타내는 분류값(CLS_R)을 출력할 수 있다.

즉, 분류기(600)는 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)을 상기 추적 알고리즘 선택 모델에 입력하여 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중의 하나를 나타내는 분류값(CLS_R)을 출력할 수 있다(단계 S600).

일반적으로 GOTURN 추적 알고리즘이 객체 추적에 실패하는 경우, 객체 추적 실패의 결과가 세 프레임 이후에 생성되는 경계 박스에 나타난다. 따라서 현재의 입력 프레임과 세 번째 이전의 입력 프레임을 비교하여 제3 유사도(CHS3) 및 제4 유사도(CHS4)를 결정할 때 분류기(600)가 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 상기 n번째 입력 프레임에서 더 높은 추적 정확도를 갖는 추적기를 추정하는 정확도가 향상될 수 있다. 따라서 상기 k는 3에 상응할 수 있다.

판단부(700)는 매 입력 프레임마다 분류기(600)로부터 분류값(CLS_R)을 수신하고, GOTURN 추적기(200)로부터 제1 경계 박스(BB_G)를 수신하고, Mean-shift 추적기(300)로부터 제2 경계 박스(BB_M)를 수신할 수 있다.

일 실시예에 있어서, 판단부(700)는 분류기(600)로부터 수신되는 분류값(CLS_R)에 기초하여 상기 n번째 입력 프레임의 제1 경계 박스(BB_G) 및 제2 경계 박스(BB_M) 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

예를 들어, 분류값(CLS_R)이 GOTURN 추적기(200)를 나타내는 경우, 판단부(700)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(300)를 나타내는 경우, 판단부(700)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

다른 실시예에 있어서, 판단부(700)는 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리 중의 적어도 하나와 분류기(600)로부터 수신되는 분류값(CLS_R)에 기초하여 상기 n번째 입력 프레임의 제1 경계 박스(BB_G) 및 제2 경계 박스(BB_M) 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S700).

도 3은 도 2의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S700)의 일 예를 나타내는 순서도이다.

도 3을 참조하면, 판단부(700)는 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 분류값(CLS_R)이 나타내는 추적기를 판단할 수 있다(단계 S711).

분류값(CLS_R)이 GOTURN 추적기(200)를 나타내는 경우, 판단부(700)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S712).

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(300)를 나타내는 경우, 판단부(700)는 상기 n번째 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 레벨을 계산한 후(단계 S713), 상기 평균 밝기 레벨을 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)과 비교할 수 있다(단계 S714).

일 실시예에 있어서, 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)은 미리 정해질 수 있다. 여기서, 제2 문턱 레벨(THL2)은 제1 문턱 레벨(THL1)보다 높은 레벨을 나타낸다.

상술한 바와 같이, Mean-shift 추적기(300)는 경계 박스의 컬러 히스토그램을 사용하여 객체의 위치를 추적한다. 그런데 경계 박스의 밝기가 너무 밝거나 너무 어두운 경우, 상기 경계 박스는 실제 객체의 색상 정보를 정상적으로 포함하지 않을 수 있다. 따라서 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)의 밝기가 너무 밝거나 너무 어두운 경우, Mean-shift 추적기(300)는 상기 목표 객체의 추적에 실패했을 가능성이 높다.

따라서 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1)보다 낮거나 제2 문턱 레벨(THL2)보다 높은 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(200)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S712).

이에 반해, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S717).

도 4는 도 2의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S700)의 다른 예를 나타내는 순서도이다.

도 4에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정은 도 3에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정과 일부 단계들(S711, S712, S713, S714)이 동일하다.

따라서 여기서는 도 3과 동일한 단계들(S711, S712, S713, S714)에 대한 상세한 설명은 생략한다.

도 4를 참조하면, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(700)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 상기 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리를 계산한 후(단계 S715), 상기 이격 거리를 문턱 거리(THD)와 비교할 수 있다(단계 S716).

상술한 바와 같이, Mean-shift 추적기(300)는 경계 박스의 컬러 히스토그램을 사용하여 객체의 위치를 추적하므로, 상기 목표 객체와 유사한 컬러를 갖는 유사 물체가 프레임 내에 새롭게 등장하는 경우, 상기 경계 박스는 상기 유사 물체의 위치로 튀는 현상이 발생할 수 있다. 따라서 연속적인 두 개의 프레임들에서 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)들 사이의 거리가 많이 이격되는 경우, Mean-shift 추적기(300)는 상기 목표 객체의 추적에 실패했을 가능성이 높다.

따라서 상기 이격 거리가 문턱 거리(THD)보다 먼 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(200)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S712).

이에 반해, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S717).

일 실시예에 있어서, 문턱 거리(THD)는 복수의 입력 프레임들(IFs) 각각의 대각선 길이의 100분의 1의 값으로 설정될 수 있다.

그러나 본 발명은 이에 한정되지 않으며, 문턱 거리(THD)는 상기 입력 영상 데이터의 내용에 따라 적절한 값으로 설정될 수 있다.

도 5는 도 2의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S700)의 또 다른 일 예를 나타내는 순서도이다.

도 5를 참조하면, 판단부(700)는 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 분류값(CLS_R)이 나타내는 추적기를 판단할 수 있다(단계 S721).

분류값(CLS_R)이 GOTURN 추적기(200)를 나타내는 경우, 판단부(700)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S722).

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(300)를 나타내는 경우, 판단부(700)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 상기 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리를 계산한 후(단계 S723), 상기 이격 거리를 문턱 거리(THD)와 비교할 수 있다(단계 S724).

상기 이격 거리가 문턱 거리(THD)보다 먼 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(200)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S722).

이에 반해, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S727).

도 6은 도 2의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S700)의 또 다른 예를 나타내는 순서도이다.

도 6에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정은 도 5에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정과 일부 단계들(S721, S722, S723, S724)이 동일하다.

따라서 여기서는 도 5와 동일한 단계들(S721, S722, S723, S724)에 대한 상세한 설명은 생략한다.

도 6을 참조하면, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(700)는 상기 n번째 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 레벨을 계산한 후(단계 S725), 상기 평균 밝기 레벨을 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)과 비교할 수 있다(단계 S726).

상기 평균 밝기 레벨이 제1 문턱 레벨(THL1)보다 낮거나 제2 문턱 레벨(THL2)보다 높은 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(200)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S722).

이에 반해, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(700)는 Mean-shift 추적기(300)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S727).

일 실시예에 있어서, 도 1에 도시된 바와 같이, 판단부(700)는 매 입력 프레임마다 컬러 히스토그램 분석기(400)로부터 제3 유사도(CHS3) 및 제4 유사도(CHS4)를 수신할 수 있다.

이 경우, 판단부(700)는 제3 유사도(CHS3)의 크기 및 제4 유사도(CHS4)의 크기에 기초하여 GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 상기 추적 경계 박스로 결정되지 않은 경계 박스를 생성한 추적기를 상기 추적 경계 박스로 초기화할 수 있다.

예를 들어, 판단부(700)가 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 판단부(700)는 컬러 히스토그램 분석기(400)로부터 수신되는 제3 유사도(CHS3)와 기준값을 비교할 수 있다. 상기 기준값은 미리 정해진 값일 수 있다.

제3 유사도(CHS3)가 상기 기준값보다 큰 경우, GOTURN 추적기(200)가 추적한 상기 목표 객체의 위치에 상응하는 제1 경계 박스(BB_G)의 정확도는 상당히 높은 것으로 판단할 수 있다.

따라서 제3 유사도(CHS3)가 상기 기준값보다 큰 경우, 판단부(700)는 Mean-shift 추적기(300)에 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 제공하고, Mean-shift 추적기(300)는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 판단부(700)로부터 수신되는 제1 경계 박스(BB_G)로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하여 제2 경계 박스(BB_M)를 생성하는 동작을 계속하여 수행할 수 있다.

마찬가지로, 판단부(700)가 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 판단부(700)는 컬러 히스토그램 분석기(400)로부터 수신되는 제4 유사도(CHS4)와 상기 기준값을 비교할 수 있다.

제4 유사도(CHS4)가 상기 기준값보다 큰 경우, Mean-shift 추적기(300)가 추적한 상기 목표 객체의 위치에 상응하는 제2 경계 박스(BB_M)의 정확도는 상당히 높은 것으로 판단할 수 있다.

따라서 제4 유사도(CHS4)가 상기 기준값보다 큰 경우, 판단부(700)는 GOTURN 추적기(200)에 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 제공하고, GOTURN 추적기(200)는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 판단부(700)로부터 수신되는 제2 경계 박스(BB_M)로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하여 제1 경계 박스(BB_G)를 생성하는 동작을 계속하여 수행할 수 있다.

이와 같이, 판단부(700)는 매 입력 프레임마다 상기 추적 경계 박스의 정확도가 상당히 높은 것으로 판단되는 경우, GOTURN 추적기(200) 및 Mean-shift 추적기(300) 중에서 상기 추적 경계 박스로 결정되지 않은 경계 박스를 생성한 추적기를 상기 추적 경계 박스로 초기화함으로써, 복수의 학습 프레임들(TFs)에 대한 전체적인 상기 목표 객체의 추적 정확도를 더욱 향상시킬 수 있다.

도 7은 본 발명의 일 실시예에 따른 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 나타내는 블록도이다.

도 7을 참조하면, 몰입형 오디오-비디오 데이터 생성 장치(20)는 목표 객체 설정부(100), GOTURN 추적기(200), Mean-shift 추적기(300), 컬러 히스토그램 분석기(400), 학습 데이터 생성부(500), 분류기(600), 판단부(700), 깊이 추정부(800), 및 오디오 믹서(900)를 포함한다.

도 8은 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법을 나타내는 순서도이다.

이하, 도 7 및 8을 참조하여 몰입형 오디오-비디오 데이터 생성 장치(20)의 상세 구성 및 동작과 몰입형 오디오-비디오 데이터 생성 장치(20)에 의해 수행되는 몰입형 오디오-비디오 데이터 생성 방법에 대해 상세히 설명한다.

도 7에 도시된 몰입형 오디오-비디오 데이터 생성 장치(20)는 도 1에 도시된 객체 추적 장치(10)에서 깊이 추정부(800) 및 오디오 믹서(900)를 더 포함하여 구성된다.

도 1에 도시된 객체 추적 장치(10)의 구성 및 동작에 대해서는 도 1 내지 6을 참조하여 상세히 설명하였으므로, 여기서는 중복되는 설명은 생략하고, 몰입형 오디오-비디오 데이터 생성 장치(20)에 포함되는 깊이 추정부(800) 및 오디오 믹서(900)의 동작에 대해서만 상세히 설명한다.

깊이 추정부(800)는 판단부(700)로부터 복수의 입력 프레임들(IFs) 각각에 대한 2차원 좌표(COOR_2D)를 수신할 수 있다.

깊이 추정부(800)는 비지도 학습(unsupervised learning) 기반의 깊이 추정 알고리즘을 사용하여 복수의 입력 프레임들(IFs) 각각에서 2차원 좌표(COOR_2D)에 상응하는 위치에 존재하는 객체의 깊이(depth)를 추정하고, 상기 추정된 깊이와 2차원 좌표(COOR_2D)를 병합하여 복수의 입력 프레임들(IFs) 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표(COOR_3D)를 출력할 수 있다(단계 S800).

다양한 형태의 비지도 학습 기반의 깊이 추정 알고리즘이 널리 알려져 있으며, 본 발명에 따른 몰입형 오디오-비디오 데이터 생성 장치(20)에 포함되는 깊이 추정부(800)는 다양한 형태의 비지도 학습 기반의 깊이 추정 알고리즘을 사용하여 구현될 수 있다. 비지도 학습 기반의 깊이 추정 알고리즘은 널리 알려져 있으므로, 깊이 추정부(800)의 세부 동작에 대한 상세한 설명은 생략한다.

오디오 믹서(900)는 외부로부터 상기 목표 객체에 상응하는 오디오 데이터(A_DATA)를 수신하고, 깊이 추정부(800)로부터 복수의 입력 프레임들(IFs) 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표(COOR_3D)를 수신할 수 있다.

이후, 오디오 믹서(900)는 오디오 데이터(A_DATA)를 복수의 입력 프레임들(IFs) 각각의 3차원 좌표(COOR_3D)와 연결하여 몰입형 오디오-비디오 데이터(AV_DATA)를 생성할 수 있다(단계 S900).

따라서 본 발명의 실시예들에 따른 몰입형 오디오-비디오 데이터 생성 장치(20)로부터 생성되는 몰입형 오디오-비디오 데이터(AV_DATA)가 내부의 다양한 위치에 복수의 스피커들이 설치된 극장에서 상영되는 경우, 영상 내의 캐릭터가 움직이는 방향에 따라 상기 캐릭터가 생성하는 오디오가 상기 복수의 스피커들을 통해 송출되는 방향이 제어되므로, 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.

본 발명은 영상 내의 객체가 움직이는 방향에 따라 상기 캐릭터가 생성하는 오디오가 송출되는 방향이 제어되는 몰입형 오디오-비디오 데이터를 생성하는 데에 유용하게 이용될 수 있다.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 객체 추적 장치 100: 목표 객체 설정부
200: GOTURN 추적기 300: Mean-shift 추적기
400: 컬러 히스토그램 분석기 500: 학습 데이터 생성부
600: 분류기 700: 판단부
800: 깊이 추정부 900: 오디오 믹서
20: 몰입형 오디오-비디오 데이터 생성 장치

Claims

입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스(bounding box)를 생성하는 목표 객체 설정부;
상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN(General Object Tracking Using Regression Network) 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 GOTURN 추적기;
상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 Mean-shift 추적기;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 컬러 히스토그램 분석기;
상기 제1 내지 제4 유사도들을 사용하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하는 머신 러닝(Machine Learning) 기반의 분류기; 및
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 판단부를 포함하는 객체 추적 장치.
제1 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하고, 상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제2 항에 있어서, 상기 판단부는,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제2 항에 있어서, 상기 판단부는,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하고, 상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제4 항에 있어서, 상기 판단부는,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제1 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하고, 상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제6 항에 있어서, 상기 판단부는,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제6 항에 있어서, 상기 판단부는,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하고, 상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제8 항에 있어서, 상기 판단부는,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제1 항에 있어서, 상기 분류값이 상기 GOTURN 추적기를 나타내는 경우,
상기 판단부는, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 객체 추적 장치.
제1 항에 있어서, 상기 판단부는, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 컬러 히스토그램 분석기로부터 수신되는 상기 제3 유사도와 기준값을 비교하고, 상기 제3 유사도가 상기 기준값보다 큰 경우, 상기 Mean-shift 추적기에 상기 n번째 입력 프레임의 상기 제1 경계 박스를 제공하고,
상기 Mean-shift 추적기는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 상기 판단부로부터 수신되는 상기 제1 경계 박스로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하는 동작을 수행하는 객체 추적 장치.
제1 항에 있어서, 상기 판단부는, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 컬러 히스토그램 분석기로부터 수신되는 상기 제4 유사도와 기준값을 비교하고, 상기 제4 유사도가 상기 기준값보다 큰 경우, 상기 GOTURN 추적기에 상기 n번째 입력 프레임의 상기 제2 경계 박스를 제공하고,
상기 GOTURN 추적기는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 상기 판단부로부터 수신되는 상기 제2 경계 박스로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하는 동작을 수행하는 객체 추적 장치.
제1 항에 있어서, 상기 k는 3에 상응하는 객체 추적 장치.
제1 항에 있어서,
학습 영상 데이터에 상응하는 복수의 학습 프레임들 각각에 대해, 현재 학습 프레임에서 상기 GOTURN 추적기를 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 상기 Mean-shift 추적기를 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 상기 GOTURN 추적기를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 현재 학습 프레임과 상기 첫 번째 학습 프레임 사이에 존재하는 비교 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 및 상기 현재 학습 프레임에서 상기 Mean-shift 추적기를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 비교 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도를 입력값들로 하고, 상기 GOTURN 추적기와 상기 Mean-shift 추적기 중에서 상기 현재 학습 프레임에서 더 높은 추적 정확도를 갖는 추적기를 나타내는 값을 상기 입력값들에 대한 라벨로 하는 학습 데이터를 생성하는 학습 데이터 생성부를 더 포함하고,
상기 분류기는 상기 학습 데이터를 사용하여 상기 입력값들을 상기 GOTURN 추적기와 상기 Mean-shift 추적기 중의 하나로 분류하는 학습을 수행하여 추적 알고리즘 선택 모델을 생성한 후, 상기 컬러 히스토그램 분석기로부터 수신되는 상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 상기 분류값을 출력하는 객체 추적 장치.
입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하는 목표 객체 설정부;
상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 GOTURN 추적기;
상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 Mean-shift 추적기;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 컬러 히스토그램 분석기;
상기 제1 내지 제4 유사도들을 사용하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하는 머신 러닝 기반의 분류기;
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 판단부;
상기 판단부로부터 상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표를 수신하고, 상기 복수의 입력 프레임들 각각에 대해 상기 2차원 좌표에 상응하는 객체의 깊이(depth)를 추정하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 출력하는 깊이 추정부; 및
상기 목표 객체에 상응하는 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성하는 오디오 믹서를 포함하는 몰입형 오디오-비디오 데이터 생성 장치.
학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성하는 단계;
입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하는 단계;
상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 단계;
상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 단계;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 단계;
상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 GOTURN 추적기 및 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하는 단계; 및
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계를 포함하는 객체 추적 방법.
제16 항에 있어서, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 상기 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 Mean-shift 추적기 및 상기 GOTURN 추적기 중에서 상기 분류값이 나타내는 추적기를 판단하는 단계; 및
상기 분류값이 상기 GOTURN 추적기를 나타내는 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계를 포함하는 객체 추적 방법.
제17 항에 있어서, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 상기 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하는 단계;
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계; 및
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계를 더 포함하는 객체 추적 방법.
제17 항에 있어서, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 상기 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하는 단계;
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계;
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하는 단계;
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계; 및
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계를 더 포함하는 객체 추적 방법.
제17 항에 있어서, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 상기 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하는 단계;
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계; 및
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계를 더 포함하는 객체 추적 방법.
제17 항에 있어서, 상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 상기 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하는 단계;
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계;
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하는 단계;
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계; 및
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 단계를 더 포함하는 객체 추적 방법.
제16 항에 있어서,
상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 제3 유사도와 기준값을 비교하는 단계; 및
상기 제3 유사도가 상기 기준값보다 큰 경우, 상기 n번째 입력 프레임에서 상기 Mean-shift 추적 알고리즘을 사용하여 추적된 상기 목표 객체의 위치를 상기 제1 경계 박스로 초기화하는 단계를 더 포함하는 객체 추적 방법.
제16 항에 있어서,
상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 제4 유사도와 기준값을 비교하는 단계; 및
상기 제4 유사도가 상기 기준값보다 큰 경우, 상기 n번째 입력 프레임에서 상기 GOTURN 추적 알고리즘을 사용하여 추적된 상기 목표 객체의 위치를 상기 제2 경계 박스로 초기화하는 단계를 더 포함하는 객체 추적 방법.
제16 항에 있어서, 상기 학습 영상 데이터를 사용하여 머신 러닝을 수행하여 상기 추적 알고리즘 선택 모델을 생성하는 단계는,
상기 학습 영상 데이터에 상응하는 복수의 학습 프레임들 각각에 대해, 현재 학습 프레임에서 GOTURN 추적 알고리즘을 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 Mean-shift 추적 알고리즘을 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 GOTURN 추적 알고리즘을 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 현재 학습 프레임과 상기 첫 번째 학습 프레임 사이에 존재하는 비교 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 및 상기 현재 학습 프레임에서 Mean-shift 추적 알고리즘을 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 비교 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도를 입력값들로 하고, GOTURN 추적 알고리즘과 Mean-shift 추적 알고리즘 중에서 상기 현재 학습 프레임에서 더 높은 추적 정확도를 갖는 알고리즘을 나타내는 값을 상기 입력값들에 대한 라벨로 하는 학습 데이터를 생성하는 단계; 및
상기 학습 데이터를 사용하여 상기 입력값들을 GOTURN 추적 알고리즘과 Mean-shift 추적 알고리즘 중의 하나로 분류하는 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성하는 단계를 포함하는 객체 추적 방법.
학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성하는 단계;
입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하는 단계;
상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 단계;
상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 단계;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 단계;
상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하는 단계;
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계;
상기 복수의 입력 프레임들 각각에 대해 상기 2차원 좌표에 상응하는 객체의 깊이를 추정하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 출력하는 단계; 및
상기 목표 객체에 상응하는 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형 오디오-비디오 데이터를 생성하는 단계를 포함하는 몰입형 오디오-비디오 데이터 생성 방법.