KR100763899B1

KR100763899B1 - 앵커 샷 검출 방법 및 장치

Info

Publication number: KR100763899B1
Application number: KR1020040011320A
Authority: KR
Inventors: 김상균; 황두선; 김지연; 문영수; 허영식
Original assignee: 삼성전자주식회사
Priority date: 2004-02-20
Filing date: 2004-02-20
Publication date: 2007-10-05
Also published as: CN1658226A; EP1566748A1; JP2005237001A; KR20050082757A; US20050187765A1

Abstract

앵커 샷 검출 방법 및 장치가 개시된다. 이 방법은, 동영상을 오디오 신호와 비디오 신호로 분리하는 단계와, 비디오 신호를 이용하여 샷들의 경계를 결정하는 단계 및 오디오 신호중에서, 제1 문턱값보다 긴 길이를 가지며, 제2 문턱값보다 긴 길이의 묵음 구간을 갖는 샷들을 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 결정하는 단계를 구비하는 것을 특징으로 한다. 그러므로, 본 발명에 의한 앵커 샷 검출 방법 및 장치는 미리 정해진 앵커 영상 모델없이 앵커 샷을 갖는 뉴스와 같은 동영상에 적응하여 앵커 영상 모델을 생성할 수 있고, 앵커의 옷이나 앵커의 얼굴 색이 배경 색과 유사할 경우에도 앵커 샷을 강건하게 검출할 수 있고, 첫 번째 앵커 샷 검출 없이도 앵커 샷을 검출할 수 있고, 앵커 샷과 유사한 리포트 샷을 앵커 샷으로 잘못 검출할 가능성을 배제시키는 등, 앵커 샷을 정확하게 검출할 수 있다.

Description

앵커 샷 검출 방법 및 장치{Method and apparatus for detecting anchorperson shot}

도 1은 본 발명에 의한 앵커 샷 검출 방법의 일 실시예를 설명하기 위한 플로우차트이다.

도 2 (a) 및 (b)는 도 1에 도시된 제14 단계를 설명하기 위한 예시적인 파형도들이다.

도 3은 도 1에 도시된 제16 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 4는 도 3에 도시된 제34 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 5는 제32 단계에서 선택된 샷들중 임의의 샷의 예시적인 구조를 나타내는 도면이다.

도 6은 도 4에 도시된 제52 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 7은 에너지별 프레임 분포를 예시적으로 나타내는 그래프이다.

도 8은 도 4에 도시된 제54 단계의 이해를 돕기 위한 에너지별 프레임 분포의 예시적인 다른 그래프이다.

도 9는 도 4에 도시된 제56 단계의 이해를 돕기 위해, 제32 단계에서 선택된 샷들중 임의의 샷의 예시적인 구조를 나타내는 도면이다.

도 10 (a), (b), (c), (d) 및 (e)들은 도 1에 도시된 제16 단계에서 결정되는 앵커 음성 샷들의 예시적인 도면이다.

도 11은 도 1에 도시된 제18 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 12는 묵음 프레임을 제거하는 도 11에 도시된 제130 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 13은 자음 프레임을 제거하는 도 11에 도시된 제130 단계에 대한 실시예를 설명하기 위한 플로우차트이다.

도 14는 도 13에 도시된 제172 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 15는 도 11에 도시된 제132 단계에 대한 본 발명에 의한 일 실시예를 설명하기 위한 플로우차트이다.

도 16 (a) ~ (e)들은 도 11에 도시된 제132 단계의 이해를 돕기 위한 도면이다.

도 17은 도 11에 도시된 제132 단계에 대한 본 발명에 의한 다른 실시예를 설명하기 위한 플로우차트이다.

도 18은 단일 앵커 음성 샷들을 그룹핑하여 유사 그룹들을 결정하는 도 1에 도시된 제20 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 19 (a), (b) 및 (c)들은 도 10 (a) ~ (e)들에 도시된 앵커 음성 샷들을 그룹핑하여 결정한 유사 그룹들의 예시적인 도면들이다.

도 20은 본 발명에 의한 앵커 샷 검출 방법의 다른 실시예를 설명하기 위한 플로우차트이다.

도 21은 도 20에 도시된 제274 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 22는 본 발명에 의한 앵커 샷 검출 장치의 일 실시예의 블럭도이다.

도 23은 본 발명에 의한 앵커 샷 검출 장치의 다른 실시예의 블럭도이다.

본 발명은 동영상의 처리에 관한 것으로서, 특히, 동영상에서 앵커 샷(anchorperson shot)을 검출하는 방법 및 장치에 관한 것이다.

뉴스 같은 종류의 방송 신호 및 영화등의 동영상에서 앵커 샷을 검출하는 종래의 방법들중 하나는 앵커 샷에 대한 템플릿을 사용하여 앵커 샷을 검출한다. 이러한 종래의 방법은 앵커 샷의 포맷 정보를 미리 가정하여 인지하고, 인지한 포맷 정보를 이용하여 앵커 샷을 추출하거나 앵커 얼굴 및 앵커 옷의 색을 이용하여 생성한 템플릿을 이용하여 앵커 샷을 추출한다. 그러나, 이러한 방법은 미리 정해진 앵커 영상 모델을 사용하기 때문에 앵커 샷의 포맷 변화에 따라 앵커 샷의 검출 성능을 매우 저하시킬 수 있다. 게다가, 얼굴이나 옷의 색을 이용하여 앵커 샷을 검 출하는 종래의 방법은, 얼굴이나 옷의 색이 배경의 색과 유사할 때 또는 조명이 변할 때 열악한 앵커 샷 검출 성능을 갖는다. 또한, 첫 번째 앵커 샷을 이용하여 앵커 샷 정보를 구하는 종래의 방법은, 앵커를 검출할 때 해당 뉴스에서 앵커의 수나 앵커의 포맷이 변하는 정도에 따라 영향을 받는 문제점을 갖는다. 즉, 첫 번째 앵커 샷을 잘못 검출할 경우, 앵커 검출 성능이 저하된다.

한편, 앵커 샷을 검출하는 종래의 방법들중 다른 하나는 앵커 샷 내에 유사 색 분포나 샷의 발생 시점 같은 특성치를 클러스터링(c1ustering)하여 앵커 샷을 검출한다. 이러한 종래의 방법은 앵커 샷과 유사한 색 분포를 갖는 리포트(report) 샷을 앵커 샷으로 잘못 검출할 수 있으며, 한 개의 돌출적으로 발생하는 앵커 샷을 검출할 수 없는 문제점을 갖는다.

본 발명이 이루고자 하는 기술적 과제는, 동영상으로부터 분리된 오디오 신호를 이용하여 즉, 앵커의 음성 정보를 이용하여 앵커 샷을 검출할 수 있는 앵커 샷 검출 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 동영상으로부터 분리된 오디오 신호를 이용하여 즉, 앵커의 음성 정보를 이용하여 앵커 샷을 검출할 수 있는 앵커 샷 검출 장치를 제공하는 데 있다.

상기 과제를 이루기 위한 본 발명에 의한 앵커 샷 검출 방법은, 동영상을 오디오 신호와 비디오 신호로 분리하는 단계와, 상기 비디오 신호를 이용하여 샷들의 경계를 결정하는 단계 및 상기 오디오 신호중에서, 제1 문턱값보다 긴 길이를 가지며, 제2 문턱값보다 긴 길이의 묵음 구간을 갖는 샷들을 상기 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 결정하는 단계로 이루어지는 것이 바람직하다.

상기 다른 과제를 이루기 위한 본 발명에 의한 앵커 샷 검출 장치는, 동영상을 오디오 신호와 비디오 신호로 분리하는 신호 분리부와, 상기 분리된 비디오 신호를 이용하여 샷들의 경계를 결정하는 경계 결정부 및 상기 오디오 신호중에서, 제1 문턱값보다 긴 길이를 가지며, 제2 문턱값보다 긴 길이의 묵음 구간을 갖는 샷들을 상기 경계 결정부로부터 입력한 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 출력하는 앵커 음성 샷 추출부로 구성되는 것이 바람직하다.

이하, 본 발명에 의한 앵커 샷 검출 방법 및 그 방법의 실시예들 각각을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 1은 본 발명에 의한 앵커 샷 검출 방법의 일 실시예를 설명하기 위한 플로우차트로서, 동영상으로부터 앵커 음성 샷들을 구하는 단계(제10 ~ 제16 단계들) 및 앵커 음성 샷들로부터 앵커 음성 모델을 구하는 단계(제18 ~ 제24 단계들)로 이루어진다.

본 발명에 의한 앵커 샷 검출 방법은 먼저, 동영상을 오디오 신호와 비디오 신호로 분리한다(제10 단계). 이하, 동영상이란, 영상 뿐만 아니라 음성도 포함하는 것으로 정의한다. 이 때, 동영상은 엠.펙.(MPEG:Moving Picture Expert Group)에 의해 압축된 데이타일 수 있다. 만일, 동영상이 MPEG-1으로 압축된 경우, 분리 된 오디오 신호의 주파수는 예를 들면 48㎑ 또는 44.1㎑가 될 수 있으며, 이는 컴팩트 디스크(CD:Compact Disk)의 음질에 해당한다. 제10 단계를 수행하기 위해, 동영상으로부터 로우(raw) 펄스 코드 변조(PCM:Pulse Code Modulation) 포맷을 추출하고, 추출된 로우 PCM 포맷을 분리된 오디오 신호로서 결정할 수 있다. 제10 단계후에, 비디오 신호를 이용하여 샷들의 경계를 결정한다(제12 단계). 이를 위해, 동영상의 변화가 상대적으로 큰 부분을 감지하고, 감지된 변화가 큰 부분을 경계로 결정한다. 본 발명에 의하면, 동영상의 밝기, 색량 및 움직임(motion)중 적어도 하나의 변화를 감지하고, 감지된 결과에서 급격한 변화가 있는 부분을 샷의 경계로 결정할 수 있다.

도 2 (a) 및 (b)는 도 1에 도시된 제14 단계를 설명하기 위한 예시적인 파형도들로서, 도 2 (a)는 분리된 오디오 신호의 파형도를 나타내고, 도 2 (b)는 다운 샘플링(down sampling)된 오디오 신호의 파형도를 나타낸다.

제12 단계후에, 오디오 신호를 다운 샘플링한다(제14 단계). 분리된 오디오 신호의 크기는 너무 클 뿐만 아니라 오디오 신호의 전체를 분석하지 않아도 된다. 따라서, 분리된 오디오 신호를 예를 들면 8㎑, 12㎑ 혹은 16㎑등의 다운 샘플링 주파수로 다운 샘플링한다. 이 때, 다운 샘플링된 결과는 웨이브 포맷(wave format)으로 저장될 수 있다. 여기서, 제14 단계는 도 1에 도시된 바와 달리, 제12 단계가 수행되기 이전에 수행될 수도 있고 제12 단계와 동시에 수행될 수도 있다.

만일, 동영상이 MPEG-1으로 압축되고, 분리된 오디오 신호의 주파수가 48㎑이며, 분리된 오디오 신호를 8㎑로 다운 샘플링한다면, 도 2 (a)에 도시된 오디오 신호는 도 2 (b)에 도시된 바와 같이 다운 샘플링될 수 있다.

제14 단계후에, 다운 샘플링된 오디오 신호중에서, 제1 문턱값(TH1)보다 긴 길이를 가지며, 제2 문턱값(TH2)보다 긴 길이의 묵음 구간을 갖는 샷들을 제12 단계에서 구한 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 결정한다(제16 단계). 여기서, 앵커 음성 샷이란, 앵커의 음성이 담긴 샷을 의미하지만 이에 국한되지 않고 기자의 음성이 담긴 샷 또는 사용자에게 의미있는 대상의 음성이 담긴 샷을 의미할 수도 있다. 통상적으로 앵커 샷의 길이는 대부분이 10초 이상으로 상당히 길 뿐만 아니라, 앵커 샷과 리포트가 연속하여 존재할 때 앵커 샷과 리포트 샷의 경계인 앵커 샷이 끝나는 부분에 약간의 묵음 구간이 존재한다. 본 발명에서는 이러한 앵커 샷의 특징들을 토대로 하여, 제16 단계에서 앵커 음성 샷을 결정한다. 즉, 어느 샷이 앵커 음성 샷이기 위해서는, 그 샷의 길이는 제1 문턱값(TH1)보다 길어야 하고, 그 샷의 경계 부분 특히 그 샷이 끝나는 부분에 제2 문턱값(TH2)보다 긴 길이의 묵음 구간이 존재해야 한다.

본 발명에 의하면, 도 1에 도시된 앵커 샷 검출 방법은 제14 단계를 마련하지 않을 수도 있다. 이 경우, 제12 단계후에, 오디오 신호중에서, 제1 문턱값(TH1)보다 긴 길이를 가지며, 제2 문턱값(TH2)보다 긴 길이의 묵음 구간을 갖는 샷들을 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 결정한다(제16 단계).

도 3은 도 1에 도시된 제16 단계에 대한 본 발명에 의한 실시예(16A)를 설명하기 위한 플로우차트로서, 샷들의 길이와 묵음 구간의 길이를 이용하여 앵커 음성 샷들을 결정하는 단계(제30 ~ 제38 단계들)로 이루어진다.

먼저, 제12 단계에서 구해진 샷들의 경계들을 이용하여 샷들 각각의 길이를 구한다(제30 단계). 여기서, 샷의 경계는 그 샷이 시작하는 부분과 끝나는 부분을 나타내므로, 샷의 길이를 구하는데 이용될 수 있다.

제30 단계후에, 샷들중에서 제1 문턱값(TH1)을 초과하는 길이를 갖는 샷들을 선택한다(제32 단계). 즉, 샷들중에서 긴 길이를 갖는 샷들을 선택한다.

제32 단계후에, 선택된 샷들 각각의 묵음 구간의 길이를 구한다(제34 단계). 여기서, 묵음 구간이란, 의미있는 소리를 갖지 않는 구간을 나타낸다.

도 4는 도 3에 도시된 제34 단계에 대한 본 발명에 의한 실시예(34A)를 설명하기 위한 플로우차트로서, 프레임들의 오디오 에너지들을 이용하여 묵음 문턱값을 구하는 단계(제50 및 제52 단계들) 및 묵음 문턱값을 이용하여 구한 묵음 구간에 포함된 프레임의 개수를 카운팅하는 단계(제54 및 제56 단계들)로 이루어진다.

도 5는 제32 단계에서 선택된 샷들중 임의의 샷의 예시적인 구조를 나타내는 도면으로서, N개의 프레임들(Frame 1, Frame 2, Frame 3, ..., Frame i, ... 및 Frame N)로 구성된다. 여기서, N은 1이상의 양의 정수이고, 1≤i≤N 이며, 편의상 Frame 1을 시작 프레임이라 하고 Frame N을 끝 프레임이라 한다.

먼저, 제32 단계에서 선택된 샷들 각각에 포함된 프레임들(Frame 1, Frame 2, Frame 3, ..., Frame i, ... 및 Frame N) 각각의 에너지를 구한다(제50 단계). 여기서, 제32 단계에서 선택된 샷들 각각에 포함된 프레임들 각각의 에너지는 다음 수학식 1과 같이 구해질 수 있다.

여기서, E_i는 임의의 샷에 포함된 프레임들중 i번째 프레임의 에너지를 의미하고, f_d는 오디오 신호를 다운 샘플링하는 다운 주파수를 의미하고, t_f는 i번째 프레임의 길이(70)를 나타내고, pcm은 i번째 프레임에 포함된 각 샘플의 펄스 코드 변조(PCM) 값으로서 정수이다. 여기서, f_d가 8㎑이고 t_f이 25㎳인 경우 f_dt_f는 200이 된다. 즉, i번째 프레임내에 200개의 샘플들이 존재한다.

제50 단계후에, 제32 단계에서 선택된 샷들에 포함된 프레임들의 에너지들을 이용하여 묵음 문턱값을 구한다(제52 단계). 뉴스와 같은 동영상에서 묵음 구간에 포함된 프레임들의 에너지들의 크기는 방송사마다 서로 다를 수 있다. 따라서, 제50 단계에서 구해진 에너지를 이용하여 묵음 문턱값을 구한다.

도 6은 도 4에 도시된 제52 단계에 대한 본 발명에 의한 실시예(52A)를 설명하기 위한 플로우차트로서, 정수화한 에너지를 이용하여 에너지별 프레임 분포를 구하는 단계(제80 및 제82 단계들) 및 해당하는 에너지를 묵음 문턱값으로 결정하는 단계(제84 단계)로 이루어진다.

도 7은 에너지별 프레임 분포를 예시적으로 나타내는 그래프로서, 횡축은 에너지를 나타내고, 종축은 프레임의 개수를 나타낸다.

제32 단계에서 선택된 샷들 각각에 포함된 프레임들에 대해 제50 단계에서 구해진 에너지들 각각을 정수화한다(제80 단계). 즉, 소수점 이하의 값으로 표현될 수 있는 에너지를 정수값으로 표현한다. 제80 단계후에, 정수화된 결과들을 이용하여 에너지별 프레임의 분포를 구한다. 예를 들면, 제32 단계에서 선택된 샷들 각각에 포함된 프레임들 각각의 에너지를 도 7에 도시된 바와 에너지별 프레임의 분포로서 도시한다.

제82 단계후에, 에너지별 프레임의 분포에서, 기준 에너지를 묵음 문턱값으로서 결정하고, 제54 단계로 진행한다(제84 단계). 여기서, 기준 에너지 이하의 에너지에 분포된 프레임의 개수가 제32 단계에서 선택된 샷들에 포함된 총 프레임 개수(X)의 소정 퍼센트(Y%)에 해당하는 개수 즉, XY/100에 근사하도록, 기준 에너지를 선택한다. 예를 들어, 에너지별 프레임 분포가 도 7에 도시된 바와 같고, X=4500이고 Y=20 일 경우, 900개 정도의 프레임을 포함하고 있는 초기 '8' 정도의 에너지(90)가 기준 에너지로서 선택될 수 있다.

도 8은 도 4에 도시된 제54 단계의 이해를 돕기 위한 에너지별 프레임 분포의 예시로서 하나의 앵커 음성 샷 후반부의 에너지 분포를 예시한다. 여기서, 횡축은 프레임의 개수(시간의 흐름)를 나타내고, 종축은 에너지를 각각 나타내다.

제52 단계후에, 제32 단계에서 선택된 샷들 각각의 묵음 구간을 묵음 문턱값을 이용하여 결정한다(제54 단계). 예를 들면, 도 8에 도시된 바와 같이, 묵음 문턱값(100) 이하의 에너지를 갖는 프레임들이 속한 구간을 묵음 구간(102)으로 결정한다.

도 9는 도 4에 도시된 제56 단계의 이해를 돕기 위해, 제32 단계에서 선택된 샷들중 임의의 샷의 예시적인 구조를 나타내는 도면으로서, N개의 프레임들(Frame N, Frame N-1, ... 및 Frame 1)로 구성된다.

제54 단계후에, 제32 단계에서 선택된 샷들 각각에서, 묵음 프레임의 개수를 카운팅하고, 카운팅된 결과를 묵음 구간의 길이로서 결정하고, 제36 단계로 진행한다(제56 단계). 여기서, 묵음 프레임이란, 묵음 구간에 포함된 프레임으로서, 묵음 문턱값 이하의 에너지를 갖는 프레임을 의미한다. 예를 들면, 도 9에 도시된 바와 같이, 제32 단계에서 선택된 샷들 각각의 마지막 프레임(Frmae N)부터 시작 프레임(Frame 1)의 방향(110)으로 카운팅을 수행할 수도 있다.

여기서, 제32 단계에서 선택된 샷들 각각의 마지막 프레임을 카운팅하지 않을 수도 있다. 왜냐하면, 선택된 샷들 각각의 마지막 프레임은 f_dt_f를 초과하지 않은 개수의 샘플들을 갖기 때문이다.

또한, 본 발명에 의하면, 묵음 구간에 속하는 프레임의 개수를 카운팅할 때, 즉, 어느 프레임이 묵음 구간에 속하는 프레임인가를 판단할 때, 묵음 문턱값을 초과하는 에너지를 갖는 프레임들이 연속하여 존재하면 카운팅 동작을 중지할 수도 있다. 예컨대, 제32 단계에서 선택된 샷들 각각에서, 프레임들이 묵음 프레임인가를 검토할 때, L번째 프레임이 묵음 프레임이 아니라고 하더라도 L-1번째 프레임이 묵음 프레임이라면 L번째 프레임을 묵음 프레임으로 간주한다. 또한, L-M번째 프레임과 L-M-1번째 프레임이 모두 묵음 프레임이 아니면 카운팅 동작을 중지한다.

도 3에 도시된 제34 단계후에, 제32 단계에서 선택된 샷들중에서 제2 문턱값(TH2)을 초과하는 길이의 묵음 구간을 갖는 샷들을 추출한다(제36 단계). 예를 들어, 프레임의 길이(t_f)가 25㎳이고, 제2 문턱값(TH2)이 0.85초로 설정될 경우, 어느 샷의 묵음 구간에 포함된 묵음 프레임의 개수가 34개보다 크면, 그 샷은 제36 단계에서 추출된다.

제36 단계후에, P(여기서, P는 양의 정수이다.)개의 추출된 샷들중에서 상대적으로 긴 길이를 갖는 소정 퍼센트(Q%)의 샷들(PQ/100)만을 선택하여 앵커 음성 샷들로서 결정하고, 제18 단계로 진행한다(제38 단계). 예를 들면, P가 200이고 Q가 80인 경우, 제36 단계에서 추출된 200개의 샷들중에서 40개의 짧은 길이를 갖는 샷들을 버리고, 160개의 긴 길이를 갖는 샷들만을 선택하여 앵커 음성 샷들로서 결정할 수 있다.

본 발명에 의하면, 도 3에 도시된 제16A 단계는 긴 묵음 구간을 갖는 리포트 샷이 앵커 음성 샷으로 추출되는 것을 방지하기 위해서 제38 단계를 마련한다. 그러나, 제16A 단계는 제38 단계를 마련하지 않을 수도 있다. 이 경우, 제36 단계가 수행된 후 제18 단계로 진행한다.

도 1에 도시된 제10 ~ 제16 단계들을 수행하여, 동영상으로부터 예를 들면 도 10 (a)~ (e)에 도시된 바와 같은 앵커 음성 샷들만이 추출될 수 있다.

한편, 제16 단계후에, 앵커 음성 샷들중에서 다수의 앵커들의 음성들이 포함 된 샷들인 다수 앵커 음성 샷들을 분리해낸다(제18 단계). 여기서, 다수의 앵커들이란, 동성의 앵커들일 수도 있고 이성의 앵커들일 수도 있다. 즉, 다수 앵커 음성 샷은, 남자 앵커들만의 음성을 담고 있을 수도 있고, 여자 앵커들만의 음성을 담고 있을 수도 있고, 남자 앵커와 여자 앵커의 음성을 모두 담고 있을 수도 있다.

도 11은 도 1에 도시된 제18 단계에 대한 본 발명에 의한 실시예(18A)를 설명하기 위한 플로우차트로서, 앵커 음성 샷들 각각에서 묵음 프레임과 자음 프레임을 제거한 후 다수 앵커 음성 샷들을 검출하는 단계(제130 및 제132 단계들)로 이루어진다.

제16 단계후에, 앵커 음성 샷들 각각에서 묵음 프레임과 자음 프레임을 제거한다(제130 단계).

도 12는 묵음 프레임을 제거하는 도 11에 도시된 제130 단계에 대한 본 발명에 의한 실시예(130A)를 설명하기 위한 플로우차트로서, 프레임들의 에너지들을 이용하여 구한 묵음 문턱값에 의해 결정한 묵음 구간에 속하는 프레임들을 제거하는 단계(제150 ~ 제156 단계들)로 이루어진다.

앵커 음성 샷들 각각에서, 묵음 프레임을 제거하기 위해, 앵커 음성 샷들 각각에 포함된 프레임들 각각의 에너지를 구한다(제150 단계).

제150 단계후에, 앵커 음성 샷들 각각에 포함된 프레임들의 에너지들을 이용하여 묵음 문턱값을 구한다(제152 단계). 제152 단계후에, 묵음 문턱값을 이용하여 앵커 음성 샷들 각각의 묵음 구간을 결정한다(제154 단계). 제154 단계후에, 앵커 음성 샷들 각각에서, 결정된 묵음 구간에 포함된 프레임인 묵음 프레임을 제거한다(제156 단계).

여기서, 도 12에 도시된 제150, 제152 및 제154 단계들은 제16 단계에서 결정된 앵커 음성 샷들 각각에 대해 수행되고, 도 4에 도시된 제50, 제52 및 제54 단계들은 제32 단계에서 선택된 샷들 각각에 대해 수행된다. 이를 제외하면, 도 12에 도시된 제150, 제152 및 제154 단계들은 도 4에 도시된 제50, 제52 및 제54 단계들과 각각 동일한 역할을 수행한다. 따라서, 제32 단계에서 선택된 샷들에 대해 수행된다는 것을 제16 단계에서 결정된 앵커 음성 샷들에 대해 수행된다고 치환하면, 도 6 ~ 도 8에 대한 설명이 도 12에 도시된 제150, 제152 및 제154 단계들에 대해서도 적용될 수 있다.

또는, 제16 단계에서 결정된 앵커 음성 샷들의 묵음 프레임을 도 12에 도시된 제150 ~ 제154 단계들에서 별도로 구할 필요없이, 제50 ~ 54 단계들에서 이미 결정된 묵음 구간들중 제16 단계에서 결정된 앵커 음성 샷의 묵음 구간만을 이용하면 된다. 따라서, 앵커 음성 샷들 각각에 대해, 제54 단계에서 이미 결정된 묵음 구간에 포함된 프레임들을 묵음 프레임으로 간주하여 제거하면 된다(제156 단계).

도 13은 자음 프레임을 제거하는 도 11에 도시된 제130 단계에 대한 실시예(130B)를 설명하기 위한 플로우차트로서, 앵커 음성 샷들 각각에서 프레임별로 구한 제로 크로싱 비율(ZCR:Zero Crossing Rate)을 이용하여 자음 프레임을 결정하는 단계(제170 및 제172 단계들) 및 결정된 자음 프레임을 제거하는 단계(제174 단계)로 이루어진다.

먼저, 앵커 음성 샷들 각각에 포함된 프레임별 제로 크로싱 비율을 구한다( 제170 단계). 여기서, 본 발명에 의하면, 제로 크로싱 비율은 다음 수학식 2와 같이 표현될 수 있다.

여기서, #는 펄스 코드 변조 데이타의 데시벨값의 부호(sign) 변화의 개수이고, t_f는 ZCR이 구해지는 프레임의 길이를 나타낸다. 이 때, ZCR은 오디오 신호의 주파수가 높을 수록 높아지는 특성을 갖고, 앵커의 음성중 자음 부분과 모음 부분을 구별하기 위해 이용된다. 왜냐하면, 음성의 주된 주파수(fundamental frequency)는 음성에서 주로 모음 부분에 존재하기 때문이다.

제170 단계후에, 앵커 음성 샷들 각각에 포함된 프레임들 각각의 제로 크로싱 비율을 이용하여 자음 프레임을 결정한다(제172 단계).

도 14는 도 13에 도시된 제172 단계에 대한 본 발명에 의한 실시예(172A)를 설명하기 위한 플로우차트로서, ZCR의 평균값을 이용하여 자음 프레임을 결정하는 단계(제190 및 제192 단계들)로 이루어진다.

제170 단계후에, 앵커 음성 샷들에 포함된 프레임들의 제로 크로싱 비율들의 평균값을 구한다(제190 단계). 제190 단계후에, 앵커 음성 샷들 각각에서, ZCR의 평균값의 소정배수보다 큰 ZCR을 갖는 프레임을 자음 프레임으로서 결정하고, 제174 단계로 진행한다(제192 단계). 여기서, 소정수배는 '2'로 설정될 수 있다.

제172 단계후에, 앵커 음성 샷들 각각에서, 결정된 자음 프레임을 제거한다( 제174 단계).

도 12에 도시된 제130A 단계와 제130B 단계는 동시에 수행될 수도 있다. 이 경우, 도 12 및 도 13에 도시된 바와 같이, 도 12에 도시된 제156 단계후에 제132 단계로 진행하고, 도 13에 도시된 제174 단계후에 제132 단계로 진행한다.

또는, 도 12에 도시된 제130A 단계가 수행된 후에 제130B 단계가 수행될 수도 있다. 이 경우, 도 12에 도시된 바와 달리, 도 12에 도시된 제156 단계후에 제170 단계로 진행한다.

또는, 도 12에 도시된 제130A 단계가 수행되기 이전에 제130B 단계가 수행될 수도 있다. 이 경우, 도 13에 도시된 바와 달리, 도 13에 도시된 제174 단계후에 제150 단계로 진행한다.

한편, 본 발명의 일 실시예에 의하면, 제130 단계후에, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에 포함된 프레임들 각각의 계수별 멜 주파수 켑스트럴 계수(MFCC:Mel-Frequency Cepstral Coefficient)를 구하고, 다수 앵커 음성 샷들을 MFCC들을 이용하여 검출한다(제132 단계). 여기서, MFCC에 대해서는 'Davis S.B.' 및 'Mermelstein P.'에 의해 "Comparison of parametric representations of monosyllabic word recognition in continuously spoken sentences"라는 제목으로 IEEE Trans. Acoustics, Speech and Signal Processing, 28에서 1980년도에 발표된 논문의 페이지 357-366쪽들에 개시되어 있다.

도 15는 도 11에 도시된 제132 단계에 대한 본 발명에 의한 일 실시예(132A)를 설명하기 위한 플로우차트로서, 각 앵커 음성 샷에서 MFCC를 이용하여 다수 앵 커 음성 샷을 결정하는 단계(제210 ~ 제214 단계들)로 이루어진다.

도 16 (a) ~ (e)들은 도 11에 도시된 제132 단계의 이해를 돕기 위한 도면으로서, 도 16 (a)는 앵커 음성 샷의 예시적인 도면이고, 도 16 (b) ~ (e)들은 윈도우들의 예시적인 도면들이다.

본 발명의 일 실시예에 의하면, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에 대해, 소정 길이를 갖는 윈도우를 소정 시간 간격으로 이동시키면서 각 윈도우에 포함된 프레임의 계수별 MFCC의 평균값을 구한다(제210 단계). 여기서, MFCC는 주로 음성 인식을 위해서 널리 이용되는 특성치이며 프레임당 총 13개의 계수들 각각에 대한 값을 갖는다. 이 때, 0번째 계수를 제외한 12개의 계수들의 MFCC들이 음성 인식에 이용된다.

이 때, 각 윈도우는 다수개의 프레임들을 포함할 수 있고, 각 프레임은 계수별 MFCC를 가진다. 그러므로, 각 윈도우에 포함된 다수개의 프레임들의 계수별 MFCC들을 평균하여 각 윈도우의 계수별 MFCC의 평균값을 구한다.

제210 단계후에, 이웃하는 윈도우들간에 MFCC의 평균값들간의 차를 구한다(제212 단계). 제212 단계후에, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에서, 이웃하는 윈도우들간에 MFCC의 평균값들간의 차가 제3 문턱값(TH3)보다 크다면 그 앵커 음성 샷을 다수 앵커 음성 샷으로서 결정한다(제214 단계).

예를 들어, 도 16을 참조하면, 윈도우의 소정 길이가 3초(s:second)이고, 윈도우를 이동시키는 소정 시간 간격이 1초라고 할 경우, 도 16 (b) ~ (e)에 도시된 바와 같이 윈도우를 1초 간격으로 이동시키면서, 각 윈도우에 포함된 프레임들의 계수별 MFCC들의 평균값을 구한다(제210 단계). 이 때, 본 발명에 의하면, 각 윈도우에 대해 구해지는 MFCC 평균값은 7, 8, 9, 10, 11 및 12번째 계수들에 대해 구해질 수 있다. 이 때, MFCC의 평균값들간의 차는, 도 16 (b)와 (c)에 도시된 이웃하는 윈도우들간, 도 16 (c)와 (d)에 도시된 이웃하는 윈도우들간, 도 16 (d)와 (e)에 도시된 이웃하는 윈도우들간에 대해 각각 구해질 수 있다(제212 단계). 만일, 제212 단계에서 구해진 차들중 하나라도 제3 문턱값(TH3)보다 크면, 도 16 (a)에 도시된 앵커 음성 샷을 다수 앵커 음성 샷으로서 결정한다(제214 단계).

본 발명의 다른 실시예에 의하면, 제130 단계후에, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에 포함된 프레임들 각각에서, 계수별 MFCC와 소정 주파수 대역의 전력 스펙트럴 밀도(PSD:Power Spectral Density)를 구하고, 다수 앵커 음성 샷들을 계수별 MFCC들과 PSD들을 이용하여 검출한다(제132 단계). 여기서, 소정 주파수 대역이란, 남자 음성과 여자 음성의 평균 스펙트럼 차이가 큰 주파수 대역으로서, 예를 들면, 100 ~ 150㎐로 설정될 수 있다. 여기서, 남성과 여성의 스펙트럼 차이에 대해서는 'Irii,H.', 'Itoh,K.' 및 'Kitawaki,N.'에 의해 1987년도에 "Multi-lingual speech database for speech quality measurements and its statistic characteristics,"라는 제목으로 Trans.Committee on Speech Research, Acoust. Soc. Jap에서 발표된 논문의 S87-69에 개시되어 있고, 'Saito,S', 'Kato,K.' 및 'Teranishi,N.'에 의해 1958년도에 "Statistical properties of Fundamental frequencies of Japanese speech voices"라는 제목으로 J.Acoust. Soc. Jap., 14, 2에 발표된 논문의 페이지 111-116에 개시되어 있다.

도 17은 도 11에 도시된 제132 단계에 대한 본 발명에 의한 다른 실시예(132B)를 설명하기 위한 플로우차트로서, 각 앵커 음성 샷에서 MFCC 및 소정 주파수 대역의 PSD를 이용하여 다수 앵커 음성 샷을 결정하는 단계(제230 ~ 제236 단계들)로 이루어진다.

본 발명의 다른 실시예에 의하면, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에 대해, 소정 길이를 갖는 윈도우를 소정 시간 간격으로 이동시키면서 각 윈도우에 포함된 프레임의 계수별 MFCC의 평균값과 소정 주파수 대역의 PSD의 평균 데시벨(decibel)값을 구한다(제230 단계). 여기서, 각 윈도우의 소정 주파수 대역의 PSD의 평균 데시벨값이란, 각 윈도우에 포함된 프레임들 각각의 소정 주파수 대역에서 스펙트럼을 계산하고, 계산된 스펙트럼을 평균한 후, 계산된 평균 스펙트럼을 데시벨값으로 환산한 결과이다.

예를 들어, 도 16 (b) ~ (e)에 도시된 바와 같이 3초의 길이를 갖는 윈도우를 1초의 시간 간격으로 이동시키면서, 각 윈도우에 포함된 프레임의 계수별 MFCC의 평균값을 구할 뿐만 아니라 각 윈도우에 포함된 소정 주파수 대역의 PSD의 평균 데시벨값을 구한다. 여기서, 각 윈도우에 포함된 3개의 프레임들 각각은 소정 주파수 대역의 PSD의 데시벨값을 가진다. 그러므로, 각 윈도우에 포함된 3개의 프레임들의 PSD의 데시벨값들을 평균하여 각 윈도우의 소정 주파수 대역의 PSD의 평균 데시벨값을 구한다.

제230 단계후에, 이웃하는 윈도우들(WD1 및 WD2)간에 MFCC의 평균값들간의 차(Δ1) 및 이웃하는 윈도우들(WD1 및 WD2)간에 PSD의 평균 데시벨값들간의 차(Δ2)를 구한다(제232 단계).

제232 단계후에, 묵음 프레임과 자음 프레임이 제거된 앵커 음성 샷들 각각에서, 차들(Δ1 및 Δ2)의 가중합을 구한다(제234 단계). 여기서, 가중합(WS1)은 다음 수학식 3과 같이 구해질 수 있다.

여기서, WS1은 가중합을 나타내고, W₁은 제1 가중치를 나타낸다.

제234 단계후에, 제4 문턱값(TH4)보다 큰 가중합(WS1)을 갖는 앵커 음성 샷을 다수 앵커 음성 샷으로서 결정하고, 제20 단계로 진행한다(제236 단계).

도 15에 도시된 제132A 단계에서 MFCC의 평균값만을 이용하고 PSD의 평균 데시벨값은 이용하지 않았다. 그러므로, 도 15에 도시된 제132A 단계는 앵커 음성 샷들로부터 다른 목소리를 갖는 다수의 동성 앵커들이 코멘트하는 다수 앵커 음성 샷을 결정하는 데 유용하게 적용될 수 있다. 이 때, 도 17에 도시된 제132B 단계에서 MFCC의 평균값 뿐만 아니라 PSD의 평균 데시벨값도 이용하였다. 이와 같이, PSD의 평균 데시벨값도 이용하면, 도 17에 도시된 제132B 단계는 앵커 음성 샷들로부터 남자 앵커와 여자 앵커들이 모두 코멘트하는 다수 앵커 음성 샷을 결정하는 데 유용하게 적용될 수 있다.

한편, 제18 단계후에, 다수 앵커 음성 샷들을 그룹핑(clustering)하고, 앵커 음성 샷들중에서 다수 앵커 음성 샷들을 제외한 샷들인 단일 앵커 음성 샷들을 그 룹핑하며, 그룹핑된 결과들을 유사 그룹들로서 결정한다(제20 단계).

도 18은 단일 앵커 음성 샷들을 그룹핑하여 유사 그룹들을 결정하는 도 1에 도시된 제20 단계에 대한 본 발명에 의한 실시예(20A)를 설명하기 위한 플로우차트로서, MFCC 및 PSD를 이용하여 유사 그룹을 결정하는 단계(제250 ~ 제258 단계들)로 이루어진다.

도 18을 참조하면, 단일 앵커 음성 샷들 각각에서, 계수별 MFCC의 평균값을 구한다(제250 단계).

제250 단계후에, 두 개의 단일 앵커 음성 샷들(S_j 및 S_j+1)의 계수별 MFCC 평균값들을 이용하여 산출된 MFCC 거리가 앵커 음성 샷들중 가장 가깝고, 제5 문턱값(TH5)보다 적을 경우, 두 개의 단일 앵커 음성 샷들(S_j 및 S_j+1)을 유사 후보 샷들(S_j' 및 S_j+1')로서 결정한다(제252 단계). 여기서, 제252 단계에서 이용되는 계수별 MFCC 평균값들에서 계수들은 3 ~ 12 번째 계수들일 수 있고, j는 단일 앵커 음성 샷의 인덱스를 나타내며 제250 단계에서 초기화된다. 이 때, MFCC 거리(WMFCC)는 다음 수학식 4와 같이 구해질 수 있다.

여기서, a₁, a₂, ... 및 a_k는 단일 앵커 음성 샷(S_j)의 계수별 MFCC의 평균값을 나타내고, b₁, b₂, ... 및 b_k는 단일 앵커 음성 샷(S_j+1)의 계수별 MFCC의 평균값 을 나타내고, k는 단일 앵커 음성 샷(S_j또는 S_j+1)에서 구해지는 계수별 MFCC의 평균값에서 계수의 총 개수를 나타낸다.

제252 단계후에, 유사 후보 샷들(S_j' 및 S_j+1')의 소정 주파수 대역의 전력 스펙트럴 밀도(PSD)의 평균 데시벨값들간의 차를 구한다(제254 단계).

제254 단계후에, PSD의 평균 데시벨값들간의 제254 단계에서 구한 차가 제6 문턱값(TH6)보다 적을 경우, 유사 후보 샷들(S_j' 및 S_j+1')을 그룹핑하여 유사 그룹으로서 결정한다(제256 단계). 이 때, 본 발명에 의하면, 제6 문턱값(TH6)보다 평균 데시벨간들간 차가 많을 경우, MFCC 평균값이 유사한 유사 후보 샷들에 플래그를 할당할 수 있다. 이는, 플래그가 할당된 유사 후보 샷들에 대해서 제252, 제254 및 제256 단계들이 다시 수행되는 것을 방지하기 위해서이다.

제256 단계후에, 모든 단일 앵커 음성 샷들이 그룹핑되었는가를 판단한다(제258 단계). 만일, 모든 단일 앵커 음성 샷들이 그룹핑되지 않았다고 판단되면, 제252 단계로 진행하여, 다른 두 개의 MFCC 평균값이 가장 가까운 단일 앵커 음성 샷들(S_j+1 및 S_j+2)에 대해 제252, 제254 및 제256 단계들을 수행한다. 그러나, 모든 단일 앵커 음성 샷들이 그룹핑되었다고 판단되면, 도 18에 도시된 제20A 단계를 종료한다.

예를 들면, 도 1에 도시된 제20 단계에서 도 10 (a) ~ (e)들에 도시된 앵커 음성 샷들을 그룹핑하면, 도 19 (a)에 도시된 바와 같이 남자 앵커 샷들이 하나의 유사 그룹으로 그룹핑되고, 도 19 (b)에 도시된 바와 같이 여자 앵커 샷들이 다른 하나의 유사 그룹으로 그룹핑되고, 도 19 (c)에 도시된 바와 같이 다수 앵커 음성 샷들이 또 다른 하나의 유사 그룹으로 그룹핑될 수 있다,

한편, 제20 단계후에, 유사 그룹들 각각의 대표값을 앵커 음성 모델로서 구한다(제22 단계). 여기서, 대표값은 유사 그룹에 속하는 샷들의 계수별 MFCC의 평균값 및 유사 그룹에 속하는 샷들의 소정 주파수 대역의 전력 스펙트럴 밀도(PSD)의 평균 데시벨값이다.

제22 단계후에, 유사 그룹들 각각에 포함된 샷들 각각의 프레임들중 초기 프레임들에 대한 정보들을 이용하여 별도 음성 모델을 생성한다(제24 단계). 여기서, 초기 프레임들이란, 유사 그룹들 각각에 포함된 각 샷에서 초기 4초에 해당하는 프레임들일 수 있다. 예를 들면, 초기 프레임들에 대한 정보들을 평균하고, 평균한 결과를 별도 음성 모델로서 결정할 수도 있다.

도 20은 본 발명에 의한 앵커 샷 검출 방법의 다른 실시예를 설명하기 위한 플로우차트로서, 앵커 영상 모델을 이용하여 검출한 앵커 후보 샷들이 실제 앵커 샷인가를 검증하는 단계(제270 ~ 제274 단계들)로 이루어진다.

본 발명에 의한 앵커 샷 검출 방법에 의하면, 먼저, 앵커 영상 모델을 생성한다(제270 단계).

제270 단계후에, 생성된 앵커 영상 모델을 이용하여 앵커 후보 샷들을 검출한다(제272 단계). 예컨대, 동영상을 다수개의 샷들로 분할하고, 분할된 다수개의 샷들 각각의 키 프레임과 앵커 영상 모델의 색차를 비교하여 앵커 후보 샷들을 검출할 수 있다. 본 발명에 의하면, 색차를 구하기 위해, 먼저 동영상에 포함된 다수개의 샷들 각각을 R×R(여기서, R은 1이상의 양의 정수이다.)개의 서브 블럭들로 분할하고, 앵커 영상 모델을 R×R개의 서브 블럭들로 분할한다. 이 때, 관심의 대상이 되는 샷의 서브 블럭 및 그 서브 블럭과 동일한 위치에 존재하는 앵커 영상 모델의 서브 블럭의 색을 비교하고, 비교된 결과를 그 서브 블럭의 색차로서 결정한다. 만일, 어느 샷의 키 프레임과 앵커 영상 모델의 색차가 색차 문턱값보다 적으면, 그 샷을 앵커 후보 샷으로 결정한다.

여기서, 색차는 그레이 월드 이론(Grey World Theory)에 근거하여 정규화(Normalize)된 값이며, 약간의 조명 변화에 강건하도록 결정될 수 있다. 그레이 월드 이론은 'E.H. Land', 'J.J. McCann'에 의해 "Lightness and retinex theory"라는 제목으로 Journal of the Optical Society of America의 vol.61에 1971년도에 발표된 논문의 페이지 1-11쪽에 개시되어 있다.

제272 단계후에, 별도 음성 모델과 앵커 음성 모델을 이용하여 앵커 후보 샷이 앵커 영상을 담고 있는 실제 앵커 샷인가를 검증한다(제274 단계). 여기서, 예를 들면 6초 이하의 아주 짧은 길이를 갖는 앵 커 후보 샷은 별도 음성 모델을 이용하여 실제 앵커 샷인가를 검증한다. 따라서, 긴 길이를 갖는 앵커 후보 샷이 실제 앵커 샷인가를 검증할 때 별도 음성 모델은 이용되지 않는다. 이 경우, 도 1에 도시된 본 발명에 의한 앵커 샷 검출 방법은 제24 단계를 마련하지 않을 수도 있다.

도 21은 도 20에 도시된 제274 단계에 대한 본 발명에 의한 실시예(274A)를 설명하기 위한 플로우차트로서, 앵커 후보 샷의 색차 정보와 발생 시간들과 대표값을 이용하여 앵커 후보 샷이 실제 앵커 샷인가를 검증하는 단계(제292 ~ 제298 단계들)로 이루어진다.

앵커 후보 샷들 각각의 대표값을 앵커 후보 샷의 발생 시간을 이용하여 구한다(제292 단계). 여기서, 앵커 후보 샷의 대표값이란, 그 샷에 속하는 프레임들의 계수별 MFCC의 평균값 및 그 샷에 속하는 프레임들의 소정 주파수 대역의 PSD의 평균 데시벨값이다. 또한, 앵커 후보 샷의 발생 시간은 제272 단계에서 구해지며 앵커 후보 샷이 시작하는 시간과 끝나는 시간을 의미한다.

제292 단계후에, 앵커 후보 샷들 각각의 대표값과 앵커 음성 모델간의 차(DIFF)를 구한다(제294 단계). 여기서, 차(DIFF)는 다음 수학식 5와 같이 구해질 수 있다.

여기서, W₂은 제2 가중치를 나타내고, Δ3은 앵커 후보 샷과 앵커 음성 모델의 계수별 MFCC의 평균값들간의 차를 나타내고, Δ4는 앵커 후보 샷과 앵커 음성 모델들의 PSD의 평균 데시벨값들간의 차를 나타낸다.

제294 단계후에, 앵커 후보 샷들 각각에 대해서, 색차 정보(ΔCOLOR)와 예를 들면 수학식 5와 같이 표현될 수 있는 차(DIFF)의 가중합을 구한다(제296 단계). 여기서, 색차 정보(ΔCOLOR)란 제272 단계에서 검출된 앵커 후보 샷과 앵커 영상 모델간의 색차에 대한 정보를 의미하며, 제296 단계에서 구해지는 가중합(WS2)은 다음 수학식 6과 같이 구해질 수 있다.

여기서, W₃은 제3 가중치를 나타낸다. 이 때, 가중합(WS2)는 동영상의 비디오 정보인 색차 정보(ΔCOLOR)와 오디오 정보인 차(DIFF)를 모두 반영하고 있으므로 멀티 모달 정보(Multi-Modal Information)라고 한다.

제296 단계후에, 제7 문턱값(TH7)보다 가중합(WS2)이 크지 않을 때, 앵커 후보 샷을 실제 앵커 샷으로서 결정한다(제298 단계). 그러나, 제7 문턱값(TH7)보다 가중합(WS2)이 클 때, 앵커 후보 샷을 실제 앵커 샷이 아닌 것으로 결정한다.

본 발명의 일 실시예에 의하면, 도 20에 도시된 제270 단계에서 앵커 영상 모델은 비쥬얼(visual) 정보를 이용하여 생성될 수도 있다. 여기서, 비쥬얼 정보란 앵커의 얼굴, 배경색, 앵커의 옷 색 또는 유사 대표 프레임 발생 빈도중 적어도 하나를 의미한다. 여기서, 비쥬얼 정보를 이용하여 앵커 영상 모델을 생성하는 종래의 방법이 'HongJiang Zhang', 'Yihong Gong', 'Smoliar, S.W.' 및 'Shuang Yeo Tan'에 의해 "Automatic parsing of news video"라는 제목으로 Multimedia Computing and Systems, Proceedings of the International Conference on에 1994년도에 발표된 논문의 페이지 45-54쪽들, 'Hanjalic, A.', 'Lagensijk, R.L.' 및 'Biemond, J.'에 의해 "Template-based Detection of Anchorperson Shots in News Program"이라는 제목으로 Image Processing, ICIP 98. Proceedings, International Conference on, v 3에 1998년도에 발표된 논문의 페이지 148-152쪽들, 'M. Tekalp et al'에 의해 "Video indexing through integration of syntactic and semantic features"라는 제목으로 Proc. Workshop Applications of Computer Vision 1996에 발표된 논문, 'Nakajima, Y.', 'Yamguchi, D.', 'Kato, H.', 'Yanagihara, H.' 및 'Hatori, Y.'에 의해 "Automatic anchorperson detection from an MPEG coded TV program"라는 제목으로 Consumer Electronics, ICCE. 2002 Digest of Technical Papers. International Conference on에 발표된 논문의 페이지 122-123쪽들에 개시되어 있다. 이와 같이, 앵커 영상 모델이 생성될 경우, 제270 및 제272 단계들은 도 1에 도시된 앵커 샷 검출 방법이 수행되는 동안 수행될 수 있다. 이 때, 제274 단계는 제24 및 제272 단계들이 수행된 후에 수행된다.

본 발명에 다른 실시예에 의하면, 제270 단계에서 앵커 영상 모델은 도 1에 도시된 제16 또는 제20 단계에서 각각 구해진 앵커 음성 샷들 또는 유사 그룹을 이용하여 생성될 수도 있다. 이 경우, 앵커 음성 샷들 또는 유사 그룹을 이용하여 샷 대표 프레임 내의 앵커의 위치를 파악하고, 파악된 앵커의 위치를 이용하여 앵커 영상 모델을 생성한다(제270 단계).

만일, 앵커 영상 모델이 도 1에 도시된 제16 단계에서 구해진 앵커 음성 샷들을 이용하여 생성된다면, 제270 및 제272 단계들은 도 1에 도시된 제16 단계후에 제18 ~ 제24 단계들이 수행되는 동안 수행될 수 있다. 이 때, 제274 단계는 제24 단계후에 수행된다.

또는, 앵커 영상 모델이 도 1에 도시된 제20 단계에서 구해진 유사 그룹을 이용하여 생성된다면, 제270 및 제272 단계들은 도 1에 도시된 제20 단계후에 수행된다. 이 때, 제274 단계는 제24 단계후에 수행된다.

한편, 도 20에 도시된 앵커 샷 검출 방법은 제270 및 제272 단계들만으로 구현될 수도 있다.

이 때, 본 발명에 의하면, 제270 단계에서 앵커 영상 모델이 도 1에 도시된 제16 단계에서 구해진 앵커 음성 샷들을 이용하여 생성될 경우, 제270 및 제272 단계들은 도 1에 도시된 제16 단계후에 수행된다. 이 때, 도 1에 도시된 앵커 샷 검출 방법은 제18 ~ 제24 단계들을 마련할 필요가 없다.

본 발명에 다른 실시예에 의하면, 제270 단계에서 앵커 영상 모델이 도 1에 도시된 제20 단계에서 구해진 유사 그룹을 이용하여 생성될 경우, 제270 및 제272 단계들은 도 1에 도시된 제20 단계후에 수행된다. 이 때, 도 1에 도시된 앵커 샷 검출 방법은 제22 및 제24 단계들을 마련할 필요가 없다.

이하, 본 발명에 의한 앵커 샷 검출 장치 및 그 장치의 실시예들 각각의 구성 및 동작을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 22는 본 발명에 의한 앵커 샷 검출 장치의 일 실시예의 블럭도로서, 신호 분리부(400), 경계 결정부(402), 다운 샘플링부(404), 앵커 음성 샷 추출부(406), 샷 분리부(408), 샷 그룹핑부(410), 대표값 생성부(412) 및 별도 음성 모델 생성부(414)로 구성된다.

도 22에 도시된 앵커 샷 검출 장치는 도 1에 도시된 앵커 샷 검출 방법을 수행할 수 있다.

도 1에 도시된 제10 단계를 수행하기 위해, 신호 분리부(400)는 입력단자 IN1을 통해 입력한 동영상을 오디오 신호와 비디오 신호로 분리하고, 분리된 오디오 신호를 다운 샘플링부(404)로 출력하고 분리된 비디오 신호를 경계 결정부(402)로 출력한다.

제12 단계를 수행하기 위해, 경계 결정부(402)는 신호 분리부(400)로부터 입력한 분리된 비디오 신호를 이용하여 샷들의 경계를 결정하고, 결정된 샷들의 경계들을 앵커 음성 샷 추출부(406)로 출력한다.

제14 단계를 수행하기 위해, 다운 샘플링부(404)는 신호 분리부(400)로부터 입력한 분리된 오디오 신호를 다운 샘플링하고, 다운 샘플링된 결과를 앵커 음성 샷 추출부(406)로 출력한다.

제16 단계를 수행하기 위해, 앵커 음성 샷 추출부(406)는 다운 샘플링부(404)로부터 입력한 다운 샘플링된 오디오 신호중에서, 제1 문턱값(TH1)보다 긴 길이를 가지며, 제2 문턱값(TH2)보다 긴 길이의 묵음 구간을 갖는 샷을 경계 결정부(402)로부터 입력한 경계들을 이용하여 앵커 음성 샷으로서 추출하고, 추출된 앵커 음성 샷을 샷 분리부(408)로 출력하는 한편, 출력단자 OUT2를 통해 출력한다.

전술한 바와 같이 도 1에 도시된 앵커 샷 검출 방법이 제14 단계를 마련하지 않을 경우, 도 22에 도시된 앵커 샷 검출 장치는 다운 샘플링부(404)를 마련하지 않을 수도 있다. 이 경우, 앵커 음성 샷 추출부(406)는 신호 분리부(400)로부터 직접 입력한 분리된 오디오 신호중에서, 제1 문턱값(TH1)보다 긴 길이를 가지며, 제2 문턱값(TH1)보다 긴 길이의 묵음 구간을 갖는 샷들을 샷들의 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 출력한다.

한편, 제18 단계를 수행하기 위해, 샷 분리부(408)는 앵커 음성 샷 추출부(406)로부터 입력한 앵커 음성 샷들중에서 다수 앵커 음성 샷들을 분리해내고, 분리된 결과를 샷 그룹핑부(410)로 출력한다.

제20 단계를 수행하기 위해, 샷 그룹핑부(410)는 앵커 음성 샷들중에서 다수 앵커 음성 샷들을 그룹핑하고 단일 앵커 음성 샷들을 그룹핑하며, 그룹핑된 결과들을 유사 그룹들로서 결정하여 대표값 생성부(412)로 출력하는 한편, 출력단자 OUT3을 통해 출력한다.

제22 단계를 수행하기 위해, 대표값 생성부(412)는 샷 그룹핑부(410)로부터 입력한 유사 그룹들 각각의 대표값을 계산하여 앵커 음성 모델로서 별도 음성 모델 생성부(414)로 출력한다.

제24 단계를 수행하기 위해, 별도 음성 모델 생성부(414)는 유사 그룹들 각각에 포함된 샷들의 프레임들중 초기 프레임들에 대한 정보들을 이용하여 별도 음성 모델을 생성하고, 생성된 별도의 음성 모델을 출력단자 OUT1을 통해 출력한다.

전술한 바와 같이, 도 1에 도시된 앵커 샷 검출 방법이 제24 단계를 마련하지 않을 경우 도 22에 도시된 앵커 샷 검출 장치는 별도 음성 모델 생성부(414)를 마련하지 않을 수도 있다.

도 23은 본 발명에 의한 앵커 샷 검출 장치의 다른 실시예의 블럭도로서, 앵커 모델 생성부(440), 앵커 후보 샷 검출부(442) 및 앵커 샷 검증부(444)로 구성된다.

도 23에 도시된 본 발명에 의한 앵커 샷 검출 장치는 도 20에 도시된 앵커 샷 검출 방법을 수행할 수 있다.

영상 모델 생성부(440)는 앵커 영상 모델을 생성하고, 생성된 영상 모델을 앵커 후보 샷 검출부(442)로 출력한다. 이 때, 영상 모델 생성부(440)는 도 22에 도시된 앵커 음성 샷 추출부(406)로부터 출력된 앵커 음성 샷을 입력단자 IN2를 통해 입력하고, 입력한 앵커 음성 샷을 이용하여 앵커 영상 모델을 생성할 수 있다. 또는, 영상 모델 생성부(440)는 도 22에 도시된 샷 그룹핑부(410)로부터 출력되는 유사 그룹을 입력단자 IN2를 통해 입력하고, 입력한 유사 그룹을 이용하여 앵커 영상 모델을 생성할 수도 있다.

제272 단계를 수행하기 위해, 앵커 후보 샷 검출부(442)는 영상 모델 생성부(440)에서 생성된 앵커 영상 모델을 입력단자 IN3을 통해 입력한 분할된 샷들 각각의 키 프레임과 비교하여 앵커 후보 샷들을 검출하고, 검출된 앵커 후보 샷을 앵커 샷 검증부(444)로 출력한다.

제274 단계를 수행하기 위해, 앵커 샷 검증부(444)는 입력단자 IN4를 통해 별도 음성 모델 생성부(414) 및 대표값 생성부(412)로부터 각각 입력한 별도 음성 모델 및 앵커 음성 모델을 이용하여, 앵커 후보 샷 검출부(442)로부터 입력한 앵커 후보 샷이 앵커 영상을 담고 있는 실제 앵커 샷인가를 검증하고, 검증된 결과를 출 력단자 OUT4를 통해 출력한다.

전술한 제1 가중치(W₁)를 0.5로 설정하고, 제3 가중치(W₃)를 0.5로 설정하고, 제1 문턱값(TH1)을 6초로 설정하고, 제2 문턱값(TH2)을 0.85초로 설정하고, 제4 문턱값(TH4)을 4로 설정하고, 제7 문턱값(TH7)을 0.51로 설정할 수 있다. 이 경우, 여러 방송사들에서 편성된 뉴스 동영상 720분 분량에 대해, 본 발명에 의한 앵커 샷 검출 방법 및 장치를 적용한 결과와 종래의 앵커 샷 검출 방법을 적용한 결과를 비교하면 다음 표 1과 같다. 여기서, 사용된 종래의 방법은 'Xinbo Gao', 'Jie Li' 및 'Bing Yang'에 의해 저술되고, "A Graph-Theoretical Clustering based Anchorperson Shot Detection for news Video Indexing"이란 제목으로 2003년도에 ICCIMA에서 발표된 기술을 사용하였다.

구 분	실제 앵커 샷(A)	추출된 샷(B)	추출된 앵커 샷(C)	잘못 검출된 앵커 샷(D)	검출되지 않은 앵커 샷(E)	정확도 = C/B (%)	리콜 = C/A (%)
제274 단계를 적용하기 이전	284	301	281	20	2	93.36	98.94
제274 단계를 적용한 후	281	282	281	1	0	99.65	100.00
종래의 방법	255	254	248	6	7	97.64	97.25

표 1을 통해, 본 발명에 의한 앵커 샷 검출 방법 및 장치는 종래의 앵커 샷 검출 방법보다 우수함을 알 수 있다.

전술한 본 발명에 의한 앵커 샷 검출 방법 및 장치에 의해 검출된 앵커 샷을 뉴스의 스토리 단위로 분류함으로써, 사용자에게 마치 인터넷의 뉴스 스토리 보드 를 보는 것과 같은 효과를 부여할 수 있다. 이로 인해, 사용자는 자신이 관심이 있는 기사를 선택하여 해당하는 동영상 리포트를 간략하게 볼 수 있다. 즉, 사용자는 동영상에서 자신이 원하는 시간에 자신이 원하는 콘텐트를 자동 녹화하고, 녹화된 부분들 중 본 발명에 의한 앵커 샷 검출 방법 및 장치를 이용하여 자신이 가장 관심있는 샷을 선택하여 볼 수 있다.

현재, 방송과 인터넷이나 그 밖의 여러 미디어를 통해 비디오 콘텐츠가 범람하고 개인용 비디오 레코더(PVR:Personal Video Recoder), 이피지(EPG:Electronic Program Guide) 및 대용량 하드 드라이브의 등장으로 인해 종래의 텔레비젼 시청 문화의 패러다임이 변하는 상황에서, 스포츠나 뉴스와 같이 정형화된 구조를 갖고 녹화된 후에도 장시간 시청될 수 있는 동영상에 대해 본 발명에 의한 앵커 샷 검출 방법 및 장치는 간략화된 이야기 보드나 하이라이트를 제공할 수 있도록 한다.

이상에서 설명한 바와 같이, 본 발명에 의한 앵커 샷 검출 방법 및 장치는 미리 정해진 앵커 영상 모델 없이 앵커 샷을 갖는 뉴스와 같은 동영상에 적응하여 앵커 영상 모델을 생성할 수 있고, 앵커의 옷이나 앵커의 얼굴 색이 배경 색과 유사할 경우에도 앵커 샷을 강건하게 검출할 수 있고, 첫 번째 앵커 샷이 없어도 앵커 샷을 검출할 수 있고, 앵커 샷과 유사한 리포트 샷을 앵커 샷으로 잘못 검출할 가능성을 배제시키는 등, 앵커 샷을 정확하게 검출할 수 있어, 스토리 단위 뉴스 분할을 가능하게 하고, 앵커 샷의 종류를 음성별 또는 성별로 그룹핑할 수도 있어 가정용 오디오/비디오 저장기기나 콘텐츠 제공용 저작 도구에서 동영상의 내용을 인덱싱할 수 있도록 하여 사용자로 하여금 원하는 앵커의 코멘트가 담긴 앵커 샷만을 추출하여 검색하도록 하거나 요약할 수 있도록 하는 효과를 갖는다.

Claims

동영상을 오디오 신호와 비디오 신호로 분리하는 단계;

상기 비디오 신호를 이용하여 샷들의 경계를 결정하는 단계; 및

상기 오디오 신호 가운데 제1 문턱값보다 긴 길이를 가지며, 제2 문턱값보다 긴 길이의 묵음 구간을 갖는 샷들을 상기 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제1 항에 있어서, 상기 샷들의 경계를 결정하는 단계는

상기 동영상의 변화가 상대적으로 큰 부분을 상기 경계로 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제2 항에 있어서, 상기 샷들의 경계를 결정하는 단계는

상기 동영상의 밝기, 색량 및 움직임 중 적어도 하나의 변화를 감지하여 상기 경계를 결정하는 것을 특징으로 하는 앵커 샷 검출 방법.
제1 항에 있어서, 상기 앵커 샷 검출 방법은

상기 오디오 신호를 다운 샘플링하는 단계를 더 구비하고,

상기 다운 샘플링된 오디오 신호 중에서, 상기 제1 문턱값보다 긴 길이를 가지며, 상기 제2 문턱값보다 긴 길이의 상기 묵음 구간을 갖는 샷들을 상기 경계들을 이용하여 상기 앵커 음성 샷들로서 결정하는 것을 특징으로 하는 앵커 샷 검출 방법.
제4 항에 있어서, 상기 앵커 음성 샷들을 결정하는 단계는

상기 샷들의 경계들을 이용하여 상기 샷들 각각의 길이를 구하는 단계;

상기 샷들 중에서 상기 제1 문턱값을 초과하는 길이를 갖는 샷들을 선택하는 단계;

상기 선택된 샷들 각각의 묵음 구간의 길이를 구하는 단계; 및

상기 선택된 샷들 중에서 상기 제2 문턱값을 초과하는 길이의 상기 묵음 구간을 갖는 샷들을 추출하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제5 항에 있어서, 상기 선택된 샷들 각각의 상기 묵음 구간의 길이를 구하는 단계는

상기 선택된 샷들 각각에 포함된 프레임들 각각의 에너지를 구하는 단계;

상기 에너지들을 이용하여 묵음 문턱값을 구하는 단계;

상기 선택된 샷들 각각의 묵음 구간을 상기 묵음 문턱값을 이용하여 결정하 는 단계; 및

상기 묵음 구간에 포함된 프레임의 개수를 카운팅하고, 카운팅된 결과를 상기 묵음 구간의 길이로서 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제6 항에 있어서, 상기 선택된 샷들 각각에 포함된 프레임들 각각의 상기 에너지는 아래와 같이 구해지는 것을 특징으로 하는 앵커 샷 검출 방법.

(여기서, E_i는 상기 각 샷에 포함된 프레임들 중 i번째 프레임의 상기 에너지를 의미하고, f_d는 상기 오디오 신호를 다운 샘플링하는 주파수를 의미하고, 상기 t_f는 상기 i번째 프레임의 길이를 나타내고, 상기 pcm는 상기 i번째 프레임에 포함된 각 샘플의 펄스 코드 변조 값을 나타낸다.)
제6 항에 있어서, 상기 묵음 문턱값을 구하는 단계는

상기 구해진 에너지들 각각을 정수화하는 단계;

상기 정수화된 결과들을 이용하여 에너지 별 프레임의 분포를 구하는 단계; 및

상기 에너지 별 프레임의 분포에서 기준 에너지를 상기 묵음 문턱값으로서 결정하는 단계를 구비하고,

상기 기준 에너지 이하의 에너지에 분포된 프레임의 개수는 상기 선택된 샷들에 포함된 총 프레임 개수의 소정 퍼센트에 해당하는 개수에 근사하는 것을 특징으로 하는 앵커 샷 검출 방법.
제5 항에 있어서, 상기 앵커 음성 샷들을 결정하는 단계는

상기 추출된 샷들 중에서 상대적으로 긴 길이를 갖는 소정 퍼센트의 샷들만을 선택하여 상기 앵커 음성 샷들로서 결정하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제6 항에 있어서, 상기 카운팅하는 단계에서, 상기 선택된 샷들 각각의 마지막 프레임은 카운팅되지 않는 것을 특징으로 하는 앵커 샷 검출 방법.
제6 항에 있어서, 상기 카운팅하는 단계에서, 상기 묵음 문턱값을 초과하는 에너지를 갖는 프레임들이 연속하면 상기 카운팅 동작이 중지되는 것을 특징으로 하는 앵커 샷 검출 방법.
제1 항에 있어서, 상기 앵커 샷 검출 방법은

상기 앵커 음성 샷들 중에서 다수의 앵커들의 음성들이 포함된 샷들인 다수 앵커 음성 샷들을 분리해내는 단계;

상기 앵커 음성 샷들 중에서 상기 다수 앵커 음성 샷들을 제외한 샷들인 단일 앵커 음성 샷들을 그룹핑하고, 상기 다수 앵커 음성 샷들을 그룹핑하며, 그룹핑된 결과들을 유사 그룹들로서 결정하는 단계; 및

상기 유사 그룹들 각각의 대표값을 앵커 음성 모델로서 구하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제12 항에 있어서, 상기 앵커 음성 샷들 중에서 상기 다수 앵커 음성 샷들을 분리해내는 단계는

상기 앵커 음성 샷들 각각에서 묵음 프레임과 자음 프레임을 제거하는 단계; 및

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에 포함된 프레임들 각각의 계수 별 멜 주파수 켑스트럴 계수(MFCC)를 구하고, 상기 다수 앵커 음성 샷들을 상기 MFCC들을 이용하여 검출하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제13 항에 있어서, 상기 묵음 프레임을 제거하는 단계는

상기 앵커 음성 샷들 각각에 포함된 프레임들 각각의 에너지를 구하는 단계;

상기 에너지들을 이용하여 묵음 문턱값을 구하는 단계;

상기 묵음 문턱값을 이용하여 상기 앵커 음성 샷들 각각의 묵음 구간을 결정하는 단계; 및

상기 앵커 음성 샷들 각각에서, 상기 결정된 묵음 구간에 포함된 프레임인 상기 묵음 프레임을 제거하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제13 항에 있어서, 상기 자음 프레임을 제거하는 단계는

상기 앵커 음성 샷들 각각에 포함된 프레임별 제로 크로싱 비율을 구하는 단계;

상기 앵커 음성 샷들 각각에 포함된 프레임들 각각의 상기 제로 크로싱 비율을 이용하여 자음 프레임을 결정하는 단계; 및

상기 앵크 음성 샷들 각각에서, 상기 결정된 자음 프레임을 제거하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제15 항에 있어서, 상기 제로 크로싱 비율(ZCR)은 아래와 같이 표현되는 것을 특징으로 하는 앵커 샷 검출 방법.

(여기서, #는 펄스 코드 변조 데이타의 데시벨값의 부호(sign) 변화의 개수이고, f_d는 상기 오디오 신호를 다운 샘플링하는 주파수를 의미하고, 상기 t_f는 상기 ZCR이 구해지는 프레임의 길이를 나타낸다.)
제15 항에 있어서, 상기 자음 프레임을 결정하는 단계는

상기 앵커 음성 샷들에 포함된 프레임들의 상기 제로 크로싱 비율들의 평균값을 구하는 단계; 및

상기 앵커 음성 샷들 각각에서, 상기 평균값의 소정배수보다 큰 상기 제로 크로싱 비율을 갖는 프레임을 상기 자음 프레임으로서 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제13 항에 있어서, 상기 다수 앵커 음성 샷들을 검출하는 단계는

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에 대해, 소정 길이를 갖는 윈도우를 소정 시간 간격으로 이동시키면서 상기 각 윈도우에 포함된 프레임의 계수별 MFCC의 평균값을 구하는 단계;

이웃하는 상기 윈도우들간에 상기 MFCC의 평균값들간의 차를 구하는 단계; 및

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에서, 제3 문턱값보다 큰 상기 차를 갖는 상기 앵커 음성 샷을 상기 다수 앵커 음성 샷으로서 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제13 항에 있어서, 상기 다수 앵커 음성 샷들을 검출하는 단계는

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에 포함된 프레임들 각각에서, 상기 계수별 MFCC와 소정 주파수 대역의 전력 스펙트럴 밀도(PSD)를 구하고, 상기 다수 앵커 음성 샷들을 상기 계수별 MFCC들과 PSD들을 이용하여 검출하는 것을 특징으로 하는 앵커 샷 검출 방법.
제19 항에 있어서, 상기 다수 앵커 음성 샷들을 검출하는 단계는

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에 대해, 소정 길이를 갖는 윈도우를 소정 시간 간격으로 이동시키면서 상기 각 윈도우에 포함된 프레임의 상기 계수별 MFCC의 평균값과 상기 소정 주파수 대역의 PSD의 평균 데시벨값을 구하는 단계;

이웃하는 상기 윈도우들간에 상기 MFCC의 평균값들간의 차(Δ1)와 상기 PSD의 평균 데시벨값들간의 차(Δ2)를 구하는 단계;

상기 묵음 프레임과 상기 자음 프레임이 제거된 상기 앵커 음성 샷들 각각에서, 상기 차들(Δ1 및 Δ2)의 가중합을 구하는 단계; 및

제4 문턱값보다 큰 상기 가중합을 갖는 상기 앵커 음성 샷을 상기 다수 앵커 음성 샷으로서 결정하는 단계를 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제12 항에 있어서, 상기 단일 앵커 음성 샷들을 그룹핑하여 상기 유사 그룹들을 결정하는 단계는

상기 단일 앵커 음성 샷들 각각에서, 계수별 멜 주파수 켑스트럴 계수(MFCC)의 평균값을 구하는 단계;

두 개의 단일 앵커 음성 샷들의 계수별 MFCC 평균값들을 이용하여 산출된 MFCC 거리가 앵커 음성 샷들 중 가장 가깝고 제5 문턱값보다 적을 경우, 상기 두 개의 단일 앵커 음성 샷들을 유사 후보 샷들로서 결정하는 단계;

상기 유사 후보 샷들의 소정 주파수 대역의 전력 스펙트럴 밀도(PSD)의 평균 데시벨값들간의 차를 구하는 단계;

제6 문턱값보다 상기 평균 데시벨값들간의 차가 적을 경우, 상기 유사 후보 샷들을 그룹핑하여 상기 유사 그룹으로서 결정하는 단계; 및

모든 상기 단일 앵커 음성 샷들이 그룹핑되었는가를 판단하는 단계를 구비하고,

상기 모든 단일 앵커 음성 샷들이 그룹핑되지 않았다고 판단되면 다른 두 개의 단일 앵커 음성 샷들에 대해 상기 유사 후보 샷들을 결정하는 단계, 상기 차를 구하는 단계 및 상기 유사 그룹을 결정하는 단계가 수행되는 것을 특징으로 하는 앵커 샷 검출 방법.
제19 또는 제21 항에 있어서, 상기 소정 주파수 대역은 100 ~ 150㎐인 것을 특징으로 하는 앵커 샷 검출 방법.
제21 항에 있어서, 상기 단일 앵커 음성 샷들을 그룹핑하여 상기 유사 그룹들을 결정하는 단계는

상기 제6 문턱값보다 상기 평균 데시벨값들간의 상기 차가 적지 않을 경우, 상기 유사 후보 샷들에 플래그를 할당하는 단계를 더 구비하고,

상기 플래그를 할당한 후에, 상기 플래그가 할당된 상기 유사 후보 샷들에 대해서 상기 유사 후보 샷들을 결정하는 단계, 상기 차를 구하는 단계 및 상기 유사 그룹을 결정하는 단계가 다시 수행되지 않은 것을 특징으로 하는 앵커 샷 검출 방법.
제12 항에 있어서, 상기 대표값은 상기 유사 그룹에 속하는 샷들의 계수별 멜 주파수 켑스트럴 계수(MFCC)의 평균값 및 상기 유사 그룹에 속하는 샷들의 소정 주파수 대역의 전력 스펙트럴 밀도(PSD)의 평균 데시벨값인 것을 특징으로 하는 앵커 샷 검출 방법.
제12 항에 있어서, 상기 앵커 샷 검출 방법은

상기 유사 그룹들 각각에 포함된 프레임들 중 초기 프레임들에 대한 정보들을 이용하여 별도 음성 모델을 생성하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제1 항, 제12 항 및 제25 항 중 어느 한 항에 있어서, 상기 앵커 샷 검출 방법은

앵커 영상 모델을 생성하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제26 항에 있어서, 상기 앵커 샷 검출 방법은

상기 생성된 앵커 영상 모델을 상기 분할된 샷들 각각의 키 프레임과 비교하여 상기 앵커 후보 샷들을 검출하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제27 항에 있어서, 상기 앵커 샷 검출 방법은

상기 별도 음성 모델과 상기 앵커 음성 모델을 이용하여 상기 앵커 후보 샷이 앵커 영상을 담고 있는 실제 앵커 샷인가를 검증하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
제26 항에 있어서, 상기 앵커 영상 모델은 상기 앵커 음성 샷들을 이용하여 생성되는 것을 특징으로 하는 앵커 샷 검출 방법.
제26 항에 있어서, 상기 앵커 영상 모델은 비쥬얼 정보를 이용하여 생성되는 것을 특징으로 하는 앵커 샷 검출 방법.
제26 항에 있어서, 상기 앵커 영상 모델은 상기 유사 그룹을 이용하여 생성되는 것을 특징으로 하는 앵커 샷 검출 방법.
제28 항에 있어서, 상기 실제 앵커 샷인가를 검증하는 단계는

상기 앵커 후보 샷들 각각의 대표값을 상기 앵커 후보 샷들을 검출할 때 구 해진 상기 앵커 후보 샷의 발생 시간을 이용하여 구하는 단계;

상기 앵커 후보 샷들 각각의 대표값과 상기 앵커 음성 모델간의 차를 구하는 단계;

상기 앵커 후보 샷들 각각에 대해서, 상기 앵커 후보 샷들을 검출할 때 구해진 상기 앵커 후보 샷과 상기 앵커 영상 모델간의 색차 정보와 상기 차의 가중합을 구하는 단계; 및

제7 문턱값보다 상기 가중합이 작을 때, 상기 앵커 후보 샷을 상기 실제 앵커 샷으로서 결정하는 단계를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 방법.
동영상을 오디오 신호와 비디오 신호로 분리하는 신호 분리부;

상기 분리된 비디오 신호를 이용하여 샷들의 경계를 결정하는 경계 결정부; 및

상기 오디오 신호중에서, 제1 문턱값보다 긴 길이를 가지며, 제2 문턱값보다 긴 길이의 묵음 구간을 갖는 샷들을 상기 경계 결정부로부터 입력한 경계들을 이용하여 추출하고, 추출된 샷들을 앵커 음성 샷들로서 출력하는 앵커 음성 샷 추출부를 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.
제33 항에 있어서, 상기 앵커 샷 검출 장치는

상기 분리된 오디오 신호를 다운 샘플링하는 다운 샘플링부를 더 구비하고,

상기 앵커 음성 샷 추출부는 상기 다운 샘플링된 오디오 신호 중에서, 상기 제1 문턱값보다 긴 길이를 가지며, 상기 제2 문턱값보다 긴 길이의 상기 묵음 구간을 갖는 샷을 상기 경계들을 이용하여 상기 앵커 음성 샷으로서 추출하는 것을 특징으로 하는 앵커 샷 검출 장치.
제33 항에 있어서, 상기 앵커 샷 검출 장치는

상기 앵커 음성 샷들 중에서 다수의 앵커들의 음성들이 포함된 샷들을 분리하는 샷 분리부;

상기 앵커 음성 샷들중에서 상기 다수의 앵커들의 음성들이 포함된 샷들인 다수 앵커 음성 샷들을 제외한 샷들인 단일 앵커 음성 샷들을 그룹핑하고, 상기 다수 앵커 음성 샷들을 그룹핑하며, 그룹핑된 결과들을 유사 그룹들로서 결정하는 샷 그룹핑부; 및

상기 유사 그룹들 각각의 대표값을 계산하여 앵커 음성 모델로서 출력하는 대표값 생성부를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.
제35 항에 있어서, 상기 앵커 샷 검출 장치는

상기 유사 그룹들 각각에 포함된 프레임들중 초기 프레임들에 대한 정보들을 이용하여 별도 음성 모델을 생성하는 별도 음성 모델 생성부를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.
제33 항, 제35 항 및 제36 항 중 어느 한 항에 있어서, 상기 앵커 샷 검출 장치는

앵커 영상 모델을 생성하는 영상 모델 생성부를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.
제37 항에 있어서, 상기 앵커 샷 검출 장치는

상기 생성된 앵커 영상 모델을 상기 분할된 샷들 각각의 키 프레임과 비교하여 상기 앵커 후보 샷들을 검출하는 앵커 후보 샷 검출부를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.
제38 항에 있어서, 상기 앵커 샷 검출 장치는

상기 별도 음성 모델과 상기 앵커 음성 모델을 이용하여 상기 앵커 후보 샷이 앵커 영상을 담고 있는 실제 앵커 샷인가를 검증하는 앵커 샷 검증부를 더 구비하는 것을 특징으로 하는 앵커 샷 검출 장치.