JP2008252667A - System for detecting event in moving image - Google Patents
System for detecting event in moving image Download PDFInfo
- Publication number
- JP2008252667A JP2008252667A JP2007093237A JP2007093237A JP2008252667A JP 2008252667 A JP2008252667 A JP 2008252667A JP 2007093237 A JP2007093237 A JP 2007093237A JP 2007093237 A JP2007093237 A JP 2007093237A JP 2008252667 A JP2008252667 A JP 2008252667A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- feature
- unit
- input
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、大量の動画を効率的に取り扱う目的で、動画を解析して重要なシーンを検出する動画イベント検出装置に関するものである。 The present invention relates to a moving image event detection apparatus that analyzes moving images and detects important scenes for the purpose of efficiently handling a large amount of moving images.
近年、DVDレコーダなどのデジタル映像機器やTVチューナーを搭載したTV録画が可能なパソコンの普及により、日常の出来事やテレビ番組をデジタルの動画として、ハードディスク(HDD)や光ディスクなどに大量に保存して保有することが一般的になりつつある。そして、今後は、HDDや記録メディアの大容量化、録画機器の多チューナー化、動画の圧縮効率の向上等により、個人が大量の動画コンテンツを保有することが、更に加速されると考えられている。 In recent years, with the spread of digital video equipment such as DVD recorders and personal computers capable of TV recording with a TV tuner, daily events and TV programs can be stored in large quantities on hard disks (HDD) or optical disks as digital moving images. Holding is becoming common. In the future, it is believed that individuals will be able to further accelerate the possession of a large amount of video content by increasing the capacity of HDDs and recording media, increasing the number of recording devices, and improving the compression efficiency of video. Yes.
このような状況に対して、録画したコンテンツのハイライトなどの重要なシーンやユーザーが見たいシーンを検出し、この結果を再生時に利用して、大量の動画を短時間で効率よく視聴することが提案されている。従来の検出技術としては、ハイライトを抽出するために、オーディオパワーに対して閾値を使ってオーディオの種別や判定をする方法が提案されている(例えば、特許文献2、特許文献3参照。)。これらの方法は、非線形な状態、例えば、音声と歓声が重なっているような状態を適切に切り分けて分類することに適切ではない。 For such situations, detect important scenes such as highlights of recorded content and scenes that users want to see, and use these results during playback to efficiently watch a large amount of videos in a short time. Has been proposed. As a conventional detection technique, in order to extract highlights, a method for determining the type or determination of audio using a threshold value for audio power has been proposed (see, for example, Patent Document 2 and Patent Document 3). . These methods are not suitable for appropriately classifying and classifying a non-linear state, for example, a state where voice and cheer overlap.
一方、非線形な状態を適切に切り分ける方法として、事前にトレーニングデータとして与えられたシーンの特徴ベクトルを学習して確率モデルを構成し、この確率モデルを使って、入力する動画の特徴量がハイライトシーンに含まれるか否かを判定する方法が知られている。この方法は、事前にモデルを学習するために、事前に与えるトレーニングデータにより検出性能が左右され、実際のシステムに組み込んだ場合に、トレーニング時には反映できなかった未知の特徴量を持つ入力動画に対して、期待していなかった判定結果を出してしまう場合がある。このような問題に対して、例えば、トレーニングデータに人工的に雑音を重畳して学習させて、未知の入力動画に対して出力結果が正解に対して外れないようにすること、つまり、ロバスト性を向上させる提案がされている(例えば、特許文献1参照。)。
上記の従来方法では、瞬間的に入力動画が乱れた場合に対するロバスト性を強化できるものの、定常的、あるいは、一時的にトレーニングデータから大きく特性が外れた入力動画に対しては、期待した検出結果が得られなかった。そのため、録画するシステムごとにモデルのトレーニングやチューニングをする必要があった。また、近年の録画機器やTVパソコンの普及による録画環境の多様化、ブロードバンドの普及とデジタル放送の普及によりさまざまなところで制作された動画を視聴する機会が増えている。そのため、必ずしも決まった記録装置で録画された動画だけを効率よく視聴するのではなく、前述のように様々な環境で保存された入力動画に対して、偏りなく同一の検出精度を保つ必要がある。 Although the above-mentioned conventional method can enhance the robustness against momentary disturbance of the input video, the expected detection result for the input video that is significantly different from the training data on a regular or temporary basis Was not obtained. Therefore, it was necessary to train and tune the model for each recording system. In addition, there are increasing opportunities to view videos produced in various places due to the diversification of recording environment due to the recent spread of recording devices and TV personal computers, the spread of broadband and the spread of digital broadcasting. For this reason, it is not always necessary to efficiently view only videos recorded by a fixed recording device, and it is necessary to maintain the same detection accuracy without bias for input videos stored in various environments as described above. .
本発明は、前記従来の課題を解決するもので、機械学習に基づいた動画の検出で、動画を録画するシステムに依存しないロバストな検出装置を提供するものである。 The present invention solves the above-described conventional problems, and provides a robust detection device that does not depend on a system for recording a moving image by detecting a moving image based on machine learning.
上記の従来の課題を解決するために、本発明の動画イベント検出装置は、動画データを入力し、指定された変更する特徴量とその変更レベルに応じて入力されたデータを変更し、特徴量を演算し出力する特徴量抽出部と、前記特徴量抽出部から出力された特徴量を入力とし、観察する特徴量を観察し、入力として指定された特徴量レベルでは無い場合は前記特徴量抽出部に変更する特徴量とその変更レベルを伝える特徴量観察部と、学習モデルデータを保存しているモデル保存部と、与えられたジャンル情報に対応した学習モデルデータを前記モデル保存部より読込み、前記特徴量抽出部から出力した特徴量を入力とし、入力された動画データが予め決められている分類種のうち、どの分類に近いかを計算し、近い分類結果を出力するカテゴリ分類部と、前記カテゴリ分類部により分類された結果とジャンル情報を入力し、重要シーンの始まりもしくは、重要区間を決定する判定部を有している。 In order to solve the above-described conventional problem, the moving image event detection apparatus of the present invention inputs moving image data, changes the specified feature amount to be changed and the input data according to the change level, and the feature amount. The feature amount extraction unit that calculates and outputs the feature amount, and the feature amount output from the feature amount extraction unit is input, the feature amount to be observed is observed, and if the feature amount level is not the input, the feature amount extraction is performed A feature amount observing unit that conveys a feature amount to be changed and a change level thereof, a model storage unit that stores learning model data, and learning model data corresponding to given genre information is read from the model storage unit, A category that receives the feature amount output from the feature amount extraction unit, calculates which classification of the classification types the input video data is determined in advance, and outputs a close classification result A classification unit, enter the result and genre information classified by the category classification unit, the start of important scenes or has a determination unit for determining a critical section.
また、本発明の動画イベント検出装置は、学習モデルに対応させた観察する特徴量と特徴レベルを保存するモデル保存部、モデル保存部から、ジャンル情報に対応した学習モデルに対応した観察する特徴量と特徴量レベルを入力し、観察する特徴量とを入力とする特徴量観察部を有する。 In addition, the moving image event detection apparatus of the present invention includes a model storage unit that stores feature quantities and feature levels to be observed corresponding to a learning model, and a model storage unit that observes feature quantities corresponding to a learning model corresponding to genre information. And a feature amount level, and a feature amount observing unit for inputting the observed feature amount.
以上のように、本発明の動画イベント装置によれば、特徴量観察部が入力動画の特徴量を学習時のトレーニングデータから特性が外れていないか否かを観察し、外れている場合は、入力動画を補正して適切な検出結果が得られるという効果がある。 As described above, according to the video event device of the present invention, the feature amount observing unit observes whether or not the characteristic is deviated from the training data at the time of learning the feature amount of the input moving image. There is an effect that an appropriate detection result can be obtained by correcting the input moving image.
以下、本発明の実施の形態を添付図面に基づき詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
(実施の形態1)
本発明の実施の形態1による動画イベント検出装置について図1〜図2を用いて詳細を説明する。
(Embodiment 1)
Details of the moving image event detection apparatus according to the first embodiment of the present invention will be described with reference to FIGS.
図1は、本発明の実施の形態1による動画イベント検出装置の構成を示すブロック図である。図1において、11は、入力動画の特徴量を算出する特徴量抽出部、12は外部から指定された観察する特徴量とその参考レベルを保持し、入力動画の特徴量を観察し、参考レベルになっていることを確認し、参考レベルになっていない場合は、補正レベルを11に伝える特徴量観察部、14はセグメント単位の入力動画をカテゴリ分類するカテゴリ分類部、13は14のモデルのパラメータを記憶しているモデル保存部、15は14の分類結果と解析コンテンツのジャンル情報により、イベント部分を検出する判定部である。
本実施の形態では、TV番組のイベント区間の抽出をする場合で説明する。録画済のコンテンツや受信中のコンテンツを対象に所望のイベントを抽出するものとする。例えば、スポーツ番組の野球やサッカーでヒット、ホームラン、ゴールシーンなど、盛り上がっている部分を抽出するとする。本実施の形態では、スポーツ番組では、オーディオの特徴量を使うと顕著に観客の歓声や解説者の強調音声などの特性から盛り上がりを検出でき、検出処置の処理量を抑えることができるので、オーディオの特徴量を利用することとする。
FIG. 1 is a block diagram showing a configuration of a moving image event detection apparatus according to Embodiment 1 of the present invention. In FIG. 1, 11 is a feature amount extraction unit for calculating the feature amount of an input moving image, 12 is a feature amount to be observed designated from the outside and its reference level, and observes the feature amount of the input moving image to obtain a reference level. If the reference level is not reached, a feature amount observing unit that informs the correction level to 11, 14 is a category classification unit that categorizes the input video in segment units, and 13 is a model of 14 models. A
In this embodiment, a case where an event section of a TV program is extracted will be described. It is assumed that a desired event is extracted for recorded content or content being received. For example, it is assumed that a lively part such as a hit, a home run, a goal scene in a sports program baseball or soccer is extracted. In this embodiment, in sports programs, if audio feature values are used, prominence can be detected prominently from characteristics such as audience cheers and commentator's emphasized speech, and the processing amount of detection processing can be suppressed. The feature amount of is used.
特徴量観察部12は、外部より指定された観察する特徴量とその特徴量の範囲制限を受けて、特徴量抽出部11からの特徴量が、その指定した範囲内に収まっているか否かを確認する。指定した範囲内に収まっていない場合には、どの特徴量をどう補正するかを特徴量抽出部11へ伝える。ここで、外部より指定される観察する特徴量と特徴レベルは、事前に学習モデルパラメータを生成したときに、教師データとして利用したデータを解析して求めた特徴量から決定されたレベルを指定する。本実施の形態では、外部より、オーディオパワーの平均値の上限Pw_max、オーディオパワー平均の参考値が Pw_refと指定されているとする。まず、特徴量観察部12は、始めの20秒間のオーディオのパワーの平均値を1サンプル毎に計算し保持する。次に20秒間を越えると、20秒間のオーディオパワーの平均値を計算後、求めた値がPw_maxを越えないかを判断する。オーディオ信号に対してゲインをかけていず、Pw_maxを越える場合は、例えば、下記の数式1にて変更するゲインαを求める。ここでは、現在、求められているオーディオパワーの平均値が、Pw_realmeanとする。
The feature
次に、特徴量抽出部11に入力されたオーディオ信号にかけるゲインαとオーディオパワー特徴量という種類名を特徴量抽出部11に伝える。また、ゲインαが1以外の値が設定されており、かつ、オーディオパワーの平均値が、Pw_maxを越えなくなった場合は、ゲインαを1に戻す。入力信号が無くなるまで、特徴量観察部12は上述の処理を続ける。
Next, the feature
図2は、特徴量抽出部11の構成例である。図2において、21は、1サンプルごとにパワーを演算するパワー算出部、22は、短時間パワー平均、ケプストラム、MFCC、基本周波数などの特徴量を演算する特徴量算出部、23は入力信号にゲインをかけるゲイン設定部である。
FIG. 2 is a configuration example of the feature
特徴量抽出部11は、非圧縮のオーディオを入力として、この入力の特徴量を演算する。特徴量は、短時間パワー平均、ケプストラム、MFCC、基本周波数など、音の音響的性質を示す多くの特徴量を算出し、後の処理に用いることができる。ここでは、後続の処理に利用する特徴量を計算するとともに、特徴量観察部12から指定された特徴量を、特徴量観察部12に出力する。
The feature
モデル保存部13は、学習モデルのパラメータを保存している。ここでのモデルのパラメータは、別ステップで事前に学習をして生成されたものである。ここでは、番組のジャンルに対応して学習モデルのパラメータデータを保存している。
The
カテゴリ分類部14は、特徴量抽出部11より出力される特徴量を入力として、入力されたオーディオデータが、スピーチ、歓声、音楽、であるか、スピーチと歓声と音楽のうちのいずれか2種か3種が組み合わされたデータか、それ以外であるか、を分類する。このように分類種を定義して学習されたモデルは、歓声と音楽が重なっている場合、スピーチと歓声が重なっている場合なども分類できる。本実施の形態では、GMM(Gaussian Mixture Model)用いることとする。このモデルは、各出力確率を計算し,その累積尤度から,入力がどの音声の種類に最も近いかを判別することができる、一般的に知られたモデルである。ここでのモデルは外部より入力される番組情報に応じた学習モデルのパラメータをモデル保存部13より取り出し、モデルを決定する。入力動画データを一定間隔のセグメント単位に分割し、各々のセグメント毎にどの分類種に近いかを出力し、分類結果としている。たとえば、1秒毎にどの分類種に近いかを出力する。
The
TV番組情報は、EPG(Electric Program Guide)のデータを利用して取得できる。このデータは、テレビ放送波に重畳されるものと、インターネットから取得できるものとがある。解析する入力動画が、放送中のものではなく、すでにHDDや記録メディアに録画されたデータを使う場合は、番組情報を録画データと対応させて合わせて記録しておく必要がある。 TV program information can be obtained using EPG (Electric Program Guide) data. This data may be superimposed on a television broadcast wave or acquired from the Internet. If the input moving image to be analyzed is not being broadcast, but data already recorded on the HDD or recording medium is used, it is necessary to record the program information in association with the recorded data.
判定部15は、カテゴリ分類部14が出力した分類結果を外部から入力されたTV番組のジャンルに応じて定義したルールに基づき、ハイライト区間やシーンの切り替わり目を決定し、出力する。具体的には、分類結果のノイズを取る、つまり、予め決めている短時間内で結果が変化している変化を除き、歓声が含まれている区間(開始時刻と終了時刻)を検出結果として出力する。
The
かかる構成によれば、特徴量観察部12が指定された特徴量を観察し、特徴量が外部より指定された特徴量抽出部11に入力オーディオに掛け合わせるゲインを指定することにより、入力オーディオの特徴量を指定された範囲に抑えることができるため、カテゴリ分類部14が、学習モデルが想定外の状態になり、不適切な分類判別をしてしまう問題を回避することができる。
According to such a configuration, the feature
なお、本実施の形態では、オーディオパワーの平均値が指定された最大値を超える場合を、ゲインをかける条件としたが、オーディオパワー平均の参考値と比較して、特徴量を観察しても構わない。 In the present embodiment, the case where the average value of the audio power exceeds the specified maximum value is set as a condition for applying the gain. I do not care.
なお、本実施の形態では、モデル保存部13は、TV番組のジャンルに応じて学習モデルのパラメータを保存しているものとするが、複数のジャンルに一つの学習モデルを対応させてパラメータを保存、あるいはTV番組ごとに一つの学習モデルを対応させてパラメータを保存、あるいはサブジャンルごとに一つの学習モデルを対応させてパラメータを保存させても構わない。
In the present embodiment, the
なお、本実施の形態では、カテゴリ分類部14は、スピーチ、歓声、音楽、スピーチと歓声と音楽のいずれか2種か3種が組み合わせを分類するとしたが、分類の定義は、GMMモデルを学習する際に決めた分類であれば、何でも構わない。ジャンルやサブジャンルや番組ごとに検出したい部分の特徴が異なる場合は、それぞれの場合に適するように分類する種類を定義し、モデルを学習させておくとよい。
In the present embodiment, the
なお、本実施の形態では、カテゴリ分類部14は、分類結果のみを出力しているが、分類結果とその尤度を出力させても構わない。その場合は、後段の判別部15にて、判定時に尤度を加味することが可能となる。
In the present embodiment, the
(実施の形態2)
本発明の実施の形態2による動画イベント検出装置について図3を用いて詳細を説明する。図3は、本発明の実施の形態1による動画イベント検出装置の構成を示すブロック図である。本実施の形態では、実施の形態1と同様にオーディオの特徴量を利用して、TV番組のイベント区間の抽出をするとする。
(Embodiment 2)
The moving image event detection apparatus according to the second embodiment of the present invention will be described in detail with reference to FIG. FIG. 3 is a block diagram showing a configuration of the moving image event detection apparatus according to the first embodiment of the present invention. In the present embodiment, it is assumed that the event section of the TV program is extracted using the audio feature amount as in the first embodiment.
図3において、特徴量抽出部11とカテゴリ分類部14と判定部15は、実施の形態1と同様の動作をする。第2の特徴量観察部32は、入力されたジャンル情報に対応した学習モデルパラメータに対応している観察する特徴量と特徴量レベルとを取得する動作以外は、実施の形態1に述べた特徴量観察部12と同様の動作をする。第2のモデル保存部33は、学習モデルパラメータを保存している。更に、この学習パラメータを生成するときに利用したトレーニングデータの特徴量から求めた観察する特徴量と特徴量レベルを学習モデルパラメータに対応して保存している。
In FIG. 3, the feature
図4は、第2のモデル保存部33が保存しているデータのイメージ図である。学習モデルパラメータは、TVジャンルごとに定義されており、また、1セットの学習モデルパラメータに対応して、観察する特徴量の種類とその特徴量の平均値と最大値が保存されている。ここで保存する観察する特徴量の平均値と最大値は、学習モデルパラメータを生成する際に利用したトレーニングデータの特徴量の平均値と最大値であり、本実施の形態では、先に述べたトレーニングデータのオーディオパワーの平均値と最大値を保存している。かかる構成によれば、第2の特徴量観察部32が指定された特徴量を観察し、特徴量レベルが第2のモデル保存部33から読み込んだ値に収まっていない場合に、特徴量抽出部11に対して入力オーディオに掛け合わせるゲインを求めてこれを指定することにより、入力オーディオの特徴量を指定された範囲に抑えることができる。そのため、カテゴリ分類部14が、学習モデルが想定外の状態になり、不適切な分類判別をしてしまう問題を回避することができる。
FIG. 4 is an image diagram of data stored in the second
なお、本実施の形態では、モデル保存部13は、TV番組のジャンルに対応させて学習モデルのパラメータを保存しているものとするが、複数のジャンルに一つの学習モデルを対応させてパラメータを保存、あるいはTV番組ごとに一つの学習モデルを対応させてパラメータを保存、あるいはサブジャンルごとに一つの学習モデルを対応させてパラメータを保存させても構わない。
In the present embodiment, the
なお、本実施の形態では、学習モデルパラメータと観察する特徴量の種類とその特徴量の平均値と最大値は、同一ファイルに保存されているイメージであるが、観察する特徴量の種類と平均値と最大値のデータセットと学習モデルパラメータセットが対応づけられておれば、どのような構成でも構わない。 In the present embodiment, the learning model parameter, the type of feature quantity to be observed, and the average value and maximum value of the feature quantity are images stored in the same file, but the type and average of the feature quantity to be observed As long as the data set of the value and the maximum value is associated with the learning model parameter set, any configuration may be used.
(実施の形態3)
本発明の実施の形態3による動画イベント検出装置について図5を用いて詳細を説明する。図5は、本発明の実施の形態1による動画イベント検出装置の構成を示すブロック図である。本実施の形態では、実施の形態1と同様にオーディオの特徴量を利用して、TV番組のイベント区間の抽出をするとする。
(Embodiment 3)
The moving image event detection apparatus according to the third embodiment of the present invention will be described in detail with reference to FIG. FIG. 5 is a block diagram showing a configuration of the moving image event detection apparatus according to the first embodiment of the present invention. In the present embodiment, it is assumed that the event section of the TV program is extracted using the audio feature amount as in the first embodiment.
図5において、51は第2の特徴量抽出部、52は第3の特徴量観察部、53は第3のモデル保存部、54は第2のカテゴリ分類部、55は第2の判定部である。 In FIG. 5, 51 is a second feature quantity extraction unit, 52 is a third feature quantity observation unit, 53 is a third model storage unit, 54 is a second category classification unit, and 55 is a second determination unit. is there.
第2の特徴量抽出部51は、実施の形態1と同様の特徴量を抽出する。そして抽出した特徴量を第3の特徴量観察部52と第2のカテゴリ分類部54へ出力する。
The second feature
第3の特徴量観察部52は、第2の特徴量抽出部より得られた各特徴量の最大値と平均値を計算し、第2のカテゴリ分類部54に送る。 The third feature quantity observation unit 52 calculates the maximum value and the average value of each feature quantity obtained from the second feature quantity extraction unit, and sends it to the second category classification unit 54.
第3のモデル保存部53は、実施の形態1と同様に学習モデルパラメータセットを保存しており、これに加えて、モデルの学習時のトレーニングデータの最大値と平均値を分類ごとに保存しておく。例えば、本実施の形態では、スピーチ、歓声、音楽、であるか、スピーチと歓声と音楽のいずれか2種か3種が組み合わせを分類するとしているため、各分類に対応させたトレーニングデータの各特徴量の最大値と平均値を保存している。
The third
第2のカテゴリ分類部54は、実施の形態1と同様の動作に加え、第3のモデル保存部53から読込んだ各分類に対応させたトレーニングデータの各特徴量の最大値と平均値のうち、分類結果に対応する分類の各特徴量の最大値と平均値と、第3の特徴量観察部52から受け取った各特徴量の最大値と平均値とを比較し、大きく外れていないことを確認する。大きく異なる場合は、分類結果を出力するとともに小さな値の重み(1以下)を出力する。大きく異ならない場合は、1を出力する。
In addition to the same operations as those in the first embodiment, the second category classification unit 54 calculates the maximum value and the average value of each feature value of the training data corresponding to each classification read from the third
第2の判定部55は、第2のカテゴリ分類部54が出力した分類結果を外部から入力されたTV番組のジャンルに応じたルールに基づき、ハイライト区間やシーンの切り替わり目を決定し、出力する。具体的には、分類結果のノイズを取り、歓声が含まれている区間(開始時刻と終了時刻)を決定する際に、第2のカテゴリ分類部54から出力された重みを考慮して出力する。
The
ここで、各分類に対応させたトレーニングデータのオーディオパワーの平均値と最大値が図6に示す値であったとする。そして、時刻tにおける第2のカテゴリ分類部54に入力されたオーディオパワーの最大値がInPW_max(t)、平均値がInPW_mean(t)であり、第2のカテゴリ分類部54で演算された尤度が図7に示す値になったとする。分類のトレーニングデータのオーディオパワーの平均値の1.5倍以上の場合には、該当する分類の尤度を、尤度×[ トレーニングデータのオーディオパワーの平均/(InPW_mean(t))]として、全分類の尤度を求め、最も尤度が高い分類をその時刻の分類結果とする。 Here, it is assumed that the average value and the maximum value of the audio power of the training data corresponding to each classification are the values shown in FIG. The maximum value of the audio power input to the second category classification unit 54 at time t is InPW_max (t), the average value is InPW_mean (t), and the likelihood calculated by the second category classification unit 54 Is the value shown in FIG. When the average value of the audio power of the training data of the classification is 1.5 times or more, the likelihood of the corresponding classification is expressed as likelihood × [average of audio power of training data / (InPW_mean (t))]. The likelihood of all classifications is obtained, and the classification with the highest likelihood is taken as the classification result at that time.
かかる構成によれば、第3の特徴量観察部52が第2の特徴量抽出部で求められた特徴量を観察して各特徴量の最大値と平均値を第2のカテゴリ分類部54に出力し、第2のカテゴリ分類部54は、入力の特徴ベクトルから求めた分類結果とこの分類結果に対応するモデルのトレーニングデータの最大値と平均値を比較することにより、出力された分類結果の信頼度を重みとして出力する。これにより、学習時に学習があまりできていない入力パターンに対して不適切な分類判別をしてしまう問題を回避することができる。 According to this configuration, the third feature amount observing unit 52 observes the feature amount obtained by the second feature amount extracting unit, and the maximum value and the average value of each feature amount are sent to the second category classification unit 54. The second category classification unit 54 outputs the classification result obtained by comparing the classification result obtained from the input feature vector with the maximum value and the average value of the training data of the model corresponding to the classification result. Output reliability as weight. As a result, it is possible to avoid the problem of improper classification determination for input patterns that are not well learned during learning.
なお、本実施の形態では、各特徴量の最大値と平均値を比較したが、学習モデルを支配的に寄与する特徴量のみに注目した最大値と平均値の比較でもかまわない。また、この比較する際は、最大値と平均値ではなく、分散などデータを特徴づける値の比較であれば、何でも構わない。 In the present embodiment, the maximum value and the average value of each feature amount are compared. However, it is also possible to compare the maximum value and the average value focusing only on the feature amount that contributes dominantly to the learning model. In this comparison, any value may be used as long as it is not a maximum value and an average value but a value that characterizes data such as variance.
本発明にかかる動画イベント検出装置は、特徴量観察部が入力動画の特徴量を学習時のトレーニングデータから特性が外れていないか否かを観察し、外れている場合は、入力動画を補正ができ、学習データを録画システム毎に準備しなくても適切な検出結果が得られることによって、動画の中から所望の区間、例えば盛り上り区間を自動で検出する用途にも適用できる。 In the moving image event detection apparatus according to the present invention, the feature amount observation unit observes whether or not the characteristic is deviated from the training data at the time of learning the feature amount of the input moving image. In addition, since an appropriate detection result can be obtained without preparing learning data for each recording system, the present invention can also be applied to a purpose of automatically detecting a desired section, for example, a rising section from a moving image.
11 特徴量抽出部
12 特徴量観察部
13 モデル保存部
14 カテゴリ分類部
15 判定部
21 パワー算出部
22 特徴量算出部
23 ゲイン設定部
32 第2の特徴量観察部
33 第2のモデル保存部
51 第2の特徴量抽出部
52 第3の特徴量観察部
53 第3のモデル保存部
54 第2のカテゴリ分類部
55 第2の判定部
DESCRIPTION OF
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007093237A JP2008252667A (en) | 2007-03-30 | 2007-03-30 | System for detecting event in moving image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007093237A JP2008252667A (en) | 2007-03-30 | 2007-03-30 | System for detecting event in moving image |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008252667A true JP2008252667A (en) | 2008-10-16 |
Family
ID=39977065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007093237A Pending JP2008252667A (en) | 2007-03-30 | 2007-03-30 | System for detecting event in moving image |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008252667A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010087155A1 (en) * | 2009-01-27 | 2010-08-05 | シャープ株式会社 | Data transmission device, data transmission mthod, audio-visual environment control devcice, audio-visual environment control method, and audio-visual environment control system |
JP2010232721A (en) * | 2009-03-25 | 2010-10-14 | Canon Inc | Display control device, and control method and program thereof |
JP2012043337A (en) * | 2010-08-23 | 2012-03-01 | Nikon Corp | Image processing device, imaging system, image processing method, and program |
CN104613595A (en) * | 2014-12-30 | 2015-05-13 | 广东美的制冷设备有限公司 | Control method, system, server and user client of air-conditioner |
KR20160021016A (en) * | 2014-08-14 | 2016-02-24 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
JP2019118097A (en) * | 2017-12-26 | 2019-07-18 | キヤノン株式会社 | Image processing method, image processing system, imaging apparatus, program, storage medium |
US10791526B2 (en) | 2015-09-08 | 2020-09-29 | Sony Corporation | Wireless communication device and wireless communication method |
JPWO2020230184A1 (en) * | 2019-05-10 | 2020-11-19 | ||
CN112115806A (en) * | 2020-08-28 | 2020-12-22 | 河海大学 | Remote sensing image scene accurate classification method based on Dual-ResNet small sample learning |
KR20210144082A (en) * | 2020-05-21 | 2021-11-30 | 주식회사 윌비소프트 | Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium |
-
2007
- 2007-03-30 JP JP2007093237A patent/JP2008252667A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010087155A1 (en) * | 2009-01-27 | 2010-08-05 | シャープ株式会社 | Data transmission device, data transmission mthod, audio-visual environment control devcice, audio-visual environment control method, and audio-visual environment control system |
JP2010232721A (en) * | 2009-03-25 | 2010-10-14 | Canon Inc | Display control device, and control method and program thereof |
JP2012043337A (en) * | 2010-08-23 | 2012-03-01 | Nikon Corp | Image processing device, imaging system, image processing method, and program |
KR20160021016A (en) * | 2014-08-14 | 2016-02-24 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
KR102298066B1 (en) * | 2014-08-14 | 2021-09-06 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
CN104613595A (en) * | 2014-12-30 | 2015-05-13 | 广东美的制冷设备有限公司 | Control method, system, server and user client of air-conditioner |
US10791526B2 (en) | 2015-09-08 | 2020-09-29 | Sony Corporation | Wireless communication device and wireless communication method |
US11057848B2 (en) | 2015-09-08 | 2021-07-06 | Sony Corporation | Wireless communication device and wireless communication method |
JP2019118097A (en) * | 2017-12-26 | 2019-07-18 | キヤノン株式会社 | Image processing method, image processing system, imaging apparatus, program, storage medium |
JPWO2020230184A1 (en) * | 2019-05-10 | 2020-11-19 | ||
KR20210144082A (en) * | 2020-05-21 | 2021-11-30 | 주식회사 윌비소프트 | Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium |
KR102412863B1 (en) * | 2020-05-21 | 2022-06-24 | 주식회사 윌비소프트 | Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium |
CN112115806A (en) * | 2020-08-28 | 2020-12-22 | 河海大学 | Remote sensing image scene accurate classification method based on Dual-ResNet small sample learning |
CN112115806B (en) * | 2020-08-28 | 2022-08-19 | 河海大学 | Remote sensing image scene accurate classification method based on Dual-ResNet small sample learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008252667A (en) | System for detecting event in moving image | |
US9031243B2 (en) | Automatic labeling and control of audio algorithms by audio recognition | |
JP5460709B2 (en) | Acoustic signal processing apparatus and method | |
US7796860B2 (en) | Method and system for playing back videos at speeds adapted to content | |
JP5034516B2 (en) | Highlight scene detection device | |
US8918316B2 (en) | Content identification system | |
US7769761B2 (en) | Information processing apparatus, method, and program product | |
JP2005173569A (en) | Apparatus and method for classifying audio signal | |
JP2011253374A (en) | Information processing device, information processing method and program | |
EP3563251B1 (en) | Audio classifcation with machine learning model using audio duration | |
JP2005532582A (en) | Method and apparatus for assigning acoustic classes to acoustic signals | |
JP2009140042A (en) | Information processing apparatus, information processing method, and program | |
US11350164B2 (en) | Methods and apparatus to determine audio source impact on an audience of media | |
JP2008022103A (en) | Apparatus and method for extracting highlight of moving picture of television program | |
JP6557592B2 (en) | Video scene division apparatus and video scene division program | |
US11871084B2 (en) | Systems and methods for displaying subjects of a video portion of content | |
JP5620474B2 (en) | Anchor model adaptation apparatus, integrated circuit, AV (Audio Video) device, online self-adaptive method, and program thereof | |
US20060224616A1 (en) | Information processing device and method thereof | |
JP4712812B2 (en) | Recording / playback device | |
Pandey et al. | Cell-phone identification from audio recordings using PSD of speech-free regions | |
JP4762871B2 (en) | Signal location / variation parameter detection method, signal location / variation parameter detection device, program thereof, and recording medium | |
JPWO2006009035A1 (en) | Signal detection method, signal detection system, signal detection processing program, and recording medium recording the program | |
JP5054653B2 (en) | Viewing impression estimation method and apparatus, program, and computer-readable recording medium | |
US20230233945A1 (en) | Context-aware model generating method and important event determining method in e-sports game, and in-game context management server performing the same methods | |
JP2005341138A (en) | Video summarizing method and program, and storage medium with the program stored therein |