JP5306940B2 - Moving image content evaluation apparatus and computer program - Google Patents
Moving image content evaluation apparatus and computer program Download PDFInfo
- Publication number
- JP5306940B2 JP5306940B2 JP2009186573A JP2009186573A JP5306940B2 JP 5306940 B2 JP5306940 B2 JP 5306940B2 JP 2009186573 A JP2009186573 A JP 2009186573A JP 2009186573 A JP2009186573 A JP 2009186573A JP 5306940 B2 JP5306940 B2 JP 5306940B2
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- map data
- image content
- gazing point
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、動画像コンテンツを評価するための動画像コンテンツ評価装置およびコンピュータプログラムに関する。 The present invention relates to a moving image content evaluation apparatus and a computer program for evaluating moving image content.
放送用コンテンツや、ネットワーク配信サービスに供されるコンテンツや、公共施設等に設置された情報提供装置に表示される映像広告等のコンテンツは、視聴者の注目が引きつけられるように映像制作時に映像面での工夫がされている。例えば、コンテンツの制作者であるディレクターやカメラマンは、経験に基づくノウハウや映像制作の専門技法に基づいて、視聴者に注意を喚起させたり注目させたりすることを意図した構図やカメラワークを決定することが多い。このような事情により、制作者には、コンテンツが視聴者にどのように見られているかを客観的に知り、それを制作に活かしたいという要求がある。 Broadcasting content, content provided for network distribution services, and content such as video advertisements displayed on information provision devices installed in public facilities can be viewed at the time of video production so that the viewer's attention is drawn. Has been devised. For example, a director or cameraman who is a content creator decides a composition or camera work that is intended to attract or attract attention from viewers based on experience-based know-how or video production expertise. There are many cases. Under such circumstances, producers are required to objectively know how content is viewed by viewers and use it for production.
ところで、人間がものを見るという行為に伴って、視線は動き、視界における注意や興味の引かれる方向に向けられる。そこで、人間の生体反応である視線運動を利用する様々な研究が行われている。例えば、画面に表示された動画像を観察する観察者の眼球運動をカメラで撮像し、その撮像画像から視線の動きを測定して、観察者の視線が画面上の動画像のどの位置(注視点)に向けられているかを求める技術が知られている。そして、その技術を用いて、観察者の視線の動きの測定結果に基づき映像コンテンツを評価する技術が提案されている(例えば、特許文献1、特許文献2を参照)。
By the way, with the act of human beings looking at things, the line of sight moves and is directed in a direction that attracts attention and interest in the field of view. Therefore, various studies have been conducted using eye movement, which is a human biological reaction. For example, an eye movement of an observer observing a moving image displayed on the screen is captured by a camera, and the movement of the line of sight is measured from the captured image, and the position of the moving image on the screen (note A technique for determining whether or not it is directed to the (viewpoint) is known. And the technique which evaluates a video content based on the measurement result of a motion of an observer's gaze using the technique is proposed (for example, refer to
特許文献1に記載の映像コンテンツの評価技術は、被験者の眼球の動きを撮像して解析し、これにより得られた眼球運動データを映像の再生に同期させて提示する技術である。具体的には、同文献には、赤外線カメラで撮像した被験者の眼球の状態から、映像のフレーム画像ごとに、瞬目回数、瞳孔径変化、反応時間、眼球移動速度、眼球停留時間、停留回数、およびその位置を計算する映像コンテンツの評価装置が開示されている。そして、それらの計算結果をグラフ等により可視化することが開示されている。
The video content evaluation technique described in
特許文献2に記載の画像評価装置は、複数の観視者について計測した注視点の座標データに基づいて、動画像データのフレーム画像ごとに注視点の分布を確率密度関数で求め、さらに動画像全体のエントロピーを計算するものである。そして、これらの注視点群を総合的に利用して、視線がフレーム画像のどの位置にどれだけ集まっているかについての確率をフレーム画像に対する集中度として計算し、コンテンツを評価する。このとき、集中度の分布を示す等高線図をフレーム画像に重畳させて表示することにより、フレーム画像のどこに注視点が集まっているかを可視化することもできる。 The image evaluation apparatus described in Patent Literature 2 obtains the distribution of a gazing point for each frame image of moving image data using a probability density function based on coordinate data of the gazing point measured for a plurality of viewers. The total entropy is calculated. Then, using these gazing point groups comprehensively, the probability of which position the line of sight gathers in the frame image is calculated as the degree of concentration with respect to the frame image, and the content is evaluated. At this time, it is possible to visualize where the gazing points are gathered in the frame image by displaying a contour map showing the distribution of the degree of concentration superimposed on the frame image.
また一方で、視聴者が画像を見たときの注意の向けられやすさの分布を推測することに用いられる顕著性マップに関する技術が知られている(例えば、非特許文献1参照)。この顕著性マップを用いた画像の評価では、被験者による目視評価実験を行う必要がなく、画像データの有する物理的特徴を解析するだけで、画像の注意の向けられやすさに関する評価を行うことができる。 On the other hand, a technique related to a saliency map that is used to estimate a distribution of ease of attention when a viewer views an image is known (for example, see Non-Patent Document 1). In the evaluation of an image using this saliency map, it is not necessary to conduct a visual evaluation experiment by a subject, and it is possible to evaluate the ease of attention of an image only by analyzing the physical characteristics of the image data. it can.
顕著性マップは、例えば、特徴マップ生成ステップと特徴マップ合成ステップとの2ステップの処理により求めることができる。このうち特徴マップ生成ステップでは、フレーム画像について、1つまたは複数の視覚属性に関する画像解析を行って特徴マップを生成する。例えば、視覚属性として、色(color)、明度(intensity)、方位(orientation)、コントラスト(contrast)、点滅(flicker)、および運動(motion)の6つの属性を用いることができる。この場合、特徴マップ生成ステップでは、6つの特徴マップが生成されることになる。そして、特徴マップ合成ステップでは、視覚属性ごとに生成された特徴マップの重み付き線形和を計算して顕著性マップを求める。 The saliency map can be obtained by, for example, a two-step process including a feature map generation step and a feature map synthesis step. Of these, in the feature map generation step, a feature map is generated by performing image analysis on one or more visual attributes of the frame image. For example, six attributes of color, intensity, orientation, orientation, contrast, flicker, and motion can be used as visual attributes. In this case, in the feature map generation step, six feature maps are generated. In the feature map synthesis step, a weighted linear sum of the feature maps generated for each visual attribute is calculated to obtain a saliency map.
しかしながら、被験者の視線計測結果に基づいて画像コンテンツを評価する従来技術では、評価対象の画像コンテンツを変更するたびに視線計測実験をやり直す必要がある。すなわち、この従来技術では、一旦画像コンテンツを制作したのち、視線計測実験を行って注視点の分布を解析し、その結果を踏まえて画像コンテンツを制作し直して視線計測実験を再度行うという反復作業が必要となる。このように画像コンテンツ制作と評価実験とを繰り返す作業は、多大な時間と労力を要するものである。しかも、被験者のサンプル数を増やすと、その手間はさらに大きくなる。よって、被験者のサンプル数を抑えながら、画像コンテンツを簡単かつ効率的に評価する方法が求められている。 However, in the conventional technology that evaluates the image content based on the visual line measurement result of the subject, it is necessary to repeat the visual line measurement experiment every time the image content to be evaluated is changed. In other words, with this prior art, it is an iterative process that once the image content is produced, the eye gaze measurement experiment is performed to analyze the distribution of the gazing point, and the image content is produced again based on the result and the eye gaze measurement experiment is performed again. Is required. Thus, the work of repeating the image content production and the evaluation experiment requires a lot of time and labor. In addition, when the number of samples of the subject is increased, the labor is further increased. Therefore, there is a need for a method for simply and efficiently evaluating image content while suppressing the number of subjects' samples.
前述の顕著性マップを利用した評価方法においては、被験者の視線計測実験を行う必要がない。しかしながら、サンプル画像から求めた顕著性マップと、そのサンプル画像についての視線計測実験結果とを比較すると、顕著性の高い領域と注視点の集中する領域とが一致しない場合がある。これは、人間の視線の動きが、顕著性マップを計算するために用いられる属性である、画像自体の有する視覚的な特徴(ボトムアップ要因)だけでなく、被験者の嗜好、興味、経験、知識等の要因(トップダウン要因)にも影響されるためであると考えられる。 In the evaluation method using the above-described saliency map, it is not necessary to perform a gaze measurement experiment on the subject. However, when the saliency map obtained from the sample image is compared with the line-of-sight measurement experiment result for the sample image, the region with high saliency and the region where the gazing point concentrates may not match. This is not only the visual characteristics (bottom-up factor) of the image itself, which is the attribute used to calculate the saliency map, but also the subject's preference, interest, experience, knowledge This is thought to be due to factors such as top-down factors.
このようなトップダウン要因による影響をできるだけ少なくするためには、顕著性マップを生成するための画像解析処理における物理的特徴に関する画像解析用パラメータを、統計的に適正な値に設定する方法が求められる。しかしながら、従来は、顕著性マップ計算用ツールを用いる際に、初期設定値をそのまま利用したり、経験により得られた値を利用したりすることが通常であった。つまり、この画像解析用パラメータの設定方法に関する検討は従来の技術においては十分に行われていない。 In order to reduce the influence of such top-down factors as much as possible, a method of setting image analysis parameters related to physical characteristics in image analysis processing for generating a saliency map to a statistically appropriate value is required. It is done. However, conventionally, when using a saliency map calculation tool, it is usual to use the initial setting value as it is or to use a value obtained through experience. In other words, the conventional technique has not sufficiently studied the method for setting the image analysis parameter.
本発明は、上記の課題認識に基づいてなされたものであり、視線計測に基づく注視点の分布と画像解析処理に基づく顕著性の分布とを利用して、動画像コンテンツを容易に且つ客観的に評価することのできる、動画像コンテンツ評価装置およびコンピュータプログラムを提供することを目的とする。 The present invention has been made on the basis of the above problem recognition, and makes it easy and objective for moving image content using the distribution of gaze points based on gaze measurement and the distribution of saliency based on image analysis processing. It is an object of the present invention to provide a moving image content evaluation apparatus and a computer program that can be evaluated in a simple manner.
[1]上記の課題を解決するため、本発明の一態様による動画像コンテンツ評価装置は、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき画像解析用パラメータを選択し、前記選択された画像解析用パラメータを評価用パラメータの初期値として決定し、前記評価用パラメータの初期値を用いて最急勾配法によって最終評価用パラメータを求め、前記最終評価用パラメータを最適な画像解析用パラメータとして決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して前記パラメータ決定部が決定した前記最適な画像解析用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、を具備することを特徴とする。
上記の構成において、視力分布とは、注視点およびその周辺における人の視力の分布を表す。このとき、注視点における視力に対して、その周辺部分における視力は注視点からの距離に応じて次第に低くなっていく。また、複数の被験者について注視点を測定した結果に基づき、当該複数被験者の視力分布を重畳したものを上での視力分布として用いても良い。この視力分布は、人の注視の度合いを表すものであり、注視力分布とも言える。
また、顕著性分布は、言い換えれば誘目性分布である。誘目性とは、視覚的な注意の引きやすさの程度をいう。
また、上記の視覚属性は、1種類であっても複数種類であっても良い。画像解析用パラメータは、例えば、視覚属性ごとの重み付けを表わす。
また、パラメータ決定部は、評価用パラメータを求めるための1つの学習用動画像コンテンツに関する注視点マップデータと、その他複数の学習用動画像コンテンツに関する注視点マップデータとの類似度を計算し、計算された前記類似度に基づき一又は複数の前記学習用動画像コンテンツに関する注視点マップデータを選択し、選択された注視点マップデータに関連付けられた画像解析用パラメータを選択する。次に、パラメータ決定部は、評価用パラメータを求めるための1つの学習用動画像コンテンツに関する注視点マップデータと、前記選択した一又は複数の画像解析用パラメータを基に画像解析部によって計算される顕著性マップデータとに基づいて比較処理部で計算される一致度のうち、最も高い一致度を示す画像解析用パラメータを評価用パラメータとして決定する。さらに、パラメータ決定部は、その他の学習用動画像コンテンツについても同様に評価用パラメータを決定する。
つまり、パラメータ決定部は、評価用パラメータを求めるための学習用動画像コンテンツの注視点マップデータとその他の学習用動画像コンテンツの注視点マップデータとの類似度に基づいて一又は複数の学習用動画像コンテンツの注視点マップデータに絞り込み、この絞り込まれた注視点マップデータのうちこれらに対応する学習用動画像コンテンツの顕著性マップデータとの一致度の最も高い注視点マップデータに対応する画像解析用パラメータに基づいて評価用パラメータを決定する。
類似画像コンテンツ決定部は、例えば、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータを生成するための評価用パラメータを用いて、所定の視覚属性に関する特徴マップから得られた顕著性マップデータの類似性を判定することによって、評価対象動画像コンテンツに類似する学習用動画像コンテンツを決定する。または、動画像コンテンツの特徴に基づくクラスタリング処理を行って、その結果により動画像コンテンツ間の類似性を判定するようにしてもよい。
[1] In order to solve the above-described problem, a moving image content evaluation apparatus according to an aspect of the present invention provides an image relating to visual attributes for moving image contents of a plurality of learning moving image contents and evaluation target moving image content. An image analysis unit that performs video analysis based on analysis parameters and generates saliency map data indicating saliency distribution corresponding to pixels included in the moving image content; and visual acuity distribution related to the learning moving image content A comparison processing unit that calculates a degree of coincidence that is an index of similarity between the gazing point map data and the saliency map data based on the gazing point map data and the saliency map data; and the image analysis unit The ratio of the learning video content based on a result of video analysis based on different image analysis parameters for each of the learning moving image contents. Processor selects based on the Evaluation Technical parameters for image analysis degree of coincidence between said gazing point map data calculated the saliency map data, as an initial value of the evaluation parameter of the parameter for image analysis said selected A parameter determining unit that determines a final evaluation parameter by a steepest gradient method using an initial value of the evaluation parameter, and determines the final evaluation parameter as an optimal image analysis parameter; and the evaluation target moving image a similar image content determination unit that determines a moving image content for similar learning is a moving image content for learning that is similar to the content, the parameters determined with respect to the similar learning moving image contents determined by the similar image content determination unit the image analysis unit is the evaluation pair based on the optimal image analysis parameter section decides A gazing point map estimation unit that outputs the saliency map data generated by performing video analysis of moving image content as gazing point map data estimated as the visual acuity distribution of the evaluation target moving image content; It is characterized by.
In the above configuration, the visual acuity distribution represents the distribution of the visual acuity of the person at the gaze point and its surroundings. At this time, the visual acuity at the peripheral portion thereof gradually decreases with respect to the visual acuity at the gazing point according to the distance from the gazing point. Moreover, based on the result of measuring the gazing point for a plurality of subjects, a superimposition of the visual acuity distributions of the plurality of subjects may be used as the above visual acuity distribution. This visual acuity distribution represents the degree of human gaze, and can be said to be a visual acuity distribution.
The saliency distribution is, in other words, an attractive distribution. Attraction is the degree of ease of visual attention.
The visual attributes may be one type or a plurality of types. The image analysis parameter represents weighting for each visual attribute, for example.
In addition, the parameter determination unit calculates and calculates the similarity between the gazing point map data related to one learning moving image content for obtaining the evaluation parameter and the gazing point map data related to a plurality of other learning moving image contents. Based on the similarity, the gaze point map data related to one or a plurality of learning moving image contents is selected, and the image analysis parameter associated with the selected gaze point map data is selected. Next, the parameter determination unit is calculated by the image analysis unit based on the gazing point map data relating to one learning moving image content for obtaining the evaluation parameter and the selected one or more image analysis parameters. Of the matching degrees calculated by the comparison processing unit based on the saliency map data, an image analysis parameter indicating the highest matching degree is determined as an evaluation parameter. Further, the parameter determination unit similarly determines the evaluation parameters for other learning moving image contents.
In other words, the parameter determination unit determines one or a plurality of learning based on the similarity between the gazing point map data of the learning moving image content and the gazing point map data of other learning moving image content for obtaining the evaluation parameter. An image corresponding to the gazing point map data having the highest degree of coincidence with the saliency map data of the learning moving image content corresponding to the narrowed gazing point map data, narrowed down to the gazing point map data of the moving image content An evaluation parameter is determined based on the analysis parameter.
The similar image content determination unit uses, for example, a feature map relating to a predetermined visual attribute using an evaluation parameter for generating common saliency map data for the evaluation target moving image content and the learning moving image content. By determining the similarity of the obtained saliency map data, a learning moving image content similar to the evaluation target moving image content is determined. Alternatively, clustering processing based on the characteristics of moving image content may be performed, and similarity between moving image contents may be determined based on the result.
[2]また、本発明の一態様による動画像コンテンツ評価装置は、前記複数の学習用動画像コンテンツに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する注視点データ解析部をさらに備え、前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出することを特徴とする。 [2] Furthermore, the moving image content evaluation apparatus according to an aspect of the present invention is based on gazing point data including coordinate values of a gazing point, which is a result of measuring the line of sight with respect to the plurality of learning moving image contents. A gazing point data analysis unit that generates gazing point map data indicating visual acuity distribution corresponding to pixels included in the learning moving image content is further provided, and the comparison processing unit relates to each of the plurality of learning moving image contents. Based on the saliency map data and the gazing point map data generated by the gazing point data analysis unit, a degree of coincidence that is an index of similarity between the gazing point map data and the saliency map data is calculated. It is characterized by that.
[3]また、本発明のコンピュータプログラムは、コンピュータを、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき画像解析用パラメータを選択し、前記選択された画像解析用パラメータを評価用パラメータの初期値として決定し、前記評価用パラメータの初期値を用いて最急勾配法によって最終評価用パラメータを求め、前記最終評価用パラメータを最適な画像解析用パラメータとして決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して前記パラメータ決定部が決定した前記最適な画像解析用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、として機能させる。 [3] Further, the computer program of the present invention causes the computer to perform video analysis based on image analysis parameters related to visual attributes for each of the plurality of moving image contents for learning and the moving image content to be evaluated. And an image analysis unit that generates saliency map data indicating saliency distribution corresponding to pixels included in the moving image content, gazing point map data indicating visual acuity distribution related to the learning moving image content, and the saliency map Each of the learning moving image content in the image analysis unit and a comparison processing unit that calculates a degree of coincidence that is an index of similarity between the gazing point map data and the saliency map data. Calculated by the comparison processing unit based on the results of video analysis based on different image analysis parameters Serial select based-out parameters for image analysis degree of coincidence between the gazing point map data wherein the saliency map data, to determine the parameters for the selected image analysis as the initial value of the evaluation parameter, the evaluation A parameter determination unit that obtains a final evaluation parameter by the steepest gradient method using an initial value of a parameter for determination, and determines the final evaluation parameter as an optimal image analysis parameter; and learning similar to the evaluation target moving image content a similar image content determination unit that determines a moving image content for similar learning a use moving image content, wherein the parameter determining unit to said similar learning moving image content as determined by the similar image content determination unit has determined the the evaluation target moving image content is the image analysis unit based on the optimal image analysis parameters The saliency map data generated by performing a video analysis, gazing point map estimation unit for outputting as a gazing point map data that is estimated to the visual acuity distribution of the evaluation target moving image contents, to function as a.
[4]さらに、上記の課題を解決するため、次の態様としてもよい。
複数の学習用動画像コンテンツそれぞれに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、視覚属性に関する複数の画像解析用パラメータを基に映像解析をパラメータ毎に行い、前記学習用動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとの一致度が一番高かったときの画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定し、入力した評価対象動画像コンテンツに一番類似する学習用動画像コンテンツを前記複数の学習用動画像コンテンツから決定し、決定した一番類似する学習用動画像コンテンツの評価用パラメータに基づき、前記評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成し、前記顕著性マップデータを前記評価対象動画像コンテンツの注視点マップデータとして推定して出力することを特徴とする動画像コンテンツ評価方法。
[4] Furthermore, in order to solve the above-described problems, the following mode may be adopted.
Note indicating the visual acuity distribution corresponding to the pixels included in the learning moving image content based on the gazing point data including the coordinate value of the gazing point as a result of measuring the line of sight for each of the plurality of learning moving image contents. Pixels included in the learning moving image content by generating viewpoint map data, performing video analysis for each of the plurality of learning moving image contents for each parameter based on a plurality of image analysis parameters related to visual attributes And generating saliency map data indicating a saliency distribution corresponding to each of the plurality of learning moving image contents based on the gazing point map data and the saliency map data. And a degree of coincidence that is an index of similarity between the saliency map data and each of the plurality of learning moving image contents Then, the image analysis parameter when the degree of coincidence between the gazing point map data and the saliency map data is the highest is determined as the evaluation parameter of the learning moving image content, and the input evaluation target moving image The learning moving image content most similar to the content is determined from the plurality of learning moving image contents, and the video of the evaluation target moving image content is determined based on the evaluation parameters of the determined most similar learning moving image content A moving image content evaluation method comprising: generating saliency map data by performing analysis, estimating and outputting the saliency map data as gazing point map data of the evaluation target moving image content.
本発明によれば、画像コンテンツを容易に且つ客観的に評価するために、学習用動画像コンテンツの視線計測実験によって得られた注視点の分布と、学習用動画像コンテンツに対する映像解析処理に基づく顕著性の分布との類似性を利用して、画像解析用パラメータを取得することができる。そして、評価対象動画像コンテンツに類似する学習用動画像の画像解析用パラメータを、評価対象動画像コンテンツに対する顕著性マップ生成用の画像解析用パラメータとして利用することにより、視線計測実験を実施していない評価対象動画像コンテンツであっても、視聴者の注視点の分布と推定することができる。 According to the present invention, in order to easily and objectively evaluate image content, it is based on the distribution of the gazing point obtained by the gaze measurement experiment of the learning moving image content and the video analysis processing on the learning moving image content. Image analysis parameters can be acquired using similarity to the saliency distribution. Then, a line-of-sight measurement experiment is performed by using the image analysis parameters of the learning moving image similar to the evaluation target moving image content as the image analysis parameters for generating the saliency map for the evaluation target moving image content. Even if there is no evaluation target moving image content, it can be estimated as the distribution of the viewer's gaze point.
以下、図面を参照しながら、本発明の実施形態について説明する。
図1は、本発明の一実施形態による画像コンテンツ評価装置の機能構成を示すブロック図である。同図において、画像コンテンツ評価装置1は、データ格納部11と、注視点データ解析部12と、画像解析部13と、比較処理部14と、パラメータ決定部15と、画像入力部21と、類似画像コンテンツ決定部22と、注視点マップ推定部23とを含んで構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of an image content evaluation apparatus according to an embodiment of the present invention. In the figure, the image
図2は、データ格納部11に格納されるデータの構成例を示す概略図である。データ格納部11は、半導体メモリや磁気ハードディスクなどを用いて実現される。同図(a)に示すように、データ格納部11は、被験者に観測させたり画像解析処理を行ったりするための画像コンテンツを格納する。この画像コンテンツは、フレーム画像単位で制御することのできるデータであり、フレーム画像ごとのタイムコードを含んだものである。本実施形態で用いる画像コンテンツの内容は、トップダウン要因の影響をできるだけ低減させたもの、あるいは排除したものである。 FIG. 2 is a schematic diagram illustrating a configuration example of data stored in the data storage unit 11. The data storage unit 11 is realized using a semiconductor memory, a magnetic hard disk, or the like. As shown in FIG. 5A, the data storage unit 11 stores image content for allowing a subject to observe or perform image analysis processing. This image content is data that can be controlled in units of frame images, and includes a time code for each frame image. The contents of the image content used in the present embodiment are those in which the influence of the top-down factor is reduced as much as possible or eliminated.
例えば、公知文献(Ran Carmi and Laurrent Itti, "Causal Saliency Effects During Natural Vision”, Proc. of Symposium on Eye Tracking Research & Applications, pp. 11-18, March, 2006.)に記載されているように、被験者にとって画像コンテンツの内容に認知的な意味を含まない動画像や未知の動画像を画像コンテンツとして用いる。または、一般的な動画像であっても、再生時間が数秒程度である動画像を用いることによって、トップダウン要因の影響を低減もしくは排除できると考えられるため、例えば、5秒間の音声を含まない動画像を画像コンテンツとして用いる。これにより、被験者に考える余裕を与えず、トップダウン要因によらずに画像の物理的特徴のみから誘導される視線の動きを捉えることができる。 For example, as described in known literature (Ran Carmi and Laurrent Itti, “Causal Saliency Effects During Natural Vision”, Proc. Of Symposium on Eye Tracking Research & Applications, pp. 11-18, March, 2006.) A moving image or an unknown moving image that does not include a cognitive meaning in the content of the image content for the subject is used as the image content. Or even if it is a general moving image, it is considered that the influence of the top-down factor can be reduced or eliminated by using a moving image having a playback time of about several seconds. A moving image is used as image content. Thereby, it is possible to capture the movement of the line of sight induced only from the physical characteristics of the image without giving a margin to the subject to consider and without depending on the top-down factor.
なお、画像コンテンツは、複数のフレーム画像を含む動画像コンテンツであってもよいし、単一のフレーム画像である静止画像コンテンツであってもよい。本実施形態においては、画像コンテンツとして動画像コンテンツ(評価対象動画像コンテンツ、学習用動画像コンテンツ)を用いた例について説明する。 The image content may be moving image content including a plurality of frame images, or may be still image content that is a single frame image. In the present embodiment, an example in which moving image content (evaluation target moving image content, learning moving image content) is used as the image content will be described.
また、データ格納部11は、上記の画像コンテンツのフレーム画像(#1〜#N)に対応させて、注視点データと、注視点マップデータと、特徴マップデータと、顕著性マップデータと、一致度とを格納する。 Further, the data storage unit 11 matches the gazing point data, the gazing point map data, the feature map data, and the saliency map data in correspondence with the frame images (# 1 to #N) of the image content. Store the degree.
注視点データは、一人または複数の被験者の視線を測定して得られた注視点の座標値を含むデータである。注視点マップデータは、注視点データをもとに、注視点の周辺視野を考慮して計算された注視点の分布を示すデータである。特徴マップデータは、フレーム画像の視覚属性ごとに求められた特徴量の分布を示すデータである。顕著性マップデータは、特徴マップデータの重み付け線形和が計算されて得られた顕著性(画像に対する注意の向けられやすさ)の分布、すなわち誘目性分布を示すデータである。一致度は、注視点マップデータと顕著性マップデータとの類似性の指標である一致度合いを示すデータである。ここに示した各マップデータは、水平方向画素数W×垂直方向画素数Hのフレーム画像の画素に相当する行列のデータであり、この行列の各要素はスカラ値である。 The gazing point data is data including coordinate values of the gazing point obtained by measuring the line of sight of one or a plurality of subjects. The gazing point map data is data indicating a distribution of gazing points calculated in consideration of the peripheral visual field of the gazing point based on the gazing point data. The feature map data is data indicating the distribution of feature amounts obtained for each visual attribute of the frame image. The saliency map data is data indicating a distribution of saliency (ease of attention to an image) obtained by calculating a weighted linear sum of feature map data, that is, an attractiveness distribution. The degree of coincidence is data indicating the degree of coincidence, which is an index of similarity between the gazing point map data and the saliency map data. Each map data shown here is data of a matrix corresponding to a pixel of a frame image having the number of horizontal pixels W × the number of vertical pixels H, and each element of the matrix is a scalar value.
また、図2(b)に示すように、データ格納部11は、画像コンテンツに対応させて評価値と、画像解析用パラメータとを格納する。評価値は、注視点マップデータと顕著性マップデータとの一致度を当該画像コンテンツ全体として評価した値である。画像解析用パラメータ(特に動画像コンテンツの場合の画像解析用パラメータを、映像解析用パラメータと呼ぶ。)は、各特徴マップデータを線形的に総和することによって顕著性マップデータを計算するための設定情報であり、視覚属性ごとの重みデータを含む。 As shown in FIG. 2B, the data storage unit 11 stores an evaluation value and an image analysis parameter in association with the image content. The evaluation value is a value obtained by evaluating the degree of coincidence between the gazing point map data and the saliency map data as the entire image content. Image analysis parameters (especially image analysis parameters in the case of moving image content are called video analysis parameters) are settings for calculating saliency map data by linearly summing each feature map data Information, including weight data for each visual attribute.
図1に戻り、注視点データ解析部12は、データ格納部11に格納された一人または複数の被験者についての注視点データを解析することによって、注視点に関する注視点データ評価指標データを生成する。言い換えれば、注視点データ解析部12は、画像コンテンツに対応して注視点の座標値を含む注視点データに基づき、画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する。
画像解析部13は、フレーム画像の物理的特徴量を用いた画像解析処理によって、顕著性に関する評価指標データである顕著性評価指標データを生成する。言い換えれば、画像解析部13は、画像コンテンツを基に、画素に対応した視覚属性ごとの特徴量データを算出するとともに、特徴量データと視覚属性ごとに定められる重みデータとに基づいて画素に対応した顕著性の分布を示す顕著性マップデータを生成する。
Returning to FIG. 1, the gazing point
The
比較処理部14は、それぞれ生成された注視点データ評価指標データと顕著性評価指標データとを比較し、注視点の分布と顕著性の分布との一致度を計算する。言い換えれば、比較処理部14は、前記画像コンテンツに関する前記注視点マップデータと前記顕著性マップデータとに基づき、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する。
パラメータ決定部15は、上記の一致度に基づいて、画像解析部13において顕著性マップデータを計算するために用いられる評価用パラメータを決定する。
The
The
画像入力部21は、評価すべき評価対象動画像コンテンツが外部から供給されると、その評価対象動画像コンテンツを画像コンテンツ評価装置1に入力してデータ格納部11に格納する。
類似画像コンテンツ決定部22は、複数の学習用動画像コンテンツの中から、評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する。
注視点マップ推定部23は、類似学習用動画像コンテンツにおける評価用パラメータを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して画像解析部13が生成した顕著性マップデータを、推定注視点マップデータとして出力する。
When the evaluation target moving image content to be evaluated is supplied from the outside, the
The similar image
The gazing point map estimation unit 23 uses the evaluation parameter in the similar learning moving image content as an evaluation parameter for calculating the saliency map data for the evaluation target moving image content, and the saliency map generated by the
次に、データ格納部11に予め格納される注視点データの生成の手段および生成の方法について説明する。注視点データは、画像コンテンツ評価装置1とは別の装置である注視点データ生成装置が一人または複数の被験者を対象として視線計測を行うことにより生成される。この注視点データ生成処理は、画像コンテンツ評価処理の前処理として位置づけられるものである。
Next, means for generating gaze point data stored in advance in the data storage unit 11 and a generation method will be described. The gazing point data is generated when the gazing point data generation device, which is a device different from the image
図3は、注視点データ生成装置の機能構成を示すブロック図である。同図において、注視点データ生成装置3は、画像再生部31と、画像表示部32と、注視点データ計測部33と、注視点データ記録部34と、格納部35とを含んで構成される。画像再生部31は、被験者に観察させるための画像コンテンツを格納部35から読み出して再生する。画像表示部32は、再生された画像コンテンツを画面に表示する。注視点データ計測部33は、画像表示部32に表示された動画像を観察する被験者の眼球の動きを測定し、画面上の位置である注視点の座標値を計測する。注視点データ記録部34は、画像コンテンツの再生に同期させて、注視点の座標値を格納部35に記録する。
FIG. 3 is a block diagram illustrating a functional configuration of the gazing point data generation device. In the figure, the gazing point
次に、注視点データ生成装置3の、より具体的な構成およびその動作について説明する。注視点データ計測部33は、被験者の眼球の動きを測定するための注視点測定器33aを備えている。この注視点測定器33aは従来技術によるものでよく、例えば、被験者の顔に視覚センサを装着させて注視点を検出するタイプや、コンタクトレンズやゴーグルを装着させて視線を測定するタイプなどを用いることができる。
Next, a more specific configuration and operation of the gazing point
本実施形態の注視点測定器33aは、撮像した画像を基に眼球の動きをリモートセンシングして注視点を検出する瞳孔角膜反射法による測定法を用いている。この注視点測定器33aは、画像表示部32の表示面から一定距離をおいた位置から画面を観察する被験者の眼球部分を近赤外線光で照射し、目の表面での角膜反射像をカメラで撮像する測定を行う。そして、撮像画像から瞳孔の中心点と角膜反射点とを検出して、幾何学的に視線の向きと画面上の注視点の座標値とを計算する。
The gaze
このリモートセンシングによる測定の分解能は、0.5度から1度の範囲程度である。これは、1ラインあたりの有効画素数が1920画素であるHDTV(High Definition Television)画像を例にとると、画面の水平方向の視野角を30度とした場合に、32画素から64画素程度の分解能に相当する。注視点データ記録部34は、注視点データ計測部33で計測された注視点の座標値を、画像再生部31による画像コンテンツの再生に同期させて注視点データとして格納部35に記録する。つまり、画像コンテンツに含まれる各フレーム画像が注視点データに対応づけられる。
The resolution of measurement by this remote sensing is about 0.5 to 1 degree. Taking an HDTV (High Definition Television) image with an effective pixel count of 1,920 pixels per line as an example, when the viewing angle in the horizontal direction of the screen is 30 degrees, it is about 32 to 64 pixels. Corresponds to resolution. The gazing point
図4は、注視点データのデータ構成を示す概略図である。同図に示すように、注視点データは、画像コンテンツのフレーム画像のフレーム番号と、そのフレームのタイムコードと、被験者ごとの注視点の座標値とを含む。タイムコードは、画像コンテンツの最初のフレーム画像からカウントした時間情報であり、「時:分:秒.フレーム数」で表される。フレーム番号は、画像コンテンツの最初のフレーム画像を1としてタイムコードの時系列順に1ずつ増加させた番号である。注視点の座標値は、画像表示部32に表示されるフレーム画像の表示領域の左上端の座標を原点として、水平方向画素数W×垂直方向画素数Hのフレーム画像上の2次元座標系で表される。例えば、タイムコードが「0:00:05.00」のとき、被験者1の注視点の座標値は(175,122)、被験者2のそれは(168,145)、・・・、そして被験者Mのそれは(166,260)である。
FIG. 4 is a schematic diagram showing the data structure of the gazing point data. As shown in the figure, the gazing point data includes the frame number of the frame image of the image content, the time code of the frame, and the coordinate value of the gazing point for each subject. The time code is time information counted from the first frame image of the image content, and is represented by “hour: minute: second.number of frames”. The frame number is a number that is incremented by 1 in the time code chronological order, with the first frame image of the image content being 1. The coordinate value of the gazing point is a two-dimensional coordinate system on a frame image of horizontal pixel count W × vertical pixel count H with the coordinate at the upper left corner of the display area of the frame image displayed on the
上記の注視点データ生成処理によって格納部35に格納された注視点データを、画像コンテンツ評価装置1がデータ格納部11に取り込んで使用する。以上が、前処理である注視点データ生成処理についての説明である。
The image
次に、画像コンテンツ評価装置1による画像コンテンツ評価処理を、注視点データ解析処理、画像解析処理、比較処理、およびパラメータ決定処理に分けて動作を説明する。
<注視点データ解析処理>
図5は、注視点データ解析部12が画像コンテンツについての注視点データからフレーム画像ごとの注視点マップデータを生成する手順を示すフローチャートである。ステップS51において、注視点データ解析部12は、データ格納部11に格納された注視点データをフレーム画像単位で参照する。ステップS52において、参照される注視点データがない場合(ステップS52:NO)は、このフローチャートの処理を終了する。一方、注視点データがある場合(ステップS52:YES)はステップS53の処理に進む。そして、ステップS53において、注視点データ解析部12は、参照された1フレーム画像分の全被験者の注視点データを読み込む。
Next, the operation will be described by dividing the image content evaluation process by the image
<Gaze point data analysis processing>
FIG. 5 is a flowchart illustrating a procedure in which the gazing point
次に、ステップS54において、注視点データ解析部12は、周辺視野を考慮した注視点マップデータを生成する。ここで、注視点マップデータの生成処理について詳細に説明する。眼球運動に関する視覚科学の分野の知見によれば、視線と周辺視野との関係について式(1)の関係式が成立する。ここで、Eは視線方向に対する偏心度、Vfは視線方向における視力、Esは所定の定数、Vは周辺視力値である。
Next, in step S54, the gazing point
図6は、被験者が表示画面を観察することによって視線を向けた様子と、表示画面上の注視点の座標とを模式的に表した図である。同図(a)は、表示画面61と直交し且つこの画面の中心点を貫く軸の延長上であって、表示画面61から距離Lだけ離れた位置から、被験者が表示画面61上の動画像を観察している様子を示している。あるタイムコードが示す時刻での注視点の座標値が(GX,GY)のとき、被験者の視線は点P(GX,GY)に向けられていることを表す。ここで、被験者の視線に対して偏心度Eの角度となる表示画面61上の座標(X,Y)における視野に注目する。ここで、点Pの周辺視野における視力分布は正円状であると近似することができるため、同図(b)に示すように注視点の座標(GX,GY)を中心とした半径Rの円周上において視力は一定となる。なお、同図において、座標値XおよびYは、それぞれ、1≦X≦W、1≦Y≦Hの範囲内の整数値をとる。ただし、WおよびHは、それぞれ、フレーム画像の水平方向画素数および垂直方向画素数である。
FIG. 6 is a diagram schematically illustrating a state in which a subject turns his / her line of sight by observing the display screen and coordinates of a gazing point on the display screen. FIG. 6A shows a moving image on the
このとき、座標(X,Y)における周辺視力値V[X,Y]は式(1)を変形した式(2)で表される。 At this time, the peripheral visual acuity value V [X, Y] at the coordinates (X, Y) is expressed by Expression (2) obtained by modifying Expression (1).
なお、ここで、atanは逆正接関数である。また、画面上の任意の画素に対する視線の方向は画面に対してほぼ垂直であるため、偏心度E[X,Y]を算出するためには逆正接関数を用いた近似を行うことができる。視線方向における視力Vfは、被験者ごとに設定してもよいし、共通の設定としてもよい。 Here, atan is an arctangent function. In addition, since the direction of the line of sight with respect to an arbitrary pixel on the screen is substantially perpendicular to the screen, approximation using an arctangent function can be performed to calculate the eccentricity E [X, Y]. The visual acuity Vf in the line-of-sight direction may be set for each subject or may be a common setting.
図7は、注視点データ解析部12が式(2)の計算によって求めた、視線方向に対する偏心度E[X,Y]における周辺視力値V[X,Y]を示す3次元グラフである。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。
FIG. 7 is a three-dimensional graph showing the peripheral visual acuity value V [X, Y] in the degree of eccentricity E [X, Y] with respect to the line-of-sight direction, which is obtained by the gaze point
式(2)の計算により求められる周辺視力値V[X,Y]は、水平方向画素数W×垂直方向画素数Hの要素数の行列データとして表され、被験者の注視点データに基づく視力分布を表す。これを注視点マップデータと呼ぶ。すなわち、フレーム番号fにおける被験者sの注視点マップデータGMs(f)は、式(3)のように表される。 The peripheral visual acuity value V [X, Y] obtained by the calculation of Expression (2) is expressed as matrix data of the number of elements of horizontal pixel count W × vertical pixel count H, and visual acuity distribution based on subject's gaze data Represents. This is called gaze point map data. That is, the gazing point map data GMs (f) of the subject s in the frame number f is expressed as in Expression (3).
図5に戻り、ステップS54の処理において、注視点データ解析部12は、参照されたフレーム画像についての被験者全員分の注視点マップデータを線形和し、この線形和された注視点マップデータを当該フレーム画像における注視点データ評価指標データとする。すなわち、フレーム番号fのフレーム画像における注視点マップデータGM(f)を、式(4)の計算によって求める。
Returning to FIG. 5, in the process of step S <b> 54, the gazing point
なお、定数csは、被験者ごとに異なる値としてもよいし一定値(例えば、全ての被験者についてCS=1.0)としてもよい。 The constant cs may be a different value for each subject or may be a constant value (for example, CS = 1.0 for all subjects).
図8は、注視点データ解析部12が式(4)の計算によって求めた、注視点マップデータGM(f)の3次元グラフである。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。
FIG. 8 is a three-dimensional graph of the gazing point map data GM (f) obtained by the gazing point
再び、図5に戻り、次に、ステップS55において、注視点データ解析部12は、参照されたフレーム画像における注視点マップデータGM(f)をデータ格納部11に記録する。そして、ステップS51の処理に戻る。
Returning to FIG. 5 again, in step S55, the gazing point
上述したように、注視点データ解析部12は、周辺視野の視力分布を考慮して注視点データ評価指標データを計算することにより、計測された注視点から人間の眼球運動の特性を適応させた評価指標データを作成することができる。これは、すなわち被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。
As described above, the gazing point
なお、注視点データ解析部12は、既存技術によるクラスタリング方法を用いることによって複数の被験者についての注視点の分布をクラスタリングしたうえで、クラスタごとの分布を全て足し合わせて、混合正規分布となる注視点マップデータを求めるようにしてもよい。
Note that the gazing point
<画像解析処理>
顕著性マップデータの生成に際して用いられる視覚属性として、画像解析部13は、例えば、前述したように色(color)、明度(intensity)、方位(orientation)、コントラスト(contrast)、点滅(flicker)、および運動(motion)の6つの属性を用いる。色属性は、画素の色の値を色の属性値としたものである。明度属性は、画素の輝度値を明度の属性値としたものである。方位属性は、例えば、水平方向を基準方位とした場合の0度,45度,90度,135度の4つの方位それぞれの線成分の強さを画素ごとに合計して方位の属性値としたものである。なお、所定方位の線成分の強さは、例えば、その方位の方向の画像微分値と、それに直交する方向の画像微分値との比に基づいて算出する。コントラスト属性は、当該画素を含む領域の画素値とその他の領域の画素値との比により算出されるコントラスト値をコントラストの属性値としたものである。点滅属性は、当該画素を含む領域の時間方向における画素値の変化が所定の周波数成分を有する場合に、その周波数自体およびその周波数成分の振幅に基づいて算出される属性値である。また、運動属性は、フレーム画像内における所定のパターンが、時間の経過につれて所定方向に移動する場合の、そのパターンの大きさとその移動速度とを加味した属性値とするものである。顕著性マップデータの生成に際しては1種類以上の視覚属性に対応する属性値を用いるようにすれば良いが、本実施形態では、上記6種類の属性値を視覚属性に対応する物理的特徴量として用いる。
<Image analysis processing>
As the visual attributes used when generating the saliency map data, the
図9は、画像解析部13が画像コンテンツについての顕著性マップデータを生成する手順を示すフローチャートである。ステップS91において、画像解析部13は、顕著性マップデータを生成するための画像解析用パラメータを設定する。この画像解析用パラメータとは、画像コンテンツの画像解析処理における物理的特徴量に対応する6つの重みデータである。
FIG. 9 is a flowchart illustrating a procedure in which the
図10は、画像解析部13が設定する画像解析用パラメータのデータ構成を示したものである。同図に示すように、画像解析用パラメータは、6種類の物理的特徴量にそれぞれ対応する重みデータを有している。wcは色属性に対応する物理的特徴量CCの重みデータ、wiは明度属性に対応する物理的特徴量CIの重みデータ、woは方位属性に対する物理的特徴量COの重みデータ、wrはコントラスト属性に対応する物理的特徴量CRの重みデータ、wjは点滅属性に対応する物理的特徴量CJの重みデータ、wmは運動属性に対応する物理的特徴量CMの重みデータである。
FIG. 10 shows the data structure of the image analysis parameters set by the
図9に戻り、次に、ステップS92において、画像解析部13は、データ格納部11に格納された画像コンテンツをフレーム画像単位で参照する。ステップS93において、参照されるフレーム画像がない場合(ステップS93:NO)は、このフローチャートの処理を終了する。一方、フレーム画像が参照された場合(ステップS93:YES)はステップS94の処理に進む。ステップS94において、画像解析部13は、参照されたフレーム画像を読み込む。
Returning to FIG. 9, next, in step S92, the
次に、ステップS95において、画像解析部13は、顕著性マップデータを生成する。画像解析部13は、ステップS91の処理において設定された画像解析用パラメータに基づいて、全ての視覚属性に対応した特徴量に基づき推定した顕著性の分布データを生成する。具体的には、画像解析部13は、読み込んだフレーム画像に対して、6つの視覚属性に関する画像解析処理を行って視覚属性ごとの特徴マップを生成する。そして、画像解析部13は、これら特徴マップの重み付け線形和を計算して顕著性評価指標データである顕著性マップデータを生成する。画像解析部13は、水平方向画素数W×垂直方向画素数Hの画素数のフレーム画像の画素(i,j)に対応する特徴量の重み付け線形和F[i,j]を、下の式(5)を用いて計算する。
Next, in step S95, the
そして、フレーム画像全体についての顕著性マップデータSM(f)は、式(6)のように表される。 Then, the saliency map data SM (f) for the entire frame image is expressed as in Expression (6).
図11は、参照されたフレーム画像について生成された顕著性マップの3次元グラフの例である。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。 FIG. 11 is an example of a three-dimensional graph of the saliency map generated for the referenced frame image. The figure shows an example of a frame image having a horizontal pixel count W = 320 pixels and a vertical pixel count H = 240 pixels.
図9に戻り、次に、ステップS96において、画像解析部13は、参照されたフレーム画像における顕著性マップデータをデータ格納部11に記録する。そして、ステップS92の処理に戻る。
Returning to FIG. 9, next, in step S <b> 96, the
<比較処理>
トップダウン要因の影響を少なくとも低減させた画像コンテンツを用いて、注視点データ評価指標データと顕著性評価指標データとを作成すると、画像内において注視点の集中する領域と顕著性の高い領域とは、少なくとも部分的に重複するか、あるいは近接する。そこで、比較処理部14は、注視点データ評価指標データの分布と、顕著性評価指標データの分布との分布の類似性の指標である一致度を求める。注視点データ評価指標データである注視点マップデータと顕著性評価指標データである顕著性マップデータとの、各マトリクスの値が類似するほど、上記の一致度を示す値は大きくなる。具体的には、比較処理部14は、式(4)で示した注視点マップデータGM(f)と、式(6)で示した顕著性マップデータSM(f)との両データを比較して一致度を計算する。
<Comparison process>
When gaze point data evaluation index data and saliency evaluation index data are created using image content that has at least reduced the influence of top-down factors, the areas where the gazing point concentrates and the areas with high saliency in the image , At least partially overlap or close. Therefore, the
図12は、比較処理部14が一の画像コンテンツについての注視点マップデータと顕著性マップデータとを比較して一致度を計算する手順を示すフローチャートである。ステップS121において、比較処理部14は、データ格納部11に格納されたある画像コンテンツに含まれる1フレーム画像分の注視点マップデータを参照する。
そして、ステップS121で参照したデータがあったか否かを、次のステップS122において判定する。参照された注視点マップデータがある場合(ステップS122:YES)は次のステップS123の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちその画像コンテンツに含まれる全てのフレーム画像についてのステップS123以下の処理が完了している場合(ステップS122:NO)にはステップS127の処理に進む。
FIG. 12 is a flowchart illustrating a procedure in which the
Then, in the next step S122, it is determined whether or not there is data referred to in step S121. If there is referenced gazing point map data (step S122: YES), the process proceeds to the next step S123. On the other hand, if there is no gazing point map data to be referred to, that is, if the processing from step S123 on all the frame images included in the image content is completed (step S122: NO), the processing in step S127 is performed. move on.
ステップS123において、比較処理部14は、参照されたフレーム画像についての注視点マップデータを読み込む。次に、ステップS124において、比較処理部14は、参照されたフレーム画像についての顕著性マップデータをデータ格納部11から読み込む。次に、ステップS125において、比較処理部14は、それぞれ読み込んだ注視点マップデータおよび顕著性マップデータから一致評価マップデータを計算する。次に、ステップS126において、参照されたフレーム画像における一致度を計算する。そして、ステップS121の処理に戻る。
In step S123, the
上記のステップS125およびS126の一致度計算の処理について、具体的な3つの例をあげて説明する。
第1の方法による処理は、注視点マップデータおよび顕著性マップデータの各要素の差分値を求めて一致評価マップデータとするものである。すなわち、比較処理部14は、注視点マップデータGM(f)および顕著性マップデータSM(f)について、マトリクスの位置(i,j)に対応する要素同士の差分の絶対値である一致評価マップデータDM[i,j]を式(7)により計算する。
The matching degree calculation processing in steps S125 and S126 will be described with three specific examples.
The process by the 1st method calculates | requires the difference value of each element of gaze point map data and saliency map data, and makes it coincidence evaluation map data. That is, the
そして、比較処理部14は、式(7)により算出された一致評価マップデータDM[i,j]と予め決定された閾値とを比較して、この閾値よりも値の小さな差分値DM[i,j]の個数をカウントする。そして、カウント結果である個数を一致度とする。
Then, the
第2の方法による処理は、注視点マップデータおよび顕著性マップデータの類似性を求めるものである。すなわち、比較処理部14は、注視点マップデータGM(f)と顕著性マップデータSM(f)とのそれぞれからヒストグラムを作成し、そのヒストグラムの要素単位で双方の差分の絶対値を計算して合計した値を一致度とする。このヒストグラムは、注視点マップデータGM(f)および顕著性マップデータSM(f)それぞれの要素が0から1までの値をとり得る場合、例えば、各要素を0.1刻みで10等分し、区分ごとのデータの出現数を計ったものである。
The process according to the second method is to obtain the similarity between the gazing point map data and the saliency map data. That is, the
第3の方法による処理は、注視点マップデータおよび顕著性マップデータの要素ごとの積を求めて一致評価マップデータとするものである。すなわち、比較処理部14は、注視点マップデータGM(f)および顕著性マップデータSM(f)について、マトリクスの位置(i,j)に対応する要素同士の積値である一致評価マップデータMM[i,j]を式(8)により計算する。
The process by the 3rd method calculates | requires the product for every element of gaze point map data and saliency map data, and makes it coincidence evaluation map data. That is, the
そして、比較処理部14は、式(8)により算出された一致評価マップデータMM[i,j]と予め決定された閾値とを比較して、この閾値よりも値の大きな積値MM[i,j]の個数をカウントする。そして、カウント結果である個数を一致度とする。
Then, the
そして、比較処理部14は、ステップS121からS126までの処理を繰り返して、対象の画像コンテンツを構成する全てのフレーム画像についての一致度を計算したのち、ステップS127の処理に進む。ステップS127においては、比較処理部14は、各フレーム画像の一致度に基づいて画像コンテンツ全体の一致度である評価値を計算する。
Then, the
この評価値の計算方法は次のとおりである。例えば、1つの画像コンテンツを構成する全てのフレーム画像についての一致度の平均値を求めてそれを評価値とする。または、全てのフレーム画像の一致度の時間変化に対する積分値を求めて評価値とする。 The evaluation value is calculated as follows. For example, an average value of coincidences for all the frame images constituting one image content is obtained and used as an evaluation value. Alternatively, an integral value with respect to a temporal change in the degree of coincidence of all frame images is obtained and used as an evaluation value.
次に、ステップS128において、比較処理部14は、計算された評価値をデータ格納部11に記録する。
Next, in step S128, the
前述の注視点データ生成処理では、画像コンテンツの再生に同期させて注視点データを計測し、フレーム画像の再生時刻と同時刻に得られた注視点データを記録するようにしている。しかし、人間の目は、生理反応として、ある画像が視野に入ったときから短時間のタイムラグの後に視線を動かすという特性を有している。この特性を考慮し、あるフレーム画像の再生時刻から、そのフレーム画像に対応する注視点データの算出時刻をタイムラグに相当する時間分だけ遅くするようにしてもよい。 In the above-described gazing point data generation process, the gazing point data is measured in synchronization with the reproduction of the image content, and the gazing point data obtained at the same time as the frame image reproduction time is recorded. However, the human eye has a characteristic of moving the line of sight after a short time lag from when an image enters the field of view as a physiological response. In consideration of this characteristic, the calculation time of the gazing point data corresponding to the frame image may be delayed from the reproduction time of the frame image by a time corresponding to the time lag.
つまり、予めこのタイムラグに相当するフレーム数の値を記憶しておき、比較処理では、注視点マップデータと顕著性マップデータとを比較して一致度を計算する際に、顕著性マップデータの生成時刻よりも、当該フレーム数分遅れた注視点マップデータを用いて一致度を算出するようにしてもよい。 That is, the value of the number of frames corresponding to this time lag is stored in advance, and the comparison process generates saliency map data when calculating the degree of coincidence by comparing the gazing point map data with the saliency map data. The degree of coincidence may be calculated using gaze point map data delayed by the number of frames from the time.
なお、顕著性マップの生成時刻に対応する比較対象の注視点マップデータの収集時刻の遅延時間Tdを次のようにして求めることができる。あるタイムコードのフレーム画像とその前後のフレーム画像を解析することによって、フレーム画像内の同一位置の部分領域における物理的特徴の変化が所定の閾値よりも大きい箇所を検出する。このようにして検出されたフレーム画像のタイムコードをT1としたとき、被験者の視線の動きを解析し、タイムコードT1から時間Tbが経過した後の時点においてサッカードを検知すると、そのサッカード後の注視点とそのときのタイムコードT2=T1+Tbを記録する。この場合に、時間Tbを遅延時間Tdとみなすことができる。なお、サッカードとは、視線を移すときに生じる急速な眼球運動のことであり、跳躍性眼球運動ともいう。 Note that the delay time Td of the collection time of the gazing point map data to be compared corresponding to the generation time of the saliency map can be obtained as follows. By analyzing a frame image of a certain time code and the frame images before and after the frame image, a location where a change in physical characteristics in a partial region at the same position in the frame image is larger than a predetermined threshold is detected. When the time code of the frame image thus detected is T1, the movement of the subject's line of sight is analyzed, and if a saccade is detected at a time point after the time Tb has elapsed from the time code T1, And the time code T2 = T1 + Tb at that time are recorded. In this case, the time Tb can be regarded as the delay time Td. The saccade is a rapid eye movement that occurs when the line of sight is shifted, and is also called a jumping eye movement.
<パラメータ決定処理>
画像コンテンツの顕著性マップデータを生成するために用いられる画像解析用パラメータについて、重みデータの組み合わせを最適化するには、例えば最急勾配法などを用いて様々な画像解析用パラメータを用いた計算を行うことにより最適解を探索する方法をとることができる。しかし、単純にこのような方法を用いるだけでは、膨大な計算量と時間がかかることになる。そこで、本実施形態では、パラメータ決定部15が、予め一致度の計算されている学習用動画像コンテンツの注視点マップデータおよび画像解析用パラメータを用いて、評価用パラメータの決定対象である学習用動画像コンテンツ(評価用パラメータ決定対象学習用動画像コンテンツ)の顕著性マップデータを生成するための、最適な画像解析用パラメータを評価用パラメータとして決定する処理を実行する。
<Parameter determination process>
To optimize the combination of weight data for image analysis parameters used to generate image content saliency map data, for example, calculation using various image analysis parameters using the steepest gradient method Can be used to search for an optimal solution. However, simply using such a method requires a huge amount of calculation and time. Therefore, in the present embodiment, the
データ格納部11は、内部に学習用画像データベース(不図示)を備えている。この学習用画像データベースは、1つまたは複数の学習用動画像コンテンツを格納し、さらにこれら学習用動画像コンテンツそれぞれの注視点マップデータおよび顕著性マップデータと、これら注視点マップデータと顕著性マップデータとの間の一致度のデータと、その顕著性マップデータを算出する際に用いた画像解析用パラメータとを格納している。学習用動画像コンテンツが複数ある場合は、学習用動画像コンテンツごとに画像解析用パラメータの重みデータが異なるようにする。なお、ここで、学習用画像データベースが、上記のデータ項目のうち、学習用動画像コンテンツに対応する顕著性マップデータを保持しない形態でもよい。また、逆に、学習用画像データベースが、上記のデータ項目のうちの一致度のデータを保持しない形態でもよい。このとき、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとから一致度を算出することができ、実質的に、注視点マップデータと顕著性マップデータとのペアは一致度をも表しているデータである。 The data storage unit 11 includes a learning image database (not shown) inside. The learning image database stores one or a plurality of learning moving image contents, and further includes gazing point map data and saliency map data of each of these learning moving image contents, and these gazing point map data and saliency map. Data of the degree of coincidence with the data and image analysis parameters used when calculating the saliency map data are stored. When there are a plurality of learning moving image contents, the weight data of the image analysis parameters is made different for each learning moving image content. Here, the learning image database may not have saliency map data corresponding to the learning moving image content among the data items. Conversely, the learning image database may not hold data on the degree of coincidence among the above data items. At this time, the degree of coincidence can be calculated from the gazing point map data and the saliency map data of the moving image content for learning, and the pair of the gazing point map data and the saliency map data substantially has the degree of coincidence. It is data that represents.
学習用動画像コンテンツごとの画像解析用パラメータは、6つの重みデータ全てを同一値に設定して重み付けを平等(例えば、wc=wi=wo=wr=wj=wm=1.0)にしておくか、または、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとの一致度が予め決定された基準値よりも高い値となるように調整された重みデータにしておく。 As the image analysis parameters for each learning moving image content, all six weight data are set to the same value, and the weights are set to be equal (for example, wc = wi = wo = wr = wj = wm = 1.0). Alternatively, the weight data is adjusted so that the degree of coincidence between the gazing point map data of the learning moving image content and the saliency map data is higher than a predetermined reference value.
図13は、パラメータ決定部15が、学習用動画像コンテンツに関する注視点マップデータおよび画像解析用パラメータを用いて、学習用画像データベース内の評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを生成するための最適な画像解析用パラメータ(評価用パラメータ)を決定する手順を示すフローチャートである。
FIG. 13 shows the saliency map data of the evaluation parameter determination target learning moving image content in the learning image database in which the
まず、ステップS131において、パラメータ決定部15は、評価用パラメータ決定対象学習用動画像コンテンツについての注視点マップデータをデータ格納部11から読み込む。
次に、ステップS132において、パラメータ決定部15は、データ格納部11に格納された評価用パラメータ決定対象学習用動画像コンテンツを除く、ある学習用動画像コンテンツについての注視点マップデータを参照する。
そして、ステップS132で参照したデータがあったか否かを、次のステップS133において判定する。参照された学習用動画像コンテンツの注視点マップデータがあった場合(ステップS133:YES)は次のステップS134の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちパラメータ決定部15内の学習用動画像コンテンツの全てについてステップS134およびS135の処理が完了している場合(ステップS133:NO)はステップS136に進む。
First, in step S <b> 131, the
Next, in step S <b> 132, the
Then, in the next step S133, it is determined whether or not there is data referred to in step S132. If there is the gazing point map data of the referenced learning video content (step S133: YES), the process proceeds to the next step S134. On the other hand, when there is no gazing point map data to be referred to, that is, when the processing of steps S134 and S135 has been completed for all of the learning moving image contents in the parameter determination unit 15 (step S133: NO), the process proceeds to step S136. move on.
次に、ステップS134において、パラメータ決定部15は、ステップS133の処理において参照した学習用動画像コンテンツの注視点マップデータをデータ格納部11から読み込む。次に、ステップS135において、パラメータ決定部15は、それぞれ読み込んだ評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度を計算してステップS132の処理に戻る。
ステップS135の処理における類似度の計算方法については、前述した比較処理部14が実行する比較処理における、注視点マップデータと顕著性マップデータとを比較して一致度を計算する方法と同様の方法を用いる。例えば、パラメータ決定部15は、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータおよび学習用動画像コンテンツの注視点マップデータの要素ごとの差分値を計算する。そして、その差分値と予め決定された閾値とを比較し、この閾値よりも値の小さな差分値の個数を計測して類似度とする。
Next, in step S134, the
The similarity calculation method in the process of step S135 is the same method as the method of calculating the degree of coincidence by comparing the gazing point map data and the saliency map data in the comparison process executed by the
ステップS133からステップS136の処理に進んだ後の処理は次の通りである。
ステップS136において、パラメータ決定部15は、類似度の算出された1つまたは複数の学習用動画像コンテンツの注視点マップデータのうち、所定の選択基準によって注視点マップデータを選択する。この所定の選択基準は、例えば、パラメータ決定部15がステップS135において計算した類似度が、予め決定された類似度基準値を超える類似度である注視点マップデータを選択するという基準である。また、類似度の高い方から順に、予め決定された選択数の注視点マップデータを選択するという基準にしてもよい。
Processing after proceeding from step S133 to step S136 is as follows.
In step S136, the
次に、ステップS137において、パラメータ決定部15は、選択された学習用動画像コンテンツの注視点マップデータに関連づけられた画像解析用パラメータおよび一致度をデータ格納部11から読み出す。次に、ステップS138において、パラメータ決定部15は、読み出された一致度が複数ある場合は、それらの中で最も数値の高い一致度に対応する画像解析用パラメータを選択して、これを評価用パラメータの初期値に決定する。また、パラメータ決定部15は、読み出された一致度が1つである場合は、その一致度に対応する画像解析用パラメータを評価用パラメータの初期値に決定する。
Next, in step S137, the
次に、ステップS139において、パラメータ決定部15は、上で決定された評価用パラメータを初期値として、6つの重みデータを詳細に探索して最適な評価用パラメータを探索する。例えば、パラメータ決定部15は、最急勾配法を用いて詳細に重みデータの最適値を探索する。ここでは、以下の一例を挙げる。パラメータ決定部15は、決定された評価用パラメータを構成する6つの重みデータから1番目の重みデータを選択して値を変化させ、6つの重みデータを画像解析部13に供給する。次に、画像解析部13は、供給された6つの重みデータの評価用パラメータを用いて評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを計算し、パラメータ決定部15に制御を戻す。次に、パラメータ決定部15は比較処理部14に制御を渡す。比較処理部14は、評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータと評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータとの一致度を計算してパラメータ決定部15に制御を戻す。パラメータ決定部15は、上記のようにして重みデータの値を所望の範囲の間で変化させて一致度を計算し、最も一致度が高くなる重みデータを検索する。さらに、パラメータ決定部15は、2番目から6番目の重みデータについても、1番目の重みデータと同様に最も一致度が高くなる重みデータを検索する。
Next, in step S139, the
次に、ステップS140において、パラメータ決定部15は、検索された6つの重みデータを評価用パラメータの最適値である最終評価用パラメータとして決定する。次に、ステップS141において、パラメータ決定部15は、最終評価用パラメータをデータ格納部11に記録する。
Next, in step S140, the
上記のパラメータ決定処理において、学習用動画像コンテンツのサンプル数が少ない場合や、学習用動画像コンテンツのための画像解析用パラメータの設定パターンが少ない場合に、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度が小さい結果しか得られないことも起こり得る。そのような場合は、学習用動画像コンテンツの顕著性マップデータの生成過程で用いる特徴マップデータを利用して、パラメータの設定パターンを増やすようにする。 In the above parameter determination process, when the number of learning moving image content samples is small, or when the number of image analysis parameter setting patterns for learning moving image content is small, moving image content for evaluation parameter determination target learning It is possible that only a result with a low degree of similarity between the gazing point map data and the gazing point map data of the learning moving image content can be obtained. In such a case, the parameter setting pattern is increased using the feature map data used in the generation process of the saliency map data of the learning moving image content.
具体的には、学習用動画像コンテンツの顕著性マップデータと個々の特徴マップデータとの比較に基づいて、学習用動画像コンテンツの顕著性マップデータに対して影響度の大きな物理的特徴を選定する。次に、その選定された物理的特徴についての重みデータを所望の範囲内で変更ながら一致度を計算する。そして、計算された一致度が最も高くなるパラメータを追加の画像解析用パラメータとして採用する。 Specifically, based on the comparison between the saliency map data of the learning moving image content and the individual feature map data, physical features having a large influence on the saliency map data of the learning moving image content are selected. To do. Next, the degree of coincidence is calculated while changing the weight data for the selected physical feature within a desired range. Then, the parameter with the highest degree of coincidence calculated is employed as an additional image analysis parameter.
また、最終評価用パラメータの画像コンテンツとの適合度は、画像コンテンツごとに異なる。よって、画像コンテンツの用途(放送用、データ配信用等)、使用目的(不特定視聴者用、特定視聴者用等)などに応じて評価基準を変え、最終評価用パラメータを評価基準に応じて複数種類設けるようにしてもよい。 In addition, the degree of matching of the final evaluation parameter with the image content differs for each image content. Therefore, the evaluation criteria are changed according to the use of the image content (for broadcasting, data distribution, etc.), the purpose of use (for unspecified viewers, for specific viewers, etc.), and the final evaluation parameters are set according to the evaluation criteria. A plurality of types may be provided.
<画像コンテンツの評価>
制作中の画像コンテンツなど、視聴者による視線計測実験が行われていない画像コンテンツには注視点データが存在しない。このような注視点データの存在しない画像コンテンツについて、視聴者の注視点の分布を推定する。図14は、外部から入力した評価対象動画像コンテンツの注視点マップデータを推定する処理についてのフローチャートである。ステップS241において、外部から評価対象動画像コンテンツが画像入力部21に供給されると、画像入力部21はこれを入力してデータ格納部11に格納する。
次に、ステップS242において、類似画像コンテンツ決定部22は、評価対象動画像コンテンツに対して、注視点マップデータ、顕著性マップデータ、および最適化された評価用パラメータが存在する学習用動画像コンテンツ群の中から、類似する学習用動画像コンテンツを類似学習用動画像コンテンツとして決定する。
<Evaluation of image content>
There is no gazing point data in image content that has not been subjected to a gaze measurement experiment by a viewer, such as image content being produced. The distribution of the gazing point of the viewer is estimated for such image content without gazing point data. FIG. 14 is a flowchart of processing for estimating gaze point map data of the evaluation target moving image content input from the outside. In step S <b> 241, when the evaluation target moving image content is supplied from the outside to the
Next, in step S242, the similar image
次に、ステップS243において、注視点マップ推定部23は、決定された類似学習用動画像コンテンツにおける評価用パラメータを参照し、これを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して顕著性マップデータを生成する。
つまり、注視点マップ推定部23は、類似画像コンテンツ決定部22によって決定された類似学習用動画像コンテンツを評価対象動画像コンテンツとし、パラメータ決定部15が決定した評価用パラメータに基づき、画像解析部13が評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成する。
そして、注視点マップ推定部23は、その顕著性マップデータをデータ格納部11に格納する。
次に、ステップS244において、注視点マップ推定部23は、ステップS243の処理によりデータ格納部11に格納された顕著性マップデータを読み出し、これを推定注視点マップデータとして外部に出力する。これにより、評価対象動画像コンテンツについての、視聴者の注視点の分布を推定することができる。
Next, in step S243, the gazing point map estimation unit 23 refers to the evaluation parameter in the determined moving image content for similarity learning, and uses this for evaluation for calculating the saliency map data for the evaluation target moving image content. Use as a parameter to generate saliency map data.
That is, the gazing point map estimation unit 23 sets the similar learning moving image content determined by the similar image
Then, the gaze point map estimation unit 23 stores the saliency map data in the data storage unit 11.
Next, in step S244, the gazing point map estimation unit 23 reads the saliency map data stored in the data storage unit 11 by the processing in step S243, and outputs this to the outside as estimated gazing point map data. Thereby, it is possible to estimate the distribution of the viewer's gaze point for the evaluation target moving image content.
評価対象動画像コンテンツと学習用動画像コンテンツとの類似性の判定方法として、次の2つの例をあげる。 The following two examples are given as methods for determining the similarity between the evaluation target moving image content and the learning moving image content.
第1の方法は、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータ生成のための評価用パラメータを用いて、1つの視覚属性に関する特徴マップ同士、あるいは、複数の視覚属性に関する特徴マップから得られた顕著性マップデータ同士の類似性を判定する。 The first method uses a common evaluation parameter for generating saliency map data for the evaluation target moving image content and the learning moving image content, or a plurality of feature maps related to one visual attribute, or a plurality of feature maps. The similarity between the saliency map data obtained from the feature maps related to the visual attributes of the images is determined.
第2の方法は、動画像コンテンツの特徴に基づくクラスタリング処理を行い、その結果により動画像コンテンツ間の類似性を判定する。一例としては、文献(帆足啓一郎、外3名、“フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案”、電子情報通信学会 パターン認識・メディア理解研究会、pp.87−92,2007年10月)に記載されている、動画像コンテンツの映像解析処理によって動画像間の類似性を判定する処理を適用する。 In the second method, clustering processing based on the characteristics of moving image content is performed, and the similarity between moving image contents is determined based on the result. As an example, literature (Keiichiro Hoashi, 3 others, “Proposal of CGM moving image content search method using frame clustering”, IEICE Pattern Recognition / Media Understanding Study Group, pp. 87-92, 2007 10 The process of determining the similarity between moving images by the video analysis processing of moving image content described in “Month)” is applied.
上記のように推定した注視点の分布を、評価対象動画像コンテンツの再生表示画面に重畳して表示することによって、評価者にとって視覚的に分かりやすい評価結果を提示することができる。 By displaying the gaze point distribution estimated as described above superimposed on the reproduction display screen of the evaluation target moving image content, it is possible to present an evaluation result that is easy to understand visually for the evaluator.
以上述べたように、本実施形態では、視聴者が学習用動画像コンテンツを視聴した際に計測した視線分布とその学習用動画像コンテンツを映像解析して得られる視覚的特性の顕著性マップの一致度を利用して視聴者視線パラメータを取得してデータベース化を行い、評価対象動画像コンテンツに対して類似する学習用動画像コンテンツの視聴者視線パラメータを評価対象動画像コンテンツの画像解析用パラメータとして採用し、評価対象動画像コンテンツを映像解析して視聴者の視線分布を推定することができる。つまり、視線計測実験を行っていない画像コンテンツであっても、他の画像コンテンツの注視点マップデータ、顕著性マップデータ、顕著性マップ生成用パラメータを利用することで、簡単に注視点の分布に関する評価を行うことができる。 As described above, in this embodiment, the gaze distribution measured when the viewer views the learning moving image content and the visual characteristic saliency map obtained by analyzing the learning moving image content are analyzed. The viewer line-of-sight parameter is acquired by using the degree of coincidence, and the database is created. It is possible to estimate the viewer's gaze distribution by analyzing the video image content to be evaluated. In other words, even for image content that has not undergone a line-of-sight measurement experiment, it is possible to easily relate to the distribution of gazing points by using gazing point map data, saliency map data, and saliency map generation parameters of other image contents Evaluation can be made.
以上述べたように、本実施形態では、人間が画像を見たときの注意の向けられやすさの分布を表す顕著性マップを生成する際に、実際の人間による観察行為により得られた視線運動に基づいて求められた注視点の分布との分布の類似性が高くなるように、評価用パラメータを調整するようにした。これにより、本実施形態によれば、人間による主観的な画像評価に近い評価結果を画像の物理的特徴を用いた客観的な評価手法によって簡単に得ることができる。 As described above, in this embodiment, when generating a saliency map that represents the distribution of ease of attention when a human views an image, the eye movement obtained by an actual human observation action is generated. The evaluation parameters were adjusted so that the similarity of the distribution with the gaze point distribution obtained based on the above was increased. Thereby, according to the present embodiment, an evaluation result close to a subjective image evaluation by a human can be easily obtained by an objective evaluation method using the physical characteristics of the image.
また、本実施形態では、周辺視野の視力分布を考慮して注視点マップデータを生成するようにしたことにより、被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。 Further, in the present embodiment, the attention point map data is generated in consideration of the visual acuity distribution of the peripheral visual field, so that even when the number of subjects is small, the concentration degree of the attention point with respect to all the pixels of the frame image is improved. You can often ask.
また、本実施形態では、評価用パラメータ決定対象学習用動画像コンテンツについての最適な最終評価用パラメータを決定するために、既存の学習用動画像コンテンツを用いて、注視点の分布が類似し且つ一致度の高くなる画像解析用パラメータを評価用パラメータの初期値として決定するようにした。そして、その評価用パラメータを用いて、6つの重みデータを変化させながらより適切な顕著性マップが得られるように評価用パラメータを調整して最終評価用パラメータを決定するようにした。これにより、本実施形態によれば、時間的な効率性を向上させながら最適な最終評価用パラメータを求めることができる。 Further, in the present embodiment, in order to determine the optimum final evaluation parameter for the evaluation parameter determination target learning moving image content, the distribution of the gazing point is similar using the existing learning moving image content and The parameter for image analysis that increases the degree of coincidence is determined as the initial value of the parameter for evaluation. Then, using the evaluation parameters, the final evaluation parameters are determined by adjusting the evaluation parameters so that a more appropriate saliency map can be obtained while changing the six weight data. Thereby, according to this embodiment, the optimal final evaluation parameter can be obtained while improving the temporal efficiency.
また、本実施形態では、所望の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価し、最終評価用パラメータを求める実験を繰り返して実施することにより、評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めることができる。 Further, in the present embodiment, by evaluating the desired evaluation target moving image content using various learning moving image contents and repeatedly performing an experiment for obtaining a final evaluation parameter, the evaluation target moving image content, The correlation with the setting pattern of the weight data of the final evaluation parameter can be obtained.
さらに、予め実験用の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価して最終評価用パラメータを求める実験を反復実施し、実験用の評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めておくことが望ましい。これにより、本実施形態による画像コンテンツ評価装置によれば、注視点データを求めるための視線計測実験を行うことなく、客観的な評価材料である画像データの物理的特徴を用いるだけで、画像コンテンツを評価して注視点マップデータを推定することができる。 Further, the evaluation target moving image content is evaluated in advance using various learning moving image contents, and an experiment for obtaining a final evaluation parameter is repeatedly performed. It is desirable to obtain the correlation with the setting pattern of the parameter weight data. As a result, according to the image content evaluation apparatus according to the present embodiment, the image content can be obtained only by using the physical characteristics of the image data that is an objective evaluation material, without performing a line-of-sight measurement experiment for obtaining gazing point data. Can be estimated and gaze point map data can be estimated.
なお、上述した実施形態である画像コンテンツ評価装置の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたコンピュータプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。 Note that the functions of the image content evaluation apparatus according to the above-described embodiment may be realized by a computer. In this case, a computer program for realizing the control function may be recorded on a computer-readable recording medium, and the computer program recorded on the recording medium may be read by the computer system and executed. . Here, the “computer system” includes an OS (Operating System) and hardware of peripheral devices. The “computer-readable recording medium” refers to a portable recording medium such as a flexible disk, a magneto-optical disk, an optical disk, and a memory card, and a storage device such as a hard disk built in the computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case may be included and a program that holds a program for a certain period of time may be included. Further, the above program may be for realizing a part of the functions described above, or may be realized by a combination with the program already recorded in the computer system. .
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。 As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the concrete structure is not restricted to this embodiment, The design etc. of the range which does not deviate from the summary of this invention are included.
本発明は、例えば、放送やネットワーク配信に用いられるコンテンツの制作過程における、画像コンテンツの評価に利用することができる。また、同様に、公共施設などで公衆に提示される映像広告に係るコンテンツの制作過程においても、画像コンテンツの評価に利用することができる。 The present invention can be used for evaluation of image content in the production process of content used for broadcasting and network distribution, for example. Similarly, it can be used for evaluation of image content in the production process of content related to video advertisements presented to the public in public facilities.
1 画像コンテンツ評価装置
11 データ格納部
12 注視点データ解析部
13 画像解析部
14 比較処理部
15 パラメータ決定部
21 画像入力部
22 類似画像コンテンツ決定部
23 注視点マップ推定部
DESCRIPTION OF
Claims (3)
前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき画像解析用パラメータを選択し、前記選択された画像解析用パラメータを評価用パラメータの初期値として決定し、前記評価用パラメータの初期値を用いて最急勾配法によって最終評価用パラメータを求め、前記最終評価用パラメータを最適な画像解析用パラメータとして決定するパラメータ決定部と、
前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して前記パラメータ決定部が決定した前記最適な画像解析用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、
を具備することを特徴とする動画像コンテンツ評価装置。 Video analysis is performed based on image analysis parameters related to visual attributes for each of the plurality of learning moving image contents and evaluation moving image content, and the saliency corresponding to the pixels included in the moving image content An image analysis unit that generates saliency map data indicating a distribution;
Based on the gazing point map data indicating the visual acuity distribution related to the learning moving image content and the saliency map data, the degree of coincidence as an index of similarity between the gazing point map data and the saliency map data is determined. A comparison processing unit to calculate,
The gazing point map data and the saliency map calculated by the comparison processing unit based on the result of video analysis performed on the learning moving image content based on different image analysis parameters in the image analysis unit. select based-out parameters for image analysis coincidence degree between data, to determine the selected image analysis parameters were as initial value of the evaluation parameter, steepest using the initial value of the evaluating parameter A parameter determination unit for determining a final evaluation parameter by a gradient method, and determining the final evaluation parameter as an optimal image analysis parameter ;
A similar image content determination unit for determining similar learning moving image content that is learning moving image content similar to the evaluation target moving image content;
Video analysis of the similar image the image analysis unit is the evaluation target moving image content based on said optimal image analysis parameter the parameter determination unit has determined to the similar learning moving image contents determined by the content determination unit The saliency map data generated by performing as the gazing point map data estimated as the visual acuity distribution of the evaluation target moving image content;
A moving image content evaluation apparatus comprising:
前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する
ことを特徴とする請求項1に記載の動画像コンテンツ評価装置。 Note indicating the visual acuity distribution corresponding to the pixels included in the learning moving image content based on the gazing point data including the coordinate value of the gazing point as a result of measuring the line of sight with respect to the plurality of learning moving image contents. A gazing point data analysis unit for generating viewpoint map data is further provided.
The comparison processing unit, based on the saliency map data regarding each of the plurality of learning moving image contents and the gazing point map data generated by the gazing point data analysis unit, The moving image content evaluation apparatus according to claim 1, wherein a degree of coincidence that is an index of similarity with map data is calculated.
複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、
前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき画像解析用パラメータを選択し、前記選択された画像解析用パラメータを評価用パラメータの初期値として決定し、前記評価用パラメータの初期値を用いて最急勾配法によって最終評価用パラメータを求め、前記最終評価用パラメータを最適な画像解析用パラメータとして決定するパラメータ決定部と、
前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して前記パラメータ決定部が決定した前記最適な画像解析用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、
として機能させるためのコンピュータプログラム。 Computer
Video analysis is performed based on image analysis parameters related to visual attributes for each of the plurality of learning moving image contents and evaluation moving image content, and the saliency corresponding to the pixels included in the moving image content An image analysis unit that generates saliency map data indicating a distribution;
Based on the gazing point map data indicating the visual acuity distribution related to the learning moving image content and the saliency map data, the degree of coincidence as an index of similarity between the gazing point map data and the saliency map data is determined. A comparison processing unit to calculate,
The gazing point map data and the saliency map calculated by the comparison processing unit based on the result of video analysis performed on the learning moving image content based on different image analysis parameters in the image analysis unit. select based-out parameters for image analysis coincidence degree between data, to determine the selected image analysis parameters were as initial value of the evaluation parameter, steepest using the initial value of the evaluating parameter A parameter determination unit for determining a final evaluation parameter by a gradient method, and determining the final evaluation parameter as an optimal image analysis parameter ;
A similar image content determination unit for determining similar learning moving image content that is learning moving image content similar to the evaluation target moving image content;
Video analysis of the similar image the image analysis unit is the evaluation target moving image content based on said optimal image analysis parameter the parameter determination unit has determined to the similar learning moving image contents determined by the content determination unit The saliency map data generated by performing as the gazing point map data estimated as the visual acuity distribution of the evaluation target moving image content,
Computer program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009186573A JP5306940B2 (en) | 2009-08-11 | 2009-08-11 | Moving image content evaluation apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009186573A JP5306940B2 (en) | 2009-08-11 | 2009-08-11 | Moving image content evaluation apparatus and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011039778A JP2011039778A (en) | 2011-02-24 |
JP5306940B2 true JP5306940B2 (en) | 2013-10-02 |
Family
ID=43767484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009186573A Expired - Fee Related JP5306940B2 (en) | 2009-08-11 | 2009-08-11 | Moving image content evaluation apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5306940B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5654962B2 (en) * | 2011-08-19 | 2015-01-14 | 日本放送協会 | Gaze position estimation device and gaze position estimation program |
CN107408119B (en) * | 2015-04-08 | 2020-11-06 | 株式会社日立制作所 | Image retrieval device, system and method |
JP6583996B2 (en) * | 2015-07-17 | 2019-10-02 | 日本放送協会 | Video evaluation apparatus and program |
CN105491370B (en) * | 2015-11-19 | 2020-09-22 | 国家新闻出版广电总局广播科学研究院 | Video saliency detection method based on graph collaborative low-high-level features |
JP6844210B2 (en) * | 2016-11-16 | 2021-03-17 | 凸版印刷株式会社 | Visual saliency map generator, visual saliency map generation method and program |
JP6821611B2 (en) * | 2018-01-22 | 2021-01-27 | 日本電信電話株式会社 | Estimator, its method, and program |
JP7476487B2 (en) * | 2019-06-18 | 2024-05-01 | Toppanホールディングス株式会社 | Detection support device, detection support method, and program |
JP7320400B2 (en) * | 2019-08-06 | 2023-08-03 | 日本放送協会 | VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF |
WO2022097457A1 (en) * | 2020-11-06 | 2022-05-12 | コニカミノルタ株式会社 | Design evaluating device, design evaluating system, design evaluating method, design evaluating program, and learning device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4979033B2 (en) * | 2006-04-28 | 2012-07-18 | トムソン ライセンシング | Saliency estimation of object-based visual attention model |
-
2009
- 2009-08-11 JP JP2009186573A patent/JP5306940B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011039778A (en) | 2011-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5306940B2 (en) | Moving image content evaluation apparatus and computer program | |
Sugano et al. | Appearance-based gaze estimation using visual saliency | |
US8551015B2 (en) | System and method for evaluating and diagnosing patients based on ocular responses | |
Itti | Quantifying the contribution of low-level saliency to human eye movements in dynamic scenes | |
Clarke et al. | Deriving an appropriate baseline for describing fixation behaviour | |
US8636361B2 (en) | Learning-based visual attention prediction system and method thereof | |
JP5771127B2 (en) | Attention level estimation device and program thereof | |
CN111427150B (en) | Eye movement signal processing method used under virtual reality head-mounted display and wearable device | |
Foulsham et al. | Are fixations in static natural scenes a useful predictor of attention in the real world? | |
JPWO2012105196A1 (en) | Interest level estimation device and interest level estimation method | |
Ma et al. | Learning-based saliency model with depth information | |
Banitalebi-Dehkordi et al. | Benchmark three-dimensional eye-tracking dataset for visual saliency prediction on stereoscopic three-dimensional video | |
EP3074844B1 (en) | Estimating gaze from un-calibrated eye measurement points | |
Jaimes et al. | Using human observer eye movements in automatic image classifiers | |
Akamine et al. | Video quality assessment using visual attention computational models | |
Cvejic et al. | A nonreference image fusion metric based on the regional importance measure | |
TWI478099B (en) | Learning-based visual attention prediction system and mathod thereof | |
Laco et al. | Depth in the visual attention modelling from the egocentric perspective of view | |
Banitalebi-Dehkordi et al. | Benchmark 3D eye-tracking dataset for visual saliency prediction on stereoscopic 3D video | |
EP2685351A1 (en) | Method for calibration free gaze tracking using low cost camera | |
Zhang et al. | An approach of region of interest detection based on visual attention and gaze tracking | |
Baluch et al. | Mining videos for features that drive attention | |
Abid et al. | On the usage of visual saliency models for computer generated objects | |
EP4213105A1 (en) | Gaze estimation system and method thereof | |
Amudha et al. | Comparative study of visual attention models with human eye gaze in remote sensing images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130626 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |