JP4600828B2

JP4600828B2 - 文書対応付け装置、および文書対応付け方法

Info

Publication number: JP4600828B2
Application number: JP2005517060A
Authority: JP
Inventors: 恭二平田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-01-14
Filing date: 2005-01-14
Publication date: 2010-12-22
Anticipated expiration: 2025-01-14
Also published as: WO2005069171A1; JPWO2005069171A1

Description

本発明は、文書対応付け装置、および文書対応付け方法に関し、特に、映像または音声のようなコンテンツと、コンテンツに関連した文書情報との対応関係を導出する文書対応付け装置、および文書対応付け方法に関する。

音声記録または音声付随のビデオ記録の対応部分に文書データを自動的にマッピングする方法が知られている。例えば、特開平７−１９９３７９号公報に、音声記録または音声付随のビデオ記録中の音声を音声認識処理によりテキスト化し、そのテキストと文書記憶装置に順序付けられて記憶された文書情報と比較して、両者が同一の一連の文字を含む場合に同一とみなす方法が提案されている。この際に、自動音声認識装置が音声をデコードし、デコードテキストが、類似語または語のクラスタの識別を介して文書情報と照合される。

また、特開２０００−２７０２６３号公報に、放送番組において、アナウンス原稿と字幕内容とが極めて類似している場合に、アナウンス原稿に対して音声認識処理を施し、音声認識結果と提示時間順に配列された字幕文テキストとの対応を導出することで、始点と終点のタイミング情報を同期点として検出して記録するシステムが提案されている。

さらに、特開平８−２１２１９０号公報に、音声付随の動画像にシナリオテキストを対応付ける場合に、シナリオテキストを音声化した場合の無音区間を予測し、予測結果と音声付随の動画像における音声信号の無音区間とを比較することによって、音声とテキストとを対応付けるシステムが提案されている。

これらの従来の映像または音声といったコンテンツと文書とを対応付ける文書対応付け方法の第一の問題点は、音声情報と文書データとの対応の精度が音声認識の精度に大きく依存しているので、音声認識の精度が十分に得られないときに、音声情報と文書データの対応関係導出が精度よく行われないということである。

上記の特開平７−１９９３７９号公報や特開２０００−２７０２６３号公報に記載されている従来の方法では、音声認識処理により音声をテキストに変換した後に、変換されたテキストと文書データ間で同期をとっている。この結果、音声認識によって出力されたテキストが誤りを多く含んでいる場合には、文書データとの対応がとれなかったり、全く異なった文書部分と対応をとってしまうなど対応関係に多くの誤りが含まれてしまう。一般に、音声認識では、ＢＧＭが音声に重畳された場合や、屋外等の高雑音下で記録された会話のように発話音声以外の背景音が大きい場合などでは、認識精度は著しく低下することが知られている。通常の会話においても、マイクロフォンと話し手の位置関係や、話者の話し方、会話スタイルおよび特性などによって、高い認識精度が期待できない場合が数多く存在する。会話内容が特定のトピックに限定される場合には、推定される話題により認識のための辞書を最適に選択するなどの対策によって、音声認識の精度をあげることが可能である。しかし、通常、トピック等は事前に推定できない場合が多く、その場合、誤った辞書を使用すると音声認識の精度は更に下がってしまうなどの問題がある。こうした、誤りを多く含んだ音声認識結果にもとづいて、音声記録または音声付随のビデオ記録と文書情報の対応付けを行った場合に、対応付け誤りが多くなり、テキスト同時表示やキーワード検索による頭出しに利用することが困難になる。

従来の方法の第二の問題として、文書情報が、音声を忠実に再現したものではなく、内容を簡単にまとめたような文書であった場合には、文書情報と音声情報とを正しく整合できないということがある。たとえば講演における音声情報と、講演者の作成した説明用の資料や要約文書とを対応付ける場合、音声情報から作成されたテキストに直接対応する部分が文書中に存在しないため、文書情報と音声情報とを正しく整合できない。

従来の方法の第三の問題として、音声認識を基礎とした整合では、整合の単位が単語単位となるため、文書内容と音声情報とが完全に一致しないような場合には、同一の単語の出現によって対応が大きくずれてしまうということである。

関連する技術として、特開２０００−３４８０６４号公報（優先権主張番号：０９／２８８７２４、優先権主張国：米国）に、内容情報と話者情報を使用して音声情報を検索するための方法および装置が開示されている。この内容情報と話者情報を使用して音声情報を検索するための方法は、１つまたは複数の音声ソースから音声情報を検索する方法である。少なくとも１つの内容と１つの話者制約条件を指定するユーザ照会を受け取る段階と、前記ユーザ照会を、前記音声ソースの内容索引および話者索引と比較して、前記ユーザ照会に適合する音声情報を識別する段階とを含む。

関連する技術として、特開２００２−１８９７２８号公報に、マルチメディア情報編集装置、その方法および記録媒体並びにマルチメディア情報配信システムが開示されている。このマルチメディア情報編集装置は、マルチメディア情報を編集する。マルチメディア情報編集装置は、記憶手段と、音声判別手段と、文書変換手段と、マルチメディア構造化手段とを備えたことを特徴とする。記憶手段は、音声、動画像などのマルチメディア情報を記憶する。音声判別手段は、前記記憶手段に記憶されたマルチメディア情報に対して音声が付加されているか判別を行う。文書変換手段は、前記音声判別手段によって音声が付加されていた場合その音声情報を文書情報に変換する。マルチメディア構造化手段は、前記文書変換手段で変換された文書を言語解析して、文書とマルチメディア情報とを構造化して、対応付ける。

関連する技術として、特開２００２−２３６４９４号公報に、音声区間判別装置、音声認識装置、プログラム及び記録媒体の技術が開示されている。この音声区間判別装置は、音響分析手段と、標準パターン記憶手段と、マッチング手段と、判定手段と、音声区間判別手段とを備えていることを特徴とする。音響分析手段は、外部から入力された音声を所定周期で音響的に分析し、当該分析結果を基に音響特徴量を求める。標準パターン記憶手段は、前記入力音声に複数の話者の音声が混在し得る前提の下、単一話者の音声及び、複数話者の混合音声に対応する標準パターンを記憶する。マッチング手段は、前記標準パターン記憶手段に記憶された標準パターンと、前記音響分析手段にて求められた音響特徴量とのマッチングを行う。
判定手段は、前記マッチング手段による処理結果に基づき、前記入力音声がいずれの標準パターンに類似しているかを前記所定周期毎に判定する。音声区間判別手段は、前記判定手段による判定結果に基づき、前記各話者の音声区間を判別するとを備えている。

関連する技術として、特開２００２−３６６５５２号公報（優先権主張番号：０９／９６２６５９、優先権主張国：米国）に、記録音声を探索し、関連セグメントを検索する方法及びシステムが開示されている。これは、データベース内の記録音声を探索する方法である。ａ）音声認識システムを用いて、前記記録音声をテキストに変換するステップと、ｂ）情報エクステンダを用いて、前記記録音声のフル・テキスト索引を作成するステップであって、前記フル・テキスト索引が、前記記録音声内での単語の出現を指し示す複数のタイムスタンプを含み、ｃ）フル・テキスト・サーバにより、前記フル・テキスト索引を用いて、テキストを探索するステップと、ｄ）前記探索テキスト、前記フル・テキスト索引、及び前記記録音声を前記データベースに記憶するステップとを含みる。前記記録音声の特定の内容が、全部の記録を聴取することなく、前記フル・テキスト索引を用いて再生される。

関連する技術として、特開平１１−２４２６６９号公報に、文書処理装置の技術が開示されている。この文書処理装置は、音声入力手段と、抽出手段と、属性生成手段と、文書記憶手段と指示手段と、出力手段と、添付手段とを備えたことを特徴とする。音声入力手段は、音声を入力する。抽出手段は、音声入力手段によって入力された音声から話者を特定するための情報を抽出する。属性生成手段は、前記抽出された情報と所定の基準情報とを比較して話者属性情報を生成する。文書記憶手段は、文書を記憶する。指示手段は、入力された音声を添付すべき文書中の位置を指示する。出力手段は、文書を出力する。添付手段は、前記指示手段によって指示された文書中の位置の情報と、前記入力された音声と、前記属性生成手段によって生成された話者属性情報とからなる組情報を前記文書記憶手段に記憶する。

本発明の目的は、音声や映像などのコンテンツにおいて定義される有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。

本発明の他の目的は、コンテンツの状態に影響されずに、コンテンツにおける有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。

本発明の他の目的は、文書の種類に影響されずに、コンテンツにおける有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。

この発明のこれらの目的とそれ以外の目的と利益とは以下の説明と添付図面とによって容易に確認することができる。

上記課題を解決するために、本発明の文書対応付け方法は、（ａ）複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツと、前記コンテンツの内容を記述した文書とを準備するステップと、（ｂ）そのコンテンツとその文書との対応関係を、話者単位で導出するステップとを具備する。

上記の文書対応付け方法において、その（ｂ）ステップは、（ｂ１）そのコンテンツを話者単位で分割して複数のコンテンツ区間とするステップと、（ｂ２）その文書を話者単位で分割して複数の文書区間とするステップと、（ｂ３）その複数のコンテンツ区間とその複数の文書区間との対応付けを行うステップとを備える。

上記の文書対応付け方法において、その（ｂ２）ステップは、（ｂ２１）その複数の話者の一人からその複数の話者の他の一人へ発話者が変化した時点をコンテンツから抽出するステップと、（ｂ２２）その発話者が変化した時点に基づいて、そのコンテンツを話者単位で分割するステップとを含む。

上記の文書対応付け方法において、その（ｂ２１）ステップは、（ｂ２１１）そのコンテンツはその音声情報であり、その発話者の音声の変化点をその音声情報から抽出するステップを含む。

上記の文書対応付け方法において、その（ｂ２１）ステップは、（ｂ２１２）そのコンテンツはその映像情報であり、その発話者の映像の変化点そのを映像情報から抽出するステップを含む。

上記の文書対応付け方法において、そのコンテンツは、その音声情報とその映像情報とが同期した音声映像情報である。

上記の文書対応付け方法において、その（ｂ２１）ステップは、（ｂ２１３）その音声情報の音特徴の変化点解析を行い、その発話者が変化した時点を導出するステップを含む。

上記の文書対応付け方法において、その（ｂ２１）ステップは、（ｂ２１４）その映像情報の視覚的特徴の変化点解析を行い、その発話者が変化した時点を導出するステップを含む。

上記の文書対応付け方法において、その（ｂ２１）ステップは、（ｂ２１５）その映像情報の視覚的特徴の変化点解析及びその音声情報の音特徴の変化点解析を行い、双方の結果を統合して、その発話者が変化した時点を導出するステップを含む。

上記の文書対応付け方法において、その（ｂ）ステップは、（ｂ４）その文書の構造解析を行い、その文書を話者単位で分割するステップを備える。

上記課題を解決するために、本発明のコンピュータプログラム製品は、コンピュータ上で使用したときに、上記各項のいずれか一項に記載された全てのステップを実行するプログラムコード手段を有する。

上記のプログラムコード手段を有するコンピュータプログラム製品は、コンピュータにより読み取り可能な記憶手段に記憶されている。

上記課題を解決するために、本発明の文書対応付け装置は、コンテンツ区間抽出部と、文書区間抽出部と、区間対応関係導出部とを具備する。コンテンツ区間抽出部は、複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツについて、そのコンテンツを話者単位で分割して複数のコンテンツ区間を抽出する。文書区間抽出部は、そのコンテンツの内容を記述した文書を話者単位で分割して複数の文書区間を抽出する。区間対応関係導出部は、その複数のコンテンツ区間とその複数の文書区間との対応関係を導出する。

上記の文書対応付け装置において、そのコンテンツはその音声情報である。そのコンテンツ区間抽出部は、その音声情報の音特徴を解析してその複数のコンテンツ区間を抽出する。

上記の文書対応付け装置において、そのコンテンツはその映像情報である。そのコンテンツ区間抽出部は、その映像情報の視覚的特徴を解析してその複数のコンテンツ区間を抽出する。

上記の文書対応付け装置において、そのコンテンツは、その音声情報とその映像情報とが同期した音声映像情報である。そのコンテンツ区間抽出部は、その音声情報の音特徴の解析の結果とその映像情報の視覚的特徴の解析の結果とを統合してその複数のコンテンツ区間を抽出する。

上記の文書対応付け装置において、コンテンツ抽出部は、音声区間抽出部と、映像区間抽出部と、音声映像区間統合部とを含む。音声区間抽出部は、その音声情報の音特徴を解析して、その音声情報を話者単位に分割して複数の音声区間を抽出する。映像区間抽出部は、その映像情報の視覚的特徴を解析して、その映像情報を話者単位に分割して複数の映像区間を抽出する。音声映像区間統合部は、その複数の音声区間に関する複数の音声区間情報と、その複数の映像区間に関する複数の映像区間情報とに基づいて、その複数のコンテンツ区間を抽出する。

上記の文書対応付け装置において、そのコンテンツ区間抽出部は、そのコンテンツにおけるその複数の話者の一人からその複数の話者の他の一人へ発話者が変化した時点としての発話者変化点を抽出して、その複数のコンテンツ区間を抽出する。

上記の文書対応付け装置において、そのコンテンツはその音声情報を含む。そのコンテンツ区間抽出部は、その音声情報における発話の高さ、発話速度、発話の大きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、その発話者変化点を抽出する。

上記の文書対応付け装置において、そのコンテンツはその音声情報を含む。そのコンテンツ区間抽出部は、その音声情報における会話形態の変化に基づいて、その発話者変化点を抽出する。

上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の視覚的特徴の変化に基づいて、その発話者変化点を抽出する。

上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の顔特徴の変化に基づいて、その発話者変化点を抽出する。

上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の衣服の視覚的特徴の変化に基づいて、その発話者変化点を抽出する。

上記の文書対応付け装置において、その文書区間抽出部は、その文書の書式情報に基づいて、その複数の文書区間を抽出する。

上記の文書対応付け装置において、その文書区間抽出部は、その文書に記入された発話者に関する記述に基づいて、その複数の文書区間を抽出する。

上記の文書対応付け装置において、その文書区間抽出部は、その文書における構造化文書のタグ情報に基づいて、その複数の文書区間を抽出する。

上記の文書対応付け装置において、その文書区間抽出部は、その文書における会話特徴の変化に基づいて、その複数の文書区間を抽出する。

上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコンテンツ区間の区間長とその複数の文書区間の文書量とを比較に基づいて、その複数のコンテンツ区間とその複数の文書区間との対応付けを行う。

上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコンテンツ区間及びその複数の文書区間に対するダイナミックプログラミングマッチングの実行結果に基づいて、その対応付けを行う。

上記の文書対応付け装置において、その区間対応関係導出部は、コンテンツ話者識別部と、文書話者情報抽出部と、区間整合部とを含む。コンテンツ話者識別部は、その複数のコンテンツ区間のうちの少なくとも一つにおける発話者を特定する。文書話者情報抽出部は、その複数の文書区間のうちの少なくとも一つにおける発話者を特定して、その発話者の情報としての話者情報を得る。区間整合部は、その話者情報に基づいて、その複数のコンテンツ区間とその複数の文書区間との整合を行う。

上記の文書対応付け装置において、そのコンテンツ話者識別部は、コンテンツ特徴量抽出部と、話者情報記憶部と、特徴量整合識別部とを含む。コンテンツ特徴量抽出部は、その複数のコンテンツ区間のうちの少なくとも一つにおける特徴量を抽出する。話者情報記憶部は、その特徴量とその発話者とを対応させて記憶する。特徴量整合識別部は、記憶されたその特徴量と抽出された特徴量との比較に基づいて、その発話者の識別を行う。

上記の文書対応付け装置において、
そのコンテンツ話者識別部は、その音声情報における声の高さ、声の長さ、声の強さのうちの少なくとも一つの韻律情報の特徴に基づいて、その発話者を特定する
文書対応付け装置。

上記の文書対応付け装置において、そのコンテンツ話者識別部は、その音声情報における会話形態の表す特徴量に基づいて、その発話者を特定する。

上記の文書対応付け装置において、そのコンテンツ話者識別部は、その映像情報における人物の視覚的特徴量に基づいて、その発話者を特定する。

上記の文書対応付け装置において、そのコンテンツ話者識別部は、その人物の視覚的特徴として人物の顔特徴を用いる。

上記の文書対応付け装置において、その文書話者情報抽出部は、その文書に記入された発話者に関する記述に基づいて、その発話者を特定する。

上記の文書対応付け装置において、その文書話者情報抽出部は、その文書における構造化文書のメタデータに基づいて、話者を特定する。

上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区間の各々における発話者とその複数の文書区間の各々における発話者とが一致するように、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。

上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区間とその複数の文書区間とに対するダイナミックプログラミングマッチングの実行結果に基づいて、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。

上記の文書対応付け装置において、そのコンテンツは音声情報を含む。文書対応付け装置は、その複数のコンテンツ区間における発話内容を抽出して発話テキスト情報を出力する音声認識部を更に具備する。その区間対応関係導出部は、その発話テキスト情報とその文書の文書情報との類似度に基づいて、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。

上記の文書対応付け装置において、その区間対応関係導出部は、その発話テキスト情報で出現する単語とその文書情報で出現する単語との間のダイナミックプログラムマッチングの実行結果に基づいて、その発話テキスト情報とその文書情報とを整合させる。

上記の文書対応付け装置において、その区間対応関係導出部は、基本単語抽出部と、基本単語群類似度導出部とを含む。基本単語抽出部は、その発話テキスト情報におけるその複数のコンテンツ区間の各々で使用されている一つまたは複数の第１基本単語と、その複数の文書区間の各々で使用されている一つまたは複数の第２基本単語とをそれぞれ抽出する。基本単語群類似度導出部は、その複数の第１基本単語と、その複数の第２基本単語との間の類似度を測定する。その区間対応関係導出部は、その類似度に基づいて、その対応関係を導出する。

上記の文書対応付け装置において、その区間対応関係導出部は、その類似度を、ダイナミックプログラミングマッチングにより対応付けることによって対応関係を導出する。

上記の文書対応付け装置において、そのコンテンツを入力するコンテンツ入力部と、そのコンテンツを記憶するコンテンツ記憶部と、その文書情報を入力する文書入力部と、その文書を記憶する文書記憶部と、その対応関係に関する情報を出力する出力部とを更に具備する。

本発明によれば、ＢＧＭの影響、ノイズなどの影響、発話者の発話スタイル、集音環境等の影響によって、音声認識の精度が十分に得られないときでも、精度よくコンテンツの有意な区間と文書中の区間の対応付けを行うことができる。その理由は、音声または映像といったコンテンツと文書区間との整合を、音声認識に比べて容易である話者単位（話者の変化した部分）にもとづいて行っているためである。話者が代わった点の認識は、話者の話している内容を認識するのに比べて、違いを認識するだけでよいので、ノイズや集音の状態に対して頑強である。また、音声の内容ではなく、話者にフォーカスして対応付けを行うため、視覚的情報も活用することができ、話者変化点抽出を視覚的情報にもとづいて行う場合には、集音状態には依存しない対応付けを行うことができる。また、本発明によれば、対応付ける文書が音声または映像中の会話を忠実に表していない場合でも、対応付けを行うことができる。その理由は、単語レベルでの整合を取っていないので、話者や話題ごとの比較的長い区間での対応付けが実現でき、個々の会話の内容を詳細に対応付ける必要がないためである。

図１は、本発明の文書対応付け装置の実施の形態の構成を示す図である。図２は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の一例を示すブロック図である。図３は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の一例を示すフローチャートである。図４は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の他の一例を示すブロック図である。図５は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の他の一例を示すフローチャートである。図６は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の更に他の一例を示すブロック図である。図７は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の動作の更に他の一例を示すフローチャートである。図８は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の別の一例を示すブロック図である。図９は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の動作の別の一例を示すフローチャートである。図１０は、本発明の文書対応付け装置の実施の形態における文書区間抽出手段６の動作の一例を示すフローチャートである。図１１Ａ〜図１１Ｄは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図１１Ｂは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図１１Ｃは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図１１Ｄは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図１２Ａは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。図１２Ｂは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。図１２Ｃは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。図１３は、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の更に他の一例を示す図である。図１４は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の一例を示すブロック図である。図１５は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の一例を示すフローチャートである。図１６Ａは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図１６Ｂは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図１７は、対応関係導出方法における正規化を説明する図である。図１８Ａは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図１８Ｂは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図１９は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の他の一例を示すブロック図である。図２０は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の他の一例を示すフローチャートである。図２１は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図２２は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図２３は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の別の一例を示すブロック図である。図２４は、候補テキスト文書対応部６２の構成の一例を示すブロック図である。図２５は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の別の一例を示すフローチャートである。図２６は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図２７は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。

以下、本発明の文書対応付け装置、および文書対応付け方法の実施の形態について添付図面を参照して詳細に説明する。

本発明の文書対応付け装置の実施の形態の構成について説明する。
図１は、本発明の文書対応付け装置の実施の形態の構成を示す図である。文書対応付け装置１０は、コンテンツ入力手段（コンテンツ入力部）１と、文書入力手段（文書入力部）２と、コンテンツ記憶手段（コンテンツ記憶部）３と、文書記憶手段（文書記憶部）４と、コンテンツ区間抽出手段（コンテンツ区間抽出部）５と、文書区間抽出手段（文書区間抽出部）６と、区間対応関係導出手段（区間対応関係導出部）７と、出力手段（出力部）８とを具備する。コンテンツ入力手段１は、音声や映像などの情報（データ）を含むコンテンツを入力する。文書入力手段２は、コンテンツに関連する文書を入力する。コンテンツ記憶手段３は、コンテンツ入力手段１から得られたコンテンツを記憶する。文書記憶手段４は、文書入力手段２から得られた文書を記憶する。コンテンツ区間抽出手段５は、コンテンツより単一話者区間を抽出する。文書区間抽出手段６は、文書から単一話者区間の抽出を行う。区間対応関係導出手段７は、コンテンツ区間抽出手段５が抽出したコンテンツ区間と文書区間抽出手段６が抽出した文書区間との対応関係を導出する。出力手段８は、区間対応関係導出手段７が導出した対応関係を出力する。

コンテンツ入力手段１は、対象となるコンテンツを入力するためのものである。コンテンツ入力手段１は、例えば、ビデオカメラやマイクロフォンである。ここで、コンテンツは、映像情報、音声情報または音声情報が付随した映像情報に例示される。コンテンツ入力手段１は、ビデオテープのような記録媒体に記録された映像情報または音声情報を読み込んで出力する映像再生機や録音再生機のようなものであってもよい。

文書入力手段２は、コンテンツに関連する文書を入力するためのものである。文書入力部２は、例えば、キーボードやペン入力デバイス、スキャナのようなテキスト入力機器である。文書入力部２は、文書作成ソフトウェアを用いて作成した文書データを読み込む入力機器であってもよい。

コンテンツ記憶手段３は、例えば、コンテンツ入力手段１からのコンテンツを記録する内部記憶装置または外部記憶装置である。コンテンツ記憶手段３で用いられる記憶媒体は、ＲＡＭ、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ、ハードディスクに例示される。

文書記憶手段４は、文書入力手段２からの文書を記録する内部記憶装置または外部記憶装置である。文書記憶手段４で用いられる記録媒体は、ＲＡＭ、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ、ハードディスクに例示される。

コンテンツ区間抽出手段５は、コンテンツ記憶手段３に記憶されたコンテンツ（情報）を話者毎に区間分割し、単一話者によるコンテンツ区間の抽出を行う。単一話者によるコンテンツ区間（以下、「単一話者区間」ともいう）は、話者が交替した時点から次に話者が交替するまでの区間である。単一話者区間は、区間内では発話者が単一でありかつ隣接する区間での発話者が異なるように抽出される。コンテンツ区間抽出手段５が抽出する単一話者区間は、誤りを含まないことが望ましいが、コンテンツ区間抽出の自動化を行ったために誤りを含んでしまっても構わない。

文書区間抽出手段６は、文書記憶手段３に記憶された文書から、各発話者に対応した区間（文書区間）の抽出を行う。抽出された文書区間は、単一話者の発言に対応する文書情報を記述する。文書区間抽出手段６は、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法を用いて文書区間の抽出を行う。

区間対応関係導出手段７は、コンテンツ区間抽出手段５が抽出したコンテンツ区間と文書区間抽出手段６が抽出した文書区間との対応関係を導出して、出力手段８に出力する。出力手段８は、その対応関係を表示装置、プリンタ、内部記憶装置、外部記憶装置などに表示、出力、格納する。

文書対応付け装置１０は、コンピュータで実現される場合、コンテンツ区間抽出手段５、文書区間抽出手段６および区間対応関係導出手段７は、コンピュータの演算処理装置（例示：ＣＰＵ）と、各手段５，６，７の機能を実現するためのプログラムとで実現可能である。

図２は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の一例を示すブロック図である。コンテンツ区間抽出手段５は、音声分割部２１と、音声特徴量導出部２２と、一次記憶部２３と、音声特徴量整合部２４と、出力部２５とを含む。音声分割部２１は、コンテンツ記憶手段３から読み出されたコンテンツから無音区間を抽出して音声の第一の分割を行う。音声特徴量導出部２２は、第一の分割によって得られた第一の音声区間に関して音声特徴量を導出する。一次記憶部２３は、第一の音声区間の開始時間と音声特徴量を記憶する。音声特徴量整合部２４は、音声特徴量導出部２２が導出した音声特徴量と、一次記憶部２３に記憶されていた音声特徴量との比較を行う。出力部２５は、音声特徴量整合部２４の処理結果を区間対応関係導出手段７に出力する。

本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の一例について説明する。図３は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の一例を示すフローチャートである。図３は、図２に示されたしている。ここでは、コンテンツが音声を含む映像であり、コンテンツ区間抽出に音声解析を用いた場合を例に説明する。

音声分割部２１は、音声の第一の分割を行う（ステップＳ１０１）。すなわち、音声分割部２１は、音声の第一の分割として、入力映像の無音区間を抽出し、２つの無音区間の間の音声区間を検出する。無音区間は、入力映像の音声トラックもしくは入力音声の音声パワーの測定により抽出される。音声特徴量導出部２２は、音声の第一の分割によって得られた第一の音声区間に関して、音声特徴量を導出する（ステップＳ１０２）。音声特徴量としては、区間内の音声の平均基本周波数、平均発話時間長、平均音声パワーが例示される。一次記憶部２３は、音声特徴量導出部２２が音声特徴量を導出したときに、その第一の音声区間の開始時間と音声特徴量とが記憶されているか否かを判定する（ステップＳ１０３）。その第一の音声区間の開始時間と音声特徴量とが記憶されていない場合、一次記憶部２３は、その第一の音声区間の開始時間と音声特徴量を記憶する（ステップＳ１０４）。

既にその第一の音声区間の開始時間と音声特徴量とが記憶されている場合、音声特徴量整合部２４は、音声特徴量導出部２２が導出した新規音声特徴量と、一次記憶部２３に記憶されている音声特徴量との比較を行う（ステップＳ１０５）。両区間の音声特徴量が、あらかじめ設定した閾値より小さい（類似している）場合、音声特徴量整合部２４は、同一人物による発話が継続していると判定する（ステップＳ１０６：ＹＥＳ）。音声分割部２１は、音声データが終了していない場合（ステップＳ１０９：ＮＯ）、次の無音区間までの音声情報を抽出する（ステップＳ１０１）。
両区間の音声特徴量が異なっている場合（ステップＳ１０６：ＮＯ）、音声特徴量整合部２４は、音声の発話者が変化したと判定する。出力部２５は、一次記憶部２３中に記憶されている開始時間と、現在の音声区間の開始時間の間の区間を単一話者の発話区間として出力する（ステップＳ１０７）。すなわち、音特徴の変化点解析により、単一話者の発話区間が検出される。同時に、一次記憶部２３は、音声特徴量と開始時間を新規に得られたものに更新する（ステップＳ１０８）。音声分割部２１は、音声データが終了していない場合（ステップＳ１０９：ＮＯ）、引き続き次の音声の無音区間を抽出する（ステップＳ１０１）。

以上の処理が、音声データが終了するまで継続される。なお、音声特徴量として、ここでは、声の高さ、声の長さ、声の大きさのような韻律情報の特徴の変化（音声特徴量の変化の一例）を得るために、平均基本周波数、平均発話時間長、平均音声パワーを用いている。しかし、韻律情報を表す別の尺度を用いてもよい。また、言い回しや口癖といった会話形態の特徴量を利用してもよい。その場合、少なくとも一つの韻律情報の特徴の変化を用いればよい。

また、ここでは、コンテンツ区間抽出手段５は、音声区間における音声特徴量の類似度をもとに発話者の変化点を検出して話者区間を特定する。話者の識別を行っているのではなく、話者の変化した点を検出していることで、話者識別や音声認識と比較して高精度に話者区間を検出できる。もちろん、コンテンツ区間抽出手段５は、各時間における音声特徴量から、発話者の特定を行い、話者識別結果から話者区間を抽出してもよい。

図４は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の他の一例を示すブロック図である。コンテンツ区間抽出手段５は、シーン分割部３１と、人物抽出および人物特徴量導出部３２と、一次記憶部３３と、人物特徴量整合部３４と、出力部３５とを含む。シーン分割部３１は、コンテンツ記憶手段３から読み出されたコンテンツからシーンチェンジを検出することによって連続したフレームで構成される第一の映像区間を抽出する。人物抽出および人物特徴量導出部３２は、第一の映像区間に関して人物特徴量を導出する。一次記憶部３３は、第一の映像区間の開始時間と人物特徴量を記憶する。人物特徴量整合部３４は、人物特徴量導出部３２が導出した人物特徴量と人物特徴量および開始時間記憶部３３に記憶されている人物特徴量との比較を行う。出力部３５は、人物特徴量整合部３４の処理結果を区間対応関係導出手段７に出力する。

本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の他の一例について説明する。図５は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段５の動作の他の一例を示すフローチャートである。ここでは、入力として映像情報を想定し、会話中の発話者が映像中に映っているということを仮定して話者区間の導出を行う場合を例にする。

シーン分割部３１は、入力映像のフレーム間の差分を測定して映像情報が大きく変化した部分を検出し、検出結果にもとづいて視覚的に連続したフレームで構成される第一の映像区間を抽出する（ステップＳ２０１）。人物抽出および人物特徴量導出部３２は、映像中に映っている人物領域を抽出し、人物領域に対して映像処理を施して人物特徴量を導出する（ステップＳ２０２）。人物領域抽出の方法としては、映像中の動物体が人物のみである場合に、背景差分法として監視の分野では広く使われている方法である前フレームとの差分値が特定値以上の領域を人物領域として採用する方法が例示される。人物の特徴量としては、顔の形状等の詳細に記述されている顔特徴量、人物全体の色の分布や模様及び境界の形状を記述した低次の視覚特徴量に例示される。色の分布等や模様を利用することにより、利用者の着ている服の特徴（人物の衣服の視覚的特徴）を考慮に入れることができるので、単純な会議等での人物変化の抽出には十分適用可能である。

人物特徴量および開始時間記憶部３３は、人物抽出および人物特徴両導出部３２が人物特徴量を導出したときに、その第一の映像区間の開始時間と人物特徴量が記憶されているか否かを判定する（ステップＳ２０３）。その第一の映像区間の開始時間と人物特徴量が記憶されていない場合（ステップＳ２０３：ＮＯ）、その第一の映像区間の開始時間と人物特徴量を記憶する（ステップＳ２０４）。すなわち、映像中の視覚的特徴の変化点解析により、第一の映像区間が検出される。既にその第一の映像区間の開始時間と人物特徴量が記憶されている場合（ステップＳ２０３：ＹＥＳ）、人物特徴量整合部３４は、人物抽出および人物特徴量導出部３２が導出した新規人物特徴量と、人物特徴量および開始時間記憶部３３に記憶されている人物特徴量との比較を行う（ステップＳ２０５）。そして、人物特徴量整合部３４は、両区間の人物特徴量があらかじめ設定した閾値より類似している場合、同一人物による発話が継続していると判定する（ステップＳ２０６：ＹＥＳ）。シーン分割部３１は、映像データが終了していない場合（ステップＳ２０９：ＮＯ）、次の映像情報が大きく変化した部分を抽出する（ステップＳ２０１）。

人物特徴量整合部３４は、両区間の人物特徴量が異なっている場合、映像中の発話者が変化したと判定する（ステップＳ２０６：ＮＯ）。出力部３５は、一次記憶部３３に記憶されている開始時間と、現在の映像区間の開始時間との間の区間を単一話者の発話区間として出力する（ステップＳ２０７）。同時に、一次記憶部３３は、人物特徴量と開始時間を新規に得られたものに更新する（ステップＳ２０８）。シーン分割部３１は、映像データが終了していない場合（ステップＳ２０９：ＮＯ）、次の映像情報が大きく変化した部分を抽出する（ステップＳ２０１）。

以上の処理が、映像データが終了するまで継続される。なお、映像特徴量としては、色分布、形状、エッジヒストグラムなどの低次の特徴量や、目のカテゴリ、目，鼻，口の配置等の高次の特徴量が例示される。また、特徴量として、適切な一つを採用してもよいし、複数を組み合わせてもよい。また、人物が大きく動かないという仮定を導入すれば、人物領域を抽出せず、背景の情報も含めて視覚特徴量とすることも可能である。

図６は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の更に他の一例を示すブロック図である。図６は、音声に関する区間抽出と映像に関する区間抽出の双方を行うコンテンツ区間抽出手段５を示している。音声区間抽出部８１は、例えば、図２に示される音声分割部２１、音声特徴量導出部２２、一次記憶部２３、音声特徴量整合部２４および出力部２５を備える。映像区間抽出部８２は、例えば、図４に示されるシーン分割部３１、人物抽出および人物特徴量導出部３２、一次記憶部３３、人物特徴量整合部３４および出力３５を備える。音声映像区間抽出部（音声映像区間統合手段）８３は、音声区間抽出部８１の出力と映像区間抽出部８２の出力から、コンテンツ区間を決定する。音声映像区間抽出部８３は、例えば、音声区間抽出部８１の出力と映像区間抽出部８２の出力がともに、発話者が変わったことを示す時点のみを採用してコンテンツ区間を決定する。

図７は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の動作の更に他の一例を示すフローチャートである。音声区間抽出部８１は、入力映像の音声に基づいて、入力映像を複数の音声区間に分割する（ステップＳ１２１）。例えば、図３に示す動作を実行する。一方、映像区間抽出部８２は、入力映像の映像に基づいて、入力映像を複数の映像区間に分割する（ステップＳ１２２）。例えば、図５に示す動作を実行する。ただし、ステップＳ１２１とステップＳ１２２とは、同時に行っても良いし、ステップＳ１２２を先に行っても良い。次に、音声映像区間抽出部（音声映像区間統合手段）８３は、音声区間抽出部８１の出力と映像区間抽出部８２の出力とに基づいて、コンテンツ区間を決定する（ステップＳ１２３）。例えば、音声映像区間抽出部８３は、音声区間抽出部８１の出力と映像区間抽出部８２の出力がともに、発話者が変わったことを示す時点のみを採用してコンテンツ区間を決定する。

図８は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の構成の別の一例を示すブロック図である。図８は、音声解析と映像解析の双方を使ってコンテンツの単一話者区間の抽出を行うコンテンツ区間抽出手段５を示している。

シーン分割部９１は、コンテンツの特徴量を解析してシーンに分割する。シーン分割部９１は、図２に示された音声分割部２１のように音声特徴量を用いてもよいし、図４に示された人物抽出および人物特徴量導出部３２のように視覚的特徴量を用いてもよい。また、音声特徴量と人物特徴量との和をとってもよい。すなわち、発話者が変化した時点を導出するために、映像中の視覚的特徴の変化点解析と音声中の音特徴の変化点解析を行って双方の結果を統合するようにしてもよい。音声特徴量導出部９２は、抽出されたシーンの音声特徴量を導出する。視覚的特徴量導出部９３は、抽出されたシーンの視覚的特徴量を導出する。一次記憶部９４は、抽出された音声特徴量及び視覚的特徴量が蓄積されていない場合、それら音声特徴量および視覚特徴量とその開始時間とを記憶する。既に、音声特徴量および視覚特徴量が記憶されている場合、音声特徴量整合部９５は、音声特徴量導出部９２から入力した音声特徴量と、一次記憶部９４に記憶されている音声特徴量との比較を行う。同様に、視覚的特徴量整合部９６は、視覚的特徴量導出部９３から入力した視覚特徴量と、一次記憶部９４に記憶されている視覚特徴量との比較を行う。

音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合、一次記憶部９４に記憶される音声特徴量および視覚的特徴量をクリアして、現在の時間と開始時間とを出力部９７に送る。出力部９７はそれらを区間対応関係導出手段７に出力する。なお、音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きく、かつ、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合に、現在の時間と開始時間とを出力部９７に送るようにしてもよい。

図９は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段５の動作の別の一例を示すフローチャートである。

シーン分割部９１は、コンテンツの特徴量を解析してシーンに分割する（ステップＳ１４１）。シーン分割部９１は、図２に示された音声分割部２１のように音声特徴量を用いてもよいし、図４に示された人物抽出および人物特徴量導出部３２のように視覚的特徴量を用いてもよい。また、音声特徴量と人物特徴量との和をとってもよい。すなわち、発話者が変化した時点を導出するために、映像中の視覚的特徴の変化点解析と音声中の音特徴の変化点解析を行って双方の結果を統合するようにしてもよい。音声特徴量導出部９２は、抽出されたシーンの音声特徴量を導出する（ステップＳ１４２）。視覚的特徴量導出部９３は、抽出されたシーンの視覚的特徴量を導出する（ステップＳ１４３）。ただし、ステップＳ１４２とステップＳ１４３とは、同時に行われても良いし、ステップＳ１４３が咲きに行われても良い。一次記憶部９４は、抽出された音声特徴量及び視覚的特徴量が蓄積されているか否かを判定する（ステップＳ１４４）。抽出された音声特徴量及び視覚的特徴量が蓄積されていない場合（ステップＳ１４４：ＮＯ）、一次記憶部９４は、それら音声特徴量および視覚特徴量とその開始時間とを記憶する（ステップＳ１４５）。

既に、音声特徴量および視覚特徴量が記憶されている場合（ステップＳ１４４：ＹＥＳ）、音声特徴量整合部９５は、音声特徴量導出部９２から入力した音声特徴量と、一次記憶部９４に記憶されている音声特徴量との比較を行う。同様に、視覚的特徴量整合部９６は、視覚的特徴量導出部９３から入力した視覚特徴量と、一次記憶部９４に記憶されている視覚特徴量との比較を行う（ステップＳ１４６）。

音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも小さい（類似している）場合、かつ、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも小さい（類似している）場合、音声特徴量導出部９２及び視覚的特徴量導出部９３は、同一人物による発話が継続していると判定する（ステップＳ１４７：ＹＥＳ）。シーン分割部９１は、データが終了していない場合（ステップＳ１５０：ＮＯ）、シーン分割を継続する（ステップＳ１４１）。

音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合、音声特徴量導出部９２、または、視覚的特徴量導出部９３は、同一人物による発話が終了したと判定する（ステップＳ１４７：ＮＯ）。一次記憶部９４は、記憶される音声特徴量および視覚的特徴量をクリアして、現在の時間と開始時間とを出力部９７に送る（ステップＳ１４８）。出力部９７はそれらを区間対応関係導出手段７に出力する（ステップＳ１４９）。

なお、音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、かつ、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合に、同一人物による発話が継続していると判定し、現在の時間と開始時間とを出力部９７に送るようにしてもよい。
その場合、音声特徴量導出部９２から入力した音声特徴量と一次記憶部９４に記憶されている音声特徴量との差があらかじめ定めた閾値よりも小さい場合、又は、視覚的特徴量導出部９３から入力した視覚的特徴量と一次記憶部９４に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも小さい場合に、同一人物による発話が終了したと判定する。

このようにすることにより、音声では区別できなかった話者区間を映像から識別したり、また、顔または服などの視覚的特徴量が類似していたため映像からは検出困難だった話者区間を音声特徴により抽出することができる。すなわち、コンテンツ区間を精度よく検出することが可能になる。

図１に示された文書区間抽出手段６は、文書記憶手段４に記憶された文書情報から、文書中の各発話者に対応した区間（文書区間）の抽出を行う。抽出された文書区間においては、単一話者の発言に対応する文書情報が記述される。文書情報からの発話者に対応した文書区間の抽出には、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法がある。

図１０は、本発明の文書対応付け装置の実施の形態における文書区間抽出手段６の動作の一例を示すフローチャートである。文書区間抽出手段６は、文書記憶手段４に記憶された文書情報から、文書区切りを示す情報（以下「文書区切情報」）を抽出する（ステップＳ１６１）。文書区切情報としては、文書中の改行（空行）、文字フォントの相違、文字の色の相違、文字のレイアウト、発話者の名前の記載などに例示される。次に、文書区間抽出手段６は、文書区切情報に基づいて、最適な文書区間の抽出方法を選択する（ステップＳ１６２）。文書区切情報と文書区間の抽出方法との対応関係（テーブル）は、図示されない記憶部に格納されている。文書情報からの発話者に対応した文書区間の抽出方法には、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法がある。そして、文書区間抽出手段６は、文書中の各発話者に対応した区間（文書区間）の抽出を行う。抽出された文書区間においては、単一話者の発言に対応する文書情報が記述される。ただし、文書情報があらかじめ決まっている場合、ステップＳ１６１及びＳ１６２を省略し、文書情報に対応する文書区間の抽出方法を直ぐに実行しても良い。

以下、文書区間抽出手段６が実行する文書区間の抽出方法の具体例を説明する。
図１１Ａ〜図１１Ｄは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図１１Ａに示す例では、発話者間の発言に対して空行が挿入されている。よって、文書区間抽出手段６は、空行をもとに文書区間を抽出することができる。図１１Ｂに示す例では、対談における文書が例示されている。そして、ホストの発言が斜字で表示されている。よって、文書区間抽出手段６は、ゲストの発言内容とホストの発言内容とを識別して、文書区間の抽出を行うことができる。図１１Ｃに示す例では、発話者ごとに色が異なっている。複数の発話者を区別する際によく利用される。よって、文書区間抽出手段６は、色情報を用いて文書区間を抽出することができる。図１１Ｄに示す例では、発話者ごとに記載場所が整理されている。このように発話者ごとに記載場所が整理されている場合には、発話者の名前が直接記入されていなくても、文書区間抽出手段６は、単一発話者と推定される区間を抽出することができる。なお、ここで抽出した区間はあくまで候補であり、単一発話者の区間で区切られていることが望ましいが、厳密に単一発話者の発言でまとまっていなくてもよい。なお、図１１Ａ〜図１１Ｄを参照して説明される方法では、文書の構造解析の一例が実施されていることになる。

図１２Ａ〜図１２Ｃは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。図１２Ａ〜図１２Ｃは、文書中に記入された発話者に関する記述を利用して文書区間を抽出する方法を示している。図１２Ａに示す例では、発言の前に「名前：」の形式で発話者が記入されている。文書区間抽出手段６は、「名前：」に基づいて文書区間を抽出することができる。図１２Ｂに示す例では、名前の代わりに、「Ｑｕｅｓｔｉｏｎ」、「Ａｎｓｗｅｒ」のような表現が使われている。文書区間抽出手段６は、「Ｑｕｅｓｔｉｏｎ」、「Ａｎｓｗｅｒ」に基づいて文書区間を抽出することができる。図１２Ｃに示す例では、発言者の名前が別カラムで表示されており、ドラマの台本や議事録などで広く用いられる。こうした情報を用いれば、文書区間抽出手段６は、容易に発話者および発話者区間に関する情報を文書から抽出することができる。なお、図１２Ａ〜図１２Ｃを参照して説明される方法でも、文書の構造解析の一例が実施されていることになる。

図１３は、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の更に他の一例を示す図である。図１３は、構造化文書におけるタグを利用して文書区間の抽出する方法を示している。文書区間抽出手段６は、例えば「Ｓｐｅａｋｅｒ」タグによって文書区間の抽出することができる。なお、図１１Ａ〜図１３に例示された文書から文書区間を抽出する方法以外にも、文書の書式情報や発話者に関する記述を利用した文書区間抽出は可能である。また、文書区間抽出手段６は、これらの方法を組み合わせてより高精度に発話者区間を抽出するということも可能である。さらに、文書区間抽出手段６は、音声と同様に、文書中の記述の会話相当部の口癖や言い回しのような会話特徴の変化にもとづいて文書区間を導出してもよい。なお、図１３を参照して説明される方法でも、文書の構造解析の一例が実施されていることになる。

次に、本発明の文書対応付け装置の実施の形態におけ区間対応関係導出手段７について説明する。図１４は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の一例を示すブロック図である。図１４に示す例では、区間対応関係導出手段７は、コンテンツ長正規化部４１と、文書長正規化部４２と、区間整合度導出部（区間整合手段）４３と、区間対応関係記憶部４４と、区間統合部４５と、出力部４６とを含む。コンテンツ長正規化部４１は、抽出された各区間におけるコンテンツ長の正規化を行う。文書長正規化部４２は、各文書区間の長さを正規化する。区間整合度導出部（区間整合手段）４３は、コンテンツ区間と文書区間の対応関係を導出する。区間対応関係記憶部４４は、区間毎の対応関係を記憶する。区間統合部４５は、隣接する区間を統合してコンテンツと文書とを一対一に対応付ける。出力部４６は、対応関係を出力する。

次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法について説明する。図１５は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の一例を示すフローチャートである。図１６Ａ及び図１６Ｂは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図１７は、対応関係導出方法における正規化を説明する図である。なお、図１６に示す例では、説明簡略化のため、コンテンツ区間抽出手段５によって抽出された話者区間が６区間（［ａ］−［ｆ］）、文書区間抽出手段６によって抽出された文書区間が７区間（［１］−［７］）であるとする。

コンテンツ長正規化部４１は、抽出された各区間におけるコンテンツ長の正規化を行う（ステップＳ３０１）。正規化に際して、図１７（ａ）に示すようにコンテンツが音声を含む場合、まず、各区間中の無音部を抽出する。次に、抽出された無音部を各区間から除く。そして、各区間の長さが音声部分の長さに比例し、総和が１．０となるように正規化する。この状態が図１７（ｂ）である。なお、図１６Ａ（ａ）および図１７（ａ）に示すコンテンツ情報は無音部を含むとする。また、図１７（ｃ）に示すように、無音部を除かずに、単なる区間長に比例するように正規化を行ってもよい。コンテンツが音声を含まない場合、映像情報から人物検出を行い、人物を含まない場合を各区間から除いて各区間の長さが音声部分の長さに比例し、総和が１．０となるように正規化してもよい。人物を含まない区間を除かずに、単なる区間長に比例するように正規化を行ってもよい。

文書長正規化部４２は、各文書区間の長さを正規化する（ステップＳ３０２）。例えば、各区間の長さを各区間に含まれる文書量（又は文字量）に比例した長さとする。双方を正規化してならべた結果の一例が図１３Ａに示されている。図１６Ａ（ａ）はコンテンツ情報、図１６Ａ（ｂ）は文書情報をそれぞれ示す。

区間整合度導出部４３は、コンテンツ区間と文書区間の個別の対応関係を導出する（ステップＳ３０３）。例えば、正規化軸上での重なりを調べて、最も重なった領域と対応関係があるとする。図１６Ａに示す例では、その対応関係は、文書情報で考えると、［１］→［ａ］，［２］→［ａ］，［３］→［ｂ］，［４］→［ｃ］，［５］→［ｄ］，［６］→［ｆ］，［７］→［ｆ］となる。コンテンツ情報で考えると、［ａ］→［２］，［ｂ］→［３］，［ｃ］→［４］，［ｄ］→［５］，［ｅ］→［５］，［ｆ］→［７］となる。区間対応関係記憶部４４は、区間整合度導出部４３が導出した区間毎の対応関係を記憶する。

区間統合部４５は、コンテンツと文書とが完全に一対一に対応しているか否かを判定する（ステップＳ３０４）。コンテンツと文書とが完全に一対一に対応していない場合（ステップＳ３０４：ＮＯ）、区間統合部４５は、区間対応関係記憶部４４が記憶する区間毎の対応関係に基づいて、コンテンツと文書とが完全に一対一に対応するまで、隣接する区間を統合して、コンテンツと文書が一対一に対応付くようにする（ステップＳ３０４、Ｓ３０５）。例えば、同一区間に対応する隣接区間を統合する処理（例示：［１］→［ａ］、［２］→［ａ］であったとき、［１］と［２］を統合する）を繰り返すことにより、コンテンツと文書との一対一の対応を得ることができる。コンテンツと文書とが完全に一対一に対応した場合（ステップＳ３０４：ＹＥＳ）、出力部４６は、区間統合部４５による統合後の区間を一つの区間とみなして、対応関係を出力する（ステップＳ３０６）。

図１６Ａに示す例では、上記の処理により、図１３Ｂに示すように、［［１］［２］⇔［ａ］］，［［３］⇔［ｂ］］，［［４］⇔［ｃ］］，［［５］⇔［ｄ］［ｅ］］，［［６］［７］⇔［ｆ］］の対応関係および区間を抽出することができる。以上のように、区間対応関係導出手段７は、抽出されたコンテンツ区間の区間長と抽出された文書区間の文書量とを比較することにより対応付けを行う。

区間対応関係導出手段７は、コンテンツの変化の確信度を導入して対応関係を導出することもできる。すなわち、コンテンツ区間抽出手段５から、導出された区間情報に加えて、区間抽出のために用いた変化点抽出の確信度をスコアとして入力し、変化点抽出の確信度を用いて対応関係を導出する。例えば、変化の確信度が高い領域において、区間統合部４５が、変化の確信度の高いスコアをもつ両区間に対して、統合処理を行う代わりに、一方を別の区間と統合する。図１８Ａ及び図１８Ｂは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。すなわち、図１５Ａに示す例において、［ｄ］→［ｅ］の変化の確信度が０．９０（高い）、［ｅ］→［ｆ］の確信度が０．４０（低い）である場合、長さの短い［ｅ］を［ｆ］と統合して対応関係を導出する。この結果、図１５Ｂに示すように確信度を反映した対応関係を導出することができる。

また、コンテンツ区間の確信度のかわりに、文書区間抽出の際の確信度を利用したり、または、コンテンツ区間と文書区間の双方で確信度を利用したり場合にも、同様の処理が可能である。

図１９は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の他の一例を示すブロック図である。区間対応関係導出手段７は、話者情報記憶部５１と、話者識別部５２と、文書話者情報抽出部５３と、区間整合度導出部５４とを含む。話者情報記憶部５１は、人物を特定するための特徴量と人物との対応関係を記憶する。話者識別部５２は、話者を特定する。文書話者情報抽出部５３は、文書中から話者に関する情報を抽出する。区間整合度導出部５４は、話者情報をもとに区間の整合を行う。

話者情報記憶部５１は、あらかじめ、人物を特定するための特徴量（音声特徴量または視覚的特徴量を含む。）と人物との対応関係を記録する。特徴量は、人物識別のためにあらかじめ設定される。例えば、音声特徴量を用いる場合には、特定の音素あるいは単語に関する音高、ピッチといった発話者毎に異なる話者固有の特徴量を使用する。また、言い回し、口癖といった情報を利用してもよい。視覚的特徴量を用いる場合には、話者の顔についての特徴として、目，鼻，口の形状や位置関係などを使用する。特徴量として、顔認識技術や話者識別技術として利用される既知の特徴量を利用することもできる。

話者識別部５２は、コンテンツ区間抽出手段５からコンテンツ区間の情報およびその区間に含まれる特徴量を入力し、それらを、話者情報記憶部５１に記憶されている特徴量と比較することによって１つまたは複数の区間における話者を特定する。このように、特徴量整合識別手段としての話者識別部５２は、話者情報記憶部５１が記憶する特徴量とコンテンツ特徴量抽出手段（具体的にはコンテンツ区間抽出手段５）が抽出した特徴量との比較を行って話者の識別を行う。話者識別部５２は、例えば、入力特徴量がもっとも近い話者情報記憶部５１中の人物を抽出する。会議やテレビ番組等であらかじめ登場人物が限られている場合には、それらの制約情報を考慮して識別を行ってもよいし、候補となる話者をすべて列挙してもよい。文書話者情報抽出部５３は、１つまたは複数の文書区間における話者を特定することによって、文書中から話者に関する情報（話者情報）を抽出する。区間整合度導出部５４は、話者情報をもとに区間の整合を行う。すなわち、話者区間と文書区間とを対応付ける。

次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する他の対応関係導出方法について説明する。図２０は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の他の一例を示すフローチャートである。図２１及び図２２は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。なお、この例は、図１２Ａ〜図１３に示されるように話者情報が文書中に記述されて抽出可能であるときに有効である。

話者識別部５２は、コンテンツ区間抽出手段５から入力されるコンテンツ区間の情報およびその区間に含まれる特徴量に基づいて、それらを、話者情報記憶部５１に記憶されている特徴量と比較することによって１つまたは複数の区間における話者（話者区間）を特定する（ステップＳ３２１）。一方、文書話者情報抽出部５３は、１つまたは複数の文書区間における話者を特定することによって、文書中から話者に関する情報（話者情報）を抽出する（ステップＳ３２２）。ただし、ステップＳ３２１とステップＳ３２２とは、同時に行っても良いし、ステップＳ３２２を先に行っても良い。次に、区間整合度導出部５４は、話者情報をもとに区間の整合を行う。すなわち、話者区間と文書区間とを対応付ける（ステップＳ３２３）。このようにして、動作する。

図２１（（ａ）コンテンツ情報、（ｂ）文書情報）に示す区間整合部５４による区間の正豪雨処理の一例では、話者識別部５２がコンテンツ情報（：コンテンツ区間）にもとづいて話者情報記憶部５１に記憶されている特徴量を利用して話者を特定した結果である人物識別情報に従って区間の対応がとられている。区間の対応に関しては、ダイナミックプログラミングマッチング（ＤＰマッチング）の手法を導入してもよい。コンテンツ情報にもとづく話者識別の精度が低く図２１に例示するように「田中」が抽出されない場合には、「田中」をスキップして対応をとることができる。

図２２（（ａ）コンテンツ情報、（ｂ）文書情報）は、話者識別部５２が複数の人物を候補として抽出した場合の区間整合度導出部５４による区間の整合処理例を説明するための説明図である。この場合、文書情報にもとづく人物情報によって、［ｆ］の領域は文書情報の［７］の区間と対応付けることができる。なお、「高木」や「山下」は文書中に登場しないとする。また、［ａ］の区間は、「山本」または「田中」の区間であるが、両方の名前が文書情報にでているため、［１］および［２］と対応付けられる。

図２３は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段７の構成の別の一例を示すブロック図である。区間対応関係導出手段７は、音声認識を行って入力音声に対する候補テキストを生成する音声認識部６１と、候補テキストと文書記憶手段４中の文書の対応付けを行う候補テキスト文書対応部６２とを含む。

図２４は、候補テキスト文書対応部６２の構成の一例を示すブロック図である。候補テキスト文書対応部６２は、候補テキスト内単語抽出部７１と、文書区間内単語抽出部７２と、候補テキスト／文書区間対応部７４と、候補テキスト／文書区間単語類似度計算部７３とを含む。候補テキスト内単語抽出部７１は、一つまたは複数の単語を区間の候補テキストの中から抽出する。文書区間内単語抽出部７２は、各区間における一つまたは複数の単語を抽出する。候補テキスト／文書区間対応部７４は、各区間の対応付けを行う。候補テキスト／文書区間単語類似度計算部７３は、区間内距離を算出する。

次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する別の対応関係導出方法について説明する。図２５は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段７が実行する対応関係導出方法の別の一例を示すフローチャートである。図２６及び図２７は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。コンテンツには音声情報が含まれているとする。
音声認識部６１は、コンテンツ区間抽出手段５から、コンテンツ区間についての情報を入力される。また、コンテンツ記憶手段３からコンテンツ情報を入力される。そして、コンテンツ情報から音声情報を取り出し、音声認識を行って、入力音声に対する候補テキストを生成する（ステップＳ３４１）。音声認識方式については種々の手法があるが、音素をもちいた認識方法、直接単語テンプレートを利用して音声認識する方法、話者に合わせてテンプレートを変換する等、この実施の形態ではいずれの方法を用いてもよい。

候補テキスト文書対応部６２は、音声認識部６１からのコンテンツの各区間の候補テキストをうけとり、候補テキストと文書記憶手段４中の文書との対応付けを行う。

候補テキスト文書対応部６２は、候補テキストにおける単語と、文書区間内の単語とを比較する。そして、一致した単語または類似した単語を含むコンテンツ区間と文書区間とを対応付ける。具体的には、候補テキスト内単語抽出部７１が、各コンテンツ区間に使用されているひとつまたは複数の単語を区間の候補テキストの中から抽出する（ステップＳ３４２）。文書区間内単語抽出部７２は、各文書区間における一つまたは複数の単語を抽出する（ステップＳ３４３）。なお、ステップＳ３４２とステップＳ３４３とは同時に行っても良いし、ステップＳ３４３を先に行っても良い。次に、候補テキスト／文書区間単語類似度計算部７３は、コンテンツ区間における単語と文書区間における単語の類似度を判定するための区間内距離の計算を行う（ステップＳ３４４）。候補テキスト／文書区間対応部７４は、区間内距離に基づいて、抽出された単語組を比較することによりコンテンツ区間と文書区間との対応付けを行い、結果を出力する（ステップＳ３４５）。

図２６は、候補テキスト文書区間対応部７４による候補テキストと文書記憶手段４中の文書との対応付けの一例を示している。（ａ）はコンテンツ区間、（ｂ）はコンテンツ区間の開始時間、（ｃ）は候補テキスト単語、（ｄ）は文書区間内単語、（ｅ）は文書区間、（ｆ）は文書をそれぞれ示す。図２６に示す例では、各文書区間では、その文書区間において重要である単語（文書区間の内容を特徴付ける基本単語）として、（情報通信、音声認識、意味情報、・・・）、（セキュリティ、ビデオカメラ、動物体、・・・）、（実験、・・・）、（研究、・・・）が抽出されている。各音声映像区間すなわちコンテンツ区間（１３：４１、１５：４１）、（１５：４１、１６：５０）、（１６：５０、２０：１５）、（２０：１５、２１：１３）、・・・から、おのおの、（音声認識、意味情報、・・・）、（情報通信、意味情報，・・・）、（セキュリティ、・・・）、（研究、・・・）といった単語が抽出されている。このような単語は、文書中から単に名詞だけを抽出することによって得られるものでもよいし、あらかじめ辞書に重要単語を登録しておき、辞書中の単語と整合をとることで抽出されもよい。また、単語の使用頻度解析によって、重要度を決定してもよい。

図２７は、候補テキスト文書区間対応部７４による候補テキストと文書記憶手段４中の文書との対応付けの一例を示している。（ａ）はコンテンツ区間、（ｂ）はコンテンツ区間の時間、（ｃ）は文書区間、（ｄ）は文書、（ｅ）対応関係表をそれぞれ示す。候補テキスト文書区間対応部７４は、単語列の類似度（重複度）を測定することにより、図２７（ｅ）に対応関係表として例示するように、各区間の対応関係を導出することができる。なお、図２６に例示するように、対応がとれない場合には「対応がとれない」としてしまってもよい。また、コンテンツ区間と文書区間との対応関係導出にはダイナミックプログラミングマッチング（ＤＰマッチング）の手法を利用してもよい。

以上のようにして、コンテンツ区間と文書区間の対応付けが実現される。対応付けは、上記の区間対応関係導出手段７の各構成（図１４、図１９、図２３）の組み合わせによって実現してもよい。

図１に示された出力手段８は、区間対応関係導出手段７が導出した音声または映像と文書区間との対応関係を出力する。出力の形態の一例として、図２７（ｅ）に示されているように、文書の区間の先頭にコンテンツ中の時間を付与した対応関係表がある。この他、コンテンツの時間情報と、文書区間との対応関係を表す表現であれば、どのような出力形態であってもよい。

本発明は、コンテンツと文書情報とを自動的に対応付けることによってコンテンツと文書情報を同期表示する情報提示装置や、テキスト情報でコンテンツの該当部分を検索したり頭だしをするマルチメディア表示装置や、マルチメディア検索装置といった用途に適用可能である。また、議事録等を参照しながら実際のコンテンツを確認する議会映像閲覧装置や、講演の資料と講演内容を参照する講演支援システム、教育支援システムといった用途に適用可能である。

Claims

コンテンツ区間抽出部と文書区間抽出部と区間対応関係導出部とを具備する文書対応付け装置を用いた文書対応付け方法であって、
（ｂ）前記コンテンツ区間抽出部が、音声情報及び映像情報のうちの少なくとも一方を含むコンテンツを分割して複数のコンテンツ区間とするステップと、
（ｃ）前記文書区間抽出部が、前記コンテンツの内容を記述した文書を分割して複数の文書区間とするステップと、
（ｄ）前記区間対応関係導出部が、前記コンテンツにおける前記複数のコンテンツ区間の区間長の変化の仕方を示す第１変化パタンを、前記複数のコンテンツ区間の全区間長で割ることで正規化した正規化第１変化パタンと、前記文書における前記複数の文書区間の文書量の変化の仕方を示す第２変化パタンを、前記複数の文書区間の全文書量で割ることで正規化した正規化第２変化パタンとの比較に基づいて、前記正規化第１変化パタンにおける前記複数のコンテンツ区間の位置と、前記正規化第２変化パタンにおける前記複数の文書区間の位置とから、前記複数のコンテンツ区間と前記複数の文書区間との対応関係を導出するステップと
を具備し、
前記（ｄ）ステップは、
（ｄ１）前記区間対応関係導出部が、前記前記複数のコンテンツ区間の数と前記複数の文書区間の数とが一対一に対応するように、前記複数のコンテンツ区間のうちの隣接する二つのコンテンツ区間を統合して一つのコンテンツ区間とすること、及び、前記複数の文書区間のうちの隣接する二つの文書区間を統合して一つの文書区間とすること、の少なくとも一方を実行するステップを備え、
前記（ｄ１）ステップは、
（ｄ１１）前記区間対応関係導出部が、前記二つのコンテンツ区間を統合して前記一つのコンテンツ区間とする場合には、前記複数のコンテンツ区間を分割する区切りとしての変化点を抽出するために行った変化点解析における変化点抽出の確信度が相対的に低い前記二つのコンテンツ区間を選択し、前記二つの文書区間を統合して一つの文書区間とする場合には、前記複数の文書区間を分割する区切りとしての変化点を抽出するために行った変化点解析における変化点抽出の確信度が相対的に低い前記二つの文書区間を選択するステップを含む
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｄ）ステップは、
（ｄ２）前記区間対応関係導出部が、前記コンテンツに含まれる人物を特定する特徴量に基づいて、前記正規化第１パタンにおける前記複数のコンテンツ区間の各々の話者を特定するステップと、
（ｄ３）前記区間対応関係導出部が、前記文書に含まれる人物を特定する話者に関する情報としての話者情報に基づいて、前記正規化第２パタンにおける前記複数の文書区間の各々の話者を特定するステップと、
（ｄ４）前記区間対応関係導出部が、前記正規化第１パタン及び前記正規化第２パタンで特定された前記話者に基づいて、前記正規化第１変化パタンと前記正規化第２変化パタンとの対応付けを行うステップと
を備える
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｄ）ステップは、
（ｄ５）前記区間対応関係導出部が、前記複数のコンテンツ区間の各々における無音区間を削除するステップと、
（ｄ６）前記区間対応関係導出部が、無音区間を削除された前記複数のコンテンツ区間の各々の区間長を求めるステップと、
（ｄ７）前記区間対応関係導出部が、前記無音区間を削除された複数のコンテンツ区間の区間長に基づいて、前記正規化第１変化パタンを求めるステップと
を備える
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｂ）ステップは、
（ｂ１）前記コンテンツ区間抽出部が、前記コンテンツに含まれる人物を特定する特徴量を抽出するステップと、
（ｂ２）前記コンテンツ区間抽出部が、前記特徴量が予め設定した閾値より類似している区間を、一人の話者の発話が継続している一つのコンテンツ区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数のコンテンツ区間を抽出するステップを備える
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｃ）ステップは、
（ｃ１）前記文書区間抽出部が、前記文書に含まれる文書区切りを示す文書区切情報を抽出するステップと、
（ｃ２）前記文書区間抽出部が、前記文書区切情報間の区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出するステップを備える
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｄ）ステップは、
（ｄ８）前記区間対応関係導出部が、前記複数のコンテンツ区間の前記第１変化パタンと前記複数の文書区間の前記第２変化パタンとについて、いずれか一方を標準パタンとし、他方を入力パタンとして、パタン認識におけるダイナミックプログラミングマッチングの方法により、前記対応付けを行うステップを備える
文書対応付け方法。
請求項１に記載の文書対応付け方法において、
前記（ｂ）ステップは、
（ｂ３）前記コンテンツ区間抽出部が、記憶された前記コンテンツに含まれる人物を特定する特徴量に基づいて、前記特徴量が変化した時点である前記複数の話者の一人から前記複数の話者の他の一人へ話者が変化した時点を前記コンテンツから抽出するステップと、
（ｂ４）前記コンテンツ区間抽出部が、前記話者が変化した時点に基づいて、前記コンテンツを話者単位で分割するステップと
を含む
文書対応付け方法。
請求項７に記載の文書対応付け方法において、
前記（ｂ３）ステップは、
（ｂ３１）前記コンテンツは前記音声情報であり、前記コンテンツ区間抽出部が、前記特徴量としての音声特徴量に基づいて、前記音声特徴量が変化した時点としての前記話者の音声の変化点を前記音声情報から抽出するステップを含む
文書対応付け方法。
請求項７記載の文書対応付け方法において、
前記（ｂ３）ステップは、
（ｂ３２）前記コンテンツは前記映像情報であり、前記コンテンツ区間抽出部が、前記特徴量としての人物特徴量に基づいて、前記人物特徴量が変化した時点としての前記話者の映像の変化点を映像情報から抽出するステップを含む
文書対応付け方法。
請求項１乃至７のいずれか一項に記載の文書対応付け方法において、
前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報である
文書対応付け方法。
請求項８に記載の文書対応付け方法において、
前記（ｂ３）ステップは、
（ｂ３３）前記コンテンツ区間抽出部が、前記音声情報の音特徴としての前記音声特徴量の変化点解析を行い、前記音声特徴量が変化した時点として、前記話者が変化した時点を導出するステップを含む
文書対応付け方法。
請求項９に記載の文書対応付け方法において、
前記（ｂ３）ステップは、
（ｂ３４）前記コンテンツ区間抽出部が、前記映像情報の視覚的特徴としての前記人物特徴量の変化点解析を行い、前記人物特徴量が変化した時点として、前記話者が変化した時点を導出するステップを含む
文書対応付け方法。
請求項７に記載の文書対応付け方法において、
前記（ｂ３）ステップは、
（ｂ３５）前記コンテンツは前記音声情報と前記映像情報とを含む音声映像情報であり、前記コンテンツ区間抽出部が、前記映像情報の視覚的特徴である前記特徴量としての人物特徴量の変化点解析及び前記音声情報の音特徴である前記特徴量としての音声特徴量の変化点解析を行い、双方の結果を統合して、前記特徴量が変化した時点として、前記話者が変化した時点を導出するステップを含む
文書対応付け方法。
請求項５に記載の文書対応付け方法において、
前記（ｃ２）ステップは、
（ｃ２１）前記文書区間抽出部が、前記文書区切情報としての空行、フォントの相違、文字色の相違、文字レイアウト、話者の名前の少なくとも一つに基づいて前記文書の構造解析を行い、前記文書を話者単位で分割するステップを備える
文書対応付け方法。
コンピュータに、請求項１乃至１４のいずれか一項に記載された方法を実行させるプログラム。
コンピュータにより読み取り可能な、請求項１５に記載されたプログラムを記憶した記憶媒体。
音声情報及び映像情報のうちの少なくとも一方を含むコンテンツを分割して複数のコンテンツ区間を抽出するコンテンツ区間抽出部と、
前記コンテンツの内容を記述した文書を分割して複数の文書区間を抽出する文書区間抽出部と、
前記コンテンツにおける前記複数のコンテンツ区間の区間長の変化の仕方を示す第１変化パタンを、前記複数のコンテンツ区間の全区間長で割ることで正規化した正規化第１変化パタンと、前記文書における前記複数の文書区間の文書量の第２変化パタンを、前記複数の文書区間の全文書量で割ることで正規化した正規化第２変化パタンとの比較に基づいて、前記正規化第１変化パタンにおける前記複数のコンテンツ区間の位置と、前記正規化第２変化パタンにおける前記複数の文書区間の位置とから、前記複数のコンテンツ区間と前記複数の文書区間との対応関係を導出する区間対応関係導出部と
を具備し、
前記区間対応関係導出部は、前記前記複数のコンテンツ区間の数と前記複数の文書区間の数とが一対一に対応するように、前記複数のコンテンツ区間のうちの隣接する二つのコンテンツ区間を統合して一つのコンテンツ区間とすること、及び、前記複数の文書区間のうちの隣接する二つの文書区間を統合して一つの文書区間とすること、の少なくとも一方を実行し、
前記区間対応関係導出部は、前記二つのコンテンツ区間を統合して前記一つのコンテンツ区間とする場合には、前記複数のコンテンツ区間を分割する区切りとしての変化点を抽出するために行った変化点解析における変化点抽出の確信度が相対的に低い前記二つのコンテンツ区間を選択し、前記二つの文書区間を統合して一つの文書区間とする場合には、前記複数の文書区間を分割する区切りとしての変化点を抽出するために行った変化点解析における変化点抽出の確信度が相対的に低い前記二つの文書区間を選択する
文書対応付け装置。
請求項１７に記載の文書対応付け装置において、
前記区間対応関係導出部は、前記コンテンツに含まれる人物を特定する特徴量に基づいて、前記正規化第１パタンにおける前記複数のコンテンツ区間の各々の話者を特定し、前記文書に含まれる人物を特定する話者に関する情報としての話者情報に基づいて、前記正規化第２パタンにおける前記複数の文書区間の各々の話者を特定し、前記正規化第１パタン及び前記正規化第２パタンで特定された前記話者に基づいて、前記正規化第１変化パタンと前記正規化第２変化パタンとの対応付けを行う
文書対応付け装置。
請求項１７に記載の文書対応付け装置において、
前記区間対応関係導出部は、前記複数のコンテンツ区間の各々における無音区間を削除して、無音区間を削除された前記複数のコンテンツ区間の各々の区間長を求め、前記無音区間を削除された複数のコンテンツ区間の区間長に基づいて、前記正規化第１変化パタンを求める
文書対応付け装置。
請求項１７乃至１９のいずれか一項に記載の文書対応付け装置において、
前記コンテンツ区間抽出部は、前記コンテンツに含まれる人物を特定する特徴量を抽出し、前記特徴量が予め設定した閾値より類似している区間を、一人の話者の発話が継続している一つのコンテンツ区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数のコンテンツ区間を抽出する
文書対応付け装置。
請求項１７乃至２０のいずれか一項に記載の文書対応付け装置において、
前記文書区間抽出部は、前記文書に含まれる文書区切りを示す文書区切情報を抽出し、前記文書区切情報間の区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出する
文書対応付け装置。
請求項１７乃至２１のいずれか一項に記載の文書対応付け装置において、
前記区間対応関係導出部は、前記複数のコンテンツ区間の前記第１変化パタンと前記複数の文書区間の前記第２変化パタンとについて、いずれか一方を標準パタンとし、他方を入力パタンとして、パタン認識におけるダイナミックプログラミングマッチングの方法により、前記対応付けを行う
文書対応付け装置。
請求項１７乃至１９のいずれか一項に記載の文書対応付け装置において、
前記コンテンツは前記音声情報であり、
前記コンテンツ区間抽出部は、前記音声情報の音特徴を解析して、前記音特徴の変化する点に基づいて、前記複数のコンテンツ区間を抽出する
文書対応付け装置。
請求項１７乃至１９のいずれか一項に記載の文書対応付け装置において、
前記コンテンツは前記映像情報であり、
前記コンテンツ区間抽出部は、前記映像情報の視覚的特徴を解析して、前記視覚的特徴の変化する点に基づいて、前記複数のコンテンツ区間を抽出する
文書対応付け装置。
請求項１７乃至１９のいずれか一項に記載の文書対応付け装置において、
前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報であり、
前記コンテンツ区間抽出部は、前記音声情報の音特徴の解析の結果における前記音特徴の変化する点と前記映像情報の視覚的特徴の解析の結果における前記視覚的特徴の変化する点とを統合して前記複数のコンテンツ区間を抽出する
文書対応付け装置。
請求項２５に記載の文書対応付け装置において、
コンテンツ区間抽出部は、
前記音声情報の音特徴を解析して、前記音特徴の変化する点に基づいて、前記音声情報を話者単位に分割して複数の音声区間を抽出する音声区間抽出部と、
前記映像情報の視覚的特徴を解析して、前記視覚的特徴の変化する点に基づいて、前記映像情報を話者単位に分割して複数の映像区間を抽出する映像区間抽出部と、
前記複数の音声区間に関する複数の音声区間情報と、前記複数の映像区間に関する複数の映像区間情報とに基づいて、前記複数のコンテンツ区間を抽出する音声映像区間統合部と
を含む
文書対応付け装置。
請求項１７乃至１９のいずれか一項に記載の文書対応付け装置において、
前記コンテンツ区間抽出部は、記憶された前記コンテンツに含まれる人物を特定する特徴量に基づいて、前記特徴量が変化した時点である前記複数の話者の一人から前記複数の話者の他の一人へ話者が変化した時点としての話者変化点を抽出して、前記話者が変化した時点に基づいて前記コンテンツを話者単位で分割した前記複数のコンテンツ区間を抽出する
文書対応付け装置。
請求項２７に記載の文書対応付け装置において、
前記コンテンツは前記音声情報を含み、
前記コンテンツ区間抽出部は、前記特徴量としての前記音声情報における発話の高さ、発話速度、発話の大きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、前記話者変化点を抽出する
文書対応付け装置。
請求項２７に記載の文書対応付け装置において、
前記コンテンツは前記音声情報を含み、
前記コンテンツ区間抽出部は、前記特徴量としての前記音声情報における会話形態の変化に基づいて、前記話者変化点を抽出する
文書対応付け装置。
請求項２７に記載の文書対応付け装置において、
前記コンテンツは前記映像情報を含み、
前記コンテンツ区間抽出部は、前記特徴量としての前記映像情報における人物の視覚的特徴の変化に基づいて、前記話者変化点を抽出する
文書対応付け装置。
請求項２７に記載の文書対応付け装置において、
前記コンテンツは前記映像情報を含み、
前記コンテンツ区間抽出部は、前記特徴量としての前記映像情報における人物の顔特徴の変化に基づいて、前記話者変化点を抽出する
文書対応付け装置。
請求項２７に記載の文書対応付け装置において、
前記コンテンツは前記映像情報を含み、
前記コンテンツ区間抽出部は、前記特徴量としての前記映像情報における人物の衣服の視覚的特徴の変化に基づいて、前記話者変化点を抽出する
文書対応付け装置。
請求項１７乃至３２のいずれか一項に記載の文書対応付け装置において、
前記文書区間抽出部は、前記文書の書式情報に基づいて、前記書式情報が同じ区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出する
文書対応付け装置。
請求項１７乃至３２のいずれか一項に記載の文書対応付け装置において、
前記文書区間抽出部は、前記文書に記入された話者に関する記述に基づいて、前記話者が同じ区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出する
文書対応付け装置。
請求項１７乃至３２のいずれか一項に記載の文書対応付け装置において、
前記文書区間抽出部は、前記文書における構造化文書のタグ情報に基づいて、前記タグ情報が同じ区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出する
文書対応付け装置。
請求項１７乃至３２のいずれか一項に記載の文書対応付け装置において、
前記文書区間抽出部は、前記文書における会話特徴の変化に基づいて、前記会話特徴が同じ区間を、一人の話者の発話が継続している一つの文書区間と推定して、隣り合うコンテンツ区間の話者が異なる前記複数の文書区間を抽出する
文書対応付け装置。
請求項１８に記載の文書対応付け装置において、
前記区間対応関係導出部は、
前記特徴量に基づいて、前記複数のコンテンツ区間の各々の話者を特定するコンテンツ話者識別部と、
前記話者情報に基づいて、前記複数の文書区間の各々の話者を特定する文書話者情報抽出部と、
特定された前記複数のコンテンツ区間の各々の話者及び前記複数の文書区間の各々の話者に基づいて、前記複数のコンテンツ区間と前記複数の文書区間との整合を行う区間整合部と
を含む
文書対応付け装置。
請求項３７の文書対応付け装置において、
前記コンテンツ話者識別部は、
前記複数のコンテンツ区間の各々の特徴量を抽出するコンテンツ特徴量抽出部と、
前記特徴量と前記話者とを対応させて記憶する話者情報記憶部と、
記憶された前記特徴量と抽出された特徴量との比較に基づいて、前記話者の識別を行う特徴量整合識別部と
を含む
文書対応付け装置。
請求項３７又は３８に記載の文書対応付け装置において、
前記コンテンツ話者識別部は、前記特徴量としての前記音声情報における声の高さ、声の長さ、声の強さのうちの少なくとも一つの韻律情報の特徴に基づいて、前記話者を特定する
文書対応付け装置。
請求項３７又は３８に記載の文書対応付け装置において、
前記コンテンツ話者識別部は、前記特徴量としての前記音声情報における会話形態の表す特徴量に基づいて、前記話者を特定する
文書対応付け装置。
請求項３７又は３８に記載の文書対応付け装置において、
前記コンテンツ話者識別部は、前記特徴量としての前記映像情報における人物の視覚的特徴量に基づいて、前記話者を特定する
文書対応付け装置。
請求項４１に記載の文書対応付け装置において、
前記コンテンツ話者識別部は、前記人物の視覚的特徴として人物の顔特徴を用いる
文書対応付け装置。
請求項３７乃至４２のいずれか一項に記載の文書対応付け装置において、
前記文書話者情報抽出部は、前記話者情報に基づいて、前記文書に記入された話者に関する記述に基づいて、前記話者を特定する
文書対応付け装置。
請求項３７乃至４２のいずれか一項に記載の文書対応付け装置において、
前記文書話者情報抽出部は、前記話者情報に基づいて、前記文書における構造化文書のメタデータに基づいて、話者を特定する
文書対応付け装置。
請求項３７乃至４４のいずれか一項に記載の文書対応付け装置において、
前記区間整合部は、前記複数のコンテンツ区間の各々における話者と前記複数の文書区間の各々における話者とが一致するように、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
文書対応付け装置。
請求項４５に記載の文書対応付け装置において、
前記区間整合部は、前記複数のコンテンツ区間の前記第１変化パタンと前記複数の文書区間の前記第２変化パタンとについて、いずれか一方を標準パタンとし、他方を入力パタンとして、パタン認識におけるダイナミックプログラミングマッチングを実行した結果に基づいて、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
文書対応付け装置。
請求項１７乃至４６のいずれか一項に記載の文書対応付け装置において、
前記コンテンツは音声情報を含み、
前記複数のコンテンツ区間における発話内容を抽出して発話テキスト情報を出力する音声認識部を更に具備し、
前記区間対応関係導出部は、前記発話テキスト情報と前記文書の文書情報との類似度に基づいて、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
文書対応付け装置。
請求項４７に記載の文書対応付け装置において、
前記区間対応関係導出部は、前記発話テキスト情報で出現する単語のパタンと前記文書情報で出現する単語のパタンとについて、いずれか一方を標準パタンとし、他方を入力パタンとして、パタン認識におけるダイナミックプログラムマッチングを実行した結果に基づいて、前記発話テキスト情報と前記文書情報とを整合させる
文書対応付け装置。
請求項４７又は４８記載の文書対応付け装置において、
前記区間対応関係導出部は、
前記発話テキスト情報における前記複数のコンテンツ区間の各々で使用されている一つまたは複数の第１基本単語と、前記複数の文書区間の各々で使用されている一つまたは複数の第２基本単語とをそれぞれ抽出する基本単語抽出部と、
前記複数の第１基本単語と、前記複数の第２基本単語との間の類似度を測定する基本単語群類似度導出部とを含み、
前記類似度に基づいて、前記対応関係を導出する
文書対応付け装置。
請求項４７又は４８に記載の文書対応付け装置において、
前記区間対応関係導出部は、前記類似度を、ダイナミックプログラミングマッチングにより対応付けることによって対応関係を導出する
文書対応付け装置。
請求項１７乃至５０のいずれか一項に記載の文書対応付け装置において、
前記コンテンツを入力するコンテンツ入力部と、
前記コンテンツを記憶するコンテンツ記憶部と、
前記文書情報を入力する文書入力部と、
前記文書を記憶する文書記憶部と、
前記対応関係に関する情報を出力する出力部と
を更に具備する
文書対応付け装置。