Nothing Special   »   [go: up one dir, main page]

JPWO2005069171A1 - 文書対応付け装置、および文書対応付け方法 - Google Patents

文書対応付け装置、および文書対応付け方法 Download PDF

Info

Publication number
JPWO2005069171A1
JPWO2005069171A1 JP2005517060A JP2005517060A JPWO2005069171A1 JP WO2005069171 A1 JPWO2005069171 A1 JP WO2005069171A1 JP 2005517060 A JP2005517060 A JP 2005517060A JP 2005517060 A JP2005517060 A JP 2005517060A JP WO2005069171 A1 JPWO2005069171 A1 JP WO2005069171A1
Authority
JP
Japan
Prior art keywords
document
content
information
speaker
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005517060A
Other languages
English (en)
Other versions
JP4600828B2 (ja
Inventor
恭二 平田
恭二 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2005069171A1 publication Critical patent/JPWO2005069171A1/ja
Application granted granted Critical
Publication of JP4600828B2 publication Critical patent/JP4600828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明の文書対応付け方法は、(a)複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツと、前記コンテンツの内容を記述した文書とを準備するステップと、(b)そのコンテンツとその文書との対応関係を、話者単位で導出するステップとを具備する。

Description

本発明は、文書対応付け装置、および文書対応付け方法に関し、特に、映像または音声のようなコンテンツと、コンテンツに関連した文書情報との対応関係を導出する文書対応付け装置、および文書対応付け方法に関する。
音声記録または音声付随のビデオ記録の対応部分に文書データを自動的にマッピングする方法が知られている。例えば、特開平7−199379号公報に、音声記録または音声付随のビデオ記録中の音声を音声認識処理によりテキスト化し、そのテキストと文書記憶装置に順序付けられて記憶された文書情報と比較して、両者が同一の一連の文字を含む場合に同一とみなす方法が提案されている。この際に、自動音声認識装置が音声をデコードし、デコードテキストが、類似語または語のクラスタの識別を介して文書情報と照合される。
また、特開2000−270263号公報に、放送番組において、アナウンス原稿と字幕内容とが極めて類似している場合に、アナウンス原稿に対して音声認識処理を施し、音声認識結果と提示時間順に配列された字幕文テキストとの対応を導出することで、始点と終点のタイミング情報を同期点として検出して記録するシステムが提案されている。
さらに、特開平8−212190号公報に、音声付随の動画像にシナリオテキストを対応付ける場合に、シナリオテキストを音声化した場合の無音区間を予測し、予測結果と音声付随の動画像における音声信号の無音区間とを比較することによって、音声とテキストとを対応付けるシステムが提案されている。
これらの従来の映像または音声といったコンテンツと文書とを対応付ける文書対応付け方法の第一の問題点は、音声情報と文書データとの対応の精度が音声認識の精度に大きく依存しているので、音声認識の精度が十分に得られないときに、音声情報と文書データの対応関係導出が精度よく行われないということである。
上記の特開平7−199379号公報や特開2000−270263号公報に記載されている従来の方法では、音声認識処理により音声をテキストに変換した後に、変換されたテキストと文書データ間で同期をとっている。この結果、音声認識によって出力されたテキストが誤りを多く含んでいる場合には、文書データとの対応がとれなかったり、全く異なった文書部分と対応をとってしまうなど対応関係に多くの誤りが含まれてしまう。一般に、音声認識では、BGMが音声に重畳された場合や、屋外等の高雑音下で記録された会話のように発話音声以外の背景音が大きい場合などでは、認識精度は著しく低下することが知られている。通常の会話においても、マイクロフォンと話し手の位置関係や、話者の話し方、会話スタイルおよび特性などによって、高い認識精度が期待できない場合が数多く存在する。会話内容が特定のトピックに限定される場合には、推定される話題により認識のための辞書を最適に選択するなどの対策によって、音声認識の精度をあげることが可能である。しかし、通常、トピック等は事前に推定できない場合が多く、その場合、誤った辞書を使用すると音声認識の精度は更に下がってしまうなどの問題がある。こうした、誤りを多く含んだ音声認識結果にもとづいて、音声記録または音声付随のビデオ記録と文書情報の対応付けを行った場合に、対応付け誤りが多くなり、テキスト同時表示やキーワード検索による頭出しに利用することが困難になる。
従来の方法の第二の問題として、文書情報が、音声を忠実に再現したものではなく、内容を簡単にまとめたような文書であった場合には、文書情報と音声情報とを正しく整合できないということがある。たとえば講演における音声情報と、講演者の作成した説明用の資料や要約文書とを対応付ける場合、音声情報から作成されたテキストに直接対応する部分が文書中に存在しないため、文書情報と音声情報とを正しく整合できない。
従来の方法の第三の問題として、音声認識を基礎とした整合では、整合の単位が単語単位となるため、文書内容と音声情報とが完全に一致しないような場合には、同一の単語の出現によって対応が大きくずれてしまうということである。
関連する技術として、特開2000−348064号公報(優先権主張番号:09/288724、優先権主張国:米国)に、内容情報と話者情報を使用して音声情報を検索するための方法および装置が開示されている。この内容情報と話者情報を使用して音声情報を検索するための方法は、1つまたは複数の音声ソースから音声情報を検索する方法である。少なくとも1つの内容と1つの話者制約条件を指定するユーザ照会を受け取る段階と、前記ユーザ照会を、前記音声ソースの内容索引および話者索引と比較して、前記ユーザ照会に適合する音声情報を識別する段階とを含む。
関連する技術として、特開2002−189728号公報に、マルチメディア情報編集装置、その方法および記録媒体並びにマルチメディア情報配信システムが開示されている。このマルチメディア情報編集装置は、マルチメディア情報を編集する。マルチメディア情報編集装置は、記憶手段と、音声判別手段と、文書変換手段と、マルチメディア構造化手段とを備えたことを特徴とする。記憶手段は、音声、動画像などのマルチメディア情報を記憶する。音声判別手段は、前記記憶手段に記憶されたマルチメディア情報に対して音声が付加されているか判別を行う。文書変換手段は、前記音声判別手段によって音声が付加されていた場合その音声情報を文書情報に変換する。マルチメディア構造化手段は、前記文書変換手段で変換された文書を言語解析して、文書とマルチメディア情報とを構造化して、対応付ける。
関連する技術として、特開2002−236494号公報に、音声区間判別装置、音声認識装置、プログラム及び記録媒体の技術が開示されている。この音声区間判別装置は、音響分析手段と、標準パターン記憶手段と、マッチング手段と、判定手段と、音声区間判別手段とを備えていることを特徴とする。音響分析手段は、外部から入力された音声を所定周期で音響的に分析し、当該分析結果を基に音響特徴量を求める。標準パターン記憶手段は、前記入力音声に複数の話者の音声が混在し得る前提の下、単一話者の音声及び、複数話者の混合音声に対応する標準パターンを記憶する。マッチング手段は、前記標準パターン記憶手段に記憶された標準パターンと、前記音響分析手段にて求められた音響特徴量とのマッチングを行う。
判定手段は、前記マッチング手段による処理結果に基づき、前記入力音声がいずれの標準パターンに類似しているかを前記所定周期毎に判定する。音声区間判別手段は、前記判定手段による判定結果に基づき、前記各話者の音声区間を判別するとを備えている。
関連する技術として、特開2002−366552号公報(優先権主張番号:09/962659、優先権主張国:米国)に、記録音声を探索し、関連セグメントを検索する方法及びシステムが開示されている。これは、データベース内の記録音声を探索する方法である。a)音声認識システムを用いて、前記記録音声をテキストに変換するステップと、b)情報エクステンダを用いて、前記記録音声のフル・テキスト索引を作成するステップであって、前記フル・テキスト索引が、前記記録音声内での単語の出現を指し示す複数のタイムスタンプを含み、c)フル・テキスト・サーバにより、前記フル・テキスト索引を用いて、テキストを探索するステップと、d)前記探索テキスト、前記フル・テキスト索引、及び前記記録音声を前記データベースに記憶するステップとを含みる。前記記録音声の特定の内容が、全部の記録を聴取することなく、前記フル・テキスト索引を用いて再生される。
関連する技術として、特開平11−242669号公報に、文書処理装置の技術が開示されている。この文書処理装置は、音声入力手段と、抽出手段と、属性生成手段と、文書記憶手段と指示手段と、出力手段と、添付手段とを備えたことを特徴とする。音声入力手段は、音声を入力する。抽出手段は、音声入力手段によって入力された音声から話者を特定するための情報を抽出する。属性生成手段は、前記抽出された情報と所定の基準情報とを比較して話者属性情報を生成する。文書記憶手段は、文書を記憶する。指示手段は、入力された音声を添付すべき文書中の位置を指示する。出力手段は、文書を出力する。添付手段は、前記指示手段によって指示された文書中の位置の情報と、前記入力された音声と、前記属性生成手段によって生成された話者属性情報とからなる組情報を前記文書記憶手段に記憶する。
本発明の目的は、音声や映像などのコンテンツにおいて定義される有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。
本発明の他の目的は、コンテンツの状態に影響されずに、コンテンツにおける有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。
本発明の他の目的は、文書の種類に影響されずに、コンテンツにおける有意な区間と文書中の区間とを精度良く対応付ける文書対応付け装置、および文書対応付け方法を提供することである。
この発明のこれらの目的とそれ以外の目的と利益とは以下の説明と添付図面とによって容易に確認することができる。
上記課題を解決するために、本発明の文書対応付け方法は、(a)複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツと、前記コンテンツの内容を記述した文書とを準備するステップと、(b)そのコンテンツとその文書との対応関係を、話者単位で導出するステップとを具備する。
上記の文書対応付け方法において、その(b)ステップは、(b1)そのコンテンツを話者単位で分割して複数のコンテンツ区間とするステップと、(b2)その文書を話者単位で分割して複数の文書区間とするステップと、(b3)その複数のコンテンツ区間とその複数の文書区間との対応付けを行うステップとを備える。
上記の文書対応付け方法において、その(b2)ステップは、(b21)その複数の話者の一人からその複数の話者の他の一人へ発話者が変化した時点をコンテンツから抽出するステップと、(b22)その発話者が変化した時点に基づいて、そのコンテンツを話者単位で分割するステップとを含む。
上記の文書対応付け方法において、その(b21)ステップは、(b211)そのコンテンツはその音声情報であり、その発話者の音声の変化点をその音声情報から抽出するステップを含む。
上記の文書対応付け方法において、その(b21)ステップは、(b212)そのコンテンツはその映像情報であり、その発話者の映像の変化点そのを映像情報から抽出するステップを含む。
上記の文書対応付け方法において、そのコンテンツは、その音声情報とその映像情報とが同期した音声映像情報である。
上記の文書対応付け方法において、その(b21)ステップは、(b213)その音声情報の音特徴の変化点解析を行い、その発話者が変化した時点を導出するステップを含む。
上記の文書対応付け方法において、その(b21)ステップは、(b214)その映像情報の視覚的特徴の変化点解析を行い、その発話者が変化した時点を導出するステップを含む。
上記の文書対応付け方法において、その(b21)ステップは、(b215)その映像情報の視覚的特徴の変化点解析及びその音声情報の音特徴の変化点解析を行い、双方の結果を統合して、その発話者が変化した時点を導出するステップを含む。
上記の文書対応付け方法において、その(b)ステップは、(b4)その文書の構造解析を行い、その文書を話者単位で分割するステップを備える。
上記課題を解決するために、本発明のコンピュータプログラム製品は、コンピュータ上で使用したときに、上記各項のいずれか一項に記載された全てのステップを実行するプログラムコード手段を有する。
上記のプログラムコード手段を有するコンピュータプログラム製品は、コンピュータにより読み取り可能な記憶手段に記憶されている。
上記課題を解決するために、本発明の文書対応付け装置は、コンテンツ区間抽出部と、文書区間抽出部と、区間対応関係導出部とを具備する。コンテンツ区間抽出部は、複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツについて、そのコンテンツを話者単位で分割して複数のコンテンツ区間を抽出する。文書区間抽出部は、そのコンテンツの内容を記述した文書を話者単位で分割して複数の文書区間を抽出する。区間対応関係導出部は、その複数のコンテンツ区間とその複数の文書区間との対応関係を導出する。
上記の文書対応付け装置において、そのコンテンツはその音声情報である。そのコンテンツ区間抽出部は、その音声情報の音特徴を解析してその複数のコンテンツ区間を抽出する。
上記の文書対応付け装置において、そのコンテンツはその映像情報である。そのコンテンツ区間抽出部は、その映像情報の視覚的特徴を解析してその複数のコンテンツ区間を抽出する。
上記の文書対応付け装置において、そのコンテンツは、その音声情報とその映像情報とが同期した音声映像情報である。そのコンテンツ区間抽出部は、その音声情報の音特徴の解析の結果とその映像情報の視覚的特徴の解析の結果とを統合してその複数のコンテンツ区間を抽出する。
上記の文書対応付け装置において、コンテンツ抽出部は、音声区間抽出部と、映像区間抽出部と、音声映像区間統合部とを含む。音声区間抽出部は、その音声情報の音特徴を解析して、その音声情報を話者単位に分割して複数の音声区間を抽出する。映像区間抽出部は、その映像情報の視覚的特徴を解析して、その映像情報を話者単位に分割して複数の映像区間を抽出する。音声映像区間統合部は、その複数の音声区間に関する複数の音声区間情報と、その複数の映像区間に関する複数の映像区間情報とに基づいて、その複数のコンテンツ区間を抽出する。
上記の文書対応付け装置において、そのコンテンツ区間抽出部は、そのコンテンツにおけるその複数の話者の一人からその複数の話者の他の一人へ発話者が変化した時点としての発話者変化点を抽出して、その複数のコンテンツ区間を抽出する。
上記の文書対応付け装置において、そのコンテンツはその音声情報を含む。そのコンテンツ区間抽出部は、その音声情報における発話の高さ、発話速度、発話の大きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、その発話者変化点を抽出する。
上記の文書対応付け装置において、そのコンテンツはその音声情報を含む。そのコンテンツ区間抽出部は、その音声情報における会話形態の変化に基づいて、その発話者変化点を抽出する。
上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の視覚的特徴の変化に基づいて、その発話者変化点を抽出する。
上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の顔特徴の変化に基づいて、その発話者変化点を抽出する。
上記の文書対応付け装置において、そのコンテンツはその映像情報を含む。そのコンテンツ区間抽出部は、その映像情報における人物の衣服の視覚的特徴の変化に基づいて、その発話者変化点を抽出する。
上記の文書対応付け装置において、その文書区間抽出部は、その文書の書式情報に基づいて、その複数の文書区間を抽出する。
上記の文書対応付け装置において、その文書区間抽出部は、その文書に記入された発話者に関する記述に基づいて、その複数の文書区間を抽出する。
上記の文書対応付け装置において、その文書区間抽出部は、その文書における構造化文書のタグ情報に基づいて、その複数の文書区間を抽出する。
上記の文書対応付け装置において、その文書区間抽出部は、その文書における会話特徴の変化に基づいて、その複数の文書区間を抽出する。
上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコンテンツ区間の区間長とその複数の文書区間の文書量とを比較に基づいて、その複数のコンテンツ区間とその複数の文書区間との対応付けを行う。
上記の文書対応付け装置において、その区間対応関係導出部は、その複数のコンテンツ区間及びその複数の文書区間に対するダイナミックプログラミングマッチングの実行結果に基づいて、その対応付けを行う。
上記の文書対応付け装置において、その区間対応関係導出部は、コンテンツ話者識別部と、文書話者情報抽出部と、区間整合部とを含む。コンテンツ話者識別部は、その複数のコンテンツ区間のうちの少なくとも一つにおける発話者を特定する。文書話者情報抽出部は、その複数の文書区間のうちの少なくとも一つにおける発話者を特定して、その発話者の情報としての話者情報を得る。区間整合部は、その話者情報に基づいて、その複数のコンテンツ区間とその複数の文書区間との整合を行う。
上記の文書対応付け装置において、そのコンテンツ話者識別部は、コンテンツ特徴量抽出部と、話者情報記憶部と、特徴量整合識別部とを含む。コンテンツ特徴量抽出部は、その複数のコンテンツ区間のうちの少なくとも一つにおける特徴量を抽出する。話者情報記憶部は、その特徴量とその発話者とを対応させて記憶する。特徴量整合識別部は、記憶されたその特徴量と抽出された特徴量との比較に基づいて、その発話者の識別を行う。
上記の文書対応付け装置において、
そのコンテンツ話者識別部は、その音声情報における声の高さ、声の長さ、声の強さのうちの少なくとも一つの韻律情報の特徴に基づいて、その発話者を特定する
文書対応付け装置。
上記の文書対応付け装置において、そのコンテンツ話者識別部は、その音声情報における会話形態の表す特徴量に基づいて、その発話者を特定する。
上記の文書対応付け装置において、そのコンテンツ話者識別部は、その映像情報における人物の視覚的特徴量に基づいて、その発話者を特定する。
上記の文書対応付け装置において、そのコンテンツ話者識別部は、その人物の視覚的特徴として人物の顔特徴を用いる。
上記の文書対応付け装置において、その文書話者情報抽出部は、その文書に記入された発話者に関する記述に基づいて、その発話者を特定する。
上記の文書対応付け装置において、その文書話者情報抽出部は、その文書における構造化文書のメタデータに基づいて、話者を特定する。
上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区間の各々における発話者とその複数の文書区間の各々における発話者とが一致するように、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。
上記の文書対応付け装置において、その区間整合部は、その複数のコンテンツ区間とその複数の文書区間とに対するダイナミックプログラミングマッチングの実行結果に基づいて、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。
上記の文書対応付け装置において、そのコンテンツは音声情報を含む。文書対応付け装置は、その複数のコンテンツ区間における発話内容を抽出して発話テキスト情報を出力する音声認識部を更に具備する。その区間対応関係導出部は、その発話テキスト情報とその文書の文書情報との類似度に基づいて、その複数のコンテンツ区間とその複数の文書区間とを対応付ける。
上記の文書対応付け装置において、その区間対応関係導出部は、その発話テキスト情報で出現する単語とその文書情報で出現する単語との間のダイナミックプログラムマッチングの実行結果に基づいて、その発話テキスト情報とその文書情報とを整合させる。
上記の文書対応付け装置において、その区間対応関係導出部は、基本単語抽出部と、基本単語群類似度導出部とを含む。基本単語抽出部は、その発話テキスト情報におけるその複数のコンテンツ区間の各々で使用されている一つまたは複数の第1基本単語と、その複数の文書区間の各々で使用されている一つまたは複数の第2基本単語とをそれぞれ抽出する。基本単語群類似度導出部は、その複数の第1基本単語と、その複数の第2基本単語との間の類似度を測定する。その区間対応関係導出部は、その類似度に基づいて、その対応関係を導出する。
上記の文書対応付け装置において、その区間対応関係導出部は、その類似度を、ダイナミックプログラミングマッチングにより対応付けることによって対応関係を導出する。
上記の文書対応付け装置において、そのコンテンツを入力するコンテンツ入力部と、そのコンテンツを記憶するコンテンツ記憶部と、その文書情報を入力する文書入力部と、その文書を記憶する文書記憶部と、その対応関係に関する情報を出力する出力部とを更に具備する。
本発明によれば、BGMの影響、ノイズなどの影響、発話者の発話スタイル、集音環境等の影響によって、音声認識の精度が十分に得られないときでも、精度よくコンテンツの有意な区間と文書中の区間の対応付けを行うことができる。その理由は、音声または映像といったコンテンツと文書区間との整合を、音声認識に比べて容易である話者単位(話者の変化した部分)にもとづいて行っているためである。話者が代わった点の認識は、話者の話している内容を認識するのに比べて、違いを認識するだけでよいので、ノイズや集音の状態に対して頑強である。また、音声の内容ではなく、話者にフォーカスして対応付けを行うため、視覚的情報も活用することができ、話者変化点抽出を視覚的情報にもとづいて行う場合には、集音状態には依存しない対応付けを行うことができる。また、本発明によれば、対応付ける文書が音声または映像中の会話を忠実に表していない場合でも、対応付けを行うことができる。その理由は、単語レベルでの整合を取っていないので、話者や話題ごとの比較的長い区間での対応付けが実現でき、個々の会話の内容を詳細に対応付ける必要がないためである。
図1は、本発明の文書対応付け装置の実施の形態の構成を示す図である。 図2は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の一例を示すブロック図である。 図3は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の一例を示すフローチャートである。 図4は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の他の一例を示すブロック図である。 図5は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の他の一例を示すフローチャートである。 図6は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の更に他の一例を示すブロック図である。 図7は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の動作の更に他の一例を示すフローチャートである。 図8は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の別の一例を示すブロック図である。 図9は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の動作の別の一例を示すフローチャートである。 図10は、本発明の文書対応付け装置の実施の形態における文書区間抽出手段6の動作の一例を示すフローチャートである。 図11A〜図11Dは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。 図11Bは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。 図11Cは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。 図11Dは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。 図12Aは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。 図12Bは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。 図12Cは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。 図13は、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の更に他の一例を示す図である。 図14は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の一例を示すブロック図である。 図15は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の一例を示すフローチャートである。 図16Aは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図16Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図17は、対応関係導出方法における正規化を説明する図である。 図18Aは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図18Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図19は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の他の一例を示すブロック図である。 図20は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の他の一例を示すフローチャートである。 図21は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図22は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図23は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の別の一例を示すブロック図である。 図24は、候補テキスト文書対応部62の構成の一例を示すブロック図である。 図25は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の別の一例を示すフローチャートである。 図26は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。 図27は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。
以下、本発明の文書対応付け装置、および文書対応付け方法の実施の形態について添付図面を参照して詳細に説明する。
本発明の文書対応付け装置の実施の形態の構成について説明する。
図1は、本発明の文書対応付け装置の実施の形態の構成を示す図である。文書対応付け装置10は、コンテンツ入力手段(コンテンツ入力部)1と、文書入力手段(文書入力部)2と、コンテンツ記憶手段(コンテンツ記憶部)3と、文書記憶手段(文書記憶部)4と、コンテンツ区間抽出手段(コンテンツ区間抽出部)5と、文書区間抽出手段(文書区間抽出部)6と、区間対応関係導出手段(区間対応関係導出部)7と、出力手段(出力部)8とを具備する。コンテンツ入力手段1は、音声や映像などの情報(データ)を含むコンテンツを入力する。文書入力手段2は、コンテンツに関連する文書を入力する。コンテンツ記憶手段3は、コンテンツ入力手段1から得られたコンテンツを記憶する。文書記憶手段4は、文書入力手段2から得られた文書を記憶する。コンテンツ区間抽出手段5は、コンテンツより単一話者区間を抽出する。文書区間抽出手段6は、文書から単一話者区間の抽出を行う。区間対応関係導出手段7は、コンテンツ区間抽出手段5が抽出したコンテンツ区間と文書区間抽出手段6が抽出した文書区間との対応関係を導出する。出力手段8は、区間対応関係導出手段7が導出した対応関係を出力する。
コンテンツ入力手段1は、対象となるコンテンツを入力するためのものである。コンテンツ入力手段1は、例えば、ビデオカメラやマイクロフォンである。ここで、コンテンツは、映像情報、音声情報または音声情報が付随した映像情報に例示される。コンテンツ入力手段1は、ビデオテープのような記録媒体に記録された映像情報または音声情報を読み込んで出力する映像再生機や録音再生機のようなものであってもよい。
文書入力手段2は、コンテンツに関連する文書を入力するためのものである。文書入力部2は、例えば、キーボードやペン入力デバイス、スキャナのようなテキスト入力機器である。文書入力部2は、文書作成ソフトウェアを用いて作成した文書データを読み込む入力機器であってもよい。
コンテンツ記憶手段3は、例えば、コンテンツ入力手段1からのコンテンツを記録する内部記憶装置または外部記憶装置である。コンテンツ記憶手段3で用いられる記憶媒体は、RAM、CD−ROM、DVD、フラッシュメモリ、ハードディスクに例示される。
文書記憶手段4は、文書入力手段2からの文書を記録する内部記憶装置または外部記憶装置である。文書記憶手段4で用いられる記録媒体は、RAM、CD−ROM、DVD、フラッシュメモリ、ハードディスクに例示される。
コンテンツ区間抽出手段5は、コンテンツ記憶手段3に記憶されたコンテンツ(情報)を話者毎に区間分割し、単一話者によるコンテンツ区間の抽出を行う。単一話者によるコンテンツ区間(以下、「単一話者区間」ともいう)は、話者が交替した時点から次に話者が交替するまでの区間である。単一話者区間は、区間内では発話者が単一でありかつ隣接する区間での発話者が異なるように抽出される。コンテンツ区間抽出手段5が抽出する単一話者区間は、誤りを含まないことが望ましいが、コンテンツ区間抽出の自動化を行ったために誤りを含んでしまっても構わない。
文書区間抽出手段6は、文書記憶手段3に記憶された文書から、各発話者に対応した区間(文書区間)の抽出を行う。抽出された文書区間は、単一話者の発言に対応する文書情報を記述する。文書区間抽出手段6は、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法を用いて文書区間の抽出を行う。
区間対応関係導出手段7は、コンテンツ区間抽出手段5が抽出したコンテンツ区間と文書区間抽出手段6が抽出した文書区間との対応関係を導出して、出力手段8に出力する。出力手段8は、その対応関係を表示装置、プリンタ、内部記憶装置、外部記憶装置などに表示、出力、格納する。
文書対応付け装置10は、コンピュータで実現される場合、コンテンツ区間抽出手段5、文書区間抽出手段6および区間対応関係導出手段7は、コンピュータの演算処理装置(例示:CPU)と、各手段5,6,7の機能を実現するためのプログラムとで実現可能である。
図2は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の一例を示すブロック図である。コンテンツ区間抽出手段5は、音声分割部21と、音声特徴量導出部22と、一次記憶部23と、音声特徴量整合部24と、出力部25とを含む。音声分割部21は、コンテンツ記憶手段3から読み出されたコンテンツから無音区間を抽出して音声の第一の分割を行う。音声特徴量導出部22は、第一の分割によって得られた第一の音声区間に関して音声特徴量を導出する。一次記憶部23は、第一の音声区間の開始時間と音声特徴量を記憶する。音声特徴量整合部24は、音声特徴量導出部22が導出した音声特徴量と、一次記憶部23に記憶されていた音声特徴量との比較を行う。出力部25は、音声特徴量整合部24の処理結果を区間対応関係導出手段7に出力する。
本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の一例について説明する。図3は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の一例を示すフローチャートである。図3は、図2に示されたしている。ここでは、コンテンツが音声を含む映像であり、コンテンツ区間抽出に音声解析を用いた場合を例に説明する。
音声分割部21は、音声の第一の分割を行う(ステップS101)。すなわち、音声分割部21は、音声の第一の分割として、入力映像の無音区間を抽出し、2つの無音区間の間の音声区間を検出する。無音区間は、入力映像の音声トラックもしくは入力音声の音声パワーの測定により抽出される。音声特徴量導出部22は、音声の第一の分割によって得られた第一の音声区間に関して、音声特徴量を導出する(ステップS102)。音声特徴量としては、区間内の音声の平均基本周波数、平均発話時間長、平均音声パワーが例示される。一次記憶部23は、音声特徴量導出部22が音声特徴量を導出したときに、その第一の音声区間の開始時間と音声特徴量とが記憶されているか否かを判定する(ステップS103)。その第一の音声区間の開始時間と音声特徴量とが記憶されていない場合、一次記憶部23は、その第一の音声区間の開始時間と音声特徴量を記憶する(ステップS104)。
既にその第一の音声区間の開始時間と音声特徴量とが記憶されている場合、音声特徴量整合部24は、音声特徴量導出部22が導出した新規音声特徴量と、一次記憶部23に記憶されている音声特徴量との比較を行う(ステップS105)。両区間の音声特徴量が、あらかじめ設定した閾値より小さい(類似している)場合、音声特徴量整合部24は、同一人物による発話が継続していると判定する(ステップS106:YES)。音声分割部21は、音声データが終了していない場合(ステップS109:NO)、次の無音区間までの音声情報を抽出する(ステップS101)。
両区間の音声特徴量が異なっている場合(ステップS106:NO)、音声特徴量整合部24は、音声の発話者が変化したと判定する。出力部25は、一次記憶部23中に記憶されている開始時間と、現在の音声区間の開始時間の間の区間を単一話者の発話区間として出力する(ステップS107)。すなわち、音特徴の変化点解析により、単一話者の発話区間が検出される。同時に、一次記憶部23は、音声特徴量と開始時間を新規に得られたものに更新する(ステップS108)。音声分割部21は、音声データが終了していない場合(ステップS109:NO)、引き続き次の音声の無音区間を抽出する(ステップS101)。
以上の処理が、音声データが終了するまで継続される。なお、音声特徴量として、ここでは、声の高さ、声の長さ、声の大きさのような韻律情報の特徴の変化(音声特徴量の変化の一例)を得るために、平均基本周波数、平均発話時間長、平均音声パワーを用いている。しかし、韻律情報を表す別の尺度を用いてもよい。また、言い回しや口癖といった会話形態の特徴量を利用してもよい。その場合、少なくとも一つの韻律情報の特徴の変化を用いればよい。
また、ここでは、コンテンツ区間抽出手段5は、音声区間における音声特徴量の類似度をもとに発話者の変化点を検出して話者区間を特定する。話者の識別を行っているのではなく、話者の変化した点を検出していることで、話者識別や音声認識と比較して高精度に話者区間を検出できる。もちろん、コンテンツ区間抽出手段5は、各時間における音声特徴量から、発話者の特定を行い、話者識別結果から話者区間を抽出してもよい。
図4は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の他の一例を示すブロック図である。コンテンツ区間抽出手段5は、シーン分割部31と、人物抽出および人物特徴量導出部32と、一次記憶部33と、人物特徴量整合部34と、出力部35とを含む。シーン分割部31は、コンテンツ記憶手段3から読み出されたコンテンツからシーンチェンジを検出することによって連続したフレームで構成される第一の映像区間を抽出する。人物抽出および人物特徴量導出部32は、第一の映像区間に関して人物特徴量を導出する。一次記憶部33は、第一の映像区間の開始時間と人物特徴量を記憶する。人物特徴量整合部34は、人物特徴量導出部32が導出した人物特徴量と人物特徴量および開始時間記憶部33に記憶されている人物特徴量との比較を行う。出力部35は、人物特徴量整合部34の処理結果を区間対応関係導出手段7に出力する。
本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の他の一例について説明する。図5は、本発明の文書対応付け方法の実施の形態におけるコンテンツ区間抽出手段5の動作の他の一例を示すフローチャートである。ここでは、入力として映像情報を想定し、会話中の発話者が映像中に映っているということを仮定して話者区間の導出を行う場合を例にする。
シーン分割部31は、入力映像のフレーム間の差分を測定して映像情報が大きく変化した部分を検出し、検出結果にもとづいて視覚的に連続したフレームで構成される第一の映像区間を抽出する(ステップS201)。人物抽出および人物特徴量導出部32は、映像中に映っている人物領域を抽出し、人物領域に対して映像処理を施して人物特徴量を導出する(ステップS202)。人物領域抽出の方法としては、映像中の動物体が人物のみである場合に、背景差分法として監視の分野では広く使われている方法である前フレームとの差分値が特定値以上の領域を人物領域として採用する方法が例示される。人物の特徴量としては、顔の形状等の詳細に記述されている顔特徴量、人物全体の色の分布や模様及び境界の形状を記述した低次の視覚特徴量に例示される。色の分布等や模様を利用することにより、利用者の着ている服の特徴(人物の衣服の視覚的特徴)を考慮に入れることができるので、単純な会議等での人物変化の抽出には十分適用可能である。
人物特徴量および開始時間記憶部33は、人物抽出および人物特徴両導出部32が人物特徴量を導出したときに、その第一の映像区間の開始時間と人物特徴量が記憶されているか否かを判定する(ステップS203)。その第一の映像区間の開始時間と人物特徴量が記憶されていない場合(ステップS203:NO)、その第一の映像区間の開始時間と人物特徴量を記憶する(ステップS204)。すなわち、映像中の視覚的特徴の変化点解析により、第一の映像区間が検出される。既にその第一の映像区間の開始時間と人物特徴量が記憶されている場合(ステップS203:YES)、人物特徴量整合部34は、人物抽出および人物特徴量導出部32が導出した新規人物特徴量と、人物特徴量および開始時間記憶部33に記憶されている人物特徴量との比較を行う(ステップS205)。そして、人物特徴量整合部34は、両区間の人物特徴量があらかじめ設定した閾値より類似している場合、同一人物による発話が継続していると判定する(ステップS206:YES)。シーン分割部31は、映像データが終了していない場合(ステップS209:NO)、次の映像情報が大きく変化した部分を抽出する(ステップS201)。
人物特徴量整合部34は、両区間の人物特徴量が異なっている場合、映像中の発話者が変化したと判定する(ステップS206:NO)。出力部35は、一次記憶部33に記憶されている開始時間と、現在の映像区間の開始時間との間の区間を単一話者の発話区間として出力する(ステップS207)。同時に、一次記憶部33は、人物特徴量と開始時間を新規に得られたものに更新する(ステップS208)。シーン分割部31は、映像データが終了していない場合(ステップS209:NO)、次の映像情報が大きく変化した部分を抽出する(ステップS201)。
以上の処理が、映像データが終了するまで継続される。なお、映像特徴量としては、色分布、形状、エッジヒストグラムなどの低次の特徴量や、目のカテゴリ、目,鼻,口の配置等の高次の特徴量が例示される。また、特徴量として、適切な一つを採用してもよいし、複数を組み合わせてもよい。また、人物が大きく動かないという仮定を導入すれば、人物領域を抽出せず、背景の情報も含めて視覚特徴量とすることも可能である。
図6は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の更に他の一例を示すブロック図である。図6は、音声に関する区間抽出と映像に関する区間抽出の双方を行うコンテンツ区間抽出手段5を示している。音声区間抽出部81は、例えば、図2に示される音声分割部21、音声特徴量導出部22、一次記憶部23、音声特徴量整合部24および出力部25を備える。映像区間抽出部82は、例えば、図4に示されるシーン分割部31、人物抽出および人物特徴量導出部32、一次記憶部33、人物特徴量整合部34および出力35を備える。音声映像区間抽出部(音声映像区間統合手段)83は、音声区間抽出部81の出力と映像区間抽出部82の出力から、コンテンツ区間を決定する。音声映像区間抽出部83は、例えば、音声区間抽出部81の出力と映像区間抽出部82の出力がともに、発話者が変わったことを示す時点のみを採用してコンテンツ区間を決定する。
図7は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の動作の更に他の一例を示すフローチャートである。音声区間抽出部81は、入力映像の音声に基づいて、入力映像を複数の音声区間に分割する(ステップS121)。例えば、図3に示す動作を実行する。一方、映像区間抽出部82は、入力映像の映像に基づいて、入力映像を複数の映像区間に分割する(ステップS122)。例えば、図5に示す動作を実行する。ただし、ステップS121とステップS122とは、同時に行っても良いし、ステップS122を先に行っても良い。次に、音声映像区間抽出部(音声映像区間統合手段)83は、音声区間抽出部81の出力と映像区間抽出部82の出力とに基づいて、コンテンツ区間を決定する(ステップS123)。例えば、音声映像区間抽出部83は、音声区間抽出部81の出力と映像区間抽出部82の出力がともに、発話者が変わったことを示す時点のみを採用してコンテンツ区間を決定する。
図8は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の構成の別の一例を示すブロック図である。図8は、音声解析と映像解析の双方を使ってコンテンツの単一話者区間の抽出を行うコンテンツ区間抽出手段5を示している。
シーン分割部91は、コンテンツの特徴量を解析してシーンに分割する。シーン分割部91は、図2に示された音声分割部21のように音声特徴量を用いてもよいし、図4に示された人物抽出および人物特徴量導出部32のように視覚的特徴量を用いてもよい。また、音声特徴量と人物特徴量との和をとってもよい。すなわち、発話者が変化した時点を導出するために、映像中の視覚的特徴の変化点解析と音声中の音特徴の変化点解析を行って双方の結果を統合するようにしてもよい。音声特徴量導出部92は、抽出されたシーンの音声特徴量を導出する。視覚的特徴量導出部93は、抽出されたシーンの視覚的特徴量を導出する。一次記憶部94は、抽出された音声特徴量及び視覚的特徴量が蓄積されていない場合、それら音声特徴量および視覚特徴量とその開始時間とを記憶する。既に、音声特徴量および視覚特徴量が記憶されている場合、音声特徴量整合部95は、音声特徴量導出部92から入力した音声特徴量と、一次記憶部94に記憶されている音声特徴量との比較を行う。同様に、視覚的特徴量整合部96は、視覚的特徴量導出部93から入力した視覚特徴量と、一次記憶部94に記憶されている視覚特徴量との比較を行う。
音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合、一次記憶部94に記憶される音声特徴量および視覚的特徴量をクリアして、現在の時間と開始時間とを出力部97に送る。出力部97はそれらを区間対応関係導出手段7に出力する。なお、音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きく、かつ、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合に、現在の時間と開始時間とを出力部97に送るようにしてもよい。
図9は、本発明の文書対応付け装置の実施の形態におけるコンテンツ区間抽出手段5の動作の別の一例を示すフローチャートである。
シーン分割部91は、コンテンツの特徴量を解析してシーンに分割する(ステップS141)。シーン分割部91は、図2に示された音声分割部21のように音声特徴量を用いてもよいし、図4に示された人物抽出および人物特徴量導出部32のように視覚的特徴量を用いてもよい。また、音声特徴量と人物特徴量との和をとってもよい。すなわち、発話者が変化した時点を導出するために、映像中の視覚的特徴の変化点解析と音声中の音特徴の変化点解析を行って双方の結果を統合するようにしてもよい。音声特徴量導出部92は、抽出されたシーンの音声特徴量を導出する(ステップS142)。視覚的特徴量導出部93は、抽出されたシーンの視覚的特徴量を導出する(ステップS143)。ただし、ステップS142とステップS143とは、同時に行われても良いし、ステップS143が咲きに行われても良い。一次記憶部94は、抽出された音声特徴量及び視覚的特徴量が蓄積されているか否かを判定する(ステップS144)。抽出された音声特徴量及び視覚的特徴量が蓄積されていない場合(ステップS144:NO)、一次記憶部94は、それら音声特徴量および視覚特徴量とその開始時間とを記憶する(ステップS145)。
既に、音声特徴量および視覚特徴量が記憶されている場合(ステップS144:YES)、音声特徴量整合部95は、音声特徴量導出部92から入力した音声特徴量と、一次記憶部94に記憶されている音声特徴量との比較を行う。同様に、視覚的特徴量整合部96は、視覚的特徴量導出部93から入力した視覚特徴量と、一次記憶部94に記憶されている視覚特徴量との比較を行う(ステップS146)。
音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも小さい(類似している)場合、かつ、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも小さい(類似している)場合、音声特徴量導出部92及び視覚的特徴量導出部93は、同一人物による発話が継続していると判定する(ステップS147:YES)。シーン分割部91は、データが終了していない場合(ステップS150:NO)、シーン分割を継続する(ステップS141)。
音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、または、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合、音声特徴量導出部92、または、視覚的特徴量導出部93は、同一人物による発話が終了したと判定する(ステップS147:NO)。一次記憶部94は、記憶される音声特徴量および視覚的特徴量をクリアして、現在の時間と開始時間とを出力部97に送る(ステップS148)。出力部97はそれらを区間対応関係導出手段7に出力する(ステップS149)。
なお、音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも大きい場合、かつ、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも大きい場合に、同一人物による発話が継続していると判定し、現在の時間と開始時間とを出力部97に送るようにしてもよい。
その場合、音声特徴量導出部92から入力した音声特徴量と一次記憶部94に記憶されている音声特徴量との差があらかじめ定めた閾値よりも小さい場合、又は、視覚的特徴量導出部93から入力した視覚的特徴量と一次記憶部94に記憶されている視覚的特徴量との差があらかじめ定めた閾値よりも小さい場合に、同一人物による発話が終了したと判定する。
このようにすることにより、音声では区別できなかった話者区間を映像から識別したり、また、顔または服などの視覚的特徴量が類似していたため映像からは検出困難だった話者区間を音声特徴により抽出することができる。すなわち、コンテンツ区間を精度よく検出することが可能になる。
図1に示された文書区間抽出手段6は、文書記憶手段4に記憶された文書情報から、文書中の各発話者に対応した区間(文書区間)の抽出を行う。抽出された文書区間においては、単一話者の発言に対応する文書情報が記述される。文書情報からの発話者に対応した文書区間の抽出には、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法がある。
図10は、本発明の文書対応付け装置の実施の形態における文書区間抽出手段6の動作の一例を示すフローチャートである。文書区間抽出手段6は、文書記憶手段4に記憶された文書情報から、文書区切りを示す情報(以下「文書区切情報」)を抽出する(ステップS161)。文書区切情報としては、文書中の改行(空行)、文字フォントの相違、文字の色の相違、文字のレイアウト、発話者の名前の記載などに例示される。次に、文書区間抽出手段6は、文書区切情報に基づいて、最適な文書区間の抽出方法を選択する(ステップS162)。文書区切情報と文書区間の抽出方法との対応関係(テーブル)は、図示されない記憶部に格納されている。文書情報からの発話者に対応した文書区間の抽出方法には、例えば、文書の書式情報を使う方法、文書中に記入された発話者に関する記述を利用する方法、構造化文書におけるメタデータを利用する方法がある。そして、文書区間抽出手段6は、文書中の各発話者に対応した区間(文書区間)の抽出を行う。抽出された文書区間においては、単一話者の発言に対応する文書情報が記述される。ただし、文書情報があらかじめ決まっている場合、ステップS161及びS162を省略し、文書情報に対応する文書区間の抽出方法を直ぐに実行しても良い。
以下、文書区間抽出手段6が実行する文書区間の抽出方法の具体例を説明する。
図11A〜図11Dは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の一例を示す図である。図11Aに示す例では、発話者間の発言に対して空行が挿入されている。よって、文書区間抽出手段6は、空行をもとに文書区間を抽出することができる。図11Bに示す例では、対談における文書が例示されている。そして、ホストの発言が斜字で表示されている。よって、文書区間抽出手段6は、ゲストの発言内容とホストの発言内容とを識別して、文書区間の抽出を行うことができる。図11Cに示す例では、発話者ごとに色が異なっている。複数の発話者を区別する際によく利用される。よって、文書区間抽出手段6は、色情報を用いて文書区間を抽出することができる。図11Dに示す例では、発話者ごとに記載場所が整理されている。このように発話者ごとに記載場所が整理されている場合には、発話者の名前が直接記入されていなくても、文書区間抽出手段6は、単一発話者と推定される区間を抽出することができる。なお、ここで抽出した区間はあくまで候補であり、単一発話者の区間で区切られていることが望ましいが、厳密に単一発話者の発言でまとまっていなくてもよい。なお、図11A〜図11Dを参照して説明される方法では、文書の構造解析の一例が実施されていることになる。
図12A〜図12Cは、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の他の一例を示す図である。図12A〜図12Cは、文書中に記入された発話者に関する記述を利用して文書区間を抽出する方法を示している。図12Aに示す例では、発言の前に「名前:」の形式で発話者が記入されている。文書区間抽出手段6は、「名前:」に基づいて文書区間を抽出することができる。図12Bに示す例では、名前の代わりに、「Question」、「Answer」のような表現が使われている。文書区間抽出手段6は、「Question」、「Answer」に基づいて文書区間を抽出することができる。図12Cに示す例では、発言者の名前が別カラムで表示されており、ドラマの台本や議事録などで広く用いられる。こうした情報を用いれば、文書区間抽出手段6は、容易に発話者および発話者区間に関する情報を文書から抽出することができる。なお、図12A〜図12Cを参照して説明される方法でも、文書の構造解析の一例が実施されていることになる。
図13は、本発明の文書対応付け方法の実施の形態における文書の書式情報を利用する方法の更に他の一例を示す図である。図13は、構造化文書におけるタグを利用して文書区間の抽出する方法を示している。文書区間抽出手段6は、例えば「Speaker」タグによって文書区間の抽出することができる。なお、図11A〜図13に例示された文書から文書区間を抽出する方法以外にも、文書の書式情報や発話者に関する記述を利用した文書区間抽出は可能である。また、文書区間抽出手段6は、これらの方法を組み合わせてより高精度に発話者区間を抽出するということも可能である。さらに、文書区間抽出手段6は、音声と同様に、文書中の記述の会話相当部の口癖や言い回しのような会話特徴の変化にもとづいて文書区間を導出してもよい。なお、図13を参照して説明される方法でも、文書の構造解析の一例が実施されていることになる。
次に、本発明の文書対応付け装置の実施の形態におけ区間対応関係導出手段7について説明する。図14は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の一例を示すブロック図である。図14に示す例では、区間対応関係導出手段7は、コンテンツ長正規化部41と、文書長正規化部42と、区間整合度導出部(区間整合手段)43と、区間対応関係記憶部44と、区間統合部45と、出力部46とを含む。コンテンツ長正規化部41は、抽出された各区間におけるコンテンツ長の正規化を行う。文書長正規化部42は、各文書区間の長さを正規化する。区間整合度導出部(区間整合手段)43は、コンテンツ区間と文書区間の対応関係を導出する。区間対応関係記憶部44は、区間毎の対応関係を記憶する。区間統合部45は、隣接する区間を統合してコンテンツと文書とを一対一に対応付ける。出力部46は、対応関係を出力する。
次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法について説明する。図15は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の一例を示すフローチャートである。図16A及び図16Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。図17は、対応関係導出方法における正規化を説明する図である。なお、図16に示す例では、説明簡略化のため、コンテンツ区間抽出手段5によって抽出された話者区間が6区間([a]−[f])、文書区間抽出手段6によって抽出された文書区間が7区間([1]−[7])であるとする。
コンテンツ長正規化部41は、抽出された各区間におけるコンテンツ長の正規化を行う(ステップS301)。正規化に際して、図17(a)に示すようにコンテンツが音声を含む場合、まず、各区間中の無音部を抽出する。次に、抽出された無音部を各区間から除く。そして、各区間の長さが音声部分の長さに比例し、総和が1.0となるように正規化する。この状態が図17(b)である。なお、図16A(a)および図17(a)に示すコンテンツ情報は無音部を含むとする。また、図17(c)に示すように、無音部を除かずに、単なる区間長に比例するように正規化を行ってもよい。コンテンツが音声を含まない場合、映像情報から人物検出を行い、人物を含まない場合を各区間から除いて各区間の長さが音声部分の長さに比例し、総和が1.0となるように正規化してもよい。人物を含まない区間を除かずに、単なる区間長に比例するように正規化を行ってもよい。
文書長正規化部42は、各文書区間の長さを正規化する(ステップS302)。例えば、各区間の長さを各区間に含まれる文書量(又は文字量)に比例した長さとする。双方を正規化してならべた結果の一例が図13Aに示されている。図16A(a)はコンテンツ情報、図16A(b)は文書情報をそれぞれ示す。
区間整合度導出部43は、コンテンツ区間と文書区間の個別の対応関係を導出する(ステップS303)。例えば、正規化軸上での重なりを調べて、最も重なった領域と対応関係があるとする。図16Aに示す例では、その対応関係は、文書情報で考えると、[1]→[a],[2]→[a],[3]→[b],[4]→[c],[5]→[d],[6]→[f],[7]→[f]となる。コンテンツ情報で考えると、[a]→[2],[b]→[3],[c]→[4],[d]→[5],[e]→[5],[f]→[7]となる。区間対応関係記憶部44は、区間整合度導出部43が導出した区間毎の対応関係を記憶する。
区間統合部45は、コンテンツと文書とが完全に一対一に対応しているか否かを判定する(ステップS304)。コンテンツと文書とが完全に一対一に対応していない場合(ステップS304:NO)、区間統合部45は、区間対応関係記憶部44が記憶する区間毎の対応関係に基づいて、コンテンツと文書とが完全に一対一に対応するまで、隣接する区間を統合して、コンテンツと文書が一対一に対応付くようにする(ステップS304、S305)。例えば、同一区間に対応する隣接区間を統合する処理(例示:[1]→[a]、[2]→[a]であったとき、[1]と[2]を統合する)を繰り返すことにより、コンテンツと文書との一対一の対応を得ることができる。コンテンツと文書とが完全に一対一に対応した場合(ステップS304:YES)、出力部46は、区間統合部45による統合後の区間を一つの区間とみなして、対応関係を出力する(ステップS306)。
図16Aに示す例では、上記の処理により、図13Bに示すように、[[1][2]⇔[a]],[[3]⇔[b]],[[4]⇔[c]],[[5]⇔[d][e]],[[6][7]⇔[f]]の対応関係および区間を抽出することができる。以上のように、区間対応関係導出手段7は、抽出されたコンテンツ区間の区間長と抽出された文書区間の文書量とを比較することにより対応付けを行う。
区間対応関係導出手段7は、コンテンツの変化の確信度を導入して対応関係を導出することもできる。すなわち、コンテンツ区間抽出手段5から、導出された区間情報に加えて、区間抽出のために用いた変化点抽出の確信度をスコアとして入力し、変化点抽出の確信度を用いて対応関係を導出する。例えば、変化の確信度が高い領域において、区間統合部45が、変化の確信度の高いスコアをもつ両区間に対して、統合処理を行う代わりに、一方を別の区間と統合する。図18A及び図18Bは、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。すなわち、図15Aに示す例において、[d]→[e]の変化の確信度が0.90(高い)、[e]→[f]の確信度が0.40(低い)である場合、長さの短い[e]を[f]と統合して対応関係を導出する。この結果、図15Bに示すように確信度を反映した対応関係を導出することができる。
また、コンテンツ区間の確信度のかわりに、文書区間抽出の際の確信度を利用したり、または、コンテンツ区間と文書区間の双方で確信度を利用したり場合にも、同様の処理が可能である。
図19は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の他の一例を示すブロック図である。区間対応関係導出手段7は、話者情報記憶部51と、話者識別部52と、文書話者情報抽出部53と、区間整合度導出部54とを含む。話者情報記憶部51は、人物を特定するための特徴量と人物との対応関係を記憶する。話者識別部52は、話者を特定する。文書話者情報抽出部53は、文書中から話者に関する情報を抽出する。区間整合度導出部54は、話者情報をもとに区間の整合を行う。
話者情報記憶部51は、あらかじめ、人物を特定するための特徴量(音声特徴量または視覚的特徴量を含む。)と人物との対応関係を記録する。特徴量は、人物識別のためにあらかじめ設定される。例えば、音声特徴量を用いる場合には、特定の音素あるいは単語に関する音高、ピッチといった発話者毎に異なる話者固有の特徴量を使用する。また、言い回し、口癖といった情報を利用してもよい。視覚的特徴量を用いる場合には、話者の顔についての特徴として、目,鼻,口の形状や位置関係などを使用する。特徴量として、顔認識技術や話者識別技術として利用される既知の特徴量を利用することもできる。
話者識別部52は、コンテンツ区間抽出手段5からコンテンツ区間の情報およびその区間に含まれる特徴量を入力し、それらを、話者情報記憶部51に記憶されている特徴量と比較することによって1つまたは複数の区間における話者を特定する。このように、特徴量整合識別手段としての話者識別部52は、話者情報記憶部51が記憶する特徴量とコンテンツ特徴量抽出手段(具体的にはコンテンツ区間抽出手段5)が抽出した特徴量との比較を行って話者の識別を行う。話者識別部52は、例えば、入力特徴量がもっとも近い話者情報記憶部51中の人物を抽出する。会議やテレビ番組等であらかじめ登場人物が限られている場合には、それらの制約情報を考慮して識別を行ってもよいし、候補となる話者をすべて列挙してもよい。文書話者情報抽出部53は、1つまたは複数の文書区間における話者を特定することによって、文書中から話者に関する情報(話者情報)を抽出する。区間整合度導出部54は、話者情報をもとに区間の整合を行う。すなわち、話者区間と文書区間とを対応付ける。
次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する他の対応関係導出方法について説明する。図20は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の他の一例を示すフローチャートである。図21及び図22は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。なお、この例は、図12A〜図13に示されるように話者情報が文書中に記述されて抽出可能であるときに有効である。
話者識別部52は、コンテンツ区間抽出手段5から入力されるコンテンツ区間の情報およびその区間に含まれる特徴量に基づいて、それらを、話者情報記憶部51に記憶されている特徴量と比較することによって1つまたは複数の区間における話者(話者区間)を特定する(ステップS321)。一方、文書話者情報抽出部53は、1つまたは複数の文書区間における話者を特定することによって、文書中から話者に関する情報(話者情報)を抽出する(ステップS322)。ただし、ステップS321とステップS322とは、同時に行っても良いし、ステップS322を先に行っても良い。次に、区間整合度導出部54は、話者情報をもとに区間の整合を行う。すなわち、話者区間と文書区間とを対応付ける(ステップS323)。このようにして、動作する。
図21((a)コンテンツ情報、(b)文書情報)に示す区間整合部54による区間の正豪雨処理の一例では、話者識別部52がコンテンツ情報(:コンテンツ区間)にもとづいて話者情報記憶部51に記憶されている特徴量を利用して話者を特定した結果である人物識別情報に従って区間の対応がとられている。区間の対応に関しては、ダイナミックプログラミングマッチング(DPマッチング)の手法を導入してもよい。コンテンツ情報にもとづく話者識別の精度が低く図21に例示するように「田中」が抽出されない場合には、「田中」をスキップして対応をとることができる。
図22((a)コンテンツ情報、(b)文書情報)は、話者識別部52が複数の人物を候補として抽出した場合の区間整合度導出部54による区間の整合処理例を説明するための説明図である。この場合、文書情報にもとづく人物情報によって、[f]の領域は文書情報の[7]の区間と対応付けることができる。なお、「高木」や「山下」は文書中に登場しないとする。また、[a]の区間は、「山本」または「田中」の区間であるが、両方の名前が文書情報にでているため、[1]および[2]と対応付けられる。
図23は、本発明の文書対応付け装置の実施の形態における区間対応関係導出手段7の構成の別の一例を示すブロック図である。区間対応関係導出手段7は、音声認識を行って入力音声に対する候補テキストを生成する音声認識部61と、候補テキストと文書記憶手段4中の文書の対応付けを行う候補テキスト文書対応部62とを含む。
図24は、候補テキスト文書対応部62の構成の一例を示すブロック図である。候補テキスト文書対応部62は、候補テキスト内単語抽出部71と、文書区間内単語抽出部72と、候補テキスト/文書区間対応部74と、候補テキスト/文書区間単語類似度計算部73とを含む。候補テキスト内単語抽出部71は、一つまたは複数の単語を区間の候補テキストの中から抽出する。文書区間内単語抽出部72は、各区間における一つまたは複数の単語を抽出する。候補テキスト/文書区間対応部74は、各区間の対応付けを行う。候補テキスト/文書区間単語類似度計算部73は、区間内距離を算出する。
次に、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する別の対応関係導出方法について説明する。図25は、本発明の文書対応付け方法の実施の形態における区間対応関係導出手段7が実行する対応関係導出方法の別の一例を示すフローチャートである。図26及び図27は、対応関係導出方法におけるコンテンツ情報と文書情報との対応関係を示す図である。コンテンツには音声情報が含まれているとする。
音声認識部61は、コンテンツ区間抽出手段5から、コンテンツ区間についての情報を入力される。また、コンテンツ記憶手段3からコンテンツ情報を入力される。そして、コンテンツ情報から音声情報を取り出し、音声認識を行って、入力音声に対する候補テキストを生成する(ステップS341)。音声認識方式については種々の手法があるが、音素をもちいた認識方法、直接単語テンプレートを利用して音声認識する方法、話者に合わせてテンプレートを変換する等、この実施の形態ではいずれの方法を用いてもよい。
候補テキスト文書対応部62は、音声認識部61からのコンテンツの各区間の候補テキストをうけとり、候補テキストと文書記憶手段4中の文書との対応付けを行う。
候補テキスト文書対応部62は、候補テキストにおける単語と、文書区間内の単語とを比較する。そして、一致した単語または類似した単語を含むコンテンツ区間と文書区間とを対応付ける。具体的には、候補テキスト内単語抽出部71が、各コンテンツ区間に使用されているひとつまたは複数の単語を区間の候補テキストの中から抽出する(ステップS342)。文書区間内単語抽出部72は、各文書区間における一つまたは複数の単語を抽出する(ステップS343)。なお、ステップS342とステップS343とは同時に行っても良いし、ステップS343を先に行っても良い。次に、候補テキスト/文書区間単語類似度計算部73は、コンテンツ区間における単語と文書区間における単語の類似度を判定するための区間内距離の計算を行う(ステップS344)。候補テキスト/文書区間対応部74は、区間内距離に基づいて、抽出された単語組を比較することによりコンテンツ区間と文書区間との対応付けを行い、結果を出力する(ステップS345)。
図26は、候補テキスト文書区間対応部74による候補テキストと文書記憶手段4中の文書との対応付けの一例を示している。(a)はコンテンツ区間、(b)はコンテンツ区間の開始時間、(c)は候補テキスト単語、(d)は文書区間内単語、(e)は文書区間、(f)は文書をそれぞれ示す。図26に示す例では、各文書区間では、その文書区間において重要である単語(文書区間の内容を特徴付ける基本単語)として、(情報通信、音声認識、意味情報、・・・)、(セキュリティ、ビデオカメラ、動物体、・・・)、(実験、・・・)、(研究、・・・)が抽出されている。各音声映像区間すなわちコンテンツ区間(13:41、15:41)、(15:41、16:50)、(16:50、20:15)、(20:15、21:13)、・・・から、おのおの、(音声認識、意味情報、・・・)、(情報通信、意味情報,・・・)、(セキュリティ、・・・)、(研究、・・・)といった単語が抽出されている。このような単語は、文書中から単に名詞だけを抽出することによって得られるものでもよいし、あらかじめ辞書に重要単語を登録しておき、辞書中の単語と整合をとることで抽出されもよい。また、単語の使用頻度解析によって、重要度を決定してもよい。
図27は、候補テキスト文書区間対応部74による候補テキストと文書記憶手段4中の文書との対応付けの一例を示している。(a)はコンテンツ区間、(b)はコンテンツ区間の時間、(c)は文書区間、(d)は文書、(e)対応関係表をそれぞれ示す。候補テキスト文書区間対応部74は、単語列の類似度(重複度)を測定することにより、図27(e)に対応関係表として例示するように、各区間の対応関係を導出することができる。なお、図26に例示するように、対応がとれない場合には「対応がとれない」としてしまってもよい。また、コンテンツ区間と文書区間との対応関係導出にはダイナミックプログラミングマッチング(DPマッチング)の手法を利用してもよい。
以上のようにして、コンテンツ区間と文書区間の対応付けが実現される。対応付けは、上記の区間対応関係導出手段7の各構成(図14、図19、図23)の組み合わせによって実現してもよい。
図1に示された出力手段8は、区間対応関係導出手段7が導出した音声または映像と文書区間との対応関係を出力する。出力の形態の一例として、図27(e)に示されているように、文書の区間の先頭にコンテンツ中の時間を付与した対応関係表がある。この他、コンテンツの時間情報と、文書区間との対応関係を表す表現であれば、どのような出力形態であってもよい。
本発明は、コンテンツと文書情報とを自動的に対応付けることによってコンテンツと文書情報を同期表示する情報提示装置や、テキスト情報でコンテンツの該当部分を検索したり頭だしをするマルチメディア表示装置や、マルチメディア検索装置といった用途に適用可能である。また、議事録等を参照しながら実際のコンテンツを確認する議会映像閲覧装置や、講演の資料と講演内容を参照する講演支援システム、教育支援システムといった用途に適用可能である。

Claims (44)

  1. (a)複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツと、前記コンテンツの内容を記述した文書とを準備するステップと、
    (b)前記コンテンツと前記文書との対応関係を、話者単位で導出するステップと
    を具備する
    文書対応付け方法。
  2. 請求項1に記載の文書対応付け方法において、
    前記(b)ステップは、
    (b1)前記コンテンツを話者単位で分割して複数のコンテンツ区間とするステップと、
    (b2)前記文書を話者単位で分割して複数の文書区間とするステップと、
    (b3)前記複数のコンテンツ区間と前記複数の文書区間との対応付けを行うステップと
    を備える
    文書対応付け方法。
  3. 請求項2に記載の文書対応付け方法において、
    前記(b2)ステップは、
    (b21)前記複数の話者の一人から前記複数の話者の他の一人へ発話者が変化した時点をコンテンツから抽出するステップと、
    (b22)前記発話者が変化した時点に基づいて、前記コンテンツを話者単位で分割するステップと
    を含む
    文書対応付け方法。
  4. 請求項3記載の文書対応付け方法において、
    前記(b21)ステップは、
    (b211)前記コンテンツは前記音声情報であり、前記発話者の音声の変化点を前記音声情報から抽出するステップを含む
    文書対応付け方法。
  5. 請求項3記載の文書対応付け方法において、
    前記(b21)ステップは、
    (b212)前記コンテンツは前記映像情報であり、前記発話者の映像の変化点前記を映像情報から抽出するステップを含む
    文書対応付け方法。
  6. 請求項1乃至3のいずれか一項に記載の文書対応付け方法において、
    前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報である
    文書対応付け方法。
  7. 請求項3または5に記載の文書対応付け方法において、
    前記(b21)ステップは、
    (b213)前記音声情報の音特徴の変化点解析を行い、前記発話者が変化した時点を導出するステップを含む
    文書対応付け方法。
  8. 請求項3または5に記載の文書対応付け方法において、
    前記(b21)ステップは、
    (b214)前記映像情報の視覚的特徴の変化点解析を行い、前記発話者が変化した時点を導出するステップを含む
    文書対応付け方法。
  9. 請求項3または6に記載の文書対応付け方法において、
    前記(b21)ステップは、
    (b215)前記映像情報の視覚的特徴の変化点解析及び前記音声情報の音特徴の変化点解析を行い、双方の結果を統合して、前記発話者が変化した時点を導出するステップを含む
    文書対応付け方法。
  10. 請求項4乃至9のいずれか一項に記載の文書対応付け方法において、
    前記(b)ステップは、
    (b4)前記文書の構造解析を行い、前記文書を話者単位で分割するステップを備える
    文書対応付け方法。
  11. コンピュータ上で使用したときに、請求項1乃至10のいずれか一項に記載された全てのステップを実行するプログラムコード手段を有するコンピュータプログラム製品。
  12. コンピュータにより読み取り可能な記憶手段に記憶された、請求項11に記載されたプログラムコード手段を有するコンピュータプログラム製品。
  13. 複数の話者が発話者として登場する音声情報及び映像情報のうちの少なくとも一方を含むコンテンツについて、前記コンテンツを話者単位で分割して複数のコンテンツ区間を抽出するコンテンツ区間抽出部と、
    前記コンテンツの内容を記述した文書を話者単位で分割して複数の文書区間を抽出する文書区間抽出部と、
    前記複数のコンテンツ区間と前記複数の文書区間との対応関係を導出する区間対応関係導出部と
    を具備する
    文書対応付け装置。
  14. 請求項13に記載の文書対応付け装置において、
    前記コンテンツは前記音声情報であり、
    前記コンテンツ区間抽出部は、前記音声情報の音特徴を解析して前記複数のコンテンツ区間を抽出する
    文書対応付け装置。
  15. 請求項13に記載の文書対応付け装置において、
    前記コンテンツは前記映像情報であり、
    前記コンテンツ区間抽出部は、前記映像情報の視覚的特徴を解析して前記複数のコンテンツ区間を抽出する
    文書対応付け装置。
  16. 請求項13に記載の文書対応付け装置において、
    前記コンテンツは、前記音声情報と前記映像情報とが同期した音声映像情報であり、
    前記コンテンツ区間抽出部は、前記音声情報の音特徴の解析の結果と前記映像情報の視覚的特徴の解析の結果とを統合して前記複数のコンテンツ区間を抽出する
    文書対応付け装置。
  17. 請求項16に記載の文書対応付け装置において、
    コンテンツ抽出部は、
    前記音声情報の音特徴を解析して、前記音声情報を話者単位に分割して複数の音声区間を抽出する音声区間抽出部と、
    前記映像情報の視覚的特徴を解析して、前記映像情報を話者単位に分割して複数の映像区間を抽出する映像区間抽出部と、
    前記複数の音声区間に関する複数の音声区間情報と、前記複数の映像区間に関する複数の映像区間情報とに基づいて、前記複数のコンテンツ区間を抽出する音声映像区間統合部と
    を含む
    文書対応付け装置。
  18. 請求項13に記載の文書対応付け装置において、
    前記コンテンツ区間抽出部は、前記コンテンツにおける前記複数の話者の一人から前記複数の話者の他の一人へ発話者が変化した時点としての発話者変化点を抽出して、前記複数のコンテンツ区間を抽出する
    文書対応付け装置。
  19. 請求項18に記載の文書対応付け装置において、
    前記コンテンツは前記音声情報を含み、
    前記コンテンツ区間抽出部は、前記音声情報における発話の高さ、発話速度、発話の大きさのうちの少なくとも一つの韻律情報の特徴の変化に基づいて、前記発話者変化点を抽出する
    文書対応付け装置。
  20. 請求項18に記載の文書対応付け装置において、
    前記コンテンツは前記音声情報を含み、
    前記コンテンツ区間抽出部は、前記音声情報における会話形態の変化に基づいて、前記発話者変化点を抽出する
    文書対応付け装置。
  21. 請求項18に記載の文書対応付け装置において、
    前記コンテンツは前記映像情報を含み、
    前記コンテンツ区間抽出部は、前記映像情報における人物の視覚的特徴の変化に基づいて、前記発話者変化点を抽出する
    文書対応付け装置。
  22. 請求項18に記載の文書対応付け装置において、
    前記コンテンツは前記映像情報を含み、
    前記コンテンツ区間抽出部は、前記映像情報における人物の顔特徴の変化に基づいて、前記発話者変化点を抽出する
    文書対応付け装置。
  23. 請求項18に記載の文書対応付け装置において、
    前記コンテンツは前記映像情報を含み、
    前記コンテンツ区間抽出部は、前記映像情報における人物の衣服の視覚的特徴の変化に基づいて、前記発話者変化点を抽出する
    文書対応付け装置。
  24. 請求項13乃至23のいずれか一項に記載の文書対応付け装置において、
    前記文書区間抽出部は、前記文書の書式情報に基づいて、前記複数の文書区間を抽出する
    文書対応付け装置。
  25. 請求項13乃至23のいずれか一項に記載の文書対応付け装置において、
    前記文書区間抽出部は、前記文書に記入された発話者に関する記述に基づいて、前記複数の文書区間を抽出する
    文書対応付け装置。
  26. 請求項13乃至23のいずれか一項に記載の文書対応付け装置において、
    前記文書区間抽出部は、前記文書における構造化文書のタグ情報に基づいて、前記複数の文書区間を抽出する
    文書対応付け装置。
  27. 請求項13乃至23のいずれか一項に記載の文書対応付け装置において、
    前記文書区間抽出部は、前記文書における会話特徴の変化に基づいて、前記複数の文書区間を抽出する
    文書対応付け装置。
  28. 請求項13乃至27のいずれか一項に記載の文書対応付け装置において、
    前記区間対応関係導出部は、前記複数のコンテンツ区間の区間長と前記複数の文書区間の文書量とを比較に基づいて、前記複数のコンテンツ区間と前記複数の文書区間との対応付けを行う
    文書対応付け装置。
  29. 請求項28の文書対応付け装置において、
    前記区間対応関係導出部は、前記複数のコンテンツ区間及び前記複数の文書区間に対するダイナミックプログラミングマッチングの実行結果に基づいて、前記対応付けを行う
    文書対応付け装置。
  30. 請求項13乃至29のいずれか一項に記載の文書対応付け装置において、
    前記区間対応関係導出部は、
    前記複数のコンテンツ区間のうちの少なくとも一つにおける発話者を特定するコンテンツ話者識別部と、
    前記複数の文書区間のうちの少なくとも一つにおける発話者を特定して、前記発話者の情報としての話者情報を得る文書話者情報抽出部と、
    前記話者情報に基づいて、前記複数のコンテンツ区間と前記複数の文書区間との整合を行う区間整合部と
    を含む
    文書対応付け装置。
  31. 請求項30の文書対応付け装置において、
    前記コンテンツ話者識別部は、
    前記複数のコンテンツ区間のうちの少なくとも一つにおける特徴量を抽出するコンテンツ特徴量抽出部と、
    前記特徴量と前記発話者とを対応させて記憶する話者情報記憶部と、
    記憶された前記特徴量と抽出された特徴量との比較に基づいて、前記発話者の識別を行う特徴量整合識別部と
    を含む
    文書対応付け装置。
  32. 請求項30又は31に記載の文書対応付け装置において、
    前記コンテンツ話者識別部は、前記音声情報における声の高さ、声の長さ、声の強さのうちの少なくとも一つの韻律情報の特徴に基づいて、前記発話者を特定する
    文書対応付け装置。
  33. 請求項30又は31に記載の文書対応付け装置において、
    前記コンテンツ話者識別部は、前記音声情報における会話形態の表す特徴量に基づいて、前記発話者を特定する
    文書対応付け装置。
  34. 請求項30又は31に記載の文書対応付け装置において、
    前記コンテンツ話者識別部は、前記映像情報における人物の視覚的特徴量に基づいて、前記発話者を特定する
    文書対応付け装置。
  35. 請求項34に記載の文書対応付け装置において、
    前記コンテンツ話者識別部は、前記人物の視覚的特徴として人物の顔特徴を用いる
    文書対応付け装置。
  36. 請求項30乃至35のいずれか一項に記載の文書対応付け装置において、
    前記文書話者情報抽出部は、前記文書に記入された発話者に関する記述に基づいて、前記発話者を特定する
    文書対応付け装置。
  37. 請求項30乃至35のいずれか一項に記載の文書対応付け装置において、
    前記文書話者情報抽出部は、前記文書における構造化文書のメタデータに基づいて、話者を特定する
    文書対応付け装置。
  38. 請求項30乃至37のいずれか一項に記載の文書対応付け装置において、
    前記区間整合部は、前記複数のコンテンツ区間の各々における発話者と前記複数の文書区間の各々における発話者とが一致するように、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
    文書対応付け装置。
  39. 請求項38に記載の文書対応付け装置において、
    前記区間整合部は、前記複数のコンテンツ区間と前記複数の文書区間とに対するダイナミックプログラミングマッチングの実行結果に基づいて、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
    文書対応付け装置。
  40. 請求項13乃至39のいずれか一項に記載の文書対応付け装置において、
    前記コンテンツは音声情報を含み、
    前記複数のコンテンツ区間における発話内容を抽出して発話テキスト情報を出力する音声認識部を更に具備し、
    前記区間対応関係導出部は、前記発話テキスト情報と前記文書の文書情報との類似度に基づいて、前記複数のコンテンツ区間と前記複数の文書区間とを対応付ける
    文書対応付け装置。
  41. 請求項40に記載の文書対応付け装置において、
    前記区間対応関係導出部は、前記発話テキスト情報で出現する単語と前記文書情報で出現する単語との間のダイナミックプログラムマッチングの実行結果に基づいて、前記発話テキスト情報と前記文書情報とを整合させる
    請求項38記載の文書対応付け装置。
  42. 請求項40または請求項41記載の文書対応付け装置において、
    前記区間対応関係導出部は、
    前記発話テキスト情報における前記複数のコンテンツ区間の各々で使用されている一つまたは複数の第1基本単語と、前記複数の文書区間の各々で使用されている一つまたは複数の第2基本単語とをそれぞれ抽出する基本単語抽出部と、
    前記複数の第1基本単語と、前記複数の第2基本単語との間の類似度を測定する基本単語群類似度導出部とを含み、
    前記類似度に基づいて、前記対応関係を導出する
    文書対応付け装置。
  43. 請求項40または請求項41記載の文書対応付け装置において、
    前記区間対応関係導出部は、前記類似度を、ダイナミックプログラミングマッチングにより対応付けることによって対応関係を導出する
    文書対応付け装置。
  44. 請求項13乃至43のいずれか一項に記載の文書対応付け装置において、
    前記コンテンツを入力するコンテンツ入力部と、
    前記コンテンツを記憶するコンテンツ記憶部と、
    前記文書情報を入力する文書入力部と、
    前記文書を記憶する文書記憶部と、
    前記対応関係に関する情報を出力する出力部と
    を更に具備する
    文書対応付け装置。
JP2005517060A 2004-01-14 2005-01-14 文書対応付け装置、および文書対応付け方法 Active JP4600828B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004006713 2004-01-14
JP2004006713 2004-01-14
PCT/JP2005/000333 WO2005069171A1 (ja) 2004-01-14 2005-01-14 文書対応付け装置、および文書対応付け方法

Publications (2)

Publication Number Publication Date
JPWO2005069171A1 true JPWO2005069171A1 (ja) 2008-09-04
JP4600828B2 JP4600828B2 (ja) 2010-12-22

Family

ID=34792152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005517060A Active JP4600828B2 (ja) 2004-01-14 2005-01-14 文書対応付け装置、および文書対応付け方法

Country Status (2)

Country Link
JP (1) JP4600828B2 (ja)
WO (1) WO2005069171A1 (ja)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ATE512411T1 (de) * 2003-12-05 2011-06-15 Koninkl Philips Electronics Nv System und verfahren zur integrierten analyse von intrinsischen und extrinsischen audiovisuellen daten
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007304642A (ja) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> 文書データ分類装置及び文書データ分類プログラム
JP4807189B2 (ja) * 2006-08-31 2011-11-02 富士ゼロックス株式会社 情報処理装置及びプログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008050718A1 (fr) * 2006-10-26 2008-05-02 Nec Corporation Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4964044B2 (ja) * 2007-07-06 2012-06-27 三菱電機株式会社 顔検出装置及び顔検出方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
TW201230008A (en) * 2011-01-11 2012-07-16 Hon Hai Prec Ind Co Ltd Apparatus and method for converting voice to text
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
TWI488174B (zh) * 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014199602A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び情報管理方法
JP2015127929A (ja) * 2013-12-27 2015-07-09 昭仁 島田 会話を記録された成員から或る主題を討議するのに最適な班構成を判別する方法
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018078463A1 (en) * 2016-10-24 2018-05-03 Sony Mobile Communications Inc Methods, computer program products and devices for automatically synchronizing an audio track with a plurality of pages
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20200082279A1 (en) 2018-09-11 2020-03-12 Synaptics Incorporated Neural network inferencing on protected data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11289512A (ja) * 1998-04-03 1999-10-19 Sony Corp 編集リスト作成装置
JP2000235585A (ja) * 1998-12-30 2000-08-29 Xerox Corp トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004007358A (ja) * 2002-03-28 2004-01-08 Fujitsu Ltd 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11289512A (ja) * 1998-04-03 1999-10-19 Sony Corp 編集リスト作成装置
JP2000235585A (ja) * 1998-12-30 2000-08-29 Xerox Corp トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004007358A (ja) * 2002-03-28 2004-01-08 Fujitsu Ltd 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199800756013, 柳沼良知、外2名, "同期されたシナリオ文書を用いた映像編集方式の一提案", 電子情報通信学会論文誌, 19960425, 第J79−D−II巻,第4号, p.547−558, JP, 社団法人電子情報通信学会 *
CSNG199800757011, 柳沼良知、外1名, "DPマッチングを用いたドラマ映像・音声・シナリオ文章の対応付け手法の一提案", 電子情報通信学会論文誌, 19960525, 第J79−D−II巻,第5号, p.747−755, JP, 社団法人電子情報通信学会 *
JPN6010030555, 柳沼良知、外1名, "DPマッチングを用いたドラマ映像・音声・シナリオ文章の対応付け手法の一提案", 電子情報通信学会論文誌, 19960525, 第J79−D−II巻,第5号, p.747−755, JP, 社団法人電子情報通信学会 *
JPN6010030559, 柳沼良知、外2名, "同期されたシナリオ文書を用いた映像編集方式の一提案", 電子情報通信学会論文誌, 19960425, 第J79−D−II巻,第4号, p.547−558, JP, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JP4600828B2 (ja) 2010-12-22
WO2005069171A1 (ja) 2005-07-28

Similar Documents

Publication Publication Date Title
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
CN108242238B (zh) 一种音频文件生成方法及装置、终端设备
JP2002091482A (ja) 感情検出方法及び感情検出装置ならびに記録媒体
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
JP5218766B2 (ja) 権利情報抽出装置、権利情報抽出方法及びプログラム
US20240064383A1 (en) Method and Apparatus for Generating Video Corpus, and Related Device
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP2013029690A (ja) 話者分類装置、話者分類方法および話者分類プログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4405418B2 (ja) 情報処理装置及びその方法
CN113345407A (zh) 一种风格语音合成方法、装置、电子设备及存储介质
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2015200913A (ja) 話者分類装置、話者分類方法および話者分類プログラム
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
CN118413708B (zh) 一种非经营性交互式直播数据智能分析系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100903

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4600828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150