JP2003255979A - データ編集方法、データ編集装置、データ編集プログラム - Google Patents
データ編集方法、データ編集装置、データ編集プログラムInfo
- Publication number
- JP2003255979A JP2003255979A JP2002060728A JP2002060728A JP2003255979A JP 2003255979 A JP2003255979 A JP 2003255979A JP 2002060728 A JP2002060728 A JP 2002060728A JP 2002060728 A JP2002060728 A JP 2002060728A JP 2003255979 A JP2003255979 A JP 2003255979A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- state
- voice
- time
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
ることができるデータ編集装置を提案する。 【解決手段】 会議中の会議音声及び映像情報を入力す
る会議音声・映像入力部と、この会議音声・映像入力部
から入力された会議音声および映像情報を蓄積する会議
音声・映像データベースと、入力された音声情報及び映
像情報から音声議事録と、テキスト議事録と、映像イン
デクシングとを作成する会議録作成部とによって構成し
たデータ編集装置を提案する。
Description
像から構成されるマルチメディア会議録を自動的に作成
することに利用することができるデータ編集方法、デー
タ編集装置及びデータ編集方法をコンピュータ上で実現
するためのデータ編集プログラムに関する。
作成の方法として、会議の文字、音声、映像をディジタ
ル化し、人手によって編集する方法があった。例えば、
日本国特開平2000−184078公報では、アナロ
グ音声信号をディジタル信号に変換し、記録媒体に記録
し、複数の音声記録装置間を接続し、信号源を共有する
方法があった。また、日本国特開平10−294492
号公報では、会議中の発言を、音声メモとして記録し、
文章に起こしてテキストメモとして付加し、順次他のテ
キストメモとの関連付けを行って議事録を作成する方法
があった。
公報では会議の出席者と、該当出席者が使用するテレビ
会議端末とを対応付けし、発言内容の音声情報を音声認
識し、認識された音声を文字情報に変換し、変換された
文字情報を、発言毎に議事録として蓄積し、文字情報か
ら音声情報に変換し、変換された音声情報を議事録とし
て蓄積するマルチメディア議事録作成方法があった。ま
た、日本国特開平7−123384号公報では、映像、
音声情報を扱う会議端末を、通信網を介して接続し、多
地点間で通信会議を行う分散会議システムのマルチメデ
ィア会議録を、自席で作成、編集、承認、配布ができる
装置があった。
報では、会議のデータを、動画、静止画、音声、ペン、
キー等の入力手段で入力し、入力データの時間関係を解
析して検索用ファイルを作成し、検索用ファイルに該当
するデータを読み出し、データを表示、編集し、マルチ
メディア会議録を作成支援する方法があった。
するには、音声情報を聴取するか、音声認識しなければ
ならない。音声聴取には、発話速度変換技術があるが、
短時間で内容を理解し、検索・編集するには限界があ
る。日本国の特開2000−184078公報記載のマ
ルチメディア会議録作成方法では利用者は重要な部分を
見出すまで全区間を聴取しなければならない。日本国特
開平8−194492号公報、日本国特開平7−123
384号公報では、議事録作成を人手で行うことが前提
なため、短時間でマルチメディア会議録を作成すること
は不可能である。また、自動的にマルチメディア会議録
を作成するものではない。
声認識技術を用いた方法として、例えば、日本国特開平
10−294798号公報では、発話者の音声情報を音
声認識する。しかし、音声認識は、雑音環境にないこと
と、明瞭な音声で、複数話者の同時発話が生じないこと
が必要である。然し乍ら、会議音声は、空調音や資料を
めくる音等の雑音環境下にある。複数話者の同時発話も
頻繁に生じ、原稿等を用いない自然な話し言葉や、会話
が主であるため、音声認識を用いるのは現実的ではな
い。日本国特開平7−182365号公報では、会議の
キーワードとして、音声認識処理、文字認識処理、形態
素解析処理によってキーワードを抽出している。しか
し、音声認識は前記の理由で現実的ではなく、また、文
字認識や形態素解析を用いたシステムでは必ずしも所望
の認識結果や構文分析がなされるわけではないので、自
動的にマルチメディア会議録を作成することは不可能で
ある。また、キーワードが会議の重要部分を伝えている
かという評価が欠けており、有用なマルチメディア会議
録が作成されるとは必ずしも保証されない。
する欠点に鑑みてなされたもので、マルチメディア会議
録作成のために人手を必要とせず、雑音環境下で、原稿
等を使用しない、自然な話し言葉や会議で、複数話者の
同時発話が生じた場合等に問題となる、音声認識の適応
が困難な、一般的な音声であっても、短時間で元の映
像、あるいは音声の内容を知ることができる。あるいは
利用者が希望する時間や、会議の場面(シーン)数や、
発話者等で構成されるマルチメディア会議録を自動的に
作成することを目的とする。
又は発話者毎の音声信号の要約区間に基づくデータにチ
ャネル情報及び発話者情報のうち少なくとも何れか一方
を付加して、時刻順に記録するデータ編集方法におい
て、少なくとも基本周波数又はピッチ周期、パワー、動
的特徴量の時間変化特性、又はこれらのフレーム間差分
を含む特徴量と強調状態での出現確率とを対応して格納
した符号帳を用い、音声信号をフレーム毎に分析した特
徴量に対応する強調状態での出現確率を求め、強調状態
での出現確率に基づいて強調状態となる確率を算出し、
強調状態となる確率が所定の確率よりも大きい音声信号
区間を要約区間と判定するデータ編集方法を提案する。
声認識してテキストに変換し、テキストを記録するデー
タ編集方法を提案する。この発明では更に、音声信号と
同期入力した映像信号のうち音声信号の要約区間に対応
する映像信号区間を、音声信号の要約区間と対応付けて
記録するデータ編集方法を提案する。この発明では更
に、音声信号の要約区間の開始時刻情報と終了時刻情報
のうち少なくとも何れか一方を、音声信号の要約区間と
対応付けて記録するデータ編集方法を提案する。
は、符号帳が少なくとも基本周波数又はピッチ周期、パ
ワー、動的特徴量の時間変化特性、又はこれらのフレー
ム間差分を含む特徴量と強調状態での出現確率に対応し
て平静状態での出現確率が格納され、音声信号をフレー
ム毎に分析した特徴量に対応する強調状態での出現確率
と平静状態の出現確率を求め、強調状態での出現確率に
基づいて強調状態となる確率を算出し、平静状態での出
現確率に基づいて平静状態となる確率を算出し、強調状
態となる確率の平静状態となる確率に対する確率比が所
定の係数より大きい音声信号区間を要約区間と仮判定
し、要約区間の時間の総和、又は要約率として音声信号
全区間の時間の要約区間の時間の総和に対する比率を算
出し、要約区間の時間の総和が略所定の要約時間に、又
は要約率が略所定の要約率となる所定の係数を算出して
各チャネル毎又は各発話者毎の要約区間を決定するデー
タ編集方法を提案する。
は、符号帳が少なくとも基本周波数又はピッチ周期、パ
ワー、動的特徴量の時間変化特性、又はこれらのフレー
ム間差分を含む特徴量と強調状態での出現確率に対応し
て平静状態での出現確率が格納され、音声信号をフレー
ム毎に分析した特徴量に対応する強調状態での出現確率
と平静状態での出現確率を求め、強調状態での出現確率
に基づいて強調状態となる確率を算出し、平静状態での
出現確率に基づいて平静状態となる確率を算出し、強調
状態となる確率の平静状態となる確率に対する確率比を
音声信号区間毎に算出し、確率比の降順に確率比に対応
する音声信号区間の時間を累積して要約区間の時間の総
和を算出し、要約区間の時間の総和が略所定の要約時間
に、又は要約率が略所定の要約率となる要約時間が得ら
れる音声信号区間を各チャネル毎又は各発話者毎の要約
区間と決定するデータ編集方法を提案する。
の音声信号の要約区間に前期チャネル情報及び発話者情
報のうち少なくとも何れか一方を付加して、時刻順に記
録するデータ編集装置において、少なくとも基本周波数
又はピッチ周期、パワー、動的特徴量の時間変化特性、
又はこれらフレーム間差分を含む特徴量と強調状態での
出現確率と平静状態での出現確率とを対応して格納した
符号帳と、この符号帳を用いて音声符号をフレーム毎に
分析した特徴量に対応する強調状態での出現確率と平静
状態での出現確率を求め、強調状態での出現確率に基づ
いて強調状態となる確率を算出する強調状態確率計算部
と、前期平静状態での出現確率に基づいて平静状態とな
る確率を算出する強調状態確率計算部と、強調状態とな
る確率の平静状態となる確率に対する確率比が所定の係
数より大きい音声信号区間を要約区間と仮判定する要約
区間仮判定部と、要約区間の時間の総和が略所定の要約
時間に、又は要約率が略所定の要約率となる所定の係数
を算出して各チャネル毎又は各発話者毎の要約区間を決
定する要約区間決定部とを有するデータ編集装置を提案
する。
毎の音声信号の要約区間にチャネル情報及び発話者情報
のうち少なくとも何れか一方を付加して時刻順に記録す
るデータ編集装置において、少なくとも基本周波数又は
ピッチ周期、パワー、動的特徴量の時間変化特性、又は
これらのフレーム間差分を含む特徴量と強調状態での出
現確率と平静状態での出現確率とを対応して格納した符
号帳と、この符号帳を用いて、音声信号をフレーム毎に
分析した特徴量に対応する強調状態での出現確率と平静
状態での出現確率を求め、音声信号をフレーム毎に分析
した特徴量に対応する強調状態での出現確率と平静状態
での出現確率を求め、強調状態での出現確率に基づいて
強調状態となる確率を算出する強調状態確率計算部と、
平静状態での出現確率に基づいて平静状態となる確率を
算出する平静状態確率計算部と、強調状態となる確率の
平静状態となる確率に対する確率比を音声信号区間毎に
算出し、確率比が所定の確率比より大きい音声信号区間
を要約区間と仮判定する要約区間仮判定部と、要約区間
の時間の総和、又は要約率として音声信号区間の時間の
要約区間の時間の総和に対する比率を算出し、要約区間
の時間の総和が所定の要約時間に、又は要約率が所定の
要約率となる所定の確率比を算出して各チャネル又は各
発話者毎の要約区間を決定する要約区間決定部とを有す
るデータ編集装置を提案する。この発明では更に、コン
ピュータが読み取り可能な符号で記述され、コンピュー
タにデータ編集方法を実行させるデータ編集プログラム
を提案する。
241278により本出願人により出願されているもの
を利用する。この音声要約方法によれば会議音声の強調
状態を判定し、その区間を重要部分として抽出すること
ができる。そのために、この重要部分をつなげて再生す
ると、会議全体の要旨を伝えることが可能となる。また
音声要約手段は、雑音環境下でも、原稿等を使用せず、
自然な話し言葉や会話でも、複数話者の同時発話が生じ
た場合等に問題となる音声認識の適応が困難な、一般的
な音声であっても、短時間で元の映像、あるいは音声の
内容を知ることができる。そのため、前記の音声認識不
可能な一般的な音声においても、マルチメディア会議録
を作成することが可能となる。また、本発明の音声要約
手段は音声認識のように言語情報を用いていない。その
ため、予め言語間の翻訳にかかる諸データを用いなくと
も多言語の音声で行われた会議においても重要部分を抽
出することが可能となる。
定する。そのため、利用者に発話者を認識させること
や、特定話者だけの発話を聴取することが可能となる。
また、音声認識手段とテキスト要約手段を備え、音声情
報を文字情報に変換している。そのために、発話内容を
文章化した際の、要旨を伝えることができる。音声キー
ワード抽出手段は、会議のキーワードを抽出する。例え
ば変換された文字情報を形態系解析して単語に分解す
る。各単語の出現回数をカウントし、出現回数の最も多
い単語をキーワードとする。そのために、会議終了後、
キーワードを見ることで会議内容を確認することが可能
となる。
析して、イベントを抽出する。そのために、カット点、
カメラワーク、人物認識、テロップ認識を行うことが可
能となる。前記、音声議事録作成手段、テキスト議事録
作成手段、映像インデクシング手段から、会議の重要部
分を伝える会議インデクシングデータベースを自動的に
作成することができる。そのため、利用者の希望する聴
取時間やシーン数に応じて、また希望する発話者に応じ
て、自動的にマルチメディア会議録を作成することが可
能となる。マルチメディア会議録は、音声だけでなく映
像でも要約部分を提示する。そのため、利用者は短時間
で、会議の内容を理解することが可能となる。
時に用いられる音声要約方法について説明する。図17
に先に提案した音声要約方法の実施形態の基本手順を示
す。ステップS1で入力音声信号を分析して音声特徴量
を求める。ステップS2で、入力音声信号の音声小段落
と、複数の音声小段落から構成される音声段落を抽出す
る。ステップS3で各音声小段落を構成するフレームが
平静状態か、強調状態か発話状態を判定する。この判定
に基づきステップS4で要約音声を作成し、要約音声を
得る。
声要約に適応する場合の実施例を述べる。音声特徴量
は、スペクトル情報等に比べて、雑音環境下でも安定し
て得られ、かつ話者に依存し難いものを用いる。入力音
声信号から音声特徴量として基本周波数(f0)、パワ
ー(p)、音声の動的特徴量の時間変化特性(d)、ポ
ーズ時間長(無音区間)(ps)を抽出する。これらの
音声特徴量の抽出法は、例えば、「音響・音響工学」
(古井貞煕、近代科学社、1998)、「音声符号化」
(守谷健弘、電子情報通信学会、1998)、「ディジ
タル音声処理」(古井貞煕、東海大学出版会、198
5)、「複合正弦波モデルに基づく音声分析アルゴリズ
ムに関する研究」(嵯峨山茂樹、博士論文、1998)
などに述べられている。音声の動的特徴量の時間変化は
発話速度の尺度となるパラメータであり特許第2976
998号に記載のものを用いてもよい。即ち、動的変化
量としてスペクトル包絡を反映するLPCスペクトラム
係数の時間変化特性を求め、その時間変化をもとに発話
速度係数が求められるものである。より具体的にはフレ
ーム毎にLPCスペクトラム係数C1(t)、…Ck
(t)を抽出して次式のような動的特徴量d(ダイナミ
ックメジャー)を求める。d(t)=Σi=1k[Σf=t-f0
t+f0[f×Ci(t)]/(Σf=t-f0t+f0f2)2ここ
で、f0は前後の音声区間フレーム数(必ずしも整数個
のフレームでなくとも一定の時間区間でもよい)、kは
LPCスペクトラムの次数、i=1、2、…kである。
発話速度の係数として動的特徴量の変化の極大点の単位
時間当たりの個数、もしくは単位時間当たりの変化率が
用いられる。
とし、シフトを50msとする。1フレーム毎の平均の
基本周波数を求める(f0´)。パワーについても同様
に1フレーム毎の平均パワー(p´)を求める。更に現
フレームのf0´と±iフレーム前後のf0´との差分
をとり、±Δf0´i(Δ成分)とする。パワーについ
ても同様に現フレームのp´と±iフレーム前後のp´
との差分±Δp´i(Δ成分)を求める。f0´、±Δ
f0´i、p´、±Δp´iを規格化する。この規格化
では例えばf0´、±Δf0´iをそれぞれ、音声波形
全体の平均基本周波数で割る。これら規格化された値を
f0″、±f0″iと表す。p´、±Δp´iについて
も同様に、発話状態判定の対象とする音声波形全体の平
均パワーで割り、規格化する。規格化するにあたり、後
述する音声小段落、または音声段落ごとの平均パワーで
割ってもよい。これら規格化された値をp″、±Δp″
iと表す。iの値は例えばi=4とする。現フレームの
前後±T1msの、区間におけるダイナミックメジャー
のピーク本数、即ち動的特徴量の変化の極大点の個数を
カウントする(dp)。これと、現フレームの開始時刻
の、T2ms前の時刻を区間に含むフレームのdpとの
Δ成分(−Δdp)を求める。前記±T1msの区間に
おけるdpと、現フレームの終了時刻の、T3ms後の
時刻を区間に含むフレームのdpとのΔ成分(+Δd
p)を求める。これら、T1、T2、T3の値は例えば
T1=T2=T3=450msとする。フレームの前後
の無音区間の時間長を±psとする。ステップS1では
これら音声特徴パラメータの各値をフレーム毎に抽出す
る。
落と、音声段落を抽出する方法の例を図18に示す。こ
こで音声小段落を発話状態判定を行う単位とする。ステ
ップS201で、入力音声信号の無音区間と有声区間を
抽出する。無音区間は例えばフレーム毎のパワーが所定
のパワー値以下であれば無音区間と判定し、有声区間
は、例えばフレーム毎の相関関数が所定の相関関数値以
上であれば有声区間と判定する。有声/無声の決定は、
周期性/非周期性の特徴と同一視することにより、自己
相関関数や変形相関関数のピーク値で行うことが多い。
入力信号の短時間スペクトルからスペクトル包絡を除去
した予測残差の自己相関関数が変形相関関数であり、変
形相関関数のピークが所定の閾値より大きいか否かによ
って有声/無声の判定を行い、又そのピークを与える遅
延時間によってピッチ周期1/f0(基本周波数f0)
の抽出を行う。これらの区間の抽出法の詳細は、例え
ば、「ディジタル音声処理」(古井貞煕、東海大学出版
会、1985)などに述べられている。ここでは音声信
号から各音声特徴量をフレーム毎に分析することについ
て述べたが、既に符号化等により分析された係数もしく
は符号に対応する特徴量を符号化に用いる符号帳から読
み出して用いてもよい。
区間の時間がそれぞれt秒以上になるとき、その無音区
間で囲まれた有声区間を含む部分を音声小段落とする。
このtは例えばt=400msとする。ステップS20
3で、この音声小段落内の好ましくは後半部の、有声区
間の平均パワーと、その音声小段落の平均のパワーの値
BAの定数β倍とを比較し、前者の方が小さい場合はそ
の音声小段落を末尾音声小段落とし、直前の末尾音声小
段落後の音声小段落から現に検出した末尾音声小段落ま
でを音声段落として決定する。図19に、有声区間、音
声小段落、音声段落を模式的に示す。音声小段落を前記
の、有声区間を囲む無音区間の時間がt秒の条件で、抽
出する。図19では、音声小段落j−1、j、j+1に
ついて示している。ここで音声小段落jは、n個の有声
区間から構成され、平均パワーをPjとする。有声区間
の典型的な例として、音声小段落jに含まれる、有声区
間vの平均パワーはpvである。音声段落kは、音声小
段落jと音声小段落を構成する後半部分の有声区間のパ
ワーから抽出する。i=n−αからnまでの有声区間の
平均パワーpiの平均が音声小段落jの平均パワーPj
より小さいとき、即ち、 Σpi/(α+1)<βPj 式(1) を満たす時、音声小段落jが音声段落kの末尾音声小段
落であるとする。ただし、Σはi=n−αからnまでで
ある。式(1)のα、βは定数であり、これらを操作し
て、音声段落を抽出する。実施例では、αは3、βは
0.8とした。このようにして末尾音声小段落を区切り
として隣接する末尾音声小段落間の音声小段落群を音声
段落と判定できる。
判定方法の例を図20に示す。ステップS301で、入
力音声小段落の音声特徴量をベクトル量子化する。この
ために、あらかじめ少なくとも2つの量子化音声特徴量
(コード)が格納された符号帳(コードブック)を作成
しておく。ここでコードブックに蓄えられた音声特徴量
と入力音声もしくは既に分析して得られた音声の音声特
徴量との照合をとり、コードブックの中から音声特徴量
間の歪(距離)を最小にする量子化音声特徴量を特定す
ることが常套である。図21に、このコードブックの作
成法の例を示す。多数の学習用音声を被験者が聴取し、
発話状態が平静状態であるものと、強調状態であるもの
をラベリングする(S501)。
て、 (a)声が大きく、名詞や接続詞を伸ばすように発話す
る (b)話し始めを伸ばして話題変更を主張、意見を集約
するように声を大きくする (c)声を大きく高くして重要な名詞等を強調する時 (d)高音であるが声はそれほど大きくない (e)苦笑いしながら、焦りから本音をごまかすような
時 (f)周囲に同意を求める、あるいは問いかけるよう
に、語尾が高音になるとき (g)ゆっくりと力強く、念を押すように、語尾の声が
大きくなる時 (h)声が大きく高く、割り込んで発話するという主
張、相手より大きな声で (i)大きな声では憚られるような本音や秘密を発言す
る場合や、普段、声の大きい人にとっての重要なことを
発話するような時(例えば声が小さくボソボソ、ヒソヒ
ソという口調)を挙げた。この例では、平静状態とは、
前記の(a)〜(i)のいずれでもなく、発話が平静で
あると被験者が感じたものとした。
て、図17中のステップS1と同様に、音声特徴量を抽
出し(S502)、パラメータを選択する(S50
3)。平静状態と強調状態のラベル区間の、前記パラメ
ータを用いて、LBGアルゴリズムでコードブックを作
成する(S504)。LBGアルゴリズムについては、
例えば、(Y.Linde,A.Buzo and
R.M.Gray,“Analgorithm for
vector quantizer desig
n,”IEEE Trans.Commun.,vo
l.Com−28,pp.84−95,1980)があ
る。コードブックサイズは2のn乗個に可変である。こ
のコードブック作成は音声小段落で又はこれより長い適
当な区間毎あるいは学習音声全体の音声特徴量で規格化
した音声特徴量を用いることが好ましい。
ドブックを用いて、入力音声小段落の音声特徴量を、各
音声特徴量について規格化し、その規格化された音声特
徴量をフレーム毎に照合もしくはベクトル量子化し、フ
レーム毎にコード(量子化された音声特徴量)を得る。
この際の入力音声信号より抽出する音声特徴量は前記の
コードブック作成に用いたパラメータと同じである。強
調状態が含まれる音声小段落を特定するために、音声小
段落でのコードを用いて、発話状態の尤度を、平静状態
と強調状態について求める。このために、あらかじめ、
任意のコード(量子化音声特徴量)の出現確率を、平静
状態の場合と、強調状態の場合について求めておき、こ
の出現確率とそのコードとを組としてコードブックに格
納しておく、以下にこの出現確率の求め方の例を述べ
る。前記のコードブック作成に用いた学習音声中のラベ
ルが与えられた1つの区間(ラベル区間)の音声特徴量
のコード(フレーム毎に得られる)が、時系列でCi、
Cj、Ck、…Cnであるとき、ラベル区間αが強調状
態となる確率をPα(e)、平静状態となる確率をPα
(n)とし、 Pα(e)=Pemp(Ci)Pemp(Cj|Ci)
…Pemp(Cn|Ci…Cn−1)=Pemp(C
i)ΠPemp(Cx|Ci…Cx−1) Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)
…Pnrm(Cn|Ci…Cn−1)=Pemp(C
i)ΠPnrm(Cx|Ci…Cx−1) となる。ただし、Pemp(Cx|Ci…Cx−1)は
コード列Ci…Cx−1の次にCxが強調状態となる条
件付確率、Pnrm(Cx|Ci…Cx−1)は同様に
Ci…Cx−1に対しCxが平静状態となる確率であ
る。ただし、Πはx=i+1からnまでの積である。ま
たPemp(Ci)は学習音声についてフレームで量子
化し、これらコード中のCiが強調状態とラベリングさ
れた部分に存在した個数を計数し、その計数値を全学習
音声の全コード数(フレーム数)で割り算した値であ
り、Pnrm(Ci)はCiが平静状態とラベリングさ
れた部分に存在した個数を全コード数で割り算した値で
ある。
るために、この例ではN−gramモデル(N<n)を
用いて、 Pα(e)=Pemp(Cn|Cn−N+1…Cn−
1) Pα(n)=Pnrm(Cn|Cn−N+1…Cn−
1) とする。つまりCnよりN−1個の過去のコード列Cn
−N+1…Cn−1の次にCnが強調状態として得られ
る確率をPα(e)とし、同様にN−gramの確率値
をより低次のM−gram(N≧M)の確率値と線形に
補間する線形補間法を適応することが好ましい。例えば
CnよりN−1個の過去のコード列Cn−N+1…Cn
−1の次にCnが平静状態として得られる確率をPα
(n)とする。このようなPα(e)、Pα(n)の条
件付確率をラベリングされた学習音声の量子化コード列
から全てを求めるが、入力音声信号の音声特徴量の量子
化したコード列と対応するものが学習音声から得られて
いない場合もある。そのため、高次(即ちコード列の長
い)の条件付確率を単独出現確率とより低次の条件付出
現確率とを補間して求める。例えばN=3のtrigr
am、N=2のbigram、N=1のunigram
を用いて線形補間法を施す。N−gram、線形補間
法、trigramについては、例えば、「音声言語処
理」(北 研二、中村 哲、永田昌明、森北出版、19
96、29頁)などに述べられている。即ち、 N=3(trigram):Pemp(Cn|Cn−2
Cn−1)、Pnrm(Cn|Cn−2Cn−1) N=2(bigram):Pemp(Cn|Cn−
1)、Pnrm(Cn|Cn−1) N=1(unigram):Pemp(Cn)、Pnr
m(Cn) であり、これら3つの強調状態でのCnの出現確率、ま
た3つの平静状態でのCnの出現確率をそれぞれ用いて
次式により、Pemp(Cn|Cn−2Cn−1)、P
nrm(Cn|Cn−2Cn−1)を計算することにす
る。 Pemp(Cn|Cn−2Cn−1)=λemp1Pemp(Cn|Cn−2Cn −1)+λemp2Pemp(Cn|Cn−1)+λemp3Pemp(Cn) 式(2) Pnrm(Cn|Cn−2Cn−1)=λnrmlPnrm(Cn|Cn−2Cn −1)+λnrm2Pnrm(Cn|Cn−1)+λnrm3Pnrm(Cn) 式(3) Trigramの学習データをNとしたとき、すなわ
ち、コードが時系列でC1、C2、...CNが得られ
たとき、λemp1、λemp2、λemp3の再推定
式は前出の参考文献「音声言語処理」より次のようにな
る。 λemp1=1/NΣ(λemp1Pemp(Cn|C
n−2C−1)/(λemp1Pemp(Cn|Cn−
2C−1)+λemp2Pemp(Cn|C−1)+λ
emp3Pemp(Cn))) λemp2=1/NΣ(λemp2Pemp(Cn|C
−1)/(λemp1Pemp(Cn|Cn−2C−
1)+λemp2Pemp(Cn|C−1)+λemp
3Pemp(Cn))) λemp3=1/NΣ(λemp3Pemp(Cn)/
(λemp1Pemp(Cn|Cn−2C−1)+λe
mp2Pemp(Cn|C−1)+λemp3Pemp
(Cn))) ただし、Σはn=1からNまでの和である。以下同様に
してλnrm1、λnrm2、λnrm3も求められ
る。
αで得たコードがCi1、Ci2、…、CiNαのと
き、このラベル区間αが強調状態となる確率Pα
(e)、平静状態となる確率Pα(n)は、 Pα(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(4) Pα(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(5) となる。この計算ができるように前記のtrigra
m、unigram、bigramを任意のコードにつ
いて求めてコードブックに格納しておく。つまりコード
ブックには各コードの音声特徴量とその強調状態での出
現確率とこの例では平静状態での出現確率との組が格納
され、その強調状態での出現確率は、その音声特徴量が
過去のフレームでの音声特徴量と無関係に強調状態で出
現する確率(unigram:単独出現確率と記す)の
み、又はこれと、過去のフレームでの音声特徴量から現
在のフレームの音声特徴量に至るフレーム単位の音声特
徴量列毎に、その音声特徴量が強調状態で出現する条件
付確率との組合せの何れかであり、平静状態での出現確
率も同様に、その音声特徴量が過去のフレームでの音声
特徴量と無関係に平静状態で出現する確率(unigr
am:単独出現確率と記す)のみ、又はこれと、過去の
フレームでの音声特徴量から現在のフレームの音声特徴
量に至るフレーム単位の音声特徴量列毎にその音声特徴
量が平静状態で出現する条件付確率と組合せの何れかで
ある。
は各コードC1、C2、…毎にその音声特徴量と、その
単独出現確率が強調状態、平静状態について、また条件
付確率が強調状態、平静状態についてそれぞれ組として
格納されている。図20中のステップS302では、入
力音声小段落の全フレームのコードについてのそのコー
ドブックに格納されている前記確率から、発話状態の尤
度を、平静状態と強調状態について求める。図23に実
施例の模式図を示す。時刻tから始まる音声小段落のう
ち、第4フレームまでを〜で示している。前記のよ
うに、ここでは、フレーム長は100ms、フレームシ
フトを50msとフレーム長の方を長くした。フレー
ム番号f、時刻t〜t+100でコードCiが、フレ
ーム番号f+1、時刻t+50〜t+150でコードC
jが、フレーム番号f+2、時刻t+100〜t+2
00でコードCkが、フレーム番号f+3、時刻t+
150〜t+250でコードClが得られ、つまりフレ
ーム順にコードがCi、Cj、Ck、Clであるとき、
フレーム番号f+2以上のフレームでtrigramが
計算できる。音声小段落sが強調状態となる確率をPs
(e)、平静状態となる確率をPs(n)とすると第4
フレームまでの確率はそれぞれ、 Ps(e)=Pemp(Ck|CiCj)Pemp(Cl|CjCk) 式(6) Ps(n)=Pnrm(Ck|CiCj)Pnrm(Cl|CjCk) 式(7) となる。ただし、この例では、コードブックからCk、
Clの強調状態及び平静状態の各単独出現確率を求め、
またCjの次にCkが強調状態及び平静状態で各出現す
る条件付確率、更にCkがCi、Cjの次に、ClがC
j、Ckの次にそれぞれ強調状態及び平静状態でそれぞ
れ出現する条件付確率をコードブックから求めると、以
下のようになる。 Pemp(Ck|CiCj)=λemp1Pemp(Ck|CiCj)+λem p2Pemp(Ck|Cj)+λemp3Pemp(Ck) 式(8) Pemp(Cl|CjCk)=λemp1Pemp(Cl|CjCk)+λem p2Pemp(Cl|Ck)+λemp3Pemp(Cl) 式(9) Pnrm(Ck|CiCj)=λnrm1Pnrm(Ck|CiCj)+λnr m2Pnrm(Ck|Cj)+λnrm3Pnrm(Ck) 式(10) Pnrm(Cl|CjCk)=λnrm1Pnrm(Cl|CjCk)+λnr m2Pnrm(Cl|Ck)+λnrm3Pnrm(Cl) 式(11) 上記(8)〜(11)式を用いて(6)式と(7)式で
示される第4フレームまでの強調状態となる確率Ps
(e)と、平静状態となる確率Ps(n)が求まる。こ
こで、Pemp(Ck|CiCj)、Pnrm(Ck|
CiCj)はフレーム番号f+2において計算できる。
sで得たコードがCi1、Ci2、…、CiNsのと
き、この音声小段落sが強調状態になる確率Ps(e)
と平静状態になる確率Ps(n)を次式により計算す
る。 Ps(e)=Pemp(Ci3|Ci1Ci2)…Pe
mp(CiNs|Ci(Ns−1)Ci(Ns−2)) Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pn
rm(CiNs|Ci(Ns−1)Ci(Ns−2)) この例ではこれらの確率が、Ps(e)>Ps(n)で
あれば、その音声小段落Sは強調状態、Ps(n)>P
s(e)であれば平静状態とする。
法、音声段落抽出方法、各音声小段落毎に強調状態とな
る確率及び平静状態となる確率を求める方法を用いた音
声強調状態判定装置及び音声要約装置の実施形態を示
す。入力部11に音声強調状態が判定されるべき、又は
音声の要約が検出されるべき入力音声(入力音声信号)
が入力される。入力部11には必要に応じて入力音声信
号をデジタル信号に変換する機能も含まれる。デジタル
化された音声信号は必要に応じて記憶部12に格納され
る。音声特徴量抽出部13で前述した音声特徴量がフレ
ーム毎に抽出される。抽出した音声特徴量は必要に応じ
て、音声特徴量の平均値で規格化され、量子化部14で
各フレームの音声特徴量がコードブック15を参照して
量子化され、量子化された音声特徴量は強調確率計算部
16と平静確率計算部17に送り込まれる。コードブッ
ク15は例えば図11に示したようなものである。
た音声特徴量の強調状態での出現確率が、コードブック
15に格納されている対応する確率を用いて、例えば式
(8)又は(9)により計算される。同様に平静確率計
算部17により、前記量子化された音声特徴量の平静状
態での出現確率がコードブック15に格納されている対
応する確率を用いて、例えば式(10)又は(11)に
より計算される。強調確率計算部16及び平静確率計算
部17で各フレーム毎に算出された強調状態での出現率
と平静状態での出現確率及び各フレームの音声特徴量は
各フレームに付与したフレーム番号と共に記憶部12に格
納する。
とに順次行われる。音声要約装置の実施形態は、図24
中に実線ブロックで示す構成に、破線ブロックで示され
る構成が付加される。つまり記憶部12に格納されてい
る各フレームの音声特徴量が無音区間判定部21と有音
区間判定部22に送り込まれ、無音区間判定部21によ
り各フレーム毎に無音区間か否かが判定され、また有音
区間判定部22により各フレーム毎に有声区間か否かが
判定される手段が加わる。これらの無音区間判定結果と
有音区間判定結果が音声小段落判定部23に入力され
る。音声小段落判定部23はこれら無音区間判定、有声
区間判定に基づき、先の方法の実施形態で説明したよう
に所定フレーム数を連続する無音区間に囲まれた有声区
間を含む部分が音声小段落と判定される。音声小段落判
定部23の判定結果は記憶部12に書き込まれ、記憶部
12に格納されている音声データ列に付記され、無音区
間で囲まれたフレーム群に音声小段落番号列を付与す
る。これと共に音声小段落判定部23の判定結果は末尾
音声小段落判定部24に入力される。
19を参照して説明した手法により末尾音声小段落が検
出され、末尾音声小段落判定結果が音声段落判定部25
に入力され、音声段落判定部25により2つの末尾音声
小段落間の複数の音声小段落を含む部分が音声段落と判
定される。この音声段落判定結果も記憶部12に書き込
まれ、記憶部12に記憶している音声小段落番号列に音
声段落列番号を付与する。音声要約装置として動作する
場合、強調確率計算部16及び平静確率計算部17では
記憶部12から各音声小段落を構成する各フレームの強
調確率と平静確率を読み出し、各音声小段落毎の確率が
例えば式(8)及び式(10)により計算される。強調
状態判定部18ではこの音声小段落毎の確率計算値を比
較して、その音声小段落が強調状態か否かを判定し、要
約区間取出し部26では音声段落中の1つの音声小段落
でも強調状態と判定されたものがあればその音声小段落
を含む音声段落を取り出す。各部の制御は制御部19に
より行われる。
段落に分離する手段及び各音声小段落毎に強調状態とな
る確率及び平静状態となる確率を算出する手段が理解で
きよう。以下では上述した各方法を利用したこの発明に
よる音声処理方法、音声処理装置及び音声処理プログラ
ムに関わる実施の形態を説明する。図25にこの要約率
を変更することを可能とした音声処理方法の基本手順を
示す。この実施例ではステップS11で音声強調確率算
出処理を実行し、音声小段落の強調確率及び平静確率を
求める。
S12を実行する。この要約条件入力ステップS12で
は例えば利用者に要約時間又は要約率或は圧縮率の入力
を促す情報を提供し、要約時間又は要約率或は要約率又
は圧縮率を入力させる。尚、予め設定された複数の要約
時間又は要約率、圧縮率の中から一つを選択する入力方
法を採ることもできる。ステップS13では抽出条件の
変更を繰り返す動作を実行し、ステップS12の要約条
件入力ステップS12で入力された要約時間又は要約
率、圧縮率を満たす抽出条件を決定する。
する。この要約抽出ステップS14では抽出条件変更ス
テップS13で決定した抽出条件を用いて採用すべき音
声段落を決定し、この採用すべき音声段落の総延長時間
を計算する。ステップ15では要約再生処理を実行し、
要約抽出ステップS14で抽出した音声段落列を再生す
る。図26は図25に示した音声強調確率算出ステップ
の詳細を示す。ステップS101で要約対象とする音声
波形列を音声小段落に分離する。ステップS102では
ステップS101で分離した音声小段落列から音声段落
を抽出する。音声段落とは図19で説明したように、1
つ以上の音声小段落で構成され、意味を理解できる単位
である。
ステップS101で抽出した音声小段落毎に図22で説
明したコードブックと前記した式(8)、(10)等を
利用して各音声小段落が強調状態となる確率(以下強調
確率と称す)Ps(e)と、平静状態となる確率(以下
平静確率と称す)Ps(n)とを求める。ステップS1
05ではステップS103及びS104において各音声
小段落毎に求めた強調確率Ps(e)と平静確率Ps
(n)などを各音声小段落毎に仕分けして記憶手段に音
声強調確率テーブルとして格納する。図27に記憶手段
に格納した音声強調確率テーブルの一例を示す。図27
に示すF1、F2、F3…は音声小段落毎に求めた音声
小段落強調確率Ps(e)と、音声小段落平静確率Ps
(n)を記録した小段落確率記憶部を示す。これらの小
段落確率記憶部F1、F2、F3…には各音声小段落S
に付された音声小段落番号iと、開始時刻(言語列の先
頭から計時した時刻)終了時刻、音声小段落強調確率、
音声小段落平静確率、各音声小段落を構成するフレーム
数fn等が格納される。
件としては要約すべきコンテンツの全長を1/X(Xは
正の整数)の時間に要約することを示す要約率r(特許
請求の範囲記載の要約率r=1/Xを指す)、あるいは
要約時間tを入力する。この要約条件の設定に対し、抽
出条件変更ステップS13では初期値として重み係数W
(請求項1記載の所定の係数の逆数を指す)をW=1に
設定し、この重み係数を要約抽出ステップS14に入力
する。要約抽出ステップS14は重み係数W=1として
音声強調確率テーブルから各音声小段落毎に格納されて
いる強調確率Ps(e)と平静確率Ps(e)とを比較
し、 W・Ps(e)>Ps(n) の関係にある音声小段落を抽出すると共に、更にこの抽
出した音声小段落を一つでも含む音声段落を抽出し、抽
出した音声段落列の総延長時間MT(分)を求める。
(分)と要約条件で決めた所定の要約時間YT(分)と
を比較する。ここでMT≒YT(YTに対するMTの誤
差が例えば±数%程度の範囲)であればそのまま採用し
た音声段落列を要約音声として再生する。要約条件で設
定した要約時間YTに対するコンテンツの要約した総延
長時間MTとの誤差値が規定より大きく、その関係がM
T>YTであれば抽出した音声段落列の総延長時間MT
(分)が、要約条件で定めた要約時間YT(分)より長
いと判定し、図25に示した抽出条件変更ステップS1
3を再実行させる。抽出条件変更ステップS13では重
み係数がW=1で抽出した音声段落列の総延長時間MT
(分)が要約条件で定めた要約時間YT(分)より「長
い」とする判定結果を受けて強調確率Ps(e)に現在
値より小さい重み付け係数W(請求項記載の所定の係数
の場合は現在値よりも大きくする)を乗算W・Ps
(e)して重み付けを施す。重み係数Wとしては例えば
W=1−0.001×K(Kはループ回数)で求める。
した音声段落列の全ての音声小段落で求められている強
調確率Ps(e)の配列に1回目のループではW=1−
0.001×1で決まる重み係数W=0.999を乗算
し、重み付けを施す。この重み付けされた全ての各音声
小段落の強調確率W・Ps(e)と各音声小段落の平静
確率Ps(n)とを比較し、W・Ps(e)>Ps
(n)の関係にある音声小段落を抽出する。この抽出結
果に従って要約抽出ステップS14では抽出された音声
小段落を含む音声段落を抽出し、要約音声段落列を再び
求める。これと共に、この要約音声段落列の総延長時間
MT(分)を算出し、この総延長時間MT(分)と要約
条件で定められる要約時間YT(分)とを比較する。比
較の結果がMT≒YTであれば、その音声段落列を要約
音声と決定し、再生する。
MT>YTであれば抽出条件変更ステップを、2回目の
ループとして実行させる。このとき重み係数WはW=1
−0.001×2で求める。全ての強調確率Ps(e)
にW=0.998の重み付けを施す。このように、ルー
プの実行を繰り返す毎にこの例では重み係数Wの値を徐
々に小さくするように抽出条件を変更していくことによ
りWPs(e)>Ps(n)の条件を満たす音声小段落
の数を漸次減らすことができる。これにより要約条件を
満たすMT≒YTの状態を検出することができる。
てMT≒YTとしたが、厳密にMT=YTに収束させる
こともできる。この場合には要約条件に例えば5秒不足
している場合、あと1つの音声段落を加えると10秒超
過してしまうが、音声段落から5秒のみ再生することで
利用者の要約条件に一致させることができる。また、こ
の5秒は強調と判定された音声小段落の付近の5秒でも
よいし、音声段落の先頭から5秒でもよい。また、上述
した初期状態でMT<YTと判定された場合は重み係数
Wを現在値よりも小さく例えばW=1−0.001×K
として求め、この重み係数Wを平静確率Ps(n)の配
列に乗算し、平静確率Ps(n)に重み付けを施せばよ
い。また、他の方法としては初期状態でMT>YTと判
定された場合に重み係数を現在値より大きくW=1+
0.001×Kとし、この重み係数Wを平静確率Ps
(n)の配列に乗算してもよい。
出ステップS14で抽出した音声段落列を再生するもの
として説明したが、音声付の画像情報の場合、要約音声
として抽出した音声段落に対応した画像情報を切り出し
てつなぎ合わせ、音声と共に再生することによりテレビ
放送の要約、あるいは映画の要約等を行うことができ
る。また、上述では音声強調確率テーブルに格納した各
音声小段落毎に求めた強調確率又は平静確率のいずれか
一方に直接重み係数Wを乗算して重み付けを施すことを
説明したが、強調状態を精度良く検出するためには重み
係数Wに各音声小段落を構成するフレームの数F乗して
WFとして重み付けを行うことが望ましい。
る条件付の強調確率Ps(e)は各フレーム毎に求めた
強調状態となる確率の積を求めている。また平静状態と
なる確率Ps(n)も各フレーム毎に算出した平静状態
となる確率の積を求めている。従って、例えば強調確率
Ps(e)に重み付けを施すには各フレーム毎に求めた
強調状態となる確率毎に重み付け係数Wを乗算すれば正
しい重み付けを施したことになる。この場合には音声小
段落を構成するフレーム数をFとすれば重み係数WはW
Fとなる。この結果、フレームの数Fに応じて重み付け
の影響が増減され、フレーム数の多い音声小段落ほど、
つまり延長時間が長い音声小段落程大きい重みが付され
ることになる。
条件を変更すればよいのであれば各フレーム毎に求めた
強調状態となる確率の積又は平静状態となる積に重み係
数Wを乗算するだけでも抽出条件の変更を行うことがで
きる。従って、必ずしも重み付け係数WをWFとする必
要はない。また、上述では抽出条件の変更手段として音
声小段落毎に求めた強調確率Ps(e)又は平静確率P
s(n)に重み付けを施してPs(e)>Ps(n)を
満たす音声小段落の数を変化させる方法を採ったが、他
の方法として全ての音声小段落の強調確率Ps(e)と
平静確率Ps(n)に関してその確率比Ps(e)/P
s(n)を演算し、この確率比の降順に対応する音声信
号区間(音声小段落)を累積して要約区間の和を算出
し、要約区間の時間の総和が、略所定の要約時間に合致
する場合、そのときの音声信号区間を要約区間と決定し
て要約音声を編成する方法も考えられる。
が要約条件で設定した要約時間に対して過不足が生じた
場合には、強調状態にあると判定するための確率比Ps
(e)/Ps(n)の値を選択する閾値を変更すれば抽
出条件を変更することができる。この抽出条件変更方法
を採る場合には要約条件を満たす要約音声を編成するま
での処理を簡素化することができる利点が得られる。上
述では各音声小段落毎に求める強調確率Ps(e)と平
静確率Ps(n)を各フレーム毎に算出した強調状態と
なる確率の積及び平静状態となる確率の積で算出するも
のとして説明したが、他の方法として各フレーム毎に求
めた強調状態となる確率の平均値を求め、この平均値を
その音声小段落の強調確率Ps(e)及び平静確率Ps
(n)として用いることもできる。
定することができる音声処理装置の実施例を示す。この
実施例では図24に示した音声強調状態要約装置の構成
に要約条件入力部31と、音声強調確率テーブル32
と、強調小段落抽出部33と、抽出条件変更部34と、
要約区間仮判定部35と、この要約区間仮判定部35の
内部に要約音声の総延長時間を求める総延長時間算出部
35Aと、この総延長時間算出部35Aが算出した要約
音声の総延長時間が要約条件入力部31で入力した要約
時間の設定の範囲に入っているか否かを判定する要約区
間決定部35Bと、要約条件に合致した要約音声を保存
し、再生する要約音声保存・再生部35Cを設けた構成
とした点を特徴とするものである。
ーム毎に音声特徴量が求められ、この音声特徴量に従っ
て強調確率計算部16と平静確率計算部17でフレーム
毎に強調確率と、平静確率とを算出し、これら強調確率
と平静確率を各フレームに付与したフレーム番号と共に
記憶部12に格納する。更に、このフレーム列番号に音
声小段落判定部で判定した音声小段落列に付与した音声
小段落列番号が付記され、各フレーム及び音声小段落に
アドレスが付与される。この発明による音声処理装置で
は強調確率算出部16と平静確率算出部17は記憶部1
2に格納している各フレームの強調確率と平静確率を読
み出し、この強調確率及び平静確率から各音声小段落毎
に強調確率Ps(e)と平静確率Ps(n)とを求め、
これら強調確率Ps(e)と平静確率Ps(n)を音声
強調テーブル32に格納する。
ツの音声波形の音声小段落毎に求めた強調確率と平静確
率とが格納され、いつでも利用者の要求に応じて要約が
実行できる体制が整えられている。利用者は要約条件入
力部31に要約条件を入力する。ここで言う要約条件と
は要約したいコンテンツの名称と、そのコンテンツの全
長時間に対する要約率を指す。要約率としてはコンテン
ツの全長を1/10に要約するか、或は時間で10分に
要約するなどの入力方法が考えられる。ここで例えば1
/10と入力した場合は要約時間算出部31Aはコンテ
ンツの全長時間を1/10した時間を算出し、その算出
した要約時間を要約区間仮判定部35の要約区間決定部
35Bに送り込む。
たことを受けて制御部19は要約音声の生成動作を開始
する。その開始の作業としては音声強調テーブル32か
ら利用者が希望したコンテンツの強調確率と平静確率を
読み出す。読み出された強調確率と平静確率を強調小段
落抽出部33に送り込み、強調状態にあると判定される
音声小段落番号を抽出する。強調状態にある音声区間を
抽出するための条件を変更する方法としては上述した強
調確率Ps(e)又は平静確率Ps(n)に確率比の逆
数となる重み付け係数Wを乗算しW・Ps(e)>Ps
(n)の関係にある音声小段落を抽出し、音声小段落を
含む音声段落により要約音声を得る方法と、確率比Ps
(e)/Ps(n)を算出し、この確率比を降順に累算
して要約時間を得る方法とを用いることができる。
抽出条件を変更する場合には重み付け係数WをW=1と
して初期値とすることが考えられる。また、各音声小段
落毎に求めた強調確率Ps(e)と平静確率Ps(n)
の確率比Ps(e)/Ps(n)の値に応じて強調状態
と判定する場合は初期値としてその比の値が例えばPs
(e)/Ps(n)≧1である場合を強調状態と判定す
ることが考えられる。この初期設定状態で強調状態と判
定された音声小段落番号と開始時刻、終了時刻を表わす
データを強調小段落抽出部33から要約区間仮判定部3
5に送り込む。要約区間仮判定部35では強調状態と判
定した強調小段落番号を含む音声段落を記憶部12に格
納している音声段落列から検索し、抽出する。抽出した
音声段落列の総延長時間を総延長時間算出部35Aで算
出し、その総延長時間と要約条件で入力された要約時間
とを要約区間決定部35Bで比較する。比較の結果が要
約条件を満たしていれば、その音声段落列を要約音声保
存・再生部35Cで保存し、再生する。この再生動作は
強調小段落抽出部33で強調状態と判定された音声小段
落の番号から音声段落を抽出し、その音声段落の開始時
刻と終了時刻の指定により各コンテンツの音声データ或
は映像データを読み出して要約音声及び要約映像データ
として送出する。
ていないと判定した場合は、要約区間決定部35Bから
抽出条件変更部34に抽出条件の変更指令を出力し、抽
出条件変更部34に抽出条件の変更を行わせる。抽出条
件変更部34は抽出条件の変更を行い、その抽出条件を
強調小段落抽出部33に入力する。強調小段落抽出部3
3は抽出条件変更部34から入力された抽出条件に従っ
て再び音声強調確率テーブル32に格納されている各音
声小段落の強調確率と平静確率との比較判定を行う。強
調小段落抽出部33の抽出結果は再び要約区間仮判定部
35に送り込まれ、強調状態と判定された音声小段落を
含む音声段落の抽出を行わせる。この抽出された音声段
落の総延長時間を算出し、その算出結果が要約条件を満
たすか否かを要約区間決定部35Bで行う。この動作が
要約条件を満たすまで繰り返され、要約条件が満たされ
た音声段落列が要約音声及び要約映像データとして記憶
部12から読み出され再生される。
時刻を強調状態と判定された音声段落の開始時刻及び終
了時刻で決定したが、コンテンツが映像付の場合は要約
区間の開始時刻及び終了時刻の決定方法としては、上記
した強調状態と判定した音声段落の開始時刻及び終了時
刻の直近に存在するカット点(映像データに含まれる映
像の切替り点、例えば特開平8−52924号公報記載
の方法で検出する)を利用して要約区間の開始時刻及び
終了時刻を決定してもよい。このように映像データのカ
ット点を要約区間の開始時刻及び終了時刻に利用した場
合は要約区間の切替りが映像の切替りに同期するため、
視覚上からも要約部分が明確になり視認性を高めること
ができる。以上により、音声データから音声要約を行う
こと及びその要約率を自由に変更できることが理解でき
よう。この発明はこの音声要約方法を利用して音声会議
録及び映像会議録を作成することができるデータ編集方
法、データ編集装置及びデータ編集プログラムを提案す
るものである。
示す。この実施例では会議の会場(官公庁、学校、研究
機関、企業等)乃至はその近傍に会議サーバSAを設置
し、この会議サーバSAによってこの発明によるデータ
編集装置100を構成した実施例を示す。データ編集装
置100は例えばインターネット、LAN、電話回線、
BS、CS、CATV等のネットワーク108に接続さ
れ、ユーザ端末109はこのネットワーク108を通じ
てデータ編集装置100に自由にアクセスすることがで
きる構成とした場合を示す。更にこの実施例ではネット
ワーク108に課金部110を接続し、この課金部11
0によってユーザ端末109のデータ編集装置100の
利用に対して課金処理を施すことができる構成とした場
合を示す。データ編集装置100は会議音声・映像入力
部101と、会議音声・映像データベース102と、会
議録作成部103とによって構成される。会議音声・映
像入力部101には会議音声・映像情報を入力する。会
議音声・映像データベース102では会議音声・映像入
力部101で得た会議音声情報もしくは映像情報をデー
タベース化する。会議録作成部103は音声議事録作成
部104と、テキスト議事録作成部105と、映像イン
デクシング部106と、会議インデクシングデータベー
ス107とを具備して構成される。
約方法を利用して会議の進行を編集し音声議事録を作成
する。テキスト議事録作成部105は音声認識技術を利
用してテキスト議事録を作成する。映像インデクシング
部106は映像インデクシングを行い、会議インデクシ
ングデータベース107では会議インデクシングデータ
ベースを作成する。会議音声・映像データベース102
ではデータベース化した会議音声・映像データと会議イ
ンデクシングデータベース107に格納したデータとを
対応させ、マルチメディア会議録を作成する。このマル
チメディア会議録をネットワーク108を経由してユー
ザ端末109に配信し、利用者がマルチメディア会議録
を視聴する。課金部110はユーザ端末109の利用に
対して課金処理を実行する。
ディジタル化された会議映像・音声データが保存されて
おり、これらのデータはいかなる圧縮形式でもよく、ま
た、圧縮されていなくてもよい。図2は音声議事録作成
部104における音声議事録の作成手順を示す。音声議
事録作成手順は、音声要約ステップS301と、音声キ
ーワード抽出ステップS302と、発話者特定ステップ
S303とからなる。会議映像がある場合映像付音声議
事録となる。音声要約ステップS301では、音声波形
から各音声小段落の強調状態となる確率と、平静状態と
なる確率を求め、強調状態となる確率が大きい音声小段
落を発話の強調点として抽出し、この音声小段落を含む
音声段落を聴取して意味の理解できる単位として抽出
し、強調状態を含む音声段落をつなぎ合わせて要約音声
を作成するために必要な時間情報を得る。音声要約方法
については既に説明した如くである。
像信号も扱う場合には、音声要約区間に対応する映像信
号区間を映像要約区間として記録する。時間情報即ち各
音声要約区間の開始(始端)・終了(終端)時刻も対応
させて記録することが好適である。音声キーワード抽出
ステップS302では、繰り返し、発話された言葉のう
ち、会議を象徴する単語を抽出する。キーワード抽出に
ついては、例えば、「標準パターンの任意区間によるス
ポッティングのためのReference Interval−free連続
DP(RIFCDP)」(伊藤 慶明、木下 次郎、
小島 浩、関 進、岡 隆一、信学技報、SP95−3
4、1995−06)等に示されている。
認識、あるいは、マイク入力の情報を用いて発話者を抽
出し、発話者の発話時間情報を得る。話者認識方法につ
いては、たとえば、「音響・音声工学」(古井 貞煕、
近代科学社、電子・情報工学入門シリーズ2、p.21
1)等に示されている。音響チャネル(例えば通信回線
を介す場合はアドレス)を手がかりに発話者を識別して
もよい。通信回線を介す場合については実施例3(図1
2)において後述する。マイク入力の情報を用いる方法
については、例えば、マイクロホンアレイを使えばよ
い。マイクロホンアレイについては、例えば、日本国特
開平5−111090号公報、日本国特開平9−140
000号公報等に示されている。単純にはアレイを構成
する各マイクロホンに対応するチャネルをもって発話者
を識別できる。マイクロホン間の音声到達時間から求め
られる位置情報によって発話者を識別してもよい。
づけて音声を登録しておき、マイク入力の情報を用いる
場合は、会議参加者と対応づけてその位置情報を登録し
ておくことで、発話者名まで特定することができる。発
話者名まで特定する必要が無い場合は、前記、会議参加
者の音声の登録と、会議参加者の位置情報の登録は必要
ない。音声議事録(映像付音声議事録)は主に音声要約
ステップS301で作成する。また、音声キーワード抽
出ステップS302のキーワードを発話する部分を、音
声要約ステップS301で得られた結果に加えて、音声
議事録(映像付音声議事録)を作成してもよい。
1)のテキスト議事録を作成する手順を示す。テキスト
議事録作成部105は、音声認識ステップS401と、
テキスト化処理ステップS402と、記録ステップS4
03とを実行する。テキスト化処理については、例え
ば、特開平5−233689号公報等に示されている。
音声認識ステップS401では各要約区間での発話内容
を音声認識し、その音声認識結果を利用してテキスト化
処理ステップS402でテキスト情報に変換するディク
テーション処理を行う。記録ステップS403では、テ
キスト化処理ステップS402で得られたテキスト情報
に発話者情報又は音声入力チャネル情報と時刻情報を付
加して例えば、ハードディスク、メモリ、フレキシブル
ディスク、MO等の記録媒体に格納される。
情報で示された発話内容が発話された時刻を記録してい
る。音声認識方法については、例えば、日本国特開平8
−6588号公報等に示されているもの以外にも使用可
能である。図3に示したテキスト化処理ステップS40
2で、音声認識ステップS401で作成した音声認識結
果をテキストに変換し、各要約区間での時間情報、即ち
少なくともその開始時刻又は終了時刻のうち何れか一方
を音声に対応付けて記録することにより、テキスト議事
録を作成する。テキスト議事録は、前記の図4に示すよ
うに、時間情報を持っているため、この時間情報を用い
て音声や映像を読み込むことにより利用者が希望する時
刻や議事に対応した、音声・映像を再生して視聴させる
ことができる。
部106の映像インデクシングを作成する手順を示す。
映像インデクシング部106は、カット点抽出ステップ
S501と、人物認識ステップS502と、カメラワー
ク認識ステップS503と、テロップ認識ステップS5
04とからなる。カット点抽出ステップS501では、
映像の切替りを示すカット点を抽出し、その時間情報を
得る。カット点抽出については、たとえば、特許第28
39132号、特開平11−18028号等に示されて
いる方法を用いることがある。人物認識ステップS50
2では映像の人物を類似映像認識し、あるいは、カメラ
の撮影位置情報を用いて映像の人物を特定し、その時間
情報を得る。類似映像認識については、例えば、日本国
特開平5−225344号公報等に示されている。人物
名まで特定する場合は、予め、会議参加者の映像を登録
しておくか、撮影位置と人物の関係を登録しておく。特
に、人物名まで同定する必要がない場合は、前記映像登
録と、位置と人物の関係の登録は必要ない。
例えば、各会議参加者を、順を追って映していく等のカ
メラワークを同定し、その時間情報を得る。カメラワー
ク認識については、例えば、特開平11−15953
号、特開平11−259626号等に示されている。テ
ロップ認識ステップS504では、映像中に含まれるテ
ロップの文字を認識し、テロップが出現する時間情報を
得る。テロップ認識については、例えば、特開平11−
167583号、特開2000−181994に示され
ている。これらの各ステップS501、S502、S5
03、S504から映像インデクシングを得る。この映
像インデクシングを、前記の音声議事録(映像付音声議
事録)に、例えば、カット点等の時間情報を加えてもよ
い。例えば、テロップが出現する時間の会議映像が、前
記の音声議事録(映像付音声議事録)作成部で抽出され
なかった場合においても、音声議事録(映像付音声議事
録)に含んでもよい。
ネット、LAN、電話回線、BS、CS、CATVのい
ずれかを問わない。例えば、インターネットプロバイダ
ー等のネットワーク仲介者が運用してもよい。また、官
公庁、学校、研究機関、企業等、それらの内部でのみマ
ルチメディア会議録を視聴するのであってもよく、その
場合、課金部110は必ずしも存在する必要はない。ユ
ーザ端末109はパーソナルコンピュータ、情報入出力
可能な家電製品、携帯電話の何れでもよい。図6に、マ
ルチメディア会議録のユーザーインターフェースの典型
的な表示例を示す。表示欄DS801は、表示欄DS8
11の音声議事録(映像付音声議事録)と、表示欄DS
810のテキスト議事録を表示させるボタンである。表
示欄DS802は会議全体の時間を示すバーである。表
示欄DS802の白抜き四角の左端が会議開始時刻を示
し、右端が会議終了時刻を示している。表示欄DS80
2の黒色の四角は、後記する表示欄DS803の、画面
領域の左端から右端までの時間を示している。表示欄D
S803は、会議の重要部分を示す画面であり、図2に
示した音声要約ステップS301によって同定する。表
示欄DS803のグラデーションで色づけされた部分
が、会議の重要部分である。グラデーションの濃さと重
要度が比例して表示されており、図6では、黒に近づく
につれ、重要度が増す例である。利用者はどこが会議の
重要部分であるか目視で確認、理解でき、マウス等の機
器を用いて、表示部DS803のグラデーション部分を
選択し、再生する。利用者がグラデーション部分の前後
を視聴したい場合は、マウス等の機器を用いてグラデー
ション部分の前後を選択し、会議音声・映像を視聴す
る。例えば、再生、発話速度変換、停止、早送り、巻き
戻し、次のグラデーション、前のグラデーション、表示
範囲の拡大、表示範囲の縮小等を選択できる小画面を出
現させ、マウス等の機器を用いて実行してもよい。その
際、表示欄DS811の画面でユーザが選択した時刻の
会議音声、映像を表示してもよく、会議音声・映像再生
用の画面が新しく立ち上がってもよい。また、前記の表
示欄DS802の黒四角を見ることで、表示欄DS80
3に表示される重要領域が、全体の会議の中で、どのあ
たりであるのか、例えば前半、中盤、後半等を視覚的に
理解する。表示欄DS804は、会議のキーワードであ
り、図2に示した音声キーワード抽出ステップS302
の、キーワード抽出の結果を表示する。図6に示す例で
は、キーワードは3つ抽出され、「利益」、「方針」、
「営業」である。利用者は、会議終了後、このキーワー
ドを閲覧することで、会議の議題を確認する。
7、DS808、はそれぞれ映像インデクシングの結果
を表示している。表示欄DS805はカット点を、表示
欄DS806はテロップ認識を、表示欄DS807は人
物認識を、表示欄DS808はカメラワークを表示して
いる。表示欄DS805での四角は映像のカット点が出
現する時刻を表示している。表示欄DS808のカメラ
ワークの四角は、例えば、ズームイン、ズームアウト、
パン等が生じる時刻に出現している。例えば、分かりや
すくズームイン、ズームアウトの四角の色づけを変えて
もよい。表示欄DS806の四角に対応する、テロップ
認識の結果をマウス等でクリックすることで表示欄DS
812の四角の内部に表示する。また、表示欄DS80
7の人物認識の結果も表示欄DS812の四角に表示す
る。表示欄DS809は、図2に示した発話者特定ステ
ップS303の発話者特定の結果を表示している。表示
欄DS809は、会議参加者の発話状態を可視化してお
り、利用者は、マウス等の機器を用いて表示欄DS80
9に表示されている四角をクリック等により、選択され
た発話区間である四角の左端から右端の時間の音声・映
像を再生する。表示欄DS810はテキスト議事録であ
り、図3に示した音声認識ステップS401と、テキス
ト要約ステップS402のテキスト要約部で生成した結
果を表示する。図6の例では利用者は、例えば、「時期
営業方針説明」の項目をマウス等の機器を用いてクリッ
クし、関連する部分の音声・映像の再生を行う。この音
声・映像は要約部分であってもよいし、要約部分でなく
てもよい。
7、DS808、DS809は表示欄DS811に対応
して移動する。つまり、表示欄DS811は音声議事録
(映像付音声議事録)で、図1に示した会議インデクシ
ングデータベース107と会議音声・映像データベース
102で作成する。例えば、利用者は3分間の音声議事
録(映像付音声議事録)を再生して表示する。或は、社
長と副社長の発話のみから構成される音声議事録(映像
付音声議事録)のように、複数話者から構成されるもの
でもよい。この場合、例えば表示欄DS801のボタン
を押した直後に、全体の音声議事録(映像付音声議事
録)か、特定話者の音声議事録(映像付音声議事録)か
を選択する画面が出現し、利用者が選択した後、表示欄
DS811の画面が出現してもよい。
た直後に出現する模式的な画面を示す。表示欄DS80
1−1で音声議事録(映像付音声議事録)の視聴を、視
聴時間で設定するか選択する。例えば、図7では、表示
欄DS801−1が選択されており、チェックされた左
の丸印を表示する。選択した場合、表示欄DS801−
2で、利用者の希望する視聴時間を入力する。図7で
は、180秒に設定している。表示欄DS801−3で
音声議事録(映像付音声議事録)の視聴を、視聴シーン
で設定するかを選択する。図7では、表示欄DS801
−3を選択しておらず、左の丸印はチェックされていな
い。選択した場合は、表示欄DS801−4で、利用者
の希望するシーン数を入力する。表示欄DS801−5
で、特定話者で音声議事録(映像付音声議事録)を作成
するか選択する。図7では、表示欄DS801−5を選
択しており、左の丸印がチェックされている。表示欄D
S801−6で、特定話者名を入力する。表示欄DS8
01−6の入力ボックスの数は、図6に示した表示欄D
S809に表示した話者数と同数である。利用者が、希
望する話者名を表示欄DS801−6で入力し、図7の
例では、「人名1」、「人名2」…「人名6」から構成
される音声議事録(映像付音声議事録)を作成する。前
記選択を行った後、表示欄DS801−7の実行ボタン
をマウス操作により押すと、選択に基づいて図6に示し
た表示欄DS811の音声議事録(映像付音声議事録)
のインターフェースは、再生、停止、早送り、巻き戻
し、一時停止、次の重要個所へ移動、前の重要個所へ移
動等が可能となっている。また、発話速度変換等が行え
てもよい。利用者が、音声議事録(映像付音声議事録)
を視聴中に更に詳しく視聴したいと感じた場合は、例え
ば、マウス等の機器を用いて表示欄DS811(図6)
の画面中をクリック等することで、後で再生する時刻を
記録しておく。
画面の例である。表示欄DS811−1は利用者が、表
示欄DS811の画面をクリック等した時刻である。図
8の例では、例えば、単位は秒であり、前記動作を繰り
返す毎に、表示欄DS811−1の行数は増加する。図
8は、4行に渡って時刻が記録されており、利用者が4
回、表示欄DS811の画面をクリックする等の動作を
施して時刻を指定する例である。表示欄DS811−2
は、利用者がマウス等の機器を用いて選択した時刻を示
す。マウスを用いている場合、マウスのクリックボタン
等を押すことで、表示欄DS811−3に示す小画面S
811−3が出現する。図8の例では、小画面S811
−3は、「再生」と「移動」で構成される。例えば、利
用者が、表示欄DS811−2の時刻「2526.12
3秒」から再度再生することや、表示欄DS803(図
6)の画面を「2526.123秒」付近に移動させ
る。移動させた場合、利用者はその前後をマウス等の機
器を用いて、選択して再生することで、再度、会議内容
を視聴させる。その際、表示欄DS811の画面で会議
音声・映像を視聴してもよく、あるいは、専用の画面を
新たに生成し、その画面内で表示してもよい。
例を示す。ステップS9A01で、利用者の、音声議事
録(映像付音声議事録)視聴時間を初期化t=0とす
る。ステップS9A02で、視聴からのマルチメディア
会議録視聴依頼を受け、ステップS9A03で、利用者
の希望する音声議事録(映像付音声議事録)視聴時間T
を得て、ステップS9A04で、会議録作成部103に
マルチメディア会議録の配信を要求する。ステップS9
A05で、利用者の視聴が開始されたか監視し、開始さ
れた場合、ステップS9A06で、利用者の視聴時間を
計測する。ステップS9A07で、利用者の視聴が終了
したかを監視し、終了した場合、ステップS9A08
で、視聴時間tを計算し、ステップS9A09で、視聴
時間に対応する対価情報を視聴者の金融口座の残高情報
から控除する課金処理を行う。
合の実施例について述べる。実施例では、60分間視聴
した際の、利用金額を100円とする。利用者は、全体
の1/20を視聴したので、利用料金は5円である。ま
た、図9の例の応用例として、視聴時間にかかわらず、
利用者が設定した時間T分の対価情報についての課金処
理を行う課金部であってもよい。また、音声議事録(映
像付音声議事録)の視聴時間でなく、図6で示したマル
チメディア会議録の視聴時間に対して課金してもよい。
図10に課金部110の他の実施例を示す。ステップS
9B01で、利用者の、音声議事録(映像付音声議事
録)視聴シーンを初期化P=0とする。前記、視聴シー
ンとは音声議事録(映像付音声議事録)作成のために、
元の会議音声・映像から切り出した各々を意味する。
議事録(映像付音声議事録)視聴依頼を受け、ステップ
S9B03で利用者の希望する視聴シーン数Pを得て、
ステップS9B04で、マルチメディア会議録作成部に
音声議事録(映像付音声議事録)の配信を要求する。ス
テップS9B05で、利用者の視聴が開始されたか監視
し、開始された場合、ステップS9B06で視聴シーン
数P=1とする。ステップS9B07で利用者が視聴し
ている音声議事録(映像付音声議事録)のシーンがp=
1のシーンと同じであるか監視し、次のシーンに移行し
ていれば、ステップS9B08で視聴シーンPの数を一
つ増加させる。移行していなければ、ステップS9B0
9で利用者が視聴を終了したか監視し、視聴中であれば
ステップS9B06に戻る。
B07、ステップS9B08、ステップS9B09を繰
り返す。ステップS9B09で利用者が視聴を終了した
場合、ステップS9B10で視聴シーン数Pを計算し、
ステップS9B11で利用者の金融口座の残高から、シ
ーン数Pに応じた対価情報を控除する処理を行う信号を
発する。以下、100シーンから構成される会議を、1
0シーンだけ視聴する場合の実施例について述べる。実
施例では、100シーン視聴した際の、利用金額を10
0円とする。利用者は、全体の1/10を視聴したの
で、利用料金は10円である。また、図10の例の応用
例として、視聴シーン数にかかわらず、利用者が設定し
たシーン数P分の対価情報についての課金処理を行って
もよい。
料を設定してもよく、また、通信した情報量(バイト
数)に応じて課金処理を行ってもよい。この結果から明
らかな様に、従来の技術に比べて、主として音声要約技
術、キーワード抽出技術、映像インデクシング技術を用
いることで、音声議事録(映像付音声議事録)を作成す
ることが可能となり、音声認識不可能な音声に対して
も、マルチメディア会議録を作成することが可能となる
改善があった。また、利用者の希望する時間、もしくは
シーン数で音声議事録(映像付音声議事録)を視聴で
き、会議終了後に利用者が会議内容を短時間で確認する
ことが可能となる改善があった。また、利用者が希望す
る話者から構成される音声議事録(映像付音声議事録)
を視聴することが可能となる改善があった。また、音声
議事録(映像付音声議事録)再生中にマークすること
で、更に会議部分の詳細を視聴することが可能となる改
善があった。また、音声要約の結果得られた会議の重要
個所を可視化することで利用者はどこが重要かを目視で
確認することが可能となる改善があった。また、会議の
雰囲気、発言のニュアンス等を含む音声議事録(映像付
音声議事録)を見ることで、実際の会議音声(映像)を
視聴することができ、テキスト以外の議事録を閲覧する
ことが可能となる改善があった。
加者の参加性を視覚的に確認することが可能とする改善
があった。また、マルチメディア会議録をユーザ端末1
09との間で共有することが可能となり、会議参加者が
ノートを取る必要と、議事録を作成する必要がなくなる
改善があった。また、マルチメディア会議録を視聴する
ことで、会議中に聞き逃した重要個所を、会議終了後に
聞くことが可能となる改善があった。また、利用者が会
議に参加していない場合においても、マルチメディア会
議録を閲覧することで参加した場合と同等の理解が得ら
れる改善があった。また、マルチメディア会議録作成の
ために、人手による編集作業を必要としない改善があっ
た。
として、実施例2を提案する。この実施例では会議サー
バSAには会議音声・映像入力部101と、会議音声・
映像データベース102のみを有し、会議録作成部10
3を外部に設けた例を示す。つまり、会議作成部103
はネットワーク108を介して会議サーバSAと接続
し、会議サーバSAは会議録の作成を希望する場合にの
み会議録作成部103に会議音声・映像情報を会議音声
・映像データベース102から送り込み、会議録作成部
103に会議録の作成を要求すればよい。従って、この
実施例によれば会議録作成部103は複数の会議サーバ
SAからの要求に対して会議録の作成を行うことができ
る。この結果各会議サーバSAに会議録作成部103を
配備しなくて済むことが改善された。
の実施例では会議音声・映像入力部101と、会議音声
・映像データベース102と、会議録作成部103の3
者を全てネットワーク108を介して接続した構成とし
た場合を示す。この構成とした場合には、複数の会議音
声・映像入力部101をネットワーク108を介して会
議音声・映像データベース102に接続することができ
る。上記のマルチメディア会議録の作成において各地点
から入力された音声や映像等を各地点のアドレスに対応
づけて記録もしくは編集することにより、テレビ会議の
ような多地点会議に適用することができる。このように
多地点会議においても、会議録作成に人手を必要とせず
アドレスごとに入力情報が管理される。
音声議事録(映像付音声議事録)を作成する応用例とし
ての話者毎に重み付けをすることによる音声議事録(映
像付音声議事録)を作成する実施例4について述べる。
ここで予め発話者毎の要約率を設定し、話者ごとに要約
音声区間を定める。つまり、例えば発話者毎の音声信号
をフレーム毎に分析した前記特徴量に音声信号をフレー
ム毎に分析した特徴量に対応する強調状態での出現確率
と平静状態での出現確率を求め、強調状態での出現確率
に基づいて強調状態となる確率と、強調状態となる確率
の平静状態となる確率に対する確率比が所定の係数より
大きい音声信号区間を要約区間と仮判定し、各発話者毎
に仮判定した要約区間の時間の総和、又は要約率として
音声信号全区間の時間と要約区間の時間の総和に対する
比率を算出し、要約区間の時間の総和が略所定の要約時
間に、又は要約率が略所定の要約率となる所定の係数を
算出して発話者毎の要約区間を決定する。
SIV1の重み付け部と、ステップIV2の音声議事録(映
像付音声議事録)作成部から成る。ステップSIV2の音
声議事録(映像付音声議事録)作成部は、図1に示した
音声議事録作成部104と、映像インデクシング部10
6で生成される各議事録の生成原理と同じである。例え
ば、企業の役員会議の出席者が、社長、副社長、専務、
常務、取締役の5人であった場合の実施例について述べ
る。
付音声議事録)の例を示す。例えば、役員会議が2時間
あり、音声議事録(映像付音声議事録)が19シーン、
全10分から構成されていたとする。図14の例では、
社長が3シーン、1分10秒を占めている。重み付けを
しなければ、図14の構成で、時系列に並び替えたもの
を音声議事録(映像付音声議事録)として利用者は視聴
する。重み付けをする場合、例えば、図15に示す画面
を用いる。ステップSIV101は、図2に示したステッ
プS303の発話者特定処理で得られた発話者名を示
す。ステップSIV102は、利用者が設定する各発話者
の重み付け入力画面である。図15の例では、社長70
%、副社長10%、専務0%、取締役20%としてい
る。この場合、音声議事録(映像付)議事録の再生時間
の占める割合を、社長70%、副社長10%、取締役2
0%で構成する。典型的な例を図16に示す。例えば、
重み付けをしない音声議事録(映像付音声議事録)の再
生時間が10分であった場合、7分を社長、副社長を1
分、取締役を2分で構成するように、図2に示したステ
ップS301の音声要約処理とステップS302の音声
キーワード抽出処理と図1に示した映像インデクシング
部106の抽出条件を操作すればよい。その他の方法と
しては、重み付けをしない音声議事録(映像付音声議事
録)での社長の再生時間1分10秒が全体の70%にな
るように副社長、取締役の抽出シーンを削減して調整
し、専務、常務の抽出シーンを0にしてもよい。あるい
は、抽出シーン数を基準に社長70%、副社長10%、
取締役20%にしてもよい。但し、上述した方法で発話
者ごとに発話区間の音声信号や映像信号が区別されてい
ることが必須である。前記、重み付けによる音声議事録
(映像付音声議事録)を含むマルチメディア会議録は、
図1、図11、図12の何れの形態にも適用することが
できる。この結果から明らかなように、従来の技術に比
べて、利用者が希望する発話者から構成される音声議事
録(映像付音声議事録)を視聴させることが可能になる
改善があった。
入力部101と、会議音声・映像データベース102
と、会議録作成部103の全てを会議サーブSAに構築
した例を、また、実施例2では会議音声・映像入力部1
01と会議音声・映像データベース102を会議サーバ
SAに構築した例を説明したが、実施例3に示したよう
に、これら3者は全て分離して配置することができるこ
とから、それぞれが独立した会議サーバに格納されても
よい。また、これら3者の何れか一つ又は全部をユーザ
端末109の内部に構築することもできる。会議サーバ
SA又はユーザ端末109にこれら3者の中の1つ又は
全部を構築する場合、その構築はプログラムによって実
現される。つまり、以上説明したこの発明によるデータ
編集方法は計算機上で本発明のデータ編集プログラムを
実行して実現できる。ここで当該プログラムは通信回線
を介してダウンロードしたり磁気ディスクやCD−RO
M等の記録媒体からCPUのような処理手段にインスト
ールして実行される。
いることで音声認識不可能な音声に対しても、マルチメ
ディア会議録が作成できる効果がある。また、主として
音声要約技術、キーワード抽出技術、映像インデクシン
グ技術を用いることで、音声議事録(映像付音声議事
録)を作成できる効果がある。また、利用者の希望する
時間、もしくはシーン数で音声議事録(映像付音声議事
録)を視聴でき、会議終了後に利用者が会議内容を短時
間で確認できる利点がある。また、利用者が希望する話
者から構成される音声議事録(映像付音声議事録)を視
聴できる利点がある。また、音声議事録(映像付音声議
事録)を視聴中に視聴者が興味を持った部分にマークを
付すことで、更に会議部分の詳細を視聴できる利点があ
る。
個所を可視化することで、利用者はどこが重要かを目視
で確認できる利点がある。また、会議の雰囲気、発言の
ニュアンス等を含む音声議事録(映像付音声議事録)を
見ることで、実際の会議音声(映像)を視聴することが
でき、テキスト以外の議事録を閲覧できる効果がある。
また、発話者を特定することから、会議参加者の参加性
を視覚的に確認できる利点がある。また、マルチメディ
ア会議録をユーザ端末間で共有することが可能となり、
会議参加者がノートを取る必要と、議事録を作成する必
要が無くなる利点がある。
とで、会議中に聞き逃した重要個所を、会議終了後に聞
くことができる利点がある。また、利用者が会議に参加
していない場合においても、マルチメディア会議録を閲
覧することで参加した場合と同等に理解できる効果があ
る。また、利用者は会議音声・映像を保存しておくデー
タベースを構築し、例えば、DATや、DVD−ROM
等の記録媒体に会議音声・映像を録音・録画して会議音
声・映像データベースに保存して必要に応じて読み出す
ことでマルチメディア会議を視聴することが可能とな
り、利用者自らマルチメディア会議録を作成する必要が
ない。
ネットワークを介して会議サーバに送信して、例えば、
テレビ会議のような多地点会議により、マルチメディア
会議録作成に人手を省ける。また、利用者が希望する発
話者から構成される音声議事録(映像付音声議事録)を
発話者ごとの所望の再生時間比で視聴できる利点があっ
た。
の基本構成を示すブロック図。
約し、音声キーワードを抽出し、発話者を特定する手順
の例を示す流れ図。
声認識し、テキスト化処理する手順の例を示す流れ図。
果を、時間情報と発話内容で記録される例を示す図。
ット点抽出し、人物認識し、カメラワーク認識し、テロ
ップ認識する手順の例を示す流れ図。
ーフェースを模式的に示す図。
を模式的に示す図。
して、後で聞きなおしたい時刻を記録しておく手順の例
を示す図。
説明するためのブロック図。
めのブロック図。
めの流れ図。
様子を説明するための図。
果を説明するための図。
するための流れ図。
段落抽出及び音声段落抽出方法の手順を説明するための
流れ図。
出方法を模式的に示す図。
するための流れ図。
クを作成する手順を説明するための流れ図。
を説明するための図。
状況を模式的に示す波形図。
る装置の実施例を示すブロック図。
変化させる方法を説明するための流れ図。
強調確率テーブルの作成手順を説明するための流れ図。
強調確率テーブルの様子を説明するための図。
約装置の実施例を説明するためのブロック図。
Claims (9)
- 【請求項1】 チャネル又は発話者毎の音声信号の要約
区間に基づくデータに前記チャネル情報及び発話者情報
のうち少なくとも何れか一方を付加して、時刻順に記録
するデータ編集方法において、 少なくとも基本周波数又はピッチ周期、パワー、動的特
徴量の時間変化特性、又はこれらのフレーム間差分を含
む特徴量と強調状態での出現確率とを対応して格納した
符号帳を用い、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出し、 前記強調状態となる確率が所定の確率よりも大きい音声
信号区間を前記要約区間と判定することを特徴とするデ
ータ編集方法。 - 【請求項2】 前記音声信号要約区間を音声認識してテ
キストに変換し、前記テキストを記録することを特徴と
する、請求項1記載のデータ編集方法。 - 【請求項3】 前記音声信号と同期入力した映像信号の
うち前記音声信号の要約区間に対応する映像信号区間
を、前記音声信号の要約区間と対応付けて記録すること
を特徴とする請求項1記載のデータ編集方法。 - 【請求項4】 前記音声信号の要約区間の開始時刻情報
と終了時刻情報のうち少なくとも何れか一方を、前記音
声信号の要約区間と対応付けて記録することを特徴とす
る請求項3記載のデータ編集方法。 - 【請求項5】 前記音声信号の要約区間は、前記符号帳
が少なくとも基本周波数又はピッチ周期、パワー、動的
特徴量の時間変化特性、又はこれらのフレーム間差分を
含む特徴量と強調状態での出現確率に対応して平静状態
での出現確率が格納され、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率と平静状態の出現確率を求
め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出し、 前記平静状態での出現確率に基づいて平静状態となる確
率を算出し、 前記強調状態となる確率の前記平静状態となる確率に対
する確率比が所定の係数より大きい音声信号区間を要約
区間と仮判定し、 要約区間の時間の総和、又は要約率として前記音声信号
全区間の時間の前記要約区間の時間の総和に対する比率
を算出し、 前記要約区間の時間の総和が略所定の要約時間に、又は
前記要約率が略所定の要約率となる前記所定の係数を算
出して各チャネル毎又は各発話者毎の要約区間を決定す
ることを特徴とする請求項1乃至4の何れかに記載のデ
ータ編集方法。 - 【請求項6】 前記音声信号の要約区間は、前記符号帳
が少なくとも基本周波数又はピッチ周期、パワー、動的
特徴量の時間変化特性、又はこれらのフレーム間差分を
含む特徴量と強調状態での出現確率に対応して平静状態
での出現確率が格納され、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率と平静状態での出現確率を求
め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出し、 前記平静状態での出現確率に基づいて平静状態となる確
率を算出し、 前記強調状態となる確率の前記平静状態となる確率に対
する確率比を音声信号区間毎に算出し、 前記確率比の降順に前記確率比に対応する音声信号区間
の時間を累積して要約区間の時間の総和を算出し、 前記要約区間の時間の総和が略所定の要約時間に、又は
前記要約率が略所定の要約率となる要約時間が得られる
音声信号区間を各チャネル毎又は各発話者毎の要約区間
と決定することを特徴とする請求項1乃至4の何れかに
記載のデータ編集方法。 - 【請求項7】 チャネル又は発話者毎の音声信号の要約
区間に前期チャネル情報及び発話者情報のうち少なくと
も何れか一方を付加して、時刻順に記録するデータ編集
装置において、 少なくとも基本周波数又はピッチ周期、パワー、動的特
徴量の時間変化特性、又はこれらフレーム間差分を含む
特徴量と強調状態での出現確率と平静状態での出現確率
とを対応して格納した符号帳と、 この符号帳を用いて前記音声符号をフレーム毎に分析し
た前記特徴量に対応する強調状態での出現確率と平静状
態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出する強調状態確率計算部と、 前期平静状態での出現確率に基づいて平静状態となる確
率を算出する強調状態確率計算部と、 前記強調状態となる確率の前記平静状態となる確率に対
する確率比が所定の係数より大きい音声信号区間を要約
区間と仮判定する要約区間仮判定部と、 要約区間の時間の総和が略所定の要約時間に、又は前記
要約率が略所定の要約率となる前記所定の係数を算出し
て各チャネル毎又は各発話者毎の要約区間を決定する要
約区間決定部と、 を有することを特徴とするデータ編集装置。 - 【請求項8】 チャネル又は各発話者毎の音声信号の要
約区間に前記チャネル情報及び発話者情報のうち少なく
とも何れか一方を付加して時刻順に記録するデータ編集
装置において、 少なくとも基本周波数又はピッチ周期、パワー、動的特
徴量の時間変化特性、又はこれらのフレーム間差分を含
む特徴量と強調状態での出現確率と平静状態での出現確
率とを対応して格納した符号帳と、 この符号帳を用いて、前記音声信号をフレーム毎に分析
した前記特徴量に対応する強調状態での出現確率と平静
状態での出現確率を求め、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率と平静状態での出現確率を求
め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出する強調状態確率計算部と、 前記平静状態での出現確率に基づいて平静状態となる確
率を算出する平静状態確率計算部と、 前記強調状態となる確率の前記平静状態となる確率に対
する確率比を音声信号区間毎に算出し、前記確率比が所
定の確率比より大きい音声信号区間を要約区間と仮判定
する要約区間仮判定部と、 要約区間の時間の総和、又は要約率として前記音声信号
区間の時間の前記要約区間の時間の総和に対する比率を
算出し、 前記要約区間の時間の総和が前記所定の要約時間に、又
は前記要約率が前記所定の要約率となる前記所定の確率
比を算出して各チャネル又は各発話者毎の要約区間を決
定する要約区間決定部と、 を有することを特徴とするデータ編集装置。 - 【請求項9】 コンピュータが読み取り可能な符号で記
述され、コンピュータに前記請求項1乃至6記載の何れ
かに記載のデータ編集方法を実行させることを特徴とす
るデータ編集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002060728A JP3621686B2 (ja) | 2002-03-06 | 2002-03-06 | データ編集方法、データ編集装置、データ編集プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002060728A JP3621686B2 (ja) | 2002-03-06 | 2002-03-06 | データ編集方法、データ編集装置、データ編集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003255979A true JP2003255979A (ja) | 2003-09-10 |
JP3621686B2 JP3621686B2 (ja) | 2005-02-16 |
Family
ID=28669986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002060728A Expired - Lifetime JP3621686B2 (ja) | 2002-03-06 | 2002-03-06 | データ編集方法、データ編集装置、データ編集プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3621686B2 (ja) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005069171A1 (ja) * | 2004-01-14 | 2005-07-28 | Nec Corporation | 文書対応付け装置、および文書対応付け方法 |
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
JP2005223595A (ja) * | 2004-02-05 | 2005-08-18 | Toppan Forms Co Ltd | 音声認識システムおよびそのプログラム |
JP2007148904A (ja) * | 2005-11-29 | 2007-06-14 | Toshiba Corp | 情報提示方法、情報提示装置及び情報提示プログラム |
JP2007189343A (ja) * | 2006-01-11 | 2007-07-26 | Toshiba Corp | 映像要約装置、映像要約方法および映像要約プログラム |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
JP2008172582A (ja) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | 議事録作成再生装置 |
JP2008199456A (ja) * | 2007-02-15 | 2008-08-28 | Funai Electric Co Ltd | 番組記録再生装置 |
JP2009020461A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009088602A (ja) * | 2007-09-27 | 2009-04-23 | Toshiba Corp | 電子機器および表示処理方法 |
JP2010277613A (ja) * | 2010-09-14 | 2010-12-09 | Future Vision:Kk | 会議内容記録再生方法 |
JP2012090337A (ja) * | 2012-01-13 | 2012-05-10 | Toshiba Corp | 電子機器および表示処理方法 |
JP2013510531A (ja) * | 2009-11-10 | 2013-03-21 | アルカテル−ルーセント | データストリームをブロードキャストする方法およびユーザー間で対話する方法 |
CN103544950A (zh) * | 2012-07-12 | 2014-01-29 | 索尼公司 | 信息处理设备,信息处理方法,显示控制设备和显示控制方法 |
JP2014098785A (ja) * | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 |
JP2014146066A (ja) * | 2013-01-25 | 2014-08-14 | Canon Inc | 文書データ生成装置、文書データ生成方法及びプログラム |
JP2019020743A (ja) * | 2018-10-04 | 2019-02-07 | ソニー株式会社 | 情報処理装置 |
JP2019176375A (ja) * | 2018-03-29 | 2019-10-10 | 株式会社アドバンスト・メディア | 動画出力装置、動画出力方法および動画出力プログラム |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
JP2022070308A (ja) * | 2020-10-27 | 2022-05-13 | Necプラットフォームズ株式会社 | 遠隔会議装置、システム、方法及びプログラム |
KR102397793B1 (ko) * | 2022-01-20 | 2022-05-13 | 주식회사 잡앤피플연구소 | 채용 시스템 |
JP2022075662A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
CN115396627A (zh) * | 2022-08-24 | 2022-11-25 | 易讯科技股份有限公司 | 一种录屏视频会议的定位管理方法及系统 |
JP2023005038A (ja) * | 2021-06-28 | 2023-01-18 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
JP2023048809A (ja) * | 2021-09-28 | 2023-04-07 | ミチビク株式会社 | 情報処理方法、情報処理装置およびプログラム |
-
2002
- 2002-03-06 JP JP2002060728A patent/JP3621686B2/ja not_active Expired - Lifetime
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2005069171A1 (ja) * | 2004-01-14 | 2008-09-04 | 日本電気株式会社 | 文書対応付け装置、および文書対応付け方法 |
WO2005069171A1 (ja) * | 2004-01-14 | 2005-07-28 | Nec Corporation | 文書対応付け装置、および文書対応付け方法 |
JP4600828B2 (ja) * | 2004-01-14 | 2010-12-22 | 日本電気株式会社 | 文書対応付け装置、および文書対応付け方法 |
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
JP4678193B2 (ja) * | 2004-02-02 | 2011-04-27 | 富士ゼロックス株式会社 | 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム |
JP2005223595A (ja) * | 2004-02-05 | 2005-08-18 | Toppan Forms Co Ltd | 音声認識システムおよびそのプログラム |
JP4509590B2 (ja) * | 2004-02-05 | 2010-07-21 | トッパン・フォームズ株式会社 | 音声認識システムおよびそのプログラム |
JP2007148904A (ja) * | 2005-11-29 | 2007-06-14 | Toshiba Corp | 情報提示方法、情報提示装置及び情報提示プログラム |
JP2007189343A (ja) * | 2006-01-11 | 2007-07-26 | Toshiba Corp | 映像要約装置、映像要約方法および映像要約プログラム |
WO2008050649A1 (fr) * | 2006-10-23 | 2008-05-02 | Nec Corporation | Système, procédé et programme de récapitulation de contenu |
JP5104762B2 (ja) * | 2006-10-23 | 2012-12-19 | 日本電気株式会社 | コンテンツ要約システムと方法とプログラム |
JP2008172582A (ja) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | 議事録作成再生装置 |
JP2008199456A (ja) * | 2007-02-15 | 2008-08-28 | Funai Electric Co Ltd | 番組記録再生装置 |
JP2009020461A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009088602A (ja) * | 2007-09-27 | 2009-04-23 | Toshiba Corp | 電子機器および表示処理方法 |
US8935169B2 (en) | 2007-09-27 | 2015-01-13 | Kabushiki Kaisha Toshiba | Electronic apparatus and display process |
US8326623B2 (en) | 2007-09-27 | 2012-12-04 | Kabushiki Kaisha Toshiba | Electronic apparatus and display process method |
JP2013510531A (ja) * | 2009-11-10 | 2013-03-21 | アルカテル−ルーセント | データストリームをブロードキャストする方法およびユーザー間で対話する方法 |
JP2010277613A (ja) * | 2010-09-14 | 2010-12-09 | Future Vision:Kk | 会議内容記録再生方法 |
JP2012090337A (ja) * | 2012-01-13 | 2012-05-10 | Toshiba Corp | 電子機器および表示処理方法 |
CN103544950A (zh) * | 2012-07-12 | 2014-01-29 | 索尼公司 | 信息处理设备,信息处理方法,显示控制设备和显示控制方法 |
JP2014022758A (ja) * | 2012-07-12 | 2014-02-03 | Sony Corp | 情報処理装置、情報処理方法、表示制御装置および表示制御方法 |
JP2014098785A (ja) * | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 |
JP2014146066A (ja) * | 2013-01-25 | 2014-08-14 | Canon Inc | 文書データ生成装置、文書データ生成方法及びプログラム |
JP2019176375A (ja) * | 2018-03-29 | 2019-10-10 | 株式会社アドバンスト・メディア | 動画出力装置、動画出力方法および動画出力プログラム |
JP2019020743A (ja) * | 2018-10-04 | 2019-02-07 | ソニー株式会社 | 情報処理装置 |
JP2022070308A (ja) * | 2020-10-27 | 2022-05-13 | Necプラットフォームズ株式会社 | 遠隔会議装置、システム、方法及びプログラム |
JP7393000B2 (ja) | 2020-10-27 | 2023-12-06 | Necプラットフォームズ株式会社 | 遠隔会議装置、システム、方法及びプログラム |
JP2022075662A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
JP7096626B2 (ja) | 2020-10-27 | 2022-07-06 | 株式会社I’mbesideyou | 情報抽出装置 |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN113378576B (zh) * | 2021-05-08 | 2023-05-26 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
JP2023005038A (ja) * | 2021-06-28 | 2023-01-18 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
JP7369739B2 (ja) | 2021-06-28 | 2023-10-26 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
JP2023048809A (ja) * | 2021-09-28 | 2023-04-07 | ミチビク株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP7486812B2 (ja) | 2021-09-28 | 2024-05-20 | ミチビク株式会社 | 情報処理方法、情報処理装置およびプログラム |
KR102462783B1 (ko) * | 2022-01-20 | 2022-11-03 | 주식회사 잡앤피플연구소 | 온라인 지원서 작성 시스템 |
KR102397793B1 (ko) * | 2022-01-20 | 2022-05-13 | 주식회사 잡앤피플연구소 | 채용 시스템 |
CN115396627A (zh) * | 2022-08-24 | 2022-11-25 | 易讯科技股份有限公司 | 一种录屏视频会议的定位管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP3621686B2 (ja) | 2005-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
US20200127865A1 (en) | Post-conference playback system having higher perceived quality than originally heard in the conference | |
US10522151B2 (en) | Conference segmentation based on conversational dynamics | |
US10057707B2 (en) | Optimized virtual scene layout for spatial meeting playback | |
US10516782B2 (en) | Conference searching and playback of search results | |
US20200092422A1 (en) | Post-Teleconference Playback Using Non-Destructive Audio Transport | |
US11076052B2 (en) | Selective conference digest | |
WO2020117505A1 (en) | Switching between speech recognition systems | |
JP2007519987A (ja) | 内部及び外部オーディオビジュアルデータの統合解析システム及び方法 | |
EP3254279A2 (en) | Conference word cloud | |
JP3437617B2 (ja) | 時系列データ記録再生装置 | |
JP2003288096A (ja) | コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム | |
JP3803302B2 (ja) | 映像要約装置 | |
JP3803301B2 (ja) | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム | |
JP2003255983A (ja) | コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム | |
JP3754386B2 (ja) | 音声着信方法、音声着信装置、音声着信プログラム | |
CN114242036A (zh) | 角色配音方法、装置、存储介质及电子设备 | |
US20170287503A1 (en) | Audio tracking | |
Erskine | Real-Time CELP Speech Coding in a Voice Response Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3621686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071126 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081126 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101126 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101126 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111126 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111126 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 9 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |