JP2002157112A

JP2002157112A - 音声情報変換装置

Info

Publication number: JP2002157112A
Application number: JP2000353435A
Authority: JP
Inventors: Toshihiko Hamada; 俊彦浜田
Original assignee: Teac Corp
Current assignee: Teac Corp
Priority date: 2000-11-20
Filing date: 2000-11-20
Publication date: 2002-05-31
Also published as: US20020062210A1

Abstract

(57)【要約】【課題】音声情報又は音声情報を伴なった画像情報の
検索を容易に行うことが困難であった。【解決手段】音声入力を音声認識ソフトを使用してテ
キストに変換する音声テキスト変換手段２を設ける。日
時情報をテキスト形式で発生する日時情報生成手段３を
設ける。音声テキストをセグメントに分割し、各セグメ
ントに日時テキストを付加して記録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声情報の検索を
容易に行うことができる音声情報変換装置に関する。

【０００２】

【従来の技術】音声認識ソフトウエアを有するパソコン
によって、音声入力を文字データ即ちテキストデータに
変換して記録する方式は既に存在する。

【０００３】

【発明が解決しようとする課題】ところで、音声情報を
テキストデータに変換して記録しても、テキストに含ま
れている情報検索を容易に行うことができない。

【０００４】そこで、本発明の目的は、検索を可能にす
るための音声情報変換装置を提供することにある。

【０００５】

【課題を解決するための手段】上記課題を解決し、上記
目的を達成するための本発明は、音声信号をテキストデ
ータに変換する音声テキスト変換手段と、日時情報を単
位時間或いは任意の時間間隔毎に生成する日時情報生成
手段と、前記音声テキスト変換手段によって得られたテ
キストデータのセグメントに対して前記日時情報生成手
段から得られた日時情報を付加する情報混合手段とから
成る音声情報変換装置に係わるものである。

【０００６】なお、請求項２に示すように、前記情報混
合手段から出力された日時情報を伴なったテキストデー
タを記録する記録手段を有していることが望ましい。ま
た、請求項３に示すように、音声信号をテキストデータ
に変換する音声テキスト手段と、日時情報を単位時間或
いは任意の時間間隔毎に生成する日時情報生成手段と、
前記音声テキスト変換手段によって得られたテキストデ
ータを構文解析によって単語又は文節から成るセグメン
トに分離し、前記セグメントの相互間にセパレータを配
置するテキスト解析手段と、前記テキスト解析手段によ
って得られたセパレータを含むテキストデータに対し、
前記日時情報生成手段にて得られた日時情報をセパレー
タに対応するように配置する情報混合手段とを設けるこ
とが望ましい。また、請求項４に示すように、前記情報
混合手段から出力された日時情報を伴なったテキストデ
ータを記録する記録手段を有していることが望ましい。
また、請求項５に示すように、前記日時情報生成手段は
日時情報をテキスト形式の日時テキストで出力するもの
であることが望ましい。また、請求項６に示すように、
前記情報混合手段は、前記日時テキストと前記セグメン
トとの間にフィールドセパレータを配置し、前記日時テ
キストと前記セグメントと前記フィールドセパレータと
を組み合せたもの毎にレコードセパレータを配置するこ
とが望ましい。また、請求項７に示すように、前記日時
情報生成手段は、前記音声テキスト変換手段に音声信号
を入力させる時の日時情報を発生させるものであること
が望ましい。また、請求項８に示すように、音声信号が
記録済の記録媒体を再生して前記音声テキスト変換手段
に音声信号を供給する再生手段を有し、前記日時情報生
成手段は、前記記録媒体に音声信号を記録した日時を発
生するものであることが望ましい。また、請求項９に示
すように、前記日時情報生成手段は、任意の初期日時情
報を入力される初期日時情報設定手段と、前記初期日時
情報設定手段から入力された初期日時情報に、前記音声
テキスト変換手段による音声テキスト変換開始時点から
の経過時間を加算する手段とを有していることが望まし
い。

【０００７】

【発明の効果】各請求項の発明によれば、音声信号に対
応するテキストデータが日時情報を伴なっているので、
テキストデータの情報に関する日時情報を容易に得るこ
とができる。また、日時情報をアドレスとしてテキスト
データを検索することが可能になる。

【０００８】

【実施形態】次に、図１〜図６を参照して本発明の実施
形態を説明する。

【０００９】

【第１の実施形態】図１に示す第１の実施形態の音声情
報変換装置は、マイクロホン１と、音声テキスト変換手
段２と、日時情報生成手段３と、情報混合手段４と、記
録手段５と、表示手段６とから成る。

【００１０】マイクロホン１は自然言語の会話音声を電
気信号即ち音声信号に変換する周知の音声電気変換器で
ある。マイクロホン１が接続された音声テキスト変換手
段２は、音声認識ソフトウエアがインストールされたコ
ンピュータシステムから成り、音声入力を自動的に文章
入力に変換することができるものである。音声認識ソフ
トウエアは、音声辞書と単語辞書とを参照してほぼリア
ルタイムで自然言語音声をテキストデータに変換する周
知のものである。この種の音声認識方法はコンピュータ
の分野で周知であるので、詳しい説明を省略する。な
お、この説明では、音声テキスト変換手段２から得られ
たテキストデータ等を音声テキストと呼ぶことにする。

【００１１】日時情報生成手段３は、現在の日時を示す
テキストデータ（以下日時テキストと呼ぶ）を秒単位で
出力するものであり、計測用データレコーダのタイムコ
ード又はパソコンに含まれている時計部のデータ等を使
用することができる。

【００１２】情報混合手段４は、音声テキスト変換手段
２から供給された音声テキストと日時情報生成手段３か
ら供給された日時テキストとを単位時間毎に混合するも
のである。図２は日時テキストと音声テキストとを混合
したものを示す。日時テキストは音声信号が音声テキス
ト変換手段２に入力する日時が秒単位で配置される。即
ち、図２のＡの区間に示すように２０００年９月１３日
１５時３０分００秒から２０００年９月１３日１５時３
０分０３秒のための「２０００．９．１３．１５：３
０：００」から「２０００．９．１３．１５：３０：０
３」の日時テキストＡと「東京の」「天気は」「晴天」
「です」の音声テキストのセグメントＢとの間に例えば
双方向矢印で示すタブコ−ド（０９Ｈ）から成るフィー
ルドセパレータＣを配置し、単位時間（１秒）毎のテ
キスト相互間にレコードセパレータＤを配置する。フィ
ールドセパレータＣは、自然言語音声に含まれていない
文字データが望ましく、図２の矢印、又はカンマやタブ
が望ましい。レコードセパレータＤは、テキストエディ
タやワープロ等で周知の改行コード等が望ましい。な
お、単位時間の区切りで音声テキストを区切ることがで
きない時は、時間の区切りにかかった文字の前又は後で
テキストを区切る。情報混合手段４の出力はテキストス
トリームの形でＥＩＡ規格のＲＳ−２３２Ｃ等のインタ
ーフェースを介して送出するのが望ましい。

【００１３】記録手段５は、例えばハードディスクドラ
イブ（ＨＤＤ）又はフロッピー（登録商標）ディスクド
ライブ（ＦＤＤ）であり、パソコンのＨＤＤ、ＦＤＤを
使用することも可能である。情報混合手段４の出力を記
録手段５に記録する時には、パソコン通信ソフトウエア
等を使用してテキストストリームをログファイルの形で
記録媒体に記録するように形成されている。なお、音声
テキスト変換手段２、日時情報生成手段３、情報混合手
段４を１台のパソコンに内蔵させるように構成すること
ができる。

【００１４】表示手段６は記録手段５に記録されたテキ
ストを例えば図２に示すように表示することができるも
のであり、記録手段５がパソコンの場合にはこのディス
プレイを使用することができる。

【００１５】本実施形態に従う日時情報を含むテキスト
データは、例えばプレーンテキストファイルに記録さ
れ、そのファイルは任意のテキストエディタ、ワープ
ロ、或いはデータベースソフトウエア等で極めて容易に
記録し、編集することが可能になる。本装置はそのまま
では単に日時情報を含むテキストデータを出力するだけ
の装置であるが、音声テキストデータＢが単位時間（１
秒）毎にレコードセパレータＤにて区切られているた
め、汎用の検索ツール等で、対応する日時情報を容易に
参照することが可能である。検索ツールは例えばデータ
ベースソフトや、テキストエディタやワープロ等のイン
タラクティブなアプリケーションソフトウエアだけでな
く、ＵＮＩＸ（登録商標）系ＯＳにて周知の“grep”、
“sed ”、“awk ”、“ｐerl”等の非対話型テキスト
検索ツール等、テキストデータを検索する機能を持つも
のであれば何でも良い。

【００１６】上述から明らかなように、本実施形態によ
れば、音声テキストに関係する日時情報を容易に得るこ
とができる。また、日時情報特定することによって音声
テキストを容易に検索することができる。

【００１７】

【第２の実施形態】次に、図３及び図４に示す第４の実
施形態に従う音声情報変換装置を説明する。但し、図３
及び図４において図１及び図２と実質的に同一の部分に
は同一の符号を付してその説明を省略する。図３の音声
情報変換装置は図１の音声情報変換装置に構文解析手段
７を付加し、且つ変形された情報混合手段４ａを設け、
この他は図１と同一に構成したものである。構文解析手
段７は、音声テキスト変換手段２から出力された音声テ
キストを、メモリに格納されている構文解析辞書を参照
して単語又は分節から成るセグメントに区切って出力す
る。図４に示す例では、音声テキストセグメントＢ′と
して「本発明は」「自然言語音声を」「文字情報に」
「変換する」「技術に」「関する」ように１つの文章が
６個の文節即ちセグメントに分解されている。構文解析
手段７は、セグメント間にセミコロン；等のワードセパ
レータ又はセグメントセパレータを付加して音声テキス
トを出力する。例えば「；本発明は；自然言語音声を；
文字情報に；変換する；技術に；関する；」を混合手段
４ａに送る。

【００１８】混合手段４ａは、構文解析手段７から供給
された音声テキストのセグメントセパレータの箇所に一
致する日時テキストを抽出し、セグメントセパレータの
箇所に挿入する。なお、音声テキストの最初のセグメン
トの前に開始日時テキストを配置する。また、図４に示
すように、図２の場合と同様に日時テキストＡと音声テ
キストセグメントＢ′との間にフィールドセパレータＣ
を配置し、音声テキストセグメントＢ′の後に改行コー
ドのレコードセパレータＤを配置する。図４に示すテキ
ストストリームは図１の場合と同様に記録手段５に送ら
れる。

【００１９】第２の実施形態では文節単位のセグメント
に日時情報を付加するので、検索が容易になる。また、
第２の実施形態によって、第１の実施形態と同様な効果
も得ることもできる。

【００２０】

【第３の実施形態】図５に示す第３の実施形態は本発明
の音声情報変換装置を使用したニュース検索システムを
示す。このシステムは、ＶＴＲ（ビデオテープレコー
ダ）１１と、モニタ１２と、音声情報変換装置１３と、
パソコン１４とから成る。ＶＴＲ１１は、既にニュース
の音声と画像とが記録されたビデオテープを再生し、音
声信号を音声情報変換装置１３に送る。図５の音声情報
変換装置１３は、図１に示した形式の音声情報変換装置
の他にテンキーから成る入力装置１５を有する。即ち、
音声情報変換装置１３は、図１の音声テキスト変換手段
２と日時情報生成手段３と混合手段４に相当するものを
有する他に、記録手段５に相当するものとしてフロッピ
ーディスク装置（ＦＤＤ）５ａを有し、表示手段６に相
当する液晶ディスプレイ６ａを有し、更に入力装置１５
を有する。なお、図５の実施形態では、日時情報形成手
段３が初期値を加算することができるように変形されて
いる。図５の音声情報変換装置１３の基本構成は図１と
同一であるので、第３の実施形態の説明においても図１
を参照する。

【００２１】操作者は、ＶＴＲ１１の音声信号をテキス
トデータに変換してＦＤＤ５ａに記録するのに先立っ
て、ＶＴＲ１１のニュースが既にテレビ放送されたもの
である場合には、放送された日時の開始情報を初期値と
して入力装置１５及びディスプレイ６ａを使用して入力
させる。またＶＴＲ１１のニュースがこれから放送され
るものである場合は、放送予定日時を初期値として入力
装置１５で入力する。図５の実施形態では、図１の日時
情報生成手段３が、上記初期値に経過時間を加算した値
を示す日時テキストを発生するように変形されている。
ここでの経過時間とは、ＶＴＲ１１から音声情報変換装
置１３に音声情報の供給を開始した時点からの経過を示
す時間である。ＶＴＲ１１を再生状態にしてニュースの
音声信号を音声情報変換装置１３に送ると、上記初期値
に経過時間が加算されたものから成る日時テキストが単
位時間毎に音声テキストに付加される。図２と同様に１
秒単位で日時テキストを付加してもよいが、図６では５
秒単位で付加されている。即ち、図６はフロッピーディ
スクに記録したニュースのテキストをパソコン１４で表
示した状態を示し、初期値は２０００年９月１３日１９
時０３分００秒を示す「２０００．９．１３．１９：０
３：００」である。音声テキストのセグメントは５秒単
位で例えば「こんばんわ７時のニュースをお伝えしま
す」「先進７カ国国際会議は」のように分割され、これ
等の前に日時テキスト「２０００．９．１３．１９：０
３：００」「２０００．９．１３．１９：０３：０５」
が５秒間隔で付加されている。

【００２２】パソコン１４の信号処理部から成る本体部
１４ａはＲＣ−２３２Ｃインターフェースを介してＶＴ
Ｒ１１に接続されている。パソコン１４の本体部１４ａ
はＦＤＤ１６を含み、ここに表示装置１７が接続されて
いる。また、パソコン１４にはＶＴＲ１１のリモコン機
能を有するソフトウエアがインストールされている。な
お、ＶＴＲ１１はパソコン１４で指定された時間情報に
基づいて頭出し検索する機能を有している。

【００２３】操作者は音声情報変換装置１３でニュース
が記録されたフロッピーディスクをパソコン１４のＦＤ
Ｄ１６に装着し、フロッピーディスクからテキストファ
イルを読み出し、これをＶＴＲリモコンソフトに読み込
ませる。これにより、表示装置１７のデスクトップに図
６に示すリモコンソフトの画面が得られる。この画面の
タイトルバー直下にＶＴＲ操作用の再生ボタン、停止ボ
タン等が表示され、これ等の下のウインドウに日時テキ
ストを伴なった音声テキストが表示される。ＶＴＲ１１
に音声情報変換したものと同一のテープを装着し、画面
上の再生ボタンをクリックすると、再生命令がパソコン
１４からＶＴＲ１１に送信されると共に、ＶＴＲ１１に
おける現在の再生時間情報がパソコン１４に通知され
る。ＶＴＲ１１における再生時間情報とはニュースの記
録日時をセグメント毎に示す情報又は絶対時間即ち再生
経過時間である。ＶＴＲ１１からパソコン１４に再生経
過時間が通知された時には、音声テキストに伴なってい
る日時情報の初期値にＶＴＲ１１の再生経過時間を加算
してＶＴＲ１１における日時情報を得る。図６の表示画
面においては、ＶＴＲ１１から通知された日時情報に該
当する欄の表示が別の欄と異なる色、又は点滅表示、又
は反転表示になる。例えば、ＶＴＲ１１から２０００．
９．１３．１９：０３：００を示す日時情報が通知され
たら、この表示又は「こんばんわ７時のニュースをお伝
えします」又はこれ等の両方が下の欄と異なる色にな
る。これによるＶＴＲ１１における再生の進行状況を知
ることができる。

【００２４】ニュースの特定された音声テキストセグメ
ントに対応するＶＴＲ１１のテープの映像及び音声をパ
ソコン１４でモニタしたい時には、パソコン１４の画面
上のそのセグメントにカーソルを合せてマウスをダブル
クリックする。これにより、このセグメントの日時情報
がＶＴＲ１１に送信され、ＶＴＲ１１はこの日時情報に
一致する記録の頭出しを実行し、両方の日時が一致した
点から再生を開始する。従って、ＶＴＲにおける頭出し
を容易且つ迅速に行うことができる。なお、ＶＴＲ１１
が再生経過時間又はテ−プ走行時間の情報しか有さない
場合は、パソコン１４側で、特定セグメントの日時情報
から初期値を差し引いた値をＶＴＲ１１に送る。例えば
「２０００．９．１３．１９：０３：０５」の場合には
時間情報として「００：００：０５」をＶＴＲ１１に送
る。

【００２５】図６には音声情報変換装置１３で記録した
テキストが無編集の状態で示されているが、パソコン１
４において音声テキストを編集し、検索しやすい画面に
することができる。例えば、「こんばんわ７時のニュー
スをお伝えします」を「７時ニュース」のように編集す
る。また、テキストが放送予定のものであれば、パソコ
ン１４の表示装置１７の上のテキスト上で例えば原稿の
読み間違えを訂正し、これをＶＴＲのテープの編集の参
考にすることができる。

【００２６】上述のように、日時情報生成手段３に初期
値設定手段を付加し、初期値に対して記録経過時間を加
算するように構成すると、現在の日時に拘束されない日
時情報の記録が可能になり、検索に好都合になる。

【００２７】

【変形例】本発明は、上述の実施形態に限定されるもの
でなく、例えば次の変形が可能なものである。（１）記録済の記録媒体から記録を読み出して本発明
に従う音声情報変換装置に日時情報を伴なって記録する
場合には、再生速度を標準速度のＮ倍にして、日時情報
生成手段の日時情報の速度をＮ倍にして混合することが
できる。この場合には、勿論、高速な処理装置を用意す
る。（２）音声テキスト変換処理の後、或いは音声テキス
ト変換処理完了後に文法チェックを行う文章校正手段を
設けることができる。これにより、正確な音声テキスト
の生成が可能になる。勿論、これは実時間処理でなくて
も良い。（３）インターネット上に動画ファイルを複数抱えた
動画配信サーバを設け、それぞれの動画ファイルに対応
した、本発明の装置によって生成された音声テキストを
検索する機能を設けることにより、検索結果から瞬時に
目的の動画を再生させることができる。（４）例えばＶＴＲに本発明の装置を組み込む際に、
日時情報の代りに、テープに記録されているタイムコー
ドそのものを記録するように構成しても良い。（５）例えばビデオカメラに本発明の装置を組み込
み、生成された音声テキストファイルのファイル名に当
該ビデオテ‐プに記録された映像に関連する情報(例え
ば撮影日時、撮影者名、撮影場所)を持たせ、所定の検
索エンジンに登録することにより、膨大なビデオライブ
ラリから瞬時に目的の撮影記録を検索することが可能に
なる。

【図面の簡単な説明】

【図１】第１の実施形態に従う音声情報変換装置を示す
ブロック図である。

【図２】第１の実施形態に従う日時テキストと音声テキ
ストとの混合を示す図である。

【図３】第２の実施形態の音声情報変換装置を示すブロ
ック図である。

【図４】第２の実施形態に従う日時テキストと音声テキ
ストとの混合を示す図である。

【図５】第３の実施形態の本発明に従う音声情報変換装
置を使用したニュース検索システムを示すブロック図で
ある。

【図６】図５のパソコンの表示装置における表示を示す
図である。

【符号の説明】

１マイクロホン２音声テキスト変換手段３日時情報生成手段４混合手段５記録装置６表示装置７構文解析手段

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ２３０Ｇ０６Ｆ 17/30 ２３０ＺＧ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｇ 15/28 ５５１Ｐ 15/22 ５６１Ｃ

Claims

【特許請求の範囲】

【請求項１】音声信号をテキストデータに変換する音
声テキスト変換手段と、日時情報を単位時間或いは任意の時間間隔毎に生成する
日時情報生成手段と、前記音声テキスト変換手段によって得られたテキストデ
ータのセグメントに対して前記日時情報生成手段から得
られた日時情報を付加する情報混合手段とから成る音声
情報変換装置。
【請求項２】更に、前記情報混合手段から出力された
日時情報を伴なったテキストデータを記録する記録手段
を有していることを特徴とする請求項１記載の音声情報
変換装置。
【請求項３】音声信号をテキストデータに変換する音
声テキスト手段と、日時情報を単位時間或いは任意の時間間隔毎に生成する
日時情報生成手段と、前記音声テキスト変換手段によって得られたテキストデ
ータを構文解析によって単語又は文節から成るセグメン
トに分離し、前記セグメントの相互間にセパレータを配
置するテキスト解析手段と、前記テキスト解析手段によって得られたセパレータを含
むテキストデータに対し、前記日時情報生成手段にて得
られた日時情報をセパレータに対応するように配置する
情報混合手段とから成る音声情報変換装置。
【請求項４】更に、前記情報混合手段から出力された
日時情報を伴なったテキストデータを記録する記録手段
を有していることを特徴とする請求項３記載の音声情報
変換装置。
【請求項５】前記日時情報生成手段は日時情報をテキ
スト形式の日時テキストで出力するものである請求項１
乃至４のいずれかに記載の音声情報変換装置。
【請求項６】前記情報混合手段は、前記日時テキスト
と前記セグメントとの間にフィールドセパレータを配置
し、前記日時テキストと前記セグメントと前記フィール
ドセパレータとを組み合せたもの毎にレコードセパレー
タを配置することを特徴とする請求項１乃至５のいずれ
かに記載の音声情報変換装置。
【請求項７】前記日時情報生成手段は、前記音声テキ
スト変換手段に音声信号を入力させる時の日時情報を発
生させるものである請求項１乃至６のいずれかに記載の
音声情報変換装置。
【請求項８】更に、音声信号が記録済の記録媒体を再
生して前記音声テキスト変換手段に音声信号を供給する
再生手段を有し、前記日時情報生成手段は、前記記録媒体に音声信号を記
録した日時を発生するものである請求項１乃至６のいず
れかに記載の音声情報変換装置。
【請求項９】前記日時情報生成手段は、任意の初期日
時情報を入力される初期日時情報設定手段と、前記初期日時情報設定手段から入力された初期日時情報
に、前記音声テキスト変換手段による音声テキスト変換
開始時点からの経過時間を加算する手段とを有している
ことを特徴とする請求項１乃至８のいずれかに記載の音
声情報変換装置。