JP2008107641A - 音声データ検索装置 - Google Patents
音声データ検索装置 Download PDFInfo
- Publication number
- JP2008107641A JP2008107641A JP2006291437A JP2006291437A JP2008107641A JP 2008107641 A JP2008107641 A JP 2008107641A JP 2006291437 A JP2006291437 A JP 2006291437A JP 2006291437 A JP2006291437 A JP 2006291437A JP 2008107641 A JP2008107641 A JP 2008107641A
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature data
- search
- feature
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】記録した音声データの所望の部分を正確に検索する。
【解決手段】会議の音声は音声データとなって音声データ記憶部17に記憶される。また、音声データは、所定のフレーム毎にその特徴がCPU11によって抽出され、特徴データ列として分析データ記憶部18に時刻情報とともに記憶される。一方、検索を行う際は、操作者がマイクロフォン16に向かって所望の言葉を入力する。この音声は所定のフレーム毎にCPU11によって特徴が抽出され、特徴データ列としてRAM13に記憶される。次いで、RAM13内の特徴データ列と分析データ記憶部18内の特徴データ列との一致が検出される。一致しているとみなされた分析データ記憶部18内の特徴データ列に付けられている時刻情報が抽出され、抽出された時刻情報に対応する音声データ記憶部17のアドレスから音声データが読み出される。
【選択図】図1
【解決手段】会議の音声は音声データとなって音声データ記憶部17に記憶される。また、音声データは、所定のフレーム毎にその特徴がCPU11によって抽出され、特徴データ列として分析データ記憶部18に時刻情報とともに記憶される。一方、検索を行う際は、操作者がマイクロフォン16に向かって所望の言葉を入力する。この音声は所定のフレーム毎にCPU11によって特徴が抽出され、特徴データ列としてRAM13に記憶される。次いで、RAM13内の特徴データ列と分析データ記憶部18内の特徴データ列との一致が検出される。一致しているとみなされた分析データ記憶部18内の特徴データ列に付けられている時刻情報が抽出され、抽出された時刻情報に対応する音声データ記憶部17のアドレスから音声データが読み出される。
【選択図】図1
Description
本発明は、記憶された音声データの中から所望の部分を検索するための音声データ検索装置に関する。
記憶された音声データから、所望のキーワードが話されている部分を検索したい場合、例えば、会議の音声をテキストデータ化して保存し、検索キーとなるテキストデータを入力して、保存したデータの中から検索キーと一致するテキストデータ部分を検索する方法がある(特許文献1)。
また、プレゼンテーション用のアプリケーションソフトウエアの操作の切り替わり状況を会議音声と同期して記録し、プレゼンテーションの操作状況をキーとして音声を検索する方法も提案されている(特許文献2)。
特開2002−366552号公報
特許第3637937号公報
しかし、特許文献1では、ナレーションのように明瞭に発音した音声なら高い精度でテキスト化することができるが、会議のようにいろいろな人が通常の会話で発言した内容をテキスト化することは、現在の音声認識技術では精度が不十分であり、正確なテキスト化ができない。そして、テキストが不正確だと、所望のデータを検索することはほとんど出来ないという問題がある。
また、特許文献2では、プレゼンテーション用のアプリケーションソフトウエアを使用しない会議も多いから、全く使用できない場合も多いという問題がある。また、プレゼンテーション用のアプリケーションソフトウエアを使用したとしても、検索対象となる音声データが必ずしもプレゼンテーションの操作の切り替えタイミングに該当するとは限らないため、的確な検索ができないという問題がある。
この発明は上述した課題を解決するために、プレゼンテーション用のアプリケーションソフトウエアなどを用いない場合であっても、所望とする音声データを正確に検索することができる音声データ検索装置を提供することを目的とする。
上記課題を解決するために、この発明においては、
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
検索キーの入力を指示する検索キー入力指示手段と、
前記検索キー入力指示手段によって検索キーの入力が指示されている際に、前記特徴データ生成手段が生成した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
検索キーの入力を指示する検索キー入力指示手段と、
前記検索キー入力指示手段によって検索キーの入力が指示されている際に、前記特徴データ生成手段が生成した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。
また、この発明の他の態様においては、
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
文字列を入力する文字列入力手段と、
文字列の構成要素となる音素と前記音素が発音された際の音声の特徴データとが対応付けられたテーブルと、
前記文字列入力手段が入力した文字列の各文字に対して前記テーブルを参照して特徴データに変換する変換手段と、
前記変換手段が変換した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
文字列を入力する文字列入力手段と、
文字列の構成要素となる音素と前記音素が発音された際の音声の特徴データとが対応付けられたテーブルと、
前記文字列入力手段が入力した文字列の各文字に対して前記テーブルを参照して特徴データに変換する変換手段と、
前記変換手段が変換した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。
また、この発明の他の好ましい態様においては、
前記収音手段は複数のマイクと前記各マイクが収音した音声に対応する音声データを各々生成するとともに、前記音声データがいずれのマイクからの信号であるかを識別する識別データを付けて前記音声データに添付する音声データ生成手段を有し、
前記特徴データ記憶手段は前記識別データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記識別データが特定されると、特定された識別データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。
前記収音手段は複数のマイクと前記各マイクが収音した音声に対応する音声データを各々生成するとともに、前記音声データがいずれのマイクからの信号であるかを識別する識別データを付けて前記音声データに添付する音声データ生成手段を有し、
前記特徴データ記憶手段は前記識別データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記識別データが特定されると、特定された識別データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。
また、この発明の他の好ましい態様においては、
前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御し、収音方向を示す方向データを出力する収音方向制御手段と、前記アレイマイクが収音した音声に対応する音声データを生成する音声データ生成手段とを有し、
前記特徴データ記憶手段は前記方向データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記方向データが特定されると、特定された方向データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。
前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御し、収音方向を示す方向データを出力する収音方向制御手段と、前記アレイマイクが収音した音声に対応する音声データを生成する音声データ生成手段とを有し、
前記特徴データ記憶手段は前記方向データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記方向データが特定されると、特定された方向データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。
音声データから抽出された特徴データを用いて比較するため、音声データをテキストデータ等に変換する必要がなく、正確な検索を行うことができる。また、プレゼンテーションソフトウエア等も必要としない。
(第1実施形態)
(A)構成
図1は、本発明の第1実施形態である会議システムのハードウェアの構成を示すブロック図である。図1に示すCPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、ハードウェアの各部を制御する。また、RAM13はCPU11のワークエリアとしても使用される。操作部14は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。
(A)構成
図1は、本発明の第1実施形態である会議システムのハードウェアの構成を示すブロック図である。図1に示すCPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、ハードウェアの各部を制御する。また、RAM13はCPU11のワークエリアとしても使用される。操作部14は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。
マイクロフォン16は、周囲の音を収音して音声信号として出力する。入力IF(Interface)15は、マイクロフォン16から出力される音声信号(アナログ信号)を、所定のサンプリング周波数でサンプリングして音声データSadに変換する。ここで、図2は音声データSadの一例である。図示のように、時間軸に沿ってサンプリングタイミング毎の振幅を表すデータ列となっている。
次に、図1に示す音声データ記憶部17は、CPU11の制御の下に入力IF15が出力する音声データSadを順次記憶する。この場合、各サンプリングタイミング毎の音声データSadが音声データ記憶部17の一つのアドレスに順次記憶される。
また、CPU11は、入力IF15が出力する音声データSadを分析して分析データを生成し、生成した分析データを分析データ記憶部18に順次記憶させるようになっている。
ここで、分析データの生成方法について説明する。この実施形態では、図3に示すように、所定の時間間隔(この実施形態では10m秒)のフレーム毎に、音声データSadに対して高速フーリエ変換(FFT)を行って周波数スペクトルを生成する。図3に示すフレームfr1〜fr3における周波数スペクトルの例を、図4の(a)〜(c)に示す。この図に示すように、各フレームについて、そのフレームに含まれる正弦波の周波数と振幅が抽出される。CPU11は、このようにして抽出された各フレームに含まれる正弦波の周波数と振幅に対し、以下に述べる正規化処理を行う。
まず、各フレーム毎の正弦波の周波数のうち最も低いものをピッチとするとともに、各フレームの正弦波の振幅の平均値を各フレームの平均音圧レベルとする。そして、各フレームにおける各正弦波の周波数をピッチで除算するとともに、各フレームの正弦波の振幅を平均音圧レベルで除算する。このような処理の結果、各フレームについて、周波数の低い側から高い側に向かって、正規化された周波数と振幅のデータ列が生成される。ここでは、周波数の低い側から高い側に向かって(f1,A1)、(f2,A2)、(f3,A3)…というデータ列が生成される。なお、番号は各フレームにおいて周波数の低い側からの順番を示すものであり、各フレームにおいて番号が同じであっても同じ周波数、同じ振幅を示すものではない。以下の説明においては、このデータ列を特徴データ列という。
図5は、分析データ記憶部18の記憶内容を示す図である。図示のように、一つのレコードはフレーム番号(fr1,fr2,fr3…)、時刻データ、特徴データ列を含んでいる。時刻データは各フレームの開始時刻である。なお、この場合の時刻データは、特徴データ列の生成時刻に対応していれば良く、フレームの開始時刻や終了時刻、あるいは分析データ記憶部18への書き込み時刻でもよい。また、各フレーム最初の音声データの収音時刻でもよい。要するに、時刻が特定できればよく、特徴データの生成時刻に対応する時刻であればよい。
図1に示す表示部20は、ディスプレイを備えており、CPU11の制御の下に、所定の文字や図を表示する。再生部21は、CPU11の制御の下に、音声データSadを音声信号に変換する。スピーカ22は、変換された音声信号を音声として出力する。
(B)動作
次に、この実施形態の動作を説明する。以下においては会議の音声を保存し、その中から所望の部分を検索する場合を例にとって説明する。
次に、この実施形態の動作を説明する。以下においては会議の音声を保存し、その中から所望の部分を検索する場合を例にとって説明する。
まず、会議テーブルなどにマイクロフォン16を置き、会議参加者の各発言を記録してゆく。すなわち、マイクロフォン16は各参加者の発言を収音し、音声信号として出力する。この結果、入力IF15からは図2に示すような音声データSadが出力され、音声データ記憶部17に各サンプリングタイミングにおける振幅が順次記録されてゆく。
同時に、CPU11は音声データSadを分析し、その分析結果を分析データ記憶部18に順次記憶させてゆく。これにより、図5に示すような特徴データ列が順次記憶されてゆく。このようにして、会議における各発言は、音声データSadとして音声データ記憶部17に記憶されるとともに、その特徴が分析され、特徴データ列として分析データ記憶部18に記憶される。
次に、記録した音声データの所望の部分を聞きたい要求が生じたとき、操作者は、操作部14の所定のボタンを押して、検索のためのキーワードとなる言葉をマイクロフォン16に向かって発声する。例えば、キーワードを「こんにちは」とした場合、操作部14内の所定のボタンを押して「こんにちは」と発声すると、この言葉の音声データSadが生成され、RAM13に記憶されるとともに、会議の記録のときと同様の処理によって分析される。分析結果は検索用特徴データとして、RAM13の所定エリアに記憶される。図6は、この記憶内容を示す。このように、「こんにちは」の特徴データ列が各フレームFR1,FR2…について検出される。
続いて、CPU11は、RAM13に記憶されたキーワードの特徴データ列と分析データ記憶部18に記憶された会議音声の特徴データ列を順次照合する。ここで、フレーム同士の特徴データ列の一致について説明する。例えば、最初のフレームについては、フレームFR1とfr1の特徴データを周波数の低いほうから順次比較して一致しているか否かを判定するが、一致の判定については所定の許容範囲が設定されている。
例えばフレームFR1のf1とフレームfr1のf1の値は、完全に一致していなくても許容誤差(例えば10%)以内であれば一致とみなす。同様に振幅A1の相対誤差が例えば10%以内のときは、振幅は一致しているとみなす。周波数成分と振幅成分の双方が一致とみなされた場合には、その正弦波成分は一致しているとみなす。このようにして、(fr1,A1)、(fr2,A2)、(fr3,A3)…という順に比較してゆき、全サンプル(例えば、50乃至100)のうち90%が一致と見なされた場合は、第1フレームであるフレームFR1とfr1は一致していると判定される。この判定を各フレームについて行ってゆく。
この場合、周波数および振幅は、前述のとおり正規化処理されているため、操作者の発音したキーワードが、会議の発言者が発音と音程(ピッチ)や音圧レベルにおいて異なっていても、特徴データが一致していれば、言葉が一致していると判定される。したがって、操作者や発言者の発音の個性によって、異なる検索対象となってしまうことはない。なお、上述の許容範囲は、実施状況に応じて適宜設定することができる。設定は、操作部14のキー操作によって行ってもよく、事前にデフォルト値としてROM12やRAM13に記憶させておいてもよい。
例えばフレームFR1のf1とフレームfr1のf1の値は、完全に一致していなくても許容誤差(例えば10%)以内であれば一致とみなす。同様に振幅A1の相対誤差が例えば10%以内のときは、振幅は一致しているとみなす。周波数成分と振幅成分の双方が一致とみなされた場合には、その正弦波成分は一致しているとみなす。このようにして、(fr1,A1)、(fr2,A2)、(fr3,A3)…という順に比較してゆき、全サンプル(例えば、50乃至100)のうち90%が一致と見なされた場合は、第1フレームであるフレームFR1とfr1は一致していると判定される。この判定を各フレームについて行ってゆく。
この場合、周波数および振幅は、前述のとおり正規化処理されているため、操作者の発音したキーワードが、会議の発言者が発音と音程(ピッチ)や音圧レベルにおいて異なっていても、特徴データが一致していれば、言葉が一致していると判定される。したがって、操作者や発言者の発音の個性によって、異なる検索対象となってしまうことはない。なお、上述の許容範囲は、実施状況に応じて適宜設定することができる。設定は、操作部14のキー操作によって行ってもよく、事前にデフォルト値としてROM12やRAM13に記憶させておいてもよい。
ここで、一致検索の処理内容についてさらに説明する。CPU11は、RAM13に記憶されたキーワード「こんにちは」1語として認識は、この1語の発音に対応する連続したフレーム(以下、フレーム群という)について、分析データ記憶部18内の特徴データ列を解析し、一致するフレーム群を抽出する。すなわち、「こんにちは」の先頭のフレームから順に操作者と会議発音者の特徴データ列を比較してゆく。
この場合、発音の長さが操作者と会議発音者とで異なる場合があるが、CPU11は、操作者と会議発音者の発音に対応する2つの特徴データ列に対してDP(Dynamic Programming:動的計画法)マッチングアルゴリズムに従って順次比較していく。DPマッチング処理を行うことにより、操作者音声と会議発音者音声の特徴が一致するフレームの対応付けが行われる。これにより、発音の長さが異なっても、同じ「こんにちは」の発音であれば検索が可能となる。すなわち、操作者が吹き込んだ「こんにちは」と分析データ記憶部18内に記憶された会議発言者の特徴データ列から抽出される「こんにちは」の発音に対応するフレーム数が異なっていても、両者が同じ「こんにちは」の発音であれば一致検索が可能になる。
この場合、「こんにちは」に一致するフレームが分析データ記憶部18内から複数検出されることがある。本実施形態においては、CPU11は、「こんにちは」のフレーム群について一致が検出されても、両フレーム群内の各フレームの一致度を参照して、フレーム群同士の一致度を算出する。
例えば、一致するとして検出されたフレーム群が共に100個のフレームを有しており、97個のフレームにおいて特徴データ列が一致していると見なされ、他の3フレームについては一致していないとみなされた場合に、この会議発言者の特徴データ列の一致度合いを97%とするという演算を行う。あるいは、各フレーム同士の一致度合いの平均をフレーム群の一致度合いとしてもよい。また、フレーム数が異なる場合のフレーム群同士の一致度合いは、比例配分によって行えばよい。例えば、フレーム数30のフレーム群とフレーム数90のフレーム群との一致判定を行う場合は、前者のフレームのうち一致するフレーム数を3倍して、90で除するようにして一致度合いである%を求めればよい。
一方、フレーム群に含まれるフレームについて不一致と見なされるフレームの許容割合については予め設定されるが、不一致のフレームが一つでもあれば一致と認めないという設定をしてもよく、20〜30%の不一致は認めるという設定をしてもよい。
一方、フレーム群に含まれるフレームについて不一致と見なされるフレームの許容割合については予め設定されるが、不一致のフレームが一つでもあれば一致と認めないという設定をしてもよく、20〜30%の不一致は認めるという設定をしてもよい。
以上のようにして、分析データ記憶部18内から「こんにちは」に該当するフレーム群と、そのフレーム群の一致度合いが検出される。ここで、図7に「こんにちは」に一致するフレーム群が検出された場合の表示部20における表示例を示す。図7においては、分析データ記憶部18内の3カ所において一致が検出された場合の表示例を示している。図示のように検出順を示す番号と時刻と一致度合いが表示されている。この場合の時刻は、一致していると判定された分析データ記憶部18内のフレーム群の最初のフレームの時刻(図5参照)である。
表示部20にはカーソルCsrが表示されており、このカーソルCsrは、操作部14の所定のキーの押下に従ってCPU11の制御の下に移動する。また、所定のキー(Enterキーなど)が押下されると、CPU11はカーソルCsrが特定する時刻を呼び出して開始時刻と認識し、この時刻に対応する音声データを音声データ記憶部17から読み出す。音声データ記憶部17内の音声データは、サンプリングタイミングに従って順次記憶されているので、1アドレスの違いはサンプリング周期に対応するから、読み出し開始時刻に対応するアドレスを容易に求めることができる。このようにして読み出された音声データは、再生部21に供給され、ここで再生信号が生成されてスピーカ22から発音される。
以上のようにして、操作者が吹き込んだ「こんにちは」に合致する発音、すなわち会議発言者が「こんにちは」と発音している箇所から音声の再生がなされる。このように再生された音声が、所望のものでない場合は、操作者は、表示されたリストの中から、他の候補を選択して聞くことができ、これにより、所望の部分の音声を容易に検索して聞くことができる。このように、この実施形態においては、文字列の入力や音声認識を一切用いず、記録した音声と検索用の音声の特徴同士を直接比較することによって所望の音声データを検出することができる。
(第2実施形態)
次に、本発明の第2実施形態について説明する。なお、以下の説明においては、第1実施形態と共通する部分には共通の符号を付けてその説明を省略する。
(A)構成
本実施形態が前述した第1実施形態と異なる点は、テキスト音素特徴変換部19が設けられている点である。このテキスト音素特徴変換部19は、操作部14のキーボードなどから入力されたテキストデータを特徴データ列に変換する機能を有している。
次に、本発明の第2実施形態について説明する。なお、以下の説明においては、第1実施形態と共通する部分には共通の符号を付けてその説明を省略する。
(A)構成
本実施形態が前述した第1実施形態と異なる点は、テキスト音素特徴変換部19が設けられている点である。このテキスト音素特徴変換部19は、操作部14のキーボードなどから入力されたテキストデータを特徴データ列に変換する機能を有している。
例えば、操作部14に備えられたキーボードから、「こんにちは」という文字列が入力された場合、この入力文字列を形態素解析によって実際の発音を表す平仮名列に変換する。ここで形態素解析とは、文字列から単語を認識する処理である。すなわち、日本語文章は英語文書と異なり、“分かち書き”されていないため単語間にスペースがなく、単語を切り出して認識することが困難である。そこで、形態素解析においては、予め記憶した形態素辞書データベース(図示略)に基づいて形態素解析を行って単語単位に分割して品詞を判定する。また、本実施形態においては、実際に発音される音に対応するかなに変換する。例えば、「こんちには」という単語について説明すると、この発音を表す平仮名列は「こんにちわ」となる。すなわち、形態素辞書データベースから「こんにちは」という単語が抽出され、さらに内部の発音辞書データベース(図示略)を参照してその実際の発音は「こんにちわ」であると認識し、その認識結果に対応する「かな」を求める。
このようにして音素が求められると、テキスト音素特徴変換部19は、その内部に記憶されているテキスト音素特徴変換テーブル(図9参照)を参照して実際の発音「こんにちわ」に対応する検索用特徴データを生成する。テキスト音素特徴変換テーブルにおいては、図9に示すように、各音素「あ」「い」「う」…のそれぞれに対応するフレーム群が設定され、各フレーム群内の各フレームには特徴データ列が書き込まれている。この特徴データ列は、第1実施形態の分析データ記憶部18に記憶された特徴データ列と同様に正規化されたデータである。なお、図9の各音素に対応するフレーム群については、説明を簡略化するために、5フレーム分のみを図示しているが、実際にはより多くのフレームから構成されている。
なお、英文などの場合は、形態素解析は不要となるが、入力された文字列のスペルから辞書データベースを参照して音素を抽出し、抽出した音素に応じた特徴データ列を図9に示すテキスト音素特徴変換テーブルを参照して求める。なお、この場合は、テキスト音素特徴変換テーブルは、英音の音素に応じた特徴データ列を予め設定する必要がある。
(B)動作
次に、この実施形態の動作を説明する。操作者が操作部14のキーボードから、例えば、「こんにちは」というキーワードを入力すると、テキスト音素特徴変換部19は、この入力文字列を形態素解析によって実際の発音を表す平仮名列「こんにちわ」に変換しこれに対応する特徴データ列を有するフレーム群を図9に示すテキスト音素特徴変換テーブルを参照して求める。CPU11はテキスト音素特徴変換部19が求めた「こんにちは」に対応するフレーム群をRAM13に書き込む。
次に、CPU11は、前述した第1実施形態と同様にして、RAM13に書き込んだフレーム群と一致するフレーム群を分析データ記憶部18内のフレーム群から求め、検索された候補を表示部20に表示する。操作者が表示部20の表示内容から所望の候補を選択すれば、該当する音声がスピーカ22から放音される。この動作は、第1実施形態と同様である。
次に、この実施形態の動作を説明する。操作者が操作部14のキーボードから、例えば、「こんにちは」というキーワードを入力すると、テキスト音素特徴変換部19は、この入力文字列を形態素解析によって実際の発音を表す平仮名列「こんにちわ」に変換しこれに対応する特徴データ列を有するフレーム群を図9に示すテキスト音素特徴変換テーブルを参照して求める。CPU11はテキスト音素特徴変換部19が求めた「こんにちは」に対応するフレーム群をRAM13に書き込む。
次に、CPU11は、前述した第1実施形態と同様にして、RAM13に書き込んだフレーム群と一致するフレーム群を分析データ記憶部18内のフレーム群から求め、検索された候補を表示部20に表示する。操作者が表示部20の表示内容から所望の候補を選択すれば、該当する音声がスピーカ22から放音される。この動作は、第1実施形態と同様である。
以上のように第2の実施形態によれば、キーボードから文字列を打ち込んでも、文字列に対応する特徴データ列を有するフレーム群が特定され、一致検索は特徴データ列同士の比較となるから、会議音声などを音声認識で文字列に変換する必要はなく、音声の特徴同士を比較することにより、検索を行うことができる。
(変形例)
なお、本発明は上述した実施形態に限定されるものではなく、種々の態様で実施が可能である。以下にその例を示す。
なお、本発明は上述した実施形態に限定されるものではなく、種々の態様で実施が可能である。以下にその例を示す。
(変形例1)
複数のフレームにまたがって共通する特徴が連続している場合、その連続しているフレーム数に基づいて同一とみなす規則を設けてもよい。例えば、第5フレームから第30フレームまで、一致とみなされる特徴データ列をもつフレームが連続している場合の音素は同一であるとみなす、などの規則を設けてもよい。
複数のフレームにまたがって共通する特徴が連続している場合、その連続しているフレーム数に基づいて同一とみなす規則を設けてもよい。例えば、第5フレームから第30フレームまで、一致とみなされる特徴データ列をもつフレームが連続している場合の音素は同一であるとみなす、などの規則を設けてもよい。
(変形例2)
マイクロフォン16は、図10に示すように、マイクロフォンA,B,Cというように複数設けてもよい。さらにこの場合、マイクロフォン入力端子毎に入力経路情報(識別データ)を付加し、図11に示すように、分析データに入力経路情報を付加すると発言者を区別でき、音声データを区分することができるので、入力経路情報とキーワードによる検索を行うことで、検索範囲を狭めることができ検索効率を向上させることができる。会議においては、各発言者が同時に発言する事はほとんどなく、ある時刻の音声は、図12に示すように一人の発言者に向けられたマイクロフォンA,B,Cのいずれか一つによって収音されたものと推定できるからである。
マイクロフォン16は、図10に示すように、マイクロフォンA,B,Cというように複数設けてもよい。さらにこの場合、マイクロフォン入力端子毎に入力経路情報(識別データ)を付加し、図11に示すように、分析データに入力経路情報を付加すると発言者を区別でき、音声データを区分することができるので、入力経路情報とキーワードによる検索を行うことで、検索範囲を狭めることができ検索効率を向上させることができる。会議においては、各発言者が同時に発言する事はほとんどなく、ある時刻の音声は、図12に示すように一人の発言者に向けられたマイクロフォンA,B,Cのいずれか一つによって収音されたものと推定できるからである。
(変形例3)
図10にはマイクロフォンを3つ設置する例を示したが、これに代えて、図13に示すように、複数のマイクMicを有するマイクアレイシステム30を用いてもよい。マイクアレイシステム30は、音声の入力方向を空間的に生成することができるので、その入力方向を示す方向情報と音声信号とを入力IF15に供給するように構成する。そして、入力IF15は、音声信号を所定のサンプリング周波数でサンプリングして音声データSadに変換するとともに、方向情報を出力する。音声データ記憶部17は、CPU11の制御の下に入力IF15が出力する音声データSadを順次記憶するとともに、所定のヘッダーを設けて方向情報を記憶させる。この方向情報は、発言者を特定するものとなるので、変形例2の場合と同様に音声データが区分されることになり、検索効率を向上させることができる。
図10にはマイクロフォンを3つ設置する例を示したが、これに代えて、図13に示すように、複数のマイクMicを有するマイクアレイシステム30を用いてもよい。マイクアレイシステム30は、音声の入力方向を空間的に生成することができるので、その入力方向を示す方向情報と音声信号とを入力IF15に供給するように構成する。そして、入力IF15は、音声信号を所定のサンプリング周波数でサンプリングして音声データSadに変換するとともに、方向情報を出力する。音声データ記憶部17は、CPU11の制御の下に入力IF15が出力する音声データSadを順次記憶するとともに、所定のヘッダーを設けて方向情報を記憶させる。この方向情報は、発言者を特定するものとなるので、変形例2の場合と同様に音声データが区分されることになり、検索効率を向上させることができる。
(変形例4)
音声データを音声データ記憶部17に記憶させる態様としては時刻と振幅が関係付けられているものであれば、どのようなものでもよい。例えば、音声データ記憶部17の記憶領域の物理アドレスを直接時刻に対応させてもよいし、所定のメモリブロックごとに時刻を記憶するヘッダーを挿入させてもよい。メモリブロック長は固定でもよいし、メモリブロック長の値をヘッダーに含んだ可変長メモリブロックデータの態様でもよい。メモリブロックごとに時刻データを付与する場合は、検索される時刻もメモリブロック単位になって離散的になるが、メモリブロックの大きさを適切に設定することにより、検索対象の時刻が曖昧になる等の問題は生じない。
音声データを音声データ記憶部17に記憶させる態様としては時刻と振幅が関係付けられているものであれば、どのようなものでもよい。例えば、音声データ記憶部17の記憶領域の物理アドレスを直接時刻に対応させてもよいし、所定のメモリブロックごとに時刻を記憶するヘッダーを挿入させてもよい。メモリブロック長は固定でもよいし、メモリブロック長の値をヘッダーに含んだ可変長メモリブロックデータの態様でもよい。メモリブロックごとに時刻データを付与する場合は、検索される時刻もメモリブロック単位になって離散的になるが、メモリブロックの大きさを適切に設定することにより、検索対象の時刻が曖昧になる等の問題は生じない。
また、音声データを連続する記憶領域に保管し、時刻データと前記記憶領域の物理アドレスとの対応関係を記憶するテーブルを別の記憶領域に保管してもよい。
また、上述の場合においても、第1、第2の実施形態の場合においても、音声データは圧縮して記憶することもできる。
さらに、会議音声等を録音する場合、無音時間の音声データを記憶させることは無駄であるから、所定の強度以上の振幅値がない音声データは記憶しないことが望ましい。この場合、記録再開時の時刻データを記憶(タイムスタンプ)してもよいし、前述のとおり、固定長又は可変長メモリブロックデータのヘッダーに時刻データを含めてもよい。
また、上述の場合においても、第1、第2の実施形態の場合においても、音声データは圧縮して記憶することもできる。
さらに、会議音声等を録音する場合、無音時間の音声データを記憶させることは無駄であるから、所定の強度以上の振幅値がない音声データは記憶しないことが望ましい。この場合、記録再開時の時刻データを記憶(タイムスタンプ)してもよいし、前述のとおり、固定長又は可変長メモリブロックデータのヘッダーに時刻データを含めてもよい。
(変形例5)
分析データ生成方法のアルゴリズムは、高速フーリエ変換(FFT)に限られない。図4のような、各フレームごとに固有の振動数と振幅のスペクトルを生成することができるアルゴリズムであれば、どのようなものであってもよい。例えば、他の離散フーリエ変換や、ウェーブレット変換のアルゴリズムを用いてもよい。
各フレームは前後の期間に重複する期間を設けてもよい。これにより、分析精度を向上させることができる。
分析データ生成方法のアルゴリズムは、高速フーリエ変換(FFT)に限られない。図4のような、各フレームごとに固有の振動数と振幅のスペクトルを生成することができるアルゴリズムであれば、どのようなものであってもよい。例えば、他の離散フーリエ変換や、ウェーブレット変換のアルゴリズムを用いてもよい。
各フレームは前後の期間に重複する期間を設けてもよい。これにより、分析精度を向上させることができる。
(変形例6)
音声データSadの分析は、この音声データSadを音声データ記憶部17に記憶させるのと同時に行ってもよいが、別々に行ってもよい。例えば、記憶された音声データSadを読み出して、分析を行ってもよい。
音声データSadの分析は、この音声データSadを音声データ記憶部17に記憶させるのと同時に行ってもよいが、別々に行ってもよい。例えば、記憶された音声データSadを読み出して、分析を行ってもよい。
(変形例7)
音声データ記憶部17や分析データ記憶部18への各データの記憶は直接行ってもよいが、所定のバッファメモリあるいはRAM13の記憶領域にバッファリングしてもよい。バッファリングを行うと、一時記憶領域に記憶されているデータに対しては素早く検索することができるので、少し前の発言を再生したい場合などに好適である。
音声データ記憶部17や分析データ記憶部18への各データの記憶は直接行ってもよいが、所定のバッファメモリあるいはRAM13の記憶領域にバッファリングしてもよい。バッファリングを行うと、一時記憶領域に記憶されているデータに対しては素早く検索することができるので、少し前の発言を再生したい場合などに好適である。
(変形例8)
上述した各実施形態においては、特徴データ列について特徴コード(特徴データ)を付与してもよい。すなわち、特徴データ列は、類似するものを一つの共通の集合として分類できる場合がある。このように分類された集合に対して特徴コードを付与する。そして、この特徴コードを図5,図6、図9、図11の破線で示すようにテーブルの各レコードに加える。このような構成にすれば、操作者音声と分析データ記憶部18内のフレーム同士の一致検出を、特徴コードの比較によって行うことができるため、一致検出の処理速度を大幅に向上させることができる。この場合、特徴コードの一致についても、ある程度の許容値を設けてもよい。すなわち、特徴データ列が類似する特徴コードについては完全一致あるいはある一致度(80%、90%というような一致度)を付与した上での一致とみなすようにすればよい。
また、上述のようにすれば、特徴データ列に替えて特徴コードのみを分析データ記憶部18に記憶することにすればよいから記憶領域を小さくすることができる。
上述した各実施形態においては、特徴データ列について特徴コード(特徴データ)を付与してもよい。すなわち、特徴データ列は、類似するものを一つの共通の集合として分類できる場合がある。このように分類された集合に対して特徴コードを付与する。そして、この特徴コードを図5,図6、図9、図11の破線で示すようにテーブルの各レコードに加える。このような構成にすれば、操作者音声と分析データ記憶部18内のフレーム同士の一致検出を、特徴コードの比較によって行うことができるため、一致検出の処理速度を大幅に向上させることができる。この場合、特徴コードの一致についても、ある程度の許容値を設けてもよい。すなわち、特徴データ列が類似する特徴コードについては完全一致あるいはある一致度(80%、90%というような一致度)を付与した上での一致とみなすようにすればよい。
また、上述のようにすれば、特徴データ列に替えて特徴コードのみを分析データ記憶部18に記憶することにすればよいから記憶領域を小さくすることができる。
特徴データ列から特徴コードを導出する方法としては、例えば日本語の五十音をあらかじめ相当数サンプリングしておき、これを前述の実施形態において用いた方法で分析し、その分析結果に対して類似性のあるものをまとめて特徴コードを付与する方法などが挙げられる。
11…CPU、12…ROM、13…RAM、14…操作部、15…入力IF、16…マイクロフォン、17…音声データ記憶部、18…分析データ記憶部。
Claims (4)
- 収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
検索キーの入力を指示する検索キー入力指示手段と、
前記検索キー入力指示手段によって検索キーの入力が指示されている際に、前記特徴データ生成手段が生成した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする音声データ検索装置。 - 収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
文字列を入力する文字列入力手段と、
文字列の構成要素となる音素と前記音素が発音された際の音声の特徴データとが対応付けられたテーブルと、
前記文字列入力手段が入力した文字列の各文字に対して前記テーブルを参照して特徴データに変換する変換手段と、
前記変換手段が変換した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする音声データ検索装置。 - 前記収音手段は複数のマイクと前記各マイクが収音した音声に対応する音声データを各々生成するとともに、前記音声データがいずれのマイクからの信号であるかを識別する識別データを付けて前記音声データに添付する音声データ生成手段を有し、
前記特徴データ記憶手段は前記識別データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記識別データが特定されると、特定された識別データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする請求項1または2記載の音声データ検索装置。 - 前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御し、収音方向を示す方向データを出力する収音方向制御手段と、前記アレイマイクが収音した音声に対応する音声データを生成する音声データ生成手段とを有し、
前記特徴データ記憶手段は前記方向データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記方向データが特定されると、特定された方向データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする請求項1または2記載の音声データ検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006291437A JP2008107641A (ja) | 2006-10-26 | 2006-10-26 | 音声データ検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006291437A JP2008107641A (ja) | 2006-10-26 | 2006-10-26 | 音声データ検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008107641A true JP2008107641A (ja) | 2008-05-08 |
Family
ID=39441031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006291437A Pending JP2008107641A (ja) | 2006-10-26 | 2006-10-26 | 音声データ検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008107641A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053563A (ja) * | 2009-09-03 | 2011-03-17 | Neikusu:Kk | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム |
JP2011158856A (ja) * | 2010-02-04 | 2011-08-18 | Nakayo Telecommun Inc | 録音装置およびインデックス情報付与方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175698A (ja) * | 1992-12-09 | 1994-06-24 | Ricoh Co Ltd | 音声検索装置 |
JPH1055391A (ja) * | 1996-08-12 | 1998-02-24 | Fuji Xerox Co Ltd | 情報再生装置および資料提示装置 |
JP2001056700A (ja) * | 1999-08-20 | 2001-02-27 | Olympus Optical Co Ltd | 音声記録再生装置 |
JP2002312369A (ja) * | 2001-04-17 | 2002-10-25 | Canon Inc | 音声コンテンツ検索システム及び情報処理装置とそれらの方法 |
JP2003044082A (ja) * | 2001-08-03 | 2003-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体 |
JP2003122397A (ja) * | 2001-10-17 | 2003-04-25 | Audio Technica Corp | 音声録音再生装置 |
JP2004219804A (ja) * | 2003-01-16 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 類似音声音楽検索装置,類似音声音楽検索処理方法,類似音声音楽検索プログラムおよびそのプログラムの記録媒体 |
-
2006
- 2006-10-26 JP JP2006291437A patent/JP2008107641A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175698A (ja) * | 1992-12-09 | 1994-06-24 | Ricoh Co Ltd | 音声検索装置 |
JPH1055391A (ja) * | 1996-08-12 | 1998-02-24 | Fuji Xerox Co Ltd | 情報再生装置および資料提示装置 |
JP2001056700A (ja) * | 1999-08-20 | 2001-02-27 | Olympus Optical Co Ltd | 音声記録再生装置 |
JP2002312369A (ja) * | 2001-04-17 | 2002-10-25 | Canon Inc | 音声コンテンツ検索システム及び情報処理装置とそれらの方法 |
JP2003044082A (ja) * | 2001-08-03 | 2003-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体 |
JP2003122397A (ja) * | 2001-10-17 | 2003-04-25 | Audio Technica Corp | 音声録音再生装置 |
JP2004219804A (ja) * | 2003-01-16 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 類似音声音楽検索装置,類似音声音楽検索処理方法,類似音声音楽検索プログラムおよびそのプログラムの記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053563A (ja) * | 2009-09-03 | 2011-03-17 | Neikusu:Kk | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム |
JP2011158856A (ja) * | 2010-02-04 | 2011-08-18 | Nakayo Telecommun Inc | 録音装置およびインデックス情報付与方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
US11037553B2 (en) | Learning-type interactive device | |
TWI543150B (zh) | 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統 | |
KR100735820B1 (ko) | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JPWO2008114811A1 (ja) | 情報検索システム、情報検索方法及び情報検索用プログラム | |
US20090234854A1 (en) | Search system and search method for speech database | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
CN101326571B (zh) | 声音识别装置 | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
GB2451938A (en) | Methods and apparatus for searching of spoken audio data | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
JP2008107641A (ja) | 音声データ検索装置 | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2002278579A (ja) | 音声データ検索装置 | |
JPH10173769A (ja) | 音声メッセージ検索装置 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2006243673A (ja) | データ検索装置および方法 | |
JP2011113426A (ja) | 辞書作成装置,辞書作成プログラムおよび辞書作成方法 | |
US20110165541A1 (en) | Reviewing a word in the playback of audio data | |
JP2757356B2 (ja) | 単語音声認識方法および装置 | |
EP2058799B1 (en) | Method for preparing data for speech recognition and speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111018 |