JP5376341B2 - モデル適応装置、その方法及びそのプログラム - Google Patents
モデル適応装置、その方法及びそのプログラム Download PDFInfo
- Publication number
- JP5376341B2 JP5376341B2 JP2010535770A JP2010535770A JP5376341B2 JP 5376341 B2 JP5376341 B2 JP 5376341B2 JP 2010535770 A JP2010535770 A JP 2010535770A JP 2010535770 A JP2010535770 A JP 2010535770A JP 5376341 B2 JP5376341 B2 JP 5376341B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- adaptation
- phoneme
- sentence
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 title claims description 309
- 238000000034 method Methods 0.000 title claims description 138
- 238000001514 detection method Methods 0.000 claims description 84
- 238000004364 calculation method Methods 0.000 claims description 44
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000002620 method output Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
11 入力手段
12 テキストデータベース
13 文リスト
14 モデル適応手段
15 モデル
16 距離計算手段
17 音素検出手段
18 ラベル生成手段
19 統計量データベース
20 出力手段
100 話者適応システム
10b モデル適応部
110 入力手段
120 テキストデータベース
130 文リスト
150 音響モデル
200 文提示手段
210 判定手段
220 モデル更新手段
230 出力手段
10c モデル適応装置
17b 音素検出手段
30 クラスデータベース
100b 言語適応システム
10d モデル適応部
図2は、本発明の第1の実施の形態に係るモデル適応装置の全体の構成を示した図である。図2のモデル適応装置10は、入力音声と発声内容の文リストとを用いて、対象となる音響モデルをこの入力音声の特徴に近似させることで、この音響モデルをこの入力音声の話者に適応させるものである。
次に、本実施の形態に係るモデル適応処理を図3に示すフローチャート図により説明する。まず、モデル適応装置10は、音声を入力する(S100)。具体的には、マイクから入力される音声波形、あるいはそれを音響分析した特徴量系列が入力として得られる。
本実施の形態に係るモデル適応装置の実施例として、以下に話者適応システムの例を説明する。図4は、本実施例にかかる話者適応システムの全体の構成を示した図である。図4に示す話者適応システム100は、入力手段110と、モデル適応部10bと、テキストデータベース120と、文リスト130と、音響モデル150と、文提示手段200と、判定手段210と、モデル更新手段220と、出力手段230とを備える。
次に、本実施例に係る話者適応処理の全体の流れを、図5に示すフローチャートにより説明する。まず、話者適応システム100は、音声を入力する(S200)。具体的には、話者適応システム100は、入力手段110によってマイクから入力される音声波形、あるいはそれを音響分析した特徴量系列が入力として得られる。
以下、図面を参照しながら、本発明の第2の実施の形態について詳細に説明する。本実施の形態は、第1の実施の形態に比べ、クラスデータベースを用いることにより、少ない文リストでも話者適応の効率を高めるものである。
次に、本実施の形態に係るモデル適応処理を説明する。ここで、本実施の形態は、図3におけるステップS103の音素検出処理以外は、図3と同様のため、説明を省略する。
本発明の第2の実施の形態に係るモデル適応装置の実施例として、以下に言語適応システムの例を説明する。図7は、本実施例にかかる言語適応システムの全体の構成を示した図である。図7に示す言語適応システム100bは、入力手段110と、モデル適応部10dと、テキストデータベース120と、文リスト130と、音響モデル150と、文提示手段200と、判定手段210と、モデル更新手段220と、出力手段230とを備える。
次に、本実施例に係る言語適応処理を説明する。ここで、本実施例は、図5におけるステップS201のモデル適応処理以外は、図5と同様のため、説明を省略する。
Claims (18)
- モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応装置であって、
前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手段と、
前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手段と、
前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手段と、
前記検出手段の出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手段と、
を備えることを特徴とするモデル適応装置であって、
前記第二の教師ラベル列が生成された場合、該第二の教師ラベル列を新たな第一の教師ラベル列としてから、前記モデル適応手段、前記距離計算手段、前記検出手段、前記ラベル生成手段は動作を繰り返し、
前記モデルは音響モデルであり、前記入力データは音声であり、前記ラベルは音素であることを特徴とするモデル適応装置。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応装置であって、
所定の音素を有する文を複数格納するテキストデータベースと、
前記入力音声の内容を記述した複数の文を有する文リストと、
前記入力音声が入力される入力手段と、
前記入力音声と前記文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手段と、
前記適応用特徴情報を格納する統計量データベースと、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手段と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手段と、
前記検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手段と、
前記ラベル生成手段が前記検索で文を出力した場合は、該文を新たな文リストとする判定手段と、
を備えることを特徴とするモデル適応装置であって、
前記ラベル生成手段が前記検索で文を出力した場合は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて、前記モデル適応手段、前記距離計算手段、前記音素検出手段、前記ラベル生成手段は動作を繰り返すことを特徴とするモデル適応装置。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応装置であって、
所定の音素を有する文を複数格納するテキストデータベースと、
前記入力音声の内容を記述した複数の文を有する文リストと、
前記入力音声が入力される入力手段と、
前記入力音声と前記文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手段と、
前記適応用特徴情報を格納する統計量データベースと、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手段と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手段と、
前記検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手段と、
前記ラベル生成手段が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成手段が該文を出力しなかった場合は、その旨を通知する判定手段と、
前記判定手段から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新手段と、
前記適応後音響モデルを出力する出力手段と、
前記文リスト及び前記新たな文リストを提示する文提示手段と、
を備え、
前記モデル適応手段は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
前記距離計算手段は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
前記音素検出手段は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
前記ラベル生成手段は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とするモデル適応装置。 - 前記音素検出手段は、音素毎に異なる閾値を用いることを特徴とする請求項2又は3に記載のモデル適応装置。
- 音素又は音素の組合せをクラス化した情報を格納するクラスデータベースを更に備え、
前記音素検出手段は、前記クラスデータベースを参照し、前記距離計算手段の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項2乃至4のいずれか1項に記載のモデル適応装置。 - 前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項2乃至5のいずれか1項に記載のモデル適応装置。
- モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応方法であって、
前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手順と、
前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手順と、
前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手順と、
前記検出手順での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手順と、
を備えることを特徴とするモデル適応方法であって、
前記第二の教師ラベル列が生成された場合、該第二の教師ラベル列を新たな第一の教師ラベル列としてから、前記モデル適応手順、前記距離計算手順、前記検出手順、前記ラベル生成手順を繰り返し、
前記モデルは音響モデルであり、前記入力データは音声であり、前記ラベルは音素であることを特徴とするモデル適応方法。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応方法であって、
前記入力音声が入力される入力手順と、
前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手順と、
前記適応用特徴情報を統計量データベースに格納する手順と、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手順と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手順と、
前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手順と、
前記ラベル生成手順が前記検索で文を出力した場合は、該文を新たな文リストとする判定手順と、
を備えることを特徴とするモデル適応方法であって、
前記ラベル生成手順が前記検索で文を出力した場合は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて、前記モデル適応手順、前記距離計算手順、前記音素検出手順、前記ラベル生成手順を繰り返すことを特徴とするモデル適応方法。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応方法であって、
前記入力音声が入力される入力手順と、
前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手順と、
前記適応用特徴情報を統計量データベースに格納する手順と、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手順と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手順と、
前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手順と、
前記ラベル生成手順が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成手順が該文を出力しなかった場合は、その旨を通知する判定手順と、
前記判定手順から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新手順と、
前記適応後音響モデルを出力する出力手順と、
前記文リスト及び前記新たな文リストを提示する文提示手順と、
を備え、
前記モデル適応手順は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
前記距離計算手順は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
前記音素検出手順は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
前記ラベル生成手順は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とするモデル適応方法。 - 前記音素検出手順は、音素毎に異なる閾値を用いることを特徴とする請求項8又は9に記載のモデル適応方法。
- 音素又は音素の組合せをクラス化した情報をクラスデータベースに格納する手順を更に備え、
前記音素検出手順は、前記クラスデータベースを参照し、前記距離計算手順の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項8乃至10のいずれか1項に記載のモデル適応方法。 - 前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項8乃至11のいずれか1項に記載のモデル適応方法。
- モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応プログラムであって、
前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応処理と、
前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算処理と、
前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出処理と、
前記検出処理での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成処理と、
をコンピュータに実行させることを特徴とするモデル適応プログラムであって、
前記第二の教師ラベル列が生成された場合、該第二の教師ラベル列を新たな第一の教師ラベル列としてから、前記モデル適応処理、前記距離計算処理、前記検出処理、前記ラベル生成処理を繰り返し、
前記モデルは音響モデルであり、前記入力データは音声であり、前記ラベルは音素であることを特徴とするモデル適応プログラム。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応プログラムであって、
前記入力音声が入力される入力処理と、
前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応処理と、
前記適応用特徴情報を統計量データベースに格納する処理と、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算処理と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出処理と、
前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成処理と、
前記ラベル生成処理が前記検索で文を出力した場合は、該文を新たな文リストとする判定処理と、
をコンピュータに実行させることを特徴とするモデル適応プログラムであって、
前記ラベル生成処理が前記検索で文を出力した場合は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて、前記モデル適応処理、前記距離計算処理、前記音素検出処理、前記ラベル生成処理を繰り返すことを特徴とするモデル適応プログラム。 - 音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応プログラムであって、
前記入力音声が入力される入力処理と、
前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応処理と、
前記適応用特徴情報を統計量データベースに格納する処理と、
前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算処理と、
前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出処理と、
前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成処理と、
前記ラベル生成処理が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成処理が該文を出力しなかった場合は、その旨を通知する判定処理と、
前記判定処理から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新処理と、
前記適応後音響モデルを出力する出力処理と、
前記文リスト及び前記新たな文リストを提示する文提示処理と、
をコンピュータに実行させ、
前記モデル適応処理は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
前記距離計算処理は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
前記音素検出処理は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
前記ラベル生成処理は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とするモデル適応プログラム。 - 前記音素検出処理は、音素毎に異なる閾値を用いることを特徴とする請求項14又は15に記載のモデル適応プログラム。
- 音素又は音素の組合せをクラス化した情報をクラスデータベースに格納する処理を更にコンピュータに実行させ、
前記音素検出処理は、前記クラスデータベースを参照し、前記距離計算処理の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項14乃至16のいずれか1項に記載のモデル適応プログラム。 - 前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項14乃至17のいずれか1項に記載のモデル適応プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010535770A JP5376341B2 (ja) | 2008-10-31 | 2009-10-23 | モデル適応装置、その方法及びそのプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008281387 | 2008-10-31 | ||
JP2008281387 | 2008-10-31 | ||
PCT/JP2009/068263 WO2010050414A1 (ja) | 2008-10-31 | 2009-10-23 | モデル適応装置、その方法及びそのプログラム |
JP2010535770A JP5376341B2 (ja) | 2008-10-31 | 2009-10-23 | モデル適応装置、その方法及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010050414A1 JPWO2010050414A1 (ja) | 2012-03-29 |
JP5376341B2 true JP5376341B2 (ja) | 2013-12-25 |
Family
ID=42128777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010535770A Active JP5376341B2 (ja) | 2008-10-31 | 2009-10-23 | モデル適応装置、その方法及びそのプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110224985A1 (ja) |
JP (1) | JP5376341B2 (ja) |
WO (1) | WO2010050414A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595004B2 (en) * | 2007-12-18 | 2013-11-26 | Nec Corporation | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program |
CN102246226B (zh) * | 2009-01-30 | 2013-11-13 | 三菱电机株式会社 | 声音识别装置 |
KR20170034227A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
WO2018086033A1 (en) * | 2016-11-10 | 2018-05-17 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
CN109754784B (zh) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
CN114678040B (zh) * | 2022-05-19 | 2022-08-30 | 北京海天瑞声科技股份有限公司 | 语音一致性检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134285A (ja) * | 1999-11-01 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2004252167A (ja) * | 2003-02-20 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 音素モデル学習用文リスト生成方法、生成装置、および生成プログラム |
WO2007105409A1 (ja) * | 2006-02-27 | 2007-09-20 | Nec Corporation | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
JP2007248730A (ja) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272462B1 (en) * | 1999-02-25 | 2001-08-07 | Panasonic Technologies, Inc. | Supervised adaptation using corrective N-best decoding |
JP2002132288A (ja) * | 2000-10-24 | 2002-05-09 | Fujitsu Ltd | エンロール文音声入力方法とエンロール文音声入力装置とそれを実現するためのプログラムを記録した記録媒体 |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US7412383B1 (en) * | 2003-04-04 | 2008-08-12 | At&T Corp | Reducing time for annotating speech data to develop a dialog application |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
US7529669B2 (en) * | 2006-06-14 | 2009-05-05 | Nec Laboratories America, Inc. | Voice-based multimodal speaker authentication using adaptive training and applications thereof |
US8155961B2 (en) * | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
-
2009
- 2009-10-23 JP JP2010535770A patent/JP5376341B2/ja active Active
- 2009-10-23 WO PCT/JP2009/068263 patent/WO2010050414A1/ja active Application Filing
- 2009-10-23 US US12/998,469 patent/US20110224985A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134285A (ja) * | 1999-11-01 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2004252167A (ja) * | 2003-02-20 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 音素モデル学習用文リスト生成方法、生成装置、および生成プログラム |
WO2007105409A1 (ja) * | 2006-02-27 | 2007-09-20 | Nec Corporation | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
JP2007248730A (ja) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200500672004; 南條浩輝 他: '"講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング"' 電子情報通信学会論文誌D-II Vol.J87-D-II,No.8, 20040801, p.1581-1592 * |
CSNG200600845034; 秋田祐哉 他: '"討論音声認識のための言語モデルのオフライン話題適応"' 日本音響学会2003年秋季研究発表会講演論文集-I- , 20030917, p.73-74 * |
CSNG200800127014; 谷真宏 他: '"十分統計量を用いた教師なし話者適応における話者選択法"' 情報処理学会研究報告 Vol.2007,No.129, 20071220, p.85-89 * |
JPN6013010779; 谷真宏 他: '"十分統計量を用いた教師なし話者適応における話者選択法"' 情報処理学会研究報告 Vol.2007,No.129, 20071220, p.85-89 * |
JPN6013010780; 秋田祐哉 他: '"討論音声認識のための言語モデルのオフライン話題適応"' 日本音響学会2003年秋季研究発表会講演論文集-I- , 20030917, p.73-74 * |
JPN6013010781; 南條浩輝 他: '"講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング"' 電子情報通信学会論文誌D-II Vol.J87-D-II,No.8, 20040801, p.1581-1592 * |
Also Published As
Publication number | Publication date |
---|---|
WO2010050414A1 (ja) | 2010-05-06 |
JPWO2010050414A1 (ja) | 2012-03-29 |
US20110224985A1 (en) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220189458A1 (en) | Speech based user recognition | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US9292487B1 (en) | Discriminative language model pruning | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10963497B1 (en) | Multi-stage query processing | |
US7292976B1 (en) | Active learning process for spoken dialog systems | |
Neubig et al. | Bayesian learning of a language model from continuous speech | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
KR102186641B1 (ko) | 인공지능 기반 음성 답변 자동채점을 통한 지원자 평가방법 | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
US20100324897A1 (en) | Audio recognition device and audio recognition method | |
Juneja et al. | A probabilistic framework for landmark detection based on phonetic features for automatic speech recognition | |
Decadt et al. | Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
AU2013375318B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5376341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |