JP2012018201A

JP2012018201A - テキスト補正方法及び認識方法

Info

Publication number: JP2012018201A
Application number: JP2010153537A
Authority: JP
Inventors: Atsushi Maeoka; 淳前岡; Junichi Kimura; 淳一木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2010-07-06
Filing date: 2010-07-06
Publication date: 2012-01-26
Also published as: WO2012004955A1

Abstract

【課題】音声認識等の出力である誤りの含まれる認識文に対して、誤認識箇所の推定・補正候補提示を効率よく実行するとともに、重要な誤りに対して優先的に補正処理を行う装置を提供する。
【解決手段】認識文に対して、特徴語抽出処理によって特徴語の集合である特徴語リストを抽出し、認識文中の単語のうち、特徴語リストに含まれない単語は、この文脈に即さない単語（以下、特異語と呼ぶ）であると判断し、誤りの可能性があると判断する。特異語と判断された各単語に対して、特徴語リストに含まれる単語ひとつひとつと、類似度を比較し、類似度が高いと判断された単語を、特異語に対する修正候補とする。このようにあらかじめ特徴語を抽出する。
【選択図】図４

Description

本発明は、音声認識や文字入力などの出力テキストに含まれる誤りを修正するテキスト補正方法及び認識方法に関する。

人間が発生した音声を入力とし、テキスト文を認識結果として出力する技術を音声認識と呼ぶ。音声認識において認識単語を決定するための言語モデルとして、ｎ−ｇｒａｍと呼ばれるものが広く用いられている。ｎ−ｇｒａｍとは、ｎ個の単語のつながりの出現確率を用いて、逐次音声認識を行っていく際の各単語の候補を決定する方法である。出現確率は、大量のサンプル文から、あらかじめ算出しておく。

しかし、単一の言語モデルを用いた音声認識では、認識結果に認識誤りが含まれることが避けられない。例えば、ｎ−ｇｒａｍでは、近接するｎ単語の並びのみに着目するため、より大域的な文法や文脈を考慮した認識結果がえられない。

そこで、複数の言語モデルを組み合わせることで、認識精度を高めたり、ある言語モデルでの認識結果に含まれる誤認識を、別の言語モデルで修正したりする技術が提案されている。

例えば、特許文献１には、第一の言語モデル（例えばｎ−ｇｒａｍ）の認識結果に含まれる単語のうち、誤りの可能性がある単語について、第二のモデル（用例文モデル）で、認識しなおす音声認識装置が開示されている。このとき、第一の言語モデルにおいて、誤りと推定される部分のみ第二のモデルでの認識を行うことで、第二のモデルによる処理負荷を軽減する効果が示されている。

また、特許文献２には、音声認識の認識処理において、大域文脈による処理と局所文脈による処理を組み合わせて認識性能を高める情報処理装置が開示されている。

特開２００５−８４４３６号公報特開２００８−１８１５３７号公報

特許文献１に示されるような、第一の言語モデルで出力された認識文に含まれる誤りを推定し、第二の言語モデルを用いて誤認識補正を行う従来の装置では、認識文の各単語に対して、第二の言語モデルの有する認識語彙集合から、補正候補を検索する処理を行う必要があり、認識文の各単語ごとに、負荷の高い処理を行う必要があった。そこで特許文献１では、第一の言語モデルによる認識結果のうち、誤りの可能性の高い単語についてのみ、第二の言語モデルによる補正処理を行うことで、第二の言語モデルによる処理負荷を低減する方法が示されているが、補正処理を行う対象から外れた単語に含まれる誤りを補正できないという問題がある。

また、従来技術では、認識文の各単語について、認識文の文脈にかかわらず一意に補正処理対象の検索を行うため、認識文中の重要な誤りの補正に対して優先的に処理を行うことができなかった。

また、特許文献２に示されるような複数の言語モデルを組み合わせて、リアルタイムに認識処理を行う場合、複数の言語モデルによる認識処理を各単語ごと行う必要がある。また、重要な誤りの修正に対して、優先的に計算資源を割り当てることが出来ない。

本発明は、上記問題に鑑みてなされたものであり、第一の言語モデルによる出力結果の誤認識に対して第二の言語モデルを用いた誤認識の補正を高速に実施する、あるいは、重要な誤りに優先的に計算機資源を割り当てることが可能なテキスト補正方法、及び認識方法を提供することを目的とする。

上記目的を達成するため、本発明に係るテキスト補正方法は、
（１）テキストに含まれる誤り単語を、誤り補正によって補正するテキスト補正方法であって、
前記誤り補正は、前記テキストと、別の単語の集合からなる語彙集合とを、
それらに含まれる単語の出現頻度で比較して、前記テキストおよび語彙集合から特徴語の集合を抽出する特徴語抽出ステップを有し、
前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記テキストに含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記テキストに含まれる単語に対する補正候補の単語として出力することを特徴とする。

この様に、特徴語抽出ステップによってあらかじめ特徴語を抽出することにより、補正する処理量を削減することができる。

また、（１）において、（２）前記誤り補正は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出ステップを有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行ってもよい。

また、（１）において、（３）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（１）において、（４）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（１）において、（５）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（１）において、（６）前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（７）本発明に係る認識方法は、非テキストデータを入力として第一の認識モデルによる認識ステップによって出力されたテキストに含まれる誤り単語を、第二の認識モデルによる誤り補正によって誤り単語を補正する認識方法であって、
前記認識ステップは、時系列の非テキストデータから前記第一の認識モデルによって、認識した認識単語から、時系列な認識単語の集合を生成し、
前記誤り補正は、前記認識単語の集合と、第二の認識モデルに含まれる語彙集合とを
、それらに含まれる単語の出現頻度で比較して、前記認識単語の集合および前記語彙集合から、特徴語の集合を抽出する特徴語抽出ステップを有し、
前記認識単語の集合と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記認識単語の集合に含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記認識単語の集合に含まれる単語に対する補正候補の単語として出力することを特徴とする。

また、（７）において、（８）前記誤り補正は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出ステップを有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行ってもよい。

また、（７）において、（９）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（７）において、（１０）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（７）において、（１１）前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（７）において、（１２）前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。

また、（７）において、（１３）前記誤り補正は、前記語彙集合から前記特徴語を抽出する頻度を変えてもよい。

また、（７）において、（１４）前記誤り補正は、抽出の時間間隔に基づいて前記語彙集合から前記特徴語を抽出する頻度を変てもよい。

また、（７）において、（１５）前記誤り補正は、計算機の処理負荷状況に基づいて前記語彙集合から前記特徴語を抽出する頻度を変えてもよい。

本発明によれば、第一の認識モデルで出力された認識文に対して、第二の認識モデルによる誤認識補正処理によって、高速に誤認識部分の推定と置換え処理を行うことができる。また、計算機資源の負荷状況に応じて、重要な間違いから優先して補正処理を行うことができる。

本発明の一実施形態に係る携帯電話の構成を示す図である。図１の携帯電話の構成を示すブロック図である。本発明の処理結果示す例文である。図１の携帯電話の動作を概念的に示す図である。誤認識補正処理の手順を示すフローチャートである。特徴語抽出処理の手順を示すフローチャートである。単語リストの一例を示す図である。特徴語リストの一例を示す図である。補正判定処理の手順を示すフローチャートである。音素列変換処理の結果の一例である。本発明の一実施形態に係るテキスト処理装置の処理手順を示すフローチャートである。本発明の一実施形態に係るシステムの構成を示す図である。図１２の携帯電話の構成を示す図である。図１３のサーバの構成を示す図である。本発明の一実施形態に係るテキスト処理装置の処理手順を示すフローチャートである。

以下、本発明の第一の実施形態に係る音声認識方法について図面を参照して説明する。

本発明のテキスト補正方法が実施される、携帯電話１０は、図１に示すように、マイク１０１と、メインメモリ１０２と、ＣＰＵ１０３と、表示部１０４と、二次記憶装置１０５と、から構成される。そして、これらは、内部バス１０５に繋がれている。

二次記憶装置１０５には、音声認識プログラム１０７、計算機負荷取得プログラム１０８、誤認識補正プログラム１０９、単語リスト作成プログラム１１２、特徴語抽出プログラム１１５、文書ＤＢ作成プログラム１１８、が記憶されており、これらは、必要に応じてメインメモリ１０２にロードされ、ＣＰＵ１０３がこれらのプログラムに従って動作することで、後述する誤認識補正処理が実行される。

誤認識補正プログラム１０９は、さらに、音素列変換プログラム１１０、補正判定プログラム１１１、の部分プログラムからなる。

単語リスト作成プログラム１１２は、さらに、形態素解析プログラム１１３、頻度算出プログラム１１４の部分プログラムからなる。

特徴語抽出プログラム１１５は、さらに、類似文書検索プログラム１１６、単語特徴度算出プログラム１１７、の部分プログラムからなる。

二次記憶装置１０５には、さらに、文書ＤＢ１１９と言語モデル１２０が記憶されている。文書ＤＢ１１９は、複数のテキスト文書について、そのテキスト文書中の各単語の出現頻度を表したテーブルが、それぞれのテキスト文書毎に管理したテーブルである。複数のテキスト文書とは、例えば、様々な話題についての会話文、辞書の各単語の説明文、電子メールの送受信文などである。言語モデル１２０は、音声認識プログラム１０７によって、音声認識に利用される辞書データである。

図２は、本実施形態の携帯電話１０による誤認識補正処理の動作を概念的に示す図である。

マイク１０１から入力された人の音声は、音声認識処理により、認識文２１２に変換される。この認識文２１２には誤認識が含まれるものと考える。

単語リスト作成処理により、認識文２１２中に含まれる各単語の頻度を算出し、単語リスト２１３を作成する。作成した単語リスト２１３から、特徴語抽出処理により、特徴語リスト２１５を作成する。

補正判定処理により、作成した特徴語リスト２１５と元の単語リスト２１３の類似度を比較することにより、補正文２１６を生成し、表示部１０４を通じて利用者に表示する。

音声認識処理、単語リスト作成処理、特徴語抽出処理、補正判定処理は、具体的には、それぞれ、ＣＰＵ１０３の機能部である音声認識部２０２、単語リスト作成部２０３、特徴語抽出部２０６、誤認識補正部２０９により実行される。

図３、図４は、本実施形態の誤認識補正処理の実例を表す概念図である。本例では、人の発話文に対して、音声認識処理によって出力された認識文２１２には、誤りとして、「植樹」「校歌」の二つの単語が含まれる。この認識文２１２に含まれる単語の集合を集合Ｗとする。認識文２１２に対して、特徴語抽出処理によって抽出された特徴語の集合が特徴語リスト２１５である。これを集合Ｋとする。集合Ｗ中の単語のうち、集合Ｋに含まれない単語は、この文脈に即さない単語（以下、特異語と呼ぶ）であると判断し、誤りの可能性があると判断する。特異語と判断された各単語に対して、集合Ｋに含まれる単語ひとつひとつと、類似度を比較し、類似度が高いと判断された単語を、特異語に対する修正候補とする。本例では、前述の「植樹」「校歌」に対して、「食事」「高価」という修正候補が選出され、補正文２１６が出力される。

以下、携帯電話１０で実行される上記各処理の詳細について説明する。図５は、誤認識補正の手順を示すフローチャートである。

音声認識部２０２は、マイク１０１から入力された音声から、音声認識を実施し、言語モデル１２０に含まれる各単語から、認識文２１２を生成する（ステップＳ５０１）。単語リスト作成部２０３の形態素解析部２０４が、認識文２１２を単語に分解し、そののち頻度算出作成部２０５が、認識文２１２に含まれる各単語の頻度を計数し、単語リスト２１３を作成する（ステップＳ５０２）。図７に単語リスト２１３の実例を示す。

次に、特徴語抽出部２０６は、単語リスト２１３と文書ＤＢ１１９中の各文書の単語リスト２１３から、特徴語リスト２１５を生成する（ステップＳ５０３）。図８に特徴語リスト２１５の実例を示す。ステップＳ５０３の処理の詳細は後述する。抽出された特徴語リスト２１５は、認識文２１２の話題に即した特徴的な単語のリストが、特徴度の高い順に並んだデータである。

続いて、誤認識補正部２０９が単語リスト２１３のそれぞれのエントリに対して処理を行う（ステップＳ５０４からステップＳ５１５）。誤認識補正部２０９は、単語リスト２１３のそれぞれのエントリについて、特徴語リスト２１５の中に同一の単語があるかをチェックし、あれば本単語を特異語と判断せず、ステップＳ５０５にて、次のエントリの処理に移行する（ステップＳ５０６のＹｅｓ）。特徴語リスト２１５にない場合（ステップＳ５０６のＮｏ）は、ステップＳ５０７以降の補正判定処理に移行する。

計算機負荷取得部２０１から、計算機の現在の負荷を取得し、負荷に応じて、後述する特徴語リストとの比較数ｍ’を決定し（ステップＳ５０７）、誤認識補正部２０９の補正判定部２１１が、特徴語リスト２１５の上位ｍ’個について、特徴度の高い順に、類似度を比較していく（ステップＳ５０８からステップＳ５１４）。

補正判定部２１１は、ＷｉとＫｊの類似度を比較し、補正候補とするかどうかの判定値を算出する（ステップＳ５１１）。ここで、Ｗｉとは、単語リスト２１３中のｉ番目の単語、Ｋｊとは、特徴語リスト２１５のｊ番目の単語を表す。ステップＳ５１１の詳細については、後述する。

ステップＳ５１１において算出された判定値が閾値を上回った場合（ステップＳ５１２のＹｅｓ）、誤認識であると判断し、ＫｊをＷｉに対する誤認識補正候補であると記憶する（ステップＳ５１３）。閾値を下回った場合は（ステップＳ５１２のＮｏ）、ＫｊはＷｉの補正候補ではないと判断し、次の特徴語との処理に戻る（ステップＳ５１４）。
ｍ’個すべての特徴語と比較し終わった場合は（ステップＳ５０９のＹｅｓ）、ステップＳ５１０でｉを加算した後、ステップＳ５０５に戻り、次の入力単語の処理に映る（ステップＳ５０５）。全ての認識文の単語リストの処理を終えた場合は（ステップＳ５０５のＹｅｓ）、単語リスト２１３中の単語のうち、ステップＳ５１３において補正候補が発見された単語について、認識文２１２の該当する単語を、補正候補の単語に置き換えて出力する（ステップＳ５１５）。このことき、補正候補が複数存在する場合は、ステップＳ５１１における類似度が最も高いと判断された補正候補を採用する。

図６は、ステップＳ５０３の特徴語抽出処理の手順を示すフローチャートである。

特徴語抽出部２０６の類似文書検索部２０７は、認識文２１２から作成した単語リスト２１３と、文書ＤＢ１１９に格納されている各文書の単語リスト２１３との間で、ベクトルの内積演算を行う（ステップＳ６０１）。ここで、ベクトルの各要素は、各単語の出現頻度とする。したがって、ベクトルの次元数とは異なり単語数である。そして、内積値の小さいものから順に一定数（仮にαとする）を、認識文２１２に対する類似文書２１４として抽出する（ステップＳ６０２）。

単語特徴度算出部２０８は、抽出した類似文書２１４の各文書に対して、ｔｆ−ｉｄｆと呼ばれる方法によって、出現する各単語に対する特徴度を算出する（ステップＳ６０３）。ｔｆ−ｉｄｆは単語の特徴度を計算する方法として広く利用されている計算法である。文書ｄでの単語ｗの出現頻度をｔｆ、全文書中（本例では文書ＤＢ１０９の全ての文書）で、出現する文書の数をｄｆとしたとき、単語ｗの文書ｄにおけるｔｆ−ｉｄｆ値は、本実施例では、次の計算式で算出する。ただし、特徴度を算出する方法の一例であり、これに限らない。

単語ｗのｔｆ−ｉｄｆ値＝ｔｆ／ｉｄｆ
そして、算出した各単語のｉｆ−ｉｄｆ値に対して、抽出した類似文書２１４間での平均をとる（ステップＳ６０４）。そして、その平均値の高いものから順にｍ個を、特徴語リスト２１５として生成する（ステップＳ６０５）。

図９は、ステップＳ５１１の補正判定処理の手順を示すフローチャートである。
まず、誤認識補正部２０９の音素列変換部２１０は、単語Ｗｉと単語Ｋｊをカナに変換したのち、音素列表記に変換する（ステップＳ９０１）。図１０に、Ｗｉ＝「植樹」、Ｋｊ＝「食事」それぞれについての音素列表記への変換例を示す。

次に、それぞれのローマ字表記の間の編集距離を算出する（ステップＳ９０２）。編集距離とは、ワードＡに対して、挿入・削除・置換えを何回行うことでワードＢに変更できるかを算出した値である。なお、置き換えの重みを増やすなど、挿入・削除・置換えの重みを変える方法もある。このようにして算出された値が編集距離であり、ワードＡとワードＢとの間の類似度の指標の一つとなる（値が小さい方が類似度が高いと判断）。

なお、本実施例では、Ｗｉ，Ｋｊを音素列に変更したが、これは、本発明の適用分野によって変更可能である。別の例として、文字入力におけるローマ字変換に変換する方法が考えられる。

次に、認識文２１２の単語リスト２１３に出現するＫｊの回数ｔを算出する（ステップＳ９０３）、最後に、編集距離と出現回数から、最終的な判定値を算出する。たとえば、以下のような式で算出する。Ｋｊが認識文２１２中で現れている回数が多いほど、類似度が高いと判断する例である。すなわち、補正判定の対象以外の部分で、出現している場合は、その補正候補の類似度を高める方法である。

判定値＝（編集距離／（出現回数＋１））
また、別の算出方法として、Ｋｊが言語モデル１２０に含まれる単語であるかどうかによって、重みを変える方法も本発明に含まれる。すなわち、言語モデル１２０にない単語は、認識文２１２に現れることがないため、補正候補とする確率を上げる方法である。

また、Ｋｊの特徴度を、重みとして利用する方法も本発明に含まれる。Ｋｊの特徴度が高い、すなわち、重要度が高い単語は、補正候補とする確率を上げる方法である。

ここで例示した判定値算出処理は、一例であり、単語間の置き換えの判定を行う方法であれば、方法は問わない。

第一の実施の形態によるテキスト補正方法では、認識文の全ての単語に対して、一度だけ補正用の言語モデルの検索を行い、あらかじめ補正候補である特徴語のリストを抽出しておくことで、効率的に認識文の全単語の補正判定処理を実施できる。

以下、本発明の第二の実施形態に係る音声認識方法について図面を参照して説明する。二の実施の形態では、発話音声に対する音声認識処理をリアルタイムに実施しながら、誤認識の補正処理を同時並行して行う音声認識方法の例を示す。なお、実施の形態１と同様の処理については説明を省略する。図８のフローチャートを用いて、補正処理の詳細を説明する。

本実施例における補正処理では、音声認識を実施するタスクと補正処理を行うための特徴語抽出を実施するタスクが並行して動作する。音声認識を行うタスクは、音声入力がある間（ステップＳ１１０１のＹｅｓ）、音声認識処理を繰り返し実施し、逐次認識した認識単語１１０１を出力する（第一の実施の形態のステップＳ５０１と同様）。次に、認識単語１１０１に対して誤認識判定処理を実施する（第一の実施の形態のステップＳ５０４〜ステップＳ５１４と同様）。誤認識判定の結果により、誤った単語であると判断された場合は、補正候補の単語を認識文１１０２に追加する。誤っていないと判断された場合は、もとの認識単語１１０１を、認識文１１０２に追加する。

一方、特徴語抽出を行うタスクは、認識タスクが動作している間、必要に応じて、特徴語の抽出処理を行う（ステップＳ１１０４のＮｏ）。まず、特徴語抽出要否判定を行う。ここでは、特徴語の抽出を行う処理を行うタイミングを決定する。判定基準として、前回判定してから一定時間経過しているかどうか、認識文に含まれる単語が一定数以上増えたか、計算機のＣＰＵ負荷が一定以下か、といった例がある（ステップＳ１１０５）。特徴語抽出が必要と判断した場合は（ステップＳ１１０６のＹｅｓ）、認識文２１２から、特徴語リスト２１５の抽出処理を行う（第一の実施の形態のステップＳ５０３と同様）。特徴語が不要と判断した場合は（ステップＳ１１０６のＮｏ）、処理を一定時間停止する（ステップＳ１１０７）。

本実施の形態では、特徴語の抽出処理ステップＳ５０３を、ステップＳ５０１における認識単語１１０１出力におこなうのではなく、ステップＳ１１０５の判断基準に基づき、断続的に抽出しておいた特徴語リスト２１５を用いて、ステップＳ１１０２における誤認識の判定を行う。処理負荷の高い特徴語抽出処理を、音声認識の単語認識の度に行わず、かつ、ステップＳ１１０３の誤認識補正は各単語に対して行うため、補正のための第二の認識モデルの検索（本例における文書ＤＢ１１９の検索）に必要な計算負荷を抑えつつ、第一の認識モデルによる認識結果の全単語に対する補正処理をリアルタイムに実施することが可能となる。

以下、本発明の第三の実施形態に係る音声認識方法について図面を参照して説明する。

図１２、図１３および図１４は、実施の形態のシステム構成を表す図である。本実施の形態では、実施の形態１、２、で示した特徴語抽出処理をネットワークで結合された他の計算機で実施するシステムを示す。

携帯電話１０で作成した単語リスト２１３をサーバ２０に送信し（ステップＳ１３０１、ステップＳ１３０２）、受信した単語リスト２１３に基づいてサーバは特徴語リスト２１５を抽出する（ステップＳ５０３）。サーバは抽出した特徴語リスト２１５を携帯電話に送信し（ステップＳ１３０３、ステップＳ１３０４）、携帯電話は、誤認識補正処理を行って補正文２１６を生成する（ステップＳ１１０２）。

本例では、データ量および計算量が大きい処理をサーバ側で実施する例を示した。

本発明によれば、誤りの含まれる認識文に対して、誤認識箇所の推定・補正候補提示を効率よく実行できるとともに、重要な誤りに対して優先的に補正処理を行うことが出来る。したがって、音声認識やＰＣにおける言語入力システム、音声コマンド認識などといった認識技術の補正全般に適用できるとともに、計算機資源の限られた携帯電話やナビゲーションシステムへの適用が容易になる。

１０…携帯電話、１０１…マイク、１０２…メインメモリ、１０３…ＣＰＵ、１０４…表示部、１０５…内部バス、１０６…二次記憶装置、１０７…音声認識プログラム、１０９…誤認識補正プログラム、１１２…単語リスト作成プログラム、１１５…特徴語抽出プログラム、１１９…文書ＤＢ、１２０…言語モデル、１１６…シーン判定部、２１１…キーパッド、２０２…音声認識部、２０３…単語リスト作成部、２０６…特徴語抽出部、２０９…誤認識補正部、２１２…認識文、２１３…単語リスト、２１５…特徴語リスト、２１６…補正文

Claims

テキストに含まれる誤り単語を、誤り補正部によって補正するテキスト補正装置であって、
前記誤り補正部は、前記テキストと、別の単語の集合からなる語彙集合とを、
それらに含まれる単語の出現頻度で比較して、前記テキストおよび語彙集合から特徴語の集合を抽出する特徴語抽出部を有し、
前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記テキストに含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記テキストに含まれる単語に対する補正候補の単語として出力することを特徴とするテキスト補正装置。
前記誤り補正部は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出部を有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行う、
ことを特徴とする請求項１に記載のテキスト補正装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項１に記載のテキスト補正装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項１に記載のテキスト補正装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項１に記載のテキスト補正装置。
前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項１に記載のテキスト補正装置。
非テキストデータを入力として第一の認識モデルをもつ認識部によって出力されたテキストに含まれる誤り単語を、第二の認識モデルをもつ誤り補正部によって誤り単語を補正する認識装置であって、
前記認識部は、時系列の非テキストデータから前記第一の認識モデルによって、認識した認識単語から、時系列な認識単語の集合を生成し、
前記誤り補正部は、前記認識単語の集合と、第二の認識モデルに含まれる語彙集合とを
、それらに含まれる単語の出現頻度で比較して、前記認識単語の集合および前記語彙集合から、特徴語の集合を抽出する特徴語抽出部を有し、
前記認識単語の集合と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記認識単語の集合に含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記認識単語の集合に含まれる単語に対する補正候補の単語として出力することを特徴とする認識装置。
前記誤り補正部は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出部を有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行う、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項７に記載の認識装置。
前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、抽出の時間間隔に基づいて前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項７に記載の認識装置。
前記誤り補正部は、計算機の処理負荷状況に基づいて前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項７に記載の認識装置。