JP2012018201A - テキスト補正方法及び認識方法 - Google Patents
テキスト補正方法及び認識方法 Download PDFInfo
- Publication number
- JP2012018201A JP2012018201A JP2010153537A JP2010153537A JP2012018201A JP 2012018201 A JP2012018201 A JP 2012018201A JP 2010153537 A JP2010153537 A JP 2010153537A JP 2010153537 A JP2010153537 A JP 2010153537A JP 2012018201 A JP2012018201 A JP 2012018201A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- text
- feature
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】 音声認識等の出力である誤りの含まれる認識文に対して、誤認識箇所の推定・補正候補提示を効率よく実行するとともに、重要な誤りに対して優先的に補正処理を行う装置を提供する。
【解決手段】 認識文に対して、特徴語抽出処理によって特徴語の集合である特徴語リストを抽出し、認識文中の単語のうち、特徴語リストに含まれない単語は、この文脈に即さない単語(以下、特異語と呼ぶ)であると判断し、誤りの可能性があると判断する。特異語と判断された各単語に対して、特徴語リストに含まれる単語ひとつひとつと、類似度を比較し、類似度が高いと判断された単語を、特異語に対する修正候補とする。このようにあらかじめ特徴語を抽出する。
【選択図】図4
【解決手段】 認識文に対して、特徴語抽出処理によって特徴語の集合である特徴語リストを抽出し、認識文中の単語のうち、特徴語リストに含まれない単語は、この文脈に即さない単語(以下、特異語と呼ぶ)であると判断し、誤りの可能性があると判断する。特異語と判断された各単語に対して、特徴語リストに含まれる単語ひとつひとつと、類似度を比較し、類似度が高いと判断された単語を、特異語に対する修正候補とする。このようにあらかじめ特徴語を抽出する。
【選択図】図4
Description
本発明は、音声認識や文字入力などの出力テキストに含まれる誤りを修正するテキスト補正方法及び認識方法に関する。
人間が発生した音声を入力とし、テキスト文を認識結果として出力する技術を音声認識と呼ぶ。音声認識において認識単語を決定するための言語モデルとして、n−gramと呼ばれるものが広く用いられている。n−gramとは、n個の単語のつながりの出現確率を用いて、逐次音声認識を行っていく際の各単語の候補を決定する方法である。出現確率は、大量のサンプル文から、あらかじめ算出しておく。
しかし、単一の言語モデルを用いた音声認識では、認識結果に認識誤りが含まれることが避けられない。例えば、n−gramでは、近接するn単語の並びのみに着目するため、より大域的な文法や文脈を考慮した認識結果がえられない。
そこで、複数の言語モデルを組み合わせることで、認識精度を高めたり、ある言語モデルでの認識結果に含まれる誤認識を、別の言語モデルで修正したりする技術が提案されている。
例えば、特許文献1には、第一の言語モデル(例えばn−gram)の認識結果に含まれる単語のうち、誤りの可能性がある単語について、第二のモデル(用例文モデル)で、認識しなおす音声認識装置が開示されている。このとき、第一の言語モデルにおいて、誤りと推定される部分のみ第二のモデルでの認識を行うことで、第二のモデルによる処理負荷を軽減する効果が示されている。
また、特許文献2には、音声認識の認識処理において、大域文脈による処理と局所文脈による処理を組み合わせて認識性能を高める情報処理装置が開示されている。
特許文献1に示されるような、第一の言語モデルで出力された認識文に含まれる誤りを推定し、第二の言語モデルを用いて誤認識補正を行う従来の装置では、認識文の各単語に対して、第二の言語モデルの有する認識語彙集合から、補正候補を検索する処理を行う必要があり、認識文の各単語ごとに、負荷の高い処理を行う必要があった。そこで特許文献1では、第一の言語モデルによる認識結果のうち、誤りの可能性の高い単語についてのみ、第二の言語モデルによる補正処理を行うことで、第二の言語モデルによる処理負荷を低減する方法が示されているが、補正処理を行う対象から外れた単語に含まれる誤りを補正できないという問題がある。
また、従来技術では、認識文の各単語について、認識文の文脈にかかわらず一意に補正処理対象の検索を行うため、認識文中の重要な誤りの補正に対して優先的に処理を行うことができなかった。
また、特許文献2に示されるような複数の言語モデルを組み合わせて、リアルタイムに認識処理を行う場合、複数の言語モデルによる認識処理を各単語ごと行う必要がある。また、重要な誤りの修正に対して、優先的に計算資源を割り当てることが出来ない。
本発明は、上記問題に鑑みてなされたものであり、第一の言語モデルによる出力結果の誤認識に対して第二の言語モデルを用いた誤認識の補正を高速に実施する、あるいは、重要な誤りに優先的に計算機資源を割り当てることが可能なテキスト補正方法、及び認識方法を提供することを目的とする。
上記目的を達成するため、本発明に係るテキスト補正方法は、
(1)テキストに含まれる誤り単語を、誤り補正によって補正するテキスト補正方法であって、
前記誤り補正は、前記テキストと、別の単語の集合からなる語彙集合とを、
それらに含まれる単語の出現頻度で比較して、前記テキストおよび語彙集合から特徴語の集合を抽出する特徴語抽出ステップを有し、
前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記テキストに含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記テキストに含まれる単語に対する補正候補の単語として出力することを特徴とする。
(1)テキストに含まれる誤り単語を、誤り補正によって補正するテキスト補正方法であって、
前記誤り補正は、前記テキストと、別の単語の集合からなる語彙集合とを、
それらに含まれる単語の出現頻度で比較して、前記テキストおよび語彙集合から特徴語の集合を抽出する特徴語抽出ステップを有し、
前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記テキストに含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記テキストに含まれる単語に対する補正候補の単語として出力することを特徴とする。
この様に、特徴語抽出ステップによってあらかじめ特徴語を抽出することにより、補正する処理量を削減することができる。
また、(1)において、(2)前記誤り補正は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出ステップを有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行ってもよい。
また、(1)において、(3)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(1)において、(4)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(1)において、(5)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(1)において、(6)前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(7)本発明に係る認識方法は、非テキストデータを入力として第一の認識モデルによる認識ステップによって出力されたテキストに含まれる誤り単語を、第二の認識モデルによる誤り補正によって誤り単語を補正する認識方法であって、
前記認識ステップは、時系列の非テキストデータから前記第一の認識モデルによって、認識した認識単語から、時系列な認識単語の集合を生成し、
前記誤り補正は、前記認識単語の集合と、第二の認識モデルに含まれる語彙集合とを
、それらに含まれる単語の出現頻度で比較して、前記認識単語の集合および前記語彙集合から、特徴語の集合を抽出する特徴語抽出ステップを有し、
前記認識単語の集合と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記認識単語の集合に含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記認識単語の集合に含まれる単語に対する補正候補の単語として出力することを特徴とする。
前記認識ステップは、時系列の非テキストデータから前記第一の認識モデルによって、認識した認識単語から、時系列な認識単語の集合を生成し、
前記誤り補正は、前記認識単語の集合と、第二の認識モデルに含まれる語彙集合とを
、それらに含まれる単語の出現頻度で比較して、前記認識単語の集合および前記語彙集合から、特徴語の集合を抽出する特徴語抽出ステップを有し、
前記認識単語の集合と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記認識単語の集合に含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記認識単語の集合に含まれる単語に対する補正候補の単語として出力することを特徴とする。
この様に、特徴語抽出ステップによってあらかじめ特徴語を抽出することにより、補正する処理量を削減することができる。
また、(7)において、(8)前記誤り補正は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出ステップを有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行ってもよい。
また、(7)において、(9)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(7)において、(10)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(7)において、(11)前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(7)において、(12)前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定してもよい。
また、(7)において、(13)前記誤り補正は、前記語彙集合から前記特徴語を抽出する頻度を変えてもよい。
また、(7)において、(14)前記誤り補正は、抽出の時間間隔に基づいて前記語彙集合から前記特徴語を抽出する頻度を変てもよい。
また、(7)において、(15)前記誤り補正は、計算機の処理負荷状況に基づいて前記語彙集合から前記特徴語を抽出する頻度を変えてもよい。
本発明によれば、第一の認識モデルで出力された認識文に対して、第二の認識モデルによる誤認識補正処理によって、高速に誤認識部分の推定と置換え処理を行うことができる。また、計算機資源の負荷状況に応じて、重要な間違いから優先して補正処理を行うことができる。
以下、本発明の第一の実施形態に係る音声認識方法について図面を参照して説明する。
本発明のテキスト補正方法が実施される、携帯電話10は、図1に示すように、マイク101と、メインメモリ102と、CPU103と、表示部104と、二次記憶装置105と、から構成される。そして、これらは、内部バス105に繋がれている。
二次記憶装置105には、音声認識プログラム107、計算機負荷取得プログラム108、誤認識補正プログラム109、単語リスト作成プログラム112、特徴語抽出プログラム115、文書DB作成プログラム118、が記憶されており、これらは、必要に応じてメインメモリ102にロードされ、CPU103がこれらのプログラムに従って動作することで、後述する誤認識補正処理が実行される。
誤認識補正プログラム109は、さらに、音素列変換プログラム110、補正判定プログラム111、の部分プログラムからなる。
単語リスト作成プログラム112は、さらに、形態素解析プログラム113、頻度算出プログラム114の部分プログラムからなる。
特徴語抽出プログラム115は、さらに、類似文書検索プログラム116、単語特徴度算出プログラム117、の部分プログラムからなる。
二次記憶装置105には、さらに、文書DB119と言語モデル120が記憶されている。文書DB119は、複数のテキスト文書について、そのテキスト文書中の各単語の出現頻度を表したテーブルが、それぞれのテキスト文書毎に管理したテーブルである。複数のテキスト文書とは、例えば、様々な話題についての会話文、辞書の各単語の説明文、電子メールの送受信文などである。言語モデル120は、音声認識プログラム107によって、音声認識に利用される辞書データである。
図2は、本実施形態の携帯電話10による誤認識補正処理の動作を概念的に示す図である。
マイク101から入力された人の音声は、音声認識処理により、認識文212に変換される。この認識文212には誤認識が含まれるものと考える。
単語リスト作成処理により、認識文212中に含まれる各単語の頻度を算出し、単語リスト213を作成する。作成した単語リスト213から、特徴語抽出処理により、特徴語リスト215を作成する。
補正判定処理により、作成した特徴語リスト215と元の単語リスト213の類似度を比較することにより、補正文216を生成し、表示部104を通じて利用者に表示する。
音声認識処理、単語リスト作成処理、特徴語抽出処理、補正判定処理は、具体的には、それぞれ、CPU103の機能部である音声認識部202、単語リスト作成部203、特徴語抽出部206、誤認識補正部209により実行される。
図3、図4は、本実施形態の誤認識補正処理の実例を表す概念図である。本例では、人の発話文に対して、音声認識処理によって出力された認識文212には、誤りとして、「植樹」「校歌」の二つの単語が含まれる。この認識文212に含まれる単語の集合を集合Wとする。認識文212に対して、特徴語抽出処理によって抽出された特徴語の集合が特徴語リスト215である。これを集合Kとする。集合W中の単語のうち、集合Kに含まれない単語は、この文脈に即さない単語(以下、特異語と呼ぶ)であると判断し、誤りの可能性があると判断する。特異語と判断された各単語に対して、集合Kに含まれる単語ひとつひとつと、類似度を比較し、類似度が高いと判断された単語を、特異語に対する修正候補とする。本例では、前述の「植樹」「校歌」に対して、「食事」「高価」という修正候補が選出され、補正文216が出力される。
以下、携帯電話10で実行される上記各処理の詳細について説明する。 図5は、誤認識補正の手順を示すフローチャートである。
音声認識部202は、マイク101から入力された音声から、音声認識を実施し、言語モデル120に含まれる各単語から、認識文212を生成する(ステップS501)。単語リスト作成部203の形態素解析部204が、認識文212を単語に分解し、そののち頻度算出作成部205が、認識文212に含まれる各単語の頻度を計数し、単語リスト213を作成する(ステップS502)。図7に単語リスト213の実例を示す。
次に、特徴語抽出部206は、単語リスト213と文書DB119中の各文書の単語リスト213から、特徴語リスト215を生成する(ステップS503)。図8に特徴語リスト215の実例を示す。ステップS503の処理の詳細は後述する。抽出された特徴語リスト215は、認識文212の話題に即した特徴的な単語のリストが、特徴度の高い順に並んだデータである。
続いて、誤認識補正部209が単語リスト213のそれぞれのエントリに対して処理を行う(ステップS504からステップS515)。誤認識補正部209は、単語リスト213のそれぞれのエントリについて、特徴語リスト215の中に同一の単語があるかをチェックし、あれば本単語を特異語と判断せず、ステップS505にて、次のエントリの処理に移行する(ステップS506のYes)。特徴語リスト215にない場合(ステップS506のNo)は、ステップS507以降の補正判定処理に移行する。
計算機負荷取得部201から、計算機の現在の負荷を取得し、負荷に応じて、後述する特徴語リストとの比較数m’を決定し(ステップS507)、誤認識補正部209の補正判定部211が、特徴語リスト215の上位m’個について、特徴度の高い順に、類似度を比較していく(ステップS508からステップS514)。
補正判定部211は、WiとKjの類似度を比較し、補正候補とするかどうかの判定値を算出する(ステップS511)。ここで、Wiとは、単語リスト213中のi番目の単語、Kjとは、特徴語リスト215のj番目の単語を表す。ステップS511の詳細については、後述する。
ステップS511において算出された判定値が閾値を上回った場合(ステップS512のYes)、誤認識であると判断し、KjをWiに対する誤認識補正候補であると記憶する(ステップS513)。閾値を下回った場合は(ステップS512のNo)、KjはWiの補正候補ではないと判断し、次の特徴語との処理に戻る(ステップS514)。
m’個すべての特徴語と比較し終わった場合は(ステップS509のYes)、ステップS510でiを加算した後、ステップS505に戻り、次の入力単語の処理に映る(ステップS505)。全ての認識文の単語リストの処理を終えた場合は(ステップS505のYes)、単語リスト213中の単語のうち、ステップS513において補正候補が発見された単語について、認識文212の該当する単語を、補正候補の単語に置き換えて出力する(ステップS515)。このことき、補正候補が複数存在する場合は、ステップS511における類似度が最も高いと判断された補正候補を採用する。
m’個すべての特徴語と比較し終わった場合は(ステップS509のYes)、ステップS510でiを加算した後、ステップS505に戻り、次の入力単語の処理に映る(ステップS505)。全ての認識文の単語リストの処理を終えた場合は(ステップS505のYes)、単語リスト213中の単語のうち、ステップS513において補正候補が発見された単語について、認識文212の該当する単語を、補正候補の単語に置き換えて出力する(ステップS515)。このことき、補正候補が複数存在する場合は、ステップS511における類似度が最も高いと判断された補正候補を採用する。
図6は、ステップS503の特徴語抽出処理の手順を示すフローチャートである。
特徴語抽出部206の類似文書検索部207は、認識文212から作成した単語リスト213と、文書DB119に格納されている各文書の単語リスト213との間で、ベクトルの内積演算を行う(ステップS601)。ここで、ベクトルの各要素は、各単語の出現頻度とする。したがって、ベクトルの次元数とは異なり単語数である。そして、内積値の小さいものから順に一定数(仮にαとする)を、認識文212に対する類似文書214として抽出する(ステップS602)。
単語特徴度算出部208は、抽出した類似文書214の各文書に対して、tf−idfと呼ばれる方法によって、出現する各単語に対する特徴度を算出する(ステップS603)。tf−idfは単語の特徴度を計算する方法として広く利用されている計算法である。文書dでの単語wの出現頻度をtf、全文書中(本例では文書DB109の全ての文書)で、出現する文書の数をdfとしたとき、単語wの文書dにおけるtf−idf値は、本実施例では、次の計算式で算出する。ただし、特徴度を算出する方法の一例であり、これに限らない。
単語wのtf−idf値= tf / idf
そして、算出した各単語のif−idf値に対して、抽出した類似文書214間での平均をとる(ステップS604)。そして、その平均値の高いものから順にm個を、特徴語リスト215として生成する(ステップS605)。
そして、算出した各単語のif−idf値に対して、抽出した類似文書214間での平均をとる(ステップS604)。そして、その平均値の高いものから順にm個を、特徴語リスト215として生成する(ステップS605)。
図9は、ステップS511の補正判定処理の手順を示すフローチャートである。
まず、誤認識補正部209の音素列変換部210は、単語Wiと単語Kjをカナに変換したのち、音素列表記に変換する(ステップS901)。図10に、Wi=「植樹」、Kj=「食事」それぞれについての音素列表記への変換例を示す。
まず、誤認識補正部209の音素列変換部210は、単語Wiと単語Kjをカナに変換したのち、音素列表記に変換する(ステップS901)。図10に、Wi=「植樹」、Kj=「食事」それぞれについての音素列表記への変換例を示す。
次に、それぞれのローマ字表記の間の編集距離を算出する(ステップS902)。編集距離とは、ワードAに対して、挿入・削除・置換えを何回行うことでワードBに変更できるかを算出した値である。なお、置き換えの重みを増やすなど、挿入・削除・置換えの重みを変える方法もある。このようにして算出された値が編集距離であり、ワードAとワードBとの間の類似度の指標の一つとなる(値が小さい方が類似度が高いと判断)。
なお、本実施例では、Wi,Kjを音素列に変更したが、これは、本発明の適用分野によって変更可能である。別の例として、文字入力におけるローマ字変換に変換する方法が考えられる。
次に、認識文212の単語リスト213に出現するKjの回数tを算出する(ステップS903)、最後に、編集距離と出現回数から、最終的な判定値を算出する。たとえば、以下のような式で算出する。Kjが認識文212中で現れている回数が多いほど、類似度が高いと判断する例である。すなわち、補正判定の対象以外の部分で、出現している場合は、その補正候補の類似度を高める方法である。
判定値 = (編集距離 / (出現回数+1))
また、別の算出方法として、Kjが言語モデル120に含まれる単語であるかどうかによって、重みを変える方法も本発明に含まれる。すなわち、言語モデル120にない単語は、認識文212に現れることがないため、補正候補とする確率を上げる方法である。
また、別の算出方法として、Kjが言語モデル120に含まれる単語であるかどうかによって、重みを変える方法も本発明に含まれる。すなわち、言語モデル120にない単語は、認識文212に現れることがないため、補正候補とする確率を上げる方法である。
また、Kjの特徴度を、重みとして利用する方法も本発明に含まれる。Kjの特徴度が高い、すなわち、重要度が高い単語は、補正候補とする確率を上げる方法である。
ここで例示した判定値算出処理は、一例であり、単語間の置き換えの判定を行う方法であれば、方法は問わない。
第一の実施の形態によるテキスト補正方法では、認識文の全ての単語に対して、一度だけ補正用の言語モデルの検索を行い、あらかじめ補正候補である特徴語のリストを抽出しておくことで、効率的に認識文の全単語の補正判定処理を実施できる。
以下、本発明の第二の実施形態に係る音声認識方法について図面を参照して説明する。二の実施の形態では、発話音声に対する音声認識処理をリアルタイムに実施しながら、誤認識の補正処理を同時並行して行う音声認識方法の例を示す。なお、実施の形態1と同様の処理については説明を省略する。図8のフローチャートを用いて、補正処理の詳細を説明する。
本実施例における補正処理では、音声認識を実施するタスクと補正処理を行うための特徴語抽出を実施するタスクが並行して動作する。音声認識を行うタスクは、音声入力がある間(ステップS1101のYes)、音声認識処理を繰り返し実施し、逐次認識した認識単語1101を出力する(第一の実施の形態のステップS501と同様)。次に、認識単語1101に対して誤認識判定処理を実施する(第一の実施の形態のステップS504〜ステップS514と同様)。誤認識判定の結果により、誤った単語であると判断された場合は、補正候補の単語を認識文1102に追加する。誤っていないと判断された場合は、もとの認識単語1101を、認識文1102に追加する。
一方、特徴語抽出を行うタスクは、認識タスクが動作している間、必要に応じて、特徴語の抽出処理を行う(ステップS1104のNo)。まず、特徴語抽出要否判定を行う。ここでは、特徴語の抽出を行う処理を行うタイミングを決定する。判定基準として、前回判定してから一定時間経過しているかどうか、認識文に含まれる単語が一定数以上増えたか、計算機のCPU負荷が一定以下か、といった例がある(ステップS1105)。特徴語抽出が必要と判断した場合は(ステップS1106のYes)、認識文212から、特徴語リスト215の抽出処理を行う(第一の実施の形態のステップS503と同様)。特徴語が不要と判断した場合は(ステップS1106のNo)、処理を一定時間停止する(ステップS1107)。
本実施の形態では、特徴語の抽出処理ステップS503を、ステップS501における認識単語1101出力におこなうのではなく、ステップS1105の判断基準に基づき、断続的に抽出しておいた特徴語リスト215を用いて、ステップS1102における誤認識の判定を行う。処理負荷の高い特徴語抽出処理を、音声認識の単語認識の度に行わず、かつ、ステップS1103の誤認識補正は各単語に対して行うため、補正のための第二の認識モデルの検索(本例における文書DB119の検索)に必要な計算負荷を抑えつつ、第一の認識モデルによる認識結果の全単語に対する補正処理をリアルタイムに実施することが可能となる。
以下、本発明の第三の実施形態に係る音声認識方法について図面を参照して説明する。
図12、図13および図14は、実施の形態のシステム構成を表す図である。本実施の形態では、実施の形態1、2、で示した特徴語抽出処理をネットワークで結合された他の計算機で実施するシステムを示す。
携帯電話10で作成した単語リスト213をサーバ20に送信し(ステップS1301、ステップS1302)、受信した単語リスト213に基づいてサーバは特徴語リスト215を抽出する(ステップS503)。サーバは抽出した特徴語リスト215を携帯電話に送信し(ステップS1303、ステップS1304)、携帯電話は、誤認識補正処理を行って補正文216を生成する(ステップS1102)。
本例では、データ量および計算量が大きい処理をサーバ側で実施する例を示した。
本発明によれば、誤りの含まれる認識文に対して、誤認識箇所の推定・補正候補提示を効率よく実行できるとともに、重要な誤りに対して優先的に補正処理を行うことが出来る。したがって、音声認識やPCにおける言語入力システム、音声コマンド認識などといった認識技術の補正全般に適用できるとともに、計算機資源の限られた携帯電話やナビゲーションシステムへの適用が容易になる。
10…携帯電話、101…マイク、102…メインメモリ、103…CPU、104…表示部、105…内部バス、106…二次記憶装置、107…音声認識プログラム、109…誤認識補正プログラム、112…単語リスト作成プログラム、115…特徴語抽出プログラム、119…文書DB、120…言語モデル、116…シーン判定部、211…キーパッド、202…音声認識部、203…単語リスト作成部、206…特徴語抽出部、209…誤認識補正部、212…認識文、213…単語リスト、215…特徴語リスト、216…補正文
Claims (15)
- テキストに含まれる誤り単語を、誤り補正部によって補正するテキスト補正装置であって、
前記誤り補正部は、前記テキストと、別の単語の集合からなる語彙集合とを、
それらに含まれる単語の出現頻度で比較して、前記テキストおよび語彙集合から特徴語の集合を抽出する特徴語抽出部を有し、
前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記テキストに含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記テキストに含まれる単語に対する補正候補の単語として出力することを特徴とするテキスト補正装置。 - 前記誤り補正部は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出部を有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行う、
ことを特徴とする請求項1に記載のテキスト補正装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項1に記載のテキスト補正装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項1に記載のテキスト補正装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項1に記載のテキスト補正装置。 - 前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項1に記載のテキスト補正装置。 - 非テキストデータを入力として第一の認識モデルをもつ認識部によって出力されたテキストに含まれる誤り単語を、第二の認識モデルをもつ誤り補正部によって誤り単語を補正する認識装置であって、
前記認識部は、時系列の非テキストデータから前記第一の認識モデルによって、認識した認識単語から、時系列な認識単語の集合を生成し、
前記誤り補正部は、前記認識単語の集合と、第二の認識モデルに含まれる語彙集合とを
、それらに含まれる単語の出現頻度で比較して、前記認識単語の集合および前記語彙集合から、特徴語の集合を抽出する特徴語抽出部を有し、
前記認識単語の集合と、前記特徴語の集合に含まれる単語との類似度を算出し、
前記認識単語の集合に含まれる単語に類似すると判定した、前記特徴語の集合に含まれる単語を、前記認識単語の集合に含まれる単語に対する補正候補の単語として出力することを特徴とする認識装置。 - 前記誤り補正部は、前記テキストに含まれる単語のうち、前記特徴語の集合に含まれない単語を特異語の集合として抽出する特異語抽出部を有し、前記特異語の集合の各単語に対して、類似度の算出と補正候補の出力を行う、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語の特徴度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記テキストに含まれる単語が、前記テキスト中に含まれる頻度によって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項7に記載の認識装置。 - 前記テキストは、第一の認識語彙集合から生成されたテキストであって、前記誤り補正部は、前記テキストに含まれる単語と、前記特徴語の集合に含まれる単語との類似度に加えて、前記特徴語の集合に含まれる単語が、前記第一の認識語彙集合中に含まれるかどうかによって、前記特徴語の集合に含まれる単語を、補正候補の単語として出力するかどうかを判定する、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、抽出の時間間隔に基づいて前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項7に記載の認識装置。 - 前記誤り補正部は、計算機の処理負荷状況に基づいて前記語彙集合から前記特徴語を抽出する頻度を変える、
ことを特徴とする請求項7に記載の認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153537A JP2012018201A (ja) | 2010-07-06 | 2010-07-06 | テキスト補正方法及び認識方法 |
PCT/JP2011/003771 WO2012004955A1 (ja) | 2010-07-06 | 2011-07-01 | テキスト補正方法及び認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153537A JP2012018201A (ja) | 2010-07-06 | 2010-07-06 | テキスト補正方法及び認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012018201A true JP2012018201A (ja) | 2012-01-26 |
Family
ID=45440949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010153537A Pending JP2012018201A (ja) | 2010-07-06 | 2010-07-06 | テキスト補正方法及び認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2012018201A (ja) |
WO (1) | WO2012004955A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095399A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
JP2016206487A (ja) * | 2015-04-24 | 2016-12-08 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
CN112016305A (zh) * | 2020-09-09 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
JP2021092713A (ja) * | 2019-12-12 | 2021-06-17 | 三菱電機インフォメーションシステムズ株式会社 | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム |
KR20220045839A (ko) | 2020-10-06 | 2022-04-13 | 주식회사 케이티 | 음성 인식 서비스를 제공하는 방법, 장치 및 컴퓨터 프로그램 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101364774B1 (ko) | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
CN108829497A (zh) * | 2018-05-31 | 2018-11-16 | 阿里巴巴集团控股有限公司 | 事务因果序的校正方法及装置、电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308094A (ja) * | 2002-02-12 | 2003-10-31 | Advanced Telecommunication Research Institute International | 音声認識における認識誤り箇所の訂正方法 |
JP2004252775A (ja) * | 2003-02-20 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出装置、単語抽出方法およびプログラム |
JP4809857B2 (ja) * | 2008-03-04 | 2011-11-09 | 日本放送協会 | 関連文書選択出力装置及びそのプログラム |
-
2010
- 2010-07-06 JP JP2010153537A patent/JP2012018201A/ja active Pending
-
2011
- 2011-07-01 WO PCT/JP2011/003771 patent/WO2012004955A1/ja active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095399A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
JP2016206487A (ja) * | 2015-04-24 | 2016-12-08 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
JP2021092713A (ja) * | 2019-12-12 | 2021-06-17 | 三菱電機インフォメーションシステムズ株式会社 | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム |
CN112016305A (zh) * | 2020-09-09 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN112016305B (zh) * | 2020-09-09 | 2023-03-28 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
KR20220045839A (ko) | 2020-10-06 | 2022-04-13 | 주식회사 케이티 | 음성 인식 서비스를 제공하는 방법, 장치 및 컴퓨터 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
WO2012004955A1 (ja) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10037758B2 (en) | Device and method for understanding user intent | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP6923332B2 (ja) | 自動通訳方法及び装置 | |
EP2702586B1 (en) | Cross-lingual initialization of language models | |
US9292487B1 (en) | Discriminative language model pruning | |
CN106463117B (zh) | 使用web风格排名和多个语言理解引擎的对话状态追踪 | |
EP2609588B1 (en) | Speech recognition using language modelling | |
US9594744B2 (en) | Speech transcription including written text | |
US11093110B1 (en) | Messaging feedback mechanism | |
US20170287474A1 (en) | Improving Automatic Speech Recognition of Multilingual Named Entities | |
JP6726354B2 (ja) | 訂正済みタームを使用する音響モデルトレーニング | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
CN112992146A (zh) | 语音识别系统 | |
US10152298B1 (en) | Confidence estimation based on frequency | |
KR20190021338A (ko) | 후속 음성 쿼리 예측 | |
JP2012063536A (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US8356065B2 (en) | Similar text search method, similar text search system, and similar text search program | |
KR20120038198A (ko) | 음성 인식 장치 및 방법 | |
KR20180062003A (ko) | 음성 인식 오류 교정 방법 | |
WO2020156342A1 (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
US20230186898A1 (en) | Lattice Speech Corrections | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP4826719B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120517 |