JPWO2007097176A1

JPWO2007097176A1 - 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム

Info

Publication number: JPWO2007097176A1
Application number: JP2008501662A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-23
Filing date: 2007-02-02
Publication date: 2009-07-09
Anticipated expiration: 2027-02-02
Also published as: CN101432801A; CN101432801B; US20090024392A1; JP5040909B2; US8719021B2; WO2007097176A1

Abstract

低コストで入手可能なテキストデータを利用して、音声認識誤りを低減するように効率的に音声認識用辞書・言語モデルを作成・更新することのできる音声認識辞書作成支援システムを提供する。音声認識辞書作成支援システムは、認識辞書記憶部１０５と言語モデル記憶部１０６と音響モデル記憶部１０７を備える。仮想的音声認識処理部１０２は、テキスト解析部１０１が生成した解析済みテキストデータに対し、認識辞書、言語モデル及び音響モデルを参照して、仮想的音声認識結果テキストデータを生成し、元の解析済みテキストデータと比較する。更新処理部１０３は、両テキストデータの相違箇所が少なくなるように認識辞書・言語モデルを更新する。

Description

本発明は、音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムに関し、特に、音声認識処理の構成要素である語彙を格納した音声認識辞書と、語の並びを規則化した言語モデルと、を作成するための音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムに関する。

従来の音声認識辞書作成支援システムの概要について説明する。図６に示すように、テキスト解析手段２０１と、出現頻度計数手段２０２と、更新手段２０３と、背景辞書記憶手段２０４と、認識辞書記憶手段２０５と、言語モデル記憶手段２０６と、から構成されている。

このような構成を有する従来の音声認識辞書作成支援システムは次のように動作する。

すなわち、テキスト解析手段２０１は、音声認識対象語彙を含んだテキストデータを外部から受け取り、背景辞書記憶手段２０４に記憶された単語辞書を用いた形態素解析処理を施すことにより、テキストデータを個々の単語の系列に分割し、読み文字列を付与し、また必要に応じて品詞タグを付与し、その結果を出現頻度計数手段２０２に送る。出現頻度計数手段２０２は、テキスト解析手段２０１から単語系列を受け取り、各単語について出現頻度を計数し、結果を更新手段２０３に送る。更新手段２０３は、出現頻度計数手段２０２から受け取った単語出現頻度から、各単語の出現確率を算出し、同じく言語モデル記憶手段２０６に記憶された単語の出現確率と照合し、前者すなわちテキストデータから算出された出現確率に近くなるように、後者すなわち言語モデル記憶手段２０６に記憶された出現確率を補正する。また、テキストデータに出現した単語のうち、一定以上の出現確率値を持つものについて、認識辞書記憶手段２０５に記憶された認識辞書に登録されているか否かを確認し、未登録であった場合にはその単語を未知語と認定し、その単語および出現確率を、それぞれ認識辞書記憶手段２０５および言語モデル記憶手段２０６に登録する。

なお、上記出現頻度計数手段２０２では、単語の出現頻度に加えて、連続する２単語あるいは３単語の出現回数を単位とした計数を行うことは通常よく行われる。また、テキスト解析手段２０１の形態素解析処理において、単語の分割を誤って行ったり、誤った読みを付与してしまったりするケースに対応するために、単語境界を修正したり読みを人手で入力したりするインタフェースを更新手段２０３などに設けることも、よく行われる（後記特許文献１等参照）。

従来の音声認識辞書作成支援システムの別の一例が、特許文献１に記載されている。図７は、特許文献１の音声認識辞書作成支援システムを図６と対比できるように書き換えたものであり、文字列比較手段３０１と、未知語抽出手段３０２と、更新手段３０３と、認識辞書記憶手段３０５と、言語モデル記憶手段３０６とから構成され、統計的手法を用いて未知語を検出するのではなく、誤認識を修正した結果を用いる点を大きな特徴としている。

すなわち、文字列比較手段３０１は、認識辞書記憶手段３０５に記憶された認識辞書、及び言語モデル記憶手段３０６に記憶された言語モデルを構成要素として含んだ図示しない音声認識手段を用いて認識対象音声を認識した結果である認識結果テキストデータと、この認識結果テキストデータに含まれる認識誤りを人手で修正した誤認識修正済テキストデータを外部から受け取り、差異を生じている箇所毎に、すなわち認識誤りを生じた箇所ごとに、認識誤りを包含する形で単語または単語列を抽出し、未知語抽出手段３０２に送る。未知語抽出手段３０２は、文字列比較手段３０１から受け取った単語又は単語列毎に、認識辞書記憶手段３０５に記憶された認識辞書にその単語又は単語列が登録されているか否かを確認し、未登録であった場合にはその単語または単語列を新規単語として認識辞書記憶手段３０５に登録する。さらに、登録した新規単語と所定の出現確率を、言語モデル記憶手段３０６にも登録する。

また、特許文献２〜４にその他の音声認識辞書への未知語の抽出・登録方法が記載されている。特許文献２では、未知語が含まれている文書ファイルに対し、形態素解析等を行って単語を抽出し、音声認識辞書に存在しない単語をバックグランド辞書（背景辞書）を参照して読みや品詞を付与した後登録できるようにした未知語登録装置が開示されている。また、特許文献３、４には、上記未知語の品詞や発音の推定機能を備え未知語を自動登録する未知語登録装置が開示されている。

また、特許文献５には、広くインターネット上のサイトから収集したページの単語の出現頻度を計数し、単語音声認識辞書における同一の読みの単語中の選択順序を更新する方法が開示されている。

また、特許文献６には、音声認識装置に対し、入力音声との照合に用いる音声のモデル（音響モデルと言語モデル）を送信する音響モデル管理サーバ及び言語モデル管理サーバであって、音響モデルと言語モデルを定期的に更新する機能を備えた音響モデル管理サーバ及び言語モデル管理サーバが開示されている。

また、本発明の背景技術として、特許文献７を挙げておく。特許文献７は、音声認識装置に関するものであるが、背景辞書（形態素解析辞書）に登録されていない未知語からの音韻列の発生方法に関する技術が記載されている。

特開２００２−２２９５８５号公報特開２００３-３１６３７６号公報特開２００４-２６５４４０号公報特開２００２-０１４６９３号公報特開２００５-０９９７４１号公報特開２００２-０９１４７７号公報特開２００４−２９４５４２号公報

前者の統計的な手法を用いて未知語を検出する手法の問題点は、テキストデータの収集にコストがかかる、若しくは、良好な結果を得るためのテキストデータの選別に高度なスキルを要するという点である。特に、認識対象音声と類似したテキストデータを用意するのが必ずしも容易ではない。

上記「認識対象音声との類似」とは、内容や話題に関する類似性と、発話スタイルの類似性の両方を指す。例えば、ニュース放送の字幕付与を音声認識で行う場合、最近の新聞記事をテキストデータとして用意することは一般的に行われる。この場合、認識対象音声（ニュースキャスターの発声）と新聞記事は、話題は一致しているが、発話スタイル、すなわち話し言葉特有の言い回しが異なる。例えば、ニュースキャスターの音声は「です／ます」調の文であるのに対し、新聞記事は「だ／である」調の文となる。また、音声では「えー」、「あのー」といったフィラーが頻繁に出現する点も異なる。このような発話スタイルの差異を無視して辞書・言語モデルを作成すると、話し言葉特有の発話スタイルを正しく音声認識できないという弊害が発生する。

以上のとおり、正しい音声認識結果が得られるような環境を構築するには、使用しようとするテキストデータを、経験を積んだ者が注意深く精査選別する、若しくは、認識対象音声の過去の蓄積を人手と時間をかけて正確に書き起こすことが必要となり、結果的に運用コストの増大が避けられない。

同様に、上記特許文献３、５、６には、インターネットやマルチメディア放送からテキストを収集することが提案されているが、これらについても当然に、上記「認識対象音声」との「ズレ」が生じるのであり、認識結果にも自ずと限界が表れるものと考えられる。

従来技術の第２の問題点は、音韻的に類似する単語や単語列が存在する場合の認識誤りが辞書・言語モデルに反映されないという点である。例えば、特許文献２〜５を見てみると、テキストデータ中に個々の単語が出現したか否か及び出現回数を考慮するのみであり、音韻情報も関わってくる実際の音声認識処理を行った場合にどうなるかついて何ら考慮していない。ある単語を辞書に含めるかどうかは、本来、辞書中の他の単語と音韻的に同じでないか、あるいは類似していないかを考慮しなければならず、もし類似した単語が存在する場合には、一方の単語を辞書から除外する若しくは言語モデル中での優先度（出現確率）を下げることが必要であるところ、従来の技術では、２重に登録される可能性を否定できないと考えられる。

従来技術の第３の問題点は、複数の単語が連結された複合語を正しく音声認識できるように辞書・言語モデルを構成することが必ずしも容易でないという点である。複合語を構成する個々の単語が、すでに辞書に登録されている既知語であるケースでも、音声認識に用いる言語モデルにおける各単語の連接確率が低いと、単語の総体としての複合語を正しく認識できる確率は低くなる。また、複合語が大量に含まれたテキストデータを収集すること自体、先に述べたとおり困難であり、コスト的な問題が発生する。

従来技術の第４の問題点は、以上の結果として、認識誤りを辞書・言語モデルに正しくフィードバックし、認識誤りを未然に防ぐことが難しいという点である。この点、上記特許文献１記載の方式では、運用している音声認識システムで実際に起こった認識誤りを利用しているため、認識誤りを確実に反映することが可能となっているが、そのためには、運用中の音声認識システムで発生する認識誤りを実際に観測しなければならないという別の不都合が生じてしまう。

また、上記特許文献１記載の方式にも、辞書・言語モデルが原因でない認識誤りを除外できないという別の問題点が残っている。音声認識システムで発生する認識誤りには、辞書・言語モデルが原因となった認識誤りのほか、音響的要因に起因するものがある。例えば、大音量の背景雑音が重畳した音声を認識した結果として誤りとなるケース、電話音声のように一般に認識困難な狭帯域音声を認識した結果として誤りとなるケース、発声が不明瞭で聞き取り難いために認識誤りとなるケース等々である。これらのケースにおいては、上記特許文献１に記載の方式をもってしても、意味のある辞書・言語モデルの修正を行うことは難しいと考えられる。

本発明の目的は、上記した事情に鑑みてなされたものであって、低コストのテキストデータを利用でき、単語間の音韻的類似性を考慮し、また、言語的要因による音声認識誤りを効率的に低減することのできるよう最適化された辞書・言語モデルを生成できる音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムを提供することにある。

本発明の第１の視点によれば、辞書、言語モデル及び音響モデルを記憶する記憶部と、テキストデータについて形態素解析処理を施すテキスト解析部と、前記テキスト解析部により解析された解析済みテキストデータについて前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するとともに、前記解析済みテキストデータと前記仮想的音声認識結果テキストデータとの相違箇所を抽出する仮想的音声認識処理部と、前記相違箇所に基づいて、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理部と、を備えたことを特徴とする音声認識辞書作成支援システムと、該システムを用いて行う音声認識辞書作成支援方法及び該システムを実現するためのプログラムが提供される。

上記構成よりなる音声認識辞書作成支援システムは、所与のテキストデータの仮想的音声認識結果テキストデータを生成し、該仮想的音声認識結果テキストデータと元のテキストデータと比較した結果を用いて、辞書・言語モデルの更新処理を行う。

本発明によれば、比較的容易に入手可能なテキストデータを利用して、運用中の音声認識処理における認識誤りを予測し、その予測結果を反映した辞書・言語モデルを作成することが可能となる。その理由は、前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識を実行し、かつ、その結果を用いた辞書及び言語モデルの更新を行うよう構成したことにある。

本発明の第１の実施形態に係る音声認識辞書作成支援システムの概略構成を表した図である。本発明の第１の実施形態に係る音声認識辞書作成支援システムを機能ブロックで表したブロック図である。本発明の第１の実施形態に係る音声認識辞書作成支援システムの仮想的音声認識処理部の一構成例を表した図である。本発明の第１の実施形態に係る音声認識辞書作成支援システムの動作を表したフローチャートである。本発明の第１の実施形態に係る音声認識辞書作成支援システムの動作具体例を説明するための図である。従来の音声認識辞書作成支援システムを機能ブロックで表したブロック図である。従来の音声認識辞書作成支援システムを機能ブロックで表したブロック図である。

符号の説明

６１読み／音素列変換部
６２音素／状態列変換部
６３状態／特徴列変換部
６４最適単語列サーチ部
６５テキストデータ比較部
７１入力装置
７２音声認識辞書作成支援プログラム
７３データ処理装置
７４記憶装置
１０１テキスト解析部
１０２仮想的音声認識処理部
１０３更新処理部
１０４、７４１背景辞書記憶部
１０５、７４２認識辞書記憶部
１０６、７４３言語モデル記憶部
１０７、７４４音響モデル記憶部
１０８テキストデータ
２０１テキスト解析手段
２０２出現頻度計数手段
２０３更新手段
２０４背景辞書記憶手段
２０５認識辞書記憶手段
２０６言語モデル記憶手段
３０１文字列比較手段
３０２未知語抽出手段
３０３更新手段
３０５認識辞書記憶手段
３０６言語モデル記憶手段

続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施形態に係る音声認識辞書作成支援システムの概略構成を表した図である。図１を参照すると、入力装置７１及び記憶装置７４を備えたデータ処理装置（コンピュータ）７３により構成された音声認識辞書作成支援システムが示されている。

記憶装置７４は、背景辞書記憶部７４１、認識辞書記憶部７４２、言語モデル記憶部７４３及び音響モデル記憶部７４４を有するハードディスク等により構成され、それぞれ背景辞書、認識辞書、言語モデル及び音響モデルを保持することが可能なっている。

上記構成よりなるデータ処理装置（コンピュータ）７３に、音声認識辞書作成支援プログラム７２を実行させることによって、後記する各処理手段（図２のテキスト解析部１０１〜更新処理部１０３）が実現される。

図２は、上記音声認識辞書作成支援システムを機能ブロックで表したブロック図である。図２を参照すると、本実施形態に係る音声認識辞書作成支援システムは、テキスト解析部１０１と、仮想的音声認識処理部１０２と、更新処理部１０３と、背景辞書記憶部１０４と、認識辞書記憶部１０５と、言語モデル記憶部１０６と、音響モデル記憶部１０７とから構成されている。

テキスト解析部１０１は、外部から与えられたテキスト（文字列）データ１０８を単語に分割し品詞タグや読みを付与する処理を行う。より具体的には、テキスト解析部１０１は、テキストデータ１０８を読み込み、背景辞書記憶部１０４に記憶された背景辞書を読み込んで、テキストデータ１０８を解析し、解析済みテキストデータを出力する処理を行う。

仮想的音声認識処理部１０２は、認識辞書に含まれていなかったり、言語モデルで低い優先度を与えられていたりすることにより音声認識誤りを生ずる可能性が高い語句等の抽出を行う。より具体的には、仮想的音声認識処理部１０２は、認識辞書記憶部１０５、言語モデル記憶部１０６及び音響モデル記憶部１０７にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み、テキスト解析部１０１より出力された解析済みテキストデータについて仮想的に認識処理を行い、解析済みテキストデータに対応する仮想的認識結果テキストデータを生成し、更に、元の解析済みテキストデータと仮想的認識結果テキストデータを比較した上で相違箇所を抽出して出力する処理を行う。

更新処理部１０３は、仮想的音声認識処理部１０２にて判定された認識誤りを生ずる可能性が高い語句を考慮して認識辞書・言語モデルを変更する処理を行う。より具体的には、更新処理部１０３は、仮想的音声認識処理部１０２にて出力された相違箇所に基づいて、認識辞書記憶部１０５及び言語モデル記憶部１０６にそれぞれ記憶された認識辞書及び言語モデルを修正する処理を行う。

背景辞書記憶部１０４及び認識辞書記憶部１０５は、それぞれ背景辞書と認識辞書を記憶する。背景辞書は、形態素解析辞書ともいい、認識辞書と比べて数１０〜数１００倍の規模の語彙を保持している。従って多くの場合、与えられたテキストデータのほぼすべてに対して読み等の情報を付与することができる。また、背景辞書にも登録されていない未知語が出現した場合でも、例えば、特許文献５に記載の技術等を用いて、読み情報を付与することができる。

言語モデル記憶部１０６及び音響モデル記憶部１０７は、それぞれ言語モデルと音響モデルを記憶する。

なお、上記認識辞書記憶部１０５及び言語モデル記憶部１０６にそれぞれ初期に記憶する認識辞書及び言語モデルは、実際に運用しようとしている音声認識システムで使用するものと同様のものを用いる。同様に、音響モデル記憶部１０７に記憶する音響モデルも、実際に運用しようとしている音声認識システムで使用する音響モデルと原則同等のものを用いることが好ましい。

続いて、上記認識辞書、言語モデル及び音響モデルを用いて、解析済みテキストデータから仮想的認識結果テキストデータを作成する仮想的音声認識処理部１０２の詳細構成についてさらに詳しく説明する。

図３は、仮想的音声認識処理部１０２の一構成例を表した図である。図３を参照すると、仮想的音声認識処理部１０２は、読み／音素列変換部６１と、音素／状態列変換部６２と、状態／特徴列変換部６３と、最適単語列サーチ部６４と、テキストデータ比較部６５、とから構成されている。

読み／音素列変換部６１は、単語毎に分割され読みが付与された解析済みテキストデータを、適当な単位毎、例えば１文ずつ読み込んで、予め記憶された音節／音素列変換テーブルに従い、通常ひらがなやカタカナで表された読み文字列を音素列に変換し、順次出力する。ここで音素とは、音声認識における認識の最小単位、すなわち認識単位であり、個々の音素は、母音ａ，ｉ，ｕ，・・・、子音ｋ，ｓ，ｔ，・・・といった記号で表される。

例えば「おはようございます」という読み文字列が与えられた場合、読み／音素列変換部６１は、「／＃／ｏ／ｈ／ａ／ｙ／ｏ／ｏ／ｇ／ｏ／ｚ／ａ／ｉ／ｍ／ａ／ｓ／ｕ／＃／」という音素列を出力する（ここで”＃”は発声始終端の無音を表すものとする）。

また、より一般的に用いられている、音素を前後の音素環境によって区別する３つ組音素（ｔｒｉｐｈｏｎｅ）による音響モデルの場合は、読み／音素列変換部６１は、上記「おはようございます」という読み文字列について、「／＃／＃−ｏ＋ｈ／ｏ−ｈ＋ａ／ｈ−ａ＋ｙ／ａ−ｙ＋ｏ／ｙ−ｏ＋ｏ／ｏ−ｏ＋ｇ／ｏ−ｇ＋ｏ／ｇ−ｏ＋ｚ／ｏ−ｚ＋ａ／ｚ−ａ＋ｉ／ａ−ｉ＋ｍ／ｉ−ｍ＋ａ／ｍ−ａ＋ｓ／ａ−ｓ＋ｕ／ｓ−ｕ＋＃／＃／」という音素列を出力する。

なお、昨今のほとんどの音声認識システムは認識単位として音素を用いているため、本発明の実施の形態もそれにならい、認識単位として音素を用いているが、音素以外の認識単位、例えば音節や半音節を認識単位としても、本発明は、原理的に実施可能であり、認識単位のとり方に特段の制約はない。

音素／状態列変換部６２は、読み／音素列変換部６１より受け取った音素列について、音響モデル記憶部１０７に記憶された音響モデルの構成情報を参照して、各音素を状態の系列に展開した状態列を出力する。

ここで「状態」とは、音声認識における音響モデルとして一般的に用いられる隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以下「ＨＭＭ」）に付随する概念である。各音素をＨＭＭでモデル化した場合は、「状態」は音素をさらに細分化した単位ということができる。音響モデルは音素毎のＨＭＭの集合として構成されており、音素のＨＭＭは各々数個の「状態」から構成されている。いずれにしても、音響モデルを参照することにより、音素を状態列に容易に変換することができる。例えば、各音素が一律に３状態で構成された音響モデルの場合は、前出の音素列は、＃［１］，ｏ［１］，ｏ［２］，ｏ［３］，ｈ［１］，ｈ［２］，ｈ［３］，ａ［１］，ａ［２］，ａ［３］，ｙ［１］，ｙ［２］，ｙ［３］，ｏ［１］，…，ｉ［３］，ｍ［１］，ｍ［２］，ｍ［３］，ａ［１］，ａ［２］，ａ［３］，ｓ［１］，ｓ［２］，ｓ［３］，ｕ［１］，ｕ［２］，ｕ［３］，＃［１］と変換される。ここに括弧数字は状態番号を示す。音響モデルが前述の３つ組音素（ｔｒｉｐｈｏｎｅ）で構成されている場合も同様である。なお、無音モデル”＃”は１状態としてモデル化するのが一般的である。

状態／特徴列変換部６３は、音響モデル記憶部１０７に記憶された音響モデルを読み込み、音素／状態列変換部６２が出力する状態列を順次受け取り、音声認識で用いる音声特徴パラメータを含む特徴ベクトルの系列を出力する。すなわち、音響モデルにおいて状態ごとに定義されている確率分布、例えば混合ガウス分布に従って、乱数に基づいて特徴ベクトルを生成する。また、１状態あたりに生成する特徴ベクトルの個数は、やはり状態毎に定義されている状態遷移確率に基づいて乱数で決定する。

最適単語列サーチ部６４は、認識辞書記憶部１０５、言語モデル記憶部１０６及び音響モデル記憶部１０７にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み、状態／特徴列変換部６３の出力する特徴ベクトル列を順次受け取り、音声認識システムで一般的に用いられるフレーム同期ビームサーチ等の探索方法を用いて、特徴ベクトル列に最もマッチする単語列、すなわち仮想的な音声認識結果テキストデータ（一般的には漢字かな混じり文）を探索し出力する。

テキストデータ比較部６５は、最適単語列サーチ部６４により出力された仮想的認識結果テキストデータを、仮想的音声認識処理部１０２の入力である解析済みテキストデータの対応部分と比較し、相違箇所の文字列の対、すなわち仮想的正解文字列と仮想的認識結果文字列の対として抽出し、同一文字列毎に出現頻度を計数した上で、図５に例示する仮想的認識誤り事例データとして、更新処理部１０３に送る。

続いて、本実施形態の全体の動作について図面を参照して詳細に説明する。図４は、本実施形態に係る音声認識辞書作成支援システムの動作を表したフローチャートである。

図４を参照すると、まず、テキスト解析部１０１は、背景辞書記憶部１０４に記憶された背景辞書を読み込み（ステップＡ１）、与えられたテキストデータに対して形態素解析処理を施す（ステップＡ２）。この形態素解析処理により、テキストデータは単語に分割され、各単語に対して必要に応じて品詞タグや読み（単語の発音を表現する記号列）が付与される。

なお、背景辞書は上述のとおり、認識辞書と比べて数１０〜数１００倍の規模の語彙を保持しているため、与えられたテキストデータのほぼすべてに対して読み等の情報を付与することができる。また、背景辞書にも登録されていない未知語が出現した場合であっても、例えば、特許文献５に記載の技術等を用いて、読み情報を付与することができる。

続いて、仮想的音声認識処理部１０２は、認識辞書記憶部１０５、言語モデル記憶部１０６及び音響モデル記憶部１０７にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み（ステップＡ３〜Ａ５）、テキスト解析部１０１が出力したテキストに基づいて仮想的な音声認識処理を実行し、仮想的認識結果テキストデータを作成する（ステップＡ６）。

続いて、仮想的音声認識処理部１０２は、解析済みテキストデータと、対応する仮想的認識結果テキストデータを比較し、差異を生じている箇所、すなわち仮想的な認識誤り事例としての単語又は単語列を両テキストデータから抽出し、仮想的認識誤り事例データ（図５参照）を生成する（ステップＡ７）。

この際、差異を生じている箇所の単語を含む一連の単語列が、名詞が連続している等の形態からひとまとまりの句を構成していると判断できる場合は、句単位での抽出を行ってもよい。例えば、解析済みテキストデータ中に「・・・／地上波／デジタル／・・・」という単語列があり、仮想的認識結果テキストデータ中の対応箇所において、「・・・／地上波／デッキ／足る／・・・」となっていた場合、単語レベルのペアとして「デジタル」「デッキ／足る」を抽出してもよく、名詞句レベルのペアとして「地上波／デジタル」、「地上波／デッキ／足る」との文字列対を抽出してもよく、あるいは、その両方を抽出してもよい。

仮想的音声認識処理部１０２は、最終的に、単語レベル及び／又は句レベルの文字列対とその読みを、それぞれの出現頻度とともに更新処理部１０３に送る。図５は、仮想的音声認識処理部１０２が更新処理部１０３に送る仮想的認識誤り事例データ情報の一例を表したものである。

以下、更新処理部１０３は、仮想的音声認識処理部１０２により出力された仮想的認識誤り事例データを受け取り、１つずつ順に取り出し、その内容に応じて、認識辞書記憶部１０５及び言語モデル記憶部１０６にそれぞれ記憶された認識辞書及び言語モデルに対して、以下のように変更を加える（ステップＡ８〜Ａ１０）。

例えば、図５の例で説明すると、最初のエントリ（ＨＴＭＬ，栄一／低迷）を取り出して、音声認識における正解文字列に相当する解析済みテキストの単語「ＨＴＭＬ」が認識辞書に存在していない場合、更新処理部１０３は、認識辞書に「ＨＴＭＬ」を追加し、言語モデルにおける単語「ＨＴＭＬ」の優先度としてデフォルト値（適当に定めた中程度の優先度）をセットする。

また「ＨＴＭＬ」がすでに認識辞書に存在する場合は、更新処理部１０３は、認識辞書の更新を行わず、言語モデルにおける単語「ＨＴＭＬ」の優先度を、予め定めた適当な所定の値だけ増加させる。

次のエントリ（地上波／デジタル，地上波／デッキ／足る）についても同様に、「地上波デジタル」が認識辞書になければ認識辞書に追加し、言語モデルにおける優先度に適当なデフォルト値をセットする。また「地上波デジタル」がすでに認識辞書にあれば、言語モデルにおける優先度の値を増加させる。

以降、すべてのエントリについて上記の処理をくり返すことにより、容易に入手できる低コストなテキストデータを用いながらも、音声認識誤りを未然に防止できるよう最適化された辞書・言語モデルを得ることが可能となる。

なお、上記した実施形態では、仮想的認識誤り事例データすべてのエントリを用いて認識辞書と言語モデルの更新を行うこととしているが、例えば、極端に出現頻度の低いエントリについては、認識辞書・言語モデルの変更には使用しないよう設定することも有効である。また、出現頻度情報等を用いて認識辞書・言語モデルに反映させるエントリを選別し、仮想的認識結果テキストデータの中の認識誤りに相当する部分が一定割合より少なくなるまで、反復することとしてもよい。

また、上記した実施形態では、正解文字列に対応する解析済みテキスト「ＨＴＭＬ」、「地上波デジタル」を利用した認識辞書・言語モデルの変更を行うものとして説明したが、これに加えて、認識誤りに対応する仮想的認識結果テキストを利用した認識辞書・言語モデルの変更を行わせることとしてもよい。

例えば、図５の例で説明すると、更新処理部１０３は、エントリ（ＨＴＭＬ，栄一／低迷）については、単語「ＨＴＭＬ」の言語モデル中での優先度を上げると同時に、「栄一」及び「低迷」の優先度を下げ、さらには、「栄一」と「低迷」という２単語の並びに関する優先度を下げるように言語モデルを変更してもよい。

さらには、上記認識辞書の更新処理において、所定のしきい値よりも優先度が小さくなった単語については、認識辞書から削除する処理を行うこととしてもよい。

また、これら一連の優先度の値の変更に際しては、出現頻度に依存して変更量を制御してもよい。つまり、出現頻度の高いエントリについては対応する単語または単語列の優先度を大きく変更するようにし、逆に出現頻度の低いエントリについては、優先度をわずかしか変更しないように制御してもよい。

更に、辞書・言語モデルの更新内容をシステム操作者に予め提示するインタフェース、及び、システム操作者に更新の可否を問うインタフェースを、適宜設け、辞書・言語モデルの更新に際して、不適切な変更を避けることが出来るよう構成することも好ましい。

また、上記仮想的認識誤り事例データに、各単語に対応する品詞を含めるようにすることも好ましい。このようにすることにより、当該品詞の情報を参照して、認識辞書・言語モデルの変更要否を判断することが可能となる。例えば、認識辞書・言語モデルの更新に際して一般に重要と考えられる、名詞や動詞語幹等の内容語を含むエントリのみを認識辞書・言語モデルの変更に使用するように動作させることが可能となる。

なお、ここまで言語モデルの変更において、単語や単語の並びに関する「優先度」の値を変更すると述べてきたが、ここでの優先度とは、例えば、公知のＮ−ｇｒａｍ言語モデルにおける確率値と解釈すればよい。つまり、例えばｕｎｉｇｒａｍ（Ｎ＝１）における確率値は、単語の並びを無視した場合の個々の単語の出現確率であり、形式的にはＰｒ（“ＨＴＭＬ”）のように表現される量である。また、ｂｉｇｒａｍ（Ｎ＝２）における確率値は、直前の１単語を履歴として仮定した場合の単語の条件付出現確率であり、Ｐｒ（“デジタル”|“地上波”）やＰｒ（“低迷”|“栄一”）のように表現される。同様にｔｒｉｇｒａｍ（Ｎ＝３）における確率値は、直前の2単語を履歴として仮定した場合の単語の条件付出現確率となる。

また、図３に例示した仮想的音声認識処理部１０２を、より単純な構成とすることも可能である。例えば、状態／特徴列変換部６３を取り除き、音素／状態列変換部６２を最適単語列サーチ部６４に直接接続した構成が考えられる。

この場合、最適単語列サーチ部６４は、音素／状態列変換部６２から受け取ったＨＭＭの状態列の各要素について、音響モデル内の全状態との類似度又は距離を計算し、認識辞書及び言語モデルによって既定される言語的制約に従い、最適な単語列を求めることになる。状態間の距離は、状態に付随する確率分布間の距離尺度、例えばカルバック・ライブラのダイバージェンス等の尺度を用いて計算すればよい。また、音響モデル内のすべての状態間の距離を予め計算して、テーブル形式で音響モデル記憶部１０７に記憶しておくことが効率的である。

また、処理の高速化のために、前述のフレーム同期ビームサーチに類する探索範囲の限定（枝刈り）を適宜行っておくこととしてもよい。図３に例示した仮想的音声認識処理部１０２の形態では、特徴ベクトルと状態との間の距離計算をベースとしてフレーム同期ビームサーチを構成するのに対して、状態／特徴列変換部６３を省いた本形態においては、状態間の距離計算をベースとしてサーチを構成する点が異なっているが、原理はほとんど同じものである。

また、図３に例示した仮想的音声認識処理部１０２を、更に簡素な構成とすることも可能である。例えば、音素／状態列変換部６２及び状態／特徴列変換部６３を取り除き、読み／音素列変換部６１を最適単語列サーチ部６４に直接接続した構成が考えられる。

この場合、最適単語列サーチ部６４は、読み／音素列変換部６１から受け取った音素列の各要素について、音響モデル内の全音素との類似度または距離を計算し、認識辞書及び言語モデルによって既定される言語的制約に従い、最適な単語列を求める。音素間の距離は、互いに対応する状態間の距離の総和などとして計算すればよい。

以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実施の形態に限定されるものではなく、音声認識対象の言語や、音声認識システムの種々の応用場面に応じて、各種の変形を加えることが可能である。

Claims

辞書、言語モデル及び音響モデルを記憶する記憶部と、
テキストデータについて形態素解析処理を施すテキスト解析部と、
前記テキスト解析部により解析された解析済みテキストデータについて前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するとともに、前記解析済みテキストデータと前記仮想的音声認識結果テキストデータとの相違箇所を抽出する仮想的音声認識処理部と、
前記相違箇所に基づいて、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理部と、
を備えたことを特徴とする音声認識辞書作成支援システム。
前記仮想的音声認識処理部は、前記解析済みテキストデータから音響パラメータを要素とする特徴ベクトルの系列を生成し、仮想的に音声認識処理を実行することにより音声認識結果テキストデータを生成すること、
を特徴とする請求項１に記載の音声認識辞書作成支援システム。
前記記憶部は、認識単位を構成する状態等要素間の距離又は類似度テーブルを記憶し、
前記仮想的音声認識処理部は、前記解析済みテキストデータから前記認識単位の系列を生成し、前記辞書及び言語モデルから、距離の総和最小又は類似度の総和最大となる単語列を探索することにより前記仮想的音声認識結果テキストデータを生成すること、
を特徴とする請求項１又は２に記載の音声認識辞書作成支援システム。
前記記憶部は、認識単位を構成する状態等要素間の距離又は類似度テーブルを記憶し、
前記仮想的音声認識処理部は、前記解析済みテキストデータから前記要素の系列を生成し、前記辞書及び言語モデルから、距離の総和最小又は類似度の総和最大となる単語列を探索することにより前記仮想的音声認識結果テキストデータを生成すること、
を特徴とする請求項１又は２に記載の音声認識辞書作成支援システム。
前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記辞書に、前記解析済みテキストデータ側に出現している語句を追加すること、
を特徴とする請求項１乃至４いずれか一に記載の音声認識辞書作成支援システム。
前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記解析済みテキストデータ側に出現している単語又は単語列の優先度が高くなるように、前記言語モデルを修正すること、
を特徴とする請求項１乃至４いずれか一に記載の音声認識辞書作成支援システム。
前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記仮想的音声認識結果テキストデータ側に出現している単語又は単語列の優先度が低くなるように、前記言語モデルを修正すること、
を特徴とする請求項１乃至４いずれか一に記載の音声認識辞書作成支援システム。
前記更新処理部は、前記解析済みテキストデータ及び仮想的音声認識結果テキストデータにおける単語又は単語列の出現頻度に応じて前記優先度の増減量を制御すること、
を特徴とする請求項６又は７に記載の音声認識辞書作成支援システム。
コンピュータを用いた音声認識辞書作成支援方法であって、
前記コンピュータが、テキストデータについて形態素解析処理を施すテキスト解析ステップと、
前記コンピュータが、前記テキスト解析ステップにて出力された解析済みテキストデータに基づいて、所定の記憶装置に保持された辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するステップと、
前記コンピュータが、前記解析済みテキストデータと、前記仮想的音声認識結果テキストデータと、を比較し相違箇所を抽出するステップと、
前記コンピュータが、前記相違箇所に基づいて前記辞書又は前記言語モデルの少なくとも一方を修正する更新ステップと、を含むこと、
を特徴とする音声認識辞書作成支援方法。
テキストデータについて形態素解析処理を施すテキスト解析処理と、
前記テキスト解析処理にて出力された解析済みテキストデータに基づいて、所定の記憶装置に保持された辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成する処理と、
前記解析済みテキストデータと、前記仮想的音声認識結果テキストデータと、を比較し相違箇所を抽出する仮想的音声認識処理と、
前記相違箇所に基づいて、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理と、を音声認識辞書作成支援システムを構成するコンピュータに実行させるためのプログラム。