JP5238395B2

JP5238395B2 - 言語モデル作成装置および言語モデル作成方法

Info

Publication number: JP5238395B2
Application number: JP2008198451A
Authority: JP
Inventors: 悠輔中島; 志鵬張; 信彦仲
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-07-31
Filing date: 2008-07-31
Publication date: 2013-07-17
Anticipated expiration: 2028-07-31
Also published as: JP2010039539A

Description

本発明は、言語モデルを作成する言語モデル作成装置および言語モデル作成方法に関する。なお、対象単語は、多くの場合未知語であることが考えられるが、未知語でなくてもよい。「未知語」とは、予め用意されている言語モデル保持部に登録されていない単語をいう。ただし、ここでの「言語モデル保持部」は、言語モデルのみを保持するものに限定されるものではなく、単語を登録し保持しておくもの全般を意味し、後述する発明の実施形態における言語モデル保持部２８２および辞書保存部２８３に相当する。また、言語モデル保持部に登録される「言語モデル」には、複数の単語の接続に関する接続確率が含まれる。

言語モデルは音声認識装置による音声認識などに用いられ、音声認識装置に入力された音声に未知語が含まれている場合、当該音声に対する音声認識の結果に認識誤りが生じるなどの問題がある。

下記の特許文献１には、確率的言語モデルに未知語を追加する機能を有する連続音声認識装置が記載されている。この連続音声認識装置は、言語モデルに登録されている既知語およびパラメータを単語クラスごとに分類し、予め定めた演算式にしたがってパラメータを取得する。単語クラスとして実施例には品詞が挙げられている。
特許第3907880号公報

しかしながら、特許文献１の技術のように、分類する単位を単語クラスごとにすると、未知語に近い有効なパラメータを必ずしも取得できるとは限らない。

そこで、本発明は、より有効な言語モデルを作成することができる言語モデル作成装置および言語モデル作成方法を提供することを目的とする。

上述の課題を解決するために、本発明の言語モデル作成装置は、(1)対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出手段と、(2)前記単語列抽出手段により抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出手段と、(3)前記モデル抽出手段により抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成手段と、を備え、前記モデル抽出手段は、前記単語列抽出手段により抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、ことを特徴とする。

上記の言語モデル作成装置では、単語列抽出手段が、対象単語の前に隣接する単語と対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、当該対象単語と、を含む単語列の単語情報を抽出し、モデル抽出手段が、上記抽出された単語列の単語情報に基づいて、言語モデル保持部から、単語列の単語情報を含むモデルを抽出し、また、モデル作成手段が、上記抽出されたモデルから、対象単語に対応するモデルを作成し、さらに、モデル抽出手段は、単語列抽出手段により抽出された単語列の単語情報に基づいて、言語モデル保持部から、対象単語の候補を抽出し、対象単語の候補に基づいて、言語モデル保持部から、モデルを抽出する。

また、本発明の言語モデル作成装置では、モデル抽出手段は、前記単語列に含まれた対象単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも１つを含む単語情報、および、前記単語列に含まれた隣接単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも１つを含む単語情報を参照して、前記単語列を含むモデルを抽出することが望ましい。

また、本発明の言語モデル作成装置では、モデル抽出手段は、前記単語列に含まれた隣接単語に関する信頼度をさらに参照して、前記単語列を含むモデルを抽出することが望ましい。

また、本発明の言語モデル作成装置では、単語列抽出手段は、対象単語の前に隣接する単語に関する信頼度および前記対象単語の後ろに隣接する単語に関する信頼度を参照して、前記単語列を抽出することが望ましい。

また、本発明の言語モデル作成装置は、モデル作成手段により作成された前記対象単語に対応するモデルを、前記言語モデル保持部に登録する言語モデル登録手段、をさらに具備することが望ましい。

また、本発明の言語モデル作成装置では、言語モデル登録手段は、前記作成された前記対象単語に対応するモデルが前記言語モデル保持部に既に登録されている場合、前記作成された前記対象単語に対応するモデルをもって、既に登録されているモデルを更新することが望ましい。

ところで、本発明は、言語モデル作成方法に係る発明として、以下のように記述することができ、言語モデル作成装置に係る発明と同様の効果を奏する。

本発明の言語モデル作成方法は、言語モデル作成装置により実行される言語モデル作成方法であって、対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出ステップと、前記単語列抽出ステップにて抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出ステップと、前記モデル抽出ステップにて抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成ステップと、を備え、前記モデル抽出ステップにて、前記言語モデル作成装置は、前記単語列抽出ステップにより抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、ことを特徴とする。

本発明によれば、より有効な対象単語の言語モデルを作成することができる。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

［本実施形態におけるシステム構成］
図１は、本実施形態のクライアント装置１１０と、クライアント装置１１０から送信された音声を認識しその認識結果をクライアント装置１１０に返信するサーバ装置１２０と、を備える通信システムのシステム構成図である。本実施形態では、クライアント装置１１０は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を無線ネットワーク経由でサーバ装置１２０に送信し、サーバ装置１２０からの返信である認識結果を無線ネットワーク経由で受信する構成とされている。

サーバ装置１２０は、図示しない音声認識部を備え、入力された音声に対し、音響モデル、言語モデルなどのデータベースを用いて音声認識を行い、その認識結果をクライアント装置１１０に返信する構成とされている。

次に、このクライアント装置１１０の構成について説明する。図２は、クライアント装置１１０の機能ブロック図である。このクライアント装置１１０は、特徴量算出部２１０、特徴量圧縮部２２０、送信部２２５、特徴量保存部２３０、受信部２３５、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、未知語処理部３００、訂正部２７０、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、および、表示部２９０を含んで構成されている。また、図２に示すように、言語モデル作成装置３０５は、誤り区間前後コンテキスト指定部２５０および未知語処理部３００を含んで構成される。

図３は、クライアント装置１１０のハードウェア構成図である。図２に示されるクライアント装置１１０は、物理的には、図３に示すように、ＣＰＵ１１、主記憶装置であるＲＡＭ１２およびＲＯＭ１３、入力デバイスであるキーボードおよびマウスまたはタッチパネル等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、ハードディスク等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図２において説明した各機能は、図３に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出しおよび書き込みを行うことで実現される。

以下、図２に示す機能ブロック図に基づいて、各機能ブロックの機能を説明する。

特徴量算出部２１０は、マイク（図示せず）から入力されたユーザの声を入力し、当該入力された声から音声認識スペクトルであって、音響特徴を示す特徴量データを算出する部分である。例えば、特徴量算出部２１０は、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）のような周波数で表される音響特徴を示す特徴量データを算出する。

特徴量圧縮部２２０は、特徴量算出部２１０において算出された特徴量データを圧縮する部分である。

送信部２２５は、特徴量圧縮部２２０において圧縮された圧縮特徴量データを図１のサーバ装置１２０に送信する部分である。この送信部２２５は、ＨＴＴＰ（Hyper Text Transfer Protocol）、ＭＲＣＰ（Media Resource Control Protocol）、ＳＩＰ（Session Initiation Protocol）などを用いて送信処理を行う。また、このサーバ装置１２０では、これらプロトコルを用いて受信処理を行い、また返信処理を行う。さらに、このサーバ装置１２０では、圧縮特徴量データを解凍することができ、特徴量データを用いて音声認識処理を行うことができる。この特徴量圧縮部２２０は、通信トラフィックを軽減するためにデータ圧縮するためのものであることから、データ圧縮は必須の処理ではなく、そのため、送信部２２５は、圧縮されていない特徴量データをそのまま送信することも可能とされている。

特徴量保存部２３０は、特徴量算出部２１０において算出された特徴量データを一時的に記憶する部分である。

受信部２３５は、サーバ装置１２０から返信された音声認識結果を受信する部分である。この音声認識結果には、テキストデータ、と単語情報が含まれている。単語情報には、単語区切り、表記、読み、品詞情報、時間情報、係り受け情報、および信頼度情報が含まれており、時間情報はテキストデータの一認識単位ごとの経過時間を示し、信頼度情報は、その認識結果における正当確度を示す情報である。

例えば、認識結果として、図４に示される情報が受信される。図４では、発声内容、認識結果、音声区間、および信頼度が対応付けて記載され、発声内容と認識結果の各々では、各単語の品詞および品詞詳細が記載されている。ただし、図４における発声内容は、実際には受信情報に含まれていない。

図４において、音声区間で示されている数字は、フレームのインデックスを示すものであり、その認識単位の最初のフレームのインデックスが示されている。ここで１フレームは１０ｍｓｅｃ程度である。また、信頼度は、サーバ装置１２０において認識された音声認識結果の一認識単位ごとの信頼度を示すものであり、どの程度正しいかを示す数値である。これは、認識結果に対して確率などを用いて生成されたものであり、サーバ装置１２０において、認識された単語単位に付加されたものである。例えば、信頼度の生成方法として、以下の参考文献に記載されている。
参考文献：李晃伸、河原達也、鹿野清宏、「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告、2003-SLP-49-48、2003-12.
図４では、例えば、認識結果である「いる」は、５８フレームから７１フレームまでで構成され、その品詞は非自立の動詞で、その信頼度は０．５２であることが示されている。

単語情報には、他に、係り受け情報や、単語クラスなどの情報を含んでよい。
また、品詞などの単語情報がない場合は、音声認識結果を形態素解析することで生成してもよい。形態素解析は、ＭｅＣａｂやＣｈａＳｅｎなどの形態素解析ツールをもちいて実施することができる。品詞の情報が品詞番号など別の形式で送られてくる場合、その形式と品詞の情報形式の対応表を予め用意して、変換してもよい。

図２に戻り、図２の操作部２３６は、ユーザ入力を受け付ける部分である。ユーザは表示部２９０に表示されている認識結果を確認しながら、誤り区間を指定することができる。操作部２３６は、その指定を受け付けることができる。

結果保存部２３７は、受信部２３５により受信された音声認識結果を保存する部分である。保存した音声認識結果は、ユーザが視認することができるように表示部２９０に表示される。

ユーザ入力検出部２３８は、操作部２３６により受け付けられたユーザ入力を検出する部分であり、入力された誤り区間を誤り区間指定部２４０に出力する。

誤り区間指定部２４０は、ユーザ入力検出部２３８から入力された誤り区間にしたがってその区間を指定する部分である。この誤り区間指定部２４０は、例えば、サーバ装置１２０から送信された音声認識結果に含まれている信頼度情報に基づいて誤り区間を指定することができる。

誤り区間前後コンテキスト指定部２５０は、誤り区間指定部２４０において指定された誤り区間に基づいて、当該誤り区間の前後において認識された一認識単位（誤り区間前後コンテキスト）を指定する部分である。図５（ａ）に、誤り区間の前後において認識された一認識単位（誤り区間前後コンテキスト）を指定した場合の概念図を示す。図５（ａ）に示すように、認識結果の誤り区間の前に、誤り区間前の所定数の単語の音声区間を指定し、認識結果の誤り区間の後に、誤り区間後の所定数の単語の音声区間を指定する。本実施形態では、誤り区間前後コンテキスト指定部２５０は、誤り区間の前の単語Ｗ１ａとその前（誤り区間の２つ前）の単語Ｗ１ｂから成る単語群Ｗ１、および、誤り区間の後の単語Ｗ２ａとその後（誤り区間の２つ後）の単語Ｗ２ｂから成る単語群Ｗ２を指定し、入力された音声から単語群Ｗ１、Ｗ２を取り出す。これは、後述する図８のステップＳ５０１の処理に相当する。

未知語処理部３００は、誤り区間前後コンテキスト指定部２５０により指定された誤り区間の前の単語Ｗ１ａ、誤り区間の後の単語Ｗ２ａを検索語とし、当該検索語が言語モデル保存部２８２または辞書保存部２８３に含まれているか否かを判定することで検索語が未知語か否かを判定する。検索語が未知語であった場合は、当該未知語の単語情報と、上記単語群Ｗ１、Ｗ２における未知語の前後の単語の単語情報をもとに、言語モデル保存部２８２または辞書保存部２８３から、未知語に類似する単語やＮグラムの接続確率を抽出し、未知語に関連するＮグラムの接続確率を作成する。これらの処理は後に詳述する。

なお、検索語が未知語でない場合でも、その検索後に関連するＮグラムを作成してもよい。また、検索語が未知語か否かの判定自体を行わなくてもよい。また、上記単語群Ｗ１、Ｗ２における検索語の前後の単語の信頼度を参照し、当該信頼度に応じて検索語の前後の単語を参照するかしないかを判断してもよい。

ここで、さらに具体的な例を示す。図９には、未知語処理部３００の機能ブロック図を示す。図９に示すように、未知語処理部３００は、未知語候補単語抽出部３１０と、候補Ｎグラム抽出部３２０と、接続確率作成部３３０と、言語モデル登録部３４０とを含んで構成される。以下、各部の機能を説明する。

未知語候補単語抽出部３１０は、誤り区間の前後の少なくとも一つの単語を検索語とし未知語の判定を行い、未知語の場合は類似する単語の候補を出力する。判定の結果、未知語でない場合も単語の候補を出力してよい。これらは、後述する図８のステップＳ５０２〜Ｓ５０５の処理に相当する。未知語の判定は、単語が言語モデル保持部２８２や辞書保存部２８３に含まれるか検索することで実施してもよい。特に、検索語が未知語と判定された場合（但し、検索語が未知語でないと判定された場合を含んでもよいが）、図１０（ａ）に示すように、検索語と同一または類似の品詞（図１０（ａ）の品詞Ａ）と、検索単語の前または後ろの１つまたは複数の単語（図１０（ａ）の単語Ｗ１ｂ）がつながる単語列（図１０（ａ）では、単語Ｗ１ｂと品詞Ａ）を検索キー列として、言語モデル保持部２８２から当該検索キー列が含まれるか判定し、含まれると判定された場合は当該品詞（図１０（ａ）の品詞Ａ）の単語（図１０（ａ）の単語Ａ１、単語Ａ２）を類似単語候補とする。品詞のほかの単語情報、例えば、単語クラス、係り受け情報、話者情報などを用いてもよい。

また、未知語候補単語抽出部３１０は、図５（ｃ）に示すように、未知語の１つ前Ｗ_{（ｕ−１）}や１つ後Ｗ_{（ｕ＋１）}、２つ前Ｗ_{（ｕ−２）}や２つ後Ｗ_{（ｕ＋２）}の単語情報を入手してもよい。また、単語情報の中から、信頼できる情報（例えば品詞や係り受け）を適宜選択することで、未知語の単語属性を限定してもよい。また、未知語やその前後の単語の単語情報（例えば、品詞）を用いなくてもよい。例えば、単語Ｗ_{（ｕ−１）}と、それに後続する単語（未知語に相当）がある単語列、を検索キー列として、言語モデル保持部２８２から当該検索キー列が含まれるか判定し、含まれると判定された場合は未知語に相当する部分の単語を類似単語候補とする。

また、未知語候補単語抽出部３１０は、図５（ｃ）に示す未知語の前後の単語のうち、信頼できる単語のみを参照してもよい。例えば、ユーザが誤り区間を指定する場合は、誤り区間より前の単語および誤り区間の後の単語は、正解の可能性（信頼度）が高く、誤り区間内の単語は正解の可能性（信頼度）が低いと推定される。そこで、信頼度が高い単語の単語情報を、信頼度が低い単語の単語情報よりも大きい重み付けで活用することで、未知語により近い単語が言語モデルから抽出できる。

候補Ｎグラム抽出部３２０は、類似単語候補のいずれかを含むＮグラムと接続確率を、言語モデル保存部２８２から抽出する。例えば、図１０（ｂ）に示すように、抽出された類似単語候補のいずれか（単語Ａ１、単語Ａ２）を含むＮグラムと接続確率を、言語モデルから抽出する。これは、後述する図８のステップＳ５０６の処理に相当する。例えば、単語Ａ１に単語Ｙ１が後接するバイグラムの接続確率Ｐ（Ｙ１｜Ａ１）＝０．４、単語Ｘ１に単語Ａ１が後接しさらに単語Ｙ２が後接するトライグラム接続確率Ｐ（Ｙ２｜Ｘ１，Ａ１）＝０．６を示す。この例に限らず、接続確率はモノグラムや、４グラム、５グラムなどのマルチグラムの接続確率を含んでよい。また、類似単語候補も単語Ａ１、単語Ａ２だけでなく、単語Ａ３、単語Ａ４とさらに多くてもよい。

接続確率作成部３３０は、抽出したＮグラムと接続確率において、Ｎグラムの未知語品詞部分を未知語に置換することで、未知語のＮグラムと接続確率を作成する。これは、後述する図８のステップＳ５０７の処理に相当する。例えば、単語Ａ１部分を未知語Ｗ_ｕに置換して、単語Ｗ_ｕに単語Ｙ１が後接するバイグラムの接続確率Ｐ（Ｙ１｜Ｗ_ｕ）＝０．４、単語Ｘ１に単語Ｗ_ｕが後接しさらに単語Ｙ２が後接するトライグラムの接続確率Ｐ（Ｙ２｜Ｘ１，Ｗ_ｕ）＝０．６を示す。また、接続確率Ｐ（Ｙ１｜Ａ１）＝０．４と同様に、接続確率Ｐ（Ｙ１｜Ａ２）＝０．７などと、未知語品詞部分Ａ１やＡ２の後に同じ単語Ｙ１が来て、未知語品詞部分の前後の単語列が類似する場合に、それら複数の接続確率の平均や重み付けをしなおして、新たに接続確率Ｐ（Ｗ_ｕ｜Ｙ１）＝０．４などと作成してもよい。また、接続確率の作成方法はこの方法に限らない。

言語モデル登録部３４０は、作成された未知語のＮグラムと接続確率を言語モデル保存部２８２に登録する。これは、後述する図８のステップＳ５０８の処理に相当する。また、言語モデル登録部３４０は、拘束条件として適用するために、上記未知語のＮグラムと接続確率を訂正部２７０に入力する。また、上記未知語のＮグラムと接続確率は、言語モデル保存部２８２に登録しなくてもよく、言語モデル保存部２８２に登録せずに拘束条件として利用してもよい。また、拘束条件として利用した後に、破棄してもよい。

なお、本実施形態では、未知語のみにＮグラムを作成する例を、図８に基づき後述するが、未知語だけでなく、すでにＮグラムを作成し言語モデルに登録されている単語についても、改めてＮグラムを作成してもよい。未知語の前後の単語によって、未知語の単語情報も変わるため、同じ未知語でも異なるモデルが作成される。すでに登録されたモデルと、新たに作成されたモデルをもとに、差分のみを追加登録したり、接続確率を更新したりすることができる。言語モデル保存部２８２に登録されていない単語列の接続確率（例えば、単語Ｚ１とそれに前接する未知語Ｗ_ｕとの接続確率Ｐ（Ｚ１｜Ｗ_ｕ）＝０．８）が新たに作成されれば、言語モデル保存部２８２に追加登録してもよい。また、登録済みの単語（例えば、Ｙ１）と未知語（例えば、Ｗ_ｕ）との接続確率が新たに作成された場合（例えば、Ｐ（Ｙ１｜Ｗ_ｕ）＝０．８）、登録済みの接続確率（例えば、Ｐ（Ｙ１｜Ｗ_ｕ）＝０．４）と差替えて更新しなおしたり（例えば、Ｐ（Ｙ１｜Ｗ_ｕ）＝０．８）、登録済みの接続確率（例えば、Ｐ（Ｙ１｜Ｗ_ｕ）＝０．４）のままにしたり、登録済みの接続確率と平滑化や平均や重み付けをしなおして接続確率（例えば、Ｐ（Ｙ１｜Ｗ_ｕ）＝０．６）や係数（例えば、バックオフ係数）を更新してもよい。

また、本実施形態では、２段階に検索することで、未知語の汎用的なモデルを作成しているが、１段階で検索してもよい。第一段階目で、未知語の品詞と、未知語の前または後ろの１つまたは複数の単語情報を利用して、モデルを抽出し、当該未知語に該当する部分を、当該未知語で置換し当該未知語のモデルを作成することができる。これにより、当該単語列と同様の環境に限定した当該未知語のモデルを作成することができる。例えば、２つ前の単語Ｗ１ｂと、それに後接する未知語の品詞Ａの単語（例えば、単語Ａ１、単語Ａ２）の単語列を含むモデル（例えば、Ｐ（Ｚ２｜Ｗ１ｂ，Ａ１）、Ｐ（Ａ２｜Ｚ３，Ｗ１ｂ））を言語モデル保存部２８２から抽出し、当該未知語Ｗ_ｕに該当する部分を置換し当該未知語のモデル（例えば、Ｐ（Ｚ２｜Ｗ１ｂ，Ｗ_ｕ）、Ｐ（Ｗ_ｕ｜Ｚ３，Ｗ１ｂ））を作成することができる。

また、未知語のモデルの作成を中断してもよい。２段階に検索する過程で、検索条件に該当する候補が言語モデル保存部２８２や辞書保持部２８３にない場合は、未知語の適切なモデルが作成できない可能性が高く、当該未知語のモデルを作成しない選択がよい場合がある。

さて、図２に戻り、図２の誤り区間特徴量抽出部２６０は、誤り区間前後コンテキスト指定部２５０により指定された誤り区間（前後の少なくとも一認識単位を含む）の特徴量データを、特徴量保存部２３０から抽出する部分である。

誤り区間前後の未知語の適切なモデルを作成しない場合や、誤り区間前後の音響的な情報が拘束条件の適用に必要ない場合は、図２の誤り区間特徴量抽出部２６０は、誤り区間前後コンテキスト指定部２５０により指定された誤り区間（誤り区間の前または後または両方の認識単位を含まなくてもよい）の特徴量データを、特徴量保存部２３０から抽出してもよい。

訂正部２７０は、誤り区間特徴量抽出部２６０により抽出された特徴量データを再度音声認識する部分である。この訂正部２７０は、音響モデル保持部２８１、言語モデル保持部２８２、および辞書保持部２８３を用いて音声認識を行う。さらに、この訂正部２７０は、誤り区間前後コンテキスト指定部２５０により指定された前後の音声区間で示される単語（前後コンテキスト）を拘束条件として音声認識を行う。前後コンテキストが未知語であった場合は、拘束条件を適用する前に、未知語処理部３００で未知語のＮグラムと接続確率を作成し、言語モデル保持部２８２に登録しておくことができる。図５（ｂ）に、誤り区間前後コンテキスト指定部２５０により指定された単語に基づいて認識処理を行うときの概念図を示す。図５（ｂ）に示すように、誤り区間の前の区間の単語Ｗ１ａと後の区間の単語Ｗ２ａとを拘束条件とした場合、認識候補は限られたものとなる。よって、認識の精度を向上させることができる。図５（ｂ）の例では、認識候補としてＡ〜Ｚに絞り込むことができ、この絞り込まれた後方の中から適切な候補を選択することができ、効率的に認識処理を行うことができる。

拘束条件を設定する際に、単語群Ｗ１と単語群Ｗ２の単語情報、例えば品詞や係り受けなどの単語情報を利用することで、拘束条件とすることができる。

音響モデル保持部２８１は、音素とそのスペクトルを対応付けて記憶するデータベースである。言語モデル保持部２８２は、単語、文字などの接続確率を示す統計的情報を記憶する部分である。辞書保持部２８３は、音素とテキストとのデータベースを保持するものであり、例えばＨＭＭ（Hidden Marcov Model)を記憶する部分である。

統合部２８０は、受信部２３５において受信された音声認識結果のうち、誤り区間外のテキストデータと、訂正部２７０において再認識されたテキストデータとを統合する部分である。この統合部２８０は、訂正部２７０において再認識されたテキストデータを統合する位置を示す誤り区間（時間情報）にしたがって、統合する。

表示部２９０は、統合部２８０において統合されて得られたテキストデータを表示する部分である。なお、表示部２９０は、サーバ装置１２０において認識された認識結果を表示する構成とされていることが好ましい。また、訂正部２７０において再認識された結果と、誤り区間におけるサーバ装置１２０において認識された認識結果とが同じである場合は、その認識結果の表示を回避するように構成することが好ましく、またその場合には、認識不可である旨を表示するようにしてもよい。さらに、訂正部２７０において再認識して得られた認識結果と、サーバ装置１２０において認識されて得られた認識結果との間で時間情報がずれていた場合も、誤っている可能性があるため、認識結果の表示を回避し、認識不可である旨を表示することが好ましい。

［クライアント装置１１０の動作］
上記のように構成されたクライアント装置１１０の動作について説明する。図６は、クライアント装置１１０の動作を示すフローチャートである。マイクを介して入力された音声は、特徴量算出部２１０によりその特徴量データが抽出される（Ｓ１０１）。そして、抽出された特徴量データは特徴量保存部２３０に保存される（Ｓ１０２）。次に、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。

次に、サーバ装置１２０において、圧縮された特徴量データを伸張した後、特徴量データに基づく音声認識が行われ、その認識結果がサーバ装置１２０からクライアント装置１１０へ送信され、クライアント装置１１０の受信部２３５により認識結果が受信される（Ｓ１０５）。そして、誤り区間指定部２４０により認識結果から誤り区間が指定される（Ｓ１０６）。

そして、誤り区間前後コンテキスト指定部２５０および未知語処理部３００により、以下のような未知語処理が実行される（Ｓ１０６ａ）。即ち、誤り区間前後コンテキスト指定部２５０により上記指定された誤り区間に基づいて前後コンテキストが指定され、未知語処理部３００により上記の前後コンテキストに未知語が含まれるか否かが判定される。ここで、未知語が含まれる場合、未知語処理部３００により、その未知語のＮグラムおよび接続確率が作成され、作成された未知語のＮグラムおよび接続確率が言語モデルに登録される。このようなＳ１０６ａの未知語処理については、後に詳述する。

そして、この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが特徴量保存部２３０から抽出される（Ｓ１０７）。ここで抽出された特徴量データに基づいて訂正部２７０により音声認識が再度行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、統合部２８０により、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部２９０に表示される（Ｓ１０９）。

以下、上述のＳ１０６ａにおける未知語処理について詳細に説明する。図７は、その詳細な処理を示すフローチャートである。以下、図５（ｂ）を適宜参照しながら説明する。

誤り区間前後コンテキスト指定部２５０は、図５（ｂ）に示す、誤り区間の前の単語Ｗ１ａとその前（誤り区間の２つ前）の単語Ｗ１ｂから成る単語群Ｗ１を指定し、未知語処理部３００は、後述する図８の処理により、上記の単語Ｗ１ａとその品詞、および、その前の単語Ｗ１ｂを保存する（Ｓ４０１）。同様に、Ｓ４０２では、誤り区間前後コンテキスト指定部２５０は、図５（ｂ）に示す、誤り区間の後の単語Ｗ２ａとその後（誤り区間の２つ後）の単語Ｗ２ｂから成る単語群Ｗ２を指定し、未知語処理部３００は、後述する図８の処理により、上記の単語Ｗ２ａとその品詞、および、その後の単語Ｗ２ｂを保存する。

次に、誤り区間前後コンテキスト指定部２５０により、この単語Ｗ１ａの開始時間Ｔ１（図５（ｂ））が指定されて保存され（Ｓ４０３）、同様に、単語Ｗ２ａの終了時間Ｔ２（図５（ｂ））が指定されて保存される（Ｓ４０４）。

このようにして、誤り区間にさらにその前後一単語ずつ加えて得られた誤り区間、即ち、開始時間Ｔ１から終了時間Ｔ２までの区間、についての特徴量データが、誤り区間特徴量抽出部２６０により抽出される（Ｓ４０５）。そして、単語Ｗ１ａを始点とし、単語Ｗ２ａを終点とする拘束条件の設定が、訂正部２７０により行われる（Ｓ４０６）。さらに、この拘束条件にしたがって、訂正部２７０により、特徴量データに対する認識処理が行われ、訂正処理が実行される（Ｓ４０７）。

以下では、上述のＳ４０１およびＳ４０２における処理についてさらに詳細に説明する。図８は、その詳細な処理を示すフローチャートである。適宜、図１０（ａ）と図１０（ｂ）を参照しながら説明する。

図８のＳ５０１では、コンテキスト指定部２５０は、単語群（Ｓ４０１では誤り区間の前の単語Ｗ１ａとその前の単語Ｗ１ｂから成る単語群Ｗ１、Ｓ４０２では誤り区間の後の単語Ｗ２ａとその後の単語Ｗ２ｂから成る単語群Ｗ２）を指定し、入力された音声から上記単語群を取り出す。このとき、コンテキスト指定部２５０は、上記単語群を成す各単語の単語情報を抽出し、上記単語群および各単語の単語情報を未知語候補単語抽出部３１０に渡す。

次に、Ｓ５０２では、未知語候補単語抽出部３１０は、誤り区間に近接する単語（即ち、誤り区間の前後の単語であり、Ｓ４０１では単語Ｗ１ａ、Ｓ４０２では単語Ｗ２ａ）を検索語とし、当該検索語が言語モデル保持部２８２または辞書保存部２８３に含まれるか否かを検索することで、検索語が未知語であるか否かを判定する。ここで、検索語が未知語でないと判定されれば、図８の処理を終了する。認識結果などに付随した情報の一部として、未知語という識別子がついている場合は、その識別子を参照して、検索語が未知語であるか否かを判定してもよい。また、検索語が未知語と判定されても図８の処理を終了せずに、Ｓ５０３の処理に進んでもよい。その場合、以降、当該検索語に対して未知語と同様の処理を行ってよい。また、検索語が未知語かどうかを判定するＳ５０２のステップがなくてもよい。

一方、検索語が未知語であると判定されれば、Ｓ５０３において、未知語候補単語抽出部３１０は、誤り区間に近接する単語の品詞と、次に近接する単語（即ち、Ｓ４０１では単語Ｗ１ｂ、Ｓ４０２では単語Ｗ２ｂ）の単語情報を抽出する。この抽出は、Ｓ５０１でコンテキスト指定部２５０から渡された情報から抽出すればよい。ただし、抽出すべき情報が、コンテキスト指定部２５０から渡された情報に含まれていない場合は、未知語候補単語抽出部３１０は、抽出すべき情報を言語モデル保持部２８２または辞書保存部２８３から抽出したり、形態素解析を実施し単語情報を生成したり、サーバ装置１２０に単語情報の送信を要求してもよい。

次に、Ｓ５０４では、未知語候補単語抽出部３１０は、誤り区間に近接する単語の品詞と次に近接する単語の単語情報とを含むＮグラムを、言語モデル保持部２８２から抽出する。例えば、誤り区間の前の単語の品詞が「品詞Ａ」で、誤り区間の２つ前の単語の単語情報が「単語Ｗ１ｂ」を特定する情報であった場合、図１０（ａ）に示すように、単語Ｗ１ｂとその後につながる品詞Ａの単語とを含むＮグラムとして、「単語Ｗ１ｂと単語Ａ１のつながり」および「単語Ｗ１ｂと単語Ａ２のつながり」が抽出される。

仮に、誤り区間の前の単語の品詞である「品詞Ａ」だけをキーとして抽出を行う場合は、品詞Ａの単語として、単語Ａ１、Ａ２、Ａ３…の多数の単語が抽出されてしまい、絞込みが困難である。しかし、上記のように、誤り区間の前の単語の品詞とともに、誤り区間の２つ前の単語の単語情報もキーとして、Ｎグラムの抽出を行うことで、「単語Ｗ１ｂと単語Ａ１のつながり」および「単語Ｗ１ｂと単語Ａ２のつながり」の２つに、効率よく絞り込むことができる。

次に、Ｓ５０５では、未知語候補単語抽出部３１０は、抽出されたＮグラム中の未知語部分の単語を抽出する。図１０（ａ）の例では、「単語Ａ１」、「単語Ａ２」が抽出される。抽出後、未知語候補単語抽出部３１０は、抽出された未知語部分の単語（即ち、未知語の類似単語候補）を候補Ｎグラム抽出部３２０へ渡す。

次に、Ｓ５０６では、候補Ｎグラム抽出部３２０は、抽出された未知語部分の単語を含むＮグラムおよび接続確率を、言語モデル保持部２８２から抽出し、接続確率作成部３３０に渡す。例えば、図１０（ｂ）に示すように、未知語部分の単語（単語Ａ１、Ａ２）を含むＮグラムおよび接続確率として、６組のＮグラムおよび接続確率が抽出される。

次に、Ｓ５０７では、接続確率作成部３３０は、抽出されたＮグラムおよび接続確率において、Ｎグラムの未知語品詞部分を未知語に置換することで、未知語のＮグラムおよび接続確率を作成し、言語モデル登録部３４０へ渡す。

次に、Ｓ５０８では、言語モデル登録部３４０は、作成された未知語のＮグラムおよび接続確率を言語モデル保存部２８２に登録する。また、言語モデル登録部３４０は、拘束条件として適用するために、上記未知語のＮグラムおよび接続確率を訂正部２７０に入力する。

本実施形態では、上記のように２段階に検索することで、未知語の汎用的なモデルを作成することができる。

第１段階目で未知語の品詞と、未知語の前または後の１つまたは複数の単語情報を利用して絞り込むことにより、当該未知語と単語連接傾向の近い単語が１つまたは複数抽出できる。

そして、未知語の単語の候補を抽出した後、第２段階目で、当該単語候補のＮグラムと接続確率を言語モデルから１つまたは複数抽出し、未知語のＮグラムと接続確率を作成することで、当該未知語の汎用的なモデル（Ｎグラムおよび接続確率）を作成できるという優れた効果が得られる。

以下、本実施形態のクライアント装置１１０における作用効果について説明する。このクライアント装置１１０において、特徴量算出部２１０が入力された音声の特徴量データを算出し、特徴量圧縮部２２０が、特徴量データを圧縮して、音声認識装置であるサーバ装置１２０に送信する。一方、特徴量保存部２３０は、特徴量データを保存する。そして、サーバ装置１２０において認識処理を行い、受信部２３５は認識結果をサーバ装置１２０から受信する。誤り区間指定部２４０は、受信された認識結果において、認識誤りが発生している誤り区間を指定する。この誤り区間指定部２４０は、信頼度に基づいて判断することができる。そして、誤り区間特徴量抽出部２６０は、誤り区間の特徴量データを抽出し、訂正部２７０は、抽出された誤り区間における認識結果に対し、再認識処理を行うことにより訂正処理を行う。すなわち、統合部２８０において、再認識された結果と、受信部２３５において受信された認識結果とを統合することにより、訂正処理が行われ、表示部２９０は訂正された認識結果を表示することができる。

これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。なお、信頼度は、サーバ装置１２０から受信してもよいし、クライアント装置１２０において計算してもよい。

さらに、このクライアント装置１１０は、誤り区間前後コンテキスト指定部２５０を用いて、拘束条件に従った訂正処理（再認識処理）を行うことができる。すなわち、誤り区間の前後の単語を固定しておき、この固定した単語に従った認識処理を行うことでより精度のよい認識結果を得ることができる。

さらに、このクライアント装置１１０は、未知語処理部３００を用いて、未知語の言語モデルを作成することができる。また、未知語の前後の単語の単語情報を利用することで、未知語により近い単語を言語モデル保持部２８２から抽出することができる。また、抽出した未知語に近い単語をもとにＮグラムと接続確率を言語モデル保持部２８２から抽出することで、未知語に近い単語のより汎用的な接続確率を得ることができる。

また、単語情報に品詞情報などを含めることで、より適切な単語を言語モデル保持部２８２から抽出することができる。また、未知語であっても、単語情報を用いることで候補の絞込みができる。

また、未知語の前後の単語の信頼度の情報を用いることで、言語モデル保持部２８２から関連するモデルを抽出する精度を向上することができる。

また、モデル抽出手段を２段階にすることで、対象単語の類似単語を抽出した上で、類似単語の一般的なモデルを作成でき、対象単語の一般的なモデルを作成することができる。

また、作成された未知語のモデルを言語モデル保持部２８２に登録することで、未知語を含んだ言語処理が可能になり、例えば、音声認識、形態素解析にも利用することができる。また、日本語仮名漢字変換の辞書など別の辞書にも登録することで、音声認識以外の言語処理に利用することができる。

また、すでに言語モデルに登録された単語に関しても同様にモデルを作成し、言語モデル保持部２８２に登録されたモデルを更新することで、より当該単語に近いモデルが言語モデル保持部２８２に登録されることになり、登録された言語モデルをより使われやすい条件に近づけることができる。

なお、本実施形態において、１回目の認識処理をサーバ装置１２０で行っているが、これに限定するものではなく、１回目の認識処理をクライアント装置１１０において行い、２回目の認識処理をサーバ装置１２０において行うようにしてもよい。その際、当然に誤り区間の指定処理等はサーバ装置１２０において行われる。例えば、その場合には、クライアント装置１１０は、特徴量算出部２１０において算出された特徴量データに基づいて認識処理を行う認識処理部を備え、また送信部２２５は、ここでの認識結果と特徴量データとをサーバ装置１２０に送信する。

サーバ装置１２０では、クライアント装置１１０における誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、特徴量保存部２３０、誤り区間特徴量抽出部２６０、訂正部２７０に相当する各部を備えており、クライアント装置１１０から送信された特徴量データは、特徴量保存部に記憶させ、認識結果に基づいて誤り区間の指定、誤り区間前後コンテキストの指定が行われ、これらに基づいて、先に保存した特徴量データの訂正処理（認識処理）が行われる。このように処理された認識結果はクライアント装置１１０に送信される。

また、誤り区間前後コンテキスト指定部２５０により定められた拘束条件を用いて再認識（訂正処理）を行っているが、このような拘束条件を用いることなく、再認識処理を行うようにしてもよい。未知語の言語モデルを適切に設定できないと見込まれる場合は、拘束条件を用いないことで認識率を向上することができる。

また、サーバ装置１２０において認識方法と、本実施形態における認識方法を変えるようにすることが好ましい。すなわち、サーバ装置１２０において、不特定多数のユーザの音声を認識する必要があるため、汎用的である必要がある。例えば、サーバ装置１２０において用いられる音響モデル保持部、言語モデル保持部、辞書保持部における各モデル数、辞書数を大容量のものとし、音響モデルにおいては音素の数を多くし、言語モデルにおいては単語の数を大きくするなど、各モデル数、辞書数を大容量のものとしあらゆるユーザに対応できるようにする。

一方、クライアント装置１１０における訂正部２７０は、あらゆるユーザに対応させる必要はなく、そのクライアント装置１１０のユーザの音声に合致した音響モデル、言語モデル、辞書を用いるようにする。そのため、このクライアント装置１１０は、訂正処理、認識処理、またメール作成時における文字入力処理を参考に、適宜各モデル、辞書を更新することが必要となる。

本実施形態における通信システムのシステム構成図である。クライアント装置１１０の機能ブロック図である。クライアント装置１１０のハードウェア構成図である。発声内容、認識結果、音声区間、信頼度の各種情報の具体例を示す図である。誤り区間前後コンテキストを説明するための図である。クライアント装置１１０の動作を示すフローチャートである。図６のＳ１０６ａにおける未知語処理を示すフローチャートである。図７のＳ４０１およびＳ４０２における処理を示すフローチャートである。未知語処理部３００の機能ブロック図である。未知語処理の内容を説明するための図である。

符号の説明

１１…ＣＰＵ、１２…ＲＡＭ、１３…ＲＯＭ、１４…入力装置、１５…出力装置、１６…通信モジュール、１７…補助記憶装置、１１０…クライアント装置、１２０…サーバ装置、２１０…特徴量算出部、２２０…特徴量圧縮部、２２５…送信部、２３０…特徴量保存部、２３５…受信部、２３６…操作部、２３７…結果保存部、２３８…ユーザ入力検出部、２４０…誤り区間指定部、２５０…誤り区間前後コンテキスト指定部、２６０…誤り区間特徴量抽出部、２７０…訂正部、２８０…統合部、２８１…音響モデル保持部、２８２…言語モデル保持部、２８３…辞書保持部、２９０…表示部、３００…未知語処理部、３０５…言語モデル作成装置、３１０…未知語候補単語抽出部、３２０…候補Ｎグラム抽出部、３３０…接続確率作成部、３４０…言語モデル登録部。

Claims

対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出手段と、
前記単語列抽出手段により抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出手段と、
前記モデル抽出手段により抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成手段と、
を備え、
前記モデル抽出手段は、
前記単語列抽出手段により抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、
前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、
ことを特徴とする言語モデル作成装置。
前記モデル抽出手段は、
前記単語列に含まれた対象単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも１つを含む単語情報、および、前記単語列に含まれた隣接単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも１つを含む単語情報を参照して、前記単語列を含むモデルを抽出する、
ことを特徴とする請求項１に記載の言語モデル作成装置。
前記モデル抽出手段は、
前記単語列に含まれた隣接単語に関する信頼度をさらに参照して、前記単語列を含むモデルを抽出する、
ことを特徴とする請求項１または２に記載の言語モデル作成装置。
前記単語列抽出手段は、
対象単語の前に隣接する単語に関する信頼度および前記対象単語の後ろに隣接する単語に関する信頼度を参照して、前記単語列を抽出する、
ことを特徴とする請求項１乃至３のいずれか１項に記載の言語モデル作成装置。
前記モデル作成手段により作成された前記対象単語に対応するモデルを、前記言語モデル保持部に登録する言語モデル登録手段、をさらに具備することを特徴とする請求項１乃至４のいずれか１項に記載の言語モデル作成装置。
前記言語モデル登録手段は、
前記作成された前記対象単語に対応するモデルが前記言語モデル保持部に既に登録されている場合、前記作成された前記対象単語に対応するモデルをもって、既に登録されているモデルを更新する、
ことを特徴とする請求項１乃至５のいずれか１項に記載の言語モデル作成装置。
言語モデル作成装置により実行される言語モデル作成方法であって、
対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出ステップと、
前記単語列抽出ステップにて抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出ステップと、
前記モデル抽出ステップにて抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成ステップと、
を備え、
前記モデル抽出ステップにて、前記言語モデル作成装置は、
前記単語列抽出ステップにより抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、
前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、
ことを特徴とする言語モデル作成方法。