JP2000259176A

JP2000259176A - 音声認識装置およびその記録媒体

Info

Publication number: JP2000259176A
Application number: JP11060640A
Authority: JP
Inventors: Toru Imai; 亨今井; Akio Ando; 彰男安藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-03-08
Filing date: 1999-03-08
Publication date: 2000-09-22

Abstract

(57)【要約】（修正有）【課題】連続発話から文法的に誤って分割された音声
も認識可能とする。【解決手段】学習テキストから作成された言語モデル
を使用して音声認識を行う音声認識装置において、学習
テキストに記載された文の先端部分、読点及び文の末尾
部分を検出し、検出された文の先頭部分の前、文の末尾
部分の後に区切れ記号を挿入すると共に、読点を区切れ
記号に置換して、区切れ記号によって区切られた文字列
で言語モデルを作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語モデルを使用
して音声認識を行う音声認識装置およびその記録媒体に
関する。

【０００２】

【従来の技術】従来、大量の語彙を有する言語モデルを
使用する音声認識装置は大語彙連続音声認識装置とも呼
ばれている。従来この種の大語彙連続音声認識装置は、
学習テキストの各分の文頭に文頭記号＜ｓ＞を挿入し、
文末に文末記号＜／ｓ＞を挿入してｎ−ｇｒａｍ言語モ
デルを学習する。また、文頭記号＜ｓ＞ではじまり、文
末記号＜／ｓ＞で終わる文法制約下で大語彙連続音声認
識を行うのが一般的である。こうした大語彙連続音声認
識装置は、たとえば、次の文献、Ronald Rosenfeld,
“The CMU Statistical Language Modeling Toolkit an
d its use in the 1994 ARPA CSR Evaluation ”, Proc
eedings of the Spoken Language Systems Technology
Workshop, pp. 47-50(1995.1)の１．３節およびＴａｂ
ｌｅ１に記載されている。

【０００３】

【発明が解決しようとする課題】放送音声の認識を番組
単位で行うような場合、自動的に音声を適当な長さに分
割する必要がある。無音の長さを基準にして音声を分割
すると、切り出された発話は必ずしも文法的な意味での
正しい文とはならず、文の途中で始まっていたり、複数
の文を含んでいたり、文の途中で終わっているようなこ
とがある。

【０００４】従来の大語彙連続音声認識装置では、例え
ば、認識対象の連続発話を理想的には、＜ｓ＞Ｗ₁ Ｗ₂ ありました＜／ｓ＞＜ｓ＞私はＷ₃ Ｗ₄ ＜／ｓ＞のように文法的な文単位で分割してデコードしたい。し
かし、実際には無音の長さによっては、＜ｓ＞ありました私は＜／ｓ＞というように、文法的に誤って分割された発話ができて
しまうことがある。特に、国会中継における大臣の答弁
のように、考えながらしゃべっているような場合には、
このようなことがよく起こる。こうした発話を認識する
時、従来のbigram（バイグラム、２つの単語について関
連の分析）を適用すると、文頭、文中、文末において、
学習時と認識時の不整合が起こり、bigramの値Ｐ（あり
｜＜ｓ＞）、Ｐ（私｜ました）、Ｐ（＜／ｓ＞｜は）な
どが低い値を示し、音声の認識率が低下してしまう。な
お、ここで、たとえば、Ｐ（あり｜＜ｓ＞）は「＜ｓ
＞」と「あり」との間のbigramの値である。

【０００５】そこで、本発明は、上述の点に鑑みて、音
声認識率をさらに向上させる音声認識装置およびその記
録媒体を提供することにある。

【０００６】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、学習テキストから言語モ
デルを作成し、当該作成された言語モデルを使用して音
声認識を行う音声認識装置において、前記学習テキスト
に記載された文の先頭部分を検出する第１の検出手段
と、前記学習テキストに記載された文の中の読点を検出
する第２の検出手段と、前記学習テキストに記載された
文の末尾部分を検出する第３の検出手段と、前記第１の
検出手段により検出された文の先頭部分の前および前記
第３の検出手段により検出された文の末尾部分の後に区
切れを示す記号を挿入すると共に、前記第２の検出手段
により検出された読点を前記区切れを示す記号と置換す
る文字処理手段とを具え、前記区切れ記号により区切ら
れた文字列で前記言語モデルを作成することを特徴とす
る。

【０００７】請求項２の発明は、請求項１に記載の音声
認識装置において、前記言語モデルにｎ−ｇｒａｍを使
用することを特徴とする。

【０００８】請求項３の発明は、請求項１に記載の音声
認識装置において、前記第３の検出手段は文末を示し、
かつ、発音不可の文字を検出し、当該検出された文字を
前記区切れを示す記号と置換することにより当該区切れ
を示す記号を挿入することを特徴とする。

【０００９】請求項４の発明は、文の先頭部分、文の読
点が記載されていた部分、文の末尾部分に、区切れを示
す同一の記号が挿入されたテキストから作成された言語
モデルを記憶しておく記憶手段と、当該記憶された言語
モデルを使用して文中における前記区切れを許しつつ、
前記区切れ記号で始まり、前記区切れ記号で終わる文法
制約の下に音声認識を行う音声認識手段とを具えたこと
を特徴とする。

【００１０】請求項５の発明は、学習テキストから言語
モデルを作成し、当該作成された言語モデルを使用して
音声認識を行う音声認識装置で実行されるプログラムを
記録した音声認識装置の記録媒体において、前記プログ
ラムは、前記学習テキストに記載された文の先頭部分を
検出する第１の検出ステップと、前記学習テキストに記
載された文の中の読点を検出する第２の検出ステップ
と、前記学習テキストに記載された文の末尾部分を検出
する第３の検出ステップと、前記第１の検出ステップに
おいて検出された文の先頭部分の前および前記第３の検
出ステップにおいて検出された文の末尾部分の後に区切
れを示す記号を挿入すると共に、前記第２の検出ステッ
プにおいて検出された読点を前記区切れを示す記号と置
換する文字処理ステップとを具え、前記区切れ記号によ
り区切られた文字列で前記言語モデルを作成することを
特徴とする。

【００１１】請求項６の発明は、請求項５に記載の音声
認識装置の記録媒体において、前記言語モデルにｎ−ｇ
ｒａｍを使用することを特徴とする。

【００１２】請求項７の発明は、請求項５に記載の音声
認識装置の記録媒体において、前記第３の検出ステップ
では文末を示し、かつ、発音不可の文字を検出し、当該
検出された文字を前記区切れを示す記号と置換すること
により当該区切れを示す記号を挿入することを特徴とす
る。

【００１３】請求項８の発明は、音声認識装置により実
行するプログラムを記録した音声認識装置の記録媒体に
おいて、前記プログラムは、文の先頭部分、文の読点が
記載されていた部分、文の末尾部分に、区切れを示す同
一の記号が挿入されたテキストから作成された言語モデ
ルを記憶手段に記憶する記憶ステップと、当該記憶され
た言語モデルを使用して文中における前記区切れを許し
つつ、前記区切れ記号で始まり、前記区切れ記号で終わ
る文法制約の下に音声認識を行う音声認識ステップとを
具えたことを特徴とする。

【００１４】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。

【００１５】本発明実施形態の音声認識装置の機能構成
を図１に示す。図１において、言語モデル学習部２は学
習テキスト１における各文の文頭、文頭、読点、文末を
すべて１つの息継ぎ記号に置き換えてｎ−ｇｒａｍ（ｎ
個の単語から構成される単語列）言語モデル３を学習す
る。

【００１６】音声認識部４は文中の息継ぎ記号を許しつ
つ息継ぎ記号で始まり、息継ぎ記号で終わる文法の制約
下で大語彙連続音声認識を行う。認識対象の連続音声か
ら無音を区切りにして自動分割された発話８が音声認識
部４に入力され、音声認識結果５が音声認識部４から出
力される。

【００１７】言語モデル学習部２の機能構成を図２に示
す。図２において息継ぎ記号挿入部２１は学習テキスト
１に記載された各文の文頭、読点、文末をすべて１つの
息継ぎ記号＜ｂｒ＞に置き換え、変換済み学習テキスト
２２を作成する。例えば、東京は、晴れます。大阪は、くもり
です。

【００１８】という学習テキストを、＜ｂｒ＞東京は＜ｂｒ＞晴れます＜ｂｒ＞
大阪は＜ｂｒ＞くもりです＜ｂｒ＞のように変換する。このように変換された変換済み学習
テキスト２２からｎ−ｇｒａｍ計算部２３でｎ−ｇｒａ
ｍ言語モデル３を計算する。この計算方法は従来とほぼ
同様であり、学習テキストの区切りが息継ぎ記号である
点が従来と異なる。

【００１９】図１の音声認識部４の詳細を図３に示す。
図３において、音声認識部４は言語モデル３と音響モデ
ル４２と発音辞書４３を基にして発話８に最も近い単語
列を探索部４１で探索し、認識結果５として出力する。
この際、探索部４１では、言語モデル３の息継ぎ記号＜
ｂｒ＞を文中に許しつつ、息継ぎ記号＜ｂｒ＞で始まり
息継ぎ記号＜ｂｒ＞で終わる文法の制約下で従来と同様
の大語彙連続音声認識を行う。

【００２０】以上の音声認識装置の具体的なシステム構
成の一例を図４に示す。本実施形態の音声認識装置とし
てはパソナルコンピュータを使用する形態を説明する。
図４において、ＣＰＵ１００、システムメモリ１１０、
入力装置１２０、ディスク読み取り装置１３０、ハード
ディスク記憶装置（以下、ハードディスクと略記する）
１４０、ディスプレイ１５０および音声入力装置１６０
がバスに接続されている。

【００２１】ＣＰＵ１００はシステムメモリ１１０にロ
ードされた音声認識プログラムに従って音声に係る処理
を行う。本実施形態では、言語モデルの作成処理、言語
モデルを使用した音声認識処理が可能である。

【００２２】ＣＰＵ１００はさらにハードディスク１４
０に保存されたオペレーティングシステムにしたがっ
て、システム制御を行う。

【００２３】システムメモリ１１０はＲＯＭおよびＲＡ
Ｍを有し、ＣＰＵ１００が実行するプログラム、演算に
使用されるデータ等を記憶する。入力装置１２０はキー
ボードおよびマウスを有し、キーボードおよびマウスを
使用して、ＣＰＵ１００に対する各種の命令、データの
入力を行う。入力装置１２０は言語モデルの作成に使用
する学習テキストを入力することもできる。

【００２４】ディスク読み取り装置１３０はフロッピ
ー、ＣＤＲＯＭなどの携帯用記録媒体から記録データを
読み取る。本実施形態では、上述の音声認識プログラム
を記録媒体から読み取る。

【００２５】ハードディスク１４０はシステム制御で使
用するオペレーティングシステム、音声認識プログラ
ム、音声認識プログラムで使用する言語モデル、その
他、音声認識に必要なデータを保存記憶する。ディスプ
レイ１５０は入力装置１２０から入力されたデータや、
音声認識結果などをＣＰＵ１００の制御の下に表示す
る。音声入力装置１６０はマイクロホンおよびアナログ
デジタル変換器を有し、入力された音声をＣＰＵ１００
が処理可能なデジタル音声信号の形態で出力する。

【００２６】この形態では図１に示す各構成要素を音声
認識プログラムで実現する。

【００２７】従来と同様の部分については説明を省略
し、本発明に係る処理を説明する。

【００２８】図５は言語モデル学習部２の中の息継ぎ記
号挿入部２１を実現するためのプログラム内容を示す。

【００２９】このプログラムは、音声認識プログラムの
一部としてハードディスク１４０に保存され、学習処理
の実行時、システムメモリ１１０にロードされ、ＣＰＵ
１００により実行される。なお、学習テキスト１は入力
装置１２０から文字入力されたり、ディスク読み取り装
置１３０を介して、記録媒体から入力され、ハードディ
スク１４０内に記憶されているものとする。

【００３０】図５において、ＣＰＵ１００は学習テキス
トの第１行目の１行分の文字列を読み取り、システムメ
モリ１１０内のワーク領域に一時記憶する（ステップ２
００）。

【００３１】次にワーク領域に記憶された１行分の文字
列の中の読み取るべき文字位置、この場合、第１番目を
設定し、文字を読み取る。以下ステップ２３０〜ステッ
プ２５０のいずれかのステップで息継ぎ記号＜ｂｒ＞と
置換あるいは挿入する文字を検出する。

【００３２】ステップ２３０は読み取った文字が文の先
頭の文字（先頭文字と略記）であるか否かを判定する。
先頭文字は、以下の特徴を持つ。

【００３３】（１）学習テキストの中からタブ、空白、
後述の文末を表す文字（文末文字と略記）および発音で
きない文字（記号を含む）をすべて除いた文字列の中の
先頭に位置する文字であること。

【００３４】（２）その文字の前にタブコードがあるこ
と、（３）その文字の前に空白文字（連続の複数の空白
文字列も含む）があり、空白文字の前に改行コード（制
御コード）があること、したがって、上記（１）および
（２）の条件について読み取りの文字およびその文字の
全後の文字との関係をＣＰＵ１００判定することによ
り、読み取りの文字が先頭の文字であるか否かを判定す
ることができる。

【００３５】ステップ２４０では読み取りの文字が読点
であるか否かを判定する。読点はＪＩＤ、ＳＪＩＳな
ど、読点に対応する文字コードであるか否かを判定すれ
ばよい。

【００３６】ステップ２５０では読み取りの文字が文末
文字であるか否かを判定する。文末文字は次の特徴を持
つ。

【００３７】（１）その文字の後に文末に位置すること
が文法的に定められている文字。たとえば、「。」、
「？」、「．」等の発音不可の文字があること（２）その文字の後に強制改行コードがあること。ただ
し、（１）の発音不可の文字に引き続く改行コードは発
音不可の文字の中に含めることができる。

【００３８】（３）その文字が学習テキストの最終に位
置し、発音可能な文字であること以上の検出処理により
挿入あるいは置換すべき文字が検出されるとＣＰＵは読
み取りの文字を息継ぎ記号＜ｂｒ＞、と置換／挿入され
る。文頭、文末文字が発音できない文字および読点につ
いては置換が行われ、学習テキストの先頭／末尾にひら
がな、漢字が現れるような場合には、その文字の前／後
ろに息継ぎ記号が挿入される（ステップ２３５，２４
５，２５５）。

【００３９】読み取りの文字が検出対象の文字ではない
場合には、手順はステップ２６０から２１０へと戻り、
１行の中の読み取りの文字位置を次の位置に更新し、上
述のステップ２３０〜２５０の置換／挿入対象の文字検
出処理を続ける。

【００４０】このようにして、１行全ての文字について
上記文字検出処理を終了すると、読み取り行を次の行に
更新し（ステップ２６０→ステップ２７０→ステップ２
７５）、以下、上述の文字検出処理、置換／挿入処理を
学習テキストの最終部分まで続ける。

【００４１】以上の処理を実行することにより、文の文
頭の前、文の文末の後に息継ぎ記号を挿入し、読点を息
継ぎ記号と置換することができる。

【００４２】上述の実施形態の他に次の形態を実施でき
る。

【００４３】１）上述の実施形態ではスタンドアローン
（単体）の音声認識装置を紹介したが、電話の音声、テ
レビ映像から取り出した音声を認識対象として入力する
ことが可能である。

【００４４】２）本発明で言う記録媒体はフロッピー
（登録商標）ディスク、ＣＤＲＯＭ等の記録媒体に限定
されない。プログラムを記録（記憶）できる媒体であれ
ばいずれでもよい。たとえば、ＩＣメモリ、ハードディ
スク記憶装置なども記録媒体として使用することができ
る。さらにはこのような記録媒体は音声認識装置内に設
置する必要はなく、無線、有線を介して、他の装置内に
設置された記録媒体から音声認識装置内の記憶装置に音
声認識プログラムをダウンロード（転送すること）して
もよいこと勿論である。

【００４５】３）学習テキストについては、息継ぎ記号
の置換／挿入対象の文字検出に先立って前処理を行う
と、上記文字検出処理が容易となる。前処理としては、
学習テキストから、強制改行コード、インデントコード
等不要な制御コードや上述の息継ぎ記号の挿入／置換の
ための文字処理とは関係ない発音不可の文字コード、た
とえば、「」、“ ”などの文字コードを消去するこ
とが挙げられる。これらの文字コードを消去することに
より、検出対象の文字数が減少するので、文字検出処理
が迅速となり、また、文字検出のための判別条件も簡素
化される。

【００４６】４）上述の実施形態の音声認識装置は言語
モデル作成機能を有していると言えるが、上述の言語モ
デルを他の情報処理装置で作成しておき、言語モデルを
音声認識装置内の記憶装置、たとえば、ハードディスク
１４０に記憶し、音声認識に使用することもできる。こ
の場合のＣＰＵ１００が実行する音声認識プログラムの
内容を図６に示す。この形態では、入力装置１２０か
ら、言語モデルの入力の指示または音声認識の指示を入
力する（ステップ３００）。

【００４７】言語モデルの入力の指示を受けた場合に
は、入力装置１２０やディスク記憶装置１３０等から入
力される言語モデル、すなわち、文頭、読点位置部分、
文末部部分に同一の区切れ記号が挿入された、学習テキ
ストから学習されたｎ−ｇｒａｍなどの言語モデル（デ
ータ）をハードディスク１４０に記憶する（ステップ３
１０→３１５）。

【００４８】一方、音声認識が指示された場合には、音
声入力装置１６０から入力される音声に対して、ハード
ディスク１４０に記憶された言語モデルや音響モデル等
を使用して音声認識を行う（ステップ３２０→３２
５）。

【００４９】言語モデルデータの入力方法としては、デ
ィスクを介したオフライン転送、有線、無線を介したオ
ンライン転送の方法を使用することができる。

【００５０】５）文頭、文末の判定には上述した判定条
件以外のにも、公知、周知の判定条件を使用するとよ
い。

【００５１】６）上述の実施形態では文の区切れを示す
記号として息継ぎ記号を使用したが、文の区切れを示す
ように定義された記号であれば、他の記号を使用するこ
とができる。

【００５２】７）本発明で言う学習テキストとは、予
め、ワープロ、あるいはワープロソフトで作成された文
書ファイル、データベースに登録するレコード等、文
字、数字等を有するデータを意味する。このような学習
テキストは、キーボードから入力してもよいし、通信
（オンライン）、携帯用記録媒体（オフライン）の形態
で入力してもよい。

【００５３】

【発明の効果】以上、説明したように、請求項１、５の
発明によれば、同一の区切れ記号によって、文頭、文
末、読点を、言語モデルにおいて同様に扱うことができ
るので、連続発話から文法的に誤って分割された音声で
も認識することが可能となる。これにより、文法的に不
適切な音声の認識精度が従来よりも向上する。

【００５４】請求項２、６の発明では、ｎ−ｇｒａｍの
言語モデルを使用することにより単に音響モデルの音声
認識に比べて、単語の意味的なつながりをも加味した音
声認識を実現でき、認識精度をより高めることができ
る。

【００５５】請求項３、７の発明によれば、文末に固有
の。、？、！などの発音不可の文字を検出することによ
り文末を検出し、区切れ記号と置換することで、これ
ら、音声認識には不要な文末個有文字を削除することが
できる。

【００５６】請求項４、８の発明では読点で文が分割さ
れた言語モデルを使用して音声認識を行うことにより文
法的には不適切な音声の認識率を高めると共に、言語モ
デルのみを外部入力し、言語モデルを最新のものと更新
することが可能となる。これにより、最新の語彙（単
語）で構成される言語モデルを使用して新語が含まれる
音声をも正確に音声認識することができる。

【図面の簡単な説明】

【図１】本発明実施形態の音声認識装置のシステム構成
を示すブロック図である。

【図２】本発明実施形態の言語モデル学習部の機能構成
を示すブロック図である。

【図３】本発明実施形態の音声認識部の機能構成を示す
ブロック図である。

【図４】本発明実施形態の具体的なシステム構成を示す
ブロック図である。

【図５】ＣＰＵ１００の実行する処理手順を示すフロー
チャートである。

【図６】本発明他の実施形態のＣＰＵ１００の処理手順
を示すフローチャートである。

【符号の説明】

１学習テキスト２言語モデル学習部３言語モデル４音声認識部５認識結果６認識対象連続発話音声７自動分割８発話

Claims

【特許請求の範囲】

【請求項１】学習テキストから言語モデルを作成し、
当該作成された言語モデルを使用して音声認識を行う音
声認識装置において、前記学習テキストに記載された文の先頭部分を検出する
第１の検出手段と、前記学習テキストに記載された文の中の読点を検出する
第２の検出手段と、前記学習テキストに記載された文の末尾部分を検出する
第３の検出手段と、前記第１の検出手段により検出された文の先頭部分の前
および前記第３の検出手段により検出された文の末尾部
分の後に区切れを示す記号を挿入すると共に、前記第２
の検出手段により検出された読点を前記区切れを示す記
号と置換する文字処理手段とを具え、前記区切れ記号に
より区切られた文字列で前記言語モデルを作成すること
を特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、前記言語モデルにｎ−ｇｒａｍを使用することを特
徴とする音声認識装置。
【請求項３】請求項１に記載の音声認識装置におい
て、前記第３の検出手段は文末を示し、かつ、発音不可
の文字を検出し、当該検出された文字を前記区切れを示
す記号と置換することにより当該区切れを示す記号を挿
入することを特徴とする音声認識装置。
【請求項４】文の先頭部分、文の読点が記載されてい
た部分、文の末尾部分に、区切れを示す同一の記号が挿
入されたテキストから作成された言語モデルを記憶して
おく記憶手段と、当該記憶された言語モデルを使用して文中における前記
区切れを許しつつ、前記区切れ記号で始まり、前記区切
れ記号で終わる文法制約の下に音声認識を行う音声認識
手段とを具えたことを特徴とする音声認識装置。
【請求項５】学習テキストから言語モデルを作成し、
当該作成された言語モデルを使用して音声認識を行う音
声認識装置で実行されるプログラムを記録した音声認識
装置の記録媒体において、前記プログラムは、前記学習テキストに記載された文の先頭部分を検出する
第１の検出ステップと、前記学習テキストに記載された文の中の読点を検出する
第２の検出ステップと、前記学習テキストに記載された文の末尾部分を検出する
第３の検出ステップと、前記第１の検出ステップにおいて検出された文の先頭部
分の前および前記第３の検出ステップにおいて検出され
た文の末尾部分の後に区切れを示す記号を挿入すると共
に、前記第２の検出ステップにおいて検出された読点を
前記区切れを示す記号と置換する文字処理ステップとを
具え、前記区切れ記号により区切られた文字列で前記言
語モデルを作成することを特徴とする音声認識装置の記
録媒体。
【請求項６】請求項５に記載の音声認識装置の記録媒
体において、前記言語モデルにｎ−ｇｒａｍを使用する
ことを特徴とする音声認識装置の記録媒体。
【請求項７】請求項５に記載の音声認識装置の記録媒
体において、前記第３の検出ステップでは文末を示し、
かつ、発音不可の文字を検出し、当該検出された文字を
前記区切れを示す記号と置換することにより当該区切れ
を示す記号を挿入することを特徴とする音声認識装置の
記録媒体。
【請求項８】音声認識装置により実行するプログラム
を記録した音声認識装置の記録媒体において、前記プロ
グラムは、文の先頭部分、文の読点が記載されていた部分、文の末
尾部分に、区切れを示す同一の記号が挿入されたテキス
トから作成された言語モデルを記憶手段に記憶する記憶
ステップと、当該記憶された言語モデルを使用して文中における前記
区切れを許しつつ、前記区切れ記号で始まり、前記区切
れ記号で終わる文法制約の下に音声認識を行う音声認識
ステップとを具えたことを特徴とする音声認識装置の記
録媒体。