JP3232289B2

JP3232289B2 - 記号挿入装置およびその方法

Info

Publication number: JP3232289B2
Application number: JP24331199A
Authority: JP
Inventors: 雅史西村; 伸泰伊東; 信介森
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-08-30
Filing date: 1999-08-30
Publication date: 2001-11-26
Anticipated expiration: 2019-08-30
Also published as: JP2001083987A; US6778958B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識して文章化
し、自動的に句読点を挿入してテキストデータを作成す
る音声認識装置およびその方法に関する。

【０００２】

【従来の技術】例えば、「単語を認識単位とした日本語
の大語彙連続音認識（西村他、情報処理学会論文誌、第
４０巻、第４号、１９９９年４月）」、特開平１０−３
０１９３０号公報および特開平７−１９１６９０号公報
等は、音声認識結果として得られたテキストデータに、
句読点を自動的に挿入する方法を開示する。また、例え
ば、ＩＢＭＶｉａＶｏｉｃｅ９８応用編（インフォ・
クリエイツ出版事業部、１９９８年９月３０日発行）の
１５ページには、音声認識に用いられるＮ−ｇｒａｍ推
定が開示されている。

【０００３】また、音声認識において、コンピュータの
分野等、特定分野に特化した語彙・言語モデル（例えば
Ｔｏｐｉｃ等）が用いられることがある。この特化した
語彙・言語モデルは、汎用的な語彙・言語モデルと組み
合わせて使用可能である。従来の音声認識装置では、句
読点の挿入の用途に、特定分野に特化した語彙・言語モ
デルを用いた例はなかった。

【０００４】

【発明が解決しようとする課題】本発明は、汎用的な語
彙・言語モデルと、特定分野に特化した語彙・言語モデ
ルとを組み合わせて、文章中の適切な位置に句読点等の
記号を挿入することができる音声認識装置およびその方
法を提供することを目的とする。

【０００５】

【課題を達成するための手段】［音声認識装置］上記目
的を達成するために、本発明にかかる音声認識装置は、
音声に含まれる音素列を１つ以上の単語列に変換し、変
換して得られた前記単語列それぞれに、これらの前記単
語列それぞれが、前記音素列により本来、示される単語
列である可能性を示す出現確率を付す変換手段と、前記
変換により得られた前記単語列それぞれに対応する言語
モデルが示す更新用数値に基づいて、前記単語列それぞ
れに付された出現確率の更新を行う更新手段と、更新さ
れた出現確率が、前記音素列により本来示される単語列
である可能性が最も高いことを示す前記単語列のいずれ
かを選択し、前記音声を認識する音声認識手段とを有
し、前記更新手段は、前記単語列が特定の記号を単語と
して必ず含む場合の第１の言語モデルと、これ以外の場
合の第２の言語モデルとを用いて前記更新用数値を算出
し、算出した前記更新用数値に基づいて、前記出現確率
の更新を行う。

【０００６】好適には、前記第１の言語モデルは、前記
単語列に前記特定の記号が単語として必ず含まれる場合
に、この単語列が、前記音素列により本来示される単語
列である確からしさを示し、前記第２の言語モデルは、
前記単語列に前記特定の記号が単語として必ず含まれる
場合以外に、この単語列が、前記音素列により本来示さ
れる単語列である確からしさを示し、前記更新手段は、
前記第１の言語モデルおよび前記第２の言語モデルに基
づいて前記更新用数値を算出し、算出した前記更新用数
値に基づいて、、前記単語列それぞれに付された出現確
率を、より前記音素列により本来示される単語列である
確からしさを反映するように更新する。

【０００７】好適には、前記第１の言語モデルは、前記
単語列に前記特定の記号が単語として必ず含まれる場合
に、この単語列が、１つ以上の単語を、前記単語列それ
ぞれにおける順番で含む確からしさを示し、前記第２の
言語モデルは、前記単語列に前記特定の記号が単語とし
て必ず含まれる場合以外に、この単語列が、１つ以上の
単語を、前記単語列それぞれにおける順番で含む確から
しさを示し、前記更新手段は、前記第１の言語モデルお
よび前記第２の言語モデルに基づいて、前記単語列それ
ぞれに付された出現確率を、より前記音素列により本来
示される単語列である確からしさを反映するように更新
する。

【０００８】好適には、前記音素列・単語列変換手段
は、前記記号を音声認識の結果に含める場合には、前記
音素列を、前記記号を含むことがある１つ以上の単語列
に変換し、これ以外の場合には、前記音素列を、前記記
号以外の単語のみを含む１つ以上の単語列に変換し、前
記出現確率を付し、前記更新手段は、前記記号を音声認
識の結果に含める場合には、前記第１の言語モデルと前
記第２の言語モデルとに基づいて、前記単語列それぞれ
の出現確率を更新し、これ以外の場合には、前記第２の
言語モデルのみに基づいて、前記単語列それぞれの出現
確率を更新する。

【０００９】好適には、前記第１の言語モデルおよび前
記第２の言語モデルは、Ｎ−ｇｒａｍであり、前記更新
手段は、前記第１および第２の言語モデルの加重平均値
を前記更新用数値として用いる。

【００１０】好適には、前記記号は句読点であることを
特徴とする。

【００１１】［音声認識方法］また、本発明にかかる音
声認識方法は、音声に含まれる音素列を１つ以上の単語
列に変換し、変換して得られた前記単語列それぞれに、
これらの前記単語列それぞれが、前記音素列により本
来、示される単語列である可能性を示す出現確率を付す
変換ステップと、前記変換により得られた前記単語列そ
れぞれに対応する言語モデルが示す更新用数値に基づい
て、前記単語列それぞれに付された出現確率の更新を行
う更新ステップと、更新された出現確率が、前記音素列
により本来示される単語列である可能性が最も高いこと
を示す前記単語列のいずれかを選択し、前記音声を認識
する音声認識ステップとを含み、前記更新ステップにお
いて、前記単語列が特定の記号を単語として必ず含む場
合の第１の言語モデルと、これ以外の場合の第２の言語
モデルとを用いて前記更新用数値を算出し、算出した前
記更新用数値に基づいて、前記出現確率の更新を行う。

【００１２】［媒体］また、本発明にかかる媒体は、音
声に含まれる音素列を１つ以上の単語列に変換し、変換
して得られた前記単語列それぞれに、これらの前記単語
列それぞれが、前記音素列により本来、示される単語列
である可能性を示す出現確率を付す変換ステップと、前
記変換により得られた前記単語列それぞれに対応する言
語モデルが示す更新用数値に基づいて、前記単語列それ
ぞれに付された出現確率の更新を行う更新ステップと、
更新された出現確率が、前記音素列により本来示される
単語列である可能性が最も高いことを示す前記単語列の
いずれかを選択し、前記音声を認識する音声認識ステッ
プとをコンピュータに実行させるプログラムであって、
前記更新ステップにおいて、前記単語列が特定の記号を
単語として必ず含む場合の第１の言語モデルと、これ以
外の場合の第２の言語モデルとを用いて前記更新用数値
を算出し、算出した前記更新用数値に基づいて、前記出
現確率の更新処理を行うプログラムを媒介する。

【００１３】

【発明の実施の形態】以下、本発明の実施形態を説明す
る。

【００１４】まず、本発明にかかる句読点挿入方法の理
解を明確化するために、従来の音声認識装置における句
読点自動挿入の問題点に触れる。上述のように、統計的
処理によって音声認識時に句読点を自動挿入する方法自
体は既に知られており、そのためには句読点を予測する
言語モデルと特殊な発音辞書を、１つの認識タスクとし
て用意する必要があった。つまり、この方法によると、
句読点の自動挿入のためには、句読点を自動的に挿入す
ることを意図していないタスクとは別に、句読点自動挿
入のために、数十ＭＢ（例えば６０ＭＢ以上）程度の大
きなサイズのタスクを用意する必要があった。

【００１５】また，一般的な音声認識装置（ディクテー
ションシステム）では、ユーザーが句読点挿入機能を随
時、切り替えて使用することが予想されるが、現状で
は、この切り替えにはプログラムの再起動が必要とさ
れ、切り替えに大変、時間を要する。これらの問題のた
め，句読点自動挿入機能自体は早くから完成していたも
のの、実際の製品に応用されることはなかった。

【００１６】［本発明の原理］例えば、現在一般に用い
られているディクテーションシステムではＴｏｐｉｃと
呼ばれる専用タスクを用いることが多い。このＴｏｐｉ
ｃは、例えば，コンピュータ用語などの発音辞書と、そ
れが使われた大量のコーパスから推定された言語モデル
とから構成され、汎用の言語モデルと併用することで特
殊な用途の口述筆記にも使用可能になっている。

【００１７】本発明にかかる句読点挿入方法は、まず、
句読点に対してそれぞれ無音の発音を割り当てた辞書を
用意し、これをＢａｓｅｆｏｒｍＰｏｏｌ（ベースフ
ォームプール）に追加する。ここで、このような句読点
挿入用の言語モデルを使用せず、既存の汎用の言語モデ
ルのみを使用し、発音辞書だけのＴｏｐｉｃを導入する
だけでも句読点の自動挿入自体は実現できる。しかしな
がら、汎用の言語モデルでは、Ｎ−ｇｒａｍの推定に、
句読点を必ずしも含めていないので、推定精度が低くな
る。

【００１８】一方、本発明にかかる句読点挿入方法は、
句読点を予測する専用の言語モデルを句読点自動挿入Ｔ
ｏｐｉｃ用に用意し、大量のコーパスを調査する。この
ようにして、本発明にかかる句読点挿入方法は、句読点
の前後に高頻度で出現する単語（数千語程度）だけを言
語モデルの要素とし、句読点を含むＮ−ｇｒａｍ言語モ
デルを推定し、この言語モデルを汎用の言語モデルと次
式１で線形補間することにより、句読点の予測精度を向
上させる（この処理は、図５,６を参照して後述す
る）。

【００１９】

【数１】 Pr(w1|w2,w3)=λP1(w1|w2,w3)+(1-λ)P2(w1|w2,w3) ・・・(1) ただし、本式はＮ＝３の場合を例示し、 0＜λ≦１、 P1は汎用言語モデルを示し、 P2は句読点Ｔｏｐｉｃの言語モデル（句読点言語モデ
ル）を示す。

【００２０】［音声認識装置１］以下、本発明に係る音
声認識装置１を説明する。図１は、本発明にかかる音声
認識装置１の構成を例示する図である。図１に示すよう
に、本発明にかかる音声認識装置１は、マイクロプロセ
ッサ、メモリおよびこれらの周辺回路など（いずれも図
示せず）から構成されるＣＰＵ１０、マウス、キーボー
ド、および、マイクなどの音声入力装置１２０を含む入
力装置１２、ＣＲＴディスプレイなどの表示装置１４、
ＨＤＤ装置、ＤＶＤ装置、ＣＤ装置などの記憶装置１６
から構成される。

【００２１】つまり、音声認識装置１は、通常のコンピ
ュータに音声入力装置１２０を付加したハードウェア構
成を採り、ＤＶＤ、ＣＤ−ＲＯＭあるいはＣＤ−ＲＡＭ
等の記録媒体１８に記録された形態で供給される音声認
識プログラム２（図２を参照して後述）を実行し、音声
入力装置１２０から入力され、デジタル形式に変換され
た音声（音声データ）を認識して、句読点（、。）を自
動的に挿入したテキストデータを生成し、記憶装置１６
に挿入された記録媒体１８に記録し、あるいは、表示装
置１４にテキストデータを表示する。

【００２２】［音声認識プログラム２］図２は、本発明
に係る音声認識方法を実現する音声認識プログラム２の
構成を示す図である。図２に示すように、音声認識プロ
グラム２は、音響処理部２０、音声復号部２２、音響モ
デル３０、言語モデル３２および上述したベースフォー
ムプール３４から構成され。言語モデル３２は、汎用言
語モデル３２０および句読点言語モデル３２２を含む。

【００２３】［音響処理部２０］音響処理部２０は、音
声入力装置１２０（図１）から入力された音声データに
対してフーリエ変換などの周波数分析処理および特徴抽
出処理を行い、特徴ベクトルに変換し、言語復号部２２
に対して出力する。

【００２４】［音響モデル３０］音響モデル３０は、各
音素ごとに特徴ベクトルの出現確率（音素列により本来
示される単語列である可能性が高ければ高いほど高い数
値を示す）をＨＭＭ(Hidden Markov Model)等により記
述した音響モデルデータを言語復号部２２に対して出力
する。

【００２５】［ベースフォームプール３４］ベースフォ
ームプール３４は、言語モデル３２の汎用言語モデル３
２０に対応する汎用部分と、句読点言語モデル３２２に
対応し、音響モデルデータ中の空白部分（ポーズ部分；
句読点「。、」に対応する部分）を検出する句読点部分
（図２においていずれも省略、図５，６を参照して後
述）とを有する。

【００２６】ベースフォームプール３４は、音響モデル
３０が作成した音響モデルデータを、連続するＮ個（例
えばＮ＝３）の単語の組み合わせとし、出現確率と対応
づけた表形式で記述する。なお、ベースフォームプール
３４は、言語復号部２２において句読点自動挿入を行う
場合には、音声のポーズ部分を単語とみなして処理を行
い、句読点自動挿入を行わない場合には音声のポーズ部
分を単語とみなさずに処理を行う。

【００２７】［汎用言語モデル３２０］言語モデル３２
において、汎用言語モデル３２０は、音声認識に必要な
一般的な単語・単語列の出現確率を、連続するＮ個（例
えばＮ＝３）の単語の組み合わせとし、出現確率と対応
づけて表形式で記述する。なお、この汎用言語モデル３
２０のサイズは、通常、６０ＭＢ程度になる。ここで、
Ｎ＝３の場合の単語の組み合わせの出現確率は、連続す
る２個の単語列の後にある１個の単語が出現する確率と
して定義され、汎用言語モデル３２０においては、句読
点は単語とみなされない。

【００２８】［句読点言語モデル３２２］句読点言語モ
デル３２２は、上述した句読点挿入のために特化したＴ
ｏｐｉｃであって、汎用言語モデル３２０と同様に、句
読点挿入に必要な特定の単語・単語列の出現確率を、連
続する３個の単語の組み合わせとし、出現確率と対応づ
けて表形式に記述する。句読点言語モデル３２２は、汎
用言語モデル３２０を、句読点を単語とみなすようにし
て、ベースフォームプール３４によりポーズと判断され
た部分に句読点を自動的に挿入するために特化させ、デ
ータ量を少なくしたものであると考えることができる。

【００２９】句読点言語モデル３２２には、句読点クラ
スとの相互情報量に基づいて選択された単語、例えば、
下表１に例示するような句点・読点の直前に位置する単
語が含まれる。なお、句読点言語モデル３２２は、内容
を句読点挿入に必要な情報に限定するので、一般に、デ
ータ量を汎用言語モデル３２０の１／１００〜１／１０
００程度とすることができる。

【００３０】

【表１】(表１）句読点言語モデルに含まれる単語（上
位３０語を例示）：Ｈｍ単語２７５．１１１いる１９７．１６６だ１６０．２２３した１５９．４２５です１５２．８８９は１３７．４００し１３７．１６４ね１２９．８５５で１１２．６０４ある１０３．３７７が７９．７５１ます７３．１６０か６６．９５２しかし６５．５６２おり６３．９３０ので６３．０７８ました６２．４６９います５９．１００だが４９．４７４ない４８．７１４では４７．６６３また４７．４８７いた４５．１５６あり４３．６３５あった４０．７１１ため４０．０２２します３９．５６４する３７．３４９だった３３．７５４なく３３．３９４た但し、Ｈｍは句読点クラスとの相互情報量の値を示す。

【００３１】［言語復号部２２］図３は、図２に示した
音声認識プログラム２（言語復号部２２）の動作を例示
する図であって、（Ａ）は、句読点言語モデル３２２が
用いられずに音声認識が行なわれる（オフの）場合を示
し、（Ｂ）は、句読点言語モデル３２２が用られて音声
認識が行なわれる（オンの）場合を示す。

【００３２】言語復号部２２は、音響処理部２０から入
力された特徴ベクトルを、音響モデル３０、ベースフォ
ームプール３４および言語モデル３２により計算される
確率が最大になる単語列（下記式２のＷ’）をテキスト
データとして、表示装置１４あるいは記録装置１６に対
して出力し、これらに表示あるいは記録する。

【００３３】なお、言語復号部２２は、図３（Ａ），
（Ｂ）に例示するように、句読点言語モデル３２２が用
いられるか否かに応じて、図４〜図６を参照して後述す
るように、句読点の挿入を自動的に行う。また、下式２
において、P(S|W)は、音響モデル３０およびベースフォ
ームモデル３４により与えられ、P(W)は言語モデル３２
により与えられる。このP(W)は、上記式１により、汎用
言語モデル３２０と句読点言語モデル３２２とがλの値
に応じて加重平均され、求められる。

【００３４】

【数２】 W' = argmax_wP(W|S) = argmax_wP(S|W)P(W) (2) 但し、Sは特徴ベクトル(s₁,s₂,...,s_k)、 Wは単語列(w₁,w₂,....,w_l)、 W'は単語列(w'₁,w'₂,....,w'_l)である。

【００３５】以下、図４〜図６をさらに参照し、Ｎ−ｇ
ｒａｍとして３−ｇｒａｍを用いる場合を具体例とし
て、言語復号部２２の動作を詳細に説明する。図４は、
図２に示した音声認識装置１（言語復号部２２）の処理
を示すフローチャートである。図５は、図２に示した句
読点言語モデル３２２を用いず、句読点の自動挿入を行
わない（トピックオフの）場合の音声認識装置１（言語
復号部２２）の動作を示す図である。図６は、図２に示
した句読点言語モデル３２２用い、句読点の自動挿入を
行う（トピックオンの）場合の音声認識装置１（言語復
号部２２）の動作を示す図である。

【００３６】図４に示すように、ステップ１００（Ｓ１
００）において、音声処理部２０が、入力音声（例え
ば、「これがほん」）を特徴ベクトルに変換し、言語復
号部２２に対して出力する。

【００３７】ステップ１０２（Ｓ１０２）において、図
５および図６に示すように、音声復号部２２は、入力さ
れた特徴ベクトル（ｓ_１，ｓ_２，．．．，ｓ_ｋ）を音響
モデル３０に対して出力する。音響モデル３０は、特徴
ベクトルに対応する可能性がある（可能な）音素列（/k
oegahon/,/koregahon/等）に、出現確率（0.03, 0.02）
を付して、音響データを生成し、言語復号部２２に返
す。

【００３８】ステップ１０４（Ｓ１０４）において、言
語復号部２２は、ユーザが句読点自動挿入を行う設定を
しているか否か、つまり、句読点言語モデル３２２（ト
ピック）をオンしているか否かを判断し、句読点の自動
挿入を行なわない設定をしている場合（トピックをオフ
している場合）には、λの値を１としてＳ１１０の処理
に進み、これ以外の場合には、λの値を、０〜１の間の
予め設定された値として、Ｓ１２０の処理に進む。

【００３９】［トピックオフ］句読点の自動挿入を行な
わない場合、ステップ１１０（Ｓ１１０）において、図
５に示すように、言語復号部２２は、ベースフォームプ
ール３４の内、汎用部分（汎用ベースフォームプール）
のみを参照して、ポーズを単語に含めずに、順次、音素
列（/koegahon/,/koregahon/等）を単語列（声/が/本
/，これ/が/本/等）に変換する。ただし、言語復号部２
２は、この段階では、単語列それぞれに対応づける出現
確率の値を変更しない。

【００４０】ステップ１１２（Ｓ１１２）において、図
５に示すように、言語復号部２２は、汎用言語モデル３
２０のみを参照して、Ｓ１１０の処理において得た単語
列の出現確率それぞれを更新する。言語復号部２２は、
図５に示す例においては、この処理の結果として、単語
列/これ/が/本/を確率０．０２に更新し、単語列/声/が
/本/を確率０．０１に更新する。

【００４１】［トピックオン］句読点の自動挿入を行う
場合、ステップ１２０（Ｓ１２０）において、図６に示
すように、言語復号部２２は、ベースフォームプール３
４の内、汎用ベースフォームプールおよびポーズを検出
する句読点部分（トピック）の両方を参照して、順次、
ポーズを単語に含めて、音素列（/koegahon/,/koregaho
n/等）を単語列（/声/が/本/，/これ/が/本/，/これ/が
/、/本/等）に変換する。ただし、言語復号部２２は、
Ｓ１１０の処理においてと同様に、この段階では出現確
率の値を変更しない。

【００４２】ステップ１２２（Ｓ１２２）において、図
５に示すように、言語復号部２２は、汎用言語モデル３
２０および句読点言語モデル３２２を、λ≠１とした上
記式１にしたがって重み付けして参照し、Ｓ１１０の処
理において得た単語列の出現確率それぞれを更新する。
言語復号部２２は、図５に示す例においては、この処理
の結果として、単語列/これ/が/、/本/を確率０．０２
に更新し、その他の単語列を確率０．０１に更新する。

【００４３】ステップ１２４（Ｓ１２４）において、図
５，６に示すように、言語復号部２２は、順次、Ｓ１１
２またはＳ１２２の処理において更新された出現確率
が、最も高い単語列を、音声認識結果を示すテキストデ
ータとして出力する。

【００４４】［音声認識装置１の動作］以下、本発明に
係る音声認識装置１（図１，図２）の動作を説明する。

【００４５】図３（Ａ）に示したように、句読点言語モ
デル３２２（図２）を用いない場合（λ＝１）、話者
が、例えば、音声認識装置１の音声入力装置１２０（図
１）から「コレガ」・「ｐａｕｓｅ（無音を示す。以下
同じ）」・「テン」・「ホンハツメイノ」・「ｐａｕｓ
ｅ」・「ヨウテン」という音声を入力すると、音響処理
部２０は、この音声を示す音声データを処理し、この音
声を音素で示す特徴ベクトルを言語復号部２２に対して
出力する。

【００４６】言語復号部２２（図２）は、図４および図
５に示したように、汎用言語モデル３２０のみを用いて
音響処理部２０から入力された特徴ベクトルを処理し、
「コレガ」を「これが」と識別し、「ｐａｕｓｅ」に続
く「テン」を読点「、」と識別し、「ホンハツメイノ」
を「本発明の」と識別する。さらに、言語復号部２２
は、「ｐａｕｓｅ」には「テン」も「マル」も続かない
ので、「ヨウテン」を「要点」と識別して、「これが、
本発明の要点」というテキストデータを識別結果として
出力する。

【００４７】図３（Ｂ）に示したように、句読点言語モ
デル３２２を用いる（λ≠１の）場合、話者が、例え
ば、上述した句読点言語モデル３２２を用いる場合とは
異り「テン」という音声を省き、音声認識装置１の音声
入力装置１２０（図１）から「コレガ」・「ｐａｕｓ
ｅ」・「ホンハツメイノ」・「ｐａｕｓｅ」・「ヨウテ
ン」という音声を入力すると、音響処理部２０（図２）
は、この音声を示す音声データを処理し、この音声を音
素で示す特徴ベクトルを言語復号部２２に対して出力す
る。

【００４８】言語復号部２２は、図４および図６に示し
たように、汎用言語モデル３２０および句読点言語モデ
ル３２２を用いて音響処理部２０から入力された特徴ベ
クトルを処理し、「コレガ」を「これが」と識別し、
「コレガ」の「ガ」に続く「ｐａｕｓｅ」を読点「、」
と識別し、「ホンハツメイノ」を「本発明の」と識別す
る。「ホンハツメイノ」には、「ｐａｕｓｅ」が続く
が、「ノ」の後ろには通常、句読点は続かないので、言
語復号部２２は、この「ｐａｕｓｅ」の部分には句読点
を挿入せず、句読点言語モデル３２２を用いない場合と
同様に、入力された音声を「これが、本発明の要点」と
正確に識別し、認識結果のテキストデータとして出力す
る。

【００４９】［効果］Ｔｏｐｉｃ用のモデルは、句読点
に無音を割り当てた発音辞書などから構成され、上述し
た句読点自動挿入用のタスクに比べて、非常に小さなサ
イズ（例えば２ＭＢ程度）で済む。また、本発明に係る
句読点挿入方法では、句読点自動挿入のために、Ｔｏｐ
ｉｃを追加すればよいので、変更をほとんどせずに、従
来からの汎用ディクテーションシステムに句読点自動挿
入機能を追加することができる。しかも、ユーザーは、
この句読点挿入用Ｔｏｐｉｃを選択するかしないかによ
って、容易に句読点自動挿入機能をオンオフすることが
でき、しかも、このオンオフにはプログラムの再起動は
不要である。

【００５０】［変形例］さらに、文章の内容によって、
句読点を多く入れたり少なく入れたりしたい場合が生じ
るが、本発明に係る句読点挿入方法においては、句読点
の出現頻度を、汎用言語モデルとの線形補間時の重みの
調整によって容易に制御できる。また、句読点挿入用Ｔ
ｏｐｉｃを、例えば、「コンピュータ」・「サッカー」
・「野球」といった、他の分野に特化されたＴｏｐｉｃ
と組み合わせて使用することも可能なので、コンピュー
タのＴｏｐｉｃを用いて音声認識を行いつつ、句読点の
自動挿入を行うことも可能である。また、本発明に係る
句読点挿入方法は、句読点だけでなく”？”マークなど
の他の記号を自動挿入するために応用することも可能で
ある。

【００５１】

【発明の効果】上述のように本発明にかかる音声認識装
置およびその方法によれば、汎用的な語彙・言語モデル
と、特定分野に特化した語彙・言語モデルとを組み合わ
せて、文章中の適切な位置に句読点等の記号を挿入する
ことができる。

【図面の簡単な説明】

【図１】本発明にかかる音声認識装置の構成を例示する
図である。

【図２】本発明に係る音声認識方法を実現する音声認識
プログラムの構成を示す図である。

【図３】図２に示した音声認識プログラム（言語復号
部）の動作を例示する図であって、（Ａ）は、句読点言
語モデルが用いられずに音声認識が行なわれる（オフ
の）場合を示し、（Ｂ）は、句読点言語モデルが用られ
て音声認識が行なわれる（オンの）場合を示す。

【図４】図２に示した音声認識装置（言語復号部）の処
理を示すフローチャートである。

【図５】図２に示した句読点言語モデルを用いず、句読
点の自動挿入を行わない（トピックオフの）場合の音声
認識装置（言語復号部）の動作を示す図である。

【図６】図２に示した句読点言語モデル用い、句読点の
自動挿入を行う（トピックオンの）場合の音声認識装置
（言語復号部）の動作を示す図である。

【符号の説明】

１・・・音声認識装置１０・・・ＣＰＵ１２・・・入力装置１２１２０・・・音声入力装置１４・・・表示装置１６・・・記憶装置１８・・・記録媒体２・・・音声認識プログラム２０・・・音響処理部２２・・・言語復号部３０・・・音響モデル３２・・・言語モデル３２０・・・汎用言語モデル３２２・・・句読点言語モデル

フロントページの続き (72)発明者伊東伸泰神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者森信介神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (56)参考文献特開2000−259176（ＪＰ，Ａ) 特開平７−104786（ＪＰ，Ａ) 特開昭56−114041（ＪＰ，Ａ) 特開2000−47688（ＪＰ，Ａ) 特開平８−2015（ＪＰ，Ａ) 特公平７−69910（ＪＰ，Ｂ２) 特公平６−93221（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/22 G10L 15/18 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声に含まれる音素列を１つ以上の単語列
に変換し、変換して得られた前記単語列それぞれに、こ
れらの前記単語列それぞれが、前記音素列により本来、
示される単語列である可能性を示す出現確率を付す変換
手段と、前記変換により得られた前記単語列それぞれに対応する
言語モデルが示す更新用数値に基づいて、前記単語列そ
れぞれに付された出現確率の更新を行う更新手段と、更新された出現確率が、前記音素列により本来示される
単語列である可能性が最も高いことを示す前記単語列の
いずれかを選択し、前記音声を認識する音声認識手段と
を有し、前記更新手段は、前記単語列が特定の記号を単語として
必ず含む場合の第１の言語モデルと、これ以外の場合の
第２の言語モデルとを用いて前記更新用数値を算出し、
算出した前記更新用数値に基づいて、前記出現確率の更
新を行う音声認識装置。
【請求項２】前記第１の言語モデルは、前記単語列に前
記特定の記号が単語として必ず含まれる場合に、この単
語列が、前記音素列により本来示される単語列である確
からしさを示し、前記第２の言語モデルは、前記単語列に前記特定の記号
が単語として必ず含まれる場合以外に、この単語列が、
前記音素列により本来示される単語列である確からしさ
を示し、前記更新手段は、前記第１の言語モデルおよび前記第２
の言語モデルに基づいて前記更新用数値を算出し、算出
した前記更新用数値に基づいて、、前記単語列それぞれ
に付された出現確率を、より前記音素列により本来示さ
れる単語列である確からしさを反映するように更新する
請求項１に記載の音声認識装置。
【請求項３】前記第１の言語モデルは、前記単語列に前
記特定の記号が単語として必ず含まれる場合に、この単
語列が、１つ以上の単語を、前記単語列それぞれにおけ
る順番で含む確からしさを示し、前記第２の言語モデルは、前記単語列に前記特定の記号
が単語として必ず含まれる場合以外に、この単語列が、
１つ以上の単語を、前記単語列それぞれにおける順番で
含む確からしさを示し、前記更新手段は、前記第１の言語モデルおよび前記第２
の言語モデルに基づいて、前記単語列それぞれに付され
た出現確率を、より前記音素列により本来示される単語
列である確からしさを反映するように更新する請求項１
に記載の音声認識装置。
【請求項４】前記音素列・単語列変換手段は、前記記号
を音声認識の結果に含める場合には、前記音素列を、前
記記号を含むことがある１つ以上の単語列に変換し、こ
れ以外の場合には、前記音素列を、前記記号以外の単語
のみを含む１つ以上の単語列に変換し、前記出現確率を
付し、前記更新手段は、前記記号を音声認識の結果に含める場
合には、前記第１の言語モデルと前記第２の言語モデル
とに基づいて、前記単語列それぞれの出現確率を更新
し、これ以外の場合には、前記第２の言語モデルのみに
基づいて、前記単語列それぞれの出現確率を更新する請
求項２または３に記載の音声認識装置。
【請求項５】前記第１の言語モデルおよび前記第２の言
語モデルは、Ｎ−ｇｒａｍであり、前記更新手段は、前
記第１および第２の言語モデルの加重平均値を前記更新
用数値として用いる請求項１〜４のいずれかに記載の音
声認識装置。
【請求項６】前記記号は句読点であることを特徴とする
請求項１〜５いずれかに記載の音声認識装置。
【請求項７】音声に含まれる音素列を１つ以上の単語列
に変換し、変換して得られた前記単語列それぞれに、こ
れらの前記単語列それぞれが、前記音素列により本来、
示される単語列である可能性を示す出現確率を付す変換
ステップと、前記変換により得られた前記単語列それぞれに対応する
言語モデルが示す更新用数値に基づいて、前記単語列そ
れぞれに付された出現確率の更新を行う更新ステップ
と、更新された出現確率が、前記音素列により本来示される
単語列である可能性が最も高いことを示す前記単語列の
いずれかを選択し、前記音声を認識する音声認識ステッ
プとを含み、前記更新ステップにおいて、前記単語列が特定の記号を
単語として必ず含む場合の第１の言語モデルと、これ以
外の場合の第２の言語モデルとを用いて前記更新用数値
を算出し、算出した前記更新用数値に基づいて、前記出
現確率の更新を行う音声認識方法。
【請求項８】音声に含まれる音素列を１つ以上の単語列
に変換し、変換して得られた前記単語列それぞれに、こ
れらの前記単語列それぞれが、前記音素列により本来、
示される単語列である可能性を示す出現確率を付す変換
ステップと、前記変換により得られた前記単語列それぞれに対応する
言語モデルが示す更新用数値に基づいて、前記単語列そ
れぞれに付された出現確率の更新を行う更新ステップ
と、更新された出現確率が、前記音素列により本来示される
単語列である可能性が最も高いことを示す前記単語列の
いずれかを選択し、前記音声を認識する音声認識ステッ
プとをコンピュータに実行させるプログラムであって、前記更新ステップにおいて、前記単語列が特定の記号を
単語として必ず含む場合の第１の言語モデルと、これ以
外の場合の第２の言語モデルとを用いて前記更新用数値
を算出し、算出した前記更新用数値に基づいて、前記出
現確率の更新処理を行うプログラムを媒介する媒体。