Nothing Special   »   [go: up one dir, main page]

JP3232289B2 - 記号挿入装置およびその方法 - Google Patents

記号挿入装置およびその方法

Info

Publication number
JP3232289B2
JP3232289B2 JP24331199A JP24331199A JP3232289B2 JP 3232289 B2 JP3232289 B2 JP 3232289B2 JP 24331199 A JP24331199 A JP 24331199A JP 24331199 A JP24331199 A JP 24331199A JP 3232289 B2 JP3232289 B2 JP 3232289B2
Authority
JP
Japan
Prior art keywords
word
language model
string
appearance probability
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24331199A
Other languages
English (en)
Other versions
JP2001083987A (ja
Inventor
雅史 西村
伸泰 伊東
信介 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP24331199A priority Critical patent/JP3232289B2/ja
Priority to US09/651,679 priority patent/US6778958B1/en
Publication of JP2001083987A publication Critical patent/JP2001083987A/ja
Application granted granted Critical
Publication of JP3232289B2 publication Critical patent/JP3232289B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識して文章化
し、自動的に句読点を挿入してテキストデータを作成す
る音声認識装置およびその方法に関する。
【0002】
【従来の技術】例えば、「単語を認識単位とした日本語
の大語彙連続音認識(西村他、情報処理学会論文誌、第
40巻、第4号、1999年4月)」、特開平10−3
01930号公報および特開平7−191690号公報
等は、音声認識結果として得られたテキストデータに、
句読点を自動的に挿入する方法を開示する。また、例え
ば、IBM ViaVoice98応用編(インフォ・
クリエイツ出版事業部、1998年9月30日発行)の
15ページには、音声認識に用いられるN−gram推
定が開示されている。
【0003】また、音声認識において、コンピュータの
分野等、特定分野に特化した語彙・言語モデル(例えば
Topic等)が用いられることがある。この特化した
語彙・言語モデルは、汎用的な語彙・言語モデルと組み
合わせて使用可能である。従来の音声認識装置では、句
読点の挿入の用途に、特定分野に特化した語彙・言語モ
デルを用いた例はなかった。
【0004】
【発明が解決しようとする課題】本発明は、汎用的な語
彙・言語モデルと、特定分野に特化した語彙・言語モデ
ルとを組み合わせて、文章中の適切な位置に句読点等の
記号を挿入することができる音声認識装置およびその方
法を提供することを目的とする。
【0005】
【課題を達成するための手段】[音声認識装置]上記目
的を達成するために、本発明にかかる音声認識装置は、
音声に含まれる音素列を1つ以上の単語列に変換し、変
換して得られた前記単語列それぞれに、これらの前記単
語列それぞれが、前記音素列により本来、示される単語
列である可能性を示す出現確率を付す変換手段と、前記
変換により得られた前記単語列それぞれに対応する言語
モデルが示す更新用数値に基づいて、前記単語列それぞ
れに付された出現確率の更新を行う更新手段と、更新さ
れた出現確率が、前記音素列により本来示される単語列
である可能性が最も高いことを示す前記単語列のいずれ
かを選択し、前記音声を認識する音声認識手段とを有
し、前記更新手段は、前記単語列が特定の記号を単語と
して必ず含む場合の第1の言語モデルと、これ以外の場
合の第2の言語モデルとを用いて前記更新用数値を算出
し、算出した前記更新用数値に基づいて、前記出現確率
の更新を行う。
【0006】好適には、前記第1の言語モデルは、前記
単語列に前記特定の記号が単語として必ず含まれる場合
に、この単語列が、前記音素列により本来示される単語
列である確からしさを示し、前記第2の言語モデルは、
前記単語列に前記特定の記号が単語として必ず含まれる
場合以外に、この単語列が、前記音素列により本来示さ
れる単語列である確からしさを示し、前記更新手段は、
前記第1の言語モデルおよび前記第2の言語モデルに基
づいて前記更新用数値を算出し、算出した前記更新用数
値に基づいて、、前記単語列それぞれに付された出現確
率を、より前記音素列により本来示される単語列である
確からしさを反映するように更新する。
【0007】好適には、前記第1の言語モデルは、前記
単語列に前記特定の記号が単語として必ず含まれる場合
に、この単語列が、1つ以上の単語を、前記単語列それ
ぞれにおける順番で含む確からしさを示し、前記第2の
言語モデルは、前記単語列に前記特定の記号が単語とし
て必ず含まれる場合以外に、この単語列が、1つ以上の
単語を、前記単語列それぞれにおける順番で含む確から
しさを示し、前記更新手段は、前記第1の言語モデルお
よび前記第2の言語モデルに基づいて、前記単語列それ
ぞれに付された出現確率を、より前記音素列により本来
示される単語列である確からしさを反映するように更新
する。
【0008】好適には、前記音素列・単語列変換手段
は、前記記号を音声認識の結果に含める場合には、前記
音素列を、前記記号を含むことがある1つ以上の単語列
に変換し、これ以外の場合には、前記音素列を、前記記
号以外の単語のみを含む1つ以上の単語列に変換し、前
記出現確率を付し、前記更新手段は、前記記号を音声認
識の結果に含める場合には、前記第1の言語モデルと前
記第2の言語モデルとに基づいて、前記単語列それぞれ
の出現確率を更新し、これ以外の場合には、前記第2の
言語モデルのみに基づいて、前記単語列それぞれの出現
確率を更新する。
【0009】好適には、前記第1の言語モデルおよび前
記第2の言語モデルは、N−gramであり、前記更新
手段は、前記第1および第2の言語モデルの加重平均値
を前記更新用数値として用いる。
【0010】好適には、前記記号は句読点であることを
特徴とする。
【0011】[音声認識方法]また、本発明にかかる音
声認識方法は、音声に含まれる音素列を1つ以上の単語
列に変換し、変換して得られた前記単語列それぞれに、
これらの前記単語列それぞれが、前記音素列により本
来、示される単語列である可能性を示す出現確率を付す
変換ステップと、前記変換により得られた前記単語列そ
れぞれに対応する言語モデルが示す更新用数値に基づい
て、前記単語列それぞれに付された出現確率の更新を行
う更新ステップと、更新された出現確率が、前記音素列
により本来示される単語列である可能性が最も高いこと
を示す前記単語列のいずれかを選択し、前記音声を認識
する音声認識ステップとを含み、前記更新ステップにお
いて、前記単語列が特定の記号を単語として必ず含む場
合の第1の言語モデルと、これ以外の場合の第2の言語
モデルとを用いて前記更新用数値を算出し、算出した前
記更新用数値に基づいて、前記出現確率の更新を行う。
【0012】[媒体]また、本発明にかかる媒体は、音
声に含まれる音素列を1つ以上の単語列に変換し、変換
して得られた前記単語列それぞれに、これらの前記単語
列それぞれが、前記音素列により本来、示される単語列
である可能性を示す出現確率を付す変換ステップと、前
記変換により得られた前記単語列それぞれに対応する言
語モデルが示す更新用数値に基づいて、前記単語列それ
ぞれに付された出現確率の更新を行う更新ステップと、
更新された出現確率が、前記音素列により本来示される
単語列である可能性が最も高いことを示す前記単語列の
いずれかを選択し、前記音声を認識する音声認識ステッ
プとをコンピュータに実行させるプログラムであって、
前記更新ステップにおいて、前記単語列が特定の記号を
単語として必ず含む場合の第1の言語モデルと、これ以
外の場合の第2の言語モデルとを用いて前記更新用数値
を算出し、算出した前記更新用数値に基づいて、前記出
現確率の更新処理を行うプログラムを媒介する。
【0013】
【発明の実施の形態】以下、本発明の実施形態を説明す
る。
【0014】まず、本発明にかかる句読点挿入方法の理
解を明確化するために、従来の音声認識装置における句
読点自動挿入の問題点に触れる。上述のように、統計的
処理によって音声認識時に句読点を自動挿入する方法自
体は既に知られており、そのためには句読点を予測する
言語モデルと特殊な発音辞書を、1つの認識タスクとし
て用意する必要があった。つまり、この方法によると、
句読点の自動挿入のためには、句読点を自動的に挿入す
ることを意図していないタスクとは別に、句読点自動挿
入のために、数十MB(例えば60MB以上)程度の大
きなサイズのタスクを用意する必要があった。
【0015】また,一般的な音声認識装置(ディクテー
ションシステム)では、ユーザーが句読点挿入機能を随
時、切り替えて使用することが予想されるが、現状で
は、この切り替えにはプログラムの再起動が必要とさ
れ、切り替えに大変、時間を要する。これらの問題のた
め,句読点自動挿入機能自体は早くから完成していたも
のの、実際の製品に応用されることはなかった。
【0016】[本発明の原理]例えば、現在一般に用い
られているディクテーションシステムではTopicと
呼ばれる専用タスクを用いることが多い。このTopi
cは、例えば,コンピュータ用語などの発音辞書と、そ
れが使われた大量のコーパスから推定された言語モデル
とから構成され、汎用の言語モデルと併用することで特
殊な用途の口述筆記にも使用可能になっている。
【0017】本発明にかかる句読点挿入方法は、まず、
句読点に対してそれぞれ無音の発音を割り当てた辞書を
用意し、これをBaseform Pool(ベースフ
ォームプール)に追加する。ここで、このような句読点
挿入用の言語モデルを使用せず、既存の汎用の言語モデ
ルのみを使用し、発音辞書だけのTopicを導入する
だけでも句読点の自動挿入自体は実現できる。しかしな
がら、汎用の言語モデルでは、N−gramの推定に、
句読点を必ずしも含めていないので、推定精度が低くな
る。
【0018】一方、本発明にかかる句読点挿入方法は、
句読点を予測する専用の言語モデルを句読点自動挿入T
opic用に用意し、大量のコーパスを調査する。この
ようにして、本発明にかかる句読点挿入方法は、句読点
の前後に高頻度で出現する単語(数千語程度)だけを言
語モデルの要素とし、句読点を含むN−gram言語モ
デルを推定し、この言語モデルを汎用の言語モデルと次
式1で線形補間することにより、句読点の予測精度を向
上させる(この処理は、図5,6を参照して後述す
る)。
【0019】
【数1】 Pr(w1|w2,w3)=λP1(w1|w2,w3)+(1-λ)P2(w1|w2,w3) ・・・(1) ただし、本式はN=3の場合を例示し、 0<λ≦1、 P1は汎用言語モデルを示し、 P2は句読点Topicの言語モデル(句読点言語モデ
ル) を示す。
【0020】[音声認識装置1]以下、本発明に係る音
声認識装置1を説明する。図1は、本発明にかかる音声
認識装置1の構成を例示する図である。図1に示すよう
に、本発明にかかる音声認識装置1は、マイクロプロセ
ッサ、メモリおよびこれらの周辺回路など(いずれも図
示せず)から構成されるCPU10、マウス、キーボー
ド、および、マイクなどの音声入力装置120を含む入
力装置12、CRTディスプレイなどの表示装置14、
HDD装置、DVD装置、CD装置などの記憶装置16
から構成される。
【0021】つまり、音声認識装置1は、通常のコンピ
ュータに音声入力装置120を付加したハードウェア構
成を採り、DVD、CD−ROMあるいはCD−RAM
等の記録媒体18に記録された形態で供給される音声認
識プログラム2(図2を参照して後述)を実行し、音声
入力装置120から入力され、デジタル形式に変換され
た音声(音声データ)を認識して、句読点(、。)を自
動的に挿入したテキストデータを生成し、記憶装置16
に挿入された記録媒体18に記録し、あるいは、表示装
置14にテキストデータを表示する。
【0022】[音声認識プログラム2]図2は、本発明
に係る音声認識方法を実現する音声認識プログラム2の
構成を示す図である。図2に示すように、音声認識プロ
グラム2は、音響処理部20、音声復号部22、音響モ
デル30、言語モデル32および上述したベースフォー
ムプール34から構成され。言語モデル32は、汎用言
語モデル320および句読点言語モデル322を含む。
【0023】[音響処理部20]音響処理部20は、音
声入力装置120(図1)から入力された音声データに
対してフーリエ変換などの周波数分析処理および特徴抽
出処理を行い、特徴ベクトルに変換し、言語復号部22
に対して出力する。
【0024】[音響モデル30]音響モデル30は、各
音素ごとに特徴ベクトルの出現確率(音素列により本来
示される単語列である可能性が高ければ高いほど高い数
値を示す)をHMM(Hidden Markov Model)等により記
述した音響モデルデータを言語復号部22に対して出力
する。
【0025】[ベースフォームプール34]ベースフォ
ームプール34は、言語モデル32の汎用言語モデル3
20に対応する汎用部分と、句読点言語モデル322に
対応し、音響モデルデータ中の空白部分(ポーズ部分;
句読点「。、」に対応する部分)を検出する句読点部分
(図2においていずれも省略、図5,6を参照して後
述)とを有する。
【0026】ベースフォームプール34は、音響モデル
30が作成した音響モデルデータを、連続するN個(例
えばN=3)の単語の組み合わせとし、出現確率と対応
づけた表形式で記述する。なお、ベースフォームプール
34は、言語復号部22において句読点自動挿入を行う
場合には、音声のポーズ部分を単語とみなして処理を行
い、句読点自動挿入を行わない場合には音声のポーズ部
分を単語とみなさずに処理を行う。
【0027】[汎用言語モデル320]言語モデル32
において、汎用言語モデル320は、音声認識に必要な
一般的な単語・単語列の出現確率を、連続するN個(例
えばN=3)の単語の組み合わせとし、出現確率と対応
づけて表形式で記述する。なお、この汎用言語モデル3
20のサイズは、通常、60MB程度になる。ここで、
N=3の場合の単語の組み合わせの出現確率は、連続す
る2個の単語列の後にある1個の単語が出現する確率と
して定義され、汎用言語モデル320においては、句読
点は単語とみなされない。
【0028】[句読点言語モデル322]句読点言語モ
デル322は、上述した句読点挿入のために特化したT
opicであって、汎用言語モデル320と同様に、句
読点挿入に必要な特定の単語・単語列の出現確率を、連
続する3個の単語の組み合わせとし、出現確率と対応づ
けて表形式に記述する。句読点言語モデル322は、汎
用言語モデル320を、句読点を単語とみなすようにし
て、ベースフォームプール34によりポーズと判断され
た部分に句読点を自動的に挿入するために特化させ、デ
ータ量を少なくしたものであると考えることができる。
【0029】句読点言語モデル322には、句読点クラ
スとの相互情報量に基づいて選択された単語、例えば、
下表1に例示するような句点・読点の直前に位置する単
語が含まれる。なお、句読点言語モデル322は、内容
を句読点挿入に必要な情報に限定するので、一般に、デ
ータ量を汎用言語モデル320の1/100〜1/10
00程度とすることができる。
【0030】
【表1】(表1)句読点言語モデルに含まれる単語(上
位30語を例示): Hm 単語 275.111 いる 197.166 だ 160.223 した 159.425 です 152.889 は 137.400 し 137.164 ね 129.855 で 112.604 ある 103.377 が 79.751 ます 73.160 か 66.952 しかし 65.562 おり 63.930 ので 63.078 ました 62.469 います 59.100 だが 49.474 ない 48.714 では 47.663 また 47.487 いた 45.156 あり 43.635 あった 40.711 ため 40.022 します 39.564 する 37.349 だった 33.754 なく 33.394 た 但し、Hmは句読点クラスとの相互情報量の値を示す。
【0031】[言語復号部22]図3は、図2に示した
音声認識プログラム2(言語復号部22)の動作を例示
する図であって、(A)は、句読点言語モデル322が
用いられずに音声認識が行なわれる(オフの)場合を示
し、(B)は、句読点言語モデル322が用られて音声
認識が行なわれる(オンの)場合を示す。
【0032】言語復号部22は、音響処理部20から入
力された特徴ベクトルを、音響モデル30、ベースフォ
ームプール34および言語モデル32により計算される
確率が最大になる単語列(下記式2のW’)をテキスト
データとして、表示装置14あるいは記録装置16に対
して出力し、これらに表示あるいは記録する。
【0033】なお、言語復号部22は、図3(A),
(B)に例示するように、句読点言語モデル322が用
いられるか否かに応じて、図4〜図6を参照して後述す
るように、句読点の挿入を自動的に行う。また、下式2
において、P(S|W)は、音響モデル30およびベースフォ
ームモデル34により与えられ、P(W)は言語モデル32
により与えられる。このP(W)は、上記式1により、汎用
言語モデル320と句読点言語モデル322とがλの値
に応じて加重平均され、求められる。
【0034】
【数2】 W' = argmaxwP(W|S) = argmaxwP(S|W)P(W) (2) 但し、Sは特徴ベクトル(s1,s2,...,sk)、 Wは単語列(w1,w2,....,wl)、 W'は単語列(w'1,w'2,....,w'l)である。
【0035】以下、図4〜図6をさらに参照し、N−g
ramとして3−gramを用いる場合を具体例とし
て、言語復号部22の動作を詳細に説明する。図4は、
図2に示した音声認識装置1(言語復号部22)の処理
を示すフローチャートである。図5は、図2に示した句
読点言語モデル322を用いず、句読点の自動挿入を行
わない(トピックオフの)場合の音声認識装置1(言語
復号部22)の動作を示す図である。図6は、図2に示
した句読点言語モデル322用い、句読点の自動挿入を
行う(トピックオンの)場合の音声認識装置1(言語復
号部22)の動作を示す図である。
【0036】図4に示すように、ステップ100(S1
00)において、音声処理部20が、入力音声(例え
ば、「これがほん」)を特徴ベクトルに変換し、言語復
号部22に対して出力する。
【0037】ステップ102(S102)において、図
5および図6に示すように、音声復号部22は、入力さ
れた特徴ベクトル(s,s,...,s)を音響
モデル30に対して出力する。音響モデル30は、特徴
ベクトルに対応する可能性がある(可能な)音素列(/k
oegahon/,/koregahon/等)に、出現確率(0.03, 0.02)
を付して、音響データを生成し、言語復号部22に返
す。
【0038】ステップ104(S104)において、言
語復号部22は、ユーザが句読点自動挿入を行う設定を
しているか否か、つまり、句読点言語モデル322(ト
ピック)をオンしているか否かを判断し、句読点の自動
挿入を行なわない設定をしている場合(トピックをオフ
している場合)には、λの値を1としてS110の処理
に進み、これ以外の場合には、λの値を、0〜1の間の
予め設定された値として、S120の処理に進む。
【0039】[トピックオフ]句読点の自動挿入を行な
わない場合、ステップ110(S110)において、図
5に示すように、言語復号部22は、ベースフォームプ
ール34の内、汎用部分(汎用ベースフォームプール)
のみを参照して、ポーズを単語に含めずに、順次、音素
列(/koegahon/,/koregahon/等)を単語列(声/が/本
/,これ/が/本/等)に変換する。ただし、言語復号部2
2は、この段階では、単語列それぞれに対応づける出現
確率の値を変更しない。
【0040】ステップ112(S112)において、図
5に示すように、言語復号部22は、汎用言語モデル3
20のみを参照して、S110の処理において得た単語
列の出現確率それぞれを更新する。言語復号部22は、
図5に示す例においては、この処理の結果として、単語
列/これ/が/本/を確率0.02に更新し、単語列/声/が
/本/を確率0.01に更新する。
【0041】[トピックオン]句読点の自動挿入を行う
場合、ステップ120(S120)において、図6に示
すように、言語復号部22は、ベースフォームプール3
4の内、汎用ベースフォームプールおよびポーズを検出
する句読点部分(トピック)の両方を参照して、順次、
ポーズを単語に含めて、音素列(/koegahon/,/koregaho
n/等)を単語列(/声/が/本/,/これ/が/本/,/これ/が
/、/本/等)に変換する。ただし、言語復号部22は、
S110の処理においてと同様に、この段階では出現確
率の値を変更しない。
【0042】ステップ122(S122)において、図
5に示すように、言語復号部22は、汎用言語モデル3
20および句読点言語モデル322を、λ≠1とした上
記式1にしたがって重み付けして参照し、S110の処
理において得た単語列の出現確率それぞれを更新する。
言語復号部22は、図5に示す例においては、この処理
の結果として、単語列/これ/が/、/本/を確率0.02
に更新し、その他の単語列を確率0.01に更新する。
【0043】ステップ124(S124)において、図
5,6に示すように、言語復号部22は、順次、S11
2またはS122の処理において更新された出現確率
が、最も高い単語列を、音声認識結果を示すテキストデ
ータとして出力する。
【0044】[音声認識装置1の動作]以下、本発明に
係る音声認識装置1(図1,図2)の動作を説明する。
【0045】図3(A)に示したように、句読点言語モ
デル322(図2)を用いない場合(λ=1)、話者
が、例えば、音声認識装置1の音声入力装置120(図
1)から「コレガ」・「pause(無音を示す。以下
同じ)」・「テン」・「ホンハツメイノ」・「paus
e」・「ヨウテン」という音声を入力すると、音響処理
部20は、この音声を示す音声データを処理し、この音
声を音素で示す特徴ベクトルを言語復号部22に対して
出力する。
【0046】言語復号部22(図2)は、図4および図
5に示したように、汎用言語モデル320のみを用いて
音響処理部20から入力された特徴ベクトルを処理し、
「コレガ」を「これが」と識別し、「pause」に続
く「テン」を読点「、」と識別し、「ホンハツメイノ」
を「本発明の」と識別する。さらに、言語復号部22
は、「pause」には「テン」も「マル」も続かない
ので、「ヨウテン」を「要点」と識別して、「これが、
本発明の要点」というテキストデータを識別結果として
出力する。
【0047】図3(B)に示したように、句読点言語モ
デル322を用いる(λ≠1の)場合、話者が、例え
ば、上述した句読点言語モデル322を用いる場合とは
異り「テン」という音声を省き、音声認識装置1の音声
入力装置120(図1)から「コレガ」・「paus
e」・「ホンハツメイノ」・「pause」・「ヨウテ
ン」という音声を入力すると、音響処理部20(図2)
は、この音声を示す音声データを処理し、この音声を音
素で示す特徴ベクトルを言語復号部22に対して出力す
る。
【0048】言語復号部22は、図4および図6に示し
たように、汎用言語モデル320および句読点言語モデ
ル322を用いて音響処理部20から入力された特徴ベ
クトルを処理し、「コレガ」を「これが」と識別し、
「コレガ」の「ガ」に続く「pause」を読点「、」
と識別し、「ホンハツメイノ」を「本発明の」と識別す
る。「ホンハツメイノ」には、「pause」が続く
が、「ノ」の後ろには通常、句読点は続かないので、言
語復号部22は、この「pause」の部分には句読点
を挿入せず、句読点言語モデル322を用いない場合と
同様に、入力された音声を「これが、本発明の要点」と
正確に識別し、認識結果のテキストデータとして出力す
る。
【0049】[効果]Topic用のモデルは、句読点
に無音を割り当てた発音辞書などから構成され、上述し
た句読点自動挿入用のタスクに比べて、非常に小さなサ
イズ(例えば2MB程度)で済む。また、本発明に係る
句読点挿入方法では、句読点自動挿入のために、Top
icを追加すればよいので、変更をほとんどせずに、従
来からの汎用ディクテーションシステムに句読点自動挿
入機能を追加することができる。しかも、ユーザーは、
この句読点挿入用Topicを選択するかしないかによ
って、容易に句読点自動挿入機能をオンオフすることが
でき、しかも、このオンオフにはプログラムの再起動は
不要である。
【0050】[変形例]さらに、文章の内容によって、
句読点を多く入れたり少なく入れたりしたい場合が生じ
るが、本発明に係る句読点挿入方法においては、句読点
の出現頻度を、汎用言語モデルとの線形補間時の重みの
調整によって容易に制御できる。また、句読点挿入用T
opicを、例えば、「コンピュータ」・「サッカー」
・「野球」といった、他の分野に特化されたTopic
と組み合わせて使用することも可能なので、コンピュー
タのTopicを用いて音声認識を行いつつ、句読点の
自動挿入を行うことも可能である。また、本発明に係る
句読点挿入方法は、句読点だけでなく”?”マークなど
の他の記号を自動挿入するために応用することも可能で
ある。
【0051】
【発明の効果】上述のように本発明にかかる音声認識装
置およびその方法によれば、汎用的な語彙・言語モデル
と、特定分野に特化した語彙・言語モデルとを組み合わ
せて、文章中の適切な位置に句読点等の記号を挿入する
ことができる。
【図面の簡単な説明】
【図1】本発明にかかる音声認識装置の構成を例示する
図である。
【図2】本発明に係る音声認識方法を実現する音声認識
プログラムの構成を示す図である。
【図3】図2に示した音声認識プログラム(言語復号
部)の動作を例示する図であって、(A)は、句読点言
語モデルが用いられずに音声認識が行なわれる(オフ
の)場合を示し、(B)は、句読点言語モデルが用られ
て音声認識が行なわれる(オンの)場合を示す。
【図4】図2に示した音声認識装置(言語復号部)の処
理を示すフローチャートである。
【図5】図2に示した句読点言語モデルを用いず、句読
点の自動挿入を行わない(トピックオフの)場合の音声
認識装置(言語復号部)の動作を示す図である。
【図6】図2に示した句読点言語モデル用い、句読点の
自動挿入を行う(トピックオンの)場合の音声認識装置
(言語復号部)の動作を示す図である。
【符号の説明】
1・・・音声認識装置 10・・・CPU 12・・・入力装置12 120・・・音声入力装置 14・・・表示装置 16・・・記憶装置 18・・・記録媒体 2・・・音声認識プログラム 20・・・音響処理部 22・・・言語復号部 30・・・音響モデル 32・・・言語モデル 320・・・汎用言語モデル 322・・・句読点言語モデル
フロントページの続き (72)発明者 伊東 伸泰 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 森 信介 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (56)参考文献 特開2000−259176(JP,A) 特開 平7−104786(JP,A) 特開 昭56−114041(JP,A) 特開2000−47688(JP,A) 特開 平8−2015(JP,A) 特公 平7−69910(JP,B2) 特公 平6−93221(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G06F 17/22 G10L 15/18 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】音声に含まれる音素列を1つ以上の単語列
    に変換し、変換して得られた前記単語列それぞれに、こ
    れらの前記単語列それぞれが、前記音素列により本来、
    示される単語列である可能性を示す出現確率を付す変換
    手段と、 前記変換により得られた前記単語列それぞれに対応する
    言語モデルが示す更新用数値に基づいて、前記単語列そ
    れぞれに付された出現確率の更新を行う更新手段と、 更新された出現確率が、前記音素列により本来示される
    単語列である可能性が最も高いことを示す前記単語列の
    いずれかを選択し、前記音声を認識する音声認識手段と
    を有し、 前記更新手段は、前記単語列が特定の記号を単語として
    必ず含む場合の第1の言語モデルと、これ以外の場合の
    第2の言語モデルとを用いて前記更新用数値を算出し、
    算出した前記更新用数値に基づいて、前記出現確率の更
    新を行う音声認識装置。
  2. 【請求項2】前記第1の言語モデルは、前記単語列に前
    記特定の記号が単語として必ず含まれる場合に、この単
    語列が、前記音素列により本来示される単語列である確
    からしさを示し、 前記第2の言語モデルは、前記単語列に前記特定の記号
    が単語として必ず含まれる場合以外に、この単語列が、
    前記音素列により本来示される単語列である確からしさ
    を示し、 前記更新手段は、前記第1の言語モデルおよび前記第2
    の言語モデルに基づいて前記更新用数値を算出し、算出
    した前記更新用数値に基づいて、、前記単語列それぞれ
    に付された出現確率を、より前記音素列により本来示さ
    れる単語列である確からしさを反映するように更新する
    請求項1に記載の音声認識装置。
  3. 【請求項3】前記第1の言語モデルは、前記単語列に前
    記特定の記号が単語として必ず含まれる場合に、この単
    語列が、1つ以上の単語を、前記単語列それぞれにおけ
    る順番で含む確からしさを示し、 前記第2の言語モデルは、前記単語列に前記特定の記号
    が単語として必ず含まれる場合以外に、この単語列が、
    1つ以上の単語を、前記単語列それぞれにおける順番で
    含む確からしさを示し、 前記更新手段は、前記第1の言語モデルおよび前記第2
    の言語モデルに基づいて、前記単語列それぞれに付され
    た出現確率を、より前記音素列により本来示される単語
    列である確からしさを反映するように更新する請求項1
    に記載の音声認識装置。
  4. 【請求項4】前記音素列・単語列変換手段は、前記記号
    を音声認識の結果に含める場合には、前記音素列を、前
    記記号を含むことがある1つ以上の単語列に変換し、こ
    れ以外の場合には、前記音素列を、前記記号以外の単語
    のみを含む1つ以上の単語列に変換し、前記出現確率を
    付し、 前記更新手段は、前記記号を音声認識の結果に含める場
    合には、前記第1の言語モデルと前記第2の言語モデル
    とに基づいて、前記単語列それぞれの出現確率を更新
    し、これ以外の場合には、前記第2の言語モデルのみに
    基づいて、前記単語列それぞれの出現確率を更新する請
    求項2または3に記載の音声認識装置。
  5. 【請求項5】前記第1の言語モデルおよび前記第2の言
    語モデルは、N−gramであり、前記更新手段は、前
    記第1および第2の言語モデルの加重平均値を前記更新
    用数値として用いる請求項1〜4のいずれかに記載の音
    声認識装置。
  6. 【請求項6】前記記号は句読点であることを特徴とする
    請求項1〜5いずれかに記載の音声認識装置。
  7. 【請求項7】音声に含まれる音素列を1つ以上の単語列
    に変換し、変換して得られた前記単語列それぞれに、こ
    れらの前記単語列それぞれが、前記音素列により本来、
    示される単語列である可能性を示す出現確率を付す変換
    ステップと、 前記変換により得られた前記単語列それぞれに対応する
    言語モデルが示す更新用数値に基づいて、前記単語列そ
    れぞれに付された出現確率の更新を行う更新ステップ
    と、 更新された出現確率が、前記音素列により本来示される
    単語列である可能性が最も高いことを示す前記単語列の
    いずれかを選択し、前記音声を認識する音声認識ステッ
    プとを含み、 前記更新ステップにおいて、前記単語列が特定の記号を
    単語として必ず含む場合の第1の言語モデルと、これ以
    外の場合の第2の言語モデルとを用いて前記更新用数値
    を算出し、算出した前記更新用数値に基づいて、前記出
    現確率の更新を行う音声認識方法。
  8. 【請求項8】音声に含まれる音素列を1つ以上の単語列
    に変換し、変換して得られた前記単語列それぞれに、こ
    れらの前記単語列それぞれが、前記音素列により本来、
    示される単語列である可能性を示す出現確率を付す変換
    ステップと、 前記変換により得られた前記単語列それぞれに対応する
    言語モデルが示す更新用数値に基づいて、前記単語列そ
    れぞれに付された出現確率の更新を行う更新ステップ
    と、 更新された出現確率が、前記音素列により本来示される
    単語列である可能性が最も高いことを示す前記単語列の
    いずれかを選択し、前記音声を認識する音声認識ステッ
    プとをコンピュータに実行させるプログラムであって、 前記更新ステップにおいて、前記単語列が特定の記号を
    単語として必ず含む場合の第1の言語モデルと、これ以
    外の場合の第2の言語モデルとを用いて前記更新用数値
    を算出し、算出した前記更新用数値に基づいて、前記出
    現確率の更新処理を行うプログラムを媒介する媒体。
JP24331199A 1999-08-30 1999-08-30 記号挿入装置およびその方法 Expired - Fee Related JP3232289B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP24331199A JP3232289B2 (ja) 1999-08-30 1999-08-30 記号挿入装置およびその方法
US09/651,679 US6778958B1 (en) 1999-08-30 2000-08-30 Symbol insertion apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24331199A JP3232289B2 (ja) 1999-08-30 1999-08-30 記号挿入装置およびその方法

Publications (2)

Publication Number Publication Date
JP2001083987A JP2001083987A (ja) 2001-03-30
JP3232289B2 true JP3232289B2 (ja) 2001-11-26

Family

ID=17101956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24331199A Expired - Fee Related JP3232289B2 (ja) 1999-08-30 1999-08-30 記号挿入装置およびその方法

Country Status (2)

Country Link
US (1) US6778958B1 (ja)
JP (1) JP3232289B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US20080040227A1 (en) * 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US7091976B1 (en) * 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US7801838B2 (en) * 2002-07-03 2010-09-21 Ramp Holdings, Inc. Multimedia recognition system comprising a plurality of indexers configured to receive and analyze multimedia data based on training data and user augmentation relating to one or more of a plurality of generated documents
US20040163034A1 (en) * 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
US7580838B2 (en) * 2002-11-22 2009-08-25 Scansoft, Inc. Automatic insertion of non-verbalized punctuation
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US20050216256A1 (en) * 2004-03-29 2005-09-29 Mitra Imaging Inc. Configurable formatting system and method
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP5141695B2 (ja) * 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9424246B2 (en) * 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US20100332224A1 (en) * 2009-06-30 2010-12-30 Nokia Corporation Method and apparatus for converting text to audio and tactile output
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9460067B2 (en) * 2013-10-30 2016-10-04 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN107391638A (zh) * 2017-07-10 2017-11-24 北京神州泰岳软件股份有限公司 规则关联模型的新概念发现方法及装置
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
US10789955B2 (en) 2018-11-16 2020-09-29 Google Llc Contextual denormalization for automatic speech recognition
JP7253951B2 (ja) * 2019-03-26 2023-04-07 日本放送協会 自然言語データ処理装置およびプログラム
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置
JPWO2021215262A1 (ja) * 2020-04-20 2021-10-28
CN112148856B (zh) * 2020-09-22 2024-01-23 北京百度网讯科技有限公司 建立标点预测模型的方法、装置
CN112927679B (zh) * 2021-02-07 2023-08-15 虫洞创新平台(深圳)有限公司 一种语音识别中添加标点符号的方法及语音识别装置
CN112951237B (zh) * 2021-03-18 2022-03-04 深圳奇实科技有限公司 一种基于人工智能的自动语音识别方法及系统
CN115394298B (zh) * 2022-08-26 2024-09-06 思必驰科技股份有限公司 语音识别文本标点预测模型训练方法和预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
CN1159662C (zh) * 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system

Also Published As

Publication number Publication date
JP2001083987A (ja) 2001-03-30
US6778958B1 (en) 2004-08-17

Similar Documents

Publication Publication Date Title
JP3232289B2 (ja) 記号挿入装置およびその方法
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US11450313B2 (en) Determining phonetic relationships
JP3967952B2 (ja) 文法更新システム及び方法
US6801897B2 (en) Method of providing concise forms of natural commands
US6334102B1 (en) Method of adding vocabulary to a speech recognition system
US20030093263A1 (en) Method and apparatus for adapting a class entity dictionary used with language models
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US9601110B2 (en) Unsupervised training method for an N-gram language model based upon recognition reliability
US20220383862A1 (en) Cross-lingual speech recognition
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
US6345249B1 (en) Automatic analysis of a speech dictated document
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP2000284795A (ja) テキストの挿入と置換を区別するための方法およびシステム
JP2001282277A (ja) 音声情報処理装置及びその方法と記憶媒体
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US8275614B2 (en) Support device, program and support method
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP2005242891A (ja) 事例検索プログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
JP4990822B2 (ja) 辞書修正装置、システム、およびコンピュータプログラム
JP2003241787A (ja) 音声認識装置および方法、並びにプログラム
CN110136720B (zh) 编辑支援装置、编辑支援方法以及程序

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees