JP2002215187A - 音声認識方法及びその装置 - Google Patents
音声認識方法及びその装置Info
- Publication number
- JP2002215187A JP2002215187A JP2001014160A JP2001014160A JP2002215187A JP 2002215187 A JP2002215187 A JP 2002215187A JP 2001014160 A JP2001014160 A JP 2001014160A JP 2001014160 A JP2001014160 A JP 2001014160A JP 2002215187 A JP2002215187 A JP 2002215187A
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- word
- recognition
- speech
- input speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000002620 method output Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 240000001549 Ipomoea eriocarpa Species 0.000 description 1
- 235000005146 Ipomoea eriocarpa Nutrition 0.000 description 1
- 235000019687 Lamb Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 本発明は、認識精度を保ちつつ計算量を効果
的に削減可能な音声認識方法及びその装置を提供するこ
とを目的とする。 【解決手段】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識装置において、単語内では
似た発音のスコアの高い仮説は単語終端まで、仮説数に
よらず精密に計算を行うことで認識精度を保ち、単語終
端では、後続単語が接続することによる仮説数の増大を
避けるために、仮説数による絞り込みを行い、認識精度
を保ちつつ計算量を効果的に削減可能な音声認識方法及
びその装置を提供することができる。
的に削減可能な音声認識方法及びその装置を提供するこ
とを目的とする。 【解決手段】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識装置において、単語内では
似た発音のスコアの高い仮説は単語終端まで、仮説数に
よらず精密に計算を行うことで認識精度を保ち、単語終
端では、後続単語が接続することによる仮説数の増大を
避けるために、仮説数による絞り込みを行い、認識精度
を保ちつつ計算量を効果的に削減可能な音声認識方法及
びその装置を提供することができる。
Description
【0001】
【発明の属する技術分野】本発明は、一般の産業用、家
庭用等の電気機器に搭載される音声認識技術に関し、特
に音声認識の認識率向上を図る音声認識方法及び装置に
関するものである。
庭用等の電気機器に搭載される音声認識技術に関し、特
に音声認識の認識率向上を図る音声認識方法及び装置に
関するものである。
【0002】
【従来の技術】音声認識システムの一例として、「Herm
ann Ney: Data Driven Search Organization for Conti
nuous Speech Recognition (IEEE TRANSACTIONS ON SIG
NAL PROCESSING Vol.40 No.2 p272 1992)」が参照され
る。
ann Ney: Data Driven Search Organization for Conti
nuous Speech Recognition (IEEE TRANSACTIONS ON SIG
NAL PROCESSING Vol.40 No.2 p272 1992)」が参照され
る。
【0003】この音声認識システムは、図5の処理フロ
ーに示すステップを入力音声のフレームに同期して処理
を行い、入力音声の終端まで実行することによって、入
力音声に近い仮説を認識結果として得るものである。こ
のような方法を用いるサーチをフレーム同期ビームサー
チと呼ぶ。
ーに示すステップを入力音声のフレームに同期して処理
を行い、入力音声の終端まで実行することによって、入
力音声に近い仮説を認識結果として得るものである。こ
のような方法を用いるサーチをフレーム同期ビームサー
チと呼ぶ。
【0004】ステップ1:i番目のフレームの仮説はon
e-pass search アルゴリズムを用いて、i+1番目のフ
レームに展開する。仮説が単語内ならば単語を表現する
音声単位を、単語終端ならば単語間接続ルールにより次
に続く単語を結合しその最初の音声単位を伸長する。i
番目のフレームの仮説は消去され、i+1番目の仮説だ
けが記憶される。
e-pass search アルゴリズムを用いて、i+1番目のフ
レームに展開する。仮説が単語内ならば単語を表現する
音声単位を、単語終端ならば単語間接続ルールにより次
に続く単語を結合しその最初の音声単位を伸長する。i
番目のフレームの仮説は消去され、i+1番目の仮説だ
けが記憶される。
【0005】ステップ2:i+1番目のフレームに展開
された仮説のうち、最も累計スコアの高い仮説を基準と
して、そのスコアより一定の閾値以内のスコアを持つ仮
説のみを記憶する。それ以外の仮説は消去する。これを
候補の絞り込みといい、絞り込みにより、仮説の数が指
数関数的に増加し計算不可能となることを避けている。
された仮説のうち、最も累計スコアの高い仮説を基準と
して、そのスコアより一定の閾値以内のスコアを持つ仮
説のみを記憶する。それ以外の仮説は消去する。これを
候補の絞り込みといい、絞り込みにより、仮説の数が指
数関数的に増加し計算不可能となることを避けている。
【0006】ステップ3:処理すべきフレームiに1を
加える。
加える。
【0007】なお、フレーム同期ビームサーチにおいて
高い精度で仮説の評価を行う音声認識方法として例えば
特開平8−6588号公報には、フレーム同期ビームサ
ーチにいて時刻tの仮説のスコアを、時刻に対する正規
化を行うために、全仮説に共通の尤度関数を差し引くこ
とにより行っており、正規化されたスコアの最大値と各
仮説の正規化されたスコアにより一定の閾値以内の仮説
を記憶するものである。
高い精度で仮説の評価を行う音声認識方法として例えば
特開平8−6588号公報には、フレーム同期ビームサ
ーチにいて時刻tの仮説のスコアを、時刻に対する正規
化を行うために、全仮説に共通の尤度関数を差し引くこ
とにより行っており、正規化されたスコアの最大値と各
仮説の正規化されたスコアにより一定の閾値以内の仮説
を記憶するものである。
【0008】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識システムにおいては、単語内の仮説も
単語終端の仮説も、最も累計スコアの高い仮説を基準と
して、そのスコアより一定の閾値以内のスコアを持つ仮
説のみを記憶するため、単語終端で後続単語候補が多数
接続可能となり、仮説数の大幅な増大をまねき、効率的
な絞り込みが行われず計算が困難な状態に陥るという課
題があった。
た従来の音声認識システムにおいては、単語内の仮説も
単語終端の仮説も、最も累計スコアの高い仮説を基準と
して、そのスコアより一定の閾値以内のスコアを持つ仮
説のみを記憶するため、単語終端で後続単語候補が多数
接続可能となり、仮説数の大幅な増大をまねき、効率的
な絞り込みが行われず計算が困難な状態に陥るという課
題があった。
【0009】したがって、本発明は、上記課題に鑑みて
なされたものであって、その目的はフレーム同期ビーム
サーチにおいて、単語内では似た発音のスコアの高い仮
説は単語終端まで、仮説数によらず精密に計算を行うこ
とで認識精度を保ち、単語終端では、後続単語が接続す
ることによる仮説数の増大を避けるために、仮説数によ
る絞り込みを行い、認識精度を保ちつつ計算量を効果的
に削減可能な音声認識方法及びその装置を提供すること
にある。
なされたものであって、その目的はフレーム同期ビーム
サーチにおいて、単語内では似た発音のスコアの高い仮
説は単語終端まで、仮説数によらず精密に計算を行うこ
とで認識精度を保ち、単語終端では、後続単語が接続す
ることによる仮説数の増大を避けるために、仮説数によ
る絞り込みを行い、認識精度を保ちつつ計算量を効果的
に削減可能な音声認識方法及びその装置を提供すること
にある。
【0010】
【課題を解決するための手段】この課題を解決するため
に本発明は、音素や音節などの音声単位の連結で表現さ
れ、単語間の接続ルールによって入力音声の長さに従い
展開される仮説に対応する音響モデルと、入力音声とを
照合し認識スコアを得、その認識スコアの高い少なくと
も1個の仮説を残しながら入力音声に近い候補を認識結
果として出力する音声認識装置において、入力された音
声の特徴量をフレーム単位で抽出する特徴量抽出手段
と、現処理フレームが単語終端か単語内かを判別し、前
記判定が単語終端ならば単語終端の仮説を記憶するか否
かを判定し、単語内ならば単語内の仮説を記憶するか否
かの判定をする単語終端判定手段と、前記記憶すると判
定された仮説を記憶する仮説記憶手段と、前記記憶され
た仮説を仮説が単語内ならば単語を表現する音声単位を
伸長し、単語終端ならば単語間の接続ルールにより次に
続く単語を結合し、仮説を展開する制御を行うサーチ制
御手段と、前記入力音声から抽出されたフレーム特徴量
と前記展開された仮説の音響モデルのフレーム特徴量と
の類似度を計算する類似度計算手段と、前記類似度と前
フレームまでの仮説の認識スコアとから、認識スコアの
演算を行うサーチ演算手段と、前記仮説と前記認識スコ
アを新しい仮説として登録する単語仮説登録手段と、前
記フレーム単位の処理を入力音声の終端まで続け認識ス
コアの高い少なくとも1個の仮説を入力音声に近い認識
結果として出力する認識結果出力手段とを備える。
に本発明は、音素や音節などの音声単位の連結で表現さ
れ、単語間の接続ルールによって入力音声の長さに従い
展開される仮説に対応する音響モデルと、入力音声とを
照合し認識スコアを得、その認識スコアの高い少なくと
も1個の仮説を残しながら入力音声に近い候補を認識結
果として出力する音声認識装置において、入力された音
声の特徴量をフレーム単位で抽出する特徴量抽出手段
と、現処理フレームが単語終端か単語内かを判別し、前
記判定が単語終端ならば単語終端の仮説を記憶するか否
かを判定し、単語内ならば単語内の仮説を記憶するか否
かの判定をする単語終端判定手段と、前記記憶すると判
定された仮説を記憶する仮説記憶手段と、前記記憶され
た仮説を仮説が単語内ならば単語を表現する音声単位を
伸長し、単語終端ならば単語間の接続ルールにより次に
続く単語を結合し、仮説を展開する制御を行うサーチ制
御手段と、前記入力音声から抽出されたフレーム特徴量
と前記展開された仮説の音響モデルのフレーム特徴量と
の類似度を計算する類似度計算手段と、前記類似度と前
フレームまでの仮説の認識スコアとから、認識スコアの
演算を行うサーチ演算手段と、前記仮説と前記認識スコ
アを新しい仮説として登録する単語仮説登録手段と、前
記フレーム単位の処理を入力音声の終端まで続け認識ス
コアの高い少なくとも1個の仮説を入力音声に近い認識
結果として出力する認識結果出力手段とを備える。
【0011】本発明は、仮説を記憶するか否かの判定
を、現処理フレームが単語終端か単語内かを判別し、前
記判定が単語終端ならば単語終端の仮説を記憶するか否
かを判定し、単語内ならば単語内の仮説を記憶するか否
かの判定をするようにしたものである。
を、現処理フレームが単語終端か単語内かを判別し、前
記判定が単語終端ならば単語終端の仮説を記憶するか否
かを判定し、単語内ならば単語内の仮説を記憶するか否
かの判定をするようにしたものである。
【0012】また、その判定基準を、単語内仮説を記憶
するか否かの判定の基準を類似度のスコアとし、単語終
端仮説を記憶するか否かの判定の基準を仮説の個数とし
たものである。
するか否かの判定の基準を類似度のスコアとし、単語終
端仮説を記憶するか否かの判定の基準を仮説の個数とし
たものである。
【0013】
【発明の実施の形態】本発明の請求項1に記載の発明
は、音素や音節などの音声単位の連結で表現され、単語
間の接続ルールによって入力音声の長さに従い展開され
る仮説に対応する音響モデルと、入力音声とを照合し認
識スコアを得、その認識スコアの高い少なくとも1個の
仮説を残しながら入力音声に近い候補を認識結果として
出力する音声認識方法において、入力された音声の特徴
量をフレーム単位で抽出する特徴量抽出ステップと、現
処理フレームが単語終端か単語内かを判別し、前記判定
が単語終端ならば単語終端の仮説を記憶するか否かを判
定し、単語内ならば単語内の仮説を記憶するか否かの判
定をするステップと、前記記憶すると判定された仮説を
記憶するステップと、前記記憶された仮説を仮説が単語
内ならば単語を表現する音声単位を伸長し、単語終端な
らば単語間の接続ルールにより次に続く単語を結合し、
仮説を展開する制御を行う制御ステップと、前記入力音
声から抽出されたフレーム特徴量と前記展開された仮説
の音響モデルのフレーム特徴量との類似度を計算するス
テップと、前記類似度と前フレームまでの仮説の認識ス
コアとから、認識スコアの演算を行う演算ステップと、
前記仮説と前記認識スコアを新しい仮説として登録する
ステップと、前記フレーム単位の処理を入力音声の終端
まで続け認識スコアの高い少なくとも1個の仮説を入力
音声に近い認識結果として出力するステップとを有する
ことにより、認識精度を保ちつつ計算量を効果的に削減
できるという作用を有する。
は、音素や音節などの音声単位の連結で表現され、単語
間の接続ルールによって入力音声の長さに従い展開され
る仮説に対応する音響モデルと、入力音声とを照合し認
識スコアを得、その認識スコアの高い少なくとも1個の
仮説を残しながら入力音声に近い候補を認識結果として
出力する音声認識方法において、入力された音声の特徴
量をフレーム単位で抽出する特徴量抽出ステップと、現
処理フレームが単語終端か単語内かを判別し、前記判定
が単語終端ならば単語終端の仮説を記憶するか否かを判
定し、単語内ならば単語内の仮説を記憶するか否かの判
定をするステップと、前記記憶すると判定された仮説を
記憶するステップと、前記記憶された仮説を仮説が単語
内ならば単語を表現する音声単位を伸長し、単語終端な
らば単語間の接続ルールにより次に続く単語を結合し、
仮説を展開する制御を行う制御ステップと、前記入力音
声から抽出されたフレーム特徴量と前記展開された仮説
の音響モデルのフレーム特徴量との類似度を計算するス
テップと、前記類似度と前フレームまでの仮説の認識ス
コアとから、認識スコアの演算を行う演算ステップと、
前記仮説と前記認識スコアを新しい仮説として登録する
ステップと、前記フレーム単位の処理を入力音声の終端
まで続け認識スコアの高い少なくとも1個の仮説を入力
音声に近い認識結果として出力するステップとを有する
ことにより、認識精度を保ちつつ計算量を効果的に削減
できるという作用を有する。
【0014】請求項2に記載の発明は、請求項1記載の
音声認識方法において、記憶するか否かの判定は、単語
内仮説を記憶するか否かの判定の基準を類似度のスコア
とし、単語終端仮説を記憶するか否かの判定の基準を仮
説の個数としたことにより、単語内では似た発音のスコ
アの高い仮説は単語終端まで、仮説数によらず精密に計
算を行うことで認識精度を保ち、単語終端では、後続単
語が接続することによる仮説数の増大を避けるために、
仮説数による絞り込みを行い、認識精度を保ちつつ計算
量を効果的に削減であるという作用を有する。
音声認識方法において、記憶するか否かの判定は、単語
内仮説を記憶するか否かの判定の基準を類似度のスコア
とし、単語終端仮説を記憶するか否かの判定の基準を仮
説の個数としたことにより、単語内では似た発音のスコ
アの高い仮説は単語終端まで、仮説数によらず精密に計
算を行うことで認識精度を保ち、単語終端では、後続単
語が接続することによる仮説数の増大を避けるために、
仮説数による絞り込みを行い、認識精度を保ちつつ計算
量を効果的に削減であるという作用を有する。
【0015】請求項3に記載の発明は、音素や音節など
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識装
置において、入力された音声の特徴量をフレーム単位で
抽出する特徴量抽出手段と、現処理フレームが単語終端
か単語内かを判別し、前記判定が単語終端ならば単語終
端の仮説を記憶するか否かを判定し、単語内ならば単語
内の仮説を記憶するか否かの判定をする単語終端判定手
段と、前記記憶すると判定された仮説を記憶する仮説記
憶手段と、前記記憶された仮説を仮説が単語内ならば単
語を表現する音声単位を伸長し、単語終端ならば単語間
の接続ルールにより次に続く単語を結合し、仮説を展開
する制御を行うサーチ制御手段と、前記入力音声から抽
出されたフレーム特徴量と前記展開された仮説の音響モ
デルのフレーム特徴量との類似度を計算する類似度計算
手段と、前記類似度と前フレームまでの仮説の認識スコ
アとから、認識スコアの演算を行うサーチ演算手段と、
前記仮説と前記認識スコアを新しい仮説として登録する
単語仮説登録手段と、前記フレーム単位の処理を入力音
声の終端まで続け認識スコアの高い少なくとも1個の仮
説を入力音声に近い認識結果として出力する認識結果出
力手段とを有することにより、認識精度を保ちつつ計算
量を効果的に削減できるという作用を有する。
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識装
置において、入力された音声の特徴量をフレーム単位で
抽出する特徴量抽出手段と、現処理フレームが単語終端
か単語内かを判別し、前記判定が単語終端ならば単語終
端の仮説を記憶するか否かを判定し、単語内ならば単語
内の仮説を記憶するか否かの判定をする単語終端判定手
段と、前記記憶すると判定された仮説を記憶する仮説記
憶手段と、前記記憶された仮説を仮説が単語内ならば単
語を表現する音声単位を伸長し、単語終端ならば単語間
の接続ルールにより次に続く単語を結合し、仮説を展開
する制御を行うサーチ制御手段と、前記入力音声から抽
出されたフレーム特徴量と前記展開された仮説の音響モ
デルのフレーム特徴量との類似度を計算する類似度計算
手段と、前記類似度と前フレームまでの仮説の認識スコ
アとから、認識スコアの演算を行うサーチ演算手段と、
前記仮説と前記認識スコアを新しい仮説として登録する
単語仮説登録手段と、前記フレーム単位の処理を入力音
声の終端まで続け認識スコアの高い少なくとも1個の仮
説を入力音声に近い認識結果として出力する認識結果出
力手段とを有することにより、認識精度を保ちつつ計算
量を効果的に削減できるという作用を有する。
【0016】請求項4に記載の発明は、請求項3記載の
音声認識装置において、単語終端判定手段は、単語内仮
説を記憶するか否かの判定の基準を類似度のスコアと
し、単語終端仮説を記憶するか否かの判定の基準を仮説
の個数としたことにより、単語内では似た発音のスコア
の高い仮説は単語終端まで、仮説数によらず精密に計算
を行うことで認識精度を保ち、単語終端では、後続単語
が接続することによる仮説数の増大を避けるために、仮
説数による絞り込みを行い、認識精度を保ちつつ計算量
を効果的に削減であるという作用を有する。
音声認識装置において、単語終端判定手段は、単語内仮
説を記憶するか否かの判定の基準を類似度のスコアと
し、単語終端仮説を記憶するか否かの判定の基準を仮説
の個数としたことにより、単語内では似た発音のスコア
の高い仮説は単語終端まで、仮説数によらず精密に計算
を行うことで認識精度を保ち、単語終端では、後続単語
が接続することによる仮説数の増大を避けるために、仮
説数による絞り込みを行い、認識精度を保ちつつ計算量
を効果的に削減であるという作用を有する。
【0017】請求項5に記載の発明は、音素や音節など
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識す
るためにコンピュータを、入力された音声の特徴量をフ
レーム単位で抽出する特徴量抽出手段と、現処理フレー
ムが単語終端か単語内かを判別し、前記判定が単語終端
ならば単語終端の仮説を記憶するか否かを判定し、単語
内ならば単語内の仮説を記憶するか否かの判定をする単
語終端判定手段と、前記記憶すると判定された仮説を記
憶する仮説記憶手段と、前記記憶された仮説を仮説が単
語内ならば単語を表現する音声単位を伸長し、単語終端
ならば単語間の接続ルールにより次に続く単語を結合
し、仮説を展開する制御を行うサーチ制御手段と、前記
入力音声から抽出されたフレーム特徴量と前記展開され
た仮説の音響モデルのフレーム特徴量との類似度を計算
する類似度計算手段と、前記類似度と前フレームまでの
仮説の認識スコアとから、認識スコアの演算を行うサー
チ演算手段と、前記仮説と前記認識スコアを新しい仮説
として登録する単語仮説登録手段と、前記フレーム単位
の処理を入力音声の終端まで続け認識スコアの高い少な
くとも1個の仮説を入力音声に近い認識結果として出力
する認識結果出力手段、として機能させるための音声認
識プログラムをコンピュータで実行することにより、認
識精度を保ちつつ計算量を効果的に削減できるという作
用を有する。
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識す
るためにコンピュータを、入力された音声の特徴量をフ
レーム単位で抽出する特徴量抽出手段と、現処理フレー
ムが単語終端か単語内かを判別し、前記判定が単語終端
ならば単語終端の仮説を記憶するか否かを判定し、単語
内ならば単語内の仮説を記憶するか否かの判定をする単
語終端判定手段と、前記記憶すると判定された仮説を記
憶する仮説記憶手段と、前記記憶された仮説を仮説が単
語内ならば単語を表現する音声単位を伸長し、単語終端
ならば単語間の接続ルールにより次に続く単語を結合
し、仮説を展開する制御を行うサーチ制御手段と、前記
入力音声から抽出されたフレーム特徴量と前記展開され
た仮説の音響モデルのフレーム特徴量との類似度を計算
する類似度計算手段と、前記類似度と前フレームまでの
仮説の認識スコアとから、認識スコアの演算を行うサー
チ演算手段と、前記仮説と前記認識スコアを新しい仮説
として登録する単語仮説登録手段と、前記フレーム単位
の処理を入力音声の終端まで続け認識スコアの高い少な
くとも1個の仮説を入力音声に近い認識結果として出力
する認識結果出力手段、として機能させるための音声認
識プログラムをコンピュータで実行することにより、認
識精度を保ちつつ計算量を効果的に削減できるという作
用を有する。
【0018】請求項6に記載の発明は、音素や音節など
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識す
るためにコンピュータを、入力された音声の特徴量をフ
レーム単位で抽出する特徴量抽出手段と、現処理フレー
ムが単語終端か単語内かを判別し、前記判定が単語終端
ならば単語終端の仮説を記憶するか否かを判定し、単語
内ならば単語内の仮説を記憶するか否かの判定をする単
語終端判定手段と、前記記憶すると判定された仮説を記
憶する仮説記憶手段と、前記記憶された仮説を仮説が単
語内ならば単語を表現する音声単位を伸長し、単語終端
ならば単語間の接続ルールにより次に続く単語を結合
し、仮説を展開する制御を行うサーチ制御手段と、前記
入力音声から抽出されたフレーム特徴量と前記展開され
た仮説の音響モデルのフレーム特徴量との類似度を計算
する類似度計算手段と、前記類似度と前フレームまでの
仮説の認識スコアとから、認識スコアの演算を行うサー
チ演算手段と、前記仮説と前記認識スコアを新しい仮説
として登録する単語仮説登録手段と、前記フレーム単位
の処理を入力音声の終端まで続け認識スコアの高い少な
くとも1個の仮説を入力音声に近い認識結果として出力
する認識結果出力手段、として機能させるための音声認
識プログラムを記録したコンピュータ読み取り可能な記
憶媒体から音声認識プログラムをコンピュータにインス
トールして実行することにより、認識精度を保ちつつ計
算量を効果的に削減できるという作用を有する。
の音声単位の連結で表現され、単語間の接続ルールによ
って入力音声の長さに従い展開される仮説に対応する音
響モデルと、入力音声とを照合し認識スコアを得、その
認識スコアの高い少なくとも1個の仮説を残しながら入
力音声に近い候補を認識結果として出力する音声認識す
るためにコンピュータを、入力された音声の特徴量をフ
レーム単位で抽出する特徴量抽出手段と、現処理フレー
ムが単語終端か単語内かを判別し、前記判定が単語終端
ならば単語終端の仮説を記憶するか否かを判定し、単語
内ならば単語内の仮説を記憶するか否かの判定をする単
語終端判定手段と、前記記憶すると判定された仮説を記
憶する仮説記憶手段と、前記記憶された仮説を仮説が単
語内ならば単語を表現する音声単位を伸長し、単語終端
ならば単語間の接続ルールにより次に続く単語を結合
し、仮説を展開する制御を行うサーチ制御手段と、前記
入力音声から抽出されたフレーム特徴量と前記展開され
た仮説の音響モデルのフレーム特徴量との類似度を計算
する類似度計算手段と、前記類似度と前フレームまでの
仮説の認識スコアとから、認識スコアの演算を行うサー
チ演算手段と、前記仮説と前記認識スコアを新しい仮説
として登録する単語仮説登録手段と、前記フレーム単位
の処理を入力音声の終端まで続け認識スコアの高い少な
くとも1個の仮説を入力音声に近い認識結果として出力
する認識結果出力手段、として機能させるための音声認
識プログラムを記録したコンピュータ読み取り可能な記
憶媒体から音声認識プログラムをコンピュータにインス
トールして実行することにより、認識精度を保ちつつ計
算量を効果的に削減できるという作用を有する。
【0019】以下、本発明の実施の形態について、図面
を用いて説明する。
を用いて説明する。
【0020】(実施の形態1)図1は、本発明の実施の
形態1における音声認識装置の構成図の一例を示す図で
ある。
形態1における音声認識装置の構成図の一例を示す図で
ある。
【0021】図1において、101は入力されたアナロ
グ信号の音声からデジタル信号に変換するA/D変換装
置、102はデータやプログラムを記憶する主記憶装
置、103はプログラムに従ってデータを処理しする情
報処理装置、104は認識対象の単語を表現する音素や
音節などの音声単位の音響的特徴をモデル化した複数フ
レームから構成される音響モデル、105は認識対象の
単語間の接続ルールを記述した言語モデル、106はデ
ータやプログラムを格納している外部記憶装置であり、
161は外部記憶装置106上にありA/D変換装置1
01によってアナログ音声からデジタル信号に変換され
た入力音声から音声の特徴量を抽出する特徴量抽出プロ
グラム、162は外部記憶装置106上にあり仮説が単
語内か単語終端かを判定するプログラム、163は外部
記憶装置106上にあり164は認識スコアにより仮説
を記憶するか否かを判定する単語内仮説記憶判定プログ
ラムと、165は仮説の個数により仮説を記憶するか否
かを判定する単語終端仮説記憶判定プログラムからなる
仮説記憶判定プログラム、166は外部記憶装置106
上にあり仮説記憶判定プログラムで記憶すると判定され
た仮説を記憶するプログラム、167は外部記憶装置1
06上にあり仮説を仮説が単語内ならば単語を表現する
音声単位を伸長し、単語終端ならば言語モデル105に
記述された単語間の接続ルールにより次に続く単語を結
合し、仮説を展開するフレーム同期ビームサーチの仮説
の展開制御を行うサーチ制御プログラム、168は外部
記憶装置106上にあり特徴量抽出プログラム161か
ら出力された入力音声のフレーム単位の特徴量と音響モ
デル104との類似度を計算する類似度計算プログラ
ム、169は外部記憶装置106上にあり類似度計算プ
ログラム168により計算された類似度と前フレームま
での仮説の認識スコアとから認識スコアを計算するフレ
ーム同期ビームサーチ演算プログラム、170は外部記
憶装置106上にあり仮説と計算された認識スコアを登
録する仮説登録プログラム、171は外部記憶装置10
6上にありフレーム同期ビームサーチを入力音声の終端
まで続け認識スコアの高い出力可能な仮説を認識結果と
して出力する認識結果出力プログラム、107は認識結
果出力プログラム171の認識結果出力プログラムから
の結果を出力する出力装置から構成されている。
グ信号の音声からデジタル信号に変換するA/D変換装
置、102はデータやプログラムを記憶する主記憶装
置、103はプログラムに従ってデータを処理しする情
報処理装置、104は認識対象の単語を表現する音素や
音節などの音声単位の音響的特徴をモデル化した複数フ
レームから構成される音響モデル、105は認識対象の
単語間の接続ルールを記述した言語モデル、106はデ
ータやプログラムを格納している外部記憶装置であり、
161は外部記憶装置106上にありA/D変換装置1
01によってアナログ音声からデジタル信号に変換され
た入力音声から音声の特徴量を抽出する特徴量抽出プロ
グラム、162は外部記憶装置106上にあり仮説が単
語内か単語終端かを判定するプログラム、163は外部
記憶装置106上にあり164は認識スコアにより仮説
を記憶するか否かを判定する単語内仮説記憶判定プログ
ラムと、165は仮説の個数により仮説を記憶するか否
かを判定する単語終端仮説記憶判定プログラムからなる
仮説記憶判定プログラム、166は外部記憶装置106
上にあり仮説記憶判定プログラムで記憶すると判定され
た仮説を記憶するプログラム、167は外部記憶装置1
06上にあり仮説を仮説が単語内ならば単語を表現する
音声単位を伸長し、単語終端ならば言語モデル105に
記述された単語間の接続ルールにより次に続く単語を結
合し、仮説を展開するフレーム同期ビームサーチの仮説
の展開制御を行うサーチ制御プログラム、168は外部
記憶装置106上にあり特徴量抽出プログラム161か
ら出力された入力音声のフレーム単位の特徴量と音響モ
デル104との類似度を計算する類似度計算プログラ
ム、169は外部記憶装置106上にあり類似度計算プ
ログラム168により計算された類似度と前フレームま
での仮説の認識スコアとから認識スコアを計算するフレ
ーム同期ビームサーチ演算プログラム、170は外部記
憶装置106上にあり仮説と計算された認識スコアを登
録する仮説登録プログラム、171は外部記憶装置10
6上にありフレーム同期ビームサーチを入力音声の終端
まで続け認識スコアの高い出力可能な仮説を認識結果と
して出力する認識結果出力プログラム、107は認識結
果出力プログラム171の認識結果出力プログラムから
の結果を出力する出力装置から構成されている。
【0022】図2は、音声認識装置の処理手順を表すフ
ローチャートであり、このフローチャートを用いて、音
声認識装置の処理手順を説明する。図中Sは各処理ステ
ップを表し、各処理ステップは図1の特徴量抽出プログ
ラム161〜認識結果出力プログラム171に対応する
ものである。
ローチャートであり、このフローチャートを用いて、音
声認識装置の処理手順を説明する。図中Sは各処理ステ
ップを表し、各処理ステップは図1の特徴量抽出プログ
ラム161〜認識結果出力プログラム171に対応する
ものである。
【0023】まず、入力されたアナログ信号の音声をデ
ジタル信号にA/D変換する(S21)。単語と認識ス
コアからなる仮説の初期集合を記憶する(S22)。図
3に示すように単語と認識スコアからなる仮説の初期集
合を記憶する(S22)。図3では、アアコン、アイシ
ャドウ、アクセサリ、アクセス、アサガオ、イカスミと
いう6つの単語301と認識スコア302の初期値を記
憶した例である。
ジタル信号にA/D変換する(S21)。単語と認識ス
コアからなる仮説の初期集合を記憶する(S22)。図
3に示すように単語と認識スコアからなる仮説の初期集
合を記憶する(S22)。図3では、アアコン、アイシ
ャドウ、アクセサリ、アクセス、アサガオ、イカスミと
いう6つの単語301と認識スコア302の初期値を記
憶した例である。
【0024】デジタル信号に変換されたの入力音声から
特徴量をフレーム単位に抽出する(S23)。仮説が現
在単語内の音声単位を処理しているのか単語終端の音声
単位を処理しているのかの判定を行う(S24)。仮説
の現処理フレームが単語終端ではなく単語内だった場
合、最も認識スコアの高い単語内の仮説を基準として、
その認識スコアより一定の閾値以内の認識スコアを持つ
単語内の仮説のみに絞り込む(S25)。仮説が単語終
端である場合、認識スコアの高い順に仮説を選択し、仮
説の個数により仮説を絞り込む(S26)。絞り込まれ
た仮説が単語内ならば単語を表現する音声単位を伸長
し、単語終端ならば単語間の接続ルールにより次に続く
単語を結合し、新しい仮説として展開する(S27)。
特徴量をフレーム単位に抽出する(S23)。仮説が現
在単語内の音声単位を処理しているのか単語終端の音声
単位を処理しているのかの判定を行う(S24)。仮説
の現処理フレームが単語終端ではなく単語内だった場
合、最も認識スコアの高い単語内の仮説を基準として、
その認識スコアより一定の閾値以内の認識スコアを持つ
単語内の仮説のみに絞り込む(S25)。仮説が単語終
端である場合、認識スコアの高い順に仮説を選択し、仮
説の個数により仮説を絞り込む(S26)。絞り込まれ
た仮説が単語内ならば単語を表現する音声単位を伸長
し、単語終端ならば単語間の接続ルールにより次に続く
単語を結合し、新しい仮説として展開する(S27)。
【0025】処理ステップS24からS27までの処理
進行について図4を用いて説明する。図4では、単語内
の仮説の判定基準である最大認識スコアからの一定の閾
値以内を3、単語終端の仮説の判定基準である認識スコ
ア上位2位までとして、○内の数値は求められた認識ス
コアとして説明する。
進行について図4を用いて説明する。図4では、単語内
の仮説の判定基準である最大認識スコアからの一定の閾
値以内を3、単語終端の仮説の判定基準である認識スコ
ア上位2位までとして、○内の数値は求められた認識ス
コアとして説明する。
【0026】図4でS22によって登録された6つの単
語に対してフレーム単位の処理を行い、時刻tでは認識
スコアの値により単語仮説イカスミの認識スコアが閾値
以下になってしまうので、イカスミ以外の5つの単語が
登録され処理が続けられる。このときの、最大認識スコ
アが12であり、その閾値は12−3=9となる。時刻
t+t1時刻では、単語仮説アイシャドウの認識スコアが閾
値以下になってしまうので、アアコン、アクセサリ、ア
クセス、アサガオが記憶され処理が続けられる。時刻t+
t3では、アアコン、アクセス、アサガオの3つの単語が
終端になり、アクセス、アサガオ、アアコンの順位にな
りアアコンは上位2位からもれ、アクセス、アサガオが
記憶され処理が続けられるというフレーム同期ビームサ
ーチ制御を行う。
語に対してフレーム単位の処理を行い、時刻tでは認識
スコアの値により単語仮説イカスミの認識スコアが閾値
以下になってしまうので、イカスミ以外の5つの単語が
登録され処理が続けられる。このときの、最大認識スコ
アが12であり、その閾値は12−3=9となる。時刻
t+t1時刻では、単語仮説アイシャドウの認識スコアが閾
値以下になってしまうので、アアコン、アクセサリ、ア
クセス、アサガオが記憶され処理が続けられる。時刻t+
t3では、アアコン、アクセス、アサガオの3つの単語が
終端になり、アクセス、アサガオ、アアコンの順位にな
りアアコンは上位2位からもれ、アクセス、アサガオが
記憶され処理が続けられるというフレーム同期ビームサ
ーチ制御を行う。
【0027】展開した仮説に対して、入力音声の特徴量
と音響モデル104から類似度を計算し、さらに前フレ
ームまでの仮説の認識スコアとから新しい認識スコアを
計算するというフレーム同期ビームサーチ演算を行う
(S28)。ここでは、認識スコアは、類似度と前フレ
ームまでの仮説の認識スコアを加算して求めている。展
開された仮説を新たな認識スコアとともに記憶する(S
29)。
と音響モデル104から類似度を計算し、さらに前フレ
ームまでの仮説の認識スコアとから新しい認識スコアを
計算するというフレーム同期ビームサーチ演算を行う
(S28)。ここでは、認識スコアは、類似度と前フレ
ームまでの仮説の認識スコアを加算して求めている。展
開された仮説を新たな認識スコアとともに記憶する(S
29)。
【0028】終了判定条件が満たされるまで、上記S2
3からS29までのフレーム単位の処理過程を繰り返す
(S30)。
3からS29までのフレーム単位の処理過程を繰り返す
(S30)。
【0029】終了判定条件が満たされた時に残っていた
仮説の集合から認識スコアの高い出力可能な仮説を認識
結果として出力する(S31)。
仮説の集合から認識スコアの高い出力可能な仮説を認識
結果として出力する(S31)。
【0030】
【発明の効果】したがって、本発明によれば、フレーム
同期ビームサーチにおいて、単語内では似た発音のスコ
アの高い仮説は単語終端まで、仮説数によらず精密に計
算を行うことで認識精度を保ち、単語終端では、後続単
語が接続することによる仮説数の増大を避けるために、
仮説数による絞り込みを行い、認識精度を保ちつつ計算
量を効果的に削減可能な音声認識方法及びその装置を提
供することができる。
同期ビームサーチにおいて、単語内では似た発音のスコ
アの高い仮説は単語終端まで、仮説数によらず精密に計
算を行うことで認識精度を保ち、単語終端では、後続単
語が接続することによる仮説数の増大を避けるために、
仮説数による絞り込みを行い、認識精度を保ちつつ計算
量を効果的に削減可能な音声認識方法及びその装置を提
供することができる。
【図1】本発明の実施の形態1による音声認識装置を示
すシステム構成図
すシステム構成図
【図2】本発明の実施の形態1による音声認識装置の処
理手順を示すフローチャート
理手順を示すフローチャート
【図3】本発明の実施の形態1において最初に登録され
る単語と認識スコアの初期集合を説明する図
る単語と認識スコアの初期集合を説明する図
【図4】本発明の実施の形態1に置ける仮説判定の処理
進行を示す図
進行を示す図
【図5】従来技術による処理手順を示すフローチャート
101 A/D変換装置 102 主記憶装置 103 情報処理装置 104 音響モデル 105 言語モデル 106 外部記憶装置 107 出力装置 161 特徴量抽出プログラム 162 単語内単語終端判定プログラム 163 仮説記憶判定プログラム 164 単語内仮説記憶判定プログラム 165 単語終端仮説記憶判定プログラム 166 仮説記憶プログラム 167 フレーム同期ビームサーチ制御プログラム 168 類似度計算プログラム 169 フレーム同期ビームサーチ演算プログラム 170 仮説登録プログラム 171 認識結果出力プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 遠藤 充 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内 (72)発明者 齋藤 夏樹 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内 (72)発明者 石田 明 神奈川県横浜市港北区綱島東4丁目3番1 号 松下通信工業株式会社内 (72)発明者 木村 達也 神奈川県横浜市港北区綱島東4丁目3番1 号 松下通信工業株式会社内 Fターム(参考) 5D015 HH11 HH23 LL03
Claims (6)
- 【請求項1】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識方法において、入力された
音声の特徴量をフレーム単位で抽出する特徴量抽出ステ
ップと、現処理フレームが単語終端か単語内かを判別
し、前記判定が単語終端ならば単語終端の仮説を記憶す
るか否かを判定し、単語内ならば単語内の仮説を記憶す
るか否かの判定をするステップと、前記記憶すると判定
された仮説を記憶するステップと、前記記憶された仮説
を仮説が単語内ならば単語を表現する音声単位を伸長
し、単語終端ならば単語間の接続ルールにより次に続く
単語を結合し、仮説を展開する制御を行う制御ステップ
と、前記入力音声から抽出されたフレーム特徴量と前記
展開された仮説の音響モデルのフレーム特徴量との類似
度を計算するステップと、前記類似度と前フレームまで
の仮説の認識スコアとから、認識スコアの演算を行う演
算ステップと、前記仮説と前記認識スコアを新しい仮説
として登録するステップと、前記フレーム単位の処理を
入力音声の終端まで続け認識スコアの高い少なくとも1
個の仮説を入力音声に近い認識結果として出力するステ
ップとを有することを特徴とする音声認識方法。 - 【請求項2】 記憶するか否かの判定は、単語内仮説を
記憶するか否かの判定の基準を類似度のスコアとし、単
語終端仮説を記憶するか否かの判定の基準を仮説の個数
としたことを特徴とする請求項1記載の音声認識方法。 - 【請求項3】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識装置において、入力された
音声の特徴量をフレーム単位で抽出する特徴量抽出手段
と、現処理フレームが単語終端か単語内かを判別し、前
記判定が単語終端ならば単語終端の仮説を記憶するか否
かを判定し、単語内ならば単語内の仮説を記憶するか否
かの判定をする単語終端判定手段と、前記記憶すると判
定された仮説を記憶する仮説記憶手段と、前記記憶され
た仮説を仮説が単語内ならば単語を表現する音声単位を
伸長し、単語終端ならば単語間の接続ルールにより次に
続く単語を結合し、仮説を展開する制御を行うサーチ制
御手段と、前記入力音声から抽出されたフレーム特徴量
と前記展開された仮説の音響モデルのフレーム特徴量と
の類似度を計算する類似度計算手段と、前記類似度と前
フレームまでの仮説の認識スコアとから、認識スコアの
演算を行うサーチ演算手段と、前記仮説と前記認識スコ
アを新しい仮説として登録する単語仮説登録手段と、前
記フレーム単位の処理を入力音声の終端まで続け認識ス
コアの高い少なくとも1個の仮説を入力音声に近い認識
結果として出力する認識結果出力手段とを有することを
特徴とする音声認識装置。 - 【請求項4】 単語終端判定手段は、単語内仮説を記憶
するか否かの判定の基準を類似度のスコアとし、単語終
端仮説を記憶するか否かの判定の基準を仮説の個数とし
たことを特徴とする請求項3記載の音声認識装置。 - 【請求項5】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識するためにコンピュータ
を、入力された音声の特徴量をフレーム単位で抽出する
特徴量抽出手段と、現処理フレームが単語終端か単語内
かを判別し、前記判定が単語終端ならば単語終端の仮説
を記憶するか否かを判定し、単語内ならば単語内の仮説
を記憶するか否かの判定をする単語終端判定手段と、前
記記憶すると判定された仮説を記憶する仮説記憶手段
と、前記記憶された仮説を仮説が単語内ならば単語を表
現する音声単位を伸長し、単語終端ならば単語間の接続
ルールにより次に続く単語を結合し、仮説を展開する制
御を行うサーチ制御手段と、前記入力音声から抽出され
たフレーム特徴量と前記展開された仮説の音響モデルの
フレーム特徴量との類似度を計算する類似度計算手段
と、前記類似度と前フレームまでの仮説の認識スコアと
から、認識スコアの演算を行うサーチ演算手段と、前記
仮説と前記認識スコアを新しい仮説として登録する単語
仮説登録手段と、前記フレーム単位の処理を入力音声の
終端まで続け認識スコアの高い少なくとも1個の仮説を
入力音声に近い認識結果として出力する認識結果出力手
段、として機能させるための音声認識プログラム。 - 【請求項6】 音素や音節などの音声単位の連結で表現
され、単語間の接続ルールによって入力音声の長さに従
い展開される仮説に対応する音響モデルと、入力音声と
を照合し認識スコアを得、その認識スコアの高い少なく
とも1個の仮説を残しながら入力音声に近い候補を認識
結果として出力する音声認識するためにコンピュータ
を、入力された音声の特徴量をフレーム単位で抽出する
特徴量抽出手段と、現処理フレームが単語終端か単語内
かを判別し、前記判定が単語終端ならば単語終端の仮説
を記憶するか否かを判定し、単語内ならば単語内の仮説
を記憶するか否かの判定をする単語終端判定手段と、前
記記憶すると判定された仮説を記憶する仮説記憶手段
と、前記記憶された仮説を仮説が単語内ならば単語を表
現する音声単位を伸長し、単語終端ならば単語間の接続
ルールにより次に続く単語を結合し、仮説を展開する制
御を行うサーチ制御手段と、前記入力音声から抽出され
たフレーム特徴量と前記展開された仮説の音響モデルの
フレーム特徴量との類似度を計算する類似度計算手段
と、前記類似度と前フレームまでの仮説の認識スコアと
から、認識スコアの演算を行うサーチ演算手段と、前記
仮説と前記認識スコアを新しい仮説として登録する単語
仮説登録手段と、前記フレーム単位の処理を入力音声の
終端まで続け認識スコアの高い少なくとも1個の仮説を
入力音声に近い認識結果として出力する認識結果出力手
段、として機能させるための音声認識プログラムを記録
したコンピュータ読み取り可能な記憶媒体。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001014160A JP2002215187A (ja) | 2001-01-23 | 2001-01-23 | 音声認識方法及びその装置 |
TW090133371A TW561452B (en) | 2001-01-23 | 2001-12-31 | Method and apparatus for speech recognition |
EP02000206A EP1225567B1 (en) | 2001-01-23 | 2002-01-10 | Method and apparatus for speech recognition |
DE60229315T DE60229315D1 (de) | 2001-01-23 | 2002-01-10 | Verfahren und Vorrichtung zur Spracherkennung |
US10/052,145 US7072835B2 (en) | 2001-01-23 | 2002-01-17 | Method and apparatus for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001014160A JP2002215187A (ja) | 2001-01-23 | 2001-01-23 | 音声認識方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002215187A true JP2002215187A (ja) | 2002-07-31 |
Family
ID=18880895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001014160A Pending JP2002215187A (ja) | 2001-01-23 | 2001-01-23 | 音声認識方法及びその装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7072835B2 (ja) |
EP (1) | EP1225567B1 (ja) |
JP (1) | JP2002215187A (ja) |
DE (1) | DE60229315D1 (ja) |
TW (1) | TW561452B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7565290B2 (en) | 2004-06-29 | 2009-07-21 | Canon Kabushiki Kaisha | Speech recognition method and apparatus |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
US7475016B2 (en) * | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
US20070124147A1 (en) * | 2005-11-30 | 2007-05-31 | International Business Machines Corporation | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems |
US7437291B1 (en) | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
WO2009139230A1 (ja) * | 2008-05-16 | 2009-11-19 | 日本電気株式会社 | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN107248409A (zh) * | 2017-05-23 | 2017-10-13 | 四川欣意迈科技有限公司 | 一种方言语境的多语言翻译方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
JP3368989B2 (ja) | 1994-06-15 | 2003-01-20 | 日本電信電話株式会社 | 音声認識方法 |
JP2731133B2 (ja) | 1995-09-12 | 1998-03-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
JP4042176B2 (ja) | 1997-03-11 | 2008-02-06 | 三菱電機株式会社 | 音声認識方式 |
JP3042455B2 (ja) | 1997-07-28 | 2000-05-15 | 日本電気株式会社 | 連続音声認識方式 |
GB9802836D0 (en) * | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
US6374220B1 (en) * | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
-
2001
- 2001-01-23 JP JP2001014160A patent/JP2002215187A/ja active Pending
- 2001-12-31 TW TW090133371A patent/TW561452B/zh not_active IP Right Cessation
-
2002
- 2002-01-10 DE DE60229315T patent/DE60229315D1/de not_active Expired - Fee Related
- 2002-01-10 EP EP02000206A patent/EP1225567B1/en not_active Expired - Lifetime
- 2002-01-17 US US10/052,145 patent/US7072835B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7565290B2 (en) | 2004-06-29 | 2009-07-21 | Canon Kabushiki Kaisha | Speech recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
US7072835B2 (en) | 2006-07-04 |
EP1225567B1 (en) | 2008-10-15 |
US20020128836A1 (en) | 2002-09-12 |
EP1225567A2 (en) | 2002-07-24 |
TW561452B (en) | 2003-11-11 |
EP1225567A3 (en) | 2004-02-04 |
DE60229315D1 (de) | 2008-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP5330450B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US5884259A (en) | Method and apparatus for a time-synchronous tree-based search strategy | |
US6801892B2 (en) | Method and system for the reduction of processing time in a speech recognition system using the hidden markov model | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US5873061A (en) | Method for constructing a model of a new word for addition to a word model database of a speech recognition system | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP2002504719A (ja) | 音声認識において無音を使用するシステム | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
JP2001242885A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JP3818154B2 (ja) | 音声認識方法 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JPH10198392A (ja) | 音声認識方法 | |
JPH09114484A (ja) | 音声認識装置 | |
JP3583930B2 (ja) | 音声認識装置及びその方法 |