Nothing Special   »   [go: up one dir, main page]

JP3298858B2 - 低複雑性スピーチ認識器の区分ベースの類似性方法 - Google Patents

低複雑性スピーチ認識器の区分ベースの類似性方法

Info

Publication number
JP3298858B2
JP3298858B2 JP33265199A JP33265199A JP3298858B2 JP 3298858 B2 JP3298858 B2 JP 3298858B2 JP 33265199 A JP33265199 A JP 33265199A JP 33265199 A JP33265199 A JP 33265199A JP 3298858 B2 JP3298858 B2 JP 3298858B2
Authority
JP
Japan
Prior art keywords
phoneme similarity
phoneme
similarity data
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33265199A
Other languages
English (en)
Other versions
JP2000172295A (ja
Inventor
フィリップ・エール・モラン
テッド・エイチ・アップルバウム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2000172295A publication Critical patent/JP2000172295A/ja
Application granted granted Critical
Publication of JP3298858B2 publication Critical patent/JP3298858B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的には、スピ
ーチ認識システムに関する。特に、本発明は、与えられ
たスピーチ発言をディジタル単語原型として表現するた
めのシステムに関する。この原型は区分ベースの音素類
似性データであって、スピーチを高度に緊密なデータに
導かれた表現をもたらす。
【0002】
【従来の技術】従来のスピーチ処理技術はディジタル化
されたスピーチ発言から始めて、所定数の標本からなる
ブロックごとにこのディジタル化されたデータを分析す
る。従って、従来のシステムは、入力スピーチ信号を、
各区分が別々に分析され符号化されることができるよう
に時間区分に分解する。この従来の技法とともに、時間
区分又はフレームあたりの、一定数の特徴パラメータを
格納するのが一般的である。この一般的な方法では、1
秒あたり50から100フレームの固定されたフレーム
レートでスピーチを分析し、各フレームにおいて一定数
の特徴パラメータでスピーチを表現する。これらの特徴
パラメータは、短期スペクトル形とその派生物のパラメ
ータ表現されたモデルのパラメータである。
【0003】ホシミら(Hoshimi et al.)による米国特
許No.5,345,536号は、分析フレームあたり一
定数の特徴パラメータも採用しているスピーチ表現を開
示しており、それによればこれらの特徴パラメータは音
素類似性値である。この表現においては、各フレームに
対してすべての音素類似性値を格納する必要はなく、M
個(例えばM=6)の最も大きな音素類似性値とそれら
の音素指標を格納する。従って、例えば1フレームあた
り12個のパラメータであり、毎秒100フレームを仮
定すれば、1200個のパラメータとなる。
【0004】これらの従来の高度データレートシステム
では、特徴パラメータを、要素ごとに基準原型(訓練デ
ータから導かれる)と未知のスピーチデータとの間で比
較している。従って、比較の回数は使用されるパラメー
タの数の自乗に比例する。よって、高度データレートシ
ステムでは多大な総経費を要し、そのために低コストの
消費者向き製品に使用されるのに望ましい、より遅く、
より低価格のプロセッサを排除している。
【0005】同様の方法において、モーリンら(Morin
et al.)による米国特許No.5,684,925号で
は、ディジタル化されたスピーチ符号化問題に別の方法
を提案している。この方法では、フレームベースの原型
を特徴ベースの原型で置き換えている。より詳しくは、
その認識戦略は、高度の音素類似性の信頼して発見され
る領域(すなわち、等しい持続時間のS個の区分に見ら
れる高度類似性領域)を特徴づける「目標」に基づいて
いる。フレームと異なって、目標は1秒あたり一定レー
トで出現しない。発言において、各フレームに等しい計
算上のエネルギーを捧げる代わりに(他の従来システム
が行うように)、この方法ではその計算上のエネルギー
をあらかじめ決められた類似性の閾値を越える特徴を持
った、これら高度類似性領域にのみ集中している。この
結果、データレートのおよそ5倍から10倍程度の減少
とともに、電子的にスピーチを表現するために使用でき
るデータから導かれたディジタルな原型がもたらされ
る。上に述べた自乗法則の関係のために減少させられた
データレートは実質的に計算上の総経費を減少させてい
る。
【0006】
【発明が解決しようとする課題】特徴ベースの原型は最
善の単語候補を発見するための急速照合ステージとして
良好に機能したが、特徴ベースの原型は、一つの最善の
単語候補を選択するスピーチ認識器としては、特に雑音
とチャンネル誤照合の場合には十分に正確で逞しいもの
ではない。品質低下は、(1)類似性時間系列の内に高
度類似性領域を検出する際の閾値の使用、及び(2)区
分が、発言を等しい持続時間のS個の区分に分割するこ
とによって特定されるフレームベースの区分化法から生
じるのが判明している。
【0007】
【課題を解決するための手段と作用】従って、本発明で
は、フレームベースの原型をより逞しい区分ベースの原
型で置き換えている。離散法とは異なり、高度類似性領
域の内部に保持されている情報をより完全に説明するた
め、ある連続法を実施する。閾値検出法を使用するより
むしろ、音素類似性値のすべてを単語モデルを構成する
ために合計する。この連続法は、より大きい分解度をも
たらすとともに、より緊密な単語モデルのサイズを提供
する。
【0008】更に、本発明による区分ベースの原型は、
改善された区分化法を採用している。この区分化法は、
発言を、各区分における音素類似性値の合計に基づいて
S個の区分に分割する。これは、時間から独立したテス
ト発言を単語原型に迅速かつ静的に連携させることがで
きる。
【0009】一般的に、本発明は与えられたスピーチ発
言を、次の方法に従って、ディジタル単語原型として表
現する。この単語原型は、個々の単語に対して、訓練ス
ピーチの少なくとも一つの発言を提供することによって
構成される。訓練データにおいて発見される音素類似性
データの信頼性を増加させるには、ディジタル単語原型
を構成するのに更に二つの発言を使用しても良い。訓練
発言は、与えられた一人の話し手から得ても良いが(話
し手に依存する訓練)、多くの高度に変化に富んだ話し
手から(話し手から独立した訓練)、あるいは、ある他
の分布からの話し手から(例えば、話し手横断訓練)得
ても良い。
【0010】それぞれの与えられた発話に対しては対応
する入力信号を処理して、各時間フレームにおける各音
素記号ごとの音素類似性値を得る。それから、発話を区
分化する。それを行うために、音素類似性データを先
ず、入力信号の非スピーチ部分内に見いだされる背景雑
音レベルを差し引くことによって正規化する。それか
ら、正規化された音素類似性データを、一つの区分にお
けるすべての正規化された音素類似性値の和が別の各区
分におけるそのような和と互いに等しくなるように区分
に分割する。次に、個々の音素と各区分に対して、区分
の各々の内部にある正規化されたその音素に関する音素
類似性値の和の値が一つずつ決定される。これによっ
て、一つの単語モデルを、正規化された音素類似性デー
タから構成する。言い換えれば、この単語モデルは、正
規化された類似性データに緊密に相関する和の値の一つ
のベクトルによって表現される。最後に、与えられた話
される単語に対する、個々に処理された発言の結果(す
なわち、個々の単語モデル)を、この与えられた話され
る単語を電子的に表現するところのディジタル単語原型
を生み出すために結合する。
【0011】本発明、その目的及び利点をより完全に理
解するためには、以下の明細と添付の図面を参照してい
ただきたい。
【0012】
【発明の実施の形態】図1は区分ベースのディジタル単
語原型を構成するためのシステムの全体像を示してい
る。それぞれの単語原型は、一つの話される所定単語
(又はフレーズ)ごとに一つまたはそれ以上のスピーチ
発言を用いて構成される。音素類似性計算モジュール1
2はスピーチ発言14に対応する一つの入力信号を処理
して一つの音素類似性時系列を生成する。音素類似性計
算モジュール12は、単音モデルあるいはテンプレート
16を使用して、スピーチ発言14と単音モデル16に
含まれている標準音素との間の類似性の程度を表現する
音素類似性曲線を導く。これは前に引用したホシミらの
諸技法によって成することができる。
【0013】その後、スピーチ正規化モジュール18
が、音素類似性データを正規化するために入力信号をス
ピーチ部分と非スピーチ部分に分割する(例えば、リー
ブスの米国特許No.5,826,230号によって)。
音素類似性データは入力信号の非スピーチ部分内に見い
だされる背景雑音レベルを差し引くことで正規化する。
【0014】次に、スピーチ発言を所定数の区分に分割
するが、その際、一つの区分におけるすべての正規化さ
れた音素類似性値の和が各区分ごとに等しくなるように
する。すると、単語モデル化モジュール20が前記正規
化された音素類似性データから、一つの単語モデルを構
成する。そのために、各区分内において、特定の音素に
対応する正規化された音素類似性値のすべてを合計する
ことによって一つの和の値を決定する。このようにし
て、単語モデルが、正規化された音素類似性に緊密に相
関する和の値の一つのベクトルによって表現される。
【0015】もし一つ以上の訓練発言が提供されるなら
ば、単語原型モジュール22は、話される所定単語を電
子的に表現する一つのディジタルな単語原型を構成する
ため、訓練発言にそれぞれ対応する単語モデルのすべて
を結合する。この単語原型は各区分における各音素に対
するパラメータ値の対からなる。この各パラメータ対
は、和の値の単語モデル全体に渉る平均値、及び和の値
の分散から導かれる対応する重みからなる。このディジ
タル単語原型は単語原型データベース24に格納され
る。
【0016】図2は、より完全に、区分ベースの単語原
型を構成する方法を図示している。話される所定単語又
はフレーズに対応する一つ又はそれ以上のスピーチ発言
を使用して、一つの単語モデルを構成する。これらの発
言は同じ話し手によるものであっても、異なる話し手に
よるものであっても良い。図2に示したように、各発言
をある時点におけるまで別々に処理する。最後に、個別
に処理した発言の結果を結合して、話される所定単語に
対するディジタル単語原型を一つ作り出す。
【0017】各発言に対し、先ず、ステップ30にて特
徴信号処理を施す。これはこのスピーチ発言を一つの入
力信号にディジタル化し、入力データべースに格納する
ことを含む。この時点においては、この入力信号はこの
発言のスピーチ部分と非スピーチ部分をともに包含す
る。
【0018】ステップ32において、このディジタル化
された入力信号に対し、音素類似性分析を行う。音素モ
デルにおける各音素ごとに音素類似性データを計算す
る。音素類似性データは。図3に示されているように一
般に音素類似性値の一つの時系列48からなる。各音素
類似性値は、ディジタル化されたスピーチ標本がある与
えられた離散的時点においてある特定の音素に相関して
いる確率を表現する。この確率値は、類似性値が大きい
ほど、スピーチ標本と音素の間の類似性が大きくなる整
数に変換される。
【0019】英語モデルに対しては、好ましい実施例と
しては、スピーチを、当該スピーチを形成する異なった
音に集団的に対応する55個の音素に分解する。図4
は、これら55個の音素に対応する5x11の格子にお
いてデータを例示したものである。図4に示した音素類
似性は、話される単語”Jhonson”に対するもの
である。この図によれば、音素”s”はこの特定に発言
に対して高い音素類似性値のいくつかの領域を含むが、
音素”er”はこの特定の発言に対して高い音素類似性
値を全然含まない。この音素類似性分析は周期的に実行
され、入力信号の10ミリ秒毎の値が音素類似性データ
を表現する55個の成分を持つ一つのベクトルによって
捕らえられることが好ましい。
【0020】ステップ34に示したように、この音素類
似性データを入力信号の非スピーチ部分を使って正規化
する。図5を参照して、終点検出手続きを用いて、各入
力信号をスピーチ部分50と非スピーチ部分52に分解
する。当業者にはよく知られているように、終点検出手
順ではスピーチ部分50の始点54と終点56を検出す
る。ある背景雑音レベル(Bp)を、p番目の音素に対
する音素類似性値を、入力信号の非スピーチ部分52の
K個のフレームに渉って平均することにより計算する。
そして入力信号の音素類似性値(Up)の各々を、下式
の如く背景雑音レベルを差し引くことによって正規化す
る。 Np=|(Up−Bp)| ここにおいて、Npはp番目の音素に対する正規化され
た音素類似性値である。このようにして、スピーチデー
タに伴って捕捉された雑音の多くは音素類似性データか
ら濾過される。
【0021】以上の結果、正規化された音素類似性デー
タは入力信号のスピーチ部分を主として表現する。入力
信号の非スピーチ部分は次数がゼロであるので、入力信
号の非スピーチ部分(終点間に含まれていないかもしれ
ない)は単語区分の境界を決定するために使用される、
音素類似性データに強く影響することはない。言い換え
れば、この方法では単語終点の不正確な予測に対して抵
抗力がある。
【0022】その後、一つの単語モデルをこの正規化さ
れた音素類似性データから構成する。そのために、先
ず、ステップ36においてこの正規化された類似性デー
タを、一つの区分におけるすべての正規化された音素類
似性値の和が各区分ごとに等しくなるように、S個の区
分に分割する。このためには、すべての音素に対する、
すべての正規化された音素類似性値を合計し、与えられ
た区分数で割ればよい。この値が、各区分におけるすべ
ての正規化された音素類似性値の和である。好ましい実
施例においては、好ましい区分数は3である。また、単
語モデルは、音素類似性データを区分化することなく
(すなわち、ただひとつの区分を使用して)構成するこ
ともできる。
【0023】それぞれの特定の音素ごとに、ステップ3
8において特定の音素に対応する正規化された音素類似
性値のすべてを合計することによって一つの和の値を決
定する。より詳しく言えば、この和の値は自乗和の平方
(RSS)であることが好ましい。第s番目の区分と第
p番目の音素に対して、この和は次の数式によって計算
される。 尚、和は第s番目の区分におけるすべてのフレームに渉
って取られる。上式は、当然、それぞれの正規化された
音素類似性値の自乗を先ず取ることによって、高い音素
類似性値に強調を置く。上の説明は、正規化された音素
類似性データを使用して、これらの和の値を計算するよ
うにしていたが、(正規化されない)音素類似性データ
をこれらの和の値を計算するために使用することもでき
ることが容易に理解されよう。その場合にも、やはり正
規化された音素類似性データを各区分のサイズを決定す
るために使用することができる。
【0024】以上によって、一つの単語モデルは、16
5個の単語モデルパラメータ(すなわち成分)を持つ一
つのベクトルによって表現される(ここでは55個の音
素と各単語あたり3個の区分を仮定している)。そして
各単語モデルパラメータは一つの和の値である。単語モ
デルの例示的な一部を図6に示す。閾値検出方法を用い
て、高い類似性領域のみを特定する代わりに、本発明で
はすべての類似性値を考慮に入れている。このようにし
て、本単語モデルは、特定の発言に対する音素類似性に
関する情報をより多く提供し、この音素類似性データを
緊密に表現する。また個々の訓練発言に対応する一つの
単語モデルは、ディジタル単語原型として使用できるこ
とが想定されている。
【0025】しかしながら、一つの話される所定単語に
対して、個々に処理された複数の訓練発言を使用してデ
ィジタルな単語原型を構成する場合の方が多い。その場
合には、それぞれの訓練発言に対応する一つの単語モデ
ルは ディジタルな単語原型を生み出すために結合され
る。このようにして、単語原型は図7に示されているよ
うに一つのベクトルである。この場合には、このベクト
ルは330個のパラメータ(成分)を持つ。それぞれの
音素と区分の対に対して二つのパラメータが対応する。
すなわち(1)平均値、(2)重み値である。この平均
値は、すべての発言に渉って、この音素と区分に対する
和の値を合計し、発言数で割ることによって得られる。
この平均値に伴う重み値は、次の数式によって計算され
る。 Wsp=(A*B)/(B+C*Vsp) ここで、Wspは第s番目の区分と第p番目の音素に対す
る重み値であり、Aは音素類似性値の最大の大きさ、B
は音素類似性値に対するある小さなフロア値(B>
0)、Cは類似性値の分散に関する乗算的ゲイン、Vs
pは第s番目の区分における第p番目の音素に対する音
素類似性値の分散である。従って、重み値は、この単語
原型を構成するために使用される訓練発言について個々
の平均値がどの程度信頼できるかを意味する。
【0026】これらの単語原型は、未知の発言の認識に
おいて使用することができる。そのためには、この未知
の発言のS個の区分と上記単語原型のS個の区分との間
の重み付きユークリッド距離を計算する。この重み付き
ユークリッド距離は次の数式によって計算される。 ここで、Uspは、未知の発言における第s番目の区分と
第p番目の音素に対するRSS値、Rspは単語原型にお
ける第s番目の区分と第p番目の音素に対する平均RS
S値、そして、Wspは単語原型における第s番目の区分
と第p番目の音素に対する重み値である。この場合、重
み付きユークリッド距離を計算するのに使われる重み値
は、対応する区分に伴う逆分散から計算される。
【0027】単語候補は、この未知の発言と対応する単
語原型の間のユークリッド距離にによってランク付けさ
れる。すなわち、最善の候補は最小の距離を持つもので
ある。従って、本発明の区分ベース法は、任意の未知の
発言を一つの単語原型と固定的に連携させることができ
る。そのため、多くの他種の、時間に依存するスピーチ
認識方法において行われるように、最善の連携を得るた
め、計算上高価な探索を行う必要を除く。
【0028】以上は本発明の例示的な実施例を開示し説
明したに過ぎない。当業者には、このような議論及び、
添付の図面と請求項から、種々の変化、変更、及び変動
が、本発明の精神と範囲からはずれることなく、為され
ることができることを容易に理解するであろう。
【図面の簡単な説明】
【図1】 本発明の単語原型訓練システムを図解するブ
ロック図。
【図2】 本発明に関わる、区分ベースの単語原型とし
てスピーチを表現するためのシステムの全体像を描くフ
ローチャート。
【図3】 本発明の音素類似性分析によって生み出され
る音素類似性値の時系列を示すグラフ。
【図4】 単語”Jhonson”に対する、音素類似
性曲線を示すグラフの集合。
【図5】 代表的な入力信号のスピーチ部分と非スピー
チ部分を示すグラフ。
【図6】 本発明による単語(またはフレーズ)モデル
の一つの例示的部分を示す説明図。
【図7】 本発明による単語(またはフレーズ)モデル
の一つの例示的部分を示す説明図。
【符号の説明】
11 スピーチ発言 12 音素類似
性計算 16 単音テンプレート 18 スピーチ
正規化モジュール 20 単語モデル化モジュール 22 単語原型
モジュール 24 単語原型データベース
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−19786(JP,A) 特開 昭64−21499(JP,A) 特開 昭62−100799(JP,A) 特開 昭62−29700(JP,A) 特開 平3−116099(JP,A) 特開 平7−271392(JP,A) 特開 平6−95690(JP,A) 特開 昭63−158596(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/10

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 与えられたスピーチ発言をディジタル単
    語原型として表現するための装置であって、 複数の音素に対応する単音モデルスピーチデータを格納
    するための単音モデルデータベースと、 前記単音モデルデータベースに接続され、前記与えられ
    たスピーチ発言を受容して与えられたスピーチ発言と前
    記単音モデルスピーチデータの間の時間的な相関を示す
    音素類似性データを生成する音素類似性モジュールと、 前記音素類似性データを受容して音素類似性データを少
    なくとも一つの区分に区分化し、前記複数の音素のそれ
    ぞれに対し、前記区分の各々における音素類似性データ
    に関する一つの和を決定することによって単語モデルデ
    ータを構成して、前記単語モデルデータを用いて与えら
    れたスピーチ発言を電子的に表現する単語モデル化モジ
    ュールとからなる装置。
  2. 【請求項2】 請求項1に記載の装置であって、前記音
    素類似性データが前記単語モデル化モジュールにより少
    なくとも三つの区分に区分化され、これにより各区分に
    おいて、前記複数の音素のすべてに渡る前記音素類似性
    データに関する和が等しくなることよりなる装置。
  3. 【請求項3】 請求項2に記載の装置であって、前記和
    が、前記各区分におけるそれぞれの音素に対する音素類
    似性データの自乗和の平方(RSS)として定義される
    ことよりなる装置。
  4. 【請求項4】 請求項1に記載の装置であって、前記音
    素類似性データを受容して前記音素類似性データを、与
    えられたスピーチ発言の非スピーチ部分に関して正規化
    するスピーチ正規化モジュールを更に設け、これにより
    前記単語モデル化モジュールが音素類似性データ及び正
    規化された音素類似性データを受容することよりなる装
    置。
  5. 【請求項5】 請求項4に記載の装置であって、前記ス
    ピーチ正規化モジュールが、与えられたスピーチ発言の
    非スピーチ部分における音素類似性データを平均し、こ
    の平均値を前記音素類似性データに伴う音素類似性値の
    各々から差し引くことによって、前記音素類似性データ
    を正規化することよりなる装置。
  6. 【請求項6】 与えられたスピーチ発言をディジタル単
    語原型として表現するための装置であって、 複数の音素に対応する単音モデルスピーチデータを格納
    するための単音モデルデータベースと、 前記単音モデルデータベースに接続され、前記与えられ
    たスピーチ発言を受容して与えられたスピーチ発言と前
    記単音モデルスピーチデータの間の時間的な相関を示す
    音素類似性データを生成する音素類似性モジュールと、 前記音素類似性データを受容して前記音素類似性データ
    を、与えられたスピーチ発言の非スピーチ部分に関して
    正規化するスピーチ正規化モジュールと、 前記音素類似性データ及び正規化された音素類似性デー
    タを受容して前記音素類似性データに対応する単語モデ
    ルデータを構成し、それにより前記単語モデルデータを
    用いて与えられたスピーチ発言を電子的に表現する単語
    モデル化モジュールとからなる装置。
  7. 【請求項7】 請求項6に記載の装置であって、前記単
    語モデル化モジュールが、正規化された音素類似性デー
    タを少なくとも一つの区分に区分化し、前記区分の各々
    における音素類似性データに関する一つの和を決定する
    ことによって単語モデルデータを構成することよりなる
    装置。
  8. 【請求項8】 請求項7に記載の装置であって、前記正
    規化された音素類似性データが前記単語モデル化モジュ
    ールにより少なくとも三つの区分に区分化され、これに
    より各区分において前記正規化された音素類似性データ
    の和が等しいことよりなる装置。
  9. 【請求項9】 請求項7に記載の装置であって、前記和
    が、前記区分の各々におけるそれぞれの音素に対する音
    素類似性データの自乗和の平方(RSS)として定義さ
    れることよりなる装置。
  10. 【請求項10】 請求項6に記載の装置であって、前記
    スピーチ正規化モジュールが、与えられたスピーチ発言
    の非スピーチ部分における音素類似性データを平均し、
    この平均値を前記音素類似性データに伴う音素類似性値
    の各々から差し引くことによって、前記音素類似性デー
    タを正規化することよりなる装置。
  11. 【請求項11】 与えられた話される単語をディジタル
    単語原型として表現する方法であって、 標準スピーチのデータベースを表現するための単音テン
    プレートを用意するステップと、 第一訓練例を前記単音テンプレートと比較し、第一音素
    類似性データを時間に関する関数として生み出すステッ
    プであって、前記第一訓練例は与えられた話される単語
    に対応するステップと、 前記第一音素類似性データを少なくとも一つの区分に区
    分化し、それぞれの音素に対して前記区分の各々におけ
    る前記第一音素類似性データに関する一つの和を決定し
    て、前記第一音素類似性データに対応する第一単語モデ
    ルデータを構成し、それにより与えられた話される単語
    を電子的に表現するディジタルな単語原型を形成するス
    テップとからなる方法。
  12. 【請求項12】 請求項11に記載の方法であって、前
    記第一音素類似性データを前記第一訓練例の非スピーチ
    部分に関して正規化するステップを更に設けてなる方
    法。
  13. 【請求項13】 請求項12に記載の方法であって、前
    記第一音素類似性データを正規化するステップが、さら
    に、前記第一訓練例の非スピーチ部分における音素類似
    性データを平均し、この平均値を前記第一音素類似性デ
    ータに伴う音素類似性値の各々から差し引くステップか
    らなる方法。
  14. 【請求項14】 請求項11に記載の方法であって、正
    規化された前記第一音素類似性データを少なくとも三つ
    の区分に区分化し、それにより正規化された前記第一音
    素類似性データの和が前記各区分において等しいことよ
    りなる方法。
  15. 【請求項15】 請求項11に記載の方法であって、第
    一単語モデルデータを構成する前記ステップが、更に、
    前記各区分における前記第一音素類似性データに関する
    自乗和の平方(RSS)を決定するステップを含むこと
    よりなる方法。
  16. 【請求項16】 請求項11に記載の方法であって、 第二訓練例を前記単音テンプレートと比較し、第二音素
    類似性データを時間に関する関数として生み出すステッ
    プであって、前記第二訓練例は与えられた話される単語
    に対応するステップと、 前記第二音素類似性データを複数の区分に区分化し、こ
    れらの各区分における前記第二音素類似性データの和を
    決定することで、前記第二音素類似性データに対応する
    第二単語モデルデータを構成するステップと、 前記各区分におけるそれぞれの音素に対して平均値と重
    み値を計算して、与えられた話される単語を表現するデ
    ィジタル単語原型を形成ステップとを更に含むことより
    なる方法。
JP33265199A 1998-11-25 1999-11-24 低複雑性スピーチ認識器の区分ベースの類似性方法 Expired - Fee Related JP3298858B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/199,721 US6230129B1 (en) 1998-11-25 1998-11-25 Segment-based similarity method for low complexity speech recognizer
US09/199721 1998-11-25

Publications (2)

Publication Number Publication Date
JP2000172295A JP2000172295A (ja) 2000-06-23
JP3298858B2 true JP3298858B2 (ja) 2002-07-08

Family

ID=22738751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33265199A Expired - Fee Related JP3298858B2 (ja) 1998-11-25 1999-11-24 低複雑性スピーチ認識器の区分ベースの類似性方法

Country Status (5)

Country Link
US (1) US6230129B1 (ja)
EP (1) EP1005019B1 (ja)
JP (1) JP3298858B2 (ja)
DE (1) DE69916979T2 (ja)
ES (1) ES2217701T3 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
US6529866B1 (en) * 1999-11-24 2003-03-04 The United States Of America As Represented By The Secretary Of The Navy Speech recognition system and associated methods
US6535850B1 (en) * 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
JP2007528014A (ja) * 2003-07-02 2007-10-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ネットワーク装置でセキュリティモードに入る方法
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
US8670983B2 (en) * 2010-09-02 2014-03-11 Nexidia Inc. Speech signal similarity
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8886533B2 (en) 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5345536A (en) 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
US5806034A (en) * 1995-08-02 1998-09-08 Itt Corporation Speaker independent speech recognition method utilizing multiple training iterations
US5822728A (en) 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5825977A (en) 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity

Also Published As

Publication number Publication date
EP1005019B1 (en) 2004-05-06
EP1005019A3 (en) 2001-03-07
ES2217701T3 (es) 2004-11-01
DE69916979T2 (de) 2005-04-21
DE69916979D1 (de) 2004-06-09
EP1005019A2 (en) 2000-05-31
US6230129B1 (en) 2001-05-08
JP2000172295A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US9536525B2 (en) Speaker indexing device and speaker indexing method
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
EP0625774A2 (en) A method and an apparatus for speech detection
EP1355296B1 (en) Keyword detection in a speech signal
EP0470245B1 (en) Method for spectral estimation to improve noise robustness for speech recognition
US20070233484A1 (en) Method for Automatic Speaker Recognition
JPH09127972A (ja) 連結数字の認識のための発声識別立証
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
KR20010102549A (ko) 화자 인식 방법 및 장치
CN112530407B (zh) 一种语种识别方法及系统
JPH10105187A (ja) クラスタ構成をベースとする信号セグメント化方法
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
JP2797861B2 (ja) 音声検出方法および音声検出装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
KR20090055320A (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JP2001083986A (ja) 統計モデル作成方法
US7454337B1 (en) Method of modeling single data class from multi-class data
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
EP1488410B1 (en) Distortion measure determination in speech recognition
Manor et al. Voice trigger system using fuzzy logic
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees