Nothing Special   »   [go: up one dir, main page]

JP3576272B2 - 音声認識装置および方法 - Google Patents

音声認識装置および方法 Download PDF

Info

Publication number
JP3576272B2
JP3576272B2 JP15653995A JP15653995A JP3576272B2 JP 3576272 B2 JP3576272 B2 JP 3576272B2 JP 15653995 A JP15653995 A JP 15653995A JP 15653995 A JP15653995 A JP 15653995A JP 3576272 B2 JP3576272 B2 JP 3576272B2
Authority
JP
Japan
Prior art keywords
pattern
standard pattern
frame
partial
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15653995A
Other languages
English (en)
Other versions
JPH096385A (ja
Inventor
慶明 伊藤
次郎 木山
浩 小島
進 関
隆一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP15653995A priority Critical patent/JP3576272B2/ja
Priority to US08/665,502 priority patent/US5799275A/en
Priority to DE69620304T priority patent/DE69620304T2/de
Priority to EP96304619A priority patent/EP0750294B1/en
Publication of JPH096385A publication Critical patent/JPH096385A/ja
Application granted granted Critical
Publication of JP3576272B2 publication Critical patent/JP3576272B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Image Analysis (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、入力音声を音声認識するための音声認識装置および方法に関し、より詳しくは順次に入力される入力音声から抽出した特徴パラメータ系列と音韻等が判明している標準パターンの特徴パラメータ系列との間の距離を連続DP法により計算し、最も距離が近くなった時点での標準パターンの特徴パラメータ系列を検出することにより文単位の音声認識を行う場合に、部分文、たとえば単語の音声認識をも行う音声認識装置および方法に関する。
【0002】
【従来の技術】
連続音声の中の文の区切り毎に、すなわち、連続DP法を用いて文スポッティングで音声認識を行う過程で部分文、たとえば単語を認識する方法として、“文スポッティング音声認識における部分文認識と未知語処理方式”、信学論(D−II)、J77−D−II、No.8(1994−8)、伊藤慶明、木山次郎、岡隆一が提案されている。
【0003】
この方法では、連続単語で表現された標準パターンの中で予め指定した区間と入力音声との整合度を標準パターン全体の計算過程で同時に求めることにより部分文を認識する。この方法を図1を用いて説明する。図1は横軸に入力音声をとり、音声の内容を文字により表している。縦軸には標準パターンをとり、その内容を文字により表している。なお、実際に音声認識を行う場合には音声から一定時間単位で取り出した音声特徴、これは一般的に特徴パラメータと呼ばれるが、この特徴パラメータを時系列的に並べた特徴パラメータ系列を用いて標準パターンと入力音声の整合を行うが内容の理解を容易にするためにここでは文字を用いて説明することを了解されたい。
【0004】
標準パターンとして「にわとり」、部分区間として「にわ」、「とり」を指定した場合を考える。「に」の音声が入力されると、全ての組み合わせでの距離計算が行われる。たとえば標準パターン側の「に」と入力音声側の「に」の間の距離や標準パターン側の「に」、「わ」...のそれぞれと入力音声パターン側の「に」の間の距離が計算される。次に音声の「わ」が入力されると、標準パターン側の「に」と入力音声パターン側の「わ」との間の距離、標準パターン側の「わ」と入力音声パターン側の「わ」との間の距離が計算される。このようにして得られる距離計算の結果は前時点の距離計算結果に累積されて行く。ある時点の入力音声と標準パターン側の部分パターンとの間の距離計算結果は前の時点の距離計算結果に加えられ、いくつかの計算結果の中から結合の最適ルートが決定される。組み合わせパターンには図2に示すような入力音声と標準パターンの時間的伸縮を吸収するようにした組み合わせが良く用いられる。本例に当てはめるとA点は図2のP点の位置を部分標準パターン「にわと」と入力音声「にわと」の間の累積距離とすると、この累積距離としてはA→B→Pの経路で得られる累積距離と、C→Pの経路で得られる累積距離と,E→D→Pの経路で得られる累積距離の中の最小距離が用いられる。ちなみに、A点の累積距離は標準パターン側の「にわ」と、入力音声側の「に」との間の累積距離となる。C点の累積距離は標準パターン側の「にわ」と、入力音声パターン側の「にわ」との間の累積距離となる。このようにして入力音声が入力される毎にいろいろな組み合わせにおける累積距離を決定していく。標準パターン「にわとり」と現時点での入力音声との累積距離に着目していくと、入力音声が「にわとり」になった時点で累積距離がしきい値以下となるので、この時点で入力音声は「にわとり」と認識される。なお、標準パターンは複数用意されているので、各標準パターンについて上述の距離計算(連続DP法による計算と呼ばれる)を行うことはいうまでもない。このような処理を実行することにより連続的に音声で入力される複数の文の中から特定標準パターンに合致する文をスポッティング的に認識する。
【0005】
部分文「とり」の累積距離を取得する場合には図1に示すように「にわとり」の累積距離D2から「にわ」の累積距離D1を差し引く。
【0006】
【発明が解決しようとする課題】
しかしながら、この方法では部分文の距離を得るためには部分文の範囲を手動で指示しなければならない。そこで、本発明は上述の点に鑑みて、任意の部分文の標準パターンと入力音声との間の距離を自動的取得できる音声認識装置および方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段とを具えたことを特徴とする。
【0008】
請求項2の発明は、請求項1の発明に加えて、前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする。
【0009】
請求項3の発明は、入力音声信号から抽出した入力音声パターンと標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に音声認識装置において実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって前記音声認識装置内で累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識方法において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を前記音声認識装置内で計算し、当該計算された差分値の中の最小の差分値を前記音声認識装置において検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果として音声認識装置から出力することを特徴とする。
【0010】
請求項4の発明は、請求項3の発明に加えて、前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする。
【0011】
請求項5の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段とを具え、前記標準パターンを現時点から前の時点に向って一定の長さWの入力音声パターンとすることを特徴とする。
【0012】
請求項6の発明は、請求項5の発明に加えて、前記一定の長さWの入力音声パターンを記憶するバッファを有し、フレーム単位の新しい入力音声パターンが得られる毎に当該新しい入力パターン1フレームを前記バッファに累積すると共に、当該バッファの最も古い入力パターン1フレームを前記バッファから消去することを特徴とする。
【0013】
請求項7の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段とを具え、当該定められた部分音声パターンの認識結果複数について、時系列順に隙間および重複なく合成することを特徴とする。
【0014】
請求項8の発明は、請求項7の発明に加えて、合成された前記認識結果複数を音声で再生出力することを特徴とする。
【0015】
請求項9の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段と、前記部分音声パターンの認識結果についてその時間軸上の通過頻度を計数する計数手段と、当該計数した通過頻度がしきい値以下となる時点を検出し、話題の境界位置と定める境界位置検出手段とを具えたことを特徴とする。
【0016】
【作用】
請求項1、3の発明では、標準パターンの中の各フレームと入力パターンの各フレームとの間の距離計算および累積計算を行う際に、標準パターンの中のフレームを部分標準パターンの終端とみなし、従来、手動で指示していた位置を自動指定する。また、この始端位置と前の各フレームを始端とする複数の部分標準パターンを設定し、累積距離を差分計算により取得する。取得された累積距離の中で最小の累積距離を有する部分標準パターンが部分入力パターンに対して最も的確性を有する。
【0017】
請求項2、4の発明では、部分標準パターンとして取り出すフレーム数を特定数以上とすることで文字についての認識を省略し単語単位での認識が可能となる。
【0018】
請求項5の発明では、標準パターンを入力音声パターンから作成することにより一定長さの入力音声パターンに含まれる複数の同一の単語等の部分文が部分音声の認識結果として得られる。
【0019】
請求項6の発明では、バッファにFIFOメモリ等を用いることができメモリ容量の節約が図れる。
【0020】
請求項7の発明では、部分音声パターンの認識結果が1つに合成されるので、その内容は音声の要約あるいはキーワード群として取扱うことができる。
【0021】
請求項8の発明では、合成内容を音声で再生出力することにより送話者の要約を耳で確認することができる。
【0022】
請求項9の発明では、送話者の話題の切れ目を自動検出できる。
【0023】
【実施例】
以下、図面を使用して、本発明の実施例を詳細に説明する。
【0024】
(第1実施例)
まず、本実施例における音声認識方法を説明する。
【0025】
標準パターン列R,入力パターン列Iを以下の数1式で表す。
【0026】
【数1】
R=τ(1),τ(2),…τ(r),…τ(T)
I=i(−∞),…i(i),…i(∞)
ここで、τ(r)は標準パラメータ系列の中のr番目の特徴パラメータを示し、i(i)は 入力音声から取得した入力パターン系列の中のi番目の特徴パラメータを示す。また、本実施例ではこの特徴パラメータが得られた音声の単位部分をフレームと呼び、入力時刻をtで表すことにする。入力パターンと標準パターンとに共通する区間を標準パターンおよび入力パターンについて以下のように定める。
【0027】
【数2】
Rc=τ(τ1),τ(τ1+1),…τ(τ2)
Ic=i(t1),i(t1+1),…i(t2)
標準パターンの各フレームτ(τ)では各時刻においてそのフレームを終端とするパスに対し累積距離の履歴を全て保持することによりそのフレーム数前の区間距離はこの履歴の差として計算できる。その区間フレーム数で区間距離を正規化すれば2つの区間の整合度を比較するすることが可能となる。例えば図3で時刻t1においてフレームτ3からτ6までの正規化距離は(D(6,3)−D(6,3))/3で求められ、τ3からτ5までの正規化距離(D(5,3)−D(5,3))/2等と比較することができる。ここでD(τ2,τ1){τ1≦τ2}はフレームτ(τ2)に至るパス上のフレームτ(τ1)における累積距離を表している。これにより連続した音声入力に対して標準パターンの連続DP計算を行う過程で任意の区間同士の整合度を効率的に計算することができる。また、必要があれば、単語の最短、最長継続時間として履歴フレーム数に制限を与えることも可能である。
【0028】
連続DP法では得られた最適パスの中の部分パスについてもその最適性が保証される。たとえば、図4で(t0,τ0)〜(t3,τ3)間で最適となった場合、(tj,τj)〜(t3,τ3)間のパスも最適となる。また、連続DP法のように始端をフリーとしてt0を決定した場合、τ1〜τ3間でも最適パスとなる。しかし、この場合でもτ1〜τ3間が最適となっている保証はなく、τ1〜τ3間には点線で示すような最適パスが存在することも可能である。すなわち、連続DP法のように始端をフリーとする場合には標準パターン全体の最適パスから得られる部分パスは必ずしも最適パスになるという保証は得られない。しかしながら、部分分スポッティング実験では最適パスになっていなくても性能の低下はみられなかった。
【0029】
以上の原理に基づき区間累積距離を計算する手順を次に説明する。縦軸を標準パターンの時間軸τ(1≦τ≦T)、各フレームをτ(τ)とし、横軸を入力音声の時間軸とする。時刻tの入力音声のフレームと標準パターンのフレームτとの局所距離をd(t,τ)とする。
【0030】
連続DPの計算で用いる傾斜制限として図2のように対象の重み係数を持つものとする。D(t1,τ2,τ1)、L(t,τ2,τ1)、S(t,τ2,τ1)によりそれぞれ時刻tにおけるτ2を終端フレームとするパス上でフレームτ1に至るまでの累積距離、累積重み係数およびフレームτ1を通過した入力時刻を表す。したがって、たとえばD(t,τ2,0)を0とすると、D(t,τ2,τ2)は時刻tにおけるフレーム0〜τ2に至るまでの累積距離を表すことになる。また、時刻tにおけるτ1〜τ2の区間累積距離はD(t,τ2,τ2)−D(t,τ2,τ1−1))となる。なお、図3におけるD(τ1,τ2)はD(t,τ1,τ2)のことである。
【0031】
初期条件を
【0032】
【数3】
D(−1,τ2,τ1)=D(0,τ2,τ1)=CONST
L(−1,τ2,τ1)=L(0,τ2,τ1)=0
S(−1,τ2,τ1)=L(0,τ2,τ1)=−1
(1≦τ1≦τ2≦T)
とする。ここでCONSTとは最長のフレーム数(T)で正規化を行っても整合度が低くなるように大きな定数を与えておく。また、τ2の最大値を設定すれば検出できる共通区間の最長区間となる。次にD,L,Sを計算するためのフレーム同期で計算可能な漸化式を示す。
【0033】
【数4】
τ=1のとき、
D(t,1,1)=2d(t,1)
L(t,1,1)=2
S(t,1,1)=t
【0034】
【数5】
Figure 0003576272
ただし、
【0035】
【数6】
τ=2のとき、
P(t,τ,3)=D(t,τ−1,τ−1)+d(t,τ)
Q(t,τ,3)=L(t,τ−1,τ−1)+1
上記の式によって求めた3つのDPパス(図2参照)を比較するため以下の式で正規化し、最適パスを決定する。
【0036】
【数7】
α =arg min P(t,τ,α)/Q(t,τ,α)
α=1,2,3
求めた最適パスから累積距離の履歴をフレームτに数8式〜数10式でコピーし、τフレームまでの累積距離、累積重みをP(t,τ,α )、Q(t,τ,α )を用いて数11式を更新する。
【0037】
【数8】
Figure 0003576272
【0038】
【数9】
Figure 0003576272
【0039】
【数10】
Figure 0003576272
【0040】
【数11】
D(t,τ,τ)=P(t,τ,α
L(t,τ,τ)=Q(t,τ,α
S(t,τ,τ)=t
上記の式を図3の例で説明する。時刻tにおけるフレームτ6への3つのDPパスの各累積距離、累積重みを数5式より求め、数7式より最適パス、すなわち、図2の3つのDPパスの中の、累積距離を最小とするDPパスを決定する。時刻t−1,フレーム5を始端とするDPパスが最適となった場合、(α =2)である。次に数10式より、時刻t−1,フレーム5における累積距離の履歴D(1,5){t−1}〜D(5,6){t−1}を履歴D(1,5){t}〜D(5,6){t}にコピーする。すなわち、式ではD(t−1,5,1)〜D(t−1,5,5)からD(t,6,1)〜D(t,6,5)へのコピーとなる。最後に選択されたパスの累積距離D(6,6){t}を更新する。累積重みについても同様の処理が必要である
上述したDPパスは図2に示すように対称の重み係数を使用したが重み係数といste非対称でフレーム方向にのみ重みを置く傾斜制限を用いれば、上述のL,Qを省略することができ、数7式および数11式は以下のように計算が非常に単純となる。
【0041】
【数12】
Figure 0003576272
【0042】
この場合、数8式〜数10式はDについてのみ処理すればよいので、計算機、記憶量とも大幅に削減することができる。後述する最長継続時間の制約としてNmaxを与えるためには数8式〜数10式において条件に1≦τ≦Nmaxを加えればよい。
【0043】
以上の処理を音声フレームが入力される毎に実行することにより標準パターンと連続音声パターンとの間の累積距離および部分音声パターンと、部分標準パターンとの間の区間累積距離が求まる。
【0044】
標準パターン「にわとり」と連続音声の中の「にわとり」と例にとると標準パターンの中の部分標準パターン「に」と連続音声の中の部分音声パターン「に」との間の区間累積距離や部分標準パターン「にわ」と部分音声パターン「にわ」との間の区間累積距離等いろいろな組み合わせの共通区間の累積距離が得られる。しかしながら音韻など非常に短い区間を計算の対称としてもいたづらに計算量が増えるだけであり、実用的ではない。そこで単語レベル程度以上のの音声長さを持つ共通区間を検出し計算の対象とした方が好ましい。そこで最短の共通区間長Nminを予め決定しておくと以下の処理により最適な共通区間長を得ることができる。
【0045】
時刻tにおいて、フレームτをパスの終端と仮定した場合、フレームτからn(n≧Nmin)前までの区間(τ−n,τ)の整合度A(t,τ,n)は以下の式で求められる。
【0046】
【数13】
Figure 0003576272
したがって、全てのフレームτ、全ての区間nの中で以下の式で与えられる最小の整合度A(t,τ,n)を与えるr ,n が時刻tにおける最適共通区間を示している。
【0047】
【数14】
Figure 0003576272
【0048】
これより時刻tにおける最適共通区間、最適整合度は以下の式で表される。
【0049】
【数15】
(S(t,τ ,n ),tau−n )〜(t,tau
【0050】
【数16】
A(t,τ ,n
共通区間を音声認識装置で判断する方法としては
(1)最適整合度の最小となる時刻における最適共通区間を全区間における最適共通区間とする。
【0051】
一方、フレームと同期して共通区間を検出する方法としては
(2)時間推移を観察し、ローカルミニマムになる箇所を最適共通区間とする。
【0052】
等が考えられる。
【0053】
このような音声認識方法を使用した音声認識装置のシステム構成の一例を図5に示す。図5において11はパーソナルコンピュータ等の情報処理装置である。
【0054】
マイクロホン1から入力された音声はアナログの電気信号に変換され、A/D変換器2によりデジタル信号に変換され、パーソナルコンピュータ11の入出力インタフェース3に入力される。デジタル形態の音声信号に対してたとえば、フーリエ解析等の処理が施され、音声信号のフレーム単位の特徴パラメータが抽出される。標準パターンの作成モードにおいては抽出された特徴パラメータはCPU4の制御によりハードディスク記憶装置(HDD)9に標準パターンとして格納される。このとき、音声の内容を示す文字等がキーボード等の入力装置8から入力され、上記特徴パラメータと関連づけて記憶される。一方、文字認識モードにおいては、パーソナルコンピュータ11に入力されたデジタル形態の音声信号は特徴パラメータに変換され、CPU4により音声認識される。より具体的には、上述した音声認識方法を用いてHDD9に格納された標準パターンと、音声信号から得られる入力パターンを特徴パラメータ同士で連続DPマッチング法で距離比較(整合)する。
【0055】
一定周期で入力される音声信号について同様の処理を繰り返し実行し、整合の結果は順次にRAM6に格納され、その累積結果も格納されていく。さらに本発明に関わる部分パターンについての整合に関連するデータもRAM6上に格納される。入力音声パターンが標準パターンに合致していると判断されたときにその標準パターンが音声認識結果としてディスプレイ7上に文字形態で表示される。また、D/A変換器12を介してスピーカ13からも音声出力される。また、標準パターンの一部分と入力音声パターンの一部分、たとえば、単語が合致していることもCPU4により検出され、その音声認識結果がディスプレイ7に表示される。CPU4はこれら一連の機器制御をROM5に格納されたシステムプログラムに従って実行すると共に上述の音声認識処理をHDD9に格納された専用のプログラムに従って実行する。
【0056】
このような構成で実行される音声認識処理を図6および図7を参照しながら説明する。図6は標準パターンを構成するフレームと、入力音声パターンを構成するフレームの整合結果および比較の対象となるフレームの組み合わせ方(DPパス)を示す。図中∞は整合結果としてまったく類似していないことを示し、数値0は類似していることを示す。実際の整合結果は数値形態で表すが説明の都合上かかる表現を用いる。図6の縦軸は標準パターンを表し、横軸は時系列的に入力される入力音声パターンを表す。
【0057】
図7はCPU4により実行される音声認識処理の処理手順を示す。この処理手順は実際にはCPU4が実行可能なプログラム言語の形態でHDD9に格納されている。説明の便宜上、処理内容については機能表現している。本実施例では2フレーム(文字)以上の単語について最短共通区間(Nmin=2)を設定しているものとする。
【0058】
音声認識モードが指示されると、CPU4は図7の処理手順が開始され、計算に必要な初期値が設定される(ステップS10)。マイクロホン1から認識対象の音声が入力されるとパーソナルコンピュータ11ではフレーム単位で入力音声パターンを入力し特徴パラメータを抽出する(ステップS20)。図6の例では「そ」についてのフレームが得られる。CPU4は最初に標準パターンのフレーム「に」、「わ」...「り」と入力音声パターンの「そ」との整合をそれぞれ行い、その整合結果を組み合わせ位置に対応させてRAM5に記憶する。また、その整合結果を用いて初期条件式によりその組み合わせ位置の累積結果の初期値も計算され記憶される(ステップS30)。
【0059】
次に標準パターンのフレーム「り」についての累積距離としきい値が比較されるこの場合、しきい値以上となるので文の標準パターンとこれまでの入力音声パターンは一致しないと判断される(ステップS40)。
【0060】
この時点で標準パターン側のフレーム数は1であり、最短共通区間2よりも小さいので、ステップS50からS100の処理を通過して、2番目の入力音声フレームの入力を待つ。2番目の入力音声フレーム「う」が入力されると、CPU4は前回と同様標準パターンの各フレームと整合を行い、整合結果を図6の整合位置に対応させてRAM6に記憶し、文の認識結果の有無を判定する(ステップS30からS40)。
【0061】
入力音声フレームが2となったので、上述の計算式を用いて標準パターンの部分区間「にわ」と入力音声パターンの部分区間「そう」の整合が行われる。この整合結果がRAM6に記憶される。また、このときの整合結果が仮の最小値として記憶される(ステップS60→S80)。3番目の入力音声のフレーム「ち」が入力されると、図6のPの位置の累積距離が図2の傾斜制限を用いて数5式により決定される。すなわち、数5式によりAのパスで定まる累積距離の値、Bのパスで定まる累積距離の値、Cのパスで定まる累積距離の値の中の最小値がPの位置の累積距離として決定され、この値を持つパスが最適パス、換言すると、これまでに最も類似するフレームの組み合わせ順として決定される。CPU4はその他入力音声フレームのフレーム「ち」と標準パターンのフレームの「り」の組み合わせについても数5式を用いて累積距離を計算する(ステップS30)。
【0062】
また、CPU4は次に上記P点の位置を起点として前の時点および標準パターンの始端に向かって2つ以上の各フレーム長さの区間距離を累積距離の差分計算(上述)により求めRAM6に記憶してゆく(ステップS40)。この時点ではフレーム長さ2とフレーム長さ3の2つの区間距離の値が得られる。この内の最小値がこの位置での最適区間距離の値として記憶される(ステップS50)。また、前のフレーム時点で検出された最適区間距離の最小値と新たに得られた最適区間距離の比較が行われ、新たに得られた最適区間距離が最小値として記憶される(ステップS75)。
【0063】
以下、入力音声フレームが入力される毎にCPU4は上述の文の標準パターンについての距離計算およびその時点を起点とした所定区間の距離計算および最適区間距離の計算等を行って行く。所定フレーム数、たとえば、5毎にその中での最小最適区間距離を持つ部分標準パターンが認識結果としてディスプレイ7に表示され、次に次回のために仮の最小値が設定される(ステップS80→S90→S100)。
【0064】
また、図6の例では時刻t1から累積距離の計算が開始されたパスが時刻t4になった時点で文の最終端Qの位置の累積距離がしきい値以下となり、このとき標準パターン「にわとりが」がスポット的にディスプレイ7に認識結果として表示される(ステップS60→S65)。
【0065】
以上説明したように本実施例では従来の文の標準パターンについての連続DPマッチングを行いながら、各時点でその時点を起点とした所定長さの区間距離を計算して標準パターンの一部分と入力音声パターンの中の一部分の一致を検出して行く。したがって、従来のように距離計算を行うべき区間をユーザがわざわざ指定する必要がなくなる。
【0066】
第1実施例については以下の例を実施できる。
【0067】
1) 文についての認識結果、単語についての認識結果については表示装置、スピーカ、プリンタ等所望の出力装置を使用すればよい。
【0068】
2) 本実施例で標準パターンは文、主語、述語等の単語で構成されるものを説明したが文節程の長さの文章音声をも標準パターンとすることができる。
【0069】
(第2実施例)
ある話題において重要なキーワード、例えば固有名詞はその話題音声にしばしば出現し、ありふれた単語に比べ長いことが予想される。そこで話題に特有な語は次のような特性を持つと仮定する。
【0070】
・複数回出現する
・十分な長さを持つ
この仮定のもとでは、発話中の複数の箇所で十分な長さを持った音韻的に類似した区間を抽出することができれば、重要な単語の含まれている区間の多くをカバーすることが可能であろう。
【0071】
ただし、機能語や副詞、接続詞のようなありふれた単語も上記の前提を満たすことが多いため、音韻的類似度のみを用いたものではそれらも抽出してしまうことは避けられない。したがって、何らかの後処理で、それらの不要な情報を除く必要がある。
【0072】
そこで、第2実施例では第1実施例で説明した単語等の部分文の検出手法を用いて、一定時間内に複数個出現する部分文を検出する方法を説明する。これにより、話題の中のキーワードのみが検出され、キーワードに付属する副詞、接続詞等の不要部分が排除される。
【0073】
第2実施例では第1実施例と同様のシステム構成を用いることができるが一部異なる点があるので、相異点を説明することにする。第1実施例では標準パターンは予め用意され、その内容が変化することはない。第2実施例では入力音声から取り出した一定期間内の音声パターンを標準パターンとして取り扱い、その標準パターンの長さを一定期間に維持しつつ、入力音声の入力に応じて標準パターンも変化させる点が第1実施例と異なる。
【0074】
より具体的には、図8に示すように現時点をt−1とすると、この時点でDPマッチングに用いる標準パターンは時刻t−W−1〜時刻t−1までの入力音声から抽出した特徴パラメータ系列、すなわち、入力パターンとなる。本実施例では時刻tに新たな音声部分が入力されると、長さWを維持するために時刻t−W−1のデータが標準パターンから消去され、新たに時刻tのデータが標準パターンに加えられる。
【0075】
以上の標準パターンを用いた場合、各時点における標準パターンの両端点における累積距離の計算方法が問題となる。本実施例では、時刻tにおける標準パターン始端と終端のパス形状を図9のように設定する。それ以外の計算は第1実施例と共通である。
【0076】
時刻tを終端とする入力音声パターン上の区間と標準パターン上の類似した区間の探索は、図10に示す領域で行われる。ここで、Wは標準パターンの最大長、Hは類似区間の最大長である。また、Dは、tを終端とする区間が検出されないために必要な遅延である。もし、D=0であれば、常に、自分自身が検出されてしまうからである。全体的に見れば、探索はハッチングで示す領域の範囲で行われることになる。
【0077】
このような計算を行うためのデータ入力のためのCPU4の処理手順を図11に示しておく。音声データのサンプリングが開始されると、標準パターンを記憶するRAM6上のバッファのフル(満杯)の有無が確認され、フルになるまではバッファに入力のデータ、すなわち音声特徴パラメータが蓄積される(ステップS210→S240)。この処理を繰り返すとバッファがフルとなるので以後、FIFO(ファーストインファーストアウト)のように、蓄積結果の先頭の音声特徴パラメータが消去され、入力の音声特徴パラメータが蓄積結果の最後尾に追加される(ステップS210→S220→S230)。
【0078】
このようにして標準パターンを変化させて、部分文の検出を行うと一定期間W内に同一あるいは類似の単語が複数回出現すると、第1実施例の計算結果は複数回出現した単語の方が他の単語よりも区間累積距離が小さくなるので、最適区間距離として選択され、複数回出現の単語が類似単語として出力される。
【0079】
第2実施例の他の例として以下を実施できる。
【0080】
1) 第1実施例の固定の標準パターンを用いた部分文の検出結果をRAM6に記憶しておく。新たに部分文を検出する毎に記憶内容を参照し、同一のものがある場合にはその出現頻度を計数することによっても複数回出現する部分文を検出できる。ただし、複数回出現する部分文のみを検出する目的であれば第2実施例の方が処理時間も短く、使用するメモリ空間も小さくなる。
【0081】
(第3実施例)
第1実施例で述べた類似単語の抽出方法を実行して、抽出された複数の類似(区間)の単語は図12に示すように時系列的に一部重複してしまったり、単語と単語の間に隙間が生じる。したがって、抽出の類似単語を直に再生出力しようとした場合、その再生音声は聞きづらいものとなる。
【0082】
そこで第3実施例では隙間のある類似単語同士、あるいは時系列的に重複する類似単語を結合した上で連続的に再生処理を行う。
【0083】
このためのCPU4の処理手順を図13に示す。CPU4は、第1番目に抽出された類似単語を初期合成類似単語としてRAM6に格納する。第2番目の類似単語が得られると、初期合成単語の時間軸上の位置関係を類似単語の始端および終端位置を比較することで重複の有無(隙間の有無)を調べる(ステップS300→S310)。この2つの類似単語が重複している場合には、2つの類似単語の一つの重複部分を消去して、2つの類似単語をマージ(結合)する(ステップS320)。一方、2つの類似単語に隙間が生じている場合には、後の時点の類似単語の始端を前の時点の類似単語の終端に結合する(ステップS330)。
【0084】
このようにして合成類似単語を作成すると、前時点で作成された合成類似単語と差し換えてRAM6に記憶する。以下、新しい類似単語が得られる毎に上述の手順を繰り返すと類似単語間の重複、隙間が除去された1つの類似単語が合成される。一定回数、あるいは一定時間上述の処理を繰り返すと(ステップS340)、合成処理された類似単語をスピーカ13から再生する(ステップS350)。以下、順次類似単語の合成、再生を繰り返す。
【0085】
(第4実施例)
第1実施例のように文単位の標準パターンを用意しても入力音声が標準パターンと一致することは実用上、ほとんどない。そこで、部分文を検出する訳であるが部分文のみを出力すると、文の切れ目が見つかりにくい。
【0086】
本実施例では、異なる話題間では、用いられる単語集合が異なることに着目し、複数の話題を含む音声に対し、第1実施例の手法により類似区間の検出を行う。すると、同一話題内での類似区間の区間の対応は多く、異なる話題間での対応は少なくなるであろうことが予測されるので、各時刻において、対応区間を結ぶ線のよぎる頻度、すなわち、通過頻度を数えれば、図14に示すように話題の境界においては頻度が低くなることが予想される。したがって、対応線の通過頻度が局所的に低い時刻は話題の境界である可能性が高いと考えられる。
【0087】
そこで、本実施例では検出された類似単語の通過頻度を取得し、特定のしきい値以下になる点を話題の境界と決定する。
【0088】
このためのCPU4の処理手順を図15に示す。CPU4は第1実施例で説明した方法により類似単語を検出すると、その類似単語の始端および終端の入力時間の間の期間に長さが矩形の長さに相当し、一定高さをもつ矩形イメージをRAM6の2次元空間(時間軸と通過頻度軸とで構成)上に作成し、類似単語が検出する毎にこの矩形を通過頻度軸方向に積み上げる。これにより図4に示す通過頻度のグラフがRAM6上に形成される。このグラフの各時刻毎の使用頻度(通過頻度軸方向のドット数)をしきい値と比較することで話題の境界点時刻が検出される(ステップS400)。この境界点時刻がRAM6上に記憶される(ステップS410)。
【0089】
第4実施例の応用形態として以下を実施できる。
【0090】
1) 本実施例では類似区間の集計をイメージ処理で行う例を示したが、数値計算により各時刻毎の通過頻度を求めてもよい。
【0091】
【発明の効果】
以上説明したように、請求項1,3の本発明によれば、文の音声認識を行う途中で単語等の認識が可能となり、かつ、従来のように部分標準パターンを手動で指示する必要がなくなる。
【0092】
請求項2、4の発明では、部分標準パターンとして取り出すフレーム数を特定数以上とすることで文字についての認識を省略し単語単位での認識が可能となる。
【0093】
これにより処理時間の短縮化がメモリ容量の節約が図れる。
【0094】
請求項5の発明では、標準パターンを入力音声パターンから作成することにより一定長さの入力音声パターンに含まれる複数の同一の単語等の部分文が部分音声の認識結果として得られる。これにより繰り返し使用される単語等を重要キーワードとして取得できる。
【0095】
請求項6の発明では、バッファにFIFOメモリ等を用いることができメモリ容量の節約が図れる。
【0096】
請求項7の発明では、部分音声パターンの認識結果が1つに合成されるので、その内容は音声の要約あるいはキーワード群として取扱うことができる。
【0097】
請求項8の発明では、合成内容を音声で再生出力することにより送話者の要約を耳で確認することができる。
【0098】
請求項9の発明では、送話者の話題の切れ目を自動検出できる。
【図面の簡単な説明】
【図1】従来の部分標準パターンの累積距離を取得する方法を示す説明図である。
【図2】連続DP法を説明するための説明図である。
【図3】第1実施例の部分標準パターンの累積距離を取得する方法を示す説明図である。
【図4】第1実施例の最適性を示す説明図である。
【図5】第1実施例のシステム構成を示すブロック図である。
【図6】第1実施例に関わる音声認識方法を説明するための説明図である。
【図7】第1実施例に関わる音声認識手順を示すフローチャートである。
【図8】第2実施例の標準パターンを示す説明図である。
【図9】第2実施例の処理を示す説明図である。
【図10】第2実施例の処理を示す説明図である。
【図11】第2実施例の処理手順を示すフローチャートである。
【図12】第3実施例の処理を示す説明図である。
【図13】第3実施例の処理手順を示すフローチャートである。
【図14】第4実施例の処理を示す説明図である。
【図15】第4実施例の処理手順を示すフローチャートである。
【符号の説明】
1 マイクロホン
2 A/D変換器
3 入出力装置(I/O)
4 CPU
6 RAM
8 入力装置

Claims (9)

  1. 入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
    前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、
    当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段とを具えたことを特徴とする音声認識装置。
  2. 前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする請求項1に記載の音声認識装置。
  3. 入力音声信号から抽出した入力音声パターンと標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に音声認識装置において実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって前記音声認識装置内で累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識方法において、
    前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を前記音声認識装置内で計算し、
    当該計算された差分値の中の最小の差分値を前記音声認識装置において検出し、
    当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果として音声認識装置から出力することを特徴とする音声認識方法。
  4. 前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする請求項3に記載の音声認識方法。
  5. 入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
    前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、
    当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段と
    を具え、前記標準パターンを現時点から前の時点に向って一定の長さWの入力音声パターンとすることを特徴とする音声認識装置。
  6. 前記一定の長さWの入力音声パターンを記憶するバッファを有し、フレーム単位の新しい入力音声パターンが得られる毎に当該新しい入力パターン1フレームを前記バッファに累積すると共に、当該バッファの最も古い入力パターン1フレームを前記バッファから消去することを特徴とする請求項5に記載の音声認識装置。
  7. 入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
    前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、
    当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段と
    を具え、当該定められた部分音声パターンの認識結果複数について、時系列順に隙間および重複なく合成することを特徴とする音声認識装置。
  8. 合成された前記認識結果複数を音声で再生出力することを特徴とする請求項7に記載の音声認識装置。
  9. 入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続DP法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
    前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第1の演算処理手段と、
    当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第2の演算処理手段と、
    前記部分音声パターンの認識結果についてその時間軸上の通過頻度を計数する計数手段と、
    当該計数した通過頻度がしきい値以下となる時点を検出し、話題の境界位置と定める境界位置検出手段と
    を具えたことを特徴とする音声認識装置。
JP15653995A 1995-06-22 1995-06-22 音声認識装置および方法 Expired - Fee Related JP3576272B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP15653995A JP3576272B2 (ja) 1995-06-22 1995-06-22 音声認識装置および方法
US08/665,502 US5799275A (en) 1995-06-22 1996-06-18 Speech recognizing device and method assuming a current frame is an end point of a current reference pattern
DE69620304T DE69620304T2 (de) 1995-06-22 1996-06-21 Vorrichtung und Verfahren zur Spracherkennung
EP96304619A EP0750294B1 (en) 1995-06-22 1996-06-21 Speech recognizing device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15653995A JP3576272B2 (ja) 1995-06-22 1995-06-22 音声認識装置および方法

Publications (2)

Publication Number Publication Date
JPH096385A JPH096385A (ja) 1997-01-10
JP3576272B2 true JP3576272B2 (ja) 2004-10-13

Family

ID=15630012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15653995A Expired - Fee Related JP3576272B2 (ja) 1995-06-22 1995-06-22 音声認識装置および方法

Country Status (4)

Country Link
US (1) US5799275A (ja)
EP (1) EP0750294B1 (ja)
JP (1) JP3576272B2 (ja)
DE (1) DE69620304T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1006507A1 (de) * 1998-11-27 2000-06-07 Ascom Systec AG Verfahren zur Durchführung einer Sprechererkennung
EP1006508A1 (de) * 1998-11-27 2000-06-07 Ascom Systec AG Verfahren zur Ueberprüfung einer Benutzerberechtigung
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
JP4072718B2 (ja) 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
DE10305821A1 (de) * 2003-02-12 2004-09-02 Infineon Technologies Ag Verfahren und Vorrichtung zum Vergleichen einer Vielzahl von Eingangsvektoren mit m Referenzvektoren, Computerprogramm-Element und Computerlesbares Speichermedium
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
JP4265474B2 (ja) * 2004-04-27 2009-05-20 日産自動車株式会社 異音発生源特定装置及び異音発生源特定方法
JP4591947B2 (ja) * 2004-05-13 2010-12-01 日本電信電話株式会社 情報フィルタリング装置及び方法
US8255216B2 (en) 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
EP2293289B1 (en) * 2008-06-06 2012-05-30 Raytron, Inc. Speech recognition system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
JPS60211498A (ja) * 1984-04-05 1985-10-23 日本電気株式会社 連続音声認識装置
US4783809A (en) * 1984-11-07 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognizer for real time operation
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
JPS62187897A (ja) * 1986-02-14 1987-08-17 日本電気株式会社 連続音声認識装置
EP0283902B1 (en) * 1987-03-16 1993-06-30 Nec Corporation Pattern matching system
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
JPH06161488A (ja) * 1992-11-17 1994-06-07 Ricoh Co Ltd 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
DE69620304T2 (de) 2002-11-07
US5799275A (en) 1998-08-25
EP0750294A3 (en) 1998-04-29
EP0750294B1 (en) 2002-04-03
EP0750294A2 (en) 1996-12-27
JPH096385A (ja) 1997-01-10
DE69620304D1 (de) 2002-05-08

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US8311832B2 (en) Hybrid-captioning system
JP6326490B2 (ja) 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法
JP3576272B2 (ja) 音声認識装置および方法
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP3834169B2 (ja) 連続音声認識装置および記録媒体
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2009216986A (ja) 音声データ検索システム及び音声データの検索方法
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP2003255992A (ja) 対話システムおよびその制御方法
JPH10105189A (ja) シーケンス取出し方法及びその装置
US20170270923A1 (en) Voice processing device and voice processing method
JP7208499B2 (ja) 検出装置、検出方法およびプログラム
JPH08106296A (ja) 単語認識システム
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
CN113782050B (zh) 声音变调方法、电子设备及存储介质
JPH10187181A (ja) 音声認識装置
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP4877112B2 (ja) 音声処理装置およびプログラム
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2004012615A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
CN110600005B (zh) 语音识别纠错方法及装置、计算机设备和记录介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040707

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070716

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees