Nothing Special   »   [go: up one dir, main page]

JP6804909B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP6804909B2
JP6804909B2 JP2016180447A JP2016180447A JP6804909B2 JP 6804909 B2 JP6804909 B2 JP 6804909B2 JP 2016180447 A JP2016180447 A JP 2016180447A JP 2016180447 A JP2016180447 A JP 2016180447A JP 6804909 B2 JP6804909 B2 JP 6804909B2
Authority
JP
Japan
Prior art keywords
voice
utterance
probability
time
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016180447A
Other languages
English (en)
Other versions
JP2018045123A (ja
Inventor
直樹 関根
直樹 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2016180447A priority Critical patent/JP6804909B2/ja
Priority to US15/693,427 priority patent/US10600422B2/en
Priority to CN201710780531.0A priority patent/CN107833578B/zh
Priority to EP17191196.9A priority patent/EP3296990B1/en
Publication of JP2018045123A publication Critical patent/JP2018045123A/ja
Priority to US16/809,476 priority patent/US11468902B2/en
Priority to JP2020200894A priority patent/JP6972287B2/ja
Application granted granted Critical
Publication of JP6804909B2 publication Critical patent/JP6804909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明の実施形態は、音声認識方法及びこの方法で音声認識を行う音声認識装置並びにコンピュータを当該音声認識装置として機能させるための音声認識プログラムに関する。
近年、音声認識装置を搭載し、ユーザが外部から音声により所望の操作内容を与えると、その音声を認識して所望の操作内容に応じた動作を実行する電子機器がある。このような電子機器は、通常、発話ボタンを備え、音声認識装置は、この発話ボタンをユーザが操作したことを契機に音声の入力を受け付ける。しかし、音声入力を受け付ける前にユーザが発声したために音声信号の先頭部分を記録できず、音声認識装置が誤認識を引き起こすことがある。
このような不具合を防止するために、発話ボタンが操作されてから音声入力の受付が可能になるまでの間、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる技術が知られている。しかしこの技術を適用できるのは表示画面を有する電子機器に限られる上、画像を表示させるために電子機器を制御するプロセッサの処理負荷が大きくなるという問題がある。
特開2003−177789号公報
本発明の実施形態が解決しようとする課題は、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できる音声認識技術を提供しようとするものである。
一実施形態において、音声認識装置は、記録部と、受付手段と、認識手段と、判定手段と、修正手段とを備える。記録部は、音声入力手段を介して入力された音声信号を記録する。受付手段は、音声入力手段からの音声入力開始指示を受け付ける。認識手段は、入力開始指示を受け付けた後に記録部に記録された音声信号から音声発話を認識する。判定手段は、入力開始指示を受け付けてから音声入力手段を介して音声信号が入力されるまでの時間により音声発話の認識結果を修正するか否かを判定する。修正手段は、判定手段により修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する。
一実施形態である音声認識装置のブロック構成図。 同音声認識装置が有する単語辞書ファイルの一例を示す図。 同音声認識装置が有する言語辞書ファイルの一例を示す図。 同音声認識装置のプロセッサが音声認識プログラムにしたがって実行する情報処理手順を示す流れ図。 音声信号波形の一例を示す図。 音声信号波形の他の例を示す図。 音声認識に係る状態遷移図。 音声発話修正に係る状態遷移図。
以下、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分が記録できなかったことによる誤認識を低減できる音声認識装置の実施形態について、図面を用いて説明する。
図1は、本実施形態における音声認識装置10の要部構成を示すブロック図である。音声認識装置10は、音声入力の開始指示を受け付けると、開始指示を受け付けた後に入力された音声信号から音声発話を認識する。そして音声認識装置10は、開始指示を受け付けてから音声信号が入力されるまでの時間により音声発話の認識結果を修正するか否かを判定し、修正する場合、認識された音声発話を修正する。このような音声認識装置10は、例えば飲食店等で利用される携帯型の注文端末、工業機器の保守作業等で利用される保守記録端末、等の電子機器に組み込まれ、ユーザの発話による入力を支援する機能を果たすものである。
図1に示すように音声認識装置10は、プロセッサ11、メインメモリ12、補助記憶デバイス13、時計部14、デジタイズ部15、入力ポート16、複数のデバイスインターフェース17,18及び出力部19等を備える。また音声認識装置10は、アドレスバス,データバス等を含むバスラインBLを備えており、このバスラインBLに、プロセッサ11、メインメモリ12、補助記憶デバイス13、時計部14、デジタイズ部15、入力ポート16、デバイスインターフェース17,18及び出力部19が接続されている。
デジタイズ部15は、音声入力手段であるマイクロフォン20を接続し、マイクロフォン20を介して入力されたアナログの音声信号をデジタルの音声信号に変換する。マイクロフォン20は、音声認識装置10を搭載した電子機器に内蔵されていてもよいし、着脱自在に外部接続されるものであってもよい。なお、マイクロフォン20がデジタルデータの音声信号を出力するタイプのものである場合には、デジタイズ部15を省略できる。
入力ポート16は、音声入力の開始指示手段である発話ボタン30を接続し、発話ボタン30のオン信号を入力する。ユーザは、マイクロフォン20に向かって発話する間、発話ボタン30を押下する。発話ボタン30は、押下されている間オン信号を出力する。発話ボタン30は、1回目の押下でオン信号を出力し、2回目の押下でオン信号を停止するタイプのものであってもよい。
デバイスインターフェース17は、入力デバイス40を接続し、所定のプロトコルに従い入力デバイス40から入力データを取り込む。入力デバイス40は、キーボード、タッチパネル、ポインティングデバイス等である。デバイスインターフェース18は、表示デバイス50を接続し、所定のプロトコルに従い表示デバイス50に表示データを出力する。表示デバイス50は、液晶ディスプレイ、プラズマディスプレイ、EL(Electro Luminescent)ディスプレイ等である。なお、デバイスインターフェース17,18に接続されるデバイスは、入力デバイス40及び表示デバイス50に限定されるものではない。例えば表示デバイス50の代わりにプリンタが接続されてもよい。また、入力デバイス40の代わりにバーコードリーダ、RFIDリーダライタ、カードリーダライタ等が接続されてもよい。
因みに、音声入力手段であるマイクロフォン20と、開始指示手段である発話ボタン30と、入力デバイス40と、表示デバイス50とは、音声認識装置10を搭載した電子機器に設けられる。その場合において、発話ボタン30は、入力デバイス40の一種であるキーボードまたはタッチパネルに設けられていてもよい。
音声認識装置10は、プロセッサ11、メインメモリ12及び補助記憶デバイス13と、これらを接続するバスラインBLとによってコンピュータを構成する。
プロセッサ11は、上記コンピュータの中枢部分に相当する。プロセッサ11は、オペレーティングシステムやアプリケーションプログラムに従って、音声認識装置10としての機能を実現するべく各部を制御する。
メインメモリ12は、上記コンピュータの主記憶部分に相当する。メインメモリ12は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ12は、不揮発性のメモリ領域ではオペレーティングシステムやアプリケーションプログラムを記憶する。またメインメモリ12は、プロセッサ11が各部を制御するための処理を実行する上で必要なデータを不揮発性または揮発性のメモリ領域で記憶する。
メインメモリ12は、揮発性のメモリ領域を、マイクロフォンを介して入力された音声信号の記録部として使用する。すなわちメインメモリ12は、デジタイズ部15でデジタルデータに変換された音声信号を所定のバッファリング単位で繰り返し上書き保存する領域を有する。なお、この記録部としての領域は、補助記憶デバイス13に形成されていてもよい。
補助記憶デバイス13は、上記コンピュータの補助記憶部分に相当する。例えばEEPROM(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等が補助記憶デバイス13として使用される。補助記憶デバイス213は、プロセッサ11が各種の処理を行う上で使用するデータや、プロセッサ11での処理によって生成されたデータを保存する。補助記憶デバイス13は、上記のアプリケーションプログラムを記憶する場合もある。
補助記憶デバイス13は、音声認識に必要な単語辞書ファイル131及び言語辞書ファイル132を記憶する。単語辞書ファイル131は、図2にその一例を示すように、種々の単語とその読み仮名とを予め記録したデータファイルである。例えば単語辞書ファイル131Aは、単語「焼き」、「秋」、「肉」、「行く」、「柿」、「咲き」、「滝」、「泣き」、「破棄」、「薪」、「脇」に対してそれぞれ読み仮名「yaki」、「aki」、「niku」、「iku」、「kaki」、「saki」、「taki」、「naki」、「haki」、「maki」、「waki」を記録する。
言語辞書ファイル132は、図3(a),(b)にその一例を示すように、種々の単語同士の繋がりの確率を予め記録したデータファイルである。例えば、言語辞書ファイル132Aは、単語「焼き」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.5”を、単語「行く」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル132Aは、単語「秋」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.1”を、単語「行く」が繋がる確率として“0.2”を記録する。
一方、言語辞書ファイル132Bは、単語「行く」の前に、単語「柿」が繋がる確率として“0.2”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル132Bは、単語「肉」の前に、単語「柿」が繋がる確率として“0.3”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.2”を記録する。
図1に説明を戻す。
時計部14は、音声認識装置10の時刻情報源として機能する。プロセッサ11は、時計部14によって計時される時刻情報を基に、現在の日付及び時刻を計時する。なお、時計部14は、音声認識装置10が搭載された電子機器に備えられているものを兼用してもよい。
出力部19は、この音声認識装置10で認識された結果である音声発話のデータを外部へ出力する。データの出力先は、例えばこの音声認識装置10を搭載した電子機器の制御ユニットである。
かかる構成の音声認識装置10において、プロセッサ11は、押下検知部111、閾値判定部112、音声認識部113、修正部114及び出力制御部115としての機能を有している。これらの機能は、音声認識プログラムに従ってプロセッサ11が情報処理を行うことにより実現される。音声認識プログラムは、メインメモリ12又は補助記憶デバイス13に記憶されている。なお、音声認識プログラムがメインメモリ12又は補助記憶デバイス13に予め記憶されていなくてもよい。音声認識装置10を搭載した電子機器が備える書き込み可能な記憶デバイスに、この電子機器とは個別に譲渡された音声認識プログラムがユーザなどの操作に応じて書き込まれてもよい。音声認識プログラムの譲渡は、リムーバブルな記録媒体に記録して、あるいはネットワークを介した通信により行うことができる。記録媒体は、CD−ROM,メモリカード等のようにプログラムを記憶でき、かつ装置が読み取り可能であれば、その形態は問わない。
図4は、プロセッサ11が音声認識プログラムに従って実行する情報処理手順を示す流れ図である。なお、図4に示すとともに以下に説明する処理の内容は一例であって、同様な結果を得ることが可能であればその処理手順及び処理内容は特に限定されるものではない。
音声認識プログラムが開始されると、プロセッサ11は、Act1として発話ボタン30が押下されるのを待ち受ける。入力ポート16を介してオン信号が入力されると、プロセッサ11は、発話ボタン30が押下されたことを検知する(Act1にてYES)。そしてプロセッサ11は、Act2として時計部14で計時されている時刻を検知時刻Pとしてメインメモリ12の所定領域に記憶させる(第1時刻取得手段)。ここに、プロセッサ11は、Act1及び2の処理を実行することにより、押下検知部(受付手段)111として機能する。
検知時刻Pを記憶させた後、プロセッサ11は、Act3として音声信号が入力されるのを待ち受ける。デジタイズ部15を介してデジタル化された音声信号、いわゆる音データが入力されると(Act3にてYES)、プロセッサ11は、Act4として時計部14で計時されている時刻を音声開始時刻Dとしてメインメモリ12の所定領域に記憶させる(第2時刻取得手段)。またプロセッサ11は、Act5として音データをメインメモリ12の記録部に記録する。
プロセッサ11は、Act6として音データの閾値判定を行う。閾値判定は、周囲に恒常的に生じている音データを認識対象から除外し、ユーザが発声した音声のデータのみを認識対象とする機能である。具体的には、記録部に記録された所定のバッファリング単位の音データが所定の音量THP以上であるかを判定し、所定の音量THP以上である場合にはその音データを認識対象とする。
プロセッサ11は、Act7として閾値判定の結果を確認する。閾値判定の結果、音データを認識対象外とする場合(Act7にてNO)、プロセッサ11は、Act3の処理に戻る。そしてプロセッサ11は、Act3以降の処理を再度繰り返す。これに対し、音データを認識対象とする場合には(Act7にてYES)、プロセッサ11は、Act8の処理に進む。ここに、プロセッサ11は、Act6及びAct7の処理を実行することにより、閾値判定部112として機能する。
Act8では、プロセッサ11は、音声認識を行う。すなわちプロセッサ11は、記録部に記録された音データの周波数特性を鑑み、その音データの音声特徴量を算出する。そしてプロセッサ11は、単語辞書ファイル131及び言語辞書ファイル132のデータを用いて確率的なパターン認識処理を行うことにより、音データから音声発話として認識した文字列を作成する。作成された音声発話の文字列は、メインメモリ12に一時的に記憶される。因みに、このような音声認識の手法は周知であるので、ここでの詳細な説明は省略する。また、音声認識の手法は特に限定されるものではなく、他の手法を用いて音データから音声発話としての文字列を認識してもよい。ここにプロセッサ11は、Act8の処理を実行することにより、音声認識部(認識手段)113として機能する。
音データの音声認識を終えると、プロセッサ11は、Act9として音声発話の認識結果を修正するか否かを判定する(判定手段)。具体的にはプロセッサ11は、Act2の処理で取得した検知時刻PからAct4の処理で取得した音声開始時刻Dまでの経過時間(D−P)が、予め設定された閾値時間Tよりも短いか否かを調べる。そして短い場合には、プロセッサ11は修正の必要有りと判定する。これに対して短くない場合には、プロセッサ11は修正の必要無しと判定する。必要有りと判定した場合(Act9にてNO)、プロセッサ11は、Act10の処理を実行した後、Act11の処理へと進む。必要無しと判定した場合には(Act9にてYES)、プロセッサ11は、Act10の処理を実行することなく、Act11の処理へと進む。
Act10では、プロセッサ11は、Act8の処理で認識された音声発話を修正する(修正手段)。なお、音声発話の修正手法については後述する。ここにプロセッサ11は、Act9及びAct10の処理を実行することにより、修正部114として機能する。
Act11では、プロセッサ11は、Act8の処理で認識された音声発話又はAct10の処理で修正された音声発話のデータを、出力部19を介して外部へと出力する。あるいはプロセッサ11は、音声発話のデータを表示デバイス50へと出力して、認識結果を表示デバイスの画面上に表示させてもよい。ここにプロセッサ11は、Act11の処理を実行することにより、出力制御部115として機能する。
以上で、音声認識プログラムに基づくプロセッサ11の処理は終了する。
図5及び図6は、ユーザが「や・き・に・く」と発声した際の音声信号(アナログデータ)の具体例である。図5の例において、発話ボタン30の押下検知時刻Pは「P1」で示されており、音声開始時刻Dは「D1」で示されている。すなわち図5の例では、押下検知時刻Pから音声開始時刻Dまでの経過時間はT1で示されている。同様に、図6の例において、発話ボタン30の押下検知時刻Pは「P2」で示されており、音声開始時刻Dは「D2」で示されている。すなわち図6の例では、押下検知時刻Pから音声開始時刻Dまでの経過時間はT2で示されている。
図5の例の場合、経過時間T1は十分に長いため、記録部に記録された音データの先頭部分に欠落は生じていない。その結果、音データは「ya・ki・ni・ku」であり、認識された音声発話は「焼き肉」となる。これに対し、図6の例の場合は経過時間T2が短いため、記録部に記録された音データの先頭部分“y”が欠落している。その結果、音データは「a・ki・ni・ku」であり、認識された音声発話は、図7の状態遷移図から「秋行く」となる。つまり、先頭の音データ「a」と次の音データ「ki」とから、単語「秋」が認識され、この単語「秋」に続く音データが「niku」の場合の確率は0.1、「iku」の場合の確率は0.2であることから、音声発話「秋行く」と認識される。
ここで、本実施形態の音声認識装置10は、押下検知時刻Pから音声開始時刻Dまでの経過時間が予め設定された閾値時間Tよりも短い場合、プロセッサ11が音声発話の修正処理を行う。今、閾値時間Tが「T1>T>T2」の関係にあると仮定する。この場合、プロセッサ11は、図5の例では修正を行わないが、図6の例では修正を実行する。
具体的にはプロセッサ11は、先ず、音データ「a・ki・ni・ku」の先頭「a」が母音である場合、この母音に子音を示す「k,s,t,n,h,m,y,r,w」を順次付加する。すなわちプロセッサ11は、音データ「ka・ki・ni・ku」、「sa・ki・ni・ku」「ta・ki・ni・ku」、「na・ki・ni・ku」、「ha・ki・ni・ku」、「ma・ki・ni・ku」、「ya・ki・ni・ku」、「ra・ki・ni・ku」、「wa・ki・ni・ku」を作成する。そしてプロセッサ11は、これらの音データのそれぞれについて、単語辞書ファイル131及び言語辞書ファイル132を用いたパターン認識処理を再度実行する。その結果、図8に示す状態遷移図が作成されたと仮定すると、プロセッサ11は、この状態遷移図から繋がりの確率が最も高い音データ「ya・ki・ni・ku」を選出する。そしてプロセッサ11は、音声発話「秋行く」を「焼き肉」に修正する。
このように、本実施形態の音声認識装置10によれば、ユーザが発話ボタン30を押下してから発声を開始するまでの時間が短く、記録部に記録された音声信号の先頭に欠落が生じたために誤認識してしまった場合でも、高い確率をもって音声発話を修正することができる。したがって、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できるので、認識精度の高い音声認識装置を提供することができる。
また音声認識装置10によれば、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる必要もなくなる。したがって、表示画面を有していない電子機器にも搭載できる上、プロセッサ11の処理負荷が大きくなる懸念もない。

また音声認識装置10のプロセッサ11は、ユーザが発話ボタン30を押下してから発声を開始するまでの時間が所定の閾値時間Tよりも短いときに修正を行い、閾値時間T以上のときには修正を行わない。したがって、ユーザが発話ボタン30を押下してから直ぐに発声したときだけ修正処理を行えばよいので、この点からもプロセッサ11の処理負荷が大幅に増加するようなことはない。
またプロセッサ11は、開始指示を受け付けた第1時刻を取得する第1時刻取得手段と、音声信号の入力が開始された第2時刻を取得する第2時刻取得手段とを備えている。したがって、ユーザが発話ボタン30を押下してから発声を開始するまでの時間を正確に把握できるので、適切な閾値時間Tを設定することで、無駄な修正処理を実施するのを未然に防ぐことができる。
また、認識した音声発話を修正する場合、プロセッサ11は、その音声発話の先頭の単語を、音声発話の2番目以降の単語と繋がりのある他の単語に置き換えて修正する。したがって、修正処理も比較的容易であり短時間で実行できるので、プロセッサ11の処理負荷が大幅に増加して認識速度が低下する懸念もない。
以下、他の実施形態について説明する。
前記実施形態では、プロセッサ11が、図4のAct2にて検知時刻Pを記憶し、Act4にて音声開始時刻Dを記憶した。他の実施形態では、Act1にて発話ボタン30が押下されたことを検知したならば、プロセッサ11がタイマをスタートさせ、Act3にて音データの入力を検知したならば、プロセッサ11がタイマをストップさせる。そしてAct9では、プロセッサ11がタイマの計時時間と閾値時間Tとを比較して、修正処理を行うか否かを判定する。このような構成であっても、前記実施形態と同様な作用効果を奏することができる。
この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]音声入力手段を介して入力された音声信号を記録する記録部と、音声入力の開始指示を受け付ける受付手段と、前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、前記受付手段により前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する判定手段と、前記判定手段により修正すると判定された音声発話を修正する修正手段と、を具備する音声認識装置。
[2]前記判定手段は、前記時間が所定の閾値時間よりも短いとき修正すると判定する、付記[1]記載の音声認識装置。
[3]前記受付手段により前記開始指示を受け付けた第1時刻を取得する第1時刻取得手段と、前記音声入力手段を介して音声信号の入力が開始された第2時刻を取得する第2時刻取得手段と、をさらに具備し、前記判定手段は、前記第1時刻から前記第2時刻までの経過時間が前記閾値時間よりも短いとき修正すると判定する、付記[2]記載の音声認識装置。
[4]前記修正手段は、前記認識手段で認識した音声発話の先頭の単語を、前記音声発話の2番目以降の単語と繋がりのある他の単語に置き換えて修正する、付記[1]乃至[3]のうちいずれか1項記載の音声認識装置。
[5]音声入力の開始指示を受け付け、前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、前記開始指示を受け付けてから前記音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定し、修正する場合、前記認識された音声発話を修正する音声認識方法。
[6]音声入力手段を接続するとともに、前記音声入力手段を介して入力された音声信号を記録する記録部を備えたコンピュータに、音声入力の開始指示を受け付ける機能と、前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する機能と、前記修正すると判定された音声発話を修正する機能と、を実現させるための音声認識プログラム。
10…音声認識装置、11…プロセッサ、12…メインメモリ、13…補助記憶デバイス、14…時計部、19…出力部、20…マイクロフォン、30…発話ボタン、111…押下検知部、112…閾値判定部、113…音声認識部、114……修正部、115…出力制御部、131、131A…単語辞書ファイル、132、132A,132B…言語辞書ファイル。

Claims (6)

  1. 音声入力手段を介して入力された音声信号を記録する記録部と、
    音声入力の開始指示を受け付ける受付手段と、
    前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、
    前記受付手段により前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する判定手段と、
    前記判定手段により修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する修正手段と、
    を具備する音声認識装置。
  2. 前記受付手段により前記開始指示を受け付けた第1時刻を取得する第1時刻取得手段と、
    前記音声入力手段を介して音声信号の入力が開始された第2時刻を取得する第2時刻取得手段と、
    をさらに具備し、
    前記判定手段は、前記第1時刻から前記第2時刻までの経過時間が所定の閾値時間よりも短いとき修正すると判定する、請求項1記載の音声認識装置。
  3. 前記修正手段は、前記認識手段で認識した音声発話の先頭の単語を、前記音声発話の2番目以降の単語と繋がりのある他の単語に置き換えて単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する、請求項1又は2記載の音声認識装置。
  4. 前記修正手段は、前記認識手段で認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と前記音声発話の2番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する、請求項1又は2記載の音声認識装置。
  5. 音声入力の開始指示を受け付け、
    前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、
    前記開始指示を受け付けてから前記音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定し、
    修正する場合、その修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する音声認識方法。
  6. 音声入力手段を接続するとともに、前記音声入力手段を介して入力された音声信号を記録する記録部を備えたコンピュータに、
    音声入力の開始指示を受け付ける機能と、
    前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、
    前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する機能と、
    前記修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する機能と、
    を実現させるための音声認識プログラム。
JP2016180447A 2016-09-15 2016-09-15 音声認識装置、音声認識方法及び音声認識プログラム Active JP6804909B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2016180447A JP6804909B2 (ja) 2016-09-15 2016-09-15 音声認識装置、音声認識方法及び音声認識プログラム
US15/693,427 US10600422B2 (en) 2016-09-15 2017-08-31 Voice recognition device configured to start voice recognition in response to user instruction
CN201710780531.0A CN107833578B (zh) 2016-09-15 2017-09-01 声音识别装置、声音识别方法及计算机可读存储介质
EP17191196.9A EP3296990B1 (en) 2016-09-15 2017-09-14 Voice recognition device, voice recognition method, and voice recognition program
US16/809,476 US11468902B2 (en) 2016-09-15 2020-03-04 Voice recognition device and voice recognition method
JP2020200894A JP6972287B2 (ja) 2016-09-15 2020-12-03 音声認識装置、音声認識方法及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016180447A JP6804909B2 (ja) 2016-09-15 2016-09-15 音声認識装置、音声認識方法及び音声認識プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020200894A Division JP6972287B2 (ja) 2016-09-15 2020-12-03 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2018045123A JP2018045123A (ja) 2018-03-22
JP6804909B2 true JP6804909B2 (ja) 2020-12-23

Family

ID=59887083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016180447A Active JP6804909B2 (ja) 2016-09-15 2016-09-15 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (4)

Country Link
US (2) US10600422B2 (ja)
EP (1) EP3296990B1 (ja)
JP (1) JP6804909B2 (ja)
CN (1) CN107833578B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2020085953A (ja) * 2018-11-16 2020-06-04 トヨタ自動車株式会社 音声認識支援装置及び音声認識支援プログラム
CN111326140B (zh) * 2020-03-12 2023-05-30 科大讯飞股份有限公司 语音识别结果判别方法、纠正方法、装置、设备及存储介质
US20240127825A1 (en) * 2021-10-19 2024-04-18 Validsoft Limited Authentication method and system

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP3870775B2 (ja) 2001-12-12 2007-01-24 松下電器産業株式会社 音声入力方法および音声入力装置
JP2004101963A (ja) * 2002-09-10 2004-04-02 Advanced Telecommunication Research Institute International 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
CN100495535C (zh) * 2003-02-19 2009-06-03 松下电器产业株式会社 语音识别装置及语音识别方法
JP2005309065A (ja) 2004-04-21 2005-11-04 Toshiba Tec Corp 音声認識結果出力装置
JP4544933B2 (ja) 2004-07-29 2010-09-15 東芝テック株式会社 音声メモプリンタ
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
JP5127201B2 (ja) 2006-11-08 2013-01-23 キヤノン株式会社 情報処理装置及び方法並びにプログラム
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
JP4859982B2 (ja) * 2007-07-02 2012-01-25 三菱電機株式会社 音声認識装置
JP2009031328A (ja) * 2007-07-24 2009-02-12 Panasonic Corp 音声認識装置
US8341520B2 (en) * 2007-09-24 2012-12-25 Ghotit Ltd. Method and system for spell checking
JP2009122598A (ja) 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
KR101498622B1 (ko) * 2008-06-25 2015-03-04 엘지전자 주식회사 촉각 효과를 제공하는 휴대 단말기 및 그 제어방법
KR101556522B1 (ko) * 2008-06-27 2015-10-01 엘지전자 주식회사 촉각 효과를 제공하는 휴대 단말기 및 그 제어방법
US8306576B2 (en) * 2008-06-27 2012-11-06 Lg Electronics Inc. Mobile terminal capable of providing haptic effect and method of controlling the mobile terminal
US9460708B2 (en) * 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
WO2010086925A1 (ja) * 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置
JP5160594B2 (ja) * 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置および音声認識方法
US8290772B1 (en) * 2011-10-03 2012-10-16 Google Inc. Interactive text editing
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Also Published As

Publication number Publication date
US11468902B2 (en) 2022-10-11
US20200202870A1 (en) 2020-06-25
CN107833578A (zh) 2018-03-23
EP3296990B1 (en) 2019-04-17
CN107833578B (zh) 2021-11-23
EP3296990A1 (en) 2018-03-21
US20180075850A1 (en) 2018-03-15
JP2018045123A (ja) 2018-03-22
US10600422B2 (en) 2020-03-24

Similar Documents

Publication Publication Date Title
JP6804909B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR102115541B1 (ko) 외부 데이터 소스들을 사용한 스피치 재-인식
US9196247B2 (en) Voice recognition method and voice recognition apparatus
JP4339931B2 (ja) 発話を認識する方法及びシステム
KR20150127712A (ko) 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들
EP1701338A1 (en) Speech recognition method
WO2003025904A1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US9672820B2 (en) Simultaneous speech processing apparatus and method
US8326597B2 (en) Translation apparatus, method, and computer program product for detecting language discrepancy
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP6972287B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2008051883A (ja) 音声合成制御方法および装置
JP6527000B2 (ja) 発音誤り検出装置、方法およびプログラム
JP3720595B2 (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
JP3992586B2 (ja) 音声認識用辞書調整装置及び方法
JP4347716B2 (ja) 音声認識サーバ、音声入力システム、及び、音声入力方法
JP2019095526A (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
WO2016143420A1 (ja) 提示装置、提示装置の制御方法、および制御プログラム
JPS6126678B2 (ja)
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
EP3462446A1 (en) Method, device and computer program for speech-to-text conversion
JP2016109735A (ja) 情報処理装置、書き起こし支援方法、及び書き起こし支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201203

R150 Certificate of patent or registration of utility model

Ref document number: 6804909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150