Nothing Special   »   [go: up one dir, main page]

JPH05119792A - Speech recognition device - Google Patents

Speech recognition device

Info

Publication number
JPH05119792A
JPH05119792A JP3281245A JP28124591A JPH05119792A JP H05119792 A JPH05119792 A JP H05119792A JP 3281245 A JP3281245 A JP 3281245A JP 28124591 A JP28124591 A JP 28124591A JP H05119792 A JPH05119792 A JP H05119792A
Authority
JP
Japan
Prior art keywords
voice
urgency
pattern
registered
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3281245A
Other languages
Japanese (ja)
Other versions
JP3119510B2 (en
Inventor
Takashi Ariyoshi
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03281245A priority Critical patent/JP3119510B2/en
Publication of JPH05119792A publication Critical patent/JPH05119792A/en
Application granted granted Critical
Publication of JP3119510B2 publication Critical patent/JP3119510B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To provide the speech recognition device which is improved in speech recognition performance at emergency time without spoiling speech recognition performance at normal time. CONSTITUTION:This speech recognition device is provided with an emergency detecting means 1 which detects emergency from an input speech, an input speech pattern generating means 2 which generates an input speech pattern by analyzing the input speech, a registered speech standard pattern storage means 5 which is stored with plural previously registered speech standard patterns, a matching part 3 which finds the distance of the input speech pattern to each registered speech standard pattern by matching the input speech pattern with the registered speech standard patterns, and a recognition discrimination means 4 which discriminates the recognition result according to the pattern-to- pattern distance; and the speech recognizing process is performed corresponding to the emergency of the input speech detected by the emergency detecting means 1.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、発声の緊急性を検出し
てその緊急性に応じて認識処理を変更する技術に係り、
特に音声による指示の内で緊急停止等の緊急性のある指
示が含まれる音声認識アプリケーション(機械、車両、
及び、これらのシミュレーションシステム、ゲーム等)
に利用される音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for detecting urgency of utterance and changing recognition processing according to the urgency,
In particular, voice recognition applications (machines, vehicles, etc.) that include urgent instructions such as emergency stop among voice instructions.
And these simulation systems, games, etc.)
The present invention relates to a voice recognition device used in.

【0002】[0002]

【従来の技術】音声認識装置の実用化において、発声変
動がしばしば問題になっている。この発声変動の周知の
ものとしては、例えば、音声の経時変化、騒音下の発声
変動(ロンバード効果)、発声様式(孤立発声の単語と
連続発声中の単語)の違いによる変動、発声時の話者の
感情の違いによる変動等がある。このような発声変動に
より登録時の音声と実際の認識時の音声とに違いが生
じ、音声認識処理を行う上で問題となっている。
2. Description of the Related Art In practical use of a voice recognition device, utterance variation is often a problem. Known utterance variations include, for example, temporal changes in voice, utterance variations under noise (Lombard effect), variations due to differences in utterance styles (isolated utterance words and continuous utterance words), and speech during utterance. There are fluctuations due to differences in emotions of the person. Due to such utterance variation, a difference occurs between the voice at the time of registration and the voice at the time of actual recognition, which is a problem in performing voice recognition processing.

【0003】そこで、音声による指示のうちで緊急停止
等の緊急性のある指示とそうでない平常時のみの指示と
が混在する音声認識アプリケーションを考えてみると、
緊急性のある音声指示は緊急時に行われるため、平常時
に登録された音声に対して大きくなったり、高くなった
り、速くなったりする。したがって、緊急時の音声指示
は平常時の音声指示より認識率が低くなってしまう。
Therefore, considering a voice recognition application in which an urgent instruction such as an emergency stop and an instruction only in normal time are mixed among voice instructions are considered.
Since an urgent voice instruction is given in an emergency, it becomes louder, louder, or faster than a voice registered in normal times. Therefore, the voice instruction in an emergency has a lower recognition rate than the voice instruction in the normal state.

【0004】また、緊急時と平常時とでは認識対象とな
る候補はそれぞれ異なると考えられているが、従来の音
声認識装置にあっては、入力音声に緊急性があるか否か
を判断する機能がないので、緊急時と平常時とで認識対
象となる候補を変更したり、いずれかの候補を認識し易
くしたり、又は、いずれかの候補を認識し難くすること
ができなかった。
Although it is considered that the candidates to be recognized are different in an emergency and in a normal situation, in the conventional voice recognition device, it is determined whether or not the input voice is urgent. Since there is no function, it has not been possible to change the candidate to be recognized in an emergency and in normal times, to make it easier to recognize any candidate, or to make it difficult to recognize any candidate.

【0005】そして、緊急時には、誤認識とリジェクト
とは同様の結果しかもたらさない場合が多いので、リジ
ェクトを中止し、正答率=正答数/試行数を上げる必要
がある。しかし、従来の音声認識装置では、パターンマ
ッチングの第一位の候補の信頼性が低い場合、リジェク
トを行い、正答率を下げても、認識率=正答数/(試行
数−リジェクト数)を上げるようにしているため、緊急
時に対応して正答率を上げることはできなかった。
In an emergency, since misrecognition and reject often give similar results, it is necessary to stop the reject and increase the percentage of correct answers = the number of correct answers / the number of trials. However, in the conventional voice recognition device, when the reliability of the first candidate for pattern matching is low, the recognition rate is increased to the number of correct answers / (the number of trials-the number of rejects) even if the rejection is performed and the correct response rate is decreased. Therefore, it was not possible to increase the correct answer rate in case of emergency.

【0006】さらに、緊急性のある音声指示に対しては
特に正確な認識が要求されるため、従来にあっては、特
に、平常時と緊急時とを混在させて使用する場合、緊急
性のある音声指示には音声認識は適さないというのが一
般的な常識となっていた。
Further, since particularly accurate recognition is required for an urgent voice instruction, in the conventional case, especially when the normal time and the emergency are mixed and used, the It was generally accepted that voice recognition is not suitable for some voice instructions.

【0007】このような問題点を解決し、緊急性のある
音声の認識率を高めた従来技術として、例えば、特公平
2−30039号公報に開示された「音声認識装置」が
ある。これは、入力音声パターンと、重要性(緊急性)
の高い特定登録音声パターン及びその他の重要性の低い
登録音声パターンとの間で類似度を求め、重要性の高い
特定登録音声パターンと入力音声パターンとの類似度に
重み付けを行うことにより、重要性の高い音声に対する
認識率を高めたものである。
As a conventional technique that solves such a problem and improves the recognition rate of urgent voices, there is, for example, a "voice recognition device" disclosed in Japanese Patent Publication No. 2-30039. This is the input voice pattern and the importance (urgency)
Of the specific registered voice pattern with high importance and other registered voice patterns of low importance, and by weighting the similarity between the specific registered voice pattern of high importance and the input voice pattern, The recognition rate for high-quality speech is increased.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、重要性
の高い音声が一位候補に選ばれ易くなった分、その他の
音声は一位候補に選ばれ難くなり、重要性の高くない平
常の音声指示に対する認識率が低くなる。また、重要性
のある音声指示の数は、通常、その他の音声指示より少
ないので、ほぼ全単語に対する認識率も低くなることに
なる。さらに、緊急時と平常時との区別がないので、上
述したような問題点が、常に存在することになる。
However, since voices of high importance are more likely to be selected as first place candidates, other voices are less likely to be selected as first place candidates, and normal voice instructions of low importance are given. Recognition rate is low. Further, since the number of important voice instructions is usually smaller than that of the other voice instructions, the recognition rate for almost all words will be low. Furthermore, since there is no distinction between an emergency and normal times, the above-mentioned problems always exist.

【0009】[0009]

【課題を解決するための手段】請求項1記載の発明で
は、入力音声から緊急性を検出する緊急性検出手段を設
け、前記入力音声を分析して入力音声パターンを生成す
る入力音声パターン生成手段を設け、予め登録された複
数の登録音声標準パターンを記憶する登録音声標準パタ
ーン記憶手段を設け、前記入力音声パターンと前記登録
音声標準パターンとのマッチングを行うことによりこれ
らの各登録音声標準パターンに対する前記入力音声パタ
ーンのパターン間距離を求めるマッチング手段を設け、
前記パターン間距離に基づいて認識結果を判定する認識
判定手段を設けた。
According to a first aspect of the present invention, there is provided urgency detection means for detecting urgency from input voice, and input voice pattern generation means for analyzing the input voice to generate an input voice pattern. And a registered voice standard pattern storage means for storing a plurality of registered voice standard patterns registered in advance, and for each of these registered voice standard patterns by matching the input voice pattern with the registered voice standard pattern. Providing matching means for determining the distance between patterns of the input voice pattern,
A recognition determination means for determining the recognition result based on the distance between the patterns is provided.

【0010】請求項2記載の発明では、請求項1記載の
発明において、入力音声パターン生成手段は、緊急性検
出手段により検出された緊急性に対応して入力音声パタ
ーンを補正する。
According to a second aspect of the invention, in the first aspect of the invention, the input voice pattern generation means corrects the input voice pattern in accordance with the urgency detected by the urgency detection means.

【0011】請求項3記載の発明では、請求項1記載の
発明において、登録音声標準パターン記憶手段は、登録
された各々の登録音声標準パターンに緊急性があるか否
かの緊急性情報を併せて記憶し、マッチング手段は、緊
急性検出手段により検出された緊急性と前記登録音声標
準パターン記憶手段に記憶された前記緊急性情報とに対
応してマッチングを行う。
According to a third aspect of the present invention, in the first aspect of the present invention, the registered voice standard pattern storage means also includes urgency information indicating whether or not each registered voice standard pattern is urgent. The matching means performs matching in correspondence with the urgency detected by the urgency detection means and the urgency information stored in the registered voice standard pattern storage means.

【0012】請求項4記載の発明では、請求項1記載の
発明において、認識判定手段は、緊急性検出手段により
検出された緊急性に対応してリジェクト条件を変更させ
て認識結果を判定する。
According to a fourth aspect of the present invention, in the invention of the first aspect, the recognition determining means determines the recognition result by changing the reject condition in accordance with the urgency detected by the urgency detecting means.

【0013】請求項5記載の発明では、請求項1,2,
3又は4記載の発明において、緊急性検出手段は、緊急
性を示すパラメータとして音声のパワーを検出する。
According to the invention of claim 5, claims 1, 2,
In the invention described in 3 or 4, the urgency detection means detects the power of voice as a parameter indicating the urgency.

【0014】請求項6記載の発明では、請求項1,2,
3又は4記載の発明において、緊急性検出手段は、緊急
性を示すパラメータとして音声のピッチを検出する。
According to the invention of claim 6, claims 1, 2,
In the invention described in 3 or 4, the urgency detection means detects the pitch of the voice as a parameter indicating the urgency.

【0015】請求項7記載の発明では、請求項1,2,
3又は4記載の発明において、緊急性検出手段は、緊急
性を示すパラメータとして音声の発声速度を検出する。
According to the invention of claim 7, claims 1, 2,
In the invention described in 3 or 4, the urgency detection means detects the utterance speed of the voice as a parameter indicating the urgency.

【0016】請求項8記載の発明では、請求項1,2,
3,4,5,6又は7記載の発明において、緊急性検出
手段は、緊急性を示すパラメータとして音声のパワーと
音声のピッチと音声の発声速度とを含む複数のパラメー
タを併用する。
According to the invention described in claim 8, claims 1, 2,
In the invention described in 3, 4, 5, 6 or 7, the urgency detection means uses a plurality of parameters including the power of the voice, the pitch of the voice and the utterance speed of the voice as parameters indicating the urgency.

【0017】[0017]

【作用】請求項1記載の発明においては、緊急性検出手
段にて検出された入力音声の緊急性に対応して音声認識
処理を行うことによって、入力音声パターンを補正して
緊急時の発声変動による認識率の低下を防止することが
可能となり、しかも、緊急性のある音声を緊急時に認識
し易くすることが可能となり、さらに、緊急時にリジェ
クトを少なくして正答率を上げることが可能となり、こ
れにより、平常時の音声認識性能を損なわずに緊急時の
音声認識性能を向上させることが可能となる。
According to the first aspect of the invention, the voice recognition processing is performed in response to the urgency of the input voice detected by the urgency detecting means, thereby correcting the input voice pattern and changing the utterance in an emergency. It is possible to prevent a decrease in recognition rate due to, moreover, it becomes possible to easily recognize an urgent voice in an emergency, and further, it is possible to reduce the rejection in an emergency and increase the correct answer rate, As a result, it becomes possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0018】請求項2記載の発明においては、緊急性検
出手段により入力音声の緊急性を検出し、入力音声の緊
急性に対応して入力音声パターンの補正を行うことによ
って、緊急時の発声変動による認識率の低下を防止する
ことが可能となり、これにより、平常時の音声認識性能
を損なわずに緊急時の音声認識性能を向上させることが
可能となる。
According to the second aspect of the invention, the urgency of the input voice is detected by the urgency detecting means, and the input voice pattern is corrected in accordance with the urgency of the input voice, thereby changing the utterance in an emergency. It is possible to prevent a reduction in the recognition rate due to, and thereby it is possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0019】請求項3記載の発明においては、緊急性検
出手段にて検出された入力音声の緊急性と、登録音声標
準パターン記憶手段に記憶された各々の登録音声標準パ
ターンの緊急性情報とに対応してマッチング手段にてパ
ターン間距離を求めることによって、緊急性のある入力
音声を緊急時に認識し易くすることが可能となり、これ
により、平常時の音声認識性能を損なわずに緊急時の音
声認識性能を向上させることが可能となる。
According to the third aspect of the invention, the urgency of the input voice detected by the urgency detection means and the urgency information of each registered voice standard pattern stored in the registered voice standard pattern storage means are included. Correspondingly, by finding the distance between patterns by the matching means, it becomes possible to easily recognize an urgent input voice in an emergency, and this makes it possible to recognize an emergency voice without impairing the voice recognition performance in normal times. It is possible to improve the recognition performance.

【0020】請求項4記載の発明においては、入力音声
の緊急性に対応して認識結果のリジェクトの条件を変更
させることによって、緊急時にリジェクトを少なくして
正答率を上げることが可能となり、これにより、平常時
の音声認識性能を損なわずに緊急時の音声認識性能を向
上させることが可能となる。
According to the fourth aspect of the present invention, by changing the condition for rejecting the recognition result in accordance with the urgency of the input voice, it is possible to reduce the reject in an emergency and increase the correct answer rate. As a result, it becomes possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0021】請求項5記載の発明においては、音声のパ
ワーを検出することにより、緊急性を的確に捉えること
が可能となる。
According to the fifth aspect of the invention, by detecting the power of the voice, it is possible to accurately grasp the urgency.

【0022】請求項6記載の発明においては、音声のピ
ッチを検出することにより、緊急性を的確に捉えること
が可能となる。
According to the sixth aspect of the invention, the urgency can be accurately grasped by detecting the pitch of the voice.

【0023】請求項7記載の発明においては、音声の発
声速度を検出することにより、緊急性を的確に捉えるこ
とが可能となる。
According to the seventh aspect of the present invention, it is possible to accurately grasp the urgency by detecting the vocalization speed of the voice.

【0024】請求項8記載の発明においては、音声のパ
ワーと音声のピッチと音声の発声速度とを含む複数のパ
ラメータを併用することにより、パラメータが1つの場
合に比べて緊急性をより一層的確に捉えることが可能と
なる。
According to the present invention, a plurality of parameters including the power of the voice, the pitch of the voice, and the utterance speed of the voice are used in combination, so that the urgency can be more accurately determined as compared with the case of one parameter. It becomes possible to capture.

【0025】[0025]

【実施例】本発明の第一の実施例を図1に基づいて説明
する。まず、本実施例の全体構成の概略を図1に基づい
て述べる。音声が入力される図示しないマイクロフォン
の出力側には、緊急性検出手段としての緊急性検出部1
と、入力音声パターン生成手段としての入力音声パター
ン生成部2とが並列に接続されている。この入力音声パ
ターン生成部2の出力側には、マッチング手段としての
マッチング部3、認識判定手段としての認識判定部4が
順次直列に接続されている。また、前記マッチング部3
には、登録音声標準パターン記憶手段としての登録音声
標準パターン記憶部5が接続されている。さらに、前記
緊急性検出部1の出力側は、前記入力音声パターン生成
部2と、前記マッチング部3と、前記認識判定部4とに
並列に接続されている。すなわち、AB間と、AC間
と、AD間とが接続された状態になっている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described with reference to FIG. First, the outline of the overall configuration of this embodiment will be described with reference to FIG. On the output side of a microphone (not shown) to which voice is input, the urgency detection unit 1 as urgency detection means is provided.
And an input voice pattern generation unit 2 as an input voice pattern generation means are connected in parallel. A matching unit 3 as a matching unit and a recognition determining unit 4 as a recognition determining unit are sequentially connected in series to the output side of the input voice pattern generation unit 2. Also, the matching unit 3
A registered voice standard pattern storage unit 5 as a registered voice standard pattern storage means is connected to the. Furthermore, the output side of the urgency detection unit 1 is connected in parallel to the input voice pattern generation unit 2, the matching unit 3, and the recognition determination unit 4. That is, AB, AC, and AD are connected.

【0026】このような構成において、まず、本実施例
で行われる音声認識処理の概略を説明する。緊急性検出
部1にてマイクロフォンから入力された入力音声から緊
急性を検出し、同時に入力音声パターン生成部2にて入
力音声を分析して入力音声パターンを生成する。この入
力音声パターンと登録音声標準パターン記憶部5に予め
登録された複数の登録音声標準パターンとの間でマッチ
ング部3にてマッチングを行うことにより、これらの各
登録音声標準パターンに対する入力音声パターンのパタ
ーン間距離を求める。そして、認識判定部4にてパター
ン間距離に基づいて認識結果を判定する。
In such a structure, first, the outline of the voice recognition processing performed in this embodiment will be described. The urgency detection unit 1 detects urgency from the input voice input from the microphone, and at the same time, the input voice pattern generation unit 2 analyzes the input voice to generate an input voice pattern. The matching unit 3 performs matching between this input voice pattern and a plurality of registered voice standard patterns registered in the registered voice standard pattern storage unit 5 in advance, so that the input voice pattern of each of these registered voice standard patterns is matched. Find the distance between patterns. Then, the recognition determination unit 4 determines the recognition result based on the inter-pattern distance.

【0027】次に、上述した音声認識処理について具体
的に説明する。まず、緊急性検出部1では、マイクロフ
ォンから入力された入力音声から緊急性を検出する。こ
こに、緊急時の入力音声は、平常の音声に対して、大き
くなったり、高くなったり、速くなったりするので、そ
れぞれ、音声のパワー、音声のピッチ、音声の発声速度
を検出することによって、入力音声に緊急性があるか否
かを検出することが可能である。本実施例では緊急性を
示すパラメータとして音声のパワーを用いる。すなわ
ち、1つの入力音声の平均パワーが一定の閾値以上であ
る場合を緊急性あり、それ以外の場合を緊急性なしとす
る。これにより、緊急性を的確に捉えることが可能とな
る。
Next, the above-mentioned voice recognition processing will be specifically described. First, the urgency detection unit 1 detects urgency from the input voice input from the microphone. Here, the input voice in an emergency becomes louder, louder, and faster than normal voice. Therefore, by detecting the power of the voice, the pitch of the voice, and the speaking speed of the voice, respectively. , It is possible to detect whether or not the input voice is urgent. In this embodiment, the power of voice is used as the parameter indicating the urgency. That is, when the average power of one input voice is equal to or higher than a certain threshold, it is urgent, and in other cases, it is not urgent. This makes it possible to accurately grasp the urgency.

【0028】また、入力音声パターン生成部2では、入
力された入力音声に対して音声区間検出処理と音響分析
処理とを行い、音声区間中の音響分析データから入力音
声パターンを生成する。すなわち、周知の処理方法を用
いて、音声区間検出処理は音声のパワーと閾値とを比較
することにより行い、音響分析処理はLPCケプストラ
ム分析により行う。これにより、入力音声パターンのパ
ラメータはLPCケプストラムと音声のパワーとにな
る。但し、緊急性検出部1にて緊急性が検出された場
合、周知の補正方法を用いて入力音声パターンの補正を
行う。すなわち、大声で発声された音声(緊急時の音
声)は、平常時の音声と比べてレベルだけでなく周波数
軸上でも歪を生じることが周知となっており、騒音下で
の発声変動(ロンバード効果)がこれに該当する。この
ような発声変動に起因する入力音声パターンの歪を周知
の補正方法を用いて補正する。
Further, the input voice pattern generation unit 2 performs voice section detection processing and acoustic analysis processing on the input voice input, and generates an input voice pattern from the acoustic analysis data in the voice section. That is, using a known processing method, the voice section detection process is performed by comparing the power of the voice with a threshold value, and the acoustic analysis process is performed by the LPC cepstrum analysis. As a result, the parameters of the input voice pattern are the LPC cepstrum and voice power. However, when the urgency detection unit 1 detects urgency, the input voice pattern is corrected using a known correction method. That is, it is well known that a loud voice (emergency voice) causes distortion not only on the level but also on the frequency axis as compared with the voice in normal times, and the voice fluctuation under noise (Lombard). (Effect) corresponds to this. The distortion of the input voice pattern due to such utterance variation is corrected using a known correction method.

【0029】なお、上述の音声区間検出処理と音響分析
処理とに用いた周知の処理方法については、例えば、
「ディジタル音声処理」、古井著、東海大学出版会等に
記載されている。また、上述の騒音下での発声変動に対
する周知の補正方法については、例えば、「雑音下での
発声変形に対するホルマント移動による補正法の性能評
価」、滝沢他著、音響学会講演論文集、1−8−9、平
成2年9月に記載されている。
The known processing method used for the above-mentioned voice section detection processing and acoustic analysis processing is, for example,
"Digital audio processing", Furui, Tokai University Press, etc. Further, as to the well-known correction method for the above-mentioned voicing variation under noise, for example, “Performance evaluation of the correction method by formant movement for voicing deformation under noise”, Takizawa et al., Proceedings of ASJ, 1- 8-9, September 1990.

【0030】一方、登録音声標準パターン記憶部5に
は、予め登録された複数の登録音声標準パターンを記憶
すると共に、これらの登録音声標準パターンの各々に緊
急性があるか否かの緊急性情報を併せて記憶しておく。
但し、登録音声標準パターンのパラメータは、入力音声
パターンのパラメータと同様にLPCケプストラムと音
声のパワーとである。ここに、登録音声標準パターン記
憶部5に記憶された単語セットと各々の単語の緊急性情
報との一例を表1に示す。
On the other hand, the registered voice standard pattern storage unit 5 stores a plurality of registered voice standard patterns registered in advance, and urgency information indicating whether or not each of these registered voice standard patterns is urgent. Are also stored.
However, the parameters of the registered voice standard pattern are the LPC cepstrum and the power of voice similarly to the parameters of the input voice pattern. Table 1 shows an example of word sets and urgency information of each word stored in the registered voice standard pattern storage unit 5.

【0031】[0031]

【表1】 [Table 1]

【0032】表1に示すように、緊急性が1である停
止、右、左の単語は緊急性があり得て、その他の緊急性
が0である前進、後退、加速、減速の単語は緊急性があ
り得ないように設定されている。なお、表1に示す例で
は、緊急性があるか無いかが1か0の2値で表現されて
いるが、連続量(0から1までの実数)で表現しても同
様に実施可能である。この場合には、緊急性をさらに正
確に検出することが可能となる。
As shown in Table 1, words of stop, right and left with an urgency of 1 may be urgent, and words of forward, backward, acceleration and deceleration with other urgency of 0 are urgent. It is set so that there is no possibility. In the example shown in Table 1, whether there is an urgency or not is expressed by a binary value of 1 or 0, but it can be similarly implemented by expressing it by a continuous amount (a real number from 0 to 1). .. In this case, it becomes possible to detect the urgency more accurately.

【0033】そして、マッチング部3では、入力音声パ
ターン生成部2により得られた入力音声パターンと、登
録音声標準パターン記憶部5に記憶された登録音声標準
パターンとの間で周知のDP(ダイナミックプログラミ
ング)マッチングを行い、各登録音声標準パターンと入
力音声パターンとの間のパターン間距離を求める。但
し、緊急性検出部1で緊急性が検出された場合、登録音
声標準パターン記憶部5に記憶された複数の登録音声標
準パターンの内、緊急性があり得ることを示している登
録音声標準パターンに関しては、入力音声パターンとの
間のパターン間距離が小さくなるように1より小さい定
数を乗じてパターン間距離を補正する。
In the matching section 3, the well-known DP (dynamic programming) is performed between the input voice pattern obtained by the input voice pattern generation section 2 and the registered voice standard pattern stored in the registered voice standard pattern storage section 5. ) Matching is performed to obtain the pattern distance between each registered voice standard pattern and the input voice pattern. However, when urgency is detected by the urgency detection unit 1, a registered voice standard pattern indicating that there is urgency among the plurality of registered voice standard patterns stored in the registered voice standard pattern storage unit 5. With respect to, the inter-pattern distance is corrected by multiplying by a constant smaller than 1 so that the inter-pattern distance to the input voice pattern becomes smaller.

【0034】さらに、認識判定部4では、マッチング部
3で得られたパターン間距離を用いて認識結果を判定す
る。すなわち、最小のパターン間距離と2番目に小さい
パターン間距離との比が1より大きいリジェクト閾値以
上の場合には、最小のパターン間距離を与えた登録音声
標準パターンの音声を認識結果とし、それ以外の場合に
はリジェクトする。但し、緊急性検出部1で緊急性が検
出された場合には、リジェクト閾値を小さくするか、1
に等しくして緊急性のある音声を認識し易くする。
Further, the recognition determination section 4 determines the recognition result using the inter-pattern distance obtained by the matching section 3. That is, when the ratio of the minimum inter-pattern distance to the second-smallest inter-pattern distance is equal to or greater than the reject threshold value greater than 1, the voice of the registered voice standard pattern given the minimum inter-pattern distance is set as the recognition result, and If it is not, reject it. However, when the urgency detection unit 1 detects the urgency, the reject threshold is set to be smaller or 1
To make it easier to recognize urgent voice.

【0035】上述したように、緊急性検出部1にて検出
された入力音声の緊急性に対応して音声認識処理を行う
ことによって、入力音声パターンを補正して緊急時の発
声変動による認識率の低下を防止することが可能とな
り、しかも、緊急性のある音声を緊急時に認識し易くす
ることが可能となり、さらに、緊急時にリジェクトを少
なくして正答率を上げることが可能となり、これによ
り、平常時の音声認識性能を損なわずに緊急時の音声認
識性能を向上させることが可能となる。
As described above, the voice recognition processing is performed in response to the urgency of the input voice detected by the urgency detection unit 1 to correct the input voice pattern and recognize the recognition rate due to the utterance variation in the emergency. It is possible to prevent a decrease in the number of times, moreover, it is possible to easily recognize an urgent voice in an emergency, and further, in an emergency, it is possible to reduce the rejection and increase the correct answer rate. It is possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0036】なお、本実施例では、緊急性を示すパラメ
ータとして音声のパワーを用いたが、上述の音声のピッ
チや音声の発声速度を用いても同様に実施可能である。
ここに、緊急性を示すパラメータとして、音声のピッチ
を用いる場合には、1つの音声のピッチの平均値が一定
の閾値以上であれば緊急性あり、それ以外であれば緊急
性なしとする。この場合、音声のピッチの抽出には、周
知のケプストラム分析による方法が用いられる。このよ
うに、音声のピッチを用いても緊急性を的確に捉えるこ
とが可能となる。
In this embodiment, the power of the voice is used as the parameter indicating the urgency, but the same can be done by using the pitch of the voice and the utterance speed of the voice.
Here, when the pitch of voice is used as the parameter indicating the urgency, the urgency is set if the average value of the pitches of one voice is equal to or more than a certain threshold value, and the urgency is not set otherwise. In this case, a known cepstrum analysis method is used to extract the pitch of the voice. In this way, it is possible to accurately grasp the urgency even by using the pitch of the voice.

【0037】また、緊急性を示すパラメータとして、音
声の発声速度を用いる場合には、音声の発声速度が一定
の閾値以上であれば緊急性あり、それ以外であれば緊急
性なしとする。この場合、音声の発声速度は単位時間当
りのパワーのピークとディップとから求めることが可能
である。このように、音声の発声速度を用いても緊急性
を的確に捉えることが可能となる。但し、緊急性を示す
パラメータとして、発声速度を用いる場合、マッチング
部3のマッチングのパスの制限を変えることによって
も、緊急性のある入力音声の認識を良好なものにするこ
とが可能となる。
When the voice utterance speed is used as a parameter indicating the urgency, the voice utterance speed is urgent if the voice utterance speed is equal to or higher than a certain threshold, and is not urgent otherwise. In this case, the speech production speed of the voice can be obtained from the peak of power per unit time and the dip. In this way, it is possible to accurately grasp the urgency even by using the vocalization speed of the voice. However, when the utterance speed is used as the parameter indicating the urgency, it is possible to improve the recognition of the urgent input voice by changing the restriction of the matching path of the matching unit 3.

【0038】さらに、上述の音声のパワーと、音声のピ
ッチと、音声の発声速度との緊急性を示すパラメータ、
或いは、その他のパラメータを重み付けした後に加算す
ることにより併用することも可能である。このように複
数のパラメータを併用すれば、パラメータが1つの場合
に比べて緊急性をより一層的確に捉えることが可能とな
る。
Further, a parameter indicating the urgency of the above-mentioned voice power, voice pitch, and voice production speed,
Alternatively, the other parameters can be used together by weighting and then adding them. By using a plurality of parameters together in this way, it becomes possible to more accurately capture the urgency as compared with the case where there is one parameter.

【0039】次に、本発明の第二の実施例を図2に基づ
いて説明する。なお、第一の実施例(図1参照)におい
て説明した部分と同一部分については同一符号を用い、
その説明も省略する。本実施例の構成は、図1に示した
第一の実施例の構成と比べて接続状態が異なるものであ
る。すなわち、図2に示すように、緊急性検出部1の出
力側は、入力音声パターン生成部2に接続されている。
また、その接続状態は、AB間のみが接続されており、
図1に示した第一の実施例のようにAC間、AD間が接
続されていない状態になっている。
Next, a second embodiment of the present invention will be described with reference to FIG. The same parts as those described in the first embodiment (see FIG. 1) are designated by the same reference numerals,
The explanation is also omitted. The configuration of this embodiment differs from the configuration of the first embodiment shown in FIG. 1 in the connection state. That is, as shown in FIG. 2, the output side of the urgency detection unit 1 is connected to the input voice pattern generation unit 2.
Also, the connection state is that only AB is connected,
As in the first embodiment shown in FIG. 1, AC and AD are not connected.

【0040】このような構成において、本実施例で行わ
れる音声認識処理を図2に基づいて説明する。まず、緊
急性検出部1では、緊急性を示すパラメータとして音声
のパワーを用いて、図示しないマイクロフォンから入力
された入力音声から緊急性を検出する。すなわち、1つ
の入力音声の平均パワーが一定の閾値以上である場合を
緊急性あり、それ以外の場合を緊急性なしとする。ま
た、入力音声パターン生成部2では、入力音声パターン
のパラメータとしてLPCケプストラムと音声のパワー
とを用い、入力音声に対して音声区間検出処理と音響分
析処理とを行うことにより、音声区間中の音響分析デー
タから入力音声パターンを生成する。但し、緊急性検出
部1にて緊急性が検出された場合、入力音声パターンの
補正を行う。一方、登録音声標準パターン記憶部5に
は、予め登録された複数の登録音声標準パターンを記憶
しておく。この登録音声標準パターンのパラメータは、
入力音声パターンのパラメータと同様にLPCケプスト
ラムと音声のパワーとである。そして、マッチング部3
により、入力音声パターン生成部2にて得られた入力音
声パターンと、登録音声標準パターン記憶部5に記憶さ
れた登録音声標準パターンとの間で周知のDPマッチン
グを行い、各登録音声標準パターンと入力音声パターン
との間のパターン間距離を求める。さらに、認識判定部
4によりマッチング部3で得られたパターン間距離を用
いて認識結果を判定する。すなわち、最小のパターン間
距離を与えた登録音声標準パターンの音声を認識結果と
し、それ以外の音声をリジェクトする。
The voice recognition processing performed in this embodiment in such a configuration will be described with reference to FIG. First, the urgency detection unit 1 detects the urgency from the input voice input from a microphone (not shown) using the power of voice as a parameter indicating the urgency. That is, when the average power of one input voice is equal to or higher than a certain threshold, it is urgent, and in other cases, it is not urgent. In addition, the input voice pattern generation unit 2 uses the LPC cepstrum and the power of voice as parameters of the input voice pattern, and performs the voice segment detection process and the acoustic analysis process on the input voice to obtain the sound in the voice segment. An input voice pattern is generated from the analysis data. However, when the urgency detection unit 1 detects the urgency, the input voice pattern is corrected. On the other hand, the registered voice standard pattern storage unit 5 stores a plurality of registered voice standard patterns registered in advance. The parameters of this registered voice standard pattern are
The LPC cepstrum and the voice power as well as the parameters of the input voice pattern. And the matching unit 3
By this, well-known DP matching is performed between the input voice pattern obtained by the input voice pattern generation unit 2 and the registered voice standard pattern stored in the registered voice standard pattern storage unit 5, and each registered voice standard pattern The inter-pattern distance from the input voice pattern is calculated. Furthermore, the recognition determination unit 4 determines the recognition result using the inter-pattern distance obtained by the matching unit 3. That is, the voice of the registered voice standard pattern given the minimum inter-pattern distance is used as the recognition result, and the other voices are rejected.

【0041】上述したように、入力音声の緊急性に対応
して入力音声パターンの補正を行うことによって、緊急
時の発声変動による認識率の低下を防止することが可能
となり、これにより、平常時の音声認識性能を損なわず
に緊急時の音声認識性能を向上させることが可能とな
る。
As described above, by correcting the input voice pattern in response to the urgency of the input voice, it is possible to prevent the recognition rate from being lowered due to the utterance variation in an emergency. It is possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance of.

【0042】なお、本実施例では、緊急性検出部1の緊
急性を示すパラメータとして音声のパワーを用いたが、
音声のピッチや音声の発声速度を用いても同様に実施可
能である。さらに、音声のパワーと、音声のピッチと、
音声の発声速度との緊急性を示すパラメータ、或いは、
その他のパラメータを重み付けした後に、加算すること
により併用することも可能である。
In this embodiment, the power of voice is used as the parameter indicating the urgency of the urgency detecting section 1.
It is also possible to use the voice pitch and the voice production speed. Furthermore, the power of the voice, the pitch of the voice,
A parameter that indicates the urgency of the speaking rate of the voice, or
It is also possible to use them by adding other parameters after weighting them.

【0043】次に、本発明の第三の実施例を図3に基づ
いて説明する。なお、第一の実施例(図1参照)におい
て説明した部分と同一部分については同一符号を用い、
その説明も省略する。本実施例の構成は、図1に示した
第一の実施例の構成と比べて接続状態が異なるものであ
る。すなわち、図3に示すように、緊急性検出部1の出
力側は、マッチング部3に接続されている。また、その
接続状態は、AC間が接続されており、図1に示した第
一の実施例のようにAB間、AD間が接続されていない
状態になっている。
Next, a third embodiment of the present invention will be described with reference to FIG. The same parts as those described in the first embodiment (see FIG. 1) are designated by the same reference numerals,
The explanation is also omitted. The configuration of this embodiment differs from the configuration of the first embodiment shown in FIG. 1 in the connection state. That is, as shown in FIG. 3, the output side of the urgency detection unit 1 is connected to the matching unit 3. In addition, the connection state is such that AC is connected, and AB and AD are not connected as in the first embodiment shown in FIG.

【0044】このような構成において、本実施例で行わ
れる音声認識処理を図3に基づいて説明する。まず、緊
急性検出部1では、緊急性を示すパラメータとして音声
のパワーを用いて、マイクロフォンから入力された入力
音声から緊急性を検出する。すなわち、1つの入力音声
の平均パワーが一定の閾値以上である場合を緊急性あ
り、それ以外の場合を緊急性なしとする。また、入力音
声パターン生成部2では、入力音声パターンのパラメー
タとしてLPCケプストラムと音声のパワーとを用い
て、入力音声に対して音声区間検出処理と音響分析処理
とを行うことにより、音声区間中の音響分析データから
入力音声パターンを生成する。一方、登録音声標準パタ
ーン記憶部5には、予め登録された複数の登録音声標準
パターンを記憶すると共に、これらの登録音声標準パタ
ーンの各々に緊急性があるか否かの緊急性情報を併せて
記憶しておく。この登録音声標準パターンのパラメータ
は、入力音声パターンのパラメータと同様にLPCケプ
ストラムと音声のパワーとである。そして、マッチング
部3により、入力音声パターン生成部2にて得られた入
力音声パターンと、登録音声標準パターン記憶部5に記
憶された登録音声標準パターンとの間で周知のDPマッ
チングを行い、各登録音声標準パターンと入力音声パタ
ーンとの間のパターン間距離を求める。但し、緊急性検
出部1で緊急性が検出された場合、登録音声標準パター
ン記憶部5に記憶された複数の登録音声標準パターンの
内、緊急性があり得ることを示している登録音声標準パ
ターンに関しては、入力音声パターンとの間のパターン
間距離が小さくなるように1より小さい定数を乗じてパ
ターン間距離を補正する。これにより、緊急性のある入
力音声を認識し易くさせる。さらに、認識判定部4によ
りマッチング部3で得られたパターン間距離を用いて認
識結果を判定する。すなわち、最小のパターン間距離を
与えた登録音声標準パターンの音声を認識結果とし、そ
れ以外の音声をリジェクトする。
The voice recognition processing performed in this embodiment in such a configuration will be described with reference to FIG. First, the urgency detection unit 1 detects the urgency from the input voice input from the microphone by using the power of voice as a parameter indicating the urgency. That is, when the average power of one input voice is equal to or higher than a certain threshold, it is urgent, and in other cases, it is not urgent. In addition, the input voice pattern generation unit 2 uses the LPC cepstrum and the power of voice as parameters of the input voice pattern to perform voice segment detection processing and acoustic analysis processing on the input voice, thereby An input voice pattern is generated from the acoustic analysis data. On the other hand, the registered voice standard pattern storage unit 5 stores a plurality of registered voice standard patterns registered in advance, and also includes urgency information indicating whether or not each of these registered voice standard patterns is urgent. Remember. The parameters of this registered voice standard pattern are the LPC cepstrum and the power of the voice, like the parameters of the input voice pattern. Then, the matching unit 3 performs well-known DP matching between the input voice pattern obtained by the input voice pattern generation unit 2 and the registered voice standard pattern stored in the registered voice standard pattern storage unit 5, The inter-pattern distance between the registered voice standard pattern and the input voice pattern is calculated. However, when urgency is detected by the urgency detection unit 1, a registered voice standard pattern indicating that there is urgency among the plurality of registered voice standard patterns stored in the registered voice standard pattern storage unit 5. With respect to, the inter-pattern distance is corrected by multiplying by a constant smaller than 1 so that the inter-pattern distance to the input voice pattern becomes smaller. This makes it easier to recognize an urgent input voice. Furthermore, the recognition determination unit 4 determines the recognition result using the inter-pattern distance obtained by the matching unit 3. That is, the voice of the registered voice standard pattern given the minimum inter-pattern distance is used as the recognition result, and the other voices are rejected.

【0045】上述したように、入力音声の緊急性と各々
の登録音声標準パターンの緊急性情報とに対応してパタ
ーン間距離を求めているため、緊急性のある入力音声を
緊急時に認識し易くすることが可能となり、これによ
り、平常時の音声認識性能を損なわずに緊急時の音声認
識性能を向上させることが可能となる。
As described above, since the inter-pattern distance is obtained in correspondence with the urgency of the input voice and the urgency information of each registered voice standard pattern, it is easy to recognize the urgent input voice in an emergency. This makes it possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0046】なお、本実施例では、緊急性検出部1の緊
急性を示すパラメータとして音声のパワーを用いたが、
音声のピッチや音声の発声速度を用いても同様に実施可
能である。さらに、音声のパワーと、音声のピッチと、
音声の発声速度との緊急性を示すパラメータ、或いは、
その他のパラメータを重み付けした後に、加算すること
により併用することも可能である。
In this embodiment, the power of voice is used as the parameter indicating the urgency of the urgency detecting section 1.
It is also possible to use the voice pitch and the voice production speed. Furthermore, the power of the voice, the pitch of the voice,
A parameter that indicates the urgency of the speaking rate of the voice, or
It is also possible to use them by adding other parameters after weighting them.

【0047】次に、本発明の第四の実施例を図4に基づ
いて説明する。なお、第一の実施例(図1参照)におい
て説明した部分と同一部分については同一符号を用い、
その説明も省略する。本実施例の構成は、図1に示した
第一の実施例の構成と比べて接続状態が異なるものであ
る。すなわち、図4に示すように、緊急性検出部1の出
力側は、認識判定部4に接続されている。また、その接
続状態は、AD間が接続されており、図1に示した第一
の実施例のようにAB間、AC間が接続されていない状
態になっている。
Next, a fourth embodiment of the present invention will be described with reference to FIG. The same parts as those described in the first embodiment (see FIG. 1) are designated by the same reference numerals,
The explanation is also omitted. The configuration of this embodiment differs from the configuration of the first embodiment shown in FIG. 1 in the connection state. That is, as shown in FIG. 4, the output side of the urgency detection unit 1 is connected to the recognition determination unit 4. In addition, the connection state is such that AD is connected, and AB and AC are not connected as in the first embodiment shown in FIG.

【0048】このような構成において、本実施例で行わ
れる音声認識処理を図4に基づいて説明する。まず、緊
急性検出部1では、緊急性を示すパラメータとして音声
のパワーを用いて、マイクロフォンから入力された入力
音声から緊急性を検出する。すなわち、1つの入力音声
の平均パワーが一定の閾値以上である場合を緊急性あ
り、それ以外の場合を緊急性なしとする。また、入力音
声パターン生成部2では、入力音声パターンのパラメー
タとしてLPCケプストラムと音声のパワーとを用い
て、入力音声に対して音声区間検出処理と音響分析処理
とを行うことにより、音声区間中の音響分析データから
入力音声パターンを生成する。一方、登録音声標準パタ
ーン記憶部5には、予め登録された複数の登録音声標準
パターンを記憶しておく。この登録音声標準パターンの
パラメータは、入力音声パターンのパラメータと同様に
LPCケプストラムと音声のパワーとである。そして、
マッチング部3により、入力音声パターン生成部2にて
得られた入力音声パターンと、登録音声標準パターン記
憶部5に記憶された登録音声標準パターンとの間で周知
のDPマッチングを行い、各登録音声標準パターンと入
力音声パターンとの間のパターン間距離を求める。さら
に、認識判定部4によりマッチング部3で得られたパタ
ーン間距離を用いて認識結果を判定する。すなわち、最
小のパターン間距離を与えた登録音声標準パターンの音
声を認識結果とし、それ以外の音声をリジェクトする。
但し、緊急性検出部1で緊急性が検出された場合には、
リジェクト閾値を小さくするか、1に等しくして緊急性
のある入力音声がリジェクトされ難くすることにより、
緊急時の入力音声の認識率を向上させることが可能とな
る。
The voice recognition processing performed in this embodiment in such a configuration will be described with reference to FIG. First, the urgency detection unit 1 detects the urgency from the input voice input from the microphone by using the power of voice as a parameter indicating the urgency. That is, when the average power of one input voice is equal to or higher than a certain threshold, it is urgent, and in other cases, it is not urgent. In addition, the input voice pattern generation unit 2 uses the LPC cepstrum and the power of voice as parameters of the input voice pattern to perform voice segment detection processing and acoustic analysis processing on the input voice, thereby An input voice pattern is generated from the acoustic analysis data. On the other hand, the registered voice standard pattern storage unit 5 stores a plurality of registered voice standard patterns registered in advance. The parameters of this registered voice standard pattern are the LPC cepstrum and the power of the voice, like the parameters of the input voice pattern. And
The matching unit 3 performs well-known DP matching between the input voice pattern obtained by the input voice pattern generation unit 2 and the registered voice standard pattern stored in the registered voice standard pattern storage unit 5 to obtain each registered voice. The inter-pattern distance between the standard pattern and the input voice pattern is calculated. Furthermore, the recognition determination unit 4 determines the recognition result using the inter-pattern distance obtained by the matching unit 3. That is, the voice of the registered voice standard pattern given the minimum inter-pattern distance is used as the recognition result, and the other voices are rejected.
However, if the urgency detection unit 1 detects urgency,
By reducing the reject threshold or making it equal to 1 to make it more difficult to reject urgent input speech,
It is possible to improve the recognition rate of the input voice in an emergency.

【0049】上述したように、入力音声の緊急性に対応
して認識判定部4のリジェクトの条件を変更させること
によって、緊急時にリジェクトを少なくして正答率を上
げることが可能となり、これにより、平常時の音声認識
性能を損なわずに緊急時の音声認識性能を向上させるこ
とが可能となる。
As described above, by changing the rejection condition of the recognition determination section 4 in accordance with the urgency of the input voice, it is possible to reduce the rejection and increase the correct answer rate in an emergency. It is possible to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0050】なお、本実施例では、緊急性検出部1の緊
急性を示すパラメータとして音声のパワーを用いたが、
音声のピッチや音声の発声速度を用いても同様に実施可
能である。さらに、音声のパワーと、音声のピッチと、
音声の発声速度との緊急性を示すパラメータ、或いは、
その他のパラメータを重み付けした後に、加算すること
により併用することも可能である。
In the present embodiment, the power of voice is used as the parameter indicating the urgency of the urgency detector 1.
It is also possible to use the voice pitch and the voice production speed. Furthermore, the power of the voice, the pitch of the voice,
A parameter that indicates the urgency of the speaking rate of the voice, or
It is also possible to use them by adding other parameters after weighting them.

【0051】[0051]

【発明の効果】請求項1記載の発明は、入力音声から緊
急性を検出する緊急性検出手段を設け、前記入力音声を
分析して入力音声パターンを生成する入力音声パターン
生成手段を設け、予め登録された複数の登録音声標準パ
ターンを記憶する登録音声標準パターン記憶手段を設
け、前記入力音声パターンと前記登録音声標準パターン
とのマッチングを行うことによりこれらの各登録音声標
準パターンに対する前記入力音声パターンのパターン間
距離を求めるマッチング手段を設け、前記パターン間距
離に基づいて認識結果を判定する認識判定手段を設けた
ので、緊急性検出手段にて検出された入力音声の緊急性
に対応して音声認識処理を行うことによって、入力音声
パターンを補正して緊急時の発声変動による認識率の低
下を防止することが可能となり、しかも、緊急性のある
音声を緊急時に認識し易くすることが可能となり、さら
に、緊急時にリジェクトを少なくして正答率を上げるこ
とが可能となり、これにより、平常時の音声認識性能を
損なわずに緊急時の音声認識性能を向上させることがで
きるものである。
According to the present invention, the urgency detecting means for detecting urgency from the input voice is provided, and the input voice pattern generating means for analyzing the input voice to generate the input voice pattern is provided in advance. A registered voice standard pattern storage means for storing a plurality of registered voice standard patterns is provided, and the input voice pattern for each of the registered voice standard patterns is obtained by matching the input voice pattern with the registered voice standard pattern. Since the matching means for determining the inter-pattern distance is provided and the recognition determination means for determining the recognition result based on the inter-pattern distance is provided, a voice corresponding to the urgency of the input voice detected by the urgency detection means is provided. By performing the recognition process, it is possible to correct the input voice pattern and prevent the recognition rate from decreasing due to voice fluctuation in an emergency. In addition, it is possible to easily recognize urgent voices in an emergency, and it is possible to increase the correct answer rate by reducing rejects in an emergency. It is possible to improve the voice recognition performance in an emergency without impairing it.

【0052】請求項2記載の発明は、請求項1記載の発
明において、入力音声パターン生成手段は、緊急性検出
手段により検出された緊急性に対応して入力音声パター
ンを補正するので、緊急時の発声変動による認識率の低
下を防止することができ、これにより、平常時の音声認
識性能を損なわずに緊急時の音声認識性能を向上させる
ことができるものである。
According to a second aspect of the present invention, in the first aspect of the invention, the input voice pattern generating means corrects the input voice pattern in accordance with the urgency detected by the urgency detecting means. It is possible to prevent a decrease in the recognition rate due to the utterance variation, and thereby to improve the voice recognition performance in an emergency without impairing the voice recognition performance in normal times.

【0053】請求項3記載の発明は、請求項1記載の発
明において、登録音声標準パターン記憶手段は、登録さ
れた各々の登録音声標準パターンに緊急性があるか否か
の緊急性情報を併せて記憶し、マッチング手段は、緊急
性検出手段により検出された緊急性と前記登録音声標準
パターン記憶手段に記憶された前記緊急性情報とに対応
してマッチングを行うので、入力音声の緊急性と各々の
登録音声標準パターンの緊急性情報とに対応してマッチ
ング手段にてパターン間距離を求めることによって、緊
急性のある入力音声を緊急時に認識し易くすることがで
き、これにより、平常時の音声認識性能を損なわずに緊
急時の音声認識性能を向上させることができるものであ
る。
According to a third aspect of the present invention, in the first aspect of the present invention, the registered voice standard pattern storage means also includes urgency information indicating whether or not each registered voice standard pattern is urgent. Since the matching means matches the urgency detected by the urgency detection means and the urgency information stored in the registered voice standard pattern storage means, By obtaining the inter-pattern distance by the matching means in correspondence with the urgency information of each registered voice standard pattern, it is possible to easily recognize an urgent input voice in an emergency. The voice recognition performance in an emergency can be improved without impairing the voice recognition performance.

【0054】請求項4記載の発明は、請求項1記載の発
明において、認識判定手段は、緊急性検出手段により検
出された緊急性に対応してリジェクト条件を変更させて
認識結果を判定するので、緊急時にリジェクトを少なく
して正答率を上げることができ、これにより、平常時の
音声認識性能を損なわずに緊急時の音声認識性能を向上
させることができるものである。
According to a fourth aspect of the present invention, in the first aspect of the invention, the recognition determining means determines the recognition result by changing the reject condition corresponding to the urgency detected by the urgency detecting means. In an emergency, the rejection rate can be reduced and the correct answer rate can be increased, whereby the voice recognition performance in an emergency can be improved without impairing the voice recognition performance in normal times.

【0055】請求項5記載の発明は、請求項1,2,3
又は4記載の発明において、緊急性検出手段は、緊急性
を示すパラメータとして音声のパワーを検出するので、
緊急性を的確に捉えることができるものである。
The invention according to claim 5 is the invention as claimed in claims 1, 2, and 3.
Or in the invention described in 4, since the urgency detection means detects the power of voice as a parameter indicating the urgency,
It is possible to accurately grasp the urgency.

【0056】請求項6記載の発明は、請求項1,2,3
又は4記載の発明において、緊急性検出手段は、緊急性
を示すパラメータとして音声のピッチを検出するので、
緊急性を的確に捉えることができるものである。
The invention according to claim 6 is the same as claims 1, 2, and 3.
Or in the invention described in 4, since the urgency detection means detects the pitch of the voice as a parameter indicating the urgency,
It is possible to accurately grasp the urgency.

【0057】請求項7記載の発明は、請求項1,2,3
又は4記載の発明において、緊急性検出手段は、緊急性
を示すパラメータとして音声の発声速度を検出するの
で、緊急性を的確に捉えることができるものである。
The invention according to claim 7 is the invention according to claims 1, 2, and 3.
Alternatively, in the invention described in item 4, the urgency detection means detects the utterance speed of the voice as a parameter indicating the urgency, so that the urgency can be accurately grasped.

【0058】請求項8記載の発明は、請求項1,2,
3,4,5,6又は7記載の発明において、緊急性検出
手段は、緊急性を示すパラメータとして音声のパワーと
音声のピッチと音声の発声速度とを含む複数のパラメー
タを併用するので、パラメータが1つの場合に比べて緊
急性をより一層的確に捉えることができるものである。
The invention described in claim 8 is the same as in claim 1,
In the invention described in 3, 4, 5, 6 or 7, since the urgency detection means uses a plurality of parameters including the power of the voice, the pitch of the voice, and the utterance speed of the voice as the parameter indicating the urgency, The urgency can be grasped more accurately than in the case of one.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第一の実施例を示すブロック回路図で
ある。
FIG. 1 is a block circuit diagram showing a first embodiment of the present invention.

【図2】本発明の第二の実施例を示すブロック回路図で
ある。
FIG. 2 is a block circuit diagram showing a second embodiment of the present invention.

【図3】本発明の第三の実施例を示すブロック回路図で
ある。
FIG. 3 is a block circuit diagram showing a third embodiment of the present invention.

【図4】本発明の第四の実施例を示すブロック回路図で
ある。
FIG. 4 is a block circuit diagram showing a fourth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 緊急性検出手段 2 入力音声パターン生成手段 3 マッチング手段 4 認識判定手段 5 登録音声標準パターン記憶手段 1 urgency detection means 2 input voice pattern generation means 3 matching means 4 recognition determination means 5 registered voice standard pattern storage means

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 入力音声から緊急性を検出する緊急性検
出手段と、前記入力音声を分析して入力音声パターンを
生成する入力音声パターン生成手段と、予め登録された
複数の登録音声標準パターンを記憶する登録音声標準パ
ターン記憶手段と、前記入力音声パターンと前記登録音
声標準パターンとのマッチングを行うことによりこれら
の各登録音声標準パターンに対する前記入力音声パター
ンのパターン間距離を求めるマッチング手段と、前記パ
ターン間距離に基づいて認識結果を判定する認識判定手
段とよりなることを特徴とする音声認識装置。
1. An urgent detection means for detecting urgency from an input voice, an input voice pattern generation means for analyzing the input voice to generate an input voice pattern, and a plurality of registered voice standard patterns registered in advance. Registered voice standard pattern storage means for storing, matching means for obtaining the inter-pattern distance of the input voice pattern with respect to each of these registered voice standard patterns by performing matching between the input voice pattern and the registered voice standard pattern, A voice recognition device comprising a recognition determination means for determining a recognition result based on a distance between patterns.
【請求項2】 入力音声パターン生成手段は、緊急性検
出手段により検出された緊急性に対応して入力音声パタ
ーンを補正することを特徴とする請求項1記載の音声認
識装置。
2. The voice recognition device according to claim 1, wherein the input voice pattern generation means corrects the input voice pattern in response to the urgency detected by the urgency detection means.
【請求項3】 登録音声標準パターン記憶手段は、登録
された各々の登録音声標準パターンに緊急性があるか否
かの緊急性情報を併せて記憶し、マッチング手段は、緊
急性検出手段により検出された緊急性と前記登録音声標
準パターン記憶手段に記憶された前記緊急性情報とに対
応してマッチングを行うことを特徴とする請求項1記載
の音声認識装置。
3. The registered voice standard pattern storage means also stores urgency information indicating whether or not each registered registered voice standard pattern has an urgency, and the matching means detects the urgency detection means. 2. The voice recognition device according to claim 1, wherein matching is performed in correspondence with the urgency that has been recorded and the urgency information stored in the registered voice standard pattern storage means.
【請求項4】 認識判定手段は、緊急性検出手段により
検出された緊急性に対応してリジェクト条件を変更させ
て認識結果を判定することを特徴とする請求項1記載の
音声認識装置。
4. The voice recognition device according to claim 1, wherein the recognition determining means determines the recognition result by changing the reject condition in accordance with the urgency detected by the urgency detecting means.
【請求項5】 緊急性検出手段は、緊急性を示すパラメ
ータとして音声のパワーを検出することを特徴とする請
求項1,2,3又は4記載の音声認識装置。
5. The voice recognition device according to claim 1, 2, 3 or 4, wherein the urgency detection means detects the power of voice as a parameter indicating urgency.
【請求項6】 緊急性検出手段は、緊急性を示すパラメ
ータとして音声のピッチを検出することを特徴とする請
求項1,2,3又は4記載の音声認識装置。
6. The voice recognition device according to claim 1, 2, 3 or 4, wherein the urgency detecting means detects a pitch of voice as a parameter indicating urgency.
【請求項7】 緊急性検出手段は、緊急性を示すパラメ
ータとして音声の発声速度を検出することを特徴とする
請求項1,2,3又は4記載の音声認識装置。
7. The voice recognition device according to claim 1, wherein the urgency detection means detects the utterance speed of the voice as a parameter indicating the urgency.
【請求項8】 緊急性検出手段は、緊急性を示すパラメ
ータとして音声のパワーと音声のピッチと音声の発声速
度とを含む複数のパラメータを併用することを特徴とす
る請求項1,2,3,4,5,6又は7記載の音声認識
装置。
8. The urgentness detecting means uses a plurality of parameters including a power of voice, a pitch of voice, and a utterance speed of voice as a parameter indicating the urgency in combination. , 4, 5, 6 or 7 voice recognition device.
JP03281245A 1991-10-28 1991-10-28 Voice recognition device Expired - Fee Related JP3119510B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03281245A JP3119510B2 (en) 1991-10-28 1991-10-28 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03281245A JP3119510B2 (en) 1991-10-28 1991-10-28 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH05119792A true JPH05119792A (en) 1993-05-18
JP3119510B2 JP3119510B2 (en) 2000-12-25

Family

ID=17636384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03281245A Expired - Fee Related JP3119510B2 (en) 1991-10-28 1991-10-28 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3119510B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001287599A (en) * 2000-04-07 2001-10-16 Kenwood Corp Radio communication apparatus
JP2006138994A (en) * 2004-11-11 2006-06-01 Nissan Motor Co Ltd Voice recognition device
JP2010204637A (en) * 2009-02-03 2010-09-16 Denso Corp Voice recognition apparatus, method for recognizing voice, and navigation apparatus
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
US9230538B2 (en) 2011-04-08 2016-01-05 Mitsubishi Electric Corporation Voice recognition device and navigation device
JP2019078463A (en) * 2017-10-25 2019-05-23 株式会社パロマ Heating cooker
WO2019107170A1 (en) * 2017-11-29 2019-06-06 日本電信電話株式会社 Urgency estimation device, urgency estimation method, and program
WO2020174930A1 (en) * 2019-02-26 2020-09-03 株式会社Preferred Networks Control device, system and control method
JP2020138314A (en) * 2019-02-26 2020-09-03 株式会社Preferred Networks Control apparatus, system and control method
JP2021521569A (en) * 2018-04-13 2021-08-26 ディワートオキン ゲゼルシャフト ミット ベシュレンクテル ハフツング Controller for mobile drive, and how to control the mobile drive

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001287599A (en) * 2000-04-07 2001-10-16 Kenwood Corp Radio communication apparatus
JP2006138994A (en) * 2004-11-11 2006-06-01 Nissan Motor Co Ltd Voice recognition device
JP2010204637A (en) * 2009-02-03 2010-09-16 Denso Corp Voice recognition apparatus, method for recognizing voice, and navigation apparatus
US9230538B2 (en) 2011-04-08 2016-01-05 Mitsubishi Electric Corporation Voice recognition device and navigation device
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
JP2019078463A (en) * 2017-10-25 2019-05-23 株式会社パロマ Heating cooker
WO2019107170A1 (en) * 2017-11-29 2019-06-06 日本電信電話株式会社 Urgency estimation device, urgency estimation method, and program
JPWO2019107170A1 (en) * 2017-11-29 2020-11-26 日本電信電話株式会社 Urgency estimation device, urgency estimation method, program
US11495245B2 (en) 2017-11-29 2022-11-08 Nippon Telegraph And Telephone Corporation Urgency level estimation apparatus, urgency level estimation method, and program
JP2021521569A (en) * 2018-04-13 2021-08-26 ディワートオキン ゲゼルシャフト ミット ベシュレンクテル ハフツング Controller for mobile drive, and how to control the mobile drive
WO2020174930A1 (en) * 2019-02-26 2020-09-03 株式会社Preferred Networks Control device, system and control method
JP2020138314A (en) * 2019-02-26 2020-09-03 株式会社Preferred Networks Control apparatus, system and control method

Also Published As

Publication number Publication date
JP3119510B2 (en) 2000-12-25

Similar Documents

Publication Publication Date Title
EP0691022B1 (en) Speech recognition with pause detection
EP2486562B1 (en) Method for the detection of speech segments
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US20100161334A1 (en) Utterance verification method and apparatus for isolated word n-best recognition result
US5621849A (en) Voice recognizing method and apparatus
JPH05119792A (en) Speech recognition device
JP3069531B2 (en) Voice recognition method
EP0614169B1 (en) Voice signal processing device
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
JPH0756598A (en) Voice sound/voiceless sound discriminating device
JP2003330491A (en) Method, device, and program for voice recognition
JP2996019B2 (en) Voice recognition device
JPH1185190A (en) Device and method for voice recognition
JP2797861B2 (en) Voice detection method and voice detection device
JP3114757B2 (en) Voice recognition device
JP3112037B2 (en) Voice recognition device
JP3091537B2 (en) How to create voice patterns
JP3100180B2 (en) Voice recognition method
JP4391031B2 (en) Voice recognition device
JP2666296B2 (en) Voice recognition device
JPH05249987A (en) Voice detecting method and device
JP2000155600A (en) Speech recognition system and input voice level alarming method
JPH0635495A (en) Speech recognizing device
JPH0950292A (en) Voice recognition device
JP3063856B2 (en) Finding the minimum value of matching distance value in speech recognition

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071013

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081013

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081013

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091013

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees