JPS5855993A - Voice data input unit - Google Patents
Voice data input unitInfo
- Publication number
- JPS5855993A JPS5855993A JP56153694A JP15369481A JPS5855993A JP S5855993 A JPS5855993 A JP S5855993A JP 56153694 A JP56153694 A JP 56153694A JP 15369481 A JP15369481 A JP 15369481A JP S5855993 A JPS5855993 A JP S5855993A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- voice data
- input
- manually
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
本発明は音声鍵、音声リモコンなどにおいて確実に間違
いなく音声暗号を認識し入力するための方法及び装置に
関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a method and apparatus for reliably and correctly recognizing and inputting voice codes in voice keys, voice remote controls, and the like.
従来音声を認識して千−をON10 F Fするシステ
ムにおいて最も離しいとされている点は誤認識の問題で
ある。一般にこれらのシステムは使用者がある特定のキ
ーワードを発声してこれを認識するが、誤つて認識した
場合、使用者は一体どこの部分のデータ人力が不適当だ
ったか理解できないまま再度頭からキーワードを人力し
なければならず、時間的にもむだが多かったO
本発明の目的は上記した従来技術の欠点をなくシ、関連
になく確実に音声データを入力するための音声データ入
力装置を提供するにある。The problem with conventional systems that recognize voices and turn them on is the problem of erroneous recognition. Generally, these systems recognize a specific keyword when the user utters it, but if the recognition is made by mistake, the user can re-read the keyword from the beginning without understanding where the data input was inappropriate. The object of the present invention is to eliminate the above-mentioned drawbacks of the prior art and to provide an audio data input device for reliably inputting audio data without any unrelated information. There is something to do.
本発明の特徴は複数の要素からなる音声データを装置側
のタイミング信号に同期して1要素ずつ入力し、1要素
のデータを入力するごとに音声l!1m@路で判断した
結果を利用者に知らせることにより、間違いなく確実に
音声データを人力できる点である。The feature of the present invention is that audio data consisting of a plurality of elements is inputted one element at a time in synchronization with a timing signal on the device side, and each time one element of data is inputted, the audio data is inputted! By notifying the user of the results determined at 1m@road, the voice data can be reliably input manually.
第1図は、本発明による音声データ人力装置 。FIG. 1 shows a voice data human power device according to the present invention.
の一実施例のブロック図である。FIG. 2 is a block diagram of an embodiment of the present invention.
16はタイミング信号発生回路で、本実施例においては
信号は例えば“ピッ“という音な用い増幅器18を介し
てスピーカ120より発生される012はマイク19よ
り人力された音声データの要素を分析、認識するための
音声分析11g鎗回路である。13は音声分析認識回路
12によって認識された内容を音声で知らせるための音
声合成回路である。16 is a timing signal generation circuit, and in this embodiment, the signal is a "beep" sound, for example. The signal 012 is generated from a speaker 120 via an amplifier 18, and analyzes and recognizes the elements of audio data input manually from a microphone 19. This is a speech analysis 11g spear circuit. Reference numeral 13 denotes a speech synthesis circuit for notifying the contents recognized by the speech analysis and recognition circuit 12 by voice.
音声データは例えば数字で5512(さん、ご。For example, the voice data is a number 5512 (san, go, etc.).
いも−に)とする0この4つの数字の要素からなる音声
のデータを人力する場合のシステムの70−を第2図に
示す図中、左側は使用者側の作業、右側は装置側の作業
を示す。音声入力作業21において5(さん)、5(ご
)、1(いち)2(に)の4つの音声の要素Btっずっ
音声で入力する・人力ざnたデータは音声認識ルーチン
25において判断され、その判断結果は音声合成ルーチ
ン26で音声合一されて使用者側にエコー/f?り22
される。使用者はそのエコーバッタの内容【聴いて判断
し、25正しく判断されてぃいれば再度21に戻つて同
じデータを人力する。Figure 2 shows the system 70- when manually inputting audio data consisting of these four numerical elements, with the left side showing the work on the user's side and the right side showing the work on the device side. shows. In the voice input task 21, the four voice elements of 5 (san), 5 (go), 1 (ichi), and 2 (ni) are input in voice.The human input data is judged in the voice recognition routine 25. , the judgment results are voice-combined in the voice synthesis routine 26 and echoed to the user. ri22
be done. The user listens to the contents of the echo locust and makes a judgment. If the judgment is correct, go back to step 21 and enter the same data manually.
正しく判断されたデータはデータスFアルーチン27に
より、RAM123内にストアされる。Correctly determined data is stored in the RAM 123 by the data storage routine 27.
第5図にデータ入力のタイ之ングを示す。5512(さ
ん、ご、いち、に)のデータ入力において1(いち)の
データの人力が1度で正、しく行なわれなかった場合の
例を示To図中矩形で示、した“ピッ−はタイ電ングの
パルス信号音、丸で囲んだフミは使用声の大刀音声デー
タ、丸で囲まないかなは装置で判断した結果のエコーパ
ック音声合成音である。この例では5.5゜2は正しく
入力され1が1度tp−て2度目の人力で正しく人力さ
れた場合を示している。1度目の1(いち)の音声デー
タ人力34の後に、装置はその内容t−2(に)と誤つ
て認識しこという音声35を合成して出力する。使用者
は認識結果が間違っていることに気付いて再度音声デー
タいち57を入力するが、その前に図中56で示すごと
く使用者は無音状態のブランクを1″′)置く。FIG. 5 shows the tying for data input. In the data input of 5512 (san, go, one, ni), an example is shown in which the manual input of data 1 (one) is not performed correctly at the first time. The pulse signal sound of the Thai Deng, the circled Fumi is the voice data of the voice used, and the not circled Kana are the echo pack voice synthesized sounds determined by the device.In this example, 5.5°2 is This shows a case where 1 is correctly inputted once tp- and then correctly entered manually the second time.After the first input of voice data 34 of 1, the device inputs its contents t-2 (to) The user inputs the voice data 157 again after realizing that the recognition result is incorrect, but before that, as shown at 56 in the figure, the user places a silent blank 1''').
このブランクは、直前に判断された内容は間違っている
ことを意味し、再度音声データの人力からやり直す。こ
のようにして再度1(いち)57を人力し、その結果が
正しく1と判断され合成音声58が出力されれば使用後
は次の音声データ2(に)59を人力する0この様にし
て一連のデータ人力を終え、データ入力終了は、図中5
311に示すような2つ以上のブランク装置くことで装
置に知らせることができる。第1v!iにおいて、MP
U(マイクロプロセッサユニツ))11はROM122
に納められたシステムソフトに従ってシステムをコント
ロールし、必要に応じて認識された音声データの内容も
しくはそれに付随したデータをインターフェイス124
f介シて外部に出力する。MPUには例えば日立製作所
領の4ビットマイクロプロセッサHMC840シリーズ
を用いて構成することができるインターフェイス124
は上記の機能の他に、外部の機器との結合を司る。This blank means that the content determined just before is wrong, and the process is started again manually from the voice data. In this way, manually input 1 (ichi) 57 again, and if the result is correctly judged as 1 and the synthesized voice 58 is output, after use, manually input the next voice data 2 (ni) 59. After completing a series of data input operations, the end of data input is indicated at 5 in the diagram.
The device can be informed by providing two or more blank devices as shown at 311. 1st v! In i, MP
U (microprocessor unit)) 11 is ROM122
The system is controlled according to the system software stored in the interface 124, and the content of the recognized voice data or data accompanying it is transferred to the interface 124 as necessary.
Output to the outside via f. The MPU includes an interface 124 that can be configured using, for example, a 4-bit microprocessor HMC840 series manufactured by Hitachi.
In addition to the above functions, the function also controls connections with external devices.
音声の認識には例えば、PARCOR分析による距離計
算方式を用いる。For example, a distance calculation method based on PARCOR analysis is used for speech recognition.
PARCO&分析のアルゴリズムと手法はよく公知され
ており、ここでは詳述しない0PARCOR分析の結果
音声データが持つ物理パラメータ(PARCOR係数、
ピッチ情報、振幅情報など)が計算される〇
本実施例においては音声のデータは、例えば0〜9まで
の10個の要素で構成され、それらのデータは音声の0
(ぜろ)、1(いち)、2(に)、5(さん)* 4(
t、)、S(ご)、6(ろ<)、7(Lち)、8(けち
)、9(く)で与えられる。これら音声の特徴はPAR
COR係数などnコの物理パラメータで構成されるn次
元空間のベクトルとして表わされ、上記10個の音声の
特徴は、n次元のベクトルのデータとしてROM122
にあらかじめ収納されるかまたは音声データを人力する
に先がけてあらかじめり7アレンスデータ(ぜろ、いち
、に、ざん。The algorithms and methods of PARCO & analysis are well known, and the physical parameters (PARCOR coefficients,
Pitch information, amplitude information, etc.) are calculated. In this embodiment, audio data is composed of 10 elements, for example from 0 to 9, and these data are
(zero), 1 (ichi), 2 (ni), 5 (san) * 4 (
It is given by t, ), S (go), 6 (ro<), 7 (Lchi), 8 (stingy), and 9 (ku). The characteristics of these voices are PAR
It is expressed as a vector in an n-dimensional space composed of n physical parameters such as COR coefficients, and the above 10 audio features are stored in the ROM 122 as n-dimensional vector data.
7 arrangement data (zero, one, two, three) are pre-stored in the computer or recorded in advance before the audio data is manually processed.
し、ご、ろく、シち、はち、くの10個の音声)をマイ
ク19より人力して分析認識回路12で物理パラメータ
を計算しRAM125に収納しておく。The physical parameters are calculated by the analysis recognition circuit 12 by manually inputting the 10 voices (shi, go, roku, shi, hachi, ku) from the microphone 19 and stored in the RAM 125.
従って3(ざん)、5(ご)、1(いち)。Therefore, 3 (zan), 5 (go), 1 (ichi).
2(に)というデータご音声で人力して認識させる場合
には人力した各々の音声の持つ特徴全分析9wt−回路
12で分析し、得られたn次元の物理パラメータのベク
トル−ak(k=0 * 1 *・・・。2 (ni) When the data voice is manually recognized, the features of each human-generated voice are analyzed by the 9wt-circuit 12, and the obtained n-dimensional physical parameter vector -ak (k= 0 * 1 *...
9)と上述のROM122もしくはRAM123にあら
かじめ収納されているり7アレンスのベクトルb (J
−Q、 1 、・・・、9)との距離を求めて0〜9の
いずれに最も近いかを求めることになる。演算はMPU
11によりて行なわれる。具体的演算は次の様になるO
もし、入力された音声データが持つn個のパラメータ(
RARCOR係数など)の値を”J (k =Os 1
* ””9* j−1,2,・・・、n)、用意され
た基準となる音声データの同様のパラメータをbjj(
j=O−1e ”・、9゜1.2.・・・、n)とする
ならば人力されたデータと基準とのデータの距111d
k、lは次の様に表わされる。9) and the vector b (J
-Q, 1, . . . , 9) and find which one of 0 to 9 it is closest to. Calculation is done by MPU
11. The specific calculation is as follows.
If the input audio data has n parameters (
RARCOR coefficient, etc.) is “J” (k = Os 1
* ""9* j-1, 2, ..., n), similar parameters of the prepared reference audio data bjj (
If j=O−1e ”·, 9°1.2...., n), the distance between the manually generated data and the reference data is 111d.
k and l are expressed as follows.
サフィックス、jはnフの物理パラメータを表t)fサ
フィックス、α量はエコの物理ノぐラメータを規格化ま
たは重み付けするための係数である。The suffix, j, represents the physical parameter of nf.t) The f suffix, α amount, is a coefficient for normalizing or weighting the eco physical parameter.
MPU+1は入力された音声データに、=に、の分析結
果tk、に対して式(1)の計算を全てのjの1jにつ
いて行ないそのうちで最も小ざな値を取るI=1.を認
識結果とする。すなわちに+)=j。The MPU+1 calculates the formula (1) for all 1j of the input audio data with respect to the analysis result tk of =, and takes the smallest value of I=1. is the recognition result. In other words, +) = j.
のとき音声データは正しく入力されたことになる。When , the audio data has been input correctly.
音声合成回路15は上記した演算結果j−1Oに従1て
エコーバックの音声を合成して発声する。認識結果は、
第4図に示すような4ビツトのデータとして表現され、
そのデータ【もとにROM122内に収納されている音
声合成のためのアドレスデータ(後述)はデータバス1
25を経て音声合成回路15へと送られる。The voice synthesis circuit 15 synthesizes and utters the echo back voice according to the above calculation result j-1O. The recognition result is
It is expressed as 4-bit data as shown in Figure 4,
The data [address data (described later) originally stored in the ROM 122 for voice synthesis is data bus 1]
25 and is sent to the speech synthesis circuit 15.
音声合成回路13は音声合成部14と音声メモリ部15
から構成されている。音声メモリ部15は、合成すべき
音声(ぜろ、いち、・・・、<)のPARCOR係数、
ピッチ情報、振幅情報などのデータを格納しており、例
えば日立製作所製のHI)58882が用いられる。音
声合成部14はMPU++から音声合成のために必要な
データが収納 4されている音声メモリにおける先頭
アドレスの指定を受け、これに基づいて音声ブロックメ
モリ15から当該データを読取って音声信号を合成する
もので、例えば、日立製作所製の音声合成用のLSIで
あるHD38880が用いられる。The speech synthesis circuit 13 includes a speech synthesis section 14 and a speech memory section 15.
It consists of The voice memory unit 15 stores PARCOR coefficients of voices to be synthesized (zero, one, . . . , <),
It stores data such as pitch information and amplitude information, and uses, for example, HI58882 manufactured by Hitachi. The speech synthesis unit 14 receives from the MPU++ the designation of the start address in the speech memory in which data necessary for speech synthesis is stored, and based on this, reads the data from the speech block memory 15 and synthesizes the speech signal. For example, HD38880, which is an LSI for speech synthesis manufactured by Hitachi, Ltd., is used.
第5図は音声メモリの内容を図式化したちのでるための
データが収納されているブロックの先頭番地(16進数
4クタ)を表わしている。合成された音声はアンプ18
を介してスピーカ120より発声される。FIG. 5 shows the starting address (4 digits in hexadecimal) of a block in which data for displaying the contents of the audio memory is stored. The synthesized voice is sent to the amplifier 18
The voice is emitted from the speaker 120 via the .
以上実施例で示したごとく、本発明による音声人力装置
を用いれば、間違うことなく確実に音声のデータを人力
することができる0なお本実施例においては入力音声デ
ータを認。As shown in the embodiments above, by using the human voice input device according to the present invention, it is possible to input voice data reliably without making any mistakes.In this embodiment, input voice data is recognized.
識した結果を音声合成にてエコーバックする方式につい
て述べているが、これに限ることなく他の手段例えばC
RTディスプレイなトラ用イてもその効果に変りはない
。Although this article describes a method of echoing back the recognized results using speech synthesis, other methods such as C
Even if you use the RT display for tigers, the effect remains the same.
第1図は本発明による音声データ入力装置の構成を示す
図、第2図は本発明による音声データ入力装置の動作の
フローを示す図、第3図は警
音声データの人力のタイ々ングを示す図、第4図は人力
した音声を分析し認識した結果をデータ化する場合のデ
ータのビクFパターンを示す図、第5図は音声データR
OMのアドレスを示す図である。
12・・・音声分析認識回路、
15・・・音声合成回路
16・・・タイ々ング信号発生回路、
21・・・音声入力作業、
22・・・エコーバック、
26・・・音声合成ルーチン。
代理人弁理士 薄 1)利 幸4.−2、才1図
牙 Z 図
2
才 + 図
MSF3 1−3B
才 、デ 目FIG. 1 is a diagram showing the configuration of the voice data input device according to the present invention, FIG. 2 is a diagram showing the operation flow of the voice data input device according to the present invention, and FIG. 3 is a diagram showing the manual timing of police voice data. Figure 4 is a diagram showing the BIC F pattern of data when human-generated voice is analyzed and the recognition results are converted into data, and Figure 5 is voice data R.
It is a figure which shows the address of OM. 12...Speech analysis recognition circuit, 15...Speech synthesis circuit 16...Timing signal generation circuit, 21...Speech input work, 22...Echo back, 26...Speech synthesis routine. Representative Patent Attorney Susuki 1) Yuki Toshi 4. -2, Sai1 Zug Z Figure 2 Sai + Figure MSF3 1-3B Sai, De eyes
Claims (1)
識するための音声認識回路と、開議した結果に従りてそ
の認識内容をエコーバックして使用者に伝えるための手
段と上記音声データの入力と音声合成によるエコーバッ
ク発生のタイミングをとるための信号を発生する回路と
以上の回路を制御するための手段を具備し、音声データ
の発生音が上記エコーバックされた内容を判断して、そ
の内容が人力したデータと興なる場合には再度、データ
を人力し、上記の手順を繰返すことにより確実に音声デ
ータを入力できることを特徴とする音声データ人力装置
。1. A voice recognition circuit for recognizing voice data composed of 11 or more elements, a means for echoing back the recognized content to the user according to the result of the discussion, and the voice data. It is equipped with a circuit for generating a signal for timing the input of the input and the generation of echo back by voice synthesis, and a means for controlling the above circuit, and the generated sound of the voice data is determined based on the content of the echo back. A voice data human-powered device, characterized in that if the content is different from the manually-generated data, the data can be manually input again, and the voice data can be reliably inputted by repeating the above procedure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56153694A JPS5855993A (en) | 1981-09-30 | 1981-09-30 | Voice data input unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56153694A JPS5855993A (en) | 1981-09-30 | 1981-09-30 | Voice data input unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS5855993A true JPS5855993A (en) | 1983-04-02 |
Family
ID=15568085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56153694A Pending JPS5855993A (en) | 1981-09-30 | 1981-09-30 | Voice data input unit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5855993A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6136384A (en) * | 1984-07-30 | 1986-02-21 | Pentel Kk | Double coloring ink |
JPS6338996A (en) * | 1986-08-05 | 1988-02-19 | 沖電気工業株式会社 | Voice recognition control system |
JPS6375798A (en) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | Correction of input voice for voice input/output unit |
-
1981
- 1981-09-30 JP JP56153694A patent/JPS5855993A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6136384A (en) * | 1984-07-30 | 1986-02-21 | Pentel Kk | Double coloring ink |
JPH0542466B2 (en) * | 1984-07-30 | 1993-06-28 | Pentel Kk | |
JPS6338996A (en) * | 1986-08-05 | 1988-02-19 | 沖電気工業株式会社 | Voice recognition control system |
JPS6375798A (en) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | Correction of input voice for voice input/output unit |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1702319B1 (en) | Error detection for speech to text transcription systems | |
JPS5855993A (en) | Voice data input unit | |
JPS6126677B2 (en) | ||
US4790017A (en) | Speech processing feature generation arrangement | |
JPH1124693A (en) | Speech recognition device | |
JPH06175689A (en) | Voice recognition reaction device | |
JP2561553B2 (en) | Standard speaker selection device | |
JP2536896B2 (en) | Speech synthesizer | |
Lazzaro et al. | Silicon models for auditory scene analysis | |
JPH1097270A (en) | Speech recognition device | |
JPS59117632A (en) | Audio input method | |
EP1422691B1 (en) | Method for adapting a speech recognition system | |
JPH02251999A (en) | Production of standard pattern | |
JPH0556519B2 (en) | ||
JP3040430B2 (en) | Voice recognition device | |
JPH04267300A (en) | Voice recognition device with function for noise removal and speaker adaptation | |
JPS6073592A (en) | Speech recognition device for specific speakers | |
JPH02195398A (en) | Speech synthesizing device | |
JPS59123928A (en) | Audio input/output device | |
JPH06324696A (en) | Device and method for speech recognition | |
JPH0437997B2 (en) | ||
JPH0567960B2 (en) | ||
JPS59176791A (en) | Voice registration system | |
JPS62226196A (en) | Reference pattern sequential learning system | |
JPH0119596B2 (en) |