JP4765394B2 - Spoken dialogue device - Google Patents
Spoken dialogue device Download PDFInfo
- Publication number
- JP4765394B2 JP4765394B2 JP2005137803A JP2005137803A JP4765394B2 JP 4765394 B2 JP4765394 B2 JP 4765394B2 JP 2005137803 A JP2005137803 A JP 2005137803A JP 2005137803 A JP2005137803 A JP 2005137803A JP 4765394 B2 JP4765394 B2 JP 4765394B2
- Authority
- JP
- Japan
- Prior art keywords
- music
- volume
- user
- voice
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、ユーザとの情報のやりとりを音声によって行う音声対話装置に関する。 The present invention relates to a voice interactive apparatus that exchanges information with a user by voice.
従来から、音声を入力する音声入力部と、入力された音声を認識する音声認識部と、認識された音声に基づいて、少なくとも上記表示部に表示される内容を変更せしめる制御部と、上記車両の速度を検出する速度検出部上記車両速度に基づいて上記音声入力部から入力された音声のゲインを変更するゲイン変更部と、上記ゲイン変更部により入力音声のゲインが変更される際に、発話の音量を上げる旨の案内を行う報知手段と、を備えた音声対話装置が知られている(例えば、特許文献1参照)。
ところで、この種の音声対話装置では、ユーザの発話音量が不足する場合等には、上述の従来技術のように、所期の認識精度を実現するのに必要な音声レベル(又はS/N比)を確保するために、“音声レベルを大(又は小)としてもう一度発話してください”といったような音声メッセージ等を出力して、話者に再発話を要求する場合がある。 By the way, in this type of voice interactive apparatus, when the user's utterance volume is insufficient, the voice level (or S / N ratio) necessary to realize the desired recognition accuracy as in the above-described conventional technology. ), A voice message such as “Please speak again with a high (or low) voice level” may be output to request the speaker to speak again.
しかしながら、かかる再発話の要求の仕方は、大きな声で話すのに抵抗を感じるユーザに対しては有効といえず、かかるユーザの発話音量の不足を解消すべく所望のレベルまで発話音量を誘導するのが困難であるという問題点がある。 However, this method of requesting recurrent speech is not effective for a user who feels resistance to speaking in a loud voice, and induces the speech volume to a desired level in order to eliminate the shortage of the user's speech volume. There is a problem that it is difficult.
そこで、本発明は、かかるユーザの心理を考慮しつつ、ユーザの発話音量を所望のレベルまで効果的に誘導することができる音声対話装置の提供を目的とする。 Therefore, an object of the present invention is to provide a voice interactive apparatus capable of effectively guiding the user's utterance volume to a desired level in consideration of the user's psychology.
上記課題を解決するため、本発明の一局面によれば、ユーザとの情報のやりとりを音声によって行う音声対話装置であって、ユーザの発話音量が適正なレベルに達している場合に音声認識処理が実施される音声対話装置において、
ユーザからの発話が入力される音声入力手段と、
音声入力手段に入力される発話データに基づいてユーザの発話音量を算出する発話音量算出手段と、
音楽を出力する音楽出力手段と、
前記音楽出力手段を制御する出力制御手段とを備え、
前記出力制御手段は、前記音楽出力手段による音楽の出力を開始又は音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて、ユーザの発話音量が所定の音量より小さい場合は前記音楽出力手段により出力する音楽の音量を大きくし、又は、ユーザの発話音量が所定の音量より大きい場合は前記音楽出力手段により出力する音楽の音量を小さくする態様で、前記音楽出力手段により出力する音楽の音量を調整することを特徴とする、音声対話装置が提供される。
In order to solve the above-described problem, according to one aspect of the present invention, a voice interaction apparatus that performs voice exchange of information with a user, and the voice recognition process when the user's utterance volume has reached an appropriate level In a voice interactive apparatus in which
Voice input means for inputting the utterance from the user;
Utterance volume calculation means for calculating a user's utterance volume based on utterance data input to the voice input means;
Music output means for outputting music;
Output control means for controlling the music output means,
The output control means starts the music output by the music output means or maintains the music output state, and if the user's utterance volume is lower than a predetermined volume according to the calculation result of the user's utterance volume, the music The music output by the music output means in such a manner that the volume of the music output by the output means is increased or the volume of the music output by the music output means is reduced when the user's utterance volume is higher than a predetermined volume. There is provided a voice interactive device characterized by adjusting the volume of the voice.
また、上記の局面において、ユーザとの音声対話のための応答音を出力する応答音出力手段を更に備え、Further, in the above aspect, further comprising response sound output means for outputting a response sound for voice conversation with the user,
前記出力制御手段は、前記音楽出力手段及び前記応答音出力手段を制御し、 The output control means controls the music output means and the response sound output means,
前記出力制御手段は、前記音楽出力手段による音楽の出力を開始又は音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて、更に、前記応答音出力手段により出力する応答音の音量を調整することとしてもよい。 The output control means further starts the output of music by the music output means or maintains the music output state, and further according to the calculation result of the user's utterance volume, the volume of the response sound output by the response sound output means It is good also as adjusting.
上記の各局面において、ユーザの発話音量が所定の音量より小さい場合は、応答音出力手段により出力する応答音の音量を大きくすることとしてよい。ユーザの発話音量が所定の音量より大きい場合は、応答音出力手段により出力する応答音の音量を小さくすることとしてよい。前記出力制御手段による音楽又は応答音の音量の調整は、ユーザの発話中に行われることとしてよい。車室内で使用される場合、前記音楽出力手段は、前記音楽として、ユーザが車載オーディオ装置にセットした音楽CDやDVD等に記録された音楽、又は、予め用意された所定の音楽を、車室内のスピーカを介して出力するものであってよい。
In each aspect described above, when speech volume Yu over THE is smaller than the predetermined volume, good as possible to increase the volume of the response Kotaeon you output by response Kotaeon output means. If speech volume is greater than the predetermined volume users, good as possible to reduce the volume of the response Kotaeon you output by response Kotaeon output means. The volume of the music or response sound by the output control means may be adjusted during the user's speech. When used in a passenger compartment, the music output means uses, as the music, music recorded on a music CD or DVD set by the user in the in-vehicle audio apparatus, or predetermined music prepared in advance. May be output via a speaker.
本発明によれば、ユーザの発話音量を所望のレベルまで効果的に誘導することができる音声対話装置を得ることができる。 According to the present invention, it is possible to obtain a voice interactive apparatus capable of effectively guiding a user's utterance volume to a desired level.
以下、図面を参照して、本発明を実施するための最良の形態の説明を行う。 The best mode for carrying out the present invention will be described below with reference to the drawings.
図1は、本発明による音声対話装置が組み込まれる音声対話システムの一実施例を示すシステム構成図である。音声対話装置10は、対話制御ECU20、車室内の音(音声)を拾う車内マイク(マイクロフォン)30、アンプ42及びスピーカ40を備える。アンプ42及びスピーカ40は、車載オーディオシステムで用いられるものと共通であってよい。
FIG. 1 is a system configuration diagram showing an embodiment of a voice dialogue system in which a voice dialogue apparatus according to the present invention is incorporated. The voice interaction device 10 includes a
対話制御ECU20には、CAN(controller area network)などの適切なバスを介して、車載オーディオシステムが接続される。対話制御ECU20は、後に詳説するように、必要に応じて、車載オーディオシステムからスピーカ40を介して出力される音楽の音量を制御する。
The in-vehicle audio system is connected to the
対話制御ECU20は、その基本的な構成として、バスを介して接続されるCPU、メモリ、A/D(analog−to−digital)変換器を備える。メモリには、以下で説明する音声対話装置10の機能を実現するプログラムやデータが格納される。
The
車内マイク30に入力されるアナログ音声は、マイクアンプにて増幅処理やノイズ除去などの所定処理を受けて、A/D変換器でデジタル形式の音声信号に変換され、対話制御ECU20に送られる。対話制御ECU20は、音声信号から特徴量を抽出し、次いで、所与の音響/言語モデルを用いたマッチング処理により認識結果を得る。対話制御ECU20は、必要に応じて、認識結果に応じた応答音(システム音声)を、アンプ42により所定レベルまで増幅してから、スピーカ40を介して、車室内に出力する。
The analog sound input to the in-
尚、本発明は、特に音声認識方法により限定されるものでなく、如何なるハードウェア構成で如何なるソフトウェア(音声認識エンジン)を用いた音声認識処理に対しても適用可能である。 Note that the present invention is not particularly limited by the speech recognition method, and can be applied to speech recognition processing using any software (speech recognition engine) with any hardware configuration.
図2は、本実施例の音声対話システムにより実現される主要な処理を示すフローチャートである。 FIG. 2 is a flowchart showing main processing realized by the voice interaction system of this embodiment.
ステップ100では、対話制御ECU20は、ユーザとの音声対話の開始前段階を検出し、所定のシステム音声(ガイダンス音声)を出力する。この対話開始前段階とは、例えばユーザがトークスイッチをオンにした際に音声対話が開始されるシステムでは、トークスイッチがオンにされたときであってよく、システム側からユーザに何らかの問い合わせが必要となったときであってもよい。後者の例としては、ナビゲーションシステムとしてユーザに行き先を尋ねるときに、「いきさきはどこですか?」なるシステム音声を、スピーカ40を介して出力する。
In
ステップ100で対話開始前段階が検出されると、対話制御ECU20は、ステップ110として、システム音声ならぬシステム音楽を所定の音量L0で、スピーカ40を介して出力する。システム音楽は、バックグラウンドミュージック(BGM)として適切な素材が選択され、対話制御ECU20のメモリ内に予め用意される。これにより、ユーザは、音声対話装置10がユーザからの発話入力待ち状態に入ったことを聴覚から認識することができると共に、システム音楽が背後に流れることで、リラックスした気持ちで発話を行うことできる(この結果、聞き取りやすい、認識しやすい発話音量が期待できるようになる。)。尚、このシステム音楽は、ユーザによりダウンロード可能であってもよく、複数種の中からユーザにより選択可能とされてもよい。
When the pre-dialogue start stage is detected in
本ステップ110に関して、対話開始前段階が検出されたときに、ユーザが既に車載オーディオシステムにより音楽を聴いている状態である場合は、当該車載オーディオシステムによる音楽CDやDVD等の再生に代えて、上記のシステム音楽を出力してもよいし(即ち、システム音楽への切り替えを行う。)、上記のシステム音楽を出力せず、当該車載オーディオシステムによる音楽CDやDVD等の再生を継続してもよい。後者の場合、車載オーディオシステムから出力される音楽の音量は、そのまま維持されてもよいし、システム音楽の初期出力音量L0と同等のレベルまで低減又は増加されてもよい。以下、車載オーディオシステムにより再生される音楽を、上記システム音楽と区別するため「オーディオ音楽」という。 Regarding this step 110, if the user is already listening to music by the in-vehicle audio system when the pre-dialogue stage is detected, instead of playing the music CD or DVD by the in-vehicle audio system, The system music may be output (that is, switching to system music is performed), or the reproduction of music CD, DVD, or the like by the in-vehicle audio system is continued without outputting the system music. Good. In the latter case, the volume of music output from the in-vehicle audio system may be maintained as it is, or may be reduced or increased to a level equivalent to the initial output volume L0 of system music. Hereinafter, music reproduced by the in-vehicle audio system is referred to as “audio music” in order to distinguish it from the system music.
かかるシステム音楽ないしオーディオ音楽の出力中に(ユーザからの発話の入力待ち状態において)、例えばユーザが「豊田市駅」と答えるなどしてユーザからの発話があると(ステップ120)、発話音量が算出され、発話音量が適正なレベルか否かが判断される(ステップ130)。このとき、車内マイク30に入力されるアナログ音声(又はA/D変換器でデジタル形式の音声信号)から、システム音楽ないしオーディオ音楽の再生信号を差し引くことで(即ち、システム音楽ないしオーディオ音楽の再生信号を、その逆位相を重畳してキャンセルすることで)、車内マイク30に入力される音声に含まれるシステム音楽ないしオーディオ音楽の成分が除去される。これは、システム音声出力中のユーザからの発話を検出するバージイン(割り込み発話)機能と同様の技術を用いて実現されてよい。
When the system music or audio music is being output (in the state of waiting for the user's utterance input), for example, when the user utters by answering "Toyota City Station" (step 120), the utterance volume is increased. It is calculated and it is determined whether or not the speech volume is at an appropriate level (step 130). At this time, the reproduction signal of the system music or the audio music is subtracted from the analog sound (or the digital audio signal by the A / D converter) input to the in-vehicle microphone 30 (that is, the reproduction of the system music or the audio music). By canceling the signal by superimposing its opposite phase), the system music or audio music component contained in the voice input to the in-
次いで、このようにしてシステム音楽ないしオーディオ音楽の成分が除去された音声信号から、発話区間が検出される。発話区間とは、話者の音声部、即ち認識対象の音声が含まれている区間であり、先の例では、「とよたし」という発話に係る発話区間である。発話区間の検出は、如何なる方法で実現されてもよく、例えば特開2004−271607号公報に開示されるような方法が用いられてよい。この場合、発話区間は、ノイズが除去または低減した音声信号に基づいて検出される。これは、音声信号は、フィルタによりノイズが除去または低減することで、無音声部(無発話部)の振幅は極めて小さくなり、発声部(有音声部)の振幅のみが残る状態となり、発話部が無発話部に比して強調されることに基づく。 Next, an utterance period is detected from the audio signal from which the components of the system music or audio music are removed in this way. The utterance section is a section that includes the voice portion of the speaker, that is, the speech to be recognized. In the above example, the utterance section is an utterance section related to the utterance “Toyoyoshi”. The detection of the utterance period may be realized by any method, and for example, a method as disclosed in Japanese Patent Application Laid-Open No. 2004-271607 may be used. In this case, the utterance period is detected based on the audio signal from which noise is removed or reduced. This is because the noise of the voice signal is removed or reduced by the filter, so that the amplitude of the voiceless part (speechless part) becomes extremely small, and only the amplitude of the voiced part (voiced part) remains. Is emphasized compared to the non-speech part.
本ステップ130では、発話区間内の音声量S[dB]が、所定の音量に達しているか否かが判断されてよい。発話区間内の音声量Sは、発話区間内の全区間に亘る音量の平均値として算出されてよい。発話区間内の音声量の算出値は、パワー、音圧等の音の大きさ・強度を表す適正なパラメータを用いて算出されてよく、平均値に代えて、積算値(積分値)、最大値・最小値等が用いられてもよい。
In
或いは、本ステップ130では、発話区間内の音声量S[dB]と、騒音の音量N[dB]との比、即ちS/N比が所定基準を満たしているか否かが判断されてもよい。騒音の音量Nは、発話区間外(即ち無音声部)の音量の平均値として算出されてよい。騒音量の平均値Nは、発声量の平均値Sと同様、パワー、音圧等の音の大きさ・強度を表す適正なパラメータを用いて算出されてよく、平均値に代えて、積算値(積分値)、最大値・最小値等が用いられてもよい。
Alternatively, in this
本ステップ130においてユーザの発話音量が適正なレベルに達していると判断されると、音声認識処理が実施され(ステップ140)、音声認識結果が出力される(ステップ160)。このとき、対話制御ECU20は、必要に応じて、音声認識の確認として、スピーカ40を介して「とよたしえきですね?」なるシステム音声を出力してもよい。この場合、音声対話が継続されることになり、ユーザが「そうです」と答えるなどしてユーザからの返答があると、当該返答に係る発話に対して上記ステップ120の処理から継続されることになる。尚、上記ステップ110の処理により開始されるシステム音楽の出力は、ユーザとの一連の対話が終了するまで継続される。例えば、対話制御ECU20は、先の例で、ユーザの行き先が豊田市駅であると確定し、一連の対話が終了すると、システム音楽の出力の停止を行うと共に(オーディオ音楽の出力をそのまま維持してよい。)、ナビゲーションシステムをして、豊田市駅までのルート案内を実行させる。
If it is determined in
一方、本ステップ130においてユーザの発話音量が適正なレベルに達していないと判断されると、ステップ160の処理に進む。
On the other hand, if it is determined in
ステップ160では、再発話を要求するシステム音声(ガイダンス音声)を出力すると共に、ユーザの発話音量を所望のレベルまで誘導すべく、システム音楽ないしオーディオ音楽の音量を制御する処理が行われる。即ち、対話制御ECU20は、システム音楽ないしオーディオ音楽の音量を増加させる。このとき、適正なレベルに対応する目標音量Ltarget(固定値ないし騒音の音量Nに応じた可変値)まで一気に増加させてもよいが、当該ステップ160を経由する毎に段階的に目標音量Ltargetまで増加させてもよい。いずれの場合であっても、このシステム音楽ないしオーディオ音楽の音量増加は、次のユーザからの発話がなされるまでに完了するようにしてもよく、或いは、ユーザの発話中に徐々に増加させることとしてもよい。尚、システム音楽ないしオーディオ音楽の音量増加は、アンプ42のゲインを制御することで実現される。
In
このように発話を行うユーザの背景音(システム音楽ないしオーディオ音楽)を大きくすることで、ユーザがかかる音楽の音量に負けないような大きな音声で発話するように誘導することができる。これは、人は周囲がうるさいときには大きな声で話す傾向にあるという、ランバード効果を期待するものである。尚、システム音楽ないしオーディオ音楽を大きくしても、上述の如く当該システム音楽ないしオーディオ音楽の成分は音声認識処理により除去されるので、ユーザの発話信号が、このようにして音量が大きくされたシステム音楽ないしオーディオ音楽の音声信号によってマスクされて認識不能となることは無い。 By increasing the background sound (system music or audio music) of the user who speaks in this way, the user can be guided to speak with a loud sound that does not lose the volume of the music. This expects the Lambard effect that people tend to speak loudly when they are noisy. Even if the system music or audio music is increased, the system music or audio music components are removed by the voice recognition processing as described above, so that the user's speech signal is thus increased in volume. It is not masked by the audio signal of music or audio music and cannot be recognized.
本ステップ160において、同様の観点から、再発話を要求するシステム音声についても同様に音量が増加されてもよい。再発話を要求するシステム音声は、例えば一般的な「音声レベルを大としてもう一度発話してください」なるものであってもよいが、ある程度の適合度の認識候補がある場合には「とよはしえきですか?」なるものであってもよい。尚、システム音声の音量増加は、アンプ42のゲインを制御することで実現される。
In this
このようにして再発話を要求し、再びユーザからの発話があった場合には、上記ステップ120以後の処理が繰り返される。
In this way, when a re-utterance is requested and there is an utterance from the user again, the processing after
このように本実施例によれば、音声認識のための発話を行う周辺環境(車室内環境)にシステム音楽ないしオーディオ音楽を流し、ユーザの発話音量が不足しているときは、当該音楽の音量を増加させることで、大きな声で話すのに抵抗を感じるユーザにとっても自然に大きな声で話せる環境を形成することができる。これにより、かかるユーザの発話音量を所望のレベルまで効果的に誘導することができ、音声認識精度が向上し、信頼性の高い態様で音声対話装置とユーザとの音声対話(それに伴う情報のやり取り)を実現することができる。 As described above, according to the present embodiment, when the system music or audio music is played in the surrounding environment (vehicle interior environment) that performs speech for speech recognition, and the volume of the user's speech is insufficient, the volume of the music By increasing the number, it is possible to form an environment in which a user who feels resistance to speaking in a loud voice can speak naturally in a loud voice. Thus, the user's speech volume can be effectively guided to a desired level, the voice recognition accuracy is improved, and the voice dialogue between the voice dialogue device and the user (information exchange associated therewith) is performed with high reliability. ) Can be realized.
また、システムの応答音(例えば、再発話を要求するシステム音声)についても同様に、ユーザの発話音量が不足しているときは、音量を増加させることで、ランバード効果により、大きな声で話すのに抵抗を感じるユーザに対しても効果的に大きな声で発話するよう誘導することが可能となる。 Similarly, for system response sounds (for example, system sounds that require recurrent speech), if the user's utterance volume is insufficient, the loudness can be increased by increasing the volume to speak loudly. It is possible to induce a user who feels resistance to speak effectively and with a loud voice.
尚、本実施例では、通常のシステムとは対照的に、認識精度を高める観点からは、ユーザからの発話待ち状態でオーディオ音楽のような背景音を一時的に小さくすることないが、ユーザに発話待ち状態であることを認識させるために、背景音を一時的に小さくすることが行われてもよい。但し、この場合も、ユーザの発話前までには背景音を、上述の如く適切なレベルまで増加させることが望ましい。 In this embodiment, in contrast to a normal system, from the viewpoint of improving recognition accuracy, background sounds such as audio music are not temporarily reduced in a state of waiting for an utterance from the user. In order to recognize that the user is waiting for an utterance, the background sound may be temporarily reduced. In this case, however, it is desirable to increase the background sound to an appropriate level as described above before the user utters.
また、本実施例では、ユーザの発話音量が不足しているときに、ユーザの発話音量を所望のレベルまで誘導して増加させるべく、システム音楽ないしオーディオ音楽及び/又はシステム音声の音量が制御されているが、逆に、ユーザの発話音量が大きすぎるときに、ユーザの発話音量を所望のレベルまで誘導して減少させるべく、システム音楽ないしオーディオ音楽及び/又はシステム音声の音量を低下させることとしてもよい。 In this embodiment, when the user's speech volume is insufficient, the volume of system music or audio music and / or system sound is controlled so as to induce and increase the user's speech volume to a desired level. On the other hand, when the user's utterance volume is too high, the volume of the system music or audio music and / or the system voice is decreased in order to induce and decrease the user's utterance volume to a desired level. Also good.
また、本実施例において、対話制御ECU20は、車内マイク30を介して入力された音声に対して現在“音声認識中”であることをディスプレイ上に表示するのに代えて又はそれに加えて、所定のシステム音楽を、スピーカ40を介して出力してもよい。これにより、ユーザは、当該所定のシステム音楽を聞けばシステムが現在“音声認識中”であることが分かるので、ディスプレイを見てシステムが現在“音声認識中”であることを確認する必要がなくなる。この場合も同様に、システムが現在“音声認識中”であること知らせるシステム音楽の音量が、ユーザの発話音量を所望のレベルまで誘導すべく制御されてもよい。また、同様の観点から、音声対話装置10の状態、例えば音声入力待ち状態、認識処理状態等に応じて異なるシステム音楽を、スピーカ40を介して出力してもよい。
Further, in this embodiment, the
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the above-described embodiments, and various modifications and substitutions can be made to the above-described embodiments without departing from the scope of the present invention. Can be added.
例えば、上述した実施例では、車室内での対話アプリケーションに関するものであったが、本発明は、特にこれに限定されることはなく、他の環境下での対話アプリケーションに対しても適用可能である。 For example, in the above-described embodiment, the present invention relates to the interactive application in the vehicle interior. However, the present invention is not particularly limited to this, and can be applied to the interactive application in other environments. is there.
10 音声対話装置
20 対話制御ECU
30 車内マイク
40 スピーカ
42 アンプ
10
30 Car
Claims (6)
ユーザからの発話が入力される音声入力手段と、
音声入力手段に入力される発話データに基づいてユーザの発話音量を算出する発話音量算出手段と、
音楽を出力する音楽出力手段と、
前記音楽出力手段を制御する出力制御手段とを備え、
前記出力制御手段は、前記音楽出力手段による音楽の出力を開始又は音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて、ユーザの発話音量が所定の音量より小さい場合は前記音楽出力手段により出力する音楽の音量を大きくし、又は、ユーザの発話音量が所定の音量より大きい場合は前記音楽出力手段により出力する音楽の音量を小さくする態様で、前記音楽出力手段により出力する音楽の音量を調整することを特徴とする、音声対話装置。 In a voice interaction apparatus that performs voice exchange of information with a user, and in which a voice recognition process is performed when the user's utterance volume has reached an appropriate level ,
Voice input means for inputting the utterance from the user;
Utterance volume calculation means for calculating a user's utterance volume based on utterance data input to the voice input means;
Music output means for outputting music;
Output control means for controlling the music output means,
The output control means starts the music output by the music output means or maintains the music output state, and if the user's utterance volume is lower than a predetermined volume according to the calculation result of the user's utterance volume, the music The music output by the music output means in such a manner that the volume of the music output by the output means is increased or the volume of the music output by the music output means is reduced when the user's utterance volume is higher than a predetermined volume. A voice dialogue apparatus characterized by adjusting the volume of the voice.
前記出力制御手段は、前記音楽出力手段及び前記応答音出力手段を制御し、
前記出力制御手段は、前記音楽出力手段による音楽の出力を開始又は音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて、更に、前記応答音出力手段により出力する応答音の音量を調整する、請求項1に記載の音声対話装置。 Response sound output means for outputting a response sound for voice conversation with the user,
The output control means controls the music output means and the response sound output means,
The output control means further starts the output of music by the music output means or maintains the music output state, and further according to the calculation result of the user's utterance volume, the volume of the response sound output by the response sound output means The voice interaction device according to claim 1, wherein the voice interaction device is adjusted.
前記音楽出力手段は、前記音楽として、ユーザが車載オーディオ装置にセットした音楽CDやDVD等に記録された音楽、又は、予め用意された所定の音楽を、車室内のスピーカを介して出力する、音声対話装置。 In the voice interactive apparatus according to any one of claims 1 to 5, which is used in a passenger compartment.
The music output means outputs, as the music, music recorded on a music CD, DVD, or the like set by the user on the in-vehicle audio device, or predetermined music prepared in advance through a speaker in the vehicle interior. Spoken dialogue device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005137803A JP4765394B2 (en) | 2005-05-10 | 2005-05-10 | Spoken dialogue device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005137803A JP4765394B2 (en) | 2005-05-10 | 2005-05-10 | Spoken dialogue device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006317556A JP2006317556A (en) | 2006-11-24 |
JP4765394B2 true JP4765394B2 (en) | 2011-09-07 |
Family
ID=37538310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005137803A Expired - Fee Related JP4765394B2 (en) | 2005-05-10 | 2005-05-10 | Spoken dialogue device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4765394B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11276404B2 (en) | 2018-09-25 | 2022-03-15 | Toyota Jidosha Kabushiki Kaisha | Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021074202A (en) | 2019-11-07 | 2021-05-20 | ソニー株式会社 | Autonomous mobile body, information processing method, program, and information processing device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0536500U (en) * | 1991-10-18 | 1993-05-18 | 株式会社ケンウツド | Voice recognition device for in-vehicle audio equipment |
JP2001236090A (en) * | 2000-02-22 | 2001-08-31 | Alpine Electronics Inc | Voice input device |
JP3903410B2 (en) * | 2000-06-01 | 2007-04-11 | 三菱電機株式会社 | Voice input control system |
JP2003345387A (en) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | Sound controller and acoustic device |
-
2005
- 2005-05-10 JP JP2005137803A patent/JP4765394B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11276404B2 (en) | 2018-09-25 | 2022-03-15 | Toyota Jidosha Kabushiki Kaisha | Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program |
Also Published As
Publication number | Publication date |
---|---|
JP2006317556A (en) | 2006-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348595B2 (en) | Voice interface and vocal entertainment system | |
JP4333369B2 (en) | Noise removing device, voice recognition device, and car navigation device | |
EP1901282B1 (en) | Speech communications system for a vehicle | |
CN109389990B (en) | Method, system, vehicle and medium for enhancing voice | |
WO2020171868A1 (en) | End-to-end speech conversion | |
EP3002754A1 (en) | System and method for processing an audio signal captured from a microphone | |
CN111489750B (en) | Sound processing apparatus and sound processing method | |
US20030061049A1 (en) | Synthesized speech intelligibility enhancement through environment awareness | |
US20080249779A1 (en) | Speech dialog system | |
JP2006227499A (en) | Device for speech recognition | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
WO2020223304A1 (en) | Speech dialog system aware of ongoing conversations | |
KR20200141253A (en) | Vehicle and controlling method of vehicle | |
JP3877271B2 (en) | Audio cancellation device for speech recognition | |
JP2016061888A (en) | Speech recognition device, speech recognition subject section setting method, and speech recognition section setting program | |
JP5301037B2 (en) | Voice recognition device | |
JP4765394B2 (en) | Spoken dialogue device | |
JPH06236196A (en) | Method and device for voice recognition | |
CN110942770B (en) | Voice recognition device, voice recognition method, and non-transitory computer-readable medium storing voice recognition program | |
JP3822397B2 (en) | Voice input / output system | |
KR20220091151A (en) | Active noise control apparatus and method of controlling the same | |
JP4924652B2 (en) | Voice recognition device and car navigation device | |
JP7474548B2 (en) | Controlling the playback of audio data | |
JPH11109987A (en) | Speech recognition device | |
JP2003114697A (en) | Method and device for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |