JP2017090612A - Voice recognition control system - Google Patents
Voice recognition control system Download PDFInfo
- Publication number
- JP2017090612A JP2017090612A JP2015219113A JP2015219113A JP2017090612A JP 2017090612 A JP2017090612 A JP 2017090612A JP 2015219113 A JP2015219113 A JP 2015219113A JP 2015219113 A JP2015219113 A JP 2015219113A JP 2017090612 A JP2017090612 A JP 2017090612A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- person
- unit
- acoustic model
- control system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
Description
本発明は、車両乗員の音声で車載装置を制御する音声認識制御システムに関する。 The present invention relates to a voice recognition control system for controlling an in-vehicle device with a voice of a vehicle occupant.
従来、音声コマンドを用いて車載装置を制御できるようにした音声認識制御システムが開発されている。すなわち、車両の乗員の音声を入力信号として、各種車載装置(カーナビゲーション装置,エアコン装置,カーオーディオ装置など)の作動状態を制御するものである。一般に、発話された音声は音響モデル(音の波形サンプルと音素との対応関係が規定されたモデル)に基づいて解析され、言語モデル(音素の連なり方が規定されたモデル)に基づいてその意味内容が認識される(特許文献1参照)。このような音声認識技術を利用することで、車載装置をハンズフリーで操作することが可能となる。 2. Description of the Related Art Conventionally, a voice recognition control system that can control an in-vehicle device using a voice command has been developed. That is, the operation state of various in-vehicle devices (car navigation device, air conditioner device, car audio device, etc.) is controlled using the voice of the vehicle occupant as an input signal. In general, spoken speech is analyzed based on an acoustic model (a model in which the correspondence between sound waveform samples and phonemes is specified), and based on a language model (a model in which phonemes are connected) The contents are recognized (see Patent Document 1). By using such a voice recognition technology, it is possible to operate the vehicle-mounted device in a hands-free manner.
ところで、上記の音響モデルや言語モデルは、標準話者の音声に基づいて作成される。一方、実際の音声には、発話者の発声器官の構造や発声法,社会的環境(方言,イントネーション)などによる音響的な変動(周波数変動,波形変動)が含まれており、必ずしも標準話者の音声と共通する特徴を持たない。そのため、標準的なモデルを用いたのでは、十分な音声認識精度が得られないことがある。特に、車両の音声認識制御システムにおいては、常に同一の人物が車両に搭乗するとは限らないため、音声認識精度や各種車載装置の制御性が低下しやすい。 By the way, the above acoustic model and language model are created based on the voice of a standard speaker. On the other hand, the actual speech includes acoustic fluctuations (frequency fluctuations, waveform fluctuations) due to the structure of the vocal organs of the speaker, the vocalization method, the social environment (dialect, intonation), etc. It does not have the same characteristics as the voice. Therefore, sufficient speech recognition accuracy may not be obtained using a standard model. In particular, in a vehicle voice recognition control system, the same person does not always get on the vehicle, so that the voice recognition accuracy and the controllability of various in-vehicle devices are likely to deteriorate.
本件の目的の一つは、上記のような課題に鑑みて創案されたものであり、車両乗員の音声認識精度を高めた音声認識制御システムを提供することである。なお、この目的に限らず、後述する「発明を実施するための形態」に示す各構成から導き出される作用効果であって、従来の技術では得られない作用効果を奏することも、本件の他の目的として位置付けることができる。 One of the objects of the present case was invented in view of the above-described problems, and is to provide a voice recognition control system that improves the voice recognition accuracy of a vehicle occupant. It should be noted that the present invention is not limited to this purpose, and is an operational effect that is derived from each configuration shown in “Mode for Carrying Out the Invention” to be described later. Can be positioned as a purpose.
(1)ここで開示する音声認識制御システムは、車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムである。本システムは、少なくとも前記音声に基づき、前記音声を発した人物を特定する特定部を備える。また、前記特定部で特定された前記人物に応じた音響モデルを選択する選択部と、前記選択部で選択された前記音響モデルを用いて前記音声を認識する認識部とを備える。 (1) The voice recognition control system disclosed here is a voice recognition control system that controls an in-vehicle device using a voice of a vehicle occupant as an input signal. The system includes a specifying unit that specifies a person who has emitted the sound based on at least the sound. A selection unit configured to select an acoustic model corresponding to the person specified by the specifying unit; and a recognition unit configured to recognize the voice using the acoustic model selected by the selection unit.
前記認識部が、前記特定部で特定された前記人物に対応する音響モデルを用いて、前記人物の音声を認識することが好ましい。また、前記特定部が、前記音声が発話された位置(発話位置)と、前記位置に存在する前記人物とを特定することが好ましい。なお、前記音響モデルには言語モデルが含まれることが好ましい。 It is preferable that the recognition unit recognizes the voice of the person using an acoustic model corresponding to the person specified by the specifying unit. Moreover, it is preferable that the said specific | specification part pinpoints the position (speaking position) where the said voice was uttered, and the said person who exists in the said position. The acoustic model preferably includes a language model.
(2)車室内の画像を撮影する室内カメラを備え、前記特定部が、前記音声と前記画像とを用いて、前記音声を発した人物を特定することが好ましい。
(3)前記特定部が、前記人物の口唇の動きと前記音声のタイミングとの比較により、前記人物を特定することが好ましい。
(4)前記音声を用いて、前記特定部で特定された前記人物に対応する音響モデルを作成するデータ更新部を備えることが好ましい。
(5)前記特定部で特定された前記人物と前記認識部で認識された制御対象とが対応する場合に、前記制御対象を制御する制御部を備えることが好ましい。
(2) It is preferable to provide an indoor camera that captures an image of the interior of the vehicle, and the specifying unit specifies the person who has emitted the sound using the sound and the image.
(3) It is preferable that the specifying unit specifies the person by comparing the movement of the lips of the person and the timing of the voice.
(4) It is preferable to provide a data updating unit that creates an acoustic model corresponding to the person specified by the specifying unit using the voice.
(5) It is preferable that a control unit that controls the control target is provided when the person specified by the specifying unit corresponds to the control target recognized by the recognition unit.
特定部で特定された人物に応じた音響モデルを選択することで、複数の乗員が搭乗しうる車室内における音声認識精度を向上させることができる。 By selecting an acoustic model corresponding to the person specified by the specifying unit, it is possible to improve the voice recognition accuracy in the passenger compartment where a plurality of passengers can board.
図面を参照して、実施形態としての音声認識制御システムについて説明する。なお、以下に示す実施形態はあくまでも例示に過ぎず、以下の実施形態で明示しない種々の変形や技術の適用を排除する意図はない。本実施形態の各構成は、それらの趣旨を逸脱しない範囲で種々変形して実施することができる。また、必要に応じて取捨選択することができ、あるいは適宜組み合わせることができる。 A speech recognition control system as an embodiment will be described with reference to the drawings. Note that the embodiment described below is merely an example, and there is no intention to exclude various modifications and technical applications that are not explicitly described in the following embodiment. Each configuration of the present embodiment can be implemented with various modifications without departing from the spirit thereof. Further, they can be selected as necessary, or can be appropriately combined.
[1.装置構成]
本実施形態の音声認識制御システムは、図1に示す車両10に適用される。車両10の車室内には運転席14,助手席15が設けられ、車室前方側にはインパネ(インストルメントパネル,ダッシュボード)が配置される。インパネの車室側に面した部分のうち、運転席14の前方にはステアリング装置や計器類が配置され、助手席15の前方にはグローブボックスが配置される。また、インパネの車幅方向中央には、カーナビ機能やAV機能などのユーザーインターフェースを集約して提供するマルチコミュニケーション型のディスプレイ装置16が搭載される。ディスプレイ装置16の位置は、運転席14に座る運転手の視点では左斜め前方であり、助手席15に座る乗員の視点では右斜め前方である。
[1. Device configuration]
The voice recognition control system of this embodiment is applied to the
ディスプレイ装置16は、タッチパネルを備えた汎用の映像表示装置(表示画面)とCPU(Central Processing Unit),ROM(Read Only Memory),RAM(Random Access Memory)などを含む電子制御装置(コンピューター)とを備えた電子デバイスである。ディスプレイ装置16は、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,マルチメディアシステムなどの車載装置に接続されて、各種車載装置の入出力装置として機能しうる。例えば、ナビゲーション装置11から提供される目的地までの経路情報や地図情報,渋滞情報などは、このディスプレイ装置16の表示画面に表示可能とされる。また、このディスプレイ装置16の表示画面には、車載の地上デジタル放送チューナーで受信した番組や、DVD映像コンテンツ,リアビューカメラで撮影された映像,エアコン装置12やカーオーディオ装置13の操作用インターフェースといった、多様な視覚情報が再生,表示可能である。
The
また、車両10には、乗員の音声を入力信号として各種車載装置を制御する音声認識制御装置1が搭載される。音声認識制御装置1は、CPU,MPU(Micro Processing Unit)などのプロセッサとROM,RAM,不揮発メモリなどを集積した電子デバイス(ECU,電子制御装置)である。ここでいうプロセッサとは、例えば制御ユニット(制御回路)や演算ユニット(演算回路),キャッシュメモリ(レジスタ)などを内蔵する処理装置(プロセッサ)である。また、ROM,RAM及び不揮発メモリは、プログラムや作業中のデータが格納されるメモリ装置である。音声認識制御装置1で実施される制御の内容は、ファームウェアやアプリケーションプログラムとしてROM,RAM,不揮発メモリ,リムーバブルメディア内に記録される。また、プログラムの実行時には、プログラムの内容がRAM内のメモリ空間内に展開され、プロセッサによって実行される。
In addition, the
図2に示すように、音声認識制御装置1には、入力装置としてのマイクアレイ21及び室内カメラ22が接続される。マイクアレイ21は、複数のマイクロフォンを所定の配列に並べた音声入力装置であり、室内カメラ22は車室内全体を撮影可能な広角ビデオカメラである。一方、出力装置としては、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,ディスプレイ装置16などが接続される。音声認識制御装置1は、マイクアレイ21から入力された音声と室内カメラ22で撮影された画像とに基づいて、各種車載装置を制御する。
As shown in FIG. 2, a
[2.制御構成]
音声認識制御装置1は、音声を発した人物を識別し、その人物に適した音響モデルを用いて音声内容を識別する機能を持つ。例えば、車両10に誰かが乗車すると、乗車した人物が誰であるのかを認識し、その人物が着座した位置を記憶する。また、車室内で誰かが音声を発したときには、その音声を発した人物が誰であるのかを特定し、その人物に対応する音響モデルを用いてその音声を認識する。音声の特徴が異なる人物には、異なる音響モデルが適用される。なお、ここでいう音響モデルには、言語モデルが含まれるものとする。
[2. Control configuration]
The voice
上記の制御を実施するための要素として、音声認識制御装置1には、特定部2,選択部3,認識部4,データベース5,制御部6が設けられる。これらは、音声認識制御装置1で実行されるプログラムの一部の機能を示すものであり、ソフトウェアで実現されるものとする。ただし、各機能の一部又は全部をハードウェア(電子制御回路)で実現してもよく、あるいはソフトウェアとハードウェアとを併用して実現してもよい。
As elements for performing the above control, the speech
データベース5は、音声認識に関する総合的な各種データが記録,保存されたストレージ装置である。ここには、音声認識で用いられる多数の音響モデルが、その音響モデルに対応する人物と関連づけられた状態で記録,保存される。データベース5が持っている音響モデルの一つは、標準話者の音声に基づいて予め作成されたものである。他の音響モデルは、標準話者以外の人物の音声に基づいて作成,学習,更新されるものであり、車両10に搭乗する各々の乗員について各音声を認識するのに適した(最適化された)ものとされる。例えば、入力された音声の特徴(例えば、音響スペクトル)が標準話者の音声の特徴から大きく離れている場合には、入力された音声に対応する新たな音響モデルが作成され、その音声の認識結果に基づいて音響モデルが学習,更新される。 The database 5 is a storage device in which various general data relating to speech recognition are recorded and stored. Here, a large number of acoustic models used in speech recognition are recorded and stored in a state associated with a person corresponding to the acoustic model. One of the acoustic models possessed by the database 5 is created in advance based on the voice of a standard speaker. Other acoustic models are created, learned, and updated based on the voice of a person other than the standard speaker, and are suitable for recognizing each voice for each occupant on the vehicle 10 (optimized). ) For example, if the input speech features (for example, the acoustic spectrum) are far from the standard speaker speech features, a new acoustic model corresponding to the input speech is created and the speech is recognized. The acoustic model is learned and updated based on the result.
特定部2は、少なくともマイクアレイ21から入力された音声に基づき、その音声を発した人物を特定するものである。人物の特定手法としては、音声が検出された時点でリアルタイムに特定する手法と、車両10に誰かが乗車したときにその人物と着座位置との関係を把握しておき、検出された音声の音源位置に基づいて人物を特定する手法とが挙げられる。
The identifying
前者の場合、音声中に含まれる波形パターンや周波数パターン,声紋パターンなどに基づいて人物を特定することが可能である。あるいは、室内カメラ22で撮影された画像中から人間の顔を抽出し、口唇の動きと音声のタイミングとが一致する人物を特定することも可能である。後者の場合、室内カメラ22で撮影された画像を解析(例えば、顔認証)することで人物を特定してもよいし、その人物に何らかの音声を発してもらい、前者と同様の手法を用いてその人物を特定してもよい。ここで特定された人物の情報は、選択部3に伝達される。
In the former case, it is possible to specify a person based on a waveform pattern, a frequency pattern, a voiceprint pattern, etc. included in the voice. Alternatively, it is also possible to extract a human face from an image photographed by the
選択部3は、データベース5に記録,保存されている複数の音響モデルの中から、特定部2で特定された人物に対応する音響モデルを選択するものである。例えば、車両10の所有者であるユーザAが音声コマンドを発したときには、ユーザAに対応する第一音響モデルが選択される。また、ユーザAとは別のユーザBが音声コマンドを発したときには、ユーザBに対応する第二音響モデルが選択される。ここでの選択結果は、認識部4に伝達される。
The
認識部4は、選択部3で選択された音響モデルを用いて音声を認識するものである。ここでは、発話内容の文脈が解析され、制御対象となる車載装置の種類が推定されるとともに、制御対象に対する音声コマンドの内容が認識される。音声認識の具体的な手法は任意であり、公知の音声認識技術を採用することができる。例えば、音響モデルに基づいて音声に含まれる音素が解析された後に、言語モデルに基づいて音素の連なりからなる語や句が解析され、その意味内容が認識される。ここでの認識結果は、制御部6に伝達される。
The
制御部6は、認識部4で認識された結果に基づき、制御対象を実際に制御するものである。ここでは、特定部2で特定された人物と制御対象との組み合わせが適切である場合に、その制御対象が実際に制御される。例えば、車両10の所有者であるユーザAは、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13を音声コマンドで操作可能とされる。これに対し、ユーザAの知人であるユーザCは、これらの車載装置を音声コマンドで操作できないものとされる。人物と制御対象との組み合わせが適切でない場合には、その制御対象が制御されることなく、音声コマンドがキャンセル(取り消し)される。
The
[3.フローチャート]
図3は、音声認識制御装置1で実施される制御内容を説明するためのフローチャート例である。まず、マイクアレイ21で検出された音声情報,室内カメラ22で撮影された画像情報が音声認識制御装置1に入力され(ステップA1)、車両10に誰かが乗車したか否かが判定される(ステップA2)。誰かの乗車が検出されると、その人物が認識されるとともに、その人物の着座位置が特定される(ステップA3)。その後、音声が入力されたか否かが判定される(ステップA4)。
[3. flowchart]
FIG. 3 is an example of a flowchart for explaining the control contents executed by the speech
ここで、何らかの音声が入力されていると、特定部2において、少なくともその音声情報に基づき、音声を発した人物が特定される(ステップA5)。また、その人物がデータベース5に登録済みのユーザであるか否かが判定され(ステップA6)、登録済みでなければ新規の音響モデルがデータベース5に追加登録される(ステップA7)。その後、選択部3において、その人物に対応する音響モデルが選択される(ステップA8)。また、認識部4において、選択された音響モデルに基づく音声認識が実施される(ステップA9)。
音声認識が完了すると、その認識結果に基づき、その人物の音響モデルが学習,更新される(ステップA10)。なお、制御部6では、特定された人物と制御対象との対応関係が判定され、対応する場合にはその制御対象に対する制御が実施される。一方、特定された人物と制御対象とが対応しない場合には、その音声コマンドがキャンセルされ、制御が不実施とされる。
Here, if any sound is input, the identifying
When the speech recognition is completed, the acoustic model of the person is learned and updated based on the recognition result (step A10). Note that the
[4.作用,効果]
(1)上記の通り、特定部2で特定された人物に応じた音響モデルを選択することで、複数の乗員が搭乗しうる車室内における音声認識精度を向上させることができる。これにより、例えば発話者の発声器官の構造や発声法,社会的環境が標準話者と大きく相違するような場合であっても、音声コマンドの内容を精度よく認識することができ、各種車載装置の制御性を高めることができる。
[4. Action, effect]
(1) As described above, by selecting the acoustic model corresponding to the person specified by the specifying
(2)特定部2での制御内容に関して、マイクアレイ21で取得された音声情報だけでなく、室内カメラ22の画像情報を併用することで、音声のみを用いた場合と比較して短時間で容易にその人物を特定することが可能となる。したがって、簡素な構成で音声認識精度及び各種車載装置の制御性を向上させることができる。
(3)また、画像中の口唇の動きと音声のタイミングとを比較することで、その人物が発話者であることを確実に特定することができる。
(2) Concerning the control contents in the specifying
(3) Further, by comparing the movement of the lips in the image and the timing of the voice, it can be surely specified that the person is a speaker.
(4)特定された人物の音響モデルをその人物の音声で学習,更新することで、その後の音声認識精度をさらに向上させることができる。また、データベース5に登録済みでないユーザに対しては新規の音響モデルが追加登録されるようになっているため、データベース5の拡張性を高めることができ、簡素な構成で音声認識精度及び各種車載装置の制御性を向上させることができる。 (4) By learning and updating the acoustic model of the specified person with the voice of the person, the subsequent voice recognition accuracy can be further improved. Further, since a new acoustic model is additionally registered for a user who has not been registered in the database 5, the expandability of the database 5 can be improved, and voice recognition accuracy and various in-vehicle functions can be improved with a simple configuration. The controllability of the apparatus can be improved.
(5)制御部6での制御内容に関して、特定部2で特定された人物と制御対象との対応関係を判断することで、車載装置の利用権限をユーザ毎に設定することが容易となる。例えば、車両10の所有者であるユーザAが知人であるユーザCに一時的に運転を代わってもらうような場合には、ユーザCによる音声コマンドに制限をかけることで、音声コマンドに不慣れなユーザCによる誤操作を防止することができ、利便性を向上させることができる。
(5) By determining the correspondence between the person specified by the specifying
[5.変形例]
上述の実施形態では、特定部2で特定された人物のそれぞれに対応する音響モデルがデータベース5に記録,保存されるものとしたが、音響モデルは必ずしも個々のユーザに設定する必要はない。例えば、入力された音声の特徴が標準話者の音声の特徴から大きく離れていない場合には、その人物に専用の音響モデルは不要である。また、入力された音声の特徴をいくつかの種類(例えば、若年男性,若年女性,壮年男性,壮年女性,老年男性,老年女性といった六種類)に分類し、それぞれの種類に対して音響モデルを設定してもよい。この場合、特定された人物に関連づけられる種類に応じた音響モデルを用いて音声認識を実施すればよい。
[5. Modified example]
In the above-described embodiment, the acoustic model corresponding to each person specified by the specifying
また、上述の実施形態では、音声の認識から制御対象の制御までに至るすべての過程が音声認識制御装置1で統括管理されているが、音声認識制御装置1の機能の一部又は全部を車両10の外部に移設することも考えられる。例えば、音声認識制御装置1をインターネット,携帯電話機の無線通信網,その他のデジタル無線通信網などのネットワークに接続可能とし、ネットワーク上のサーバに音声認識制御装置1の機能の一部又は全部を実装してもよい。これにより、データベース5の管理や更新が容易となり、音声認識精度やジェスチャ認識精度を向上させることができる。
Further, in the above-described embodiment, all processes from speech recognition to control of the control target are managed in an integrated manner by the speech
1 音声認識制御装置
2 特定部
3 選択部
4 認識部
5 データベース
6 制御部
10 車両
11 ナビゲーション装置
12 エアコン装置
13 カーオーディオ装置
14 運転席
15 助手席
16 ディスプレイ装置
21 マイクアレイ
22 室内カメラ
DESCRIPTION OF
Claims (5)
少なくとも前記音声に基づき、前記音声を発した人物を特定する特定部と、
前記特定部で特定された前記人物に応じた音響モデルを選択する選択部と、
前記選択部で選択された前記音響モデルを用いて前記音声を認識する認識部と、
を備えたことを特徴とする、音声認識制御システム。 In a voice recognition control system that controls an in-vehicle device using the voice of a vehicle occupant as an input signal,
A specifying unit for specifying a person who has emitted the sound based on at least the sound;
A selection unit that selects an acoustic model corresponding to the person identified by the identification unit;
A recognition unit for recognizing the voice using the acoustic model selected by the selection unit;
A voice recognition control system comprising:
前記特定部が、前記音声と前記画像とを用いて、前記音声を発した人物を特定する
ことを特徴とする、請求項1記載の音声認識制御システム。 It has an indoor camera that captures images in the passenger compartment,
The voice recognition control system according to claim 1, wherein the specifying unit specifies a person who has emitted the voice using the voice and the image.
ことを特徴とする、請求項2記載の音声認識制御システム。 The voice recognition control system according to claim 2, wherein the specifying unit specifies the person by comparing the movement of the lip of the person and the timing of the voice.
ことを特徴とする、請求項1〜3のいずれか1項に記載の音声認識制御システム。 The voice recognition control according to any one of claims 1 to 3, further comprising a data update unit that creates an acoustic model corresponding to the person specified by the specifying unit using the voice. system.
ことを特徴とする、請求項1〜4のいずれか1項に記載の音声認識制御システム。 The control unit that controls the control target when the person specified by the specifying unit and the control target recognized by the recognition unit correspond to each other. The speech recognition control system according to item 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219113A JP2017090612A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219113A JP2017090612A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017090612A true JP2017090612A (en) | 2017-05-25 |
Family
ID=58768006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015219113A Pending JP2017090612A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017090612A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108737229A (en) * | 2018-05-08 | 2018-11-02 | 芜湖琅格信息技术有限公司 | A kind of intelligent domestic system based on voice control |
CN108917104A (en) * | 2018-05-08 | 2018-11-30 | 芜湖琅格信息技术有限公司 | A kind of air-conditioning system based on voice control |
JP2019073255A (en) * | 2017-10-19 | 2019-05-16 | アイシン精機株式会社 | Driving assist device |
JP2020518844A (en) * | 2017-03-23 | 2020-06-25 | ジョイソン セイフティ システムズ アクイジション エルエルシー | System and method for correlating mouth images with input commands |
JP2020149264A (en) * | 2019-03-13 | 2020-09-17 | 株式会社日立ビルシステム | Voice guidance system and voice guidance method |
JP2021033048A (en) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | On-vehicle device, and method and program for processing utterance |
JP2021148971A (en) * | 2020-03-19 | 2021-09-27 | 日産自動車株式会社 | Speech recognition method and speech recognition device |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
US11676062B2 (en) | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
WO2023119771A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Jvcケンウッド | Voice command acceptance device, voice command acceptance method, and program |
EP4163913A4 (en) * | 2020-07-03 | 2023-11-01 | Huawei Technologies Co., Ltd. | In-vehicle voice instruction control method, and related device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330485A (en) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | Voice recognition device, voice recognition system, and method for voice recognition |
JP2007298592A (en) * | 2006-04-28 | 2007-11-15 | Fujitsu Ten Ltd | Speech processing apparatus |
JP2009234466A (en) * | 2008-03-27 | 2009-10-15 | Mazda Motor Corp | Onboard device control apparatus |
-
2015
- 2015-11-09 JP JP2015219113A patent/JP2017090612A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330485A (en) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | Voice recognition device, voice recognition system, and method for voice recognition |
JP2007298592A (en) * | 2006-04-28 | 2007-11-15 | Fujitsu Ten Ltd | Speech processing apparatus |
JP2009234466A (en) * | 2008-03-27 | 2009-10-15 | Mazda Motor Corp | Onboard device control apparatus |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020518844A (en) * | 2017-03-23 | 2020-06-25 | ジョイソン セイフティ システムズ アクイジション エルエルシー | System and method for correlating mouth images with input commands |
JP7337699B2 (en) | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | Systems and methods for correlating mouth images with input commands |
JP2019073255A (en) * | 2017-10-19 | 2019-05-16 | アイシン精機株式会社 | Driving assist device |
US11676062B2 (en) | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
CN108917104A (en) * | 2018-05-08 | 2018-11-30 | 芜湖琅格信息技术有限公司 | A kind of air-conditioning system based on voice control |
CN108737229A (en) * | 2018-05-08 | 2018-11-02 | 芜湖琅格信息技术有限公司 | A kind of intelligent domestic system based on voice control |
JP2020149264A (en) * | 2019-03-13 | 2020-09-17 | 株式会社日立ビルシステム | Voice guidance system and voice guidance method |
JP7026066B2 (en) | 2019-03-13 | 2022-02-25 | 株式会社日立ビルシステム | Voice guidance system and voice guidance method |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
JP2022028772A (en) * | 2019-08-23 | 2022-02-16 | サウンドハウンド,インコーポレイテッド | In-vehicle device for analyzing voice production based on audio data and image data, method for processing voice production, and program |
KR102449007B1 (en) | 2019-08-23 | 2022-09-29 | 사운드하운드, 인코포레이티드 | Vehicle-mounted apparatus, method of processing utterance, and program |
KR20210023766A (en) * | 2019-08-23 | 2021-03-04 | 사운드하운드, 인코포레이티드 | Vehicle-mounted apparatus, method of processing utterance, and program |
JP2021033048A (en) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | On-vehicle device, and method and program for processing utterance |
JP7525460B2 (en) | 2019-08-23 | 2024-07-30 | サウンドハウンド,インコーポレイテッド | Computing device and speech processing method for analyzing human speech based on audio data and image data, and program |
JP2021148971A (en) * | 2020-03-19 | 2021-09-27 | 日産自動車株式会社 | Speech recognition method and speech recognition device |
JP7556202B2 (en) | 2020-03-19 | 2024-09-26 | 日産自動車株式会社 | Speech recognition method and speech recognition device |
EP4163913A4 (en) * | 2020-07-03 | 2023-11-01 | Huawei Technologies Co., Ltd. | In-vehicle voice instruction control method, and related device |
WO2023119771A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Jvcケンウッド | Voice command acceptance device, voice command acceptance method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017090612A (en) | Voice recognition control system | |
JP6604151B2 (en) | Speech recognition control system | |
WO2017081960A1 (en) | Voice recognition control system | |
JP4131978B2 (en) | Voice recognition device controller | |
KR102388992B1 (en) | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection | |
JP2017090613A (en) | Voice recognition control system | |
EP3754653A1 (en) | Techniques for wake-up word recognition and related systems and methods | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
CN109545219A (en) | Vehicle-mounted voice interaction method, system, equipment and computer readable storage medium | |
JP6977004B2 (en) | In-vehicle devices, methods and programs for processing vocalizations | |
JP6466385B2 (en) | Service providing apparatus, service providing method, and service providing program | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP2010156825A (en) | Voice output device | |
JP2017090614A (en) | Voice recognition control system | |
CN109754784B (en) | Method for training filtering model and method for speech recognition | |
US20150220068A1 (en) | Apparatus and methods for converting user input accurately to a particular system function | |
US20200320997A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
US11996099B2 (en) | Dialogue system, vehicle, and method of controlling dialogue system | |
JP2020144274A (en) | Agent device, control method of agent device, and program | |
CN110737422B (en) | Sound signal acquisition method and device | |
JP2020144264A (en) | Agent device, control method of agent device, and program | |
US11542744B2 (en) | Agent device, agent device control method, and storage medium | |
JP2020152298A (en) | Agent device, control method of agent device, and program | |
JP2019191477A (en) | Voice recognition device and voice recognition method | |
US20230206918A1 (en) | Speech Recognition System and Method for Providing Speech Recognition Service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191008 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200602 |