JP6564058B2 - 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 - Google Patents
音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 Download PDFInfo
- Publication number
- JP6564058B2 JP6564058B2 JP2017553159A JP2017553159A JP6564058B2 JP 6564058 B2 JP6564058 B2 JP 6564058B2 JP 2017553159 A JP2017553159 A JP 2017553159A JP 2017553159 A JP2017553159 A JP 2017553159A JP 6564058 B2 JP6564058 B2 JP 6564058B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- listening
- audio
- wakeup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 74
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000002618 waking effect Effects 0.000 claims 2
- 230000003213 activating effect Effects 0.000 claims 1
- 239000000872 buffer Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/725—Cordless telephones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
- User Interface Of Digital Computer (AREA)
Description
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、ステップとを含む。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、ステップと、
トリガ信号を受信した後、音声認識装置によって、それ自体をイネーブル化し、第2のプリセットされた持続時間の第2の音声情報を聴取するステップと、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して、認識結果を取得するステップとを含む。
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
一致した音声命令情報に対応する動作を、音声認識装置によって行うステップとをさらに含む。
トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む。
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップとを含む。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップと、
音声認識装置によって、トリガ信号を受信した後、それ自体をイネーブル化し、ユーザに音声プロンプト命令を送るステップと、
音声認識装置によって、音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号に対する認識を行って認識結果を取得するステップとを含む。
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取モジュールによって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取モジュールによって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュールによって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュールとを含む。
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュールと、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取モジュールによって聴取することによって取得された第2の音声情報を認識して、認識結果を取得するように構成された認識モジュールとを含む。
認識モジュールが認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。
トリガ信号が受信された後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールとを含む。
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュールと、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュールとを含む。
音声ウェイクアップ装置と、音声認識装置とを含み、
音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、第1のプリセットされた持続時間内で聴取することによって取得される第1の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
音声認識装置は、音声ウェイクアップ装置によって送られたトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間内で第2の音声情報を聴取し、音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取することによって取得された第2の音声情報を認識して認識結果を取得するように構成される。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム(パワーケプストラムとも呼ばれる)、またはメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、略してMFCC)などの声紋特徴を反映する音響パラメータ。この実施形態は、上記で述べられた声紋特徴パラメータに限定されない。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。
周囲環境における音声情報を聴取するように構成された聴取モジュール601と、
聴取モジュール601によって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール602と、
決定モジュール602が、聴取モジュール601によって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュール601によって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュール603と、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール604であって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュール604とを含む。
決定モジュール602が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール602は、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール701であって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュール701と、
受信モジュール701がトリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュール702と、
音声ウェイクアップ装置によってバッファされた第1の音声情報、および聴取モジュールによって聴取することによって取得された第2の音声情報を認識して、認識結果を取得するように構成された認識モジュール703とを含む。
認識モジュール703が認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。
受信モジュールがトリガ信号を受信した後、第3のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。
周囲環境における音声情報を聴取するように構成された聴取モジュール801と、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール802と、
決定モジュール802が、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール803とを含む。
決定モジュール802が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール802は、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール901と、
受信モジュール901がトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュール902と、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュール903とを含む。
さらに、本発明の実施形態は、以下において提供される。以下のセクションにおいて使用される番号設定は、必ずしも前述のセクションで使用されている番号設定と一致するものではない。
実施形態1.音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、前記音声ウェイクアップ装置によって、聴取することによって取得される、第1のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、ステップと
を含む音声認識方法。
実施形態2.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態1に記載の方法。
実施形態3.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態1に記載の方法。
実施形態4.音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、ステップと、
前記トリガ信号を受信した後、前記音声認識装置によって、それ自体をイネーブル化し、第2のプリセットされた持続時間の第2の音声情報を聴取するステップと、
前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および聴取することによって取得された前記第2の音声情報を認識して、認識結果を取得するステップと
を含む音声認識方法。
実施形態5.前記音声認識装置が前記認識結果を取得した後、前記方法は、
前記音声認識装置によって、前記取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
前記音声認識装置によって、一致した音声命令情報に対応する動作を行うステップとをさらに含む実施形態4に記載の方法。
実施形態6.前記トリガ信号が受信された後、第3のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったと決定したとき、前記音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む実施形態4または5に記載の方法。
実施形態7.音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、前記音声ウェイクアップ装置によって、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップと
を含む音声認識方法。
実施形態8.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態7に記載の方法。
実施形態9.聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む実施形態7に記載の方法。
実施形態10.音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップと、
前記音声認識装置によって、前記トリガ信号を受信した後、それ自体をイネーブル化し、ユーザに音声プロンプト命令を送るステップと、
前記音声認識装置によって、前記音声プロンプト命令に従って前記ユーザによって入力された音声信号を記録し、前記音声信号に対する認識を行って認識結果を取得するステップと
を含む音声認識方法。
実施形態11.周囲環境における音声情報を聴取するように構成された聴取モジュールと、
前記聴取モジュールによって聴取することによって取得された前記音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
前記決定モジュールが、前記聴取モジュールによって聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定したとき、前記聴取モジュールによって聴取することによって取得される第1のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、送出モジュールと
を含む音声ウェイクアップ装置。
実施形態12.前記決定モジュールは、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態11に記載の装置。
実施形態13.前記決定モジュールが、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに備え、
前記決定モジュールは、前記抽出モジュールによって抽出された前記声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するようにさらに構成される実施形態11に記載の装置。
実施形態14.音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第1の音声情報を認識するように指示するために用いられる、受信モジュールと、
前記受信モジュールが前記トリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間の第2の音声情報を聴取するように構成された聴取モジュールと、
前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および前記聴取モジュールによって聴取することによって取得された前記第2の音声情報を認識して、認識結果を取得するように構成された認識モジュールと
を備える音声認識装置。
実施形態15.前記認識モジュールが認識を行った後に取得された前記認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに備える実施形態14に記載の装置。
実施形態16.前記トリガ信号が受信された後、第3のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったとき、前記認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに備える実施形態14または15に記載の装置。
実施形態17.周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
前記決定モジュールが、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールと
を備える音声ウェイクアップ装置。
実施形態18.前記決定モジュールは、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態17に記載の装置。
実施形態19.前記決定モジュールが、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに備え、
前記決定モジュールは、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように特に構成される実施形態17に記載の装置。
実施形態20.音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールと、
前記受信モジュールが前記トリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュールと、
前記音声プロンプト命令に従って前記ユーザによって入力された音声信号を記録し、前記音声信号を認識して認識結果を取得するように構成された処理モジュールと
を備える音声認識装置。
実施形態21.音声ウェイクアップ装置と、音声認識装置とを備え、
前記音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、第1のプリセットされた持続時間内で聴取することによって取得される第1の音声情報をバッファし、前記音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
前記音声認識装置は、前記音声ウェイクアップ装置によって送られた前記トリガ信号を受信した後、それ自体をイネーブルし、第2のプリセットされた持続時間内で第2の音声情報を聴取し、前記音声ウェイクアップ装置によってバッファされた前記第1の音声情報、および聴取することによって取得された前記第2の音声情報を認識して認識結果を取得するように構成される端末。
実施形態22.前記音声ウェイクアップ装置は、デジタル信号プロセッサDSPである実施形態21に記載の端末。
実施形態23.前記音声認識装置は、アプリケーションプロセッサAPである実施形態21または22に記載の端末。
Claims (16)
- 周囲環境における音声情報を聴取するステップと、
第1の音声情報および第2の音声情報を取得するステップであって、前記第1の音声情報は、音声認識装置をイネーブルにするためのウェイクアップ情報と、第1の認識情報とを含み、かつ音声ウェイクアップ装置によって聴取され、前記第2の音声情報は、第2の認識情報を含み、かつイネーブル後の前記音声認識装置により聴取される、ステップと、
前記第1の認識情報および前記第2の認識情報に従って制御情報を取得するステップと、
前記制御情報に従って動作を行うステップと
を含む音声制御方法。 - 前記ウェイクアップ情報が音声ウェイクアップモデルと一致する場合に、音声認識機能を可能にするためのトリガ信号を生成するステップをさらに含む
請求項1に記載の方法。 - 前記ウェイクアップ情報が音声ウェイクアップモデルと一致することはさらに、前記ウェイクアップ情報が所定のウェイクアップ音声情報と一致する場合に、前記ウェイクアップ情報から声紋特徴を抽出するステップと、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定するステップとを含む
請求項2に記載の方法。 - 前記第2の音声情報が取得されない場合、前記制御情報は、前記第1の認識情報に従って取得される
請求項1ないし3のいずれか1項に記載の方法。 - 周囲環境における音声情報を聴取する前記ステップは、待機状態、非待機状態、または画面ロック状態で実施される
請求項1ないし4のいずれか1項に記載の方法。 - 前記第1の認識情報に従って動作を行う前記ステップはさらに、前記制御情報がプリセットされた音声命令情報と一致する場合に、プリセットされた音声命令情報に従って実行するステップを含む
請求項1ないし5のいずれか1項に記載の方法。 - 前記声紋特徴は、ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム、またはメル周波数ケプストラム係数の声紋特徴を反映する音響パラメータを含む
請求項3に記載の方法。 - 前記第1の音声情報は、デジタル信号プロセッサによって取得され、前記第2の音声情報は、アプリケーションプロセッサまたはCPUによって取得される
請求項1ないし7のいずれか1項に記載の方法。 - 前記第1の音声情報は、音声ウェイクアップ装置によって取得され、前記第2の音声情報は、音声認識装置によって取得され、前記ウェイクアップ情報が音声ウェイクアップモデルと一致する場合に、音声認識機能を可能にするためのトリガ信号を生成するステップはさらに、
前記音声ウェイクアップ装置によって、前記ウェイクアップ情報が音声ウェイクアップモデルと一致すると決定するステップと、前記音声認識装置が音声認識機能を活性化することを可能にするためのトリガ信号を生成するステップとを含む
請求項2に記載の方法。 - 前記方法はさらに、
前記音声ウェイクアップ装置によって、前記トリガ信号を前記音声認識装置に送るステップと、
前記音声認識装置によって、前記音声認識機能を活性化し、前記第2の音声情報を聴取するステップとを含む
請求項9に記載の方法。 - 前記方法はさらに、
前記音声認識装置によって、前記音声ウェイクアップ装置より取得する前記第1の認識情報、および聴取することによって取得された前記第2の認識情報を認識し、制御情報を取得するステップをさらに含む
請求項10に記載の方法。 - 前記方法はさらに、
事前に記憶済みのプリセットされた音声命令情報を含む
請求項1ないし11のいずれか1項に記載の方法。 - 前記方法はさらに、前記制御情報に対応する前記動作を行うための実行モジュールに実行命令を送るステップを含む
請求項1ないし12のいずれか1項に記載の方法。 - 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行するためのプログラミングを記憶するメモリであって、前記プログラミングは命令を含み、前記命令が前記1つまたは複数のプロセッサによって実行されるときに、音声制御端末に請求項1ないし13のいずれか1項に記載の方法を実行させる音声制御端末。 - プロセッサにより実行するために記憶されたコンピュータ使用可能な命令を含む非一時的コンピュータ可読媒体であって、前記命令により前記プロセッサに請求項1ないし13のいずれか1項に記載の方法を実行させる非一時的コンピュータ可読媒体。
- 命令を含むコンピュータプログラムであって、前記コンピュータプログラムが電子デバイスで実行されるときに前記電子デバイスに請求項1ないし13のいずれか1項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/076342 WO2016161641A1 (zh) | 2015-04-10 | 2015-04-10 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019137200A Division JP6817386B2 (ja) | 2019-07-25 | 2019-07-25 | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018517919A JP2018517919A (ja) | 2018-07-05 |
JP6564058B2 true JP6564058B2 (ja) | 2019-08-21 |
Family
ID=57071774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017553159A Active JP6564058B2 (ja) | 2015-04-10 | 2015-04-10 | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
Country Status (8)
Country | Link |
---|---|
US (2) | US10943584B2 (ja) |
EP (1) | EP3282445A4 (ja) |
JP (1) | JP6564058B2 (ja) |
CN (1) | CN106463112B (ja) |
AU (3) | AU2015390534B2 (ja) |
BR (1) | BR112017021673B1 (ja) |
CA (1) | CA2982196C (ja) |
WO (1) | WO2016161641A1 (ja) |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
CN107181869A (zh) * | 2017-06-06 | 2017-09-19 | 上海传英信息技术有限公司 | 移动终端和利用语音识别开启移动终端应用的方法 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN116364076A (zh) * | 2017-07-04 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
US11361763B1 (en) * | 2017-09-01 | 2022-06-14 | Amazon Technologies, Inc. | Detecting system-directed speech |
WO2019079974A1 (en) * | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION |
CN107808670B (zh) | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN108062949A (zh) * | 2017-12-11 | 2018-05-22 | 广州朗国电子科技有限公司 | 语音控制跑步机的方法及装置 |
WO2019169591A1 (zh) * | 2018-03-07 | 2019-09-12 | 华为技术有限公司 | 一种语音交互的方法及装置 |
CN110299137B (zh) * | 2018-03-22 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法和装置 |
US10818288B2 (en) * | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
CN108563468B (zh) * | 2018-03-30 | 2021-09-21 | 深圳市冠旭电子股份有限公司 | 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱 |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
EP3553775B1 (en) * | 2018-04-12 | 2020-11-25 | Spotify AB | Voice-based authentication |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
CN108735210A (zh) * | 2018-05-08 | 2018-11-02 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音控制方法及终端 |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10777196B2 (en) * | 2018-06-27 | 2020-09-15 | The Travelers Indemnity Company | Systems and methods for cooperatively-overlapped and artificial intelligence managed interfaces |
CN109215646B (zh) * | 2018-08-15 | 2021-08-17 | 北京百度网讯科技有限公司 | 语音交互处理方法、装置、计算机设备及存储介质 |
CN110853632A (zh) * | 2018-08-21 | 2020-02-28 | 蔚来汽车有限公司 | 基于声纹信息的语音识别方法及智能交互设备 |
CN109446533B (zh) * | 2018-09-17 | 2020-12-22 | 深圳市沃特沃德股份有限公司 | 蓝牙翻译机、蓝牙翻译的交互方式及其装置 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109243447A (zh) * | 2018-10-12 | 2019-01-18 | 西安蜂语信息科技有限公司 | 语音发送触发方法及装置 |
JP7242248B2 (ja) * | 2018-10-31 | 2023-03-20 | キヤノン株式会社 | 電子機器、その制御方法、およびそのプログラム |
CN109545207A (zh) * | 2018-11-16 | 2019-03-29 | 广东小天才科技有限公司 | 一种语音唤醒方法及装置 |
CN109243462A (zh) * | 2018-11-20 | 2019-01-18 | 广东小天才科技有限公司 | 一种语音唤醒方法及装置 |
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN111383633B (zh) * | 2018-12-29 | 2023-08-01 | 深圳Tcl新技术有限公司 | 语音识别连续性控制方法、装置、智能终端及存储介质 |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109979466B (zh) * | 2019-03-21 | 2021-09-17 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
US11776538B1 (en) * | 2019-04-01 | 2023-10-03 | Dialog Semiconductor B.V. | Signal processing |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
CN110225386B (zh) * | 2019-05-09 | 2021-09-14 | 海信视像科技股份有限公司 | 一种显示控制方法、显示设备 |
CN110232916A (zh) * | 2019-05-10 | 2019-09-13 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US12045353B2 (en) * | 2019-05-29 | 2024-07-23 | Denso Corporation | System and method for enhancing vehicle occupant voice data privacy |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110223687B (zh) * | 2019-06-03 | 2021-09-28 | Oppo广东移动通信有限公司 | 指令执行方法、装置、存储介质及电子设备 |
CN112216277A (zh) * | 2019-07-12 | 2021-01-12 | Oppo广东移动通信有限公司 | 通过耳机进行语音识别的方法、耳机、语音识别装置 |
CN110265031A (zh) * | 2019-07-25 | 2019-09-20 | 秒针信息技术有限公司 | 一种语音处理方法及装置 |
EP3792912B1 (en) * | 2019-09-11 | 2021-11-03 | Oracle International Corporation | Improved wake-word recognition in low-power devices |
CN111292510A (zh) * | 2020-01-16 | 2020-06-16 | 广州华铭电力科技有限公司 | 一种城市电缆被外力破坏的识别预警方法 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
IT202000015973A1 (it) * | 2020-07-02 | 2022-01-02 | Voiceme S R L | Sistema elettronico e metodo per abilitare il pagamento di un bene o servizio per mezzo di comandi vocali |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112037784B (zh) * | 2020-08-14 | 2023-10-20 | 南京创维信息技术研究院有限公司 | 显示设备语音控制方法、显示设备和存储介质 |
CN112363851A (zh) * | 2020-10-28 | 2021-02-12 | 广东小天才科技有限公司 | 智能终端的语音唤醒方法、系统、智能手表及存储介质 |
CN112581956A (zh) * | 2020-12-04 | 2021-03-30 | 海能达通信股份有限公司 | 一种双模终端的语音识别方法及双模终端 |
TWI765485B (zh) * | 2020-12-21 | 2022-05-21 | 矽統科技股份有限公司 | 外接式語音喚醒裝置及其控制方法 |
CN114254076B (zh) * | 2021-12-16 | 2023-03-07 | 天翼爱音乐文化科技有限公司 | 一种多媒体教学的音频处理方法、系统及存储介质 |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
WO2024125032A1 (zh) * | 2022-12-12 | 2024-06-20 | 海信视像科技股份有限公司 | 一种语音控制方法及终端设备 |
Family Cites Families (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5857172A (en) * | 1995-07-31 | 1999-01-05 | Microsoft Corporation | Activation control of a speech recognizer through use of a pointing device |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6591239B1 (en) * | 1999-12-09 | 2003-07-08 | Steris Inc. | Voice controlled surgical suite |
JP2004516517A (ja) * | 2000-12-20 | 2004-06-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 発話による対話言語の設定 |
US7610199B2 (en) | 2004-09-01 | 2009-10-27 | Sri International | Method and apparatus for obtaining complete speech signals for speech recognition applications |
KR100690740B1 (ko) | 2004-11-24 | 2007-03-09 | 엘지전자 주식회사 | 이동 통신 단말기의 슬립 모드 전환 방법 |
US20080140397A1 (en) * | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Sequencing for location determination |
US8600741B2 (en) * | 2008-08-20 | 2013-12-03 | General Motors Llc | Method of using microphone characteristics to optimize speech recognition performance |
US9070282B2 (en) * | 2009-01-30 | 2015-06-30 | Altorr Corp. | Smartphone control of electrical devices |
KR20110031797A (ko) | 2009-09-21 | 2011-03-29 | 삼성전자주식회사 | 휴대 단말기의 입력 장치 및 방법 |
US20110165541A1 (en) * | 2010-01-02 | 2011-07-07 | Yong Liu | Reviewing a word in the playback of audio data |
CN102196096A (zh) | 2011-05-19 | 2011-09-21 | 青岛海信移动通信技术股份有限公司 | 一种移动终端执行特定操作的方法、移动终端及通信系统 |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8452597B2 (en) * | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
CN102905029A (zh) * | 2012-10-17 | 2013-01-30 | 广东欧珀移动通信有限公司 | 一种手机及智能语音寻找手机的方法 |
US9646610B2 (en) * | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
KR20140060040A (ko) * | 2012-11-09 | 2014-05-19 | 삼성전자주식회사 | 디스플레이장치, 음성취득장치 및 그 음성인식방법 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
CN103095911B (zh) * | 2012-12-18 | 2014-12-17 | 苏州思必驰信息科技有限公司 | 一种通过语音唤醒寻找手机的方法及系统 |
CN103021413A (zh) * | 2013-01-07 | 2013-04-03 | 北京播思软件技术有限公司 | 语音控制方法及装置 |
DE102013001219B4 (de) | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US20150348538A1 (en) * | 2013-03-14 | 2015-12-03 | Aliphcom | Speech summary and action item generation |
WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
KR101505127B1 (ko) * | 2013-03-15 | 2015-03-26 | 주식회사 팬택 | 음성 명령에 의한 오브젝트 실행 장치 및 방법 |
US9202463B2 (en) * | 2013-04-01 | 2015-12-01 | Zanavox | Voice-activated precision timing |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
JP2015011170A (ja) | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
CN103338311A (zh) * | 2013-07-11 | 2013-10-02 | 成都西可科技有限公司 | 一种智能手机锁屏界面启动app的方法 |
CN110096253B (zh) * | 2013-07-11 | 2022-08-30 | 英特尔公司 | 利用相同的音频输入的设备唤醒和说话者验证 |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
JP2015041123A (ja) * | 2013-08-20 | 2015-03-02 | 株式会社リコー | 画像形成装置 |
JP6312053B2 (ja) | 2013-09-06 | 2018-04-18 | 株式会社ユピテル | システム及びプログラム |
US10134395B2 (en) | 2013-09-25 | 2018-11-20 | Amazon Technologies, Inc. | In-call virtual assistants |
US8775191B1 (en) * | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
CN103595869A (zh) * | 2013-11-15 | 2014-02-19 | 华为终端有限公司 | 一种终端语音控制方法、装置及终端 |
CN103594089A (zh) * | 2013-11-18 | 2014-02-19 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
US9443522B2 (en) * | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
CN103632667B (zh) * | 2013-11-25 | 2017-08-04 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN104143326B (zh) * | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US11138971B2 (en) * | 2013-12-05 | 2021-10-05 | Lenovo (Singapore) Pte. Ltd. | Using context to interpret natural language speech recognition commands |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US20150221307A1 (en) | 2013-12-20 | 2015-08-06 | Saurin Shah | Transition from low power always listening mode to high power speech recognition mode |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
US20180108001A1 (en) * | 2014-03-24 | 2018-04-19 | Thomas Jason Taylor | Voice triggered transactions |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
CN103929540A (zh) * | 2014-04-25 | 2014-07-16 | 浙江翼信科技有限公司 | 一种消息操作方法及装置 |
US9466290B2 (en) * | 2014-05-06 | 2016-10-11 | Honeywell International Inc. | Systems and methods for aviation communication monitoring using speech recognition |
CN104380254B (zh) * | 2014-06-11 | 2017-09-22 | 华为技术有限公司 | 快速启动应用服务的方法和终端 |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
US20160012827A1 (en) * | 2014-07-10 | 2016-01-14 | Cambridge Silicon Radio Limited | Smart speakerphone |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9335966B2 (en) * | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US9354687B2 (en) * | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US9582296B2 (en) * | 2014-09-18 | 2017-02-28 | International Business Machines Corporation | Dynamic multi-user computer configuration settings |
CN104301109B (zh) * | 2014-09-24 | 2017-06-06 | 飞天诚信科技股份有限公司 | 一种语音动态令牌的工作方法 |
KR102299330B1 (ko) * | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
US9653079B2 (en) | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10026399B2 (en) * | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
CN105204963A (zh) * | 2015-09-28 | 2015-12-30 | 北京奇虎科技有限公司 | 数据缓存方法及装置 |
TWI557599B (zh) * | 2015-11-05 | 2016-11-11 | 宏碁股份有限公司 | 語音控制方法及語音控制系統 |
US9728188B1 (en) * | 2016-06-28 | 2017-08-08 | Amazon Technologies, Inc. | Methods and devices for ignoring similar audio being received by a system |
US10074371B1 (en) * | 2017-03-14 | 2018-09-11 | Amazon Technologies, Inc. | Voice control of remote device by disabling wakeword detection |
-
2015
- 2015-04-10 JP JP2017553159A patent/JP6564058B2/ja active Active
- 2015-04-10 CA CA2982196A patent/CA2982196C/en active Active
- 2015-04-10 AU AU2015390534A patent/AU2015390534B2/en active Active
- 2015-04-10 CN CN201580023412.XA patent/CN106463112B/zh active Active
- 2015-04-10 EP EP15888197.9A patent/EP3282445A4/en active Pending
- 2015-04-10 WO PCT/CN2015/076342 patent/WO2016161641A1/zh unknown
- 2015-04-10 BR BR112017021673-6A patent/BR112017021673B1/pt active IP Right Grant
-
2017
- 2017-10-10 US US15/729,097 patent/US10943584B2/en active Active
-
2019
- 2019-11-20 AU AU2019268131A patent/AU2019268131A1/en not_active Abandoned
-
2021
- 2021-02-17 US US17/178,009 patent/US11783825B2/en active Active
- 2021-12-16 AU AU2021286393A patent/AU2021286393B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2019268131A1 (en) | 2019-12-12 |
AU2015390534A1 (en) | 2017-11-30 |
BR112017021673A2 (pt) | 2018-07-10 |
US10943584B2 (en) | 2021-03-09 |
BR112017021673B1 (pt) | 2023-02-14 |
AU2021286393B2 (en) | 2023-09-21 |
CN106463112B (zh) | 2020-12-08 |
US20210287671A1 (en) | 2021-09-16 |
EP3282445A1 (en) | 2018-02-14 |
CN106463112A (zh) | 2017-02-22 |
AU2021286393A1 (en) | 2022-01-20 |
CA2982196A1 (en) | 2016-10-13 |
WO2016161641A1 (zh) | 2016-10-13 |
US11783825B2 (en) | 2023-10-10 |
US20180033436A1 (en) | 2018-02-01 |
JP2018517919A (ja) | 2018-07-05 |
AU2015390534B2 (en) | 2019-08-22 |
EP3282445A4 (en) | 2018-05-02 |
CA2982196C (en) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6564058B2 (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
US8909537B2 (en) | Device capable of playing music and method for controlling music playing in electronic device | |
CN106448678B (zh) | 用于在电子装置中执行语音命令的方法和设备 | |
JP6817386B2 (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
EP2760015A1 (en) | Event-triggered hands-free multitasking for media playback | |
KR20200005617A (ko) | 화자 구분 | |
CN103002147A (zh) | 一种移动终端自动应答方法和装置 | |
CN111128166B (zh) | 连续唤醒识别功能的优化方法和装置 | |
WO2014032597A1 (zh) | 语音识别方法及电子设备 | |
CN107680592A (zh) | 一种移动终端语音识别方法、及移动终端及存储介质 | |
US10129382B2 (en) | Electronic device and method for controlling electronic device using headset | |
CN108492826A (zh) | 音频处理方法、装置、智能设备及介质 | |
JP7258007B2 (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
US10887693B2 (en) | Method for switching mode and electronic device employing the method | |
CN107230483B (zh) | 基于移动终端的语音音量处理方法、存储介质及移动终端 | |
WO2019047220A1 (zh) | 一种应用程序启动方法及终端、计算机可读存储介质 | |
TW201336290A (zh) | 通信裝置及通信方法 | |
CN106910505B (zh) | 一种基于移动终端的语音应答方法及系统 | |
JP2013153338A (ja) | アラーム装置、携帯端末、およびアラーム音の停止方法 | |
JP2020160430A (ja) | 音声入力装置、音声入力方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180511 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20181207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6564058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |