JP7079160B2 - 集音装置、集音装置の制御方法 - Google Patents
集音装置、集音装置の制御方法 Download PDFInfo
- Publication number
- JP7079160B2 JP7079160B2 JP2018125290A JP2018125290A JP7079160B2 JP 7079160 B2 JP7079160 B2 JP 7079160B2 JP 2018125290 A JP2018125290 A JP 2018125290A JP 2018125290 A JP2018125290 A JP 2018125290A JP 7079160 B2 JP7079160 B2 JP 7079160B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- noise
- captured image
- sound collecting
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 description 29
- 210000000746 body region Anatomy 0.000 description 17
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012806 monitoring device Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
Description
前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定手段と、
周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段と
を備え、
前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトの前記撮像画像中の領域に対応する方向を前記ノイズ方向として決定し、
前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトが前記撮像画像から検出されなかった場合には、前記集音方向とは逆方向を前記ノイズ方向として決定する
ことを特徴とする。
先ず、本実施形態に係る音声認識システムの機能構成例について、図1のブロック図を用いて説明する。本実施形態に係る音声認識システムA1000は、人が発話した音声から発話内容を認識し、該認識の結果を表示するシステムである。
第1の実施形態では、撮像画像や音声認識の結果を表示したが、撮像画像や音声認識の結果の出力形態は特定の出力形態に限らない。例えば、撮像画像や音声認識の結果をネットワークを介して外部の装置に対して送信しても良いし、音声認識システムA1000の内部メモリ若しくは外部メモリに撮像画像や音声認識の結果を格納するようにしても良い。
以下では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。本実施形態に係る音声認識システムの機能構成例について、図4のブロック図を用いて説明する。
図4では、情報入力装置A1001、画像入力装置A1002、アレイマイクA1003、集音装置B1004、音声認識装置A1005、モニタ装置A1006、をそれぞれ別個の装置として説明した。しかし、これらの装置の2つ以上を1つの装置にまとめても良い。また、これらの装置のそれぞれの機能を2つ以上の装置に分散させても良い。
第1の実施形態に係る集音装置A1004に、撮像画像から人の唇の動きを検出して発話しているかどうかを検出する検出部を加え、該撮像画像において発話している人がいない位置に対応する方向をノイズ方向としても良い
また、第2の実施形態に係る集音装置B1004に、撮像画像からオブジェクトの動きを検出して音を発しているかを推定する推定部を加えても良い。そして、音を発しているオブジェクトが存在する場合には、撮像画像において該オブジェクトの位置に対応する方向、音を発しているオブジェクトが存在しない場合には集音方向と逆方向、をノイズ方向としても良い。また、第1~3の実施形態において「人体」は、検出するオブジェクトの一例に過ぎず、他の種類のオブジェクトを対象とするようにしても構わない。
集音装置A1004が有するものとして図1に示した各機能部、集音装置B1004が有するものとして図4に示した各機能部、はハードウェアで実装しても構わないし、ソフトウェア(コンピュータプログラム)で実装しても構わない。後者の場合、このコンピュータプログラムを実行可能なコンピュータ装置は上記の集音装置A1004や集音装置B1004に適用可能である。上記の集音装置A1004や集音装置B1004に適用可能なコンピュータ装置のハードウェア構成例について、図6のブロック図を用いて説明する。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (6)
- 周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第1の決定手段と、
前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定手段と、
周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段と
を備え、
前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトの前記撮像画像中の領域に対応する方向を前記ノイズ方向として決定し、
前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトが前記撮像画像から検出されなかった場合には、前記集音方向とは逆方向を前記ノイズ方向として決定する
ことを特徴とする集音装置。 - 前記第1の決定手段は、前記集音対象位置への方向に対応する前記撮像画像中の位置と前記撮像画像中のオブジェクトの領域とに基づいて前記集音方向を決定することを特徴とする請求項1に記載の集音装置。
- 前記集音装置は更に、前記ノイズキャンセル手段によりノイズキャンセルを行った音に基づいて音声認識を行う音声認識手段を備えることを特徴とする請求項1または2に記載の集音装置。
- 前記集音装置は更に、前記撮像画像と、前記音声認識の結果と、を出力する出力手段を備えることを特徴とする請求項3に記載の集音装置。
- 集音装置の制御方法であって、
前記集音装置の第1の決定手段が、周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第1の決定工程と、
前記集音装置の第2の決定手段が、前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定工程と、
前記集音装置のノイズキャンセル手段が、周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル工程と
を備え、
前記第2の決定工程では、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトの前記撮像画像中の領域に対応する方向を前記ノイズ方向として決定し、
前記第2の決定工程では、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトが前記撮像画像から検出されなかった場合には、前記集音方向とは逆方向を前記ノイズ方向として決定する
ことを特徴とする集音装置の制御方法。 - コンピュータを、請求項1乃至4の何れか1項に記載の集音装置の各手段として機能させるためのコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125290A JP7079160B2 (ja) | 2018-06-29 | 2018-06-29 | 集音装置、集音装置の制御方法 |
US16/447,104 US10812898B2 (en) | 2018-06-29 | 2019-06-20 | Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125290A JP7079160B2 (ja) | 2018-06-29 | 2018-06-29 | 集音装置、集音装置の制御方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020003724A JP2020003724A (ja) | 2020-01-09 |
JP2020003724A5 JP2020003724A5 (ja) | 2021-08-05 |
JP7079160B2 true JP7079160B2 (ja) | 2022-06-01 |
Family
ID=69054836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018125290A Active JP7079160B2 (ja) | 2018-06-29 | 2018-06-29 | 集音装置、集音装置の制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10812898B2 (ja) |
JP (1) | JP7079160B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2620960A (en) * | 2022-07-27 | 2024-01-31 | Nokia Technologies Oy | Pair direction selection based on dominant audio direction |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250397A (ja) | 2004-03-08 | 2005-09-15 | Nec Corp | ロボット |
US20060104454A1 (en) | 2004-11-17 | 2006-05-18 | Siemens Aktiengesellschaft | Method for selectively picking up a sound signal |
JP2009296232A (ja) | 2008-06-04 | 2009-12-17 | Casio Hitachi Mobile Communications Co Ltd | 音入力装置、音入力方法およびプログラム |
JP2015162645A (ja) | 2014-02-28 | 2015-09-07 | 三菱電機株式会社 | 半導体装置およびその製造方法 |
JP2017153065A (ja) | 2016-02-25 | 2017-08-31 | パナソニック株式会社 | 音声認識方法、音声認識装置及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7778425B2 (en) * | 2003-12-24 | 2010-08-17 | Nokia Corporation | Method for generating noise references for generalized sidelobe canceling |
US9197974B1 (en) * | 2012-01-06 | 2015-11-24 | Audience, Inc. | Directional audio capture adaptation based on alternative sensory input |
WO2015162645A1 (ja) * | 2014-04-25 | 2015-10-29 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理システム、及び音声処理方法 |
JP2016046769A (ja) | 2014-08-26 | 2016-04-04 | パナソニックIpマネジメント株式会社 | 集音装置 |
-
2018
- 2018-06-29 JP JP2018125290A patent/JP7079160B2/ja active Active
-
2019
- 2019-06-20 US US16/447,104 patent/US10812898B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250397A (ja) | 2004-03-08 | 2005-09-15 | Nec Corp | ロボット |
US20060104454A1 (en) | 2004-11-17 | 2006-05-18 | Siemens Aktiengesellschaft | Method for selectively picking up a sound signal |
JP2009296232A (ja) | 2008-06-04 | 2009-12-17 | Casio Hitachi Mobile Communications Co Ltd | 音入力装置、音入力方法およびプログラム |
JP2015162645A (ja) | 2014-02-28 | 2015-09-07 | 三菱電機株式会社 | 半導体装置およびその製造方法 |
JP2017153065A (ja) | 2016-02-25 | 2017-08-31 | パナソニック株式会社 | 音声認識方法、音声認識装置及びプログラム |
Non-Patent Citations (1)
Title |
---|
中臺一博,"世界に飛び出す日本のソフトウェア ロボット聴覚用オープンソースソフトウェアHARKの展開",情報処理学会デジタルプラクティス,Vol.2, No.2,2011年04月15日,pp.133-140 |
Also Published As
Publication number | Publication date |
---|---|
JP2020003724A (ja) | 2020-01-09 |
US20200007979A1 (en) | 2020-01-02 |
US10812898B2 (en) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
US11043231B2 (en) | Speech enhancement method and apparatus for same | |
US11861264B2 (en) | Portable terminal device and information processing system | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
US9500739B2 (en) | Estimating and tracking multiple attributes of multiple objects from multi-sensor data | |
JP2012040655A (ja) | ロボット制御方法、プログラム、及びロボット | |
JP6705656B2 (ja) | 視覚補助装置及びオブジェクトの分類の検出方法 | |
CN107623778B (zh) | 来电接听方法及移动终端 | |
CN107749046B (zh) | 一种图像处理方法及移动终端 | |
CN108881544B (zh) | 一种拍照的方法及移动终端 | |
US11238880B2 (en) | Method for acquiring noise-refined voice signal, and electronic device for performing same | |
EP3975046A1 (en) | Method and apparatus for detecting occluded image and medium | |
CN111091845A (zh) | 音频处理方法、装置、终端设备及计算机存储介质 | |
CN109671034B (zh) | 一种图像处理方法及终端设备 | |
JP7079160B2 (ja) | 集音装置、集音装置の制御方法 | |
JP7388188B2 (ja) | 発話者認識システム、発話者認識方法、及び発話者認識プログラム | |
CN112543295A (zh) | 基于声源定位的车载视频通话方法、系统及设备 | |
EP4135314A1 (en) | Camera-view acoustic fence | |
US10665243B1 (en) | Subvocalized speech recognition | |
JP2012151544A (ja) | 撮像装置及びプログラム | |
CN113506582A (zh) | 声音信号识别方法、装置及系统 | |
US12033654B2 (en) | Sound pickup device and sound pickup method | |
CN110012225B (zh) | 一种图像处理的方法、装置以及移动终端 | |
CN111723615B (zh) | 对检测物图像进行检测物匹配判定的方法和装置 | |
JP6174114B2 (ja) | 音声入力装置およびその音声入力装置を備えた画像表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210625 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220520 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7079160 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |