Nothing Special   »   [go: up one dir, main page]

JP5740914B2 - Audio output device - Google Patents

Audio output device Download PDF

Info

Publication number
JP5740914B2
JP5740914B2 JP2010241588A JP2010241588A JP5740914B2 JP 5740914 B2 JP5740914 B2 JP 5740914B2 JP 2010241588 A JP2010241588 A JP 2010241588A JP 2010241588 A JP2010241588 A JP 2010241588A JP 5740914 B2 JP5740914 B2 JP 5740914B2
Authority
JP
Japan
Prior art keywords
sound
speaker
masker
localization
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010241588A
Other languages
Japanese (ja)
Other versions
JP2012093594A (en
Inventor
一浩 里吉
一浩 里吉
好史 大泉
好史 大泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010241588A priority Critical patent/JP5740914B2/en
Publication of JP2012093594A publication Critical patent/JP2012093594A/en
Application granted granted Critical
Publication of JP5740914B2 publication Critical patent/JP5740914B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、マスカ音を出力する音声出力装置に関するものである。   The present invention relates to an audio output device that outputs masker sounds.

従来、オフィス等において、パーティションにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、近接する他の空間に存在する人に話者の音声を聞き取り難くしたものが提案されている(例えば、特許文献1参照)。これにより、話者の発言内容を理解し難くなくなるため、話者のプライバシーが保つことができる。   Conventionally, in offices, etc., speakers are attached to partitions, and the voice that is not related to the speaker's voice is output as a masker sound, making it difficult to hear the voice of the speaker in other nearby spaces Has been proposed (see, for example, Patent Document 1). Thereby, since it becomes difficult to understand the content of the speaker's speech, the privacy of the speaker can be maintained.

特開平06−175666号公報Japanese Patent Laid-Open No. 06-175666

しかし、特許文献1の方式では、マスカ音の出力位置が固定されているため、聴取者がマスカ音に耳慣れし、いわゆるカクテルパーティ効果により、話者の音声を聞き分けて発言内容を理解してしまうおそれがある。   However, in the method of Patent Document 1, since the output position of the masker sound is fixed, the listener gets used to the masker sound, and by the so-called cocktail party effect, the speaker's voice is heard and the contents of the statement are understood. There is a fear.

そこで、本発明は、カクテルパーティ効果を適切に抑制することができる音声出力装置を提供することを目的とする。   Therefore, an object of the present invention is to provide an audio output device that can appropriately suppress the cocktail party effect.

この発明の音声出力装置は、マスカ音を生成するマスカ音生成部と、マスカ音を出力する複数のスピーカと、マスカ音の定位位置を制御し、マスカ音に係る音声信号を前記複数のスピーカに供給する定位制御部と、を備えている。そして、定位制御部は、マスカ音の定位位置を動的に変化させることを特徴とする。具体的には、定位制御部は、所定の位置を中心とした所定範囲内で定位位置をランダムに変化させる。定位位置を変化させるには、複数のスピーカに供給する音声信号の遅延量を変化させることで実現可能である。   The audio output device according to the present invention controls a masker sound generating unit that generates a masker sound, a plurality of speakers that output the masker sound, a localization position of the masker sound, and an audio signal related to the masker sound to the plurality of speakers. And a localization control unit to be supplied. The localization control unit dynamically changes the localization position of the masker sound. Specifically, the localization control unit randomly changes the localization position within a predetermined range centered on the predetermined position. The localization position can be changed by changing the delay amount of the audio signal supplied to the plurality of speakers.

また、定位制御部は、前記所定の位置を中心として、当該中心位置を最も高い確率で定位位置に設定し、当該中心位置から離れるにしたがって低い確率で定位位置を設定するように、前記定位位置を動的に変化させることも可能である。例えば、ガウス分布に従った確率で定位位置を動的に変化させる。定位位置は、実際の話者の位置に近いほうが話者の音源位置とマスカ音の音源位置が離れず、マスキング効果が高くなる。ただし、第三者にとってマスカー音が常に同じ方向から聞こえると耳慣れを起こし、カクテルパーティー効果によって話者の音声を聞き分けて発言内容を理解してしまう。そこで、マスキング効果を高く保ちつつも、カクテルパーティー効果を抑制するために、音源位置を動的に変化させ、かつ、話者の位置に近いところで定位位置の出現確率が高く、離れるにしたがって出現確率が低くなるように設定することが好ましい。   Further, the localization control unit sets the localization position at the highest probability with the predetermined position as the center, and sets the localization position with a lower probability as the distance from the center position increases. Can be dynamically changed. For example, the localization position is dynamically changed with a probability according to a Gaussian distribution. When the localization position is closer to the actual speaker position, the sound source position of the speaker and the sound source position of the masker sound are not separated from each other, and the masking effect is enhanced. However, if a third party hears the masker sound always from the same direction, they will get used to the ears, and the speaker's voice will be heard and understood by the cocktail party effect. Therefore, in order to suppress the cocktail party effect while keeping the masking effect high, the sound source position is dynamically changed, and the appearance probability of the localization position is high near the speaker position, and the appearance probability as it goes away Is preferably set to be low.

また、マスカ音は、どの様な音であってもよいが、話者の音声を収音するマイクを備え、マイクで収音した音声に基づいてマスカ音を生成することが望ましい。例えば、話者の発話音声を所定時間保持し、時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(会話内容が理解できない)ようにしたものを用いる。あるいは、男性および女性を含む複数人の音声で、かつ語彙的に何ら意味をなさない汎用的な発話音声を出力するか、この汎用的な音声のフォルマント等の周波数特性を話者の音声に近似させたものとしてもよい。   The masker sound may be any sound, but it is desirable to provide a microphone that picks up the voice of the speaker and generate the masker sound based on the sound picked up by the microphone. For example, the voice of the speaker is held for a predetermined time, and is modified on the time axis or the frequency axis so that it does not make any meaning in the vocabulary (the conversation content cannot be understood). Or, output a general utterance voice that does not make any lexical meaning with the voice of multiple people including men and women, or approximate the frequency characteristics of this general voice formant to the voice of the speaker It is good also as what was made to do.

この場合、音声出力装置は、マスカ音に係る音声がスピーカからマイクに至るエコー成分を疑似した疑似エコー信号をマイクで収音した音声からキャンセルし、マスカ音生成部に供給するエコーキャンセラを備えていることが望ましい。これにより、スピーカから出力され、マイクに回り込んだマスカ音を除去することができ、話者の音声だけに基づいてマスカ音を生成することができる。   In this case, the audio output device includes an echo canceller that cancels a pseudo echo signal that simulates an echo component from the speaker to the microphone, and that is supplied to the masker sound generation unit. It is desirable. As a result, the masker sound output from the speaker and wrapping around the microphone can be removed, and the masker sound can be generated based only on the voice of the speaker.

この発明によれば、マスカ音の出力位置が動的に変化するため、カクテルパーティ効果を適切に抑制することができる。   According to this invention, since the output position of the masker sound changes dynamically, the cocktail party effect can be appropriately suppressed.

マスキングシステムの構成を示す配置図である。It is an arrangement drawing showing the composition of a masking system. マイク、スピーカアレイ、および音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of a microphone, a speaker array, and an audio processing apparatus. スピーカアレイによる仮想音源定位手法を示す図である。It is a figure which shows the virtual sound source localization method by a speaker array. 仮想音源位置の動的変化を説明する図である。It is a figure explaining the dynamic change of a virtual sound source position. 音声処理装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a speech processing unit. エコーキャンセラを備えた場合の音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice processing apparatus at the time of providing an echo canceller.

図1は、本発明の音声出力装置を備えたマスキングシステムの構成を示す配置図である。マスキングシステムは、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。   FIG. 1 is a layout diagram showing the configuration of a masking system provided with an audio output device of the present invention. The masking system is installed at a dialogue counter such as a bank or dispensing pharmacy, for example, and emits a masker sound to the third party to prevent the third party from understanding the remarks of the person who is talking across the counter. To do.

図1においては、カウンターを挟んで話者H1と聴取者H2が存在し、カウンターから離れた位置に複数の第三者H3が存在する。話者H1は、例えば薬の説明を行う薬剤師であり、聴取者H2は薬の説明を聞く患者であり、第三者H3は順番待ちの患者である。   In FIG. 1, there are a speaker H1 and a listener H2 across the counter, and there are a plurality of third parties H3 at positions away from the counter. For example, the speaker H1 is a pharmacist explaining the medicine, the listener H2 is a patient listening to the medicine explanation, and the third person H3 is a patient waiting for the turn.

カウンターの上面にはマイク1が設置されている。マイク1は、カウンター周囲の音声をとして、主に話者H1の音声を収音する。カウンターの第三者の存在する方向(紙面下方向)には、この第三者に向かって音声を出力するスピーカアレイ2が設置されている。なお、スピーカアレイ2は、机の下等、聴取者H2にスピーカアレイの出力した音声が聞こえにくいように設置されている。   A microphone 1 is installed on the upper surface of the counter. The microphone 1 mainly collects the voice of the speaker H1 using the voice around the counter. A speaker array 2 that outputs sound toward the third party is installed in a direction where the third party of the counter exists (downward in the drawing). Note that the speaker array 2 is installed so that the listener H2 can hardly hear the sound output from the speaker array, such as under a desk.

マイク1とスピーカアレイ2は、音声処理装置3に接続されている。マイク1は、話者H1の音声を収音し、音声処理装置3に出力する。音声処理装置3は、マイク1で収音した話者H1の音声に基づいて、当該話者H1の音声をマスクするためのマスカ音を生成し、スピーカアレイ2に出力する。このとき、音声処理装置3は、スピーカアレイ2の各スピーカに供給する音声信号の遅延量を制御することで、第三者H3が知覚するマスカ音の音源位置(仮想音源位置)を動的に変化させる。これにより、第三者H3には、マスカ音の音源位置が常に移動している様に聞こえることになり、耳慣れによるカクテルパーティ効果を適切に抑制することができる。   The microphone 1 and the speaker array 2 are connected to the sound processing device 3. The microphone 1 picks up the voice of the speaker H1 and outputs it to the voice processing device 3. The voice processing device 3 generates a masker sound for masking the voice of the speaker H1 based on the voice of the speaker H1 collected by the microphone 1 and outputs the masker sound to the speaker array 2. At this time, the sound processing device 3 dynamically controls the sound source position (virtual sound source position) of the masker sound perceived by the third party H3 by controlling the delay amount of the sound signal supplied to each speaker of the speaker array 2. Change. As a result, the third party H3 can hear that the sound source position of the masker sound is constantly moving, and the cocktail party effect due to ear habituation can be appropriately suppressed.

以下、上記のマスキングシステムを実現するための具体的な構成、動作について説明する。図2は、マイク1、スピーカアレイ2、および音声処理装置3の構成を示すブロック図である。音声処理装置3は、A/Dコンバータ51、制御部72、マスカ音生成部73、遅延処理部8、D/Aコンバータ61〜D/Aコンバータ68を備えている。スピーカアレイ2は、8つのスピーカ21〜スピーカ28を備えている。なお、スピーカアレイのスピーカの数は、この例に限るものではない。   Hereinafter, a specific configuration and operation for realizing the masking system will be described. FIG. 2 is a block diagram showing configurations of the microphone 1, the speaker array 2, and the sound processing device 3. The sound processing device 3 includes an A / D converter 51, a control unit 72, a masker sound generation unit 73, a delay processing unit 8, and D / A converters 61 to D / A converter 68. The speaker array 2 includes eight speakers 21 to 28. The number of speakers in the speaker array is not limited to this example.

A/Dコンバータ51は、マイク1で収音した音声を入力し、デジタル音声信号に変換する。A/Dコンバータ51で変換された各デジタル音声信号は、マスカ音生成部73に入力される。   The A / D converter 51 inputs the sound collected by the microphone 1 and converts it into a digital sound signal. Each digital audio signal converted by the A / D converter 51 is input to the masker sound generation unit 73.

マスカ音生成部73は、入力されたデジタル音声信号に係る話者音声に基づいて、この話者音声をマスクするためのマスカ音を生成する。マスカ音は、どの様な音であってもよいが、カウンターから離れた位置に存在する複数の第三者H3の不快感を抑えたものであることが好ましい。例えば、話者H1の発話音声を所定時間保持し、時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(会話内容が理解できない)ようにしたものを用いる。あるいは、男性および女性を含む複数人の音声で、かつ語彙的に何ら意味をなさない汎用的な発話音声を内蔵記憶部(不図示)に記憶しておき、この汎用的な音声を出力するか、汎用的な音声のフォルマント等の周波数特性を話者H1の音声に近似させたものとしてもよい。また、マスカ音には、空調音のような背景音を混ぜてもよい。第三者H3は、このようなマスカ音を話者H1の音声と同時に聞くことで、話者H1の発言内容が理解し難くなる。生成されたマスカ音は、遅延処理部8の各ディレイ81〜ディレイ88に出力される。   The masker sound generation unit 73 generates a masker sound for masking the speaker voice based on the speaker voice related to the input digital voice signal. The masker sound may be any sound, but is preferably one that suppresses the discomfort of a plurality of third parties H3 existing at positions away from the counter. For example, the voice of the speaker H1 is retained for a predetermined time, and is modified on the time axis or the frequency axis so that it does not make any lexical meaning (the conversation content cannot be understood). Alternatively, whether general-purpose utterance voices that do not make any lexical meaning are stored in the built-in storage unit (not shown), and are output from the general-purpose voices including men and women Alternatively, frequency characteristics such as a general voice formant may be approximated to the voice of the speaker H1. The masker sound may be mixed with a background sound such as an air conditioning sound. By listening to such a masker sound simultaneously with the voice of the speaker H1, the third party H3 has difficulty in understanding the content of the speech of the speaker H1. The generated masker sound is output to each of the delays 81 to 88 of the delay processing unit 8.

遅延処理部8のディレイ81〜ディレイ88は、それぞれスピーカアレイ2のスピーカ21〜スピーカ28に対応して設けられており、各スピーカに供給する音声信号の遅延量を個別に変更するものである。ディレイ81〜ディレイ88の遅延量は、制御部72によって制御される。   The delays 81 to 88 of the delay processing unit 8 are provided corresponding to the speakers 21 to 28 of the speaker array 2, respectively, and individually change the delay amount of the audio signal supplied to each speaker. The delay amount of the delays 81 to 88 is controlled by the control unit 72.

制御部72は、ディレイ81〜ディレイ88の遅延量を制御することで、所定の位置に仮想音源を設定することができる。図3は、スピーカアレイによる仮想音源定位手法を示す図である。   The control unit 72 can set the virtual sound source at a predetermined position by controlling the delay amounts of the delays 81 to 88. FIG. 3 is a diagram showing a virtual sound source localization method using a speaker array.

同図に示すように、制御部72は、所定の位置(例えば話者H1の位置)に仮想音源Vを設定する。仮想音源Vからスピーカアレイ2の各スピーカまでの距離は、それぞれ異なるが、最も仮想音源Vに近いスピーカ(同図ではスピーカ21)から順にマスカ音を出力し、時間経過とともにスピーカ22から順にスピーカ28まで音声を出力することで、カウンターから離れた位置に存在する複数の第三者H3には、焦点となる仮想音源位置から等距離の位置(図中点線で示すスピーカの位置)にスピーカが存在し、これら仮想的なスピーカの位置から同時にマスカ音が放音されるように知覚させることができる。よって、第三者H3は、仮想的に話者H1の位置からマスカ音が発せられたように知覚することになる。   As shown in the figure, the control unit 72 sets the virtual sound source V at a predetermined position (for example, the position of the speaker H1). The distance from the virtual sound source V to each speaker of the speaker array 2 is different, but the masker sound is output in order from the speaker closest to the virtual sound source V (speaker 21 in the figure), and the speaker 28 is sequentially from the speaker 22 over time. A plurality of third parties H3 that are located away from the counter by outputting the sound up to the counter have a speaker at the same distance from the virtual sound source position that is the focal point (the position of the speaker indicated by the dotted line in the figure) In addition, it is possible to perceive that masker sounds are emitted simultaneously from the positions of these virtual speakers. Therefore, the third party H3 virtually perceives that a masker sound was emitted from the position of the speaker H1.

ここで、制御部72は、各スピーカに供給するマスカ音の音声信号の遅延量を動的に変化させることで、仮想音源Vの位置を動的に変化させる。図4は、仮想音源位置の動的変化を説明する図である。同図においては、第三者H3から見て話者H1に向かって右側に仮想音源V1の位置を設定する状態から、話者H1に向かって左側の仮想音源V2の位置を変化させる例を示す。   Here, the controller 72 dynamically changes the position of the virtual sound source V by dynamically changing the delay amount of the masker sound signal supplied to each speaker. FIG. 4 is a diagram for explaining the dynamic change of the virtual sound source position. The figure shows an example in which the position of the left virtual sound source V2 is changed toward the speaker H1 from the state where the position of the virtual sound source V1 is set on the right side toward the speaker H1 when viewed from the third party H3. .

制御部72は、所定時間経過毎(例えば1秒経過毎)に、ディレイ81〜ディレイ88の遅延量を変更する。例えば、図4の様に、第三者H3から見て話者H1に向かって右側に存在する仮想音源V1を設定する場合は、向かって右側のスピーカ21に供給する音声信号の遅延量を小さく、向かって左側のスピーカ28に供給する音声信号の遅延量を大きく設定しているが、向かって左側に存在する仮想音源V2を設定する場合は、スピーカ21に供給する音声信号の遅延量を大きく、スピーカ28に供給する音声信号の遅延量を小さく設定する。すると、第三者H3は、マスカ音の出力位置が仮想音源V1の位置から仮想音源V2の位置に移動したように知覚することになる。このため、同じマスカ音が出力されていても、音源位置が変化し、話者H1との合成音(同時に聞いた音)が変化して聞こえることになる。そのため、カウンターから離れた位置に存在する複数の第三者H3の耳慣れを防止し、カクテルパーティ効果を適切に抑制することができる。   The control unit 72 changes the delay amounts of the delays 81 to 88 every elapse of a predetermined time (for example, every elapse of 1 second). For example, as shown in FIG. 4, when the virtual sound source V1 existing on the right side from the third party H3 toward the speaker H1 is set, the delay amount of the audio signal supplied to the right speaker 21 is reduced. The delay amount of the audio signal supplied to the left speaker 28 is set large, but when the virtual sound source V2 existing on the left side is set, the delay amount of the audio signal supplied to the speaker 21 is increased. The delay amount of the audio signal supplied to the speaker 28 is set small. Then, the third person H3 perceives that the output position of the masker sound has moved from the position of the virtual sound source V1 to the position of the virtual sound source V2. For this reason, even if the same masker sound is output, the sound source position changes, and the synthesized sound (sound heard simultaneously) with the speaker H1 changes and can be heard. For this reason, it is possible to prevent the ear habituation of a plurality of third parties H3 existing at positions away from the counter and appropriately suppress the cocktail party effect.

また、同図の例では、制御部72は、中心位置S(同図の例ではマイク1の位置に一致する。)を中心とした円の内側に移動領域Zを設定し、この移動領域Z内で仮想音源の位置をランダムに変化させる。無論、この移動領域Z外に仮想音源を設定してもよいが、話者H1の位置から離れるにしたがって、聴取者はマスカ音と話者H1との定位位置を別の位置と知覚しやすくなり、マスキング効果が低くなるため、話者H1に近い位置からある程度の範囲内で変化させ、カクテルパーティ効果を抑制することが望ましい。   Moreover, in the example of the figure, the control part 72 sets the movement area Z inside the circle centering on the center position S (it corresponds to the position of the microphone 1 in the example of the figure), and this movement area Z The position of the virtual sound source is changed at random. Of course, a virtual sound source may be set outside this moving area Z, but as the listener moves away from the position of the speaker H1, the listener can easily perceive the localization position of the masker sound and the speaker H1 as another position. Since the masking effect becomes low, it is desirable to change the position within a certain range from the position close to the speaker H1 to suppress the cocktail party effect.

さらに、制御部72は、当該中心位置Sに仮想音源位置を設定する確率を最も高くし、当該中心位置Sから離れるにしたがって低い確率で設定するように、仮想音源位置を動的に変化させることも可能である。例えば、ガウス分布に従った確率で仮想音源位置を動的に変化させる。図4の例では、移動領域Z内において、黒い位置ほど高い確率で仮想音源位置が出現し、白い位置ほど低い確率で仮想音源位置が出現する態様としている。話者H1の位置に近いほうがマスキング効果を高くすることができるため、話者H1の位置に近いところで仮想音源の出現確率を高くし、離れるにしたがって出現確率を低くなるように設定する。   Furthermore, the control unit 72 dynamically changes the virtual sound source position so that the probability of setting the virtual sound source position at the center position S is the highest, and the probability is set with a lower probability as the distance from the center position S increases. Is also possible. For example, the virtual sound source position is dynamically changed with a probability according to a Gaussian distribution. In the example of FIG. 4, in the movement area Z, the virtual sound source position appears with a higher probability as the black position, and the virtual sound source position appears with a lower probability as the white position. Since the masking effect can be increased closer to the position of the speaker H1, the appearance probability of the virtual sound source is set higher near the position of the speaker H1, and the appearance probability is set lower as the distance from the speaker H1 increases.

なお、中心位置Sは、マイクの位置や話者の位置を想定して予め設定しておいてもよいが、スピーカアレイの後方の任意の位置(例えばスピーカアレイの中心から0.5m程度後方)とし、移動領域Zは、半径1m等の任意の値に設定しておいてもよいし、ユーザが操作を行う操作部(不図示)を設け、ユーザからの手動入力を受け付ける態様であってもよい。また、スピーカアレイの幅に応じて自動的に設定してもよい。例えば、スピーカアレイの端部スピーカ21およびスピーカ28を結ぶ直線を設定し、この直線を長辺とし、スピーカ21、スピーカ28、および中心位置Sを結ぶ直角三角形や正三角形を設定する。そして、移動領域Zの円の半径をスピーカ21(またはスピーカ28)と中心位置Sとの距離に設定する。   The center position S may be set in advance assuming the position of the microphone and the position of the speaker. However, an arbitrary position behind the speaker array (for example, about 0.5 m behind the center of the speaker array). The moving area Z may be set to an arbitrary value such as a radius of 1 m, or an operation unit (not shown) for operation by the user may be provided to accept manual input from the user. Good. Alternatively, it may be automatically set according to the width of the speaker array. For example, a straight line connecting the end speaker 21 and the speaker 28 of the speaker array is set, this straight line is the long side, and a right triangle or equilateral triangle connecting the speaker 21, the speaker 28, and the center position S is set. Then, the radius of the circle of the moving area Z is set to the distance between the speaker 21 (or speaker 28) and the center position S.

次に、図5は、音声処理装置3の動作を示すフローチャートである。音声処理装置3は、初回起動時(電源オン時)にこの動作を開始し、以後所定時間経過毎(例えば1秒経過毎)にもこの動作を行う。まず、音声処理装置3は、話者音声が収音されるまで待機する(s11)。例えば、有音と判定できる程度の所定レベル以上の音声が収音されたとき、話者音声が収音されたと判断する。話者音声が収音されず、会話を行っていない場合、マスカ音は不要であるため、マスカ音の生成、定位処理を待機する態様とする。ただし、この処理を省略し、常にマスカ音の生成、定位処理を行う態様としてもよい。   Next, FIG. 5 is a flowchart showing the operation of the voice processing device 3. The voice processing device 3 starts this operation at the first activation (when the power is turned on), and thereafter performs this operation every predetermined time (for example, every one second). First, the voice processing device 3 stands by until a speaker voice is collected (s11). For example, when a sound of a predetermined level or higher that can be determined to be sound is picked up, it is determined that a speaker voice is picked up. When the speaker voice is not picked up and the conversation is not performed, the masker sound is unnecessary, so the masker sound is generated and the localization process is awaited. However, this process may be omitted, and a masker sound generation and localization process may always be performed.

音声処理装置3は、話者音声が収音された場合、マスカ音生成部73によってマスカ音の生成を行う(s12)。なお、マスカ音は、収音した話者音声のレベルに応じて音量が変化する態様であることが望ましい。収音した話者音声のレベルが低い場合、第三者H3に低いレベルで話者音声が到達し、会話内容を把握し難いため、マスカ音のレベルも低くすることができる。一方で、収音した話者音声のレベルが高い場合、第三者H3には話者音声が高いレベルで到達し、会話内容を把握しやすいため、マスカ音のレベルも高くするほうが好ましい。また、仮想音源位置が動的に変化する瞬間にマスカ音のレベルに変化を与え、第三者H3に仮想音源の位置が少しずつ変化するよう知覚させ、不快感を低減するようにしてもよい。   When the speaker voice is collected, the voice processing device 3 generates a masker sound by the masker sound generation unit 73 (s12). Note that it is desirable that the masker sound has an aspect in which the volume changes according to the level of the collected speaker voice. When the level of the collected speaker voice is low, the voice of the speaker reaches the third party H3 at a low level and it is difficult to grasp the content of the conversation, so the masker sound level can also be lowered. On the other hand, when the level of the collected speaker voice is high, the speaker voice reaches the third party H3 at a high level and it is easy to grasp the content of the conversation. In addition, the level of the masker sound is changed at the moment when the virtual sound source position dynamically changes, and the third person H3 may perceive the position of the virtual sound source to change little by little to reduce discomfort. .

そして、音声処理装置3は、マスカ音の定位位置がランダムに変化するように制御部72で遅延量の設定を行う(s13)。例えば、図4に示したように、中心位置S(話者H1に近い位置)から所定範囲内(移動領域Z内)で中心に近いほど高い確率で、中心から離れるに従って低い確率で仮想音源位置が出現するように、各スピーカに供給する音声信号の遅延量を動的に変化させる。   Then, the sound processing device 3 sets the delay amount by the control unit 72 so that the localization position of the masker sound changes randomly (s13). For example, as shown in FIG. 4, the virtual sound source position has a higher probability as it is closer to the center within a predetermined range (within the movement area Z) from the center position S (position closer to the speaker H1), and with a lower probability as the distance from the center increases. So that the delay amount of the audio signal supplied to each speaker is dynamically changed.

以上のようにして、音声処理装置3は、マスカ音の仮想音源位置を動的に変化させることにより、第三者H3には、マスカ音が常に移動しているように聞こえることになり、カクテルパーティ効果を適切に抑制することができる。   As described above, the voice processing device 3 dynamically changes the virtual sound source position of the masker sound, so that the third party H3 can hear that the masker sound always moves, and the cocktail. The party effect can be appropriately suppressed.

なお、図6に示すように、音声処理装置3は、エコーキャンセラを備えていてもよい。図6は、エコーキャンセラを備えた場合の音声処理装置3の構成を示すブロック図である。図1と共通する構成については同じ記号を付し、その説明を省略する。   As shown in FIG. 6, the voice processing device 3 may include an echo canceller. FIG. 6 is a block diagram showing the configuration of the audio processing device 3 provided with an echo canceller. Components that are the same as those in FIG. 1 are given the same reference numerals, and descriptions thereof are omitted.

この例における音声処理装置3は、A/Dコンバータ51から出力された音声信号を入力するエコーキャンセラ75を備えている。エコーキャンセラ75は、マスカ音生成部73からマスカ音に係る音声信号を入力し、スピーカからマイクに至る音響伝達系の伝達特性を模擬した適応型フィルタを用いてマスカ音に係る音声信号をフィルタ処理し、A/Dコンバータ51から入力された信号に減算処理することでエコー成分を削減する。また、エコーキャンセラ75は、スピーカアレイのスピーカユニットの数だけ設ける態様であってもよい。スピーカからマイクに至る音響伝達系(エコーパス)は、各スピーカの数だけ存在することになるため、理想的にはスピーカ毎のエコーパスを推定した適応型フィルタを設け、各スピーカに供給する音声信号をフィルタ処理してエコー成分を推定し、減算することが望ましい。   The audio processing device 3 in this example includes an echo canceller 75 that inputs the audio signal output from the A / D converter 51. The echo canceller 75 receives the sound signal related to the masker sound from the masker sound generation unit 73, and filters the sound signal related to the masker sound using an adaptive filter that simulates the transfer characteristic of the sound transfer system from the speaker to the microphone. The echo component is reduced by subtracting the signal input from the A / D converter 51. Further, the echo canceller 75 may be provided as many as the number of speaker units in the speaker array. Since there are as many acoustic transmission systems (echo paths) from the speakers to the microphones as there are speakers, an adaptive filter that ideally estimates the echo path for each speaker is provided, and the audio signal supplied to each speaker is It is desirable to estimate and subtract echo components by filtering.

なお、音声処理装置3は、本実施形態に示したマスキングシステムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。   Note that the voice processing device 3 can be realized by using hardware and software of an information processing device such as a general personal computer, instead of a device dedicated to the masking system shown in the present embodiment.

なお、本実施形態では、話者H1の音声を収音するマイクを1つ設ける例を示したが、マイクの数は複数であってもよい。また、複数のマイクを配列したマイクアレイを設ける態様であってもよい。この場合、マイクアレイの各マイクが収音した音声の位相差を検出することで、話者H1の位置を検出することができ、上述の中心位置Sや移動領域Zを、検出した話者H1の位置(あるいは話者H1に近い位置)に設定することができる。   In the present embodiment, an example is shown in which one microphone that collects the voice of the speaker H1 is provided, but a plurality of microphones may be provided. Moreover, the aspect which provides the microphone array which arranged the some microphone may be sufficient. In this case, the position of the speaker H1 can be detected by detecting the phase difference of the sound collected by each microphone of the microphone array, and the above-described center position S and moving region Z are detected by the detected speaker H1. (Or a position close to the speaker H1).

また、位置特定の手段としては、画像認識やセンサを用いるなど音声以外の情報を元とした手法であってもよい。   Further, as the means for specifying the position, a technique based on information other than sound, such as using image recognition or a sensor, may be used.

H1…話者
H2…聴取者
H3…第三者
1…マイク
2…スピーカアレイ
3…音声処理装置
H1 ... speaker H2 ... listener H3 ... third party 1 ... microphone 2 ... speaker array 3 ... speech processing device

Claims (4)

マスカ音を生成するマスカ音生成部と、
前記マスカ音を出力する複数のスピーカと、
前記マスカ音の定位位置を制御し、マスカ音に係る音声信号を前記複数のスピーカに供給する定位制御部と、
を備え、
前記定位制御部は、前記マスカ音の定位位置を所定の位置を中心とした所定範囲内でランダムに変化させることを特徴とする音声出力装置。
A masker sound generator for generating masker sounds;
A plurality of speakers for outputting the masker sound;
A localization control unit for controlling a localization position of the masker sound and supplying an audio signal related to the masker sound to the plurality of speakers;
With
The sound output device, wherein the localization control unit randomly changes the localization position of the masker sound within a predetermined range centered on a predetermined position .
前記定位制御部は、前記所定の位置を中心として、当該中心位置を最も高い確率で定位位置に設定し、当該中心位置から離れるにしたがって低い確率で定位位置を設定するように、前記定位位置を動的に変化させることを特徴とする請求項1に記載の音声出力装置。 The localization control unit sets the localization position so that the center position is set to the localization position with the highest probability around the predetermined position, and the localization position is set with a lower probability as the distance from the center position increases. The audio output device according to claim 1, wherein the audio output device is dynamically changed. 話者の音声を収音するマイクを備え、
前記マスカ音生成部は、前記マイクで収音した音声に基づいて前記マスカ音を生成する請求項1または2のいずれかに記載の音声出力装置。
A microphone that picks up the voice of the speaker
The masking sound generating unit, an audio output device according to claim 1 or 2 to generate the masking sound based on the sound picked up by the microphone.
前記マスカ音に係る音声が前記スピーカから前記マイクに至るエコー成分を疑似した疑似エコー信号を前記マイクで収音した音声からキャンセルし、前記マスカ音生成部に供給するエコーキャンセラを備えた請求項に記載の音声出力装置。 Cancel the pseudo echo signal sound according to the masking sound is pseudo echo component reaching the microphone from the loudspeaker from the audio picked up by the microphone, claim 3 comprising an echo canceller to be supplied to the masking sound generating unit The audio output device according to 1.
JP2010241588A 2010-10-28 2010-10-28 Audio output device Expired - Fee Related JP5740914B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010241588A JP5740914B2 (en) 2010-10-28 2010-10-28 Audio output device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010241588A JP5740914B2 (en) 2010-10-28 2010-10-28 Audio output device

Publications (2)

Publication Number Publication Date
JP2012093594A JP2012093594A (en) 2012-05-17
JP5740914B2 true JP5740914B2 (en) 2015-07-01

Family

ID=46386979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010241588A Expired - Fee Related JP5740914B2 (en) 2010-10-28 2010-10-28 Audio output device

Country Status (1)

Country Link
JP (1) JP5740914B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6045268B2 (en) * 2012-09-20 2016-12-14 コクヨエンジニアリング&テクノロジー株式会社 Furniture with a top plate
US10304473B2 (en) * 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US10373626B2 (en) * 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
WO2024038623A1 (en) * 2022-08-15 2024-02-22 パナソニックIpマネジメント株式会社 Masker sound generation device, masker sound generation method, and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319389A (en) * 1996-03-28 1997-12-12 Matsushita Electric Ind Co Ltd Environmental sound generating device
JP2006086921A (en) * 2004-09-17 2006-03-30 Sony Corp Reproduction method of audio signal and reproducing device
JP4680099B2 (en) * 2006-03-03 2011-05-11 グローリー株式会社 Audio processing apparatus and audio processing method
JP4245060B2 (en) * 2007-03-22 2009-03-25 ヤマハ株式会社 Sound masking system, masking sound generation method and program

Also Published As

Publication number Publication date
JP2012093594A (en) 2012-05-17

Similar Documents

Publication Publication Date Title
CN108989953B (en) Spatially ducking audio produced by beamforming speaker arrays
JP6251399B2 (en) Conversation support
CN105074814B (en) Low time delay multiple driver self-adapted noise elimination (ANC) system of personal audio set
JP5665134B2 (en) Hearing assistance device
CN101176382B (en) System and method for creating personalized sound zones
CN105304089B (en) Virtual masking method
US7761292B2 (en) Method and apparatus for disturbing the radiated voice signal by attenuation and masking
WO2017101067A1 (en) Ambient sound processing method and device
CN104508737B (en) The signal transacting related for the noise of the Vehicular communication system with multiple acoustical areas
JP2018164310A (en) Managing telephony and entertainment audio in vehicle audio platform
US10805756B2 (en) Techniques for generating multiple auditory scenes via highly directional loudspeakers
US10070242B2 (en) Devices and methods for conveying audio information in vehicles
JP5644382B2 (en) Audio processing device
US9769568B2 (en) System and method for speech reinforcement
WO2020141489A1 (en) Apparatus, system and method of sound control
JP5740914B2 (en) Audio output device
CN109862472A (en) A kind of car privacy call method and system
JP4330302B2 (en) Audio input / output device
JP2010163054A (en) Conversation support device and conversation support method
JP2019161604A (en) Audio processing device
US20110105034A1 (en) Active voice cancellation system
US11877133B2 (en) Audio output using multiple different transducers
WO2022185725A1 (en) Information processing device, information processing method, and program
JP2023027196A (en) sound emitting device
WO2022054900A1 (en) Information processing device, information processing terminal, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

LAPS Cancellation because of no payment of annual fees