Nothing Special   »   [go: up one dir, main page]

WO2023199673A1 - 立体音響処理方法、立体音響処理装置及びプログラム - Google Patents

立体音響処理方法、立体音響処理装置及びプログラム Download PDF

Info

Publication number
WO2023199673A1
WO2023199673A1 PCT/JP2023/009601 JP2023009601W WO2023199673A1 WO 2023199673 A1 WO2023199673 A1 WO 2023199673A1 JP 2023009601 W JP2023009601 W JP 2023009601W WO 2023199673 A1 WO2023199673 A1 WO 2023199673A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
processing
acoustic
space
information
Prior art date
Application number
PCT/JP2023/009601
Other languages
English (en)
French (fr)
Inventor
摩里子 山田
智一 石川
成悟 榎本
陽 宇佐見
康太 中橋
宏幸 江原
耕 水野
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202380030758.7A priority Critical patent/CN119256564A/zh
Priority to JP2024514855A priority patent/JPWO2023199673A1/ja
Publication of WO2023199673A1 publication Critical patent/WO2023199673A1/ja
Priority to US18/909,246 priority patent/US20250039629A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present disclosure relates to a stereophonic sound processing method, a stereophonic sound processing device, and a program.
  • Patent Document 1 discloses a technique for acquiring acoustic features (acoustic characteristics) of an indoor space using equipment such as a measurement microphone array and a measurement speaker array.
  • the acoustic feature amount of the real space acquired by the technique of Patent Document 1 mentioned above may be used when rendering sound information indicating the sound output from an AR (Augmented Reality) device.
  • AR Augmented Reality
  • changes in the space may occur, such as people entering and exiting the space, or objects in the space moving or increasing or decreasing.
  • changes in the space may occur, such as people entering and exiting the space, or objects in the space moving or increasing or decreasing.
  • changes in the space may occur, such as people entering and exiting the space, or objects in the space moving or increasing or decreasing.
  • Patent Document 1 does not disclose a technique that easily reflects changes in the space in use.
  • the present disclosure provides a stereophonic sound processing method, a stereophonic sound processing device, and a program that can easily reflect changes in acoustic features caused by changes in space in rendering of sound information.
  • a stereophonic sound processing method is a stereophonic sound processing method used for reproducing stereophonic sound using an AR (Augmented Reality) device, and includes: while outputting content including sound in the AR device; obtaining change information indicating a change in a space in which the AR device is located, and determining one or more acoustic processes based on the change information among a plurality of acoustic processes for rendering sound information indicating the sound; Execute acoustic processing only for the one or more acoustic processes determined among the plurality of acoustic processes, and render the sound information based on a first processing result of each of the one or more executed acoustic processes. do.
  • a stereophonic sound processing device is a stereophonic sound processing device used for reproducing stereophonic sound using an AR device, wherein the AR device an acquisition unit that acquires change information indicating a change in a space in which the user is located; and a determination unit that determines one or more acoustic processes based on the change information among a plurality of acoustic processes for rendering sound information indicating the sound. and an audio processing unit that executes audio processing only for the one or more audio processings determined among the plurality of audio processings, and based on the first processing result of each of the one or more audio processings performed. , and a rendering unit that renders the sound information.
  • a program according to one aspect of the present disclosure is a program for causing a computer to execute the above stereophonic sound processing method.
  • FIG. 1 is a block diagram showing the functional configuration of a stereophonic sound processing device according to an embodiment.
  • FIG. 2 is a flowchart showing the operation of the stereophonic sound processing apparatus according to the embodiment before using the AR device.
  • FIG. 3 is a flowchart showing the operation of the stereophonic sound processing apparatus according to the embodiment while the AR device is in use.
  • FIG. 4 is a diagram for explaining inserting a shape model into a space indicated by spatial information.
  • FIG. 5 is a diagram for explaining a first example of changes occurring in space and acoustic processing.
  • FIG. 6 is a diagram for explaining a second example of changes occurring in space and acoustic processing.
  • a stereophonic sound processing method is a stereophonic sound processing method used for reproducing stereophonic sound using an AR (Augmented Reality) device, wherein the stereophonic sound processing method is a stereophonic sound processing method used for reproducing stereophonic sound using an AR (Augmented Reality) device, and the stereophonic sound processing method is a stereophonic sound processing method that is used for reproducing stereophonic sound using an AR (Augmented Reality) device, wherein acquiring change information indicating a change in a space in which the AR device is located, and determining one or more acoustic processes based on the change information among a plurality of acoustic processes for rendering sound information indicating the sound; and performs sound processing only for the one or more sound processes determined among the plurality of sound processes, and generates the sound information based on the first processing result of each of the one or more sound processes executed. render.
  • a stereophonic sound processing method is a stereophonic sound processing method according to the first aspect, in which, in rendering the sound information, each of the one or more sound processing 1 processing result and a second processing result obtained in advance of each of one or more sound processings other than the one or more sound processings among the plurality of sound processings, The sound information may be rendered.
  • the second processing result obtained in advance is used as the processing result of one or more other acoustic processes, so the amount of calculation can be reduced compared to the case where some calculation is performed for one or more other acoustic processes. I can do it.
  • a stereophonic sound processing method is a stereophonic sound processing method according to the first or second aspect, and the change information includes information about changes in the space.
  • Information indicating an object may be included, and in determining the one or more acoustic treatments, the one or more acoustic treatments may be determined based on at least one of an acoustic characteristic of the object and a position of the object.
  • one or more acoustic processes are determined according to at least one of the acoustic characteristics of the object and the position of the object, so it is possible to generate sound information that more appropriately includes the influence of the object. Therefore, it is possible to generate sound information that can output a more appropriate sound according to the spatial situation at that time.
  • the stereophonic sound processing method according to the fourth aspect of the present disclosure is the stereophonic sound processing method according to the third aspect, in which the one or more acoustic processing is determined based on the acoustic characteristics of the object; , the position of the object is used, and based on the position of the object, it is determined whether or not to perform the one or more sound processing according to the object, and it is determined that the one or more sound processing is to be performed.
  • the one or more acoustic treatments may be determined based on acoustic characteristics of the object.
  • a stereophonic sound processing method is a stereophonic sound processing method according to any one of the first to fourth aspects, in which the change information includes:
  • the one or more acoustic processes may be performed using a simplified shape model of the object that includes information indicating an object that has changed in the object.
  • a simplified shape model of the object is used, so the amount of calculation in acoustic processing can be reduced compared to the case where the shape of the object itself is used.
  • the amount of calculation can be effectively reduced. Therefore, according to the stereophonic sound processing method, changes in acoustic features caused by changes in space can be easily reflected in rendering of sound information.
  • a stereophonic sound processing method is a stereophonic sound processing method according to a fifth aspect, in which a plurality of shape models are stored in advance based on the type of the object.
  • the shape model may be acquired by reading out the shape model corresponding to the object from the section.
  • the amount of calculations required to obtain the shape model can be reduced compared to the case where the shape model is generated by calculation or the like.
  • a stereophonic sound processing method is a stereophonic sound processing method according to the fifth or sixth aspect, in which the shape model is inserted into spatial information indicating the space.
  • the one or more acoustic processes may be determined based on the spatial information into which the shape model is inserted.
  • the situation in the space at that point in time can be reproduced using the shape model.
  • a stereophonic sound processing device is a stereophonic sound processing device used for reproducing stereophonic sound using an AR device
  • the stereophonic sound processing device is a stereophonic sound processing device used for reproducing stereophonic sound using an AR device
  • the stereophonic sound processing device an acquisition unit that acquires change information indicating a change in a space in which a device is located; and determining one or more acoustic processes based on the change information among a plurality of acoustic processes for rendering sound information indicating the sound.
  • a program according to a ninth aspect of the present disclosure is a program for causing a computer to execute the stereophonic sound processing method according to any one of the first to seventh aspects.
  • these general or specific aspects may be realized in a system, a method, an integrated circuit, a computer program, or a non-transitory recording medium such as a computer-readable CD-ROM. It may be realized by any combination of a circuit, a computer program, or a recording medium.
  • the program may be stored in advance on a recording medium, or may be supplied to the recording medium via a wide area communication network including the Internet.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Therefore, for example, the scales and the like in each figure do not necessarily match. Further, in each figure, substantially the same configurations are denoted by the same reference numerals, and overlapping explanations will be omitted or simplified.
  • FIG. 1 is a block diagram showing the functional configuration of a stereophonic sound processing device 10 according to the present embodiment.
  • the stereophonic sound processing device 10 is included in the stereophonic sound reproduction system 1, and the stereophonic sound reproduction system 1 includes a sensor 20 and a sound output device 30 in addition to the stereophonic sound processing device 10. Be prepared.
  • the stereophonic sound reproduction system 1 is built into the AR device, for example, but at least one of the stereophonic sound processing device 10 and the sensor 20 may be realized by a device external to the AR device.
  • the stereophonic sound reproduction system 1 generates sound information so that the sound output device 30 of the AR device outputs a sound corresponding to the indoor space (hereinafter also simply referred to as space) in which the user wearing the AR device is located.
  • This is a system for rendering (sound signals) and outputting (reproducing) sound based on the rendered sound information.
  • Indoor space may be any space that is somewhat closed off, and examples include living rooms, halls, conference rooms, hallways, stairs, and bedrooms.
  • the AR device is a glasses-type AR wearable terminal (so-called smart glasses) that can be worn by the user or a head-mounted display for AR, but may also be a mobile terminal such as a smartphone or a tablet-type information terminal.
  • augmented reality refers to a technology that uses an information processing device to add additional information to the real environment, such as scenery, topography, and objects in real space.
  • the AR device includes a display section, a camera (an example of the sensor 20), a speaker (an example of the sound output device 30), a microphone, a processor, a memory, and the like. Further, the AR device may include a depth sensor, a GPS (Global Positioning System) sensor, a LiDAR (Laser Imaging Detection and Ranging), and the like.
  • a GPS Global Positioning System
  • LiDAR Laser Imaging Detection and Ranging
  • spatial acoustic features are required as spatial information. Therefore, before using the AR device, spatial information of the real space in which the AR device will be used is acquired, and when (or before) the AR device is activated, the spatial information acquired in advance is input to the processing device that performs rendering. It is being considered to do so. Spatial information including acoustic features may be obtained, for example, by measuring the space in advance, or may be obtained by calculation by a computer. Note that the spatial information includes, for example, the size and shape of the space, the acoustic features of construction materials such as walls that make up the space, the acoustic features of objects in the space, and the positions and shapes of objects in the space. It will be done.
  • the stereophonic sound processing device 10 is an information processing device used for reproducing stereophonic sound using an AR device, and includes an acquisition section 11, an updating section 12, a storage section 13, a control section 14, and a sound processing section 15. , and a rendering unit 16.
  • the acquisition unit 11 acquires, from the sensor 20, change information indicating changes in the space where the user wearing the AR device is present while the AR device is in use.
  • a change in a space is a change in an object located in the space, such as a change in the acoustic features of the space; for example, the movement (change of position) of an object in the space, or the change in the acoustic features of the space. Examples include an increase or decrease in an object, or a change in at least one of shape and size, such as deformation of an object in space.
  • the change information includes information indicating objects that have changed in space.
  • the change information may include, for example, information indicating the type of object that has changed in space and the position of the object in space.
  • the types of objects include, but are not limited to, moving objects (mobile objects) such as people, pets, robots (for example, autonomous mobile robots), and stationary objects such as desks and partitions.
  • the change information may include, for example, an image showing an object in space (for example, an object that has changed in space).
  • the acquisition unit 11 may have a function of detecting that a change in space has occurred.
  • the acquisition unit 11 may have a function of detecting, for example, the type of object and the position of the object in space from an image by image processing or the like.
  • the acquisition unit 11 may function as a detection unit that detects that a change in space has occurred.
  • the acquisition unit 11 is configured to include, for example, a communication module (communication circuit).
  • the updating unit 12 executes processing for reproducing the current situation of the real space in the space indicated by the spatial information acquired in advance. It can also be said that the updating unit 12 executes a process of updating spatial information acquired in advance according to the current situation of the real space.
  • the updating unit 12 updates a shape model (object) according to the type of object (hereinafter also referred to as target object) included in the change information in the space indicated by the spatial information acquired in advance. is inserted (arranged) at the spatial position indicated by the spatial information corresponding to the position of the target object.
  • the updating unit 12 determines a shape model based on the type of target object and a table in which the type of target object and the shape model are associated.
  • the updating unit 12 acquires a shape model by reading out a shape model corresponding to the object from the storage unit 13 that stores a plurality of shape models in advance based on the type of the object.
  • "Beforehand" means, for example, before outputting content including sound in the AR device, but is not limited thereto.
  • a shape model is a simplified model of an object (imitation of an object), and is represented by, for example, one type of three-dimensional shape.
  • the three-dimensional shape is a shape corresponding to an object, and for example, a shape model corresponding to each type of object is set in advance.
  • Examples of the three-dimensional shape include, but are not limited to, a prismatic shape, a cylindrical shape, a conical shape, a spherical shape, a plate shape, and the like.
  • a square prism may be set as the shape model.
  • the shape model may be formed by a combination of two or more types of three-dimensional shapes, and any shape may be used as long as it can reduce the amount of calculation when performing acoustic processing compared to the shape of the actual object.
  • spatial information into which the target object has been inserted for example, a space 200a shown in FIG. 4B described later
  • updated spatial information for example, a space 200a shown in FIG. 4B described later
  • the updating unit 12 removes the target object from the spatial information acquired in advance. Further, when the object moves, the updating unit 12 moves the target object in the spatial information acquired in advance to the position of the target object included in the change information. Further, when the object is deformed, the updating unit 12 deforms the target object in the spatial information acquired in advance into the shape of the target object included in the change information.
  • the storage unit 13 is a storage device that stores various tables used by the update unit 12 and the control unit 14. Furthermore, the storage unit 13 may store spatial information acquired in advance. "Before" means before the user uses the AR device in the target space.
  • the control unit 14 determines one or more sound processes based on the change information among the plurality of sound processes for rendering sound information (original sound information) indicating the sound output from the AR device.
  • the control unit 14 may determine one or more acoustic processes based on the type of object, for example.
  • the control unit 14 may determine one or more acoustic processes based on at least one of the acoustic feature amount (acoustic characteristic) of the object and the position of the object, for example.
  • the control unit 14 may determine one or more acoustic processes based on the spatial information into which the shape model has been inserted. Further, when there are a plurality of objects, the control unit 14 may determine one or more acoustic processes for each of the plurality of objects. In this way, the control unit 14 functions as a determining unit that determines one or more acoustic processes.
  • the plurality of acoustic processes include at least two of the following in a space: processing related to sound reflection, processing related to sound reverberation, processing related to sound occlusion (shielding), processing related to distance attenuation of sound, processing related to sound diffraction, etc. including.
  • Reflection refers to the phenomenon in which sound that is incident on an object at a certain angle is reflected back by the object.
  • Reverberation is a phenomenon in which sound generated in a space is heard as it reverberates due to reflection, etc.
  • the reverberation time is defined as the time during which the sound pressure level attenuates to a certain level (for example, 60 dB) after the sound source stops.
  • Occlusion refers to the effect of attenuating sound when there is some object (obstructor) between the sound source and the listening point.
  • Distance attenuation refers to a phenomenon in which sound attenuates depending on the distance between the sound source and the listening point.
  • Diffraction refers to a phenomenon in which when an object exists between a sound source and a listening point, sound wraps around due to reflection and is heard from a direction different from the actual direction of the sound source.
  • the sound processing unit 15 executes one or more sound processes determined by the control unit 14.
  • the audio processing unit 15 executes audio processing only for one or more of the plurality of audio processings.
  • the acoustic processing unit 15 executes each of the one or more acoustic processes based on the updated spatial information and the properties of the object, and calculates the processing results of each of the one or more acoustic processes.
  • the processing result includes coefficients (eg, filter coefficients) used for rendering.
  • the processing result of each of the one or more acoustic processing is an example of the first processing result. Note that the plurality of sound processes are set in advance.
  • the rendering unit 16 renders the originally stored sound information (additional rendering) using the processing results of one or more sound processes.
  • the rendering unit 16 outputs, as audio control information, the result of convolving the sound information using the coefficients obtained in each of the one or more audio processes. Details of the processing of the rendering unit 16 will be described later using FIG. 6. Note that rendering is a process of adjusting sound information according to the indoor environment of the space so that the sound is output at a predetermined volume and from a predetermined sound output position.
  • the sensor 20 is mounted in a position and orientation that allows sensing in the space, and senses changes in the space. Further, the sensor 20 is placed in the space and is communicably connected to the stereophonic sound processing device 10. The sensor 20 is capable of sensing the shape, position, etc. of an object in space. Further, the sensor 20 may be able to identify the type of object in the space.
  • the sensor 20 includes, for example, an imaging device such as a camera.
  • the sensor 20 can determine whether the AR device is located in the space where the sensor 20 is installed and whether the AR device is activated. It may be determined whether or not there is one.
  • the sound output device 30 outputs sound based on the sound control information acquired from the stereophonic sound processing device 10.
  • the sound output device 30 includes a speaker, a processing unit such as a CPU, and the like.
  • FIG. 2 is a flowchart showing the operation (stereophonic sound processing method) of the stereophonic sound processing apparatus 10 according to the present embodiment before using the AR device. Note that the process shown in FIG. 2 may be executed by a device other than the stereophonic sound processing device 10.
  • the acquisition unit 11 acquires spatial information including spatial acoustic features (S10).
  • the acquisition unit 11 acquires spatial information from the sensor 20, for example.
  • the acoustic processing unit 15 uses the spatial information to execute each of the plurality of acoustic processes (S20).
  • the rendering unit 16 executes rendering processing on the sound information using the processing results (an example of the second processing results) of each of the plurality of acoustic processings (S30).
  • the rendering unit 16 integrates the processing results (for example, coefficients) of each of the plurality of acoustic processes, and performs a convolution operation on the sound information using the integrated processing results.
  • the rendering unit 16 calculates a BRIR (Binaural Room Impulse Response) that reflects the characteristics of the human head or the characteristics of the space (acoustic processing such as reflection or reverberation).
  • BRIR is convolved with sound information.
  • the acoustic processing is not limited to this, and may be calculation of HRIR (Head Related Impulse Response) or other acoustic processing.
  • HRIR Head Related Impulse Response
  • FIG. 3 is a flowchart showing the operation (stereophonic sound processing method) of the stereophonic sound processing apparatus 10 according to the present embodiment while the AR device is in use. Note that in FIG. 3, the operation when the acquisition unit 11 has a function as a detection unit will be described.
  • the acquisition unit 11 acquires sensing data obtained by sensing the space where the AR device is located by the sensor 20 while the AR device is in use (S110).
  • the sensing data includes information indicating the shape and size of a space, the size and position of an object located in the space, and the like.
  • the acquisition unit 11 acquires sensing data periodically or in real time, for example. Sensing data is an example of change information.
  • the acquisition unit 11 determines whether there is a change in space (change in space) based on the sensing data (S120).
  • the acquisition unit 11 determines whether there is a spatial change based on the spatial information acquired in step S10 or the sensing data acquired most recently and the sensing data acquired in step S110.
  • the acquisition unit 11 determines Yes in step S110 when there is movement, increase/decrease, deformation, etc. of the object in the space. Note that an example will be described below in which the comparison target of the sensing data acquired in step S110 is the spatial information acquired in step S110. Further, below, an example of an operation when the number of objects increases in real space will be described.
  • the updating unit 12 inserts a simple object (shape model) into the space (spatial information) (S130). Inserting a geometric model into space is an example of updating spatial information.
  • FIG. 4 is a diagram for explaining inserting the shape model 210 into the space 200 indicated by the spatial information.
  • the object included in the change information is a person will be described.
  • FIG. 4(a) shows a space 200 indicated by spatial information acquired in advance, and a shape model 210 that is a simple object corresponding to a person.
  • FIG. 4(b) shows a space 200a indicated by spatial information after a simple object (shape model 210) is inserted into the space 200.
  • a shape model 210 is inserted into the space 200a.
  • Shape model 210 is inserted at a position in space 200a that corresponds to the position of the object in real space. The position of the object in real space is included in the sensing data acquired from the sensor 20.
  • the updating unit 12 returns to step S110 and continues the process.
  • the control unit 14 determines whether the acoustic feature amount of the space 200a indicated by the spatial information into which the shape model 210 has been inserted is affected (S140).
  • the control unit 14 makes the determination in step S140 based on at least one of the properties of the spatial scene, the properties of the sound source, and the position of the object. This determination corresponds to determining whether or not to perform acoustic processing according to the object (for example, whether or not additional rendering is necessary). Furthermore, when the number of multiple types of objects increases, the control unit 14 may perform the determination in step S140 for each of the multiple types of objects.
  • the properties of the scene include the acoustic features of the object (virtual object) being reproduced by the AR device.
  • the properties of the sound source are the properties of the sound indicated by the sound information, and include, for example, characteristics of the sound source such as whether the sound is resonant, such as the sound of a car engine, or whether it is a muffled sound.
  • control unit 14 may determine whether or not the acoustic feature amount of the space is affected based on information regarding objects that have increased in the space.
  • the control unit 14 may determine whether or not the acoustic feature amount of the space is affected based on, for example, the increased number of objects, the increased size or shape of the objects, or the like.
  • the control unit 14 determines that the acoustic feature amount of the space is affected when the number of increased objects is greater than or equal to a predetermined number, or when the size of the increased objects is greater than or equal to a predetermined size. It's okay.
  • control unit 14 controls, for example, the position of an object (real object) included in the spatial information acquired in advance, one of the objects (virtual object) reproduced by the AR device, and the increased object (real object). ) may be used to determine whether or not the acoustic features of the space are affected. If the distance is less than or equal to the predetermined distance, the control unit 14 determines that the acoustic feature amount of the space is affected because it is assumed that the acoustic feature amount of the space changes due to the interaction between objects. This corresponds to determining that audio processing is to be performed, that is, additional rendering is to be performed.
  • control unit 14 determines that there is no influence on the acoustic features, since it is assumed that the interaction between the objects has little effect on the acoustic features of the space. This corresponds to determining that no audio processing is to be performed, that is, no additional rendering is to be performed.
  • the distance used to determine whether there is an influence on the acoustic feature amount of the space is set for each acoustic feature amount of the object (virtual object) and the nature of the sound source, and may be stored in the storage unit 13. . Further, the control unit 14 may further use the properties (hard, soft, etc.) of each object in the space in the determination in step S140.
  • control unit 14 may perform the determination in step S140 using a table in which properties of objects (for example, hardness, size, etc.) are associated with whether or not to perform acoustic processing. .
  • FIG. 5 is a diagram for explaining changes that occur in space and a first example of acoustic processing.
  • (a) of FIG. 5 shows the state inside the real space 300 when a user U wearing the AR device 1a is located in the real space 300, and one person 50 increases while using the AR device 1a. It shows.
  • the sound output device 40 is a virtual object reproduced by the AR device 1a, and is an object that does not actually exist in the real space 300.
  • the stereophonic sound processing device 10 reproduces the sound that is output from the sound output device 40 and reaches the user U.
  • no additional rendering processing is performed because it is considered that the increase in the number of people 50 has little effect on the acoustic features of the real space 300.
  • the control unit 14 may determine not to perform the additional rendering process. Further, the control unit 14 may determine that, for example, if the increased number of people 50 is farther from the user U than a predetermined distance, there is no influence, for example, the additional rendering process is not performed.
  • the additional rendering process is a process in which audio processing is executed in parallel while the AR device is in use, and rendering is executed using the processing results of the executed audio processing.
  • FIG. 6 is a diagram for explaining a second example of changes occurring in space and acoustic processing.
  • (a) in FIG. 6 shows the situation in the real space 300 when a user U wearing the AR device 1a is located in the real space 300 and a plurality of people 50 increase while using the AR device 1a. It shows.
  • control unit 14 may determine that there is an impact, for example, to perform additional rendering processing on the sound information.
  • step S140 determines that there is an influence
  • step S150 determines that there is no influence
  • step S110 the process proceeds to step S110 to continue the process. do.
  • the control unit 14 functions as a determination unit.
  • control unit 14 determines one or more acoustic processes based on the change information (S150).
  • the control unit 14 may determine one or more acoustic processes based on the type of object, for example.
  • the control unit 14 determines one or more acoustic processes that need to be performed on the object determined to have an impact, using a table in which the type of object and one or more acoustic processes are associated with each other. good.
  • the table is created according to the properties of the object. For example, if the object is hard, it will affect the reflection characteristic, which is an acoustic feature, so one or more acoustic processes including processes related to sound reflection are associated with the object. In this way, the control unit 14 may determine one or more acoustic processes based on the acoustic characteristics of the object.
  • control unit 14 may determine one or more sound processes based on the positional relationship between the sound output device 40, the user U, and the object and the size of the object. For example, if an object larger than a predetermined size increases between the sound output device 40 and the user U, the control unit 14 may affect occlusion. The acoustic processing may be determined. In addition, when the number of objects smaller than a predetermined size increases between the sound output device 40 and the user U, the influence on the acoustic feature amount of the space is small, so the determination in step S140 may be No.
  • the table may be a table in which acoustic features (acoustic characteristics) of an object are associated with one or more acoustic processes.
  • the sound processing section 15 executes one or more sound processing determined by the control section 14 (S160).
  • the audio processing unit 15 does not perform any audio processing other than the one or more audio processing determined from among the plurality of audio processing in step S160.
  • the acoustic processing (initial stage) shown in FIG. 6(b) is the acoustic processing executed in step S20 shown in FIG. Each of five different acoustic processes is performed.
  • the acoustic processing (additional portion) shown in FIG. 6(b) is the acoustic processing executed in step S150 shown in FIG. ), E (E2) are executed. Note that each of B1 and B2, D1 and D2, and E1 and E2 is acoustic processing regarding the same acoustic feature amount, and the spatial information used for the processing is different.
  • the processing results of each of acoustic processing B (B2), D (D2), and E (E2) are an example of the first processing result, and the processing results of each of the acoustic processing A and C are an example of the second processing result. .
  • step S150 only a part of the acoustic processing performed in step S20 is executed. In other words, in step S150, all of the plurality of audio processes executed in step S20 are not executed. Thereby, compared to the case where all five sound processes are executed, the amount of calculation of the stereophonic sound processing device 10 can be reduced.
  • the rendering unit 16 executes rendering processing (additional rendering processing) on the sound information using the processing results of each of the one or more sound processings (S170).
  • the rendering unit 16 executes rendering (final rendering shown in FIG. 6(b)) using the processing results of the (initial) and (additional) acoustic processing shown in FIG. 6(b).
  • the rendering unit 16 executes rendering using the results of each of the five acoustic processes A, B (B2), C, D (D2), and E (E2).
  • the rendering unit 16 uses the processing result of the acoustic processing of B (B2) in preference to B (B1).
  • the rendering unit 16 uses the processing results of the acoustic processing using the latest spatial information in one acoustic processing with priority over the past processing results in the one acoustic processing.
  • the stereophonic sound processing apparatus 10 uses the processing results of each of one or more acoustic processes (an example of the first processing result) and the plurality of acoustic processes in rendering (additional rendering) of sound information while the AR device is in use. Rendering sound information based on the processing results (an example of the second processing results) of one or more of the other one or more sound processings excluding one or more of the sound processings and the second processing results obtained in advance. . It can also be said that the stereophonic sound processing device 10 suppresses each of the other one or more sound processes from being recalculated, and recalculates only the necessary sound processes according to the increased number of objects.
  • the rendering unit 16 outputs the sound information (acoustic control information) that has been subjected to rendering processing (additional rendering processing) to the sound output device 30 (S180). Thereby, the sound output device 30 can output sound according to the situation in the space at that time.
  • steps S110 to S180 are executed while the AR device is in use.
  • the three-dimensional sound processing device has been described as having both an updater and a controller, but it is sufficient if it includes at least one of an updater and a controller.
  • the stereophonic sound processing device may include only the updating section of the updating section and the control section.
  • Such a stereophonic sound processing device is a stereophonic sound processing device used to reproduce stereophonic sound using an AR device, and is a stereophonic sound processing device that is used to reproduce stereophonic sound using an AR device.
  • an updating unit that acquires change information indicating the change information, and inserts a shape model that simply represents the object included in the change information that has undergone a change into the space indicated by the spatial information of the space acquired in advance; (insertion section), an acoustic processing section that performs acoustic processing for a plurality of acoustic processes for rendering sound information indicating a sound using a simplified shape model of the object, and a plurality of executed acoustic processes. and a rendering unit that renders sound information based on the respective processing results.
  • the present disclosure may be realized as a stereophonic sound processing method executed by the stereophonic sound processing apparatus and a program for causing a computer to execute the stereophonic sound processing method.
  • the change in the object during use of the AR device is a change in a real object
  • the present invention is not limited to this, and may be a change in a virtual object. That is, changes in the object during use of the AR device may include movement, increase/decrease, deformation, etc. of the virtual object.
  • the acquisition unit of the stereophonic sound processing device acquires the change information from the display control device that controls the display of the AR device.
  • the stereophonic sound processing apparatus is installed in an AR device, but it may also be installed in a server.
  • the AR device and the server are communicably connected (eg, wirelessly communicable).
  • the stereophonic sound processing device may be used indoors and may be mounted on or connected to any device that produces sound.
  • the device may be a stationary audio device or a game machine (for example, a portable game machine).
  • the update unit is not limited to this. You may insert it into the space after changing it. Furthermore, the update unit generates a new shape model according to the shape of the object by combining multiple shape models based on the shape of the object included in the sensing data, and inserts the generated new shape model into the space. You may.
  • the change in the space may include, for example, a change in the space itself.
  • a change in the space itself means that at least one of the size and shape of the space itself changes, for example, when a door, a sliding door, etc. placed between two spaces is opened or closed.
  • the processing from step S140 onwards may be executed using the shape of the object itself.
  • the control unit may determine whether to replace the shape of the object with a shape model between step S120 and step S130 based on the type of object or the shape of the object included in the change information. . Then, the control unit may execute step S130 only when it is determined that the object should be replaced, and may insert the shape of the object itself into the space when it is determined that the object is not to be replaced.
  • control unit may determine not to replace the object if it is assumed that the amount of calculation in the acoustic processing is less than or equal to a predetermined amount based on the type of object or the shape of the object.
  • the control unit may perform the determination based on a table in which the type of object or the shape of the object is associated with whether or not to replace it. Further, the table is set in advance and stored in the storage unit.
  • each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the stereophonic sound processing device may be realized as a single device or may be realized by a plurality of devices.
  • at least a portion of each component included in the stereophonic sound processing device may be realized by a device such as a server that can communicate with an AR device.
  • each component included in the stereophonic sound processing device may be distributed to the plurality of devices in any manner.
  • the communication method between the plurality of devices is not particularly limited, and may be wireless communication or wired communication. Additionally, wireless communication and wired communication may be combined between devices.
  • each of the components described in the above embodiments may be realized as software, or typically, as an LSI that is an integrated circuit. These may be integrated into one chip individually, or may be integrated into one chip including some or all of them. Although it is referred to as an LSI here, it may also be called an IC, system LSI, super LSI, or ultra LSI depending on the degree of integration. Moreover, the method of circuit integration is not limited to LSI, and may be implemented using a dedicated circuit (a general-purpose circuit that executes a dedicated program) or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connections or settings of circuit cells inside the LSI may be used after the LSI is manufactured. Furthermore, if an integrated circuit technology that replaces LSI emerges due to advances in semiconductor technology or other derivative technologies, that technology may of course be used to integrate the components.
  • a system LSI is a super-multifunctional LSI manufactured by integrating multiple processing units on a single chip, and specifically includes a microprocessor, ROM (Read Only Memory), RAM (Random Access Memory), etc.
  • a computer system that includes: A computer program is stored in the ROM. The system LSI achieves its functions by the microprocessor operating according to a computer program.
  • one aspect of the present disclosure may be a computer program that causes a computer to execute each characteristic step included in the stereophonic sound processing method shown in either FIG. 2 or FIG. 3.
  • the program may be a program to be executed by a computer.
  • one aspect of the present disclosure may be a computer-readable non-transitory recording medium in which such a program is recorded.
  • such a program may be recorded on a recording medium and distributed or distributed. For example, by installing a distributed program on a device having another processor and having that processor execute the program, it is possible to cause that device to perform each of the above processes.
  • the sound information (sound signal) rendered in the present disclosure is stored in a storage device (not shown) or storage external to the stereophonic sound processing device 10 as an encoded bitstream including sound information (sound signal) and metadata.
  • the information may be obtained from the section 13.
  • the sound information may be acquired by the stereophonic sound processing device 10 as a bitstream encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • an extraction unit (not shown) may be included in the stereophonic sound processing device 10, and the extraction unit performs decoding processing on the bitstream encoded based on the above-mentioned MPEG-H 3D Audio or the like.
  • the extractor functions as a decoder.
  • the extraction unit decodes the encoded bitstream and provides the decoded sound signal and metadata to the control unit 14.
  • the extraction section may exist outside the stereophonic sound processing device 10, and the control section 14 may acquire the decoded sound signal and metadata.
  • the encoded sound signal includes information about the target sound played by the stereophonic sound processing device 10.
  • the target sound here is a sound emitted by a sound source object (virtual object) existing in the sound reproduction space or a natural environmental sound, and may include, for example, mechanical sound or the sounds of animals including humans.
  • the three-dimensional sound processing device 10 may acquire a plurality of sound signals corresponding to each of the plurality of sound source objects.
  • Metadata is, for example, information used to control acoustic processing of sound information in the stereophonic sound processing device 10.
  • Metadata may be information used to describe the nature of a scene expressed in a virtual space (sound playback space).
  • the term "scene” refers to a collection of all elements representing three-dimensional video and audio events that are modeled by the three-dimensional sound processing device 10 using metadata. That is, the metadata referred to here may include not only information such as acoustic feature values that control audio processing, but also information that controls video processing.
  • the metadata may include information for controlling only one of the audio processing and the video processing, or may include information used for controlling both.
  • the stereophonic sound processing device 10 performs acoustic processing on sound information using metadata included in the bitstream and interactive position information of the user U acquired from the sensor 20, etc., thereby creating virtual sound. Generate effects. For example, acoustic effects such as reflected sound generation, occlusion-related processing, diffracted sound-related processing, distance attenuation effect, localization, sound image localization processing, or Doppler effect may be added. Further, information for switching on/off all or part of the sound effects may be added as metadata.
  • the control unit 14 may determine one or more acoustic treatments for the object based on the spatial information or metadata into which the shape model has been inserted.
  • Metadata may be obtained from sources other than the bitstream of sound information.
  • the metadata that controls audio or the metadata that controls video may be obtained from sources other than the bitstream, or both metadata may be obtained from sources other than the bitstream.
  • the stereophonic sound processing device 10 transfers the metadata that can be used to control the video to the display device that displays the image. , or may have a function of outputting to a stereoscopic video playback device that plays back stereoscopic video.
  • the encoded metadata includes information regarding a sound reproduction space including a sound source object that emits a sound and an obstacle object, and localizing the sound image of the sound at a predetermined position within the sound reproduction space (that is, information regarding the localization position when the sound is perceived as arriving from a predetermined direction, that is, information regarding the predetermined direction.
  • the obstacle object may affect the sound perceived by the user U by, for example, blocking or reflecting the sound until the sound emitted by the sound source object reaches the user U. It is an object. Obstacle objects may include animals such as people, or moving objects such as machines, in addition to stationary objects. Further, when a plurality of sound source objects exist in the sound reproduction space, other sound source objects can become obstacle objects for any sound source object. Furthermore, both non-sound source objects such as building materials or inanimate objects and sound source objects that emit sound can be obstruction objects. Further, the sound source object and the obstacle object referred to herein may be virtual objects or real objects included in spatial information of a real space acquired in advance.
  • Spatial information that constitutes metadata includes information representing not only the shape of the sound playback space, but also the shape and position of an obstacle object that exists in the sound playback space, and the shape and position of a sound source object that exists in the sound playback space.
  • the sound reproduction space may be a closed space or an open space
  • the metadata includes, for example, the reflectivity of structures such as floors, walls, or ceilings that can reflect sound in the sound reproduction space
  • the sound reproduction Information representing the reflectance of an obstacle object existing in space is included.
  • the reflectance is a ratio of energy between reflected sound and incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as a uniformly set attenuation rate, diffracted sound, or early reflected sound may be used, for example.
  • the metadata may include information other than reflectance.
  • information regarding the material of the object may be included as metadata related to both the sound source object and the non-sound source object.
  • the metadata may include parameters such as diffusivity, transmittance, or sound absorption coefficient.
  • Information regarding the sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, or information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a continuous sound or a sound triggered by an event.
  • the sound source area in the object may be determined based on the relative relationship between the position of the user U and the position of the object, or may be determined with the object as a reference. When determined by the relative relationship between the position of the user U and the position of the object, the plane from which the user U is viewing the object is used as a reference, and sound X is heard from the right side of the object as viewed from the user U, and sound Y is heard from the left side.
  • the user U perceives that the message is being uttered.
  • the time to early reflected sound, reverberation time, or the ratio of direct sound to diffuse sound, etc. can be included.
  • the ratio of direct sound to diffused sound is zero, user U can only perceive direct sound.
  • Information indicating the position and orientation of user U is obtained from information other than the bitstream.
  • position information obtained by performing self-position estimation using sensing information etc. acquired from the sensor 20 may be used as information indicating the position and orientation of the user U.
  • the sound information and metadata may be stored in one bitstream, or may be stored separately in multiple bitstreams.
  • sound information and metadata may be stored in one file or separately in multiple files.
  • information indicating other related bitstreams is stored in one of the multiple bitstreams in which sound information and metadata are stored. Or it may be included in some bitstreams. Furthermore, information indicating other related bitstreams may be included in the metadata or control information of each bitstream of a plurality of bitstreams in which sound information and metadata are stored. When sound information and metadata are stored separately in multiple files, information indicating other related bitstreams or files is stored in one of the multiple files in which the sound information and metadata are stored. Or it may be included in some files. Further, information indicating other related bitstreams or files may be included in the metadata or control information of each bitstream of a plurality of bitstreams in which sound information and metadata are stored.
  • the related bitstreams or files are bitstreams or files that may be used simultaneously, for example, during audio processing.
  • the information indicating other related bitstreams may be collectively described in the metadata or control information of one bitstream among the plurality of bitstreams storing sound information and metadata.
  • the metadata or control information of two or more bitstreams out of a plurality of bitstreams storing sound information and metadata may be divided and described.
  • information indicating other related bitstreams or files may be collectively described in the metadata or control information of one of the multiple files storing sound information and metadata.
  • the metadata or control information of two or more files among a plurality of files storing sound information and metadata may be described separately.
  • a control file that collectively describes information indicating other related bitstreams or files may be generated separately from the plurality of files storing sound information and metadata. At this time, the control file does not need to store sound information and metadata.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier), etc. It is.
  • the acquisition unit 11 identifies or acquires the bitstream or file based on information indicating other related bitstreams or files.
  • information indicating other related bitstreams is included in the metadata or control information of at least some bitstreams among the plurality of bitstreams storing sound information and metadata
  • the information indicating the file may be included in the metadata or control information of at least some of the plurality of files storing sound information and metadata.
  • the file containing information indicating a related bitstream or file may be a control file such as a manifest file used for content distribution, for example.
  • the extraction unit decodes the encoded metadata and provides the decoded metadata to the control unit 14.
  • the control unit 14 provides the acquired metadata to the audio processing unit 15 and the rendering unit 16.
  • the control unit 14 does not give the same metadata to each of a plurality of processing units such as the audio processing unit 15 and the rendering unit 16, but gives the metadata necessary for the corresponding processing unit for each processing unit. You can.
  • the acquisition unit 11 acquires detection information including the amount of rotation or displacement detected by the sensor 20 and the position and orientation of the user U.
  • the acquisition unit 11 determines the position and orientation of the user U in the sound reproduction space based on the acquired detection information. More specifically, the acquisition unit 11 determines that the position and orientation of the user U indicated by the acquired detection information are the position and orientation of the user U in the sound reproduction space.
  • the updating unit 12 updates the position information included in the metadata according to the determined position and orientation of the user U. Therefore, the metadata that the control unit 14 provides to the audio processing unit 15 and rendering unit 16 is metadata that includes updated position information.
  • the stereophonic sound processing device 10 has a function as a renderer that generates a sound signal with added sound effects, but a server may also perform all or part of the function of the renderer.
  • all or part of the extraction unit (not shown), the acquisition unit 11, the update unit 12, the storage unit 13, the control unit 14, the sound processing unit 15, and the rendering unit 16 may exist in a server (not shown). good.
  • the sound signal generated within the server or the synthesized sound signal is received by the three-dimensional sound processing device 10 through a communication module (not shown), and reproduced by the sound output device 30.
  • the present disclosure is useful for devices and the like that process sound information indicating sounds output by an AR device.
  • 3D sound reproduction system 1a AR device 10 3D sound processing device 11 Acquisition unit 12 Update unit 13 Storage unit 14 Control unit (determination unit) 15 Sound processing unit 16 Rendering unit 20 Sensor 30, 40 Sound output device 50 People 200, 200a Space 210 Shape model 300 Real space U User

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

立体音響処理方法は、ARデバイス(1a)を用いた立体音響の再生に用いられる立体音響処理方法であって、ARデバイス(1a)において音を含むコンテンツの出力中に、ARデバイス(1a)が位置する空間内の変化を示す変化情報を取得し(S110)、音を示す音情報をレンダリングするための複数の音響処理のうち、変化情報に基づく1以上の音響処理を決定し(S150)、複数の音響処理のうち決定された1以上の音響処理に対してのみ音響処理を実行し(S160)、実行された1以上の音響処理それぞれの第1処理結果に基づいて、音情報をレンダリングする(S170)。

Description

立体音響処理方法、立体音響処理装置及びプログラム
 本開示は、立体音響処理方法、立体音響処理装置及びプログラムに関する。
 特許文献1には、測定用マイクロホンアレイ、測定用スピーカアレイ等の機器を用いて室内空間の音響特徴量(音響特性)を取得する技術が開示されている。
特開2012-242597号公報
 上記の特許文献1の技術で取得された実空間の音響特徴量は、AR(Augmented Reality:拡張現実)デバイスから出力される音を示す音情報のレンダリングを行う際に利用されることがある。その際、当該空間内においてARデバイスを使用中に、空間に人の出入りが生じる、空間内の物体が動く又は増減するなどといった空間の変化が発生することが考えられる。つまり、ARデバイスを使用中に、空間の音響特徴量に変化が発生することが考えられる。
 ARデバイスから出力される音には、このような使用中の空間内の変化が容易に反映されることが望まれる。しかしながら、特許文献1には、使用中の空間内の変化を容易に反映する技術については開示されていない。
 そこで、本開示は、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる立体音響処理方法、立体音響処理装置及びプログラムを提供する。
 本開示の一態様に係る立体音響処理方法は、AR(Augmented Reality)デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得し、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定し、前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行し、実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングする。
 本開示の一態様に係る立体音響処理装置は、ARデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定する決定部と、前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行する音響処理部と、実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える。
 本開示の一態様に係るプログラムは、上記の立体音響処理方法をコンピュータに実行させるためのプログラムである。
 本開示の一態様によれば、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる立体音響処理方法等を実現することができる。
図1は、実施の形態に係る立体音響処理装置の機能構成を示すブロック図である。 図2は、ARデバイスの使用前における、実施の形態に係る立体音響処理装置の動作を示すフローチャートである。 図3は、ARデバイスの使用中における、実施の形態に係る立体音響処理装置の動作を示すフローチャートである。 図4は、空間情報が示す空間に形状モデルを挿入することを説明するための図である。 図5は、空間に生じる変化、及び、音響処理の第1例を説明するための図である。 図6は、空間に生じる変化、及び、音響処理の第2例を説明するための図である。
 本開示の第1の態様に係る立体音響処理方法は、AR(Augmented Reality)デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得し、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定し、前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行し、実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングする。
 これにより、空間内の変化が発生した場合に、複数の音響処理のうち決定された1以上の音響処理のみが実行されるので、複数の音響処理の全てが実行される場合に比べて空間内の変化を音情報に反映するための演算量を低減することができる。よって、立体音響処理方法によれば、空間内の変化が発生した場合の演算量の増加が抑制されるので、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる。
 また、例えば、本開示の第2の態様に係る立体音響処理方法は、第1の態様に係る立体音響処理方法であって、前記音情報のレンダリングにおいて、前記1以上の音響処理それぞれの前記第1処理結果と、前記複数の音響処理のうち前記1以上の音響処理を除く他の1以上の音響処理それぞれの第2処理結果であって、予め取得された第2処理結果とに基づいて、前記音情報をレンダリングしてもよい。
 これにより、他の1以上の音響処理の処理結果に、予め取得された第2処理結果が用いられるので、他の1以上の音響処理に対する何らかの演算を行う場合に比べて演算量を低減することができる。
 また、例えば、本開示の第3の態様に係る立体音響処理方法は、第1の態様又は第2の態様に係る立体音響処理方法であって、前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、前記1以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置の少なくとも一方に基づいて、前記1以上の音響処理を決定してもよい。
 これにより、物体の音響特性、及び、物体の位置の少なくとも一方に応じた1以上の音響処理が決定されるので、当該物体の影響をより適切に含む音情報を生成することができる。よって、その時点の空間の状況に応じたより適切な音を出力可能な音情報を生成することができる。
 また、例えば、本開示の第4の態様に係る立体音響処理方法は、第3の態様に係る立体音響処理方法であって、前記1以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置を用いており、前記物体の位置に基づいて、前記物体に応じた前記1以上の音響処理を実行するか否かを判定し、前記1以上の音響処理を実行すると判定された場合、前記物体の音響特性に基づいて、前記1以上の音響処理を決定してもよい。
 これにより、1以上の音響処理を実行するか否かが判定されるので、不要な音響処理が実行されることを抑制することができる。
 また、例えば、本開示の第5の態様に係る立体音響処理方法は、第1の態様~第4の態様のいずれかに係る立体音響処理方法であって、前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、前記物体を簡易化した形状モデルを用いて、前記1以上の音響処理を実行してもよい。
 これにより、物体を簡易化した形状モデルが用いられるので、物体そのものの形状を用いる場合に比べて音響処理における演算量を低減することができる。特に、動きの予測が難しい物体(例えば、人など)に対して形状モデルが用いられることで、効果的に演算量を低減することができる。よって、立体音響処理方法によれば、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングにより容易に反映することができる。
 また、例えば、本開示の第6の態様に係る立体音響処理方法は、第5の態様に係る立体音響処理方法であって、前記物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部から、当該物体に対応する形状モデルを読み出すことで、前記形状モデルを取得してもよい。
 これにより、形状モデルを読み出すだけでよいので、形状モデルを演算等により生成する場合に比べて、形状モデルを取得するための演算量を低減することができる。
 また、例えば、本開示の第7の態様に係る立体音響処理方法は、第5の態様又は第6の態様に係る立体音響処理方法であって、前記空間を示す空間情報に前記形状モデルを挿入し、前記形状モデルが挿入された前記空間情報に基づいて、前記1以上の音響処理を決定してもよい。
 これにより、形状モデルを用いて、その時点の空間内の状況を再現することができる。このような空間情報が用いられることで、その時点の空間内の状況に適正した1以上の音響処理を決定することができる。
 本開示の第8の態様に係る立体音響処理装置は、ARデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定する決定部と、前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行する音響処理部と、実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える。また、本開示の第9の態様に係るプログラムは、第1の態様~第7の態様のいずれかの立体音響処理方法をコンピュータに実行させるためのプログラムである。
 これにより、上記の立体音響処理方法と同様の効果を奏する。
 なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROMなどの非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネットなどを含む広域通信網を介して記録媒体に供給されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
 また、本明細書において、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度(あるいは、10%程度)の差異をも含むことを意味する表現である。
 (実施の形態)
 以下、本実施の形態に係る立体音響処理方法及び立体音響処理方法を実行する立体音響処理装置について、図1~図6を参照しながら説明する。
 [1.立体音響処理装置の構成]
 まず、本実施の形態に係る立体音響処理装置の構成について、図1を参照しながら説明する。図1は、本実施の形態に係る立体音響処理装置10の機能構成を示すブロック図である。
 図1に示すように、立体音響処理装置10は、立体音響再生システム1に含まれており、立体音響再生システム1は、立体音響処理装置10以外に、センサ20と、出音装置30とを備える。立体音響再生システム1は、例えば、ARデバイスに内蔵されているが、立体音響処理装置10及びセンサ20の少なくとも一方はARデバイスの外部の装置により実現されてもよい。
 立体音響再生システム1は、ARデバイスを装着したユーザがいる室内空間(以降において、単に空間とも記載する)に応じた音が当該ARデバイスの出音装置30から出音されるように、音情報(音信号)をレンダリングし、レンダリングされた音情報に基づいて音を出力する(再生する)ためのシステムである。
 室内空間とは、ある程度閉塞された空間であればよく、リビング、ホール、会議室、廊下、階段、寝室等が挙げられる。
 ARデバイスは、ユーザが装着可能なメガネ型のARウェアラブル端末(いわゆるスマートグラス)又はAR用のヘッドマウントディスプレイであるが、スマートフォン又はタブレット型情報端末等の携帯端末であってもよい。なお、拡張現実とは、現実空間の景色、地形、物体等の現実環境に、情報処理装置を使ってさらに情報を加える技術を指す。
 ARデバイスは、表示部、カメラ(センサ20の一例)、スピーカ(出音装置30の一例)、マイク、プロセッサ、メモリ等を備える。また、ARデバイスは、深度センサ、GPS(Global Positioning System)センサ、LiDAR(Laser Imaging Detection and Ranging)等を備えていてもよい。
 音情報のレンダリング時には空間情報として空間の音響特徴量が必要である。そのため、ARデバイスの使用前に、ARデバイスを使用する実空間の空間情報を取得しておき、ARデバイスの起動時(又は起動前)に事前に取得した空間情報を、レンダリングする処理装置に入力することが検討されている。音響特徴量を含む空間情報は、例えば、事前に空間を計測することで取得されてもよいし、コンピュータによる演算により取得されてもよい。なお、空間情報には、例えば、空間の大きさ及び形状、空間を構成する壁等の造営材の音響特徴量、空間内の物体の音響特徴量、空間内の物体の位置及び形状などが含まれる。
 ところで、ARデバイスの使用中に、空間に人の出入りが生じる、室間内の物体が動く又は増減するなどといった空間内の変化が発生することが考えられる。このような空間内の変化が生じると、空間の音響特徴量(音響特性)が変化する。そのため、空間に応じた音をARデバイスから出力するためには、再度レンダリング(追加レンダリング)を行う必要があるが、処理装置である立体音響処理装置10の演算負荷が増えることが懸念される。特に、人などの動きの予測が困難である物体に対応する場合に、高レートのセンシングが必要となり、立体音響処理装置10の演算負荷が増えることが懸念される。
 そこで、以下では、ARデバイスが位置する空間内の変化によって生じた当該空間の音響特徴量の変化を容易に音のレンダリングに反映する装置として、追加レンダリングを行う際の演算量を低減可能な立体音響処理装置10について説明する。なお、ARデバイスの使用中とは、起動したARデバイスをユーザが使用中であることを意味し、具体的には、ユーザに装着されたARデバイスにおいて音を含むコンテンツの出力中であることを意味する。
 立体音響処理装置10は、ARデバイスを用いた立体音響の再生に用いられる情報処理装置であり、取得部11と、更新部12と、記憶部13と、制御部14と、音響処理部15と、レンダリング部16とを備える。
 取得部11は、ARデバイスの使用中に、ARデバイスを装着したユーザがいる空間内の変化を示す変化情報をセンサ20から取得する。空間内の変化とは、当該空間の音響特徴量が変化するような当該空間内に位置する物体の変化であり、例えば、空間内の物体が動く(位置が変わる)こと、空間内に位置する物体が増減すること、空間内の物体が変形するなど形状及び大きさの少なくとも一方が変化することなどが例示される。
 変化情報には、空間内において変化した物体を示す情報が含まれる。変化情報には、例えば、空間内において変化した物体の種類及び物体の空間内における位置を示す情報が含まれてもよい。物体の種類は、移動する物体(移動体)として、人、ペット、ロボット(例えば、自律移動ロボット)などを含み、据え置きされる物体として、机、パーティションなどを含むが、これらに限定されない。
 また、変化情報には、例えば、空間内の物体(例えば、空間内において変化した物体)が映る画像が含まれてもよい。この場合、取得部11は、空間内の変化が発生したことを検出する機能を有していてもよい。取得部11は、例えば、画像から物体の種類及び空間内における物体の位置を画像処理などにより検出する機能を有していてもよい。取得部11は、空間内の変化が発生したことを検出する検出部として機能してもよい。
 取得部11は、例えば、通信モジュール(通信回路)を含んで構成される。
 更新部12は、事前に取得された空間情報が示す空間に実空間の現在状況を再現するための処理を実行する。更新部12は、事前に取得された空間情報を、実空間の現在状況に応じて更新する処理を実行するとも言える。更新部12は、物体が増加した場合、事前に取得された空間情報が示す空間内に、変化情報に含まれる物体(以降において、対象物体とも記載する)の種類に応じた形状モデル(オブジェクト)を、対象物体の位置に対応する空間情報が示す空間の位置に挿入(配置)する。更新部12は、対象物体の種類と、対象物体の種類及び形状モデルが対応付けられたテーブルとに基づいて、形状モデルを決定する。更新部12は、物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部13から当該物体に対応する形状モデルを読み出すことで、形状モデルを取得する。予めとは、例えば、ARデバイスにおいて音を含むコンテンツを出力するより前を意味するが、これに限定されない。
 形状モデルは、物体を簡易化した(物体を模した)モデルであり、例えば、1種類の立体形状で示される。立体形状は、物体に対応する形状であり、例えば、物体の種類ごとに対応する形状モデルが予め設定されている。立体形状は、例えば、角柱状、円柱状、錐状、球状、板状などであるが、これらに限定されない。例えば、物体が人であれば、四角柱が形状モデルとして設定されていてもよい。
 なお、形状モデルは、2種類以上の立体形状の組み合わせで形成されていてもよく、実際の物体の形状より音響処理を行う際の演算量を減らすことができる形状であればよい。また、以降において、対象物体が挿入された空間情報(例えば、後述する図4の(b)に示す空間200a)を、更新された空間情報とも記載する。
 また、更新部12は、物体が減少した場合、事前に取得された空間情報から、対象物体を除去する。また、更新部12は、物体が移動した場合、事前に取得された空間情報内の対象物体を、変化情報に含まれる当該対象物体の位置に移動させる。また、更新部12は、物体が変形した場合、事前に取得された空間情報内の対象物体を、変化情報に含まれる当該対象物体の形状に変形させる。
 記憶部13は、更新部12及び制御部14が用いる各種テーブルを記憶する記憶装置である。また、記憶部13は、事前に取得された空間情報を記憶していてもよい。事前とは、ユーザが対象となる空間でARデバイスを使用するより前のことを意味する。
 制御部14は、ARデバイスから出力される音を示す音情報(もとの音情報)をレンダリングするための複数の音響処理のうち、変化情報に基づく1以上の音響処理を決定する。制御部14は、例えば、物体の種類に基づいて、1以上の音響処理を決定してもよい。制御部14は、例えば、物体の音響特徴量(音響特性)、及び、物体の位置の少なくとも一方に基づいて、1以上の音響処理を決定してもよい。また、制御部14は、形状モデルが挿入された空間情報に基づいて、1以上の音響処理を判定してもよい。また、制御部14は、物体が複数である場合、複数の物体のそれぞれに対して、1以上の音響処理を決定してもよい。このように、制御部14は、1以上の音響処理を決定する決定部として機能する。
 複数の音響処理は、空間内における、音の反射に関する処理、音の残響に関する処理、音のオクルージョン(遮蔽)に関する処理、音の距離減衰に関する処理、音の回折に関する処理などのうち少なくとも2つ以上を含む。
 反射とは、あるオブジェクトにある角度を持って入射した音が当該オブジェクトによって跳ね返される現象を示す。残響とは、空間内で生じた音が反射等により響いて聞こえる現象であり、音源が停止した後に音圧レベルが一定(例えば60dB)減衰する時間が残響時間として規定される。オクルージョンとは、音源と試聴点との間に何らかのオブジェクト(遮蔽物)がある場合に音が減衰する効果を示す。距離減衰とは、音源と試聴点の距離に応じて音が減衰する現象を示す。回折とは、音源と試聴点の間にオブジェクトが存在する場合に、反射により音が回り込んで実際の音源方向とは異なる方向から音が聴こえる現象のことを示す。
 音響処理部15は、制御部14が決定した1以上の音響処理を実行する。音響処理部15は、複数の音響処理のうち当該1以上の音響処理に対してのみ音響処理を実行する。音響処理部15は、更新された空間情報と、物体の性質とに基づいて、1以上の音響処理それぞれを実行し、1以上の音響処理それぞれの処理結果を算出する。処理結果は、レンダリングに用いられる係数(例えば、フィルタ係数)を含む。1以上の音響処理それぞれの処理結果は、第1処理結果の一例である。なお、複数の音響処理は、予め設定されている。
 レンダリング部16は、1以上の音響処理それぞれの処理結果を用いて、もともと保存されている音情報をレンダリング(追加レンダリング)する。レンダリング部16は、1以上の音響処理それぞれで取得された係数を用いて音情報を畳み込み演算した結果を、音響制御情報として出力する。レンダリング部16の処理の詳細は、図6を用いて後述する。なお、レンダリングとは、所定の音量で、かつ、所定の出音位置から音が出音されているように、空間の室内環境に応じて音情報を調整する処理である。
 センサ20は、空間内をセンシング可能な位置及び姿勢で取り付けられ、空間内の変化をセンシングする。また、センサ20は、空間内に配置され、立体音響処理装置10と通信可能に接続される。センサ20は、空間内の物体の形状、位置等をセンシング可能である。また、センサ20は、空間内の物体の種類を特定可能であってもよい。センサ20は、例えば、カメラなどの撮像装置を含んで構成される。
 センサ20は、ARデバイスから位置情報及び使用中であることを示す情報を取得することで、センサ20が設けられた空間にARデバイスが位置しているか否か、及び、ARデバイスが起動中であるか否かを判定してもよい。
 出音装置30は、立体音響処理装置10から取得した音響制御情報に基づいて、出音する。出音装置30は、スピーカ、CPUなどの処理部等を有する。
 [2.立体音響処理装置の動作]
 続いて、上記のように構成される立体音響処理装置10の動作について、図2~図6を参照しながら説明する。
 まずは、ARデバイスの使用前の動作について、図2を参照しながら説明する。図2は、ARデバイスの使用前における、本実施の形態に係る立体音響処理装置10の動作(立体音響処理方法)を示すフローチャートである。なお、図2に示す処理は、立体音響処理装置10以外の装置により実行されてもよい。
 図2に示すように、取得部11は、空間の音響特徴量を含む空間情報を取得する(S10)。取得部11は、例えば、センサ20から空間情報を取得する。
 次に、音響処理部15は、空間情報を用いて、複数の音響処理のそれぞれを実行する(S20)。
 次に、レンダリング部16は、複数の音響処理のそれぞれ処理結果(第2処理結果の一例)を用いて、音情報に対してレンダリング処理を実行する(S30)。レンダリング部16は、レンダリング処理として、複数の音響処理それぞれの処理結果(例えば、係数)を統合し、統合した処理結果を用いて音情報に対して畳み込み演算する。レンダリング部16は、例えば、音響処理として、人の頭部の特性又は空間の特性(反射又は残響といった音響処理)を反映したBRIR(Binaural Room Impulse Response:バイノーラル室内インパルス応答)を計算し、計算したBRIRを音情報に対して畳み込み込み演算する。なお、音響処理は、これに限定されず、HRIR(Head Related Impulse Response:頭部インパルス応答)などを計算することであってもよいし、他の音響処理であってもよい。これにより、事前に取得された空間情報に応じた音を再生可能な音情報が生成される。
 続いて、ARデバイスの使用中の動作について、図3~図6を参照しながら説明する。図3は、ARデバイスの使用中における、本実施の形態に係る立体音響処理装置10の動作(立体音響処理方法)を示すフローチャートである。なお、図3では、取得部11が検出部としての機能を有する場合の動作について説明する。
 取得部11は、ARデバイスの使用中に、当該ARデバイスが位置する空間をセンサ20がセンシングしたセンシングデータを取得する(S110)。センシングデータには、空間の形状及び大きさ、空間内に位置する物体の大きさ及び位置を示す情報などが含まれる。取得部11は、例えば、センシングデータを定期的又はリアルタイムに取得する。センシングデータは、変化情報の一例である。
 次に、取得部11は、センシングデータに基づいて、空間の変化(空間内の変化)があるか否かを判定する(S120)。取得部11は、ステップS10で取得された空間情報、又は、直近に取得されたセンシングデータと、ステップS110で取得されたセンシングデータとから、空間の変化があるか否かを判定する。取得部11は、空間内の物体の移動、増減、変形などがある場合に、ステップS110においてYesと判定する。なお、以下では、ステップS110で取得されたセンシングデータの比較対象が、ステップS110で取得された空間情報である例について説明する。また、以下では、実空間に物体が増加した場合の動作を一例として説明する。
 次に、更新部12は、取得部11により空間の変化があると判定された場合(S120でYes)、簡易的なオブジェクト(形状モデル)を空間(空間情報)に挿入する(S130)。形状モデルを空間に挿入することは、空間情報を更新することの一例である。
 図4は、空間情報が示す空間200に形状モデル210を挿入することを説明するための図である。ここでは、変化情報に含まれる物体が人である例について説明する。
 図4の(a)は、事前に取得された空間情報が示す空間200と、人に対応する簡易的なオブジェクトである形状モデル210とを示している。
 図4の(b)は、空間200に簡易的なオブジェクト(形状モデル210)が挿入された後の空間情報が示す空間200aを示す。図4の(b)では、空間200a内に形状モデル210が挿入されている。形状モデル210は、当該物体の実空間での位置に対応する空間200a内の位置に挿入される。物体の実空間での位置は、センサ20から取得されたセンシングデータに含まれる。
 また、更新部12は、取得部11により空間の変化がないと判定された場合(S120でNo)、ステップS110に戻り処理を継続する。
 次に、制御部14は、形状モデル210が挿入された空間情報が示す空間200aの音響特徴量に影響があるか否かを判定する(S140)。制御部14は、空間のシーンの性質、音源の性質、及び、物体の位置などの少なくとも1つに基づいて、ステップS140の判定を行う。当該判定は、物体に応じた音響処理を実行するか否か(例えば、追加レンダリングを行う必要があるか否か)を判定することに相当する。また、制御部14は、複数種類の物体が増加した場合、当該複数種類の物体のそれぞれに対して、ステップS140の判定を実行してもよい。
 シーンの性質は、ARデバイスで再現している物体(仮想物体)の音響特徴量を含む。音源の性質は、音情報が示す音の性質であり、例えば、車のエンジン音などの響く音であるか、籠もる音であるかなどの音源の特徴を含む。
 制御部14は、例えば、空間に増加した物体に関する情報に基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部14は、例えば、増加した物体の数、増加した物体の大きさ又は形状などに基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部14は、例えば、増加した物体の数が所定数以上である場合、又は、増加した物体の大きさが所定の大きさ以上である場合、空間の音響特徴量に影響があると判定してもよい。
 また、制御部14は、例えば、事前に取得された空間情報に含まれる物体(現実物体)の位置、及び、ARデバイスで再現された物体(仮想物体)の一方と、増加した物体(現実物体)との距離に基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部14は、当該距離が所定距離以下である場合、物体間の相互作用により空間の音響特徴量が変化することが想定されるので、空間の音響特徴量に影響があると判定する。これは、音響処理を実行する、つまり追加レンダリングを実行すると判定することに相当する。また、制御部14は、当該距離が所定距離より大きい場合、物体間の相互作用による空間の音響特徴量への影響が小さいことが想定されるので、音響特徴量に影響がないと判定する。これは、音響処理を実行しない、つまり追加レンダリングを実行しないと判定することに相当する。
 なお、空間の音響特徴量に影響があるか否かに用いられる距離は、物体(仮想物体)の音響特徴量、音源の性質ごとに設定されており、記憶部13に記憶されていてもよい。また、制御部14は、ステップS140の判定において、さらに空間内の物体それぞれの性質(硬い、柔らかいなど)を用いてもよい。
 なお、制御部14は、物体の性質(例えば、硬さ、大きさなど)と、音響処理を実行するか否かとが対応付けられたテーブルを用いて、ステップS140の判定を実行してもよい。
 図5は、空間に生じる変化、及び、音響処理の第1例を説明するための図である。図5の(a)は、実空間300にARデバイス1aを装着したユーザUが位置しており、ARデバイス1aの使用中に、1人の人50が増加した場合の実空間300内の様子を示している。なお、出音装置40は、ARデバイス1aにより再現されている仮想物体であり、実空間300内に実際に存在しない物体である。この場合、立体音響処理装置10は、出音装置40から出力されユーザUに届く音を再現する。
 1人の人50の増加による実空間300の音響特徴量への影響が小さいと考えられるので、この場合、追加のレンダリング処理は実行されない。制御部14は、例えば、増加した人50の人数が所定数未満である場合、追加レンダリング処理を実行しないと判定してもよい。また、制御部14は、例えば、増加した人50がユーザUから所定距離より大きく離れている場合、影響がない、例えば、追加レンダリング処理を実行しないと判定してもよい。
 なお、追加レンダリング処理とは、ARデバイスの使用中に並行して音響処理を実行し、実行された音響処理の処理結果を用いて、レンダリングを実行する処理のことである。
 図6は、空間に生じる変化、及び、音響処理の第2例を説明するための図である。図6の(a)は、実空間300にARデバイス1aを装着したユーザUが位置しており、ARデバイス1aの使用中に、複数の人50が増加した場合の実空間300内の様子を示している。
 複数の人50の増加によって実空間300の音響特徴量への影響が大きいと考えられるので、この場合、追加レンダリング処理は実行される。制御部14は、例えば、増加した人50の人数が所定数以上である場合、影響がある、例えば、音情報に対する追加レンダリング処理を実行すると判定してもよい。
 図3を再び参照して、制御部14は、影響があると判定する(S140でYes)とステップS150に進み、影響がないと判定する(S140でNo)とステップS110に進み、処理を継続する。このように、制御部14は、判定部として機能する。
 次に、制御部14は、影響があると判定する(S140でYes)と、変化情報に基づく1以上の音響処理を決定する(S150)。制御部14は、例えば、物体の種類に基づいて、1以上の音響処理を決定してもよい。制御部14は、物体の種類と、1以上の音響処理とが対応付けられたテーブルを用いて、影響があると判定された物体において実行する必要がある1以上の音響処理を決定してもよい。当該テーブルは、物体の性質に応じて作成される。例えば、物体が硬い場合、音響特徴量である反射特性に影響を与えるので、音の反射に関する処理を含む1以上の音響処理が対応付けられる。このように、制御部14は、物体の音響特性に基づいて、1以上の音響処理を決定してもよい。
 また、制御部14は、出音装置40と、ユーザUと、物体との位置関係及び当該物体の大きさに基づいて、1以上の音響処理を決定してもよい。制御部14は、例えば、出音装置40とユーザUとの間に所定以上の大きさの物体が増加した場合、オクルージョンに影響を与える可能性があるので、音のオクルージョンに関する処理を含む1以上の音響処理を決定してもよい。なお、出音装置40とユーザUとの間に所定未満の大きさの物体が増加した場合、空間の音響特徴量に対する影響が小さいので、ステップS140でNoと判定されてもよい。
 なお、当該テーブルは、物体の音響特徴量(音響特性)と1以上の音響処理とが対応付けられたテーブルであってもよい。
 次に、音響処理部15は、制御部14により決定された1以上の音響処理を実行する(S160)。言い換えると、音響処理部15は、ステップS160において、複数の音響処理のうち決定された1以上の音響処理以外の音響処理を実行しない。
 図6の(b)に示す音響処理(初期)では、図2に示すステップS20で実行される音響処理であり、A、B(B1)、C、D(D1)、E(E1)の互いに異なる5つの音響処理のそれぞれが実行される。一方、図6の(b)に示す音響処理(追加分)は、図3に示すステップS150で実行される音響処理であり、1以上の音響処理として決定されたB(B2)、D(D2)、E(E2)の3つの音響処理のみが実行される。なお、B1及びB2、D1及びD2、E1及びE2のそれぞれは同一の音響特徴量に関する音響処理であり、処理に用いられた空間情報が異なる。音響処理B(B2)、D(D2)、E(E2)それぞれの処理結果は、第1処理結果の一例であり、音響処理A及びCそれぞれの処理結果は、第2処理結果の一例である。
 このように、ステップS150において、ステップS20で実行された音響処理のうち、一部の音響処理のみが実行される。言い換えると、ステップS150において、ステップS20で実行された複数の音響処理の全ては実行されない。これにより、5つの音響処理を全て実行する場合に比べて、立体音響処理装置10の演算量を低減することができる。
 次に、レンダリング部16は、1以上の音響処理それぞれの処理結果を用いて、音情報にレンダリング処理(追加レンダリング処理)を実行する(S170)。レンダリング部16は、図6の(b)に示す音響処理(初期)及び(追加分)それぞれの処理結果を用いてレンダリング(図6の(b)に示す最終レンダリング)を実行する。レンダリング部16は、A、B(B2)、C、D(D2)、E(E2)の5つの音響処理のそれぞれの処理結果を用いてレンダリングを実行する。レンダリング部16は、B(B1)に優先してB(B2)の音響処理の処理結果を用いる。音響処理D(D2)及びE(E2)についても同様である。レンダリング部16は、一の音響処理における最新の空間情報を用いた音響処理の処理結果を当該一の音響処理における過去の処理結果に優先して用いるとも言える。
 このように、立体音響処理装置10は、ARデバイスの使用中における音情報のレンダリング(追加レンダリング)において、1以上の音響処理それぞれの処理結果(第1処理結果の一例)と、複数の音響処理のうち1以上の音響処理を除く他の1以上の音響処理それぞれの処理結果(第2処理結果の一例)であって、予め取得された第2処理結果とに基づいて、音情報をレンダリングする。また、立体音響処理装置10は、他の1以上の音響処理それぞれが再計算されることを抑制し、増加した物体に応じた必要な音響処理のみを再計算するとも言える。
 図3を再び参照して、レンダリング部16は、レンダリング処理(追加レンダリング処理)された音情報(音響制御情報)を出音装置30に出力する(S180)。これにより、出音装置30は、その時点での空間内の状況に応じた音を出力することができる。
 なお、ステップS110~S180の処理は、ARデバイスの使用中に実行される。
 なお、図5の(b)に示す音響処理は、図6の(b)に示す音響処理(初期)に対応する。
 (その他の実施の形態)
 以上、一つ又は複数の態様に係る立体音響処理方法等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。
 例えば、上記実施の形態では、立体音響処理装置は、更新部及び制御部の両方を備える例について説明したが、更新部及び制御部の少なくとも1つを備えていればよい。例えば、立体音響処理装置は、更新部及び制御部のうち更新部のみを備えていてもよい。このような立体音響処理装置は、ARデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、ARデバイスにおいて音を含むコンテンツの出力中に、ARデバイスが位置する空間内の変化を示す変化情報を取得し、変化情報に含まれる物体であって変化が生じた物体を簡易的に示す形状モデルを、事前に取得された当該空間の空間情報が示す空間に挿入する更新部(挿入部)と、物体を簡易化した形状モデルを用いて、音を示す音情報をレンダリングするための複数の音響処理に対して音響処理を実行する音響処理部と、実行された複数の音響処理それぞれの処理結果に基づいて、音情報をレンダリングするレンダリング部とを備える。また、本開示は、当該立体音響処理装置が実行する立体音響処理方法、及び、当該立体音響処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。
 また、上記実施の形態では、ARデバイスの使用中における物体の変化が、現実物体の変化である例について説明したがこれに限定されず、仮想物体の変化であってもよい。つまり、ARデバイスの使用中における物体の変化は、仮想物体の移動、増減、変形などであってもよい。この場合、立体音響処理装置の取得部は、ARデバイスの表示を制御する表示制御装置から変化情報を取得する。
 また、上記実施の形態では、立体音響処理装置がARデバイスに搭載される例について説明したが、サーバに搭載されていてもよい。この場合、ARデバイスとサーバとは、通信可能(例えば、無線通信可能)に接続される。また、立体音響処理装置は、室内で用いられ、音を出音するいかなる装置に搭載、又は、接続されていてもよい。当該装置は、据え置き型のオーディオ機器であってもよいし、ゲーム機(例えば、携帯型のゲーム機)であってもよい。
 また、上記実施の形態では、更新部は、形状モデルをそのまま空間に挿入する例について説明したがこれに限定されず、例えば、形状モデルの大きさ(例えば、高さ)をセンシングデータに応じて変化させてから空間に挿入してもよい。また、更新部は、センシングデータに含まれる物体の形状に基づいて、複数の形状モデルを組み合わせて当該物体の形状に応じた新たな形状モデルを生成し、生成した新たな形状モデルを空間に挿入してもよい。
 また、上記実施の形態に係る空間内の変化は、例えば、空間自体の変化を含んでいてもよい。空間自体の変化とは、例えば、2つの空間の間に配置された、扉、ふすまなどが開かれる又は閉じられることで、空間自体の大きさ及び形状の少なくとも一方が変化することである。
 また、上記実施の形態では、形状モデルを用いる場合について説明したがこれに限定されず、一部の物体においては、当該物体の形状そのものを用いてステップS140以降の処理が実行されてもよい。制御部は、例えば、ステップS120とステップS130との間に、変化情報に含まれる物体の種類又は物体の形状に基づいて、当該物体の形状を形状モデルに置き換えるか否かを判定してもよい。そして、制御部は、置き換えると判定した場合のみ、ステップS130を実行し、置き換えないと判定した場合には、当該物体そのものの形状を空間に挿入してもよい。制御部は、例えば、物体の種類又は物体の形状に基づいて、音響処理における演算量が所定量以下であると想定される場合、置き換えないと判定してもよい。制御部は、物体の種類又は物体の形状と、置き換えるか否かとが対応付けられたテーブルに基づいて、当該判定を実行してもよい。また、当該テーブルは、事前に設定され、記憶部に記憶されている。
 また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時(並列)に実行されてもよいし、上記ステップの一部は実行されなくてもよい。
 また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
 また、上記実施の形態に係る立体音響処理装置は、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。例えば、立体音響処理装置が有する各構成要素のうち少なくとも一部は、サーバなどのARデバイスと通信可能な装置により実現されてもよい。立体音響処理装置が複数の装置によって実現される場合、当該立体音響処理装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。立体音響処理装置が複数の装置で実現される場合、当該複数の装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信及び有線通信が組み合わされてもよい。
 また、上記実施の形態で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路(専用のプログラムを実行する汎用回路)又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)又は、LSI内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。
 システムLSIは、複数の処理部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)等を含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 また、本開示の一態様は、図2及び図3のいずれかに示される立体音響処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。
 また、例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。
 なお、本開示においてレンダリングされる音情報(音信号)は、音情報(音信号)及びメタデータを含む符号化されたビットストリームとして立体音響処理装置10の外部の記憶装置(不図示)又は記憶部13から取得されてもよい。例えばMPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームとして音情報が立体音響処理装置10に取得されてもよい。その場合、抽出部(不図示)が立体音響処理装置10に含まれていてもよく、抽出部は上記のMPEG-H 3D Audioなどに基づいて符号化されたビットストリームに対して復号処理を施す。例えば、抽出部は、デコーダとして機能する。抽出部は、符号化されたビットストリームを復号し、復号した音信号及びメタデータを制御部14に与える。また、抽出部が立体音響処理装置10の外部に存在し、制御部14が復号された音信号及びメタデータを取得してもよい。
 一例として、符号化された音信号は、立体音響処理装置10によって再生される目的音についての情報を含む。ここでいう目的音は、音再生空間に存在する音源オブジェクト(仮想物体)が発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、音再生空間に音源オブジェクトが複数存在する場合、立体音響処理装置10は、複数の音源オブジェクトのそれぞれに対応する複数の音信号を取得してもよい。
 メタデータとは、例えば、立体音響処理装置10において音情報に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間(音再生空間)で表現されるシーンの性質を記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、立体音響処理装置10でモデリングされる、三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響特徴量などの音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 立体音響処理装置10は、ビットストリームに含まれるメタデータ、及び追加でセンサ20から取得されるインタラクティブなユーザUの位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。例えば、反射音生成、オクルージョンに関する処理、回折音に関する処理、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報がメタデータとして付加されてもよい。制御部14は、形状モデルが挿入された空間情報又はメタデータに基づいて、物体に対する1以上の音響処理を決定してもよい。
 なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。
 また、映像を制御するメタデータが立体音響処理装置10で取得されるビットストリームに含まれる場合は、立体音響処理装置10は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む音再生空間に関する情報と、当該音の音像を音再生空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がユーザUへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザUが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音再生空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。また、ここでいう音源オブジェクトと障害物オブジェクトとは、仮想物体でもよいし、事前に取得された実空間の空間情報に含まれる現実物体でもよい。
 メタデータを構成する空間情報として、音再生空間の形状だけでなく、音再生空間に存在する障害物オブジェクトの形状及び位置と、音再生空間に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。音再生空間は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の音再生空間において音を反射し得る構造物の反射率、及び音再生空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、音再生空間が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、ユーザUの位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。ユーザUの位置とオブジェクトの位置との相対的な関係で定められる場合、ユーザUがオブジェクトを見ている面を基準とし、ユーザUから見てオブジェクトの右側からは音X、左側からは音Yが発せられているようにユーザUに知覚させることができる。オブジェクトを基準として定められる場合、ユーザUの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザUに知覚させることができる。この場合、ユーザUがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザUに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをユーザUに知覚させることができる。
 ユーザUの位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、センサ20から取得したセンシング情報等を用いて自己位置推定を実施して得られた位置情報がユーザUの位置及び向きを示す情報として用いられてもよい。なお、音情報とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 音情報とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音情報とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。
 ここで、関連するビットストリーム又はファイルとはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音情報とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音情報とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音情報とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音情報とメタデータとを格納していなくてもよい。
 ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)、又はURI(Uniform Resource Identifier)等である。この場合、取得部11は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音情報とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音情報とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。
 抽出部(不図示)は、符号化されたメタデータを復号し、復号したメタデータを制御部14に与える。制御部14は、取得したメタデータを音響処理部15およびレンダリング部16に与える。ここで、制御部14は、音響処理部15およびレンダリング部16などの複数の処理部にそれぞれ同じメタデータを与えるのではなく、処理部ごとに、対応する当該処理部で必要なメタデータを与えてもよい。
 また、取得部11は、センサ20で検知された回転量又は変位量等とユーザUの位置及び向きとを含む検知情報を取得する。取得部11は、取得した検知情報に基づいて、音再生空間におけるユーザUの位置及び向きを決定する。より具体的には、取得部11は、取得した検知情報が示すユーザUの位置及び向きが、音再生空間におけるユーザUの位置及び向きであることを決定する。そして、更新部12は、決定したユーザUの位置及び向きに応じて、メタデータに含まれる位置情報を更新する。したがって、制御部14が音響処理部15およびレンダリング部16に与えるメタデータは、更新された位置情報を含むメタデータである。
 本実施の形態では立体音響処理装置10は、音響効果を付加した音信号を生成するレンダラとしての機能を有するが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、抽出部(不図示)、取得部11、更新部12、記憶部13、制御部14、音響処理部15及びレンダリング部16の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内で生成された音信号又は合成した音信号は、図示しない通信モジュールを通じて立体音響処理装置10で受信され、出音装置30で再生される。
 本開示は、ARデバイスで出力される音を示す音情報を処理する装置等に有用である。
 1  立体音響再生システム
 1a  ARデバイス
 10  立体音響処理装置
 11  取得部
 12  更新部
 13  記憶部
 14  制御部(決定部)
 15  音響処理部
 16  レンダリング部
 20  センサ
 30、40  出音装置
 50  人
 200、200a  空間
 210  形状モデル
 300  実空間
 U  ユーザ

Claims (9)

  1.  AR(Augmented Reality)デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、
     前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得し、
     前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定し、
     前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行し、
     実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングする、
     立体音響処理方法。
  2.  前記音情報のレンダリングにおいて、前記1以上の音響処理それぞれの前記第1処理結果と、前記複数の音響処理のうち前記1以上の音響処理を除く他の1以上の音響処理それぞれの第2処理結果であって、予め取得された第2処理結果とに基づいて、前記音情報をレンダリングする、
     請求項1に記載の立体音響処理方法。
  3.  前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、
     前記1以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置の少なくとも一方に基づいて、前記1以上の音響処理を決定する、
     請求項1又は2に記載の立体音響処理方法。
  4.  前記1以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置を用いており、
     前記物体の位置に基づいて、前記物体に応じた前記1以上の音響処理を実行するか否かを判定し、
     前記1以上の音響処理を実行すると判定された場合、前記物体の音響特性に基づいて、前記1以上の音響処理を決定する、
     請求項3に記載の立体音響処理方法。
  5.  前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、
     前記物体を簡易化した形状モデルを用いて、前記1以上の音響処理を実行する、
     請求項1又は2に記載の立体音響処理方法。
  6.  前記物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部から、当該物体に対応する形状モデルを読み出すことで、前記形状モデルを取得する、
     請求項5に記載の立体音響処理方法。
  7.  前記空間を示す空間情報に前記形状モデルを挿入し、
     前記形状モデルが挿入された前記空間情報に基づいて、前記1以上の音響処理を決定する、
     請求項5に記載の立体音響処理方法。
  8.  ARデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、
     前記ARデバイスにおいて音を含むコンテンツの出力中に、前記ARデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、
     前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく1以上の音響処理を決定する決定部と、
     前記複数の音響処理のうち決定された前記1以上の音響処理に対してのみ音響処理を実行する音響処理部と、
     実行された前記1以上の音響処理それぞれの第1処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える、
     立体音響処理装置。
  9.  請求項1又は2に記載の立体音響処理方法をコンピュータに実行させるためのプログラム。
PCT/JP2023/009601 2022-04-14 2023-03-13 立体音響処理方法、立体音響処理装置及びプログラム WO2023199673A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202380030758.7A CN119256564A (zh) 2022-04-14 2023-03-13 立体音响处理方法、立体音响处理装置及程序
JP2024514855A JPWO2023199673A1 (ja) 2022-04-14 2023-03-13
US18/909,246 US20250039629A1 (en) 2022-04-14 2024-10-08 Three-dimensional audio processing method, three-dimensional audio processing device, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263330839P 2022-04-14 2022-04-14
US63/330,839 2022-04-14
JP2023028857 2023-02-27
JP2023-028857 2023-02-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/909,246 Continuation US20250039629A1 (en) 2022-04-14 2024-10-08 Three-dimensional audio processing method, three-dimensional audio processing device, and recording medium

Publications (1)

Publication Number Publication Date
WO2023199673A1 true WO2023199673A1 (ja) 2023-10-19

Family

ID=88329409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/009601 WO2023199673A1 (ja) 2022-04-14 2023-03-13 立体音響処理方法、立体音響処理装置及びプログラム

Country Status (4)

Country Link
US (1) US20250039629A1 (ja)
JP (1) JPWO2023199673A1 (ja)
CN (1) CN119256564A (ja)
WO (1) WO2023199673A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149600A (ja) * 1994-11-18 1996-06-07 Yamaha Corp 3次元サウンドシステム
JP2000267675A (ja) * 1999-03-16 2000-09-29 Sega Enterp Ltd 音響信号処理装置
JP2012242597A (ja) 2011-05-19 2012-12-10 Hitachi Ltd 音響シミュレータ、音響コンサルティング装置及びそれらの処理方法
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149600A (ja) * 1994-11-18 1996-06-07 Yamaha Corp 3次元サウンドシステム
JP2000267675A (ja) * 1999-03-16 2000-09-29 Sega Enterp Ltd 音響信号処理装置
JP2012242597A (ja) 2011-05-19 2012-12-10 Hitachi Ltd 音響シミュレータ、音響コンサルティング装置及びそれらの処理方法
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Also Published As

Publication number Publication date
US20250039629A1 (en) 2025-01-30
JPWO2023199673A1 (ja) 2023-10-19
CN119256564A (zh) 2025-01-03

Similar Documents

Publication Publication Date Title
US11792598B2 (en) Spatial audio for interactive audio environments
US20230209295A1 (en) Systems and methods for sound source virtualization
CN111107482B (zh) 修改房间特性以通过耳机进行空间音频呈现的系统和方法
CN116567485A (zh) 音频装置和音频处理的方法
EP3595337A1 (en) Audio apparatus and method of audio processing
US11250834B2 (en) Reverberation gain normalization
CN113614685A (zh) 音频装置及其方法
Beig et al. An introduction to spatial sound rendering in virtual environments and games
KR20230165851A (ko) 오디오 장치 및 그를 위한 방법
WO2023199673A1 (ja) 立体音響処理方法、立体音響処理装置及びプログラム
EP4210353A1 (en) An audio apparatus and method of operation therefor
US20250031005A1 (en) Information processing method, information processing device, acoustic reproduction system, and recording medium
JP2025023214A (ja) 双方向オーディオ環境のための空間オーディオ
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024214799A1 (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23788095

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2024514855

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2023788095

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2023788095

Country of ref document: EP

Effective date: 20241114