Nothing Special   »   [go: up one dir, main page]

WO2024241707A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2024241707A1
WO2024241707A1 PCT/JP2024/013177 JP2024013177W WO2024241707A1 WO 2024241707 A1 WO2024241707 A1 WO 2024241707A1 JP 2024013177 W JP2024013177 W JP 2024013177W WO 2024241707 A1 WO2024241707 A1 WO 2024241707A1
Authority
WO
WIPO (PCT)
Prior art keywords
loudness
information
listener
cvp
value
Prior art date
Application number
PCT/JP2024/013177
Other languages
English (en)
French (fr)
Inventor
光行 畠中
徹 知念
明文 河野
弘幸 本間
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024241707A1 publication Critical patent/WO2024241707A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This technology relates to an information processing device, method, and program, and in particular to an information processing device, method, and program that can suppress the occurrence of clipping distortion.
  • the level of the output signal from each speaker generated by the rendering process may exceed the range that can be recorded as digital audio data, resulting in clipping distortion.
  • the playback sound may clip and become distorted. This will result in a decrease in the quality of the playback sound.
  • This technology was developed in light of these circumstances, and makes it possible to suppress the occurrence of clipping distortion.
  • the information processing device includes an acquisition unit that acquires loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed, and a level correction unit that performs level correction on the audio data of the object based on the loudness information for each of the plurality of positions or orientations.
  • the information processing method includes a step of acquiring loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed, and performing level correction of the audio data of the object based on the loudness information for each of the plurality of positions or orientations.
  • loudness information is obtained that is determined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed, and level correction is performed on the audio data of the object based on the loudness information for each of the plurality of positions or orientations.
  • the information processing device includes a generating unit that generates a bitstream including loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed, and a communication unit that transmits the bitstream.
  • a bitstream is generated that includes loudness information defined for each of a number of possible positions or orientations of a listener in a space in which an object is placed, and the bitstream is transmitted.
  • the information processing device of the third aspect of the present technology includes a correction unit that corrects the gain information of the object, determined for the control viewpoint, based on a measured loudness value, which is a measurement result of the loudness of audio data of content including the sound of one or more objects when the control viewpoint in space is set to the position of the listener, and a predetermined target loudness value.
  • the information processing method includes a step of correcting the gain information of the object, which is determined for the control viewpoint, based on a measured loudness value, which is a measurement result of the loudness of audio data of content including the sound of one or more objects when the control viewpoint in space is set as the position of the listener, and a predetermined target loudness value.
  • the gain information of the object defined for the control viewpoint is corrected based on a measured loudness value, which is the result of measuring the loudness of audio data of content including the sounds of one or more objects when the control viewpoint in space is set to the position of the listener, and a predetermined target loudness value.
  • the information processing device of the fourth aspect of the present technology includes a control unit that generates configuration information including a measured loudness value that is a measurement result of the loudness of audio data of content that includes the sound of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • the information processing method includes a step of generating configuration information including a measured loudness value that is a measurement result of the loudness of audio data of content that includes the sound of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • configuration information is generated that includes a measured loudness value that is a measurement result of the loudness of audio data of content that includes the sounds of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • the information processing device includes a generating unit that generates a bitstream including configuration information that stores measured loudness values that are the measurement results of loudness of audio data of content that includes the sounds of one or more objects when a control viewpoint in a space is set to the position of a listener, and a communication unit that transmits the bitstream.
  • a bitstream is generated that includes configuration information that stores measured loudness values that are the measurement results of the loudness of audio data of content that includes the sounds of one or more objects when the control viewpoint in the space is set to the position of the listener, and the bitstream is transmitted.
  • FIG. 11A and 11B are diagrams illustrating clip distortion of a reproduced sound.
  • FIG. 13 is a diagram illustrating region division in the horizontal direction.
  • FIG. 13 is a diagram illustrating region division in the vertical direction.
  • FIG. 13 is a diagram illustrating division points.
  • FIG. 11 is a diagram showing an example of multi-angle loudness information.
  • FIG. 2 illustrates an example of a server configuration.
  • FIG. 2 illustrates an example of the configuration of a client.
  • 11 is a flowchart illustrating a bitstream transmission process.
  • 11 is a flowchart illustrating an output signal generation process.
  • 11 is a flowchart illustrating a damping coefficient calculation process.
  • 11 is a flowchart illustrating an output signal generation process.
  • FIG. 13 is a diagram for explaining the selection of a CVP.
  • FIG. 11 is a flowchart illustrating an output signal generation process.
  • FIG. 11 is a diagram illustrating an interpolation process.
  • 11 is a flowchart illustrating an output signal generation process.
  • FIG. 2 is a diagram illustrating a loudness mode.
  • FIG. 13 is a diagram illustrating a measurement loudness mode.
  • FIG. 13 is a diagram illustrating a group mode.
  • FIG. 13 is a diagram illustrating a group mode.
  • FIG. 13 is a diagram illustrating a group mode.
  • FIG. 2 is a diagram illustrating a production loudness mode.
  • FIG. 2 is a diagram illustrating a production loudness mode.
  • FIG. 1 is a diagram illustrating the flow of processing on the production side and the playback side.
  • FIG. 1 is a diagram illustrating the flow of processing on the production side and the playback side.
  • FIG. 13 is a diagram illustrating an example of the syntax of multi-loudness information.
  • FIG. 11 is a diagram illustrating switching of configuration information.
  • FIG. 11 is a diagram illustrating switching of configuration information.
  • FIG. 13 is a diagram showing an example of a display screen.
  • FIG. 13 is a diagram showing an example of a display screen.
  • FIG. 13 is a diagram showing an example of a display screen.
  • FIG. 13 is a diagram showing an example of a display screen.
  • FIG. 2 illustrates an example of a server configuration.
  • 11 is a flowchart illustrating a bitstream transmission process.
  • FIG. 2 illustrates an example of the configuration of a client.
  • FIG. 2 illustrates an example of a functional configuration of a client.
  • 11 is a flowchart illustrating an output audio data generation process.
  • 13 is
  • This technology makes it possible to suppress the occurrence of clipping distortion by determining loudness information for each of a plurality of directions for each position in space.
  • this technology can reduce the occurrence of clipping distortion even in situations where there are a small number of real speakers and a large number of objects are concentrated in an area with a small number of speakers.
  • the listener can move its own position and change the direction it is facing (listener orientation).
  • the level of the output signal for each speaker generated by the rendering process will exceed the range that can be recorded as digital audio data, such as PCM (Pulse Code Modulation) data, resulting in the playback sound clipping and becoming distorted.
  • PCM Pulse Code Modulation
  • loudness information is defined for multiple positions or directions, making it possible to reduce (suppress) clipping distortion in the playback sound for any viewpoint and listening direction.
  • control viewpoints For example, in this technology, in a virtual space in which one or more objects constituting the content are placed, multiple viewpoint positions are designated (set) in advance by the content creator as control viewpoints (hereinafter also referred to as CVPs).
  • CVPs control viewpoints
  • the virtual space in which the objects are placed may be a two-dimensional space or a three-dimensional space, but the following description will be given assuming that the virtual space is a three-dimensional space.
  • the content creator specifies (sets) in advance as the CVP (control viewpoint), the position in the virtual space from which they want the listener to listen when the content is played back, that is, the viewpoint from which they want the sound of the content to be heard.
  • the content may be, for example, audio content consisting of sound only, or video content consisting of images and accompanying audio.
  • content creators can set up multiple CVPs in a virtual space and determine the placement position of objects for each CVP. In other words, even for the same object, the placement position of the object in the virtual space will differ for each CVP. In this way, highly artistic content can be created.
  • the area is divided horizontally and vertically based on the position of the CVP. For example, the area is divided horizontally first, and then vertically.
  • division points including division point DV11
  • a horizontal plane that includes position P11 and is also on the surface of the sphere.
  • each circle drawn on the surface of the sphere represents one division point.
  • the straight line that indicates the direction of the division point as viewed from the CVP (position P11) is referred to as the division line.
  • the position of the intersection of division line L11 and the sphere is division point DV11.
  • the horizontal area seen from the CVP is divided equally by a given number of horizontal division lines, and division points are set at the intersections of each division line and the sphere.
  • each division point or more specifically, each horizontal division line, is assigned a horizontal division index j to identify that division line.
  • the numbers written near each division point indicate the value of the horizontal division index j. Therefore, for example, it can be seen that the value of the horizontal division index j of the horizontal division line L11 at division point DV11 is "5".
  • the dividing line that is closest to the orientation of the listener at the immediately preceding time may be selected, taking into account the change in the listener's orientation over time.
  • a proportional division may be performed between the two dividing lines.
  • dividing lines for dividing areas in the horizontal direction such as dividing line L11, will be specifically referred to as horizontal dividing lines.
  • the area is then divided vertically. For example, for each horizontal division line, the area is divided vertically from the direction of the horizontal division line as seen from the CVP.
  • each circle drawn on the surface of the sphere represents one division point.
  • the straight line indicating the direction of the division point as seen from the CVP (position P11) is the division line.
  • the intersection of the division line L21 and the sphere is the division point DV21.
  • the vertical area seen from the CVP is divided by a predetermined number of vertical division lines, and division points are set at the intersections of each division line and the sphere.
  • the dividing line in the direction where the vertical angle is 0 degrees is equal to (the same as) one horizontal dividing line.
  • each division point or more specifically, each vertical division line, is assigned a vertical division index k to identify that division line.
  • a number written near each division point indicates the value of the vertical division index k. Therefore, for example, it can be seen that the value of the vertical division index k of the vertical division line L21 of the division point DV21 is set to "0".
  • dividing lines for dividing areas in the vertical direction such as dividing line L21, will be referred to as vertical dividing lines.
  • division points are created that correspond to each division line.
  • division points are created that correspond to multiple directions (orientations) based on the CVP, that is, multiple orientations that a listener in the CVP can take.
  • a division point is provided for each combination of horizontal division index j and vertical division index k for one CVP. In this case, it is divided into 8 horizontally and 3 vertically, so a total of 24 division points are provided.
  • loudness information loudnessInfo[i][j][k] is calculated in advance and associated with each division point set for each CVP when a listener in the CVP faces the direction corresponding to that division point.
  • loudness information loudnessInfo[i][j][k] set for one division point for a specific CVP is information about the loudness of the sound of the content that is played when the listener is facing the direction of that division point at the position of that specific CVP.
  • the loudness information is calculated (determined) based on, for example, the audio data of all objects that make up the content.
  • the loudness information loudnessInfo[i][j][k] is information used for gain control (level correction) of the audio data of an object.
  • the elements i, j, and k of the array in the loudness information loudnessInfo[i][j][k] respectively indicate the CVP index i that identifies the CVP, the horizontal division index j, and the vertical division index k.
  • the loudness information can include information such as DRC (Dynamic Range Control) defined in the MPEG (Moving Picture Experts Group) standard, such as ISO23003-4 Information technology MPEG audio technologies Part 4: Dynamic Range Control, and peak values used for gain control by the Peak Limiter.
  • DRC Dynamic Range Control
  • MPEG Motion Picture Experts Group
  • the loudness information can include sample peak level values and true peak level values throughout the entire content that are determined in advance by the content creator, etc.
  • the sample peak level value here refers to the peak value (maximum value) of the sample values in the entire PCM data as audio data after rendering processing.
  • the true peak level value is the peak value of the waveform of the entire audio signal after DA (Digital to Analog) conversion, which is obtained by performing rendering processing, DRC processing, etc. as appropriate.
  • loudness information loudnessInfo[i][j][k] is a sample peak level value. Therefore, unless otherwise specified, loudness information will be assumed to indicate a sample peak level value.
  • multiple division points as described above are set for each CVP, and loudness information is determined for the multiple division points for each CVP. Note that one piece of loudness information may be determined for one CVP.
  • loudness information is defined for one or more directions (orientations) based on the CVP, i.e., for one or more orientations that a listener in the CVP can take.
  • This can also be said to mean that loudness information is defined for multiple positions or orientations that a listener can take in virtual space.
  • loudness information is not defined for all positions and orientations that a listener can take, but for a discrete number of positions and directions among the positions to which the listener can move and the directions to which the listener can face.
  • loudness information can be described as shown in Figure 5.
  • multi-angle loudness information including loudness information for each division point of each CVP is described in the bitstream in the format shown in Figure 5.
  • NumOfControlViewpoints indicates the number of CVPs (CVP count), and the multi-angle loudness information stores the number of horizontal divisions numOfDivs_h[i] and the number of vertical divisions numOfDivs_v[i] for each CVP.
  • the multi-angle loudness information stores loudnessInfo[i][j][k] for each CVP, the number of division points determined by the number of horizontal divisions numOfDivs_h[i] and the number of vertical divisions numOfDivs_v[i].
  • the multi-angle loudness information includes the number of horizontal and vertical divisions for each CVP, and loudness information for each division point for each CVP.
  • This technology reduces clipping distortion during content sound playback based on loudness information defined for each of the multiple division points (directions) of each CVP.
  • This technique can be applied to free viewpoint audio content, for example, where the listener's position (viewpoint position) is any position in a three-dimensional virtual space and the listener can move freely between multiple CVPs, etc.
  • the maximum value of the sample peak level values as loudness information is calculated as the maximum peak value maxPeak based on the loudness information at all division points of all CVPs.
  • the maximum peak value maxPeak can be calculated, for example, using the following formula (1):
  • the amount by which this maximum peak value maxPeak exceeds the maximum recordable value of the audio data is calculated as an excess value.
  • a decay coefficient decayFac is calculated, which indicates the amount of attenuation required to adjust the peak value of the audio data (output signal) to the maximum recordable value.
  • the maximum recordable value here refers to the maximum value (range) that the sound level based on audio data can take (maximum sound level) and can be recorded as digital audio data such as PCM data.
  • the maximum recordable value is 0 [dB].
  • the decay coefficient decayFac is calculated using the following formula (2). Note that in formula (2), " ⁇ " represents exponentiation.
  • the decay coefficient decayFac is calculated based on the maximum peak value maxPeak, i.e., the loudness information loudnessInfo[i][j][k], the decay coefficient decayFac is applied to the output signal for each speaker obtained by the rendering process. This attenuates the level of the playback sound based on the output signal supplied to each speaker to below the maximum recordable value, suppressing the occurrence of clipping distortion.
  • the output signal is an audio signal generated by the rendering process and supplied to speakers corresponding to each channel of the multi-channel configuration.
  • FIG. 6 is a diagram showing an example of the configuration of an embodiment of a server to which the present technology is applied.
  • the server 11 shown in FIG. 6 is an information processing device, and has an acquisition unit 21, a bit stream encoder 22, and a communication unit 23.
  • the acquisition unit 21 acquires audio data (Object Audio) of each object constituting the content, system configuration information (Config Info), metadata of each object (Object Metadata), and loudness information (Loudness Info) for each division point of each CVP from inside the server 11 or from outside the server 11. Note that data other than the above-mentioned data may also be acquired.
  • System configuration information is information about the entire content.
  • system configuration information includes the number of objects, which indicates the number of objects that make up the content, information indicating the number of CVPs, which is the number of CVPs set in the virtual space, and CVP position information, which indicates the absolute position of each CVP in the virtual space.
  • the object metadata contains object location information that indicates the location of the object for each CVP.
  • the object position information may be coordinate information that indicates the relative position of the object as seen from the CVP, expressed in polar coordinates, or it may be coordinate information that indicates the absolute position of the object in virtual space, defined for each CVP and expressed in absolute coordinates (Cartesian coordinates).
  • the metadata for an object may also include, for example, gain information for the object's audio data, priority information, and spread information indicating the extent of the object's spread.
  • the acquisition unit 21 supplies the acquired audio data (Object Audio), system configuration information (Config Info), metadata (Object Metadata), and loudness information (Loudness Info) to the bitstream encoder 22.
  • the bitstream encoder 22 functions as a generator that generates a bitstream by appropriately encoding the audio data, system configuration information, metadata, and loudness information supplied from the acquisition unit 21, and supplies the bitstream to the communication unit 23.
  • the bitstream contains audio data, system configuration information, metadata, and multi-angle loudness information.
  • the multi-angle loudness information also contains the number of horizontal and vertical divisions for each CVP, and loudness information for each division point for each CVP.
  • the system configuration information and multi-angle loudness information may be generated for each frame of the content, for each section consisting of multiple frames, or just one for the entire content.
  • the system configuration information and multi-angle loudness information may be transmitted at a different timing than the audio data of the object.
  • the communication unit 23 transmits the bit stream provided by the bit stream encoder 22 to the client, which is the information processing device that plays the content.
  • FIG. 7 is a diagram showing an example of the configuration of an embodiment of a client to which the present technology is applied.
  • the client 51 shown in FIG. 7 is an information processing device that receives the bit stream transmitted by the server 11 and plays back the content.
  • the client 51 is, for example, a personal computer, a tablet terminal, a smartphone, etc.
  • the client 51 has a communication unit 61, a bitstream decoder 62, a metadecoder 63, a rendering processing unit 64, a loudness information processing unit 65, and a DRC processing unit 66.
  • the client 51 is connected to a speaker 71, which is a speaker system with a multi-channel configuration.
  • the communication unit 61 receives the bitstream transmitted from the server 11 and supplies it to the bitstream decoder 62.
  • the communication unit 61 functions as an acquisition unit that acquires loudness information by receiving the bitstream.
  • the bitstream decoder 62 functions as a decoding unit that decodes the bitstream supplied from the communication unit 61, more specifically, the encoded audio data and the like contained in the bitstream. Through decoding and the like in the bitstream decoder 62, audio data, system configuration information, metadata, and multi-angle loudness information are extracted from the bitstream.
  • the bitstream decoder 62 supplies audio data to the rendering processor 64, and also supplies system configuration information to the metadecoder 63 and the loudness information processor 65.
  • the bitstream decoder 62 also supplies metadata to the metadecoder 63, and also supplies multi-angle loudness information to the loudness information processor 65.
  • the metadecoder 63 and loudness information processing unit 65 are supplied with listener position information that indicates the absolute position of the listener in the three-dimensional virtual space in which the objects are placed.
  • the metadecoder 63 and loudness information processing unit 65 are also supplied with listener orientation information indicating the orientation of the listener in the three-dimensional virtual space as appropriate.
  • the listener orientation information consists of a yaw angle (horizontal angle) indicating the horizontal orientation of the listener, and a pitch angle (vertical angle) indicating the vertical orientation of the listener.
  • the listener orientation information may also include a roll angle indicating the rotation angle of the listener.
  • the metadecoder 63 generates listener reference object position information based on the supplied listener position information and the metadata and system configuration information from the bitstream decoder 62, and supplies it to the rendering processor 64.
  • listener-reference object position information is information that indicates the relative position of an object as seen by the listener, expressed in coordinates (polar coordinates) of a polar coordinate system that uses the listener's position in virtual space as the reference (origin).
  • the metadecoder 63 calculates position information indicating the absolute position of the object in virtual space based on the CVP position information and object position information included in the system configuration information, and generates (calculates) listener-reference object position information based on the calculated position information and the listener position information.
  • the meta-decoder 63 generates listener-reference object position information based on the object position information and the listener position information.
  • the rendering processing unit 64 performs rendering processing based on the object audio data supplied from the bitstream decoder 62 and the listener reference object position information supplied from the meta decoder 63, and generates an output signal for each channel.
  • the rendering processing unit 64 performs rendering processing in a polar coordinate system defined in MPEG-H, such as VBAP (Vector Based Amplitude Panning), to generate an output signal.
  • VBAP Vector Based Amplitude Panning
  • the rendering processing is not limited to VBAP and may be any other processing.
  • BRIR Binary Room Impulse Response
  • HRTF Head Related Transfer Function
  • HOA Higher Order Ambisonics
  • the output signal of each channel is audio data (audio signal) supplied to a speaker corresponding to each channel constituting a speaker system as speaker 71.
  • speaker 71 the sound of the content including the sounds of all objects is reproduced by the output signal of each channel.
  • the sound (sound image) of each object is localized to the position indicated by the object position information in the virtual space.
  • the loudness information processing unit 65 performs processing related to the loudness information using the supplied listener position information, the multi-angle loudness information from the bit stream decoder 62, and the system configuration information as appropriate, and supplies the processing result to the DRC processing unit 66.
  • the loudness information processing unit 65 calculates the above-mentioned decay coefficient decayFac based on the multi-angle loudness information, i.e., the loudness information of all division points of all CVPs, and supplies it to the DRC processing unit 66.
  • the DRC processing unit 66 performs level correction (gain adjustment) of the output signal based on the results of processing related to loudness information supplied from the loudness information processing unit 65 and the output signal supplied from the rendering processing unit 64, and supplies the level-corrected output signal to the speaker 71 as the final output signal.
  • the DRC processing unit 66 functions as a level correction unit (gain adjustment unit) that performs level correction of the output signal based on loudness information for each of the multiple division points of each CVP.
  • the DRC processing unit 66 performs level correction of the output signal based on the decay coefficient decayFac supplied from the loudness information processing unit 65, and if necessary, performs level correction by DRC processing on the output signal after level correction based on the decay coefficient decayFac. More specifically, the DRC processing unit 66 performs DA conversion on the output signal, which is a digital signal, and supplies the resulting output signal, which is an analog signal, to the speaker 71.
  • the speaker 71 plays the sound of the content based on the output signal supplied from the DRC processing unit 66.
  • step S11 the acquisition unit 21 acquires the information necessary to generate a bitstream and supplies it to the bitstream encoder 22.
  • the acquisition unit 21 acquires audio data for each object, system configuration information, metadata for each object, the number of horizontal divisions and the number of vertical divisions for each CVP, loudness information for each division point for each CVP, etc.
  • step S12 the bitstream encoder 22 appropriately encodes and multiplexes the audio data, system configuration information, metadata, and loudness information supplied from the acquisition unit 21 to generate a bitstream and supplies it to the communication unit 23.
  • step S13 the communication unit 23 transmits the bitstream supplied from the bitstream encoder 22 to the client 51, and the bitstream transmission process ends.
  • the server 11 generates a bitstream containing loudness information for each CVP for multiple directions as seen from the CVP, i.e., for multiple division points, and transmits it to the client 51. This allows the client 51 receiving the bitstream to suppress clip distortion during content playback based on this loudness information.
  • step S41 the communication unit 61 receives the bitstream transmitted from the server 11 in step S13 of FIG. 8 and supplies it to the bitstream decoder 62.
  • step S42 the bitstream decoder 62 decodes the encoded audio data etc. contained in the bitstream supplied from the communication unit 61, and extracts various information contained in the bitstream. This extracts audio data, system configuration information, metadata, and multi-angle loudness information from the bitstream.
  • the bitstream decoder 62 supplies audio data to the rendering processor 64, supplies system configuration information and metadata to the meta decoder 63, and supplies system configuration information and multi-angle loudness information to the loudness information processor 65.
  • step S43 the loudness information processing unit 65 performs an attenuation coefficient calculation process to calculate the attenuation coefficient decayFac based on the loudness information of all division points of all CVPs and the maximum recordable value, and supplies the attenuation coefficient decayFac to the DRC processing unit 66. Details of the attenuation coefficient calculation process will be described later.
  • step S46 which will be described later, the same decay coefficient decayFac is used for all channels and all frames, so the processing of step S43 is performed only once.
  • steps S44 to S46 which will be described later, is performed for each frame of the content (audio data).
  • processing is performed for each channel corresponding to speaker 71 for each frame.
  • step S44 the metadecoder 63 calculates (generates) listener reference object position information based on the supplied listener position information and the metadata and system configuration information from the bitstream decoder 62, and supplies the listener reference object position information to the rendering processing unit 64.
  • step S45 the rendering processing unit 64 performs rendering processing such as VBAP based on the audio data of the object supplied from the bitstream decoder 62 and the listener reference object position information supplied from the metadecoder 63. For example, in the rendering processing, an output signal for each channel is generated for each object to play the sound of that object. Then, the output signals of the same channel obtained for each object are added together to form the final output signal for each channel.
  • the rendering processing unit 64 supplies the output signal for each channel obtained by the rendering processing to the DRC processing unit 66.
  • step S46 the DRC processing unit 66 performs DRC processing on the output signal supplied from the rendering processing unit 64.
  • the DRC processing unit 66 performs level correction (gain adjustment) on the output signal of each channel based on the decay coefficient decayFac supplied from the loudness information processing unit 65.
  • the output signal before level correction i.e., the signal that is the output of the rendering processing unit 64
  • the output signal after level correction is out[fr][ch].
  • fr and ch are indexes indicating the frame and channel, respectively.
  • the DRC processing unit 66 generates the level-corrected output signal out[fr][ch] by calculating the following equation (3) for each channel for each frame. That is, in equation (3), the output signal render_out[fr][ch] is multiplied by the attenuation coefficient decayFac to perform level correction.
  • the DRC processing unit 66 also performs DRC processing on the level-corrected output signal, and performs DA conversion on the output signal obtained by the DRC processing, and supplies the resulting analog output signal to the speaker 71.
  • the speaker 71 outputs (plays) the sound of the content based on the output signal supplied from the DRC processing unit 66.
  • the output signal generation process ends.
  • the client 51 calculates the decay coefficient decayFac based on the loudness information, and performs level correction of the output signal based on the decay coefficient decayFac. In this way, the level of the reproduced sound based on the output signal is attenuated to below the maximum recordable value, thereby suppressing the occurrence of clipping distortion.
  • step S71 the loudness information processing unit 65 obtains the number of horizontal divisions and the number of vertical divisions for each CVP from the multi-angle loudness information supplied from the bitstream decoder 62.
  • the loudness information processing unit 65 reads out the number of horizontal divisions numOfDivs_h[i] and the number of vertical divisions numOfDivs_v[i] for each CVP index i from the multi-angle loudness information shown in FIG. 5. This identifies the number of divisions in the horizontal and vertical directions for each CVP.
  • step S72 the loudness information processing unit 65 sets the maximum peak value cur_peak to 0.0.
  • This maximum peak value cur_peak corresponds to the maximum peak value maxPeak described above, and is currently set to a temporary value of "0.0.”
  • step S73 the loudness information processing unit 65 selects one of the multiple CVPs set in the virtual space as the CVP to be processed based on the system configuration information supplied from the bitstream decoder 62.
  • step S74 the loudness information processing unit 65 selects one of the multiple division points defined for the CVP to be processed as the division point to be processed based on the multi-angle loudness information. For example, a division point determined by one combination of a horizontal division index j and a vertical division index k is selected as the division point to be processed.
  • the loudness information processing unit 65 reads out loudness information loudnessInfo[i][j][k] determined for the division point of the CVP to be processed from the multi-angle loudness information.
  • the loudness information loudnessInfo[i][j][k] in particular is set to the sample peak level value.
  • step S75 the loudness information processing unit 65 determines whether the value of the loudness information loudnessInfo[i][j][k] for the division point to be processed that has been read is greater than the maximum peak value cur_peak.
  • step S76 If it is determined in step S75 that the loudness information value is greater than the maximum peak value cur_peak, then step S76 is performed.
  • step S76 the loudness information processing unit 65 updates the maximum peak value cur_peak to the value of the loudness information loudnessInfo[i][j][k] of the division point being processed. By updating in this way, the value of the maximum peak value cur_peak becomes the value of the loudness information with the largest value among the loudness information of the division points that have been processed so far.
  • step S76 After step S76 is performed and the maximum peak value cur_peak is updated, processing then proceeds to step S77.
  • step S75 if it is determined in step S75 that the loudness information value is not greater than the maximum peak value cur_peak, the process of step S76 is not performed, i.e., the maximum peak value cur_peak is not updated, and the process then proceeds to step S77.
  • step S76 If the process of step S76 is performed, or if it is determined in step S75 that the loudness information value is not greater than the maximum peak value cur_peak, the process of step S77 is performed.
  • step S77 the loudness information processing unit 65 determines whether or not processing has been performed for all division points of the CVP to be processed. In other words, it is determined whether or not all division points of the CVP to be processed have been processed.
  • step S77 If it is determined in step S77 that processing has not been performed for all division points, i.e., if it is determined that all division points have not yet been processed, processing returns to step S74, and the above-mentioned processing is repeated. In this case, a new division point that has not yet been processed is processed, and the above-mentioned processing is performed.
  • step S77 determines whether processing has been performed for all CVPs. In other words, it is determined whether all CVPs have been processed.
  • step S78 If it is determined in step S78 that processing has not been performed for all CVPs, i.e., that all CVPs have not yet been processed, processing returns to step S73, and the above-mentioned processing is repeated. In this case, a new CVP that has not yet been processed is processed, and the above-mentioned processing is performed.
  • step S78 determines whether all CVPs have been processed. If it is determined in step S78 that all CVPs have been processed, processing then proceeds to step S79.
  • the above processing of steps S73 to S78 can be said to be processing for performing the calculation of the above-mentioned formula (1).
  • the maximum peak value cur_peak is the loudness information with the largest value among the loudness information of all division points of all CVPs.
  • step S79 the loudness information processing unit 65 determines whether the final maximum peak value cur_peak is greater than a predetermined maximum recordable value.
  • the maximum recordable value is set to, for example, 0.0 [dB].
  • step S80 the loudness information processing unit 65 calculates the decay coefficient decayFac based on the maximum peak value cur_peak.
  • the loudness information processing unit 65 obtains the gain gain_db based on the maximum peak value cur_peak as shown in the following equation (4), and calculates the decay coefficient decayFac by calculating the following equation (5) based on the obtained gain gain_db.
  • equations (4) and (5) the same calculation as in the above-mentioned equation (2) is performed.
  • the calculation of equations (4) and (5) is the same as the calculation of equation (2).
  • step S80 or step S81 the loudness information processing unit 65 supplies the calculated decay coefficient decayFac to the DRC processing unit 66, and the decay coefficient calculation processing ends.
  • step S43 in FIG. 9 has been performed, and the processing then proceeds to step S44 in FIG. 9.
  • the client 51 calculates the decay coefficient decayFac based on the loudness information at all division points of all CVPs.
  • a decay coefficient decayFac it is possible to suppress the occurrence of clipping distortion through level correction.
  • the entire output signals of the multiple channels are uniformly attenuated in accordance with the maximum recordable value, so in some cases the playback sound of the content may become too quiet.
  • the technique described in the second embodiment is applicable to multi-view audio content in which the position of any one of multiple CVPs can be selected as the position of the listener in a virtual space, that is, discrete movement between multiple CVPs is possible.
  • loudness information of the division point located closest to the listener's orientation is selected.
  • loudness information determined for the combination closest to the listener's orientation is selected.
  • the output signal level is corrected by DRC processing or the like.
  • the client 51 When clipping distortion is suppressed by DRC processing using loudness information, the client 51 performs output signal generation processing, for example, as shown in FIG. 11.
  • step S113 the loudness information processing unit 65 obtains the number of horizontal divisions and the number of vertical divisions for each CVP from the multi-angle loudness information supplied from the bitstream decoder 62.
  • step S113 the same process as in step S71 in FIG. 10 is performed, and the number of horizontal divisions numOfDivs_h[i] and the number of vertical divisions numOfDivs_v[i] are read for each CVP index i.
  • the CVP index i indicating the CVP selected by the listener will also be referred to as the CVP index cur_cvp, where appropriate.
  • the loudness information processing unit 65 acquires listener orientation information supplied in response to an input operation by the listener, etc.
  • the listener orientation information consists of a yaw angle indicating the listener's current horizontal orientation in the virtual space, and a pitch angle indicating the listener's vertical orientation.
  • step S116 the loudness information processing unit 65 calculates (identifies) the horizontal division index j indicating the horizontal division line closest to the horizontal orientation of the listener, among the horizontal division indexes j of the CVP indicated by the CVP index cur_cvp, based on the multi-angle loudness information and the listener orientation information.
  • the value of the horizontal split index j calculated in step S116 is assumed to be "sel_hidx", and will also be referred to as the horizontal split index sel_hidx where appropriate.
  • step S117 the loudness information processing unit 65 calculates (identifies) the vertical division index k indicating the vertical division line closest to the vertical orientation of the listener, among the vertical division indexes k of the CVP indicated by the CVP index cur_cvp, based on the multi-angle loudness information and the listener orientation information.
  • the value of the vertical split index k calculated in step S117 will be assumed to be "sel_vidx", and will also be referred to as the vertical split index sel_vidx where appropriate.
  • step S118 the loudness information processing unit 65 selects loudness information according to the orientation of the listener, reads the selected loudness information from the multi-angle loudness information, and supplies it to the DRC processing unit 66.
  • the loudness information processing unit 65 selects loudness information loudnessInfo[cur_cvp][sel_hidx][sel_vidx] determined by a combination of the CVP index cur_cvp, the horizontal division index sel_hidx, and the vertical division index sel_vidx.
  • the loudness information selected in this manner is the loudness information associated with the division point in the CVP selected by the listener that is arranged (located) in the direction closest to the listener's orientation. In other words, it is the loudness information for the direction closest to the direction indicated by the listener orientation information, among the loudness information for each of multiple orientations based on the CVP.
  • steps S119 and S120 are performed. However, these steps are similar to steps S44 and S45 in FIG. 9, and therefore will not be described here.
  • step S121 the DRC processing unit 66 performs DRC processing on the output signals of each channel supplied from the rendering processing unit 64 based on the loudness information supplied from the loudness information processing unit 65.
  • the DRC processing unit 66 performs DRC processing and DA conversion based on the sample peak level value or true peak level value as loudness information, to obtain an analog output signal that has been subjected to level correction (gain adjustment) based on the loudness information. In other words, the level of the output signal is corrected by DRC processing etc. based on the loudness information.
  • the DRC processing unit 66 supplies the output signal obtained in this way to the speaker 71, which reproduces the sound of the content.
  • step S122 the client 51 determines whether or not processing has been performed on all frames of the content (audio data). For example, in step S122, if the output signals of all frames are supplied to the speaker 71 and played back, it is determined that processing has been performed on all frames.
  • step S122 If it is determined in step S122 that processing has not yet been performed on all frames, then processing returns to step S114, and the above-mentioned processing is repeated. In this case, the above-mentioned processing is performed on new frames that have not yet been processed.
  • step S122 if it is determined in step S122 that processing has been performed on all frames, each component of the client 51 ends the processing it is currently performing, and the output signal generation process is thereby terminated.
  • the client 51 selects appropriate loudness information for the position and orientation of the listener, and performs level correction based on that loudness information. In this way, the occurrence of clipping distortion can be suppressed. Furthermore, by implementing level correction based on loudness information in DRC processing, etc., it is possible to prevent the playback sound of the content from becoming too quiet.
  • the loudness information of the division point located in the direction closest to the listener's orientation which is determined for the CVP closest to the listener's position, is selected, and DRC processing, etc. is performed based on the selected loudness information.
  • Figure 12 shows the virtual space as seen from above.
  • each circle arranged on a circle centered on each CVP represents one division point
  • the arrows that start at the position of the CVP and end at the division points represent the division lines that correspond to each division point.
  • the numbers written near each division point indicate the value of the horizontal division index j.
  • CVP2 is selected because the distance b from the listener to CVP2 is smaller (shorter) than the distance a from the listener to CVP1.
  • the division point that is located in the direction closest to the orientation of the listener is selected. More specifically, the combination of horizontal and vertical division lines in the direction closest to the orientation of the listener is selected, and the division point that corresponds to the selected combination is selected, but for simplicity's sake, only the selection of the horizontal division line will be explained here.
  • Arrow L32 which starts from CVP2, points in the same direction as the orientation of the listener indicated by arrow L31. Therefore, in this example, of the dividing lines (horizontal dividing lines) of CVP2, dividing line L33 that indicates the direction closest to the direction indicated by arrow L32 is selected, and the dividing point DV31 corresponding to that dividing line L33 is selected. In other words, the dividing line L33 that forms the smallest angle with the direction indicated by arrow L32 is selected, and the dividing point DV31 corresponding to that dividing line L33 is selected.
  • DRC processing etc. is performed based on the loudness information defined for division point DV31 of CVP2, thereby achieving level correction of the output signal.
  • the CVP closest to the listener's position is selected, but it is also possible that the distance between each of the multiple CVPs and the listener's position is equal, i.e., the distance ratio is the same.
  • the listener position information used before the current time more specifically, immediately before, may be used, and the CVP closest to the position indicated by that listener position information may be selected.
  • priority information indicating the priority of each CVP may be set in advance, and the CVP with the highest priority may be selected from among multiple CVPs closest to the listener.
  • the system configuration information includes CVP position information that indicates the absolute position of each CVP in the virtual space, so it is possible to calculate the CVP that is closest to the listener's position using the CVP position information and the listener position information.
  • CVP position information indicates the absolute position of each CVP in the virtual space
  • the CVP index i indicating the CVP closest to the listener will also be referred to as the CVP index near_cvp, where appropriate.
  • steps S155 to S157 are performed. However, since these steps are similar to steps S115 to S117 in FIG. 11, their description is omitted.
  • steps S156 and S157 the CVP indicated by the CVP index near_cvp is targeted, and the horizontal partition index sel_hidx and vertical partition index sel_vidx are identified for that CVP.
  • step S158 the loudness information processing unit 65 selects loudness information according to the position and orientation of the listener, reads the selected loudness information from the multi-angle loudness information, and supplies it to the DRC processing unit 66.
  • the loudness information processing unit 65 selects loudness information loudnessInfo[near_cvp][sel_hidx][sel_vidx] determined by a combination of the CVP index near_cvp, the horizontal division index sel_hidx, and the vertical division index sel_vidx.
  • the loudness information selected in this manner is the loudness information associated with the division point in the CVP located closest to the listener, which is arranged (located) in the direction closest to the listener's orientation with respect to that CVP.
  • the loudness information with the orientation closest to the orientation indicated by the listener orientation information is selected.
  • steps S159 to S162 are performed and the output signal generation process ends. However, since these steps are similar to steps S119 to S122 in FIG. 11, a description thereof will be omitted.
  • the client 51 selects appropriate loudness information for the position and orientation of the listener, and performs level correction based on that loudness information. In this way, the occurrence of clipping distortion can be suppressed. Furthermore, by implementing level correction based on loudness information in DRC processing, etc., it is possible to prevent the playback sound of the content from becoming too quiet.
  • the loudness information calculated by interpolating the inverse ratio of the distance from the current listener's position to each CVP is used to perform level correction of the output signal using DRC processing, etc.
  • arrow L41 which starts at CVP1, points in the same direction as the orientation of the listener indicated by arrow L31. Therefore, of the division points of CVP1, the division point that is located closest to the direction indicated by arrow L41 (the orientation of the listener) is division point DV41.
  • arrow L42 starting from CVP3 indicates the same direction as the orientation of the listener indicated by arrow L31, and of the division points of CVP3, the division point located closest to the direction indicated by arrow L42 (the orientation of the listener) is division point DV42.
  • the coordinates of the listener's position F indicated by the listener position information are (xf, yf, zf).
  • the positions of CVP1, CVP2, and CVP3 in the virtual space are respectively position A, position B, and position C, and the coordinates of position A, position B, and position C indicated by the CVP position information are (xa, ya, za), (xb, yb, zb), and (xc, yc, zc).
  • the reciprocal ratios of distance AF, distance BF, and distance CF are calculated, and then interpolation processing is performed based on these reciprocal ratios and the loudness information of division point DV41 of CVP1, the loudness information of division point DV31 of CVP2, and the loudness information of division point DV42 of CVP3.
  • This interpolation process obtains loudness information corresponding to the listener's position F and the listener's orientation indicated by arrow L31, and the level of the output signal is corrected by DRC processing or the like based on that loudness information.
  • a division point (loudness information) is selected for each CVP, and interpolation processing is performed; however, instead of targeting all CVPs, only a portion of multiple CVPs in the vicinity of the listener may be targeted. Furthermore, when targeting only a portion of multiple CVPs in the vicinity of the listener, the number of CVPs to be targeted may be set arbitrarily by the user (listener), or may be dynamically changed depending on the client's resources, remaining battery power, transmission bandwidth, etc.
  • the dependence ratio which is the ratio of the dependence of each CVP, is given by the following equation (7).
  • dp(AF), dp(BF), and dp(CF) indicate the dependence on CVP1, CVP2, and CVP3, respectively.
  • the ratio of the normalized dependencies of each CVP i.e., the dependency ratio, is as shown in the following formula (8). Note that in formula (8), “ ⁇ ” represents exponentiation, and “sqrt” represents the square root.
  • Interpolation is performed based on the dependency Cbr(AF) or dependency Cbr(CF) based on the reciprocal of the distance calculated in this way and the loudness information corresponding to the listener orientation of CVP1 to CVP3, and loudness information corresponding to the listener's position and orientation is calculated.
  • SamplePeakLevel[0][hor1][vir1] indicates the sample peak level value as loudness information of division point DV41 selected for CVP1 in Figure 14.
  • the vertical division index k of the vertical division line indicating the direction closest to the vertical orientation of the listener is "vir1".
  • SamplePeakLevel[1][hor2][vir2] indicates the sample peak level value as loudness information of division point DV31 selected for CVP2 in FIG. 14.
  • SamplePeakLevel[2][hor3][vir3] indicates the sample peak level value as loudness information of division point DV42 selected for CVP3 in FIG. 14.
  • TruePeakLevel[0][hor1][vir1] indicates the true peak level value as loudness information of division point DV41 selected for CVP1 in Figure 14.
  • TruePeakLevel[1][hor2][vir2] indicates the true peak level value as loudness information of division point DV31 selected for CVP2 in FIG. 14.
  • TruePeakLevel[2][hor3][vir3] indicates the true peak level value as loudness information of division point DV42 selected for CVP3 in FIG. 14.
  • the DRC processing unit 66 uses the sample peak level value EstSamplePeakLevel or the true peak level value EstTruePeakLevel calculated as loudness information as described above, and performs level correction of the output signal by DRC processing, etc.
  • step S194 the loudness information processing unit 65 calculates the dependency ratio, i.e., the degree of dependency, of each CVP based on the current listener position.
  • the loudness information processing unit 65 calculates the distance from each CVP to the listener in the virtual space based on the supplied listener position information and the CVP position information included in the system configuration information from the bitstream decoder 62.
  • the loudness information processing unit 65 calculates the distance ratio, i.e., the normalized dependency for each CVP, by performing a calculation similar to that of the above-mentioned equation (8) based on the calculated distance.
  • step S195 the loudness information processing unit 65 acquires listener orientation information that is supplied in response to the listener's input operation, etc.
  • step S196 the loudness information processing unit 65 selects one of the multiple CVPs set in the virtual space as the CVP to be processed based on the system configuration information.
  • steps S197 to S199 are performed on the CVP to be processed. However, since these steps are similar to steps S116 to S118 in FIG. 11, a description thereof will be omitted.
  • loudness information loudnessInfo[i][sel_hidx][sel_vidx] determined by the combination of the horizontal division index sel_hidx and the vertical division index sel_vidx is read from the multi-angle loudness information.
  • the loudness information read in this way is the loudness information associated with the division point in the CVP being processed that is arranged (located) in the direction closest to the orientation of the listener.
  • step S200 the loudness information processing unit 65 determines whether the above-mentioned steps S197 to S199 have been performed for all CVPs.
  • step S200 If it is determined in step S200 that processing has not yet been performed for all CVPs, then processing returns to step S196, and the above-mentioned processing is repeated. In this case, a new CVP that has not yet been processed is selected as the processing target, and the above-mentioned processing is performed.
  • step S200 if it is determined in step S200 that processing has been performed for all CVPs, processing then proceeds to step S201.
  • loudness information for the direction closest to the listener's direction indicated by the listener direction information is selected from among the loudness information for each of the multiple directions in the CVP.
  • step S201 the loudness information processing unit 65 calculates loudness information according to the position and orientation of the listener based on the dependency ratio (degree of dependency) calculated in step S194 and the loudness information of each CVP read out in step S199.
  • the loudness information processing unit 65 also supplies the calculated loudness information to the DRC processing unit 66.
  • the loudness information processing unit 65 performs calculations similar to those of the above-mentioned equations (9) and (10) to calculate sample peak level values and true peak level values as loudness information by interpolation processing based on the degree of dependency (distance ratio).
  • steps S202 to S205 are performed and the output signal generation process ends. However, since these steps are similar to steps S119 to S122 in FIG. 11, a description thereof will be omitted.
  • the client 51 selects appropriate loudness information for each CVP with respect to the orientation of the listener, and calculates loudness information according to the position and orientation of the listener by interpolation processing based on the selected loudness information. The client 51 then uses the calculated loudness information to perform level correction of the output signal.
  • Known audio playback methods include 3DoF (Degree of Freedom) audio, in which the listener's position is fixed and the listener's orientation can be freely changed, and 6DoF audio, in which the listener's position and orientation can be freely changed. 6DoF audio is also called free viewpoint audio.
  • the loudness value is measured based on the output to each speaker obtained by the rendering process.
  • the difference between the measured loudness value and the target loudness value requested by the listener is calculated, and this gain difference is applied to the rendered output audio data.
  • the position and gain of an object at any viewpoint is calculated by interpolation using 3DoF audio data produced from multiple viewpoints (CVP) in three-dimensional space.
  • CVP viewpoints
  • This technology has the following features, for example:
  • this technology has the unique feature of performing loudness correction solely through object gain control.
  • Another feature of this technology is that it can achieve free viewpoint audio playback that matches the target loudness value on the playback side, even when there is variation in volume depending on the listener's position (viewpoint).
  • the loudness value for the rendering result for each viewpoint is measured as a measured loudness value, and the obtained measured loudness value is stored in the bitstream as part of the configuration information and transmitted to the playback side.
  • the speaker output signal to be measured when calculating the measured loudness value in this embodiment is, for example, for all CVPs when the listener is facing the TP (target point) described below.
  • the loudness value desired by the listener is input as the target loudness value.
  • the gain correction amount is calculated as the difference between the target loudness value and the measured loudness value for each CVP. The gain correction amount is then applied to the gain values contained in the metadata of all objects for each CVP.
  • this technology has the advantage of being able to realize free viewpoint audio playback that reflects the intentions of the content creator and the target loudness value.
  • a content creator may set a desired loudness value in advance as the production loudness value for each CVP, so if it is possible to handle such cases, it will be possible to better reflect the creator's intentions.
  • the volume relationship between CVPs set by the creator is maintained, and the difference between the CVP with the largest loudness value among them and the target loudness value is calculated, and this difference is applied to the object gain value for all CVPs.
  • loudness mode is set on the playback side.
  • Loudness mode is an operating mode on the playback side in which loudness correction is performed based on a target loudness value by a user (listener) or the like. For example, when a target loudness value is specified by a listener or the like on the playback side, the loudness mode is set.
  • Case Index 0 (hereafter referred to as Case 0)
  • the target loudness value is not specified, so it is not considered to be in loudness mode and no loudness correction is performed on the playback side.
  • loudness correction is performed in one of the following modes: measured loudness mode, group mode, or produced loudness mode.
  • Case Index 1 (hereinafter also referred to as Case 1), i.e., in the measured loudness mode, there is no need to store group information or produced loudness values in the configuration information. In other words, in the measured loudness mode, group information and produced loudness values are not used.
  • measured loudness mode even if there is variation in loudness (volume) at each CVP, which is the control viewpoint, the variation is uniformed and loudness correction is performed so that the loudness during playback becomes the target loudness value set by the listener, etc.
  • the gain information of the object is corrected based on the measured loudness value and the target loudness value.
  • Case Index 2 (hereinafter also referred to as case 2), i.e. in group mode, group information is stored in the configuration information, but it is not necessary to store the production loudness value in the configuration information. In other words, in group mode, group information is used.
  • Group information is information that indicates the group (hereinafter also referred to as CVP group) to which each of multiple CVPs (control viewpoints) placed in virtual space belongs.
  • CVP group group
  • loudness correction is performed so that the loudness during playback becomes the target loudness value, based on the CVP with the largest measured loudness value in the same group, while maintaining the volume variation among each CVP belonging to the same group.
  • the gain information of the object is corrected based on the measured loudness value, group information, and target loudness value.
  • Case Index 3 (hereinafter also referred to as Case 3), i.e. in the production loudness mode, the production loudness value is stored in the configuration information, but there is no need to store group information in the configuration information. In other words, in the production loudness mode, the production loudness value specified for each CVP by the producer, etc. is used.
  • the production loudness value of each CVP (control viewpoint) is used to perform loudness correction so that the loudness during playback matches the target loudness value.
  • the gain information of the object is corrected based on the measured loudness value, the production loudness value, and the target loudness value.
  • Measured loudness mode In the measured loudness mode (case 1), when the measured loudness values for each CVP are different, gain correction processing is performed on the playback side so that the loudness value during playback becomes the target loudness value regardless of the listener's position (listening position).
  • TP Target Point
  • the TP (Target Point) is a specific reference position, and as an example, the metadata of the object is generated assuming that all virtual listeners in each CVP are facing in the direction of the TP.
  • the TP is represented by a circle with the letters "TP" written on it.
  • the metadata of objects in each CVP is not limited to when the virtual listener in the CVP is facing the TP, but can be when the listener is facing any direction.
  • CVPs CVP A through CVP E
  • CVP A the circle with the letter "A" in it represents CVP A
  • the letter written inside the circle indicates which CVP it is.
  • the content creators define metadata for objects for each CVP.
  • the metadata for each CVP includes the object's position and gain information defined for the CVP. Also, even for the same object, the object's placement position in the virtual space and gain information may differ for each CVP.
  • the content creator uses this metadata to measure the loudness value of the content's audio data for each CVP as a measured loudness value.
  • the content's audio data is data for playing the sound of the content, including the sound of one or more objects.
  • object metadata contains object position information and gain information for each CVP.
  • a rendering process is performed for each CVP using the object position information and gain information, and audio data with an arbitrary channel configuration such as 5ch, 2ch, 13ch, etc. is generated. This audio data is used to play the sound of the content when the position of the CVP is the position of the listener.
  • the loudness value of the audio data generated for each CVP is measured, and the measurement result is regarded as the measured loudness value for each CVP.
  • the measured loudness value La of CVP A, the measured loudness value Lb of CVP B, the measured loudness value Lc of CVP C, the measured loudness value Ld of CVP D, and the measured loudness value Le of CVP E are obtained by measurements.
  • the target loudness value Lt[LKFS] is set as the loudness value desired by the listener.
  • the loudness value of the audio data obtained by rendering processing on the playback side is set to the target loudness value Lt.
  • the gain information for each CVP of each object is corrected (gain control) so that the loudness values at each CVP all become the target loudness value Lt, thereby achieving loudness correction.
  • a loudness change value is calculated to correct the gain information (gain value) of the object for each CVP, as shown on the right side of Figure 17.
  • the loudness change value Ga for CVP A the loudness change value Gb for CVP B, the loudness change value Gc for CVP C, the loudness change value Gd for CVP D, and the loudness change value Ge for CVP E are calculated.
  • these loudness change values Ga through Ge can be obtained using the following formula (11):
  • the difference between the target loudness value Lt and the measured loudness value i.e., the value obtained by subtracting the measured loudness value from the target loudness value Lt, is calculated as the loudness change value.
  • the gain change rate for correcting the gain information of the object is calculated based on the loudness change value calculated for each CVP, and the gain information of the object for each CVP is corrected based on the obtained gain change rate.
  • the gain change rates GaRatio to GeRatio of each CVP, CVP A to CVP E can be found by calculating the following equation (12) based on the loudness change value of each CVP.
  • the gain change rate for each CVP obtained in this way is multiplied by the gain information for each CVP of the object to obtain the final gain information for each CVP of the object.
  • the final object gain information ObgGain_a[i] through ObgGain_e[i] for each CVP, CVP A through CVP E can be calculated by calculating the following equation (13) based on the gain change rate of each CVP.
  • ObgGain_a[i] through ObgGain_e[i] indicate the gain information (gain value before correction) of the i-th object for CVP A through CVP E included in the metadata. Therefore, in formula (13), the value obtained by multiplying the gain information of the object by the gain change rate becomes the final gain information of the object, that is, the gain information after correction (hereinafter also referred to as correction gain information).
  • the compensation gain information obtained for each CVP is used to calculate gain information for each object relative to the listener's position, and this is applied to the audio data for each object.
  • Group mode In group mode, CVPs are grouped and the relative loudness values of CVPs in the same group are maintained.
  • CVP group On the content production side, for example, five CVPs, CVP A to CVP E, are set as shown in Figure 18, and these CVPs are grouped so that each CVP belongs to a group (CVP group).
  • CVP C and CVP D form a group 1
  • CVP A, CVP B, and CVP E form a group 2.
  • a creator may group CVPs with which he or she wishes to establish a relative relationship by adding in advance the difference between the largest measured loudness value and the CVP's own measured loudness value to the loudness change value of the CVP whose loudness he or she wishes to intentionally lower.
  • grouping is performed so that CVPs with which it is desired to maintain a balance in volume (relative volume relationship) are in the same group.
  • the producer would group CVP A, CVP B, and CVP E into one CVP group, "Group 2," as shown in Figure 18.
  • the largest of the measured loudness values of CVP A, CVP B, and CVP E is the measured loudness value Lb of CVP B, then when calculating the loudness change value, the measured loudness value of not only CVP B, but also CVP A and CVP E will be treated as being Lb.
  • the concept of a CVP group is established, and information (group information) indicating the group to which each CVP belongs is stored in the bitstream, but even when in group mode, the original measured loudness value of each CVP may be stored in the bitstream.
  • the maximum measured loudness value within each CVP group is identified based on the group information value defined for each CVP.
  • the maximum measured loudness value is then set as the measured loudness value for all CVPs belonging to the group.
  • CVP grouping may be performed, for example, according to a specified operation by the creator, but may be performed by any other method.
  • clustering may be performed based on the placement positions of multiple CVPs in a virtual space, or grouping may be performed based on the distance between the CVPs so that CVPs with short distances between them belong to the same group.
  • the group to which a CVP belongs may be determined based on the area in the virtual space in which the CVP is placed.
  • CVPs placed within the venue may belong to the same group, while CVPs placed outside the venue may belong to a different group than the group to which the CVPs within the venue belong.
  • CVPs in the first floor seats may belong to the same group, while CVPs in the second floor seats may belong to a different group than the CVPs in the first floor seats.
  • the number of groups and groupings may also be dynamically changed over time. Furthermore, multiple grouping results (group patterns) may be prepared in advance, such as group information for area A when the listener is in area A in the virtual space, and group information for area B when the listener is in area B.
  • the group pattern may be switched so that one of multiple group patterns is selected depending on, for example, the position of the listener, the resources on the playback side, the remaining battery level on the playback side, the device type on the playback side, and the state of the network such as congestion.
  • Group pattern switching may be performed by the server that distributes the content, or by the content playback side (client).
  • client When group patterns are switched in this way, it is conceivable to prepare configuration information, which will be described later, for each group pattern, for example.
  • all CVPs may belong to the same group, as shown on the left side of Figure 19. In other words, all CVPs in the virtual space may belong to one group.
  • the loudness change value is first calculated.
  • the maximum value among the measured loudness values of each CVP belonging to the group is identified as the maximum measured loudness value, and the difference between that maximum measured loudness value and the target loudness value is set as the loudness change value.
  • the loudness change values of all CVPs belonging to the group are the same value.
  • CVP A to CVP E belong to the same group, and the maximum measured loudness value of those CVPs is the measured loudness value Ld of CVP D.
  • the maximum measured loudness value Lmax Ld
  • the loudness change values Ga to Ge for CVP A to CVP E are calculated based on the maximum measured loudness value Lmax and the target loudness value Lt using the following formula (14).
  • the difference between the target loudness value Lt and the maximum measured loudness value Lmax i.e., the value obtained by subtracting the maximum measured loudness value Lmax from the target loudness value Lt, is calculated as the loudness change value Ga to loudness change value Ge.
  • the loudness change values Ga to Ge of CVP A to CVP E that belong to the same group are the same value.
  • the loudness change value is calculated for each group, for example, as shown in FIG. 20.
  • the greater (largest) of the measured loudness value Lc of CVP C and the measured loudness value Ld of CVP D is set as the maximum measured loudness value Lmax_g1 of Group 1.
  • the maximum of the measured loudness value La of CVP A, the measured loudness value Lb of CVP B, and the measured loudness value Le of CVP E is determined to be the maximum measured loudness value Lmax_g2 of Group 2.
  • the difference between the target loudness value Lt and the maximum measured loudness value Lmax_g1 is set as the loudness change value for all CVPs in group 1
  • the difference between the target loudness value Lt and the maximum measured loudness value Lmax_g2 is set as the loudness change value for all CVPs in group 2.
  • the gain change rates GaRatio to GeRatio of each CVP, CVP A to CVP E can be found by calculating the following formula (15) based on the loudness change value of each CVP.
  • the gain change rate for each CVP obtained in this way is multiplied by the gain information for each CVP of the object to obtain the final gain information for each CVP of the object.
  • the corrected gain information ObgGain_a[i] to ObgGain_e[i], which is the final object gain information of each CVP, CVP A to CVP E, is found by calculating the following formula (16) based on the gain change rate of each CVP.
  • ObgGain_a[i] through ObgGain_e[i] indicate the gain information (gain value before correction) of the i-th object for CVP A through CVP E included in the metadata.
  • the value obtained by multiplying the gain information of the object by the gain change rate is regarded as the final gain information of the object (corrected gain information).
  • the compensation gain information obtained for each CVP is used to calculate gain information for each object relative to the listener's position, and this is applied to the audio data for each object.
  • Production loudness mode In the production loudness mode, the production loudness value of each CVP is set as intended by the producer when creating the content.
  • the produced loudness values Lca to Lce of CVP A to CVP E are set, and the measured loudness values La to Le of CVP A to CVP E are obtained by measurement.
  • Producers can intentionally set the volume balance between CVPs by specifying (setting) the production loudness value.
  • loudness change values are calculated in two stages.
  • the intermediate loudness change value is calculated for each CVP, as shown in the center of the figure.
  • the intermediate loudness change value is determined by subtracting the measured loudness value from the produced loudness value, as shown in the following formula (17). Note that in formula (17), Ga to Ge indicate the intermediate loudness change values of CVP A to CVP E.
  • loudness correction will be performed for CVP A so that the loudness during playback will be the production loudness value Lca.
  • a common correction amount OvaG which is a correction amount common to all CVPs
  • the final loudness change value which is the final loudness change value for each CVP
  • the maximum value of the produced loudness values of all CVPs i.e. the maximum value among the produced loudness values Lca to Lce, is set as the maximum produced loudness value Lcx_max.
  • the difference between the target loudness value Lt and the maximum produced loudness value Lcx_max i.e., the value obtained by subtracting the maximum produced loudness value Lcx_max from the target loudness value Lt, is set to the common correction amount OvaG.
  • the common correction amount OvaG is the correction amount for the intermediate loudness change value of each CVP so that the loudness in the CVP with the maximum produced loudness value Lcx_max becomes the target loudness value Lt, and the volume balance between each CVP, that is, the relative volume (loudness) relationship, is maintained.
  • final loudness change value (final loudness change value) is calculated for each CVP based on the common correction amount OvaG and the intermediate loudness change value.
  • the final loudness change values fGa through fGe for each CVP, CVP A through CVP E can be calculated using the following formula (19).
  • Figure 22 shows specific examples of the final loudness change values fGa to fGe for each CVP shown in Figure 21.
  • the final loudness change value fGe for CVP E will be 8.75.
  • the final loudness change value is used to calculate the gain change rates GaRatio to GeRatio of each CVP, CVP A to CVP E, using the following equation (20).
  • the gain change rate for each CVP is multiplied by the gain information for each CVP of the object to obtain the final gain information for each CVP of the object.
  • the corrected gain information ObgGain_a[i] to ObgGain_e[i], which is the final object gain information for each CVP, CVP A to CVP E, is found by calculating the following formula (21) based on the gain change rate of each CVP.
  • the loudness in the CVP that results in the maximum production loudness value Lcx_max becomes the target loudness value Lt. Furthermore, the relative relationship of loudness between each CVP is the same as the relative relationship of the production loudness value of each CVP.
  • loudness correction can be performed simply by controlling the gain of the object.
  • the gain of the object it is possible to appropriately control loudness at any listener position in a virtual space such as a three-dimensional space.
  • the loudness at each viewpoint (listening position) on the playback side can be adjusted (aligned) to the target loudness value.
  • the loudness at the CVP with the maximum measured loudness value can be adjusted to the target loudness value while maintaining the volume balance between CVPs within the group.
  • the loudness at the CVP where the production loudness value is maximum can be adjusted to the target loudness value while maintaining the volume balance between CVPs as desired by the content creator.
  • the production device When producing content, for example as shown in the upper part of Figure 23, the production device realizes a 6DoF decoder 101, a renderer 102, a loudness measurement tool 103, and a configuration information generator 104 as functional processing blocks, and generates configuration information.
  • the 6DoF decoder 101 decodes metadata for each object's CVP for one or more CVPs in the virtual space.
  • the renderer 102 performs rendering processing such as VBAP based on metadata for each CVP of each object and audio data for playing the sound of each object, thereby generating audio data with a desired channel configuration, for example, 2ch or 21ch.
  • the renderer 102 performs rendering processing for each CVP.
  • the position of the CVP is used as the position of the listener, and an arbitrary direction is used as the direction of the listener.
  • the loudness measurement tool 103 measures loudness based on the audio data of the desired channel configuration obtained for each CVP, and outputs the measurement results as measured loudness values for each CVP.
  • the configuration information generating unit 104 generates information related to the loudness of the CVP, including the measured loudness value for each CVP, as multi-loudness information, and also generates and outputs configuration information that includes the multi-loudness information and other information related to the CVP.
  • the playback side is provided with the configuration information obtained in this way, metadata for each CVP of each object, and audio data for each object.
  • functional processing blocks include a 6DoF decoder 121, a rendering module 122, and an audio output module 123, which output the audio data of the content.
  • the 6DoF decoder 121 performs decoding and interpolation processing on the configuration information and metadata for each CVP of the object, and generates metadata for each object based on the position of the listener (hereinafter also referred to as listener-based metadata).
  • the generation of listener-based metadata also uses listener position information that indicates the listener's position in the virtual space, listener direction information that indicates the direction of the listener's face in the virtual space, i.e., the direction of the listener's gaze, and target loudness values specified by the listener, etc.
  • the rendering module 122 performs rendering processing such as VBAP based on the listener reference metadata of each object and the audio data of each object to generate audio data with the desired channel configuration, such as 2ch or 21ch.
  • the rendering module 122 performs rendering processing similar to that performed by the renderer 102.
  • the audio data generated by the rendering module 122 is audio data (hereinafter also referred to as output audio data) for playing the sounds of the content, including the sounds of each object.
  • the audio output module 123 outputs the output audio data generated by the rendering module 122 to an audio output unit such as a speaker or headphones.
  • the configuration information generated by the content creator is, for example, the information shown in FIG. 24.
  • the multi-loudness information is written in the bitstream in the format shown in FIG. 24.
  • the multi-loudness information includes group mode flag information "LoudCvpGroupMode" that indicates whether or not the group mode is in effect, i.e., whether or not the group mode is to be used.
  • a value of "0" in the group mode flag information indicates that group mode is not used (not group mode), and a value of "1" in the group mode flag information indicates that group mode is used and that a CVP group is set for each CVP.
  • the value "2" of the group mode flag information indicates that group mode is used and all CVPs are in the same CVP group.
  • the multi-loudness information stores the number of CVPs, i.e., for each CVP, a group index "LoudCvpGroup[i]" indicating the CVP group to which the i-th CVP belongs.
  • a group index "LoudCvpGroup[i]” indicating the CVP group to which the i-th CVP belongs.
  • the value range of the group index LoudCvpGroup[i] is from 0 to 15. This group index corresponds to the group information described with reference to FIG. 16.
  • the multi-loudness information stores loudness information "loudnessInfoMp[i]" for the i-th CVP for each CVP.
  • This loudness information "loudnessInfoMp[i]" contains the measured loudness value of the i-th CVP, measurementCount, etc.
  • MeasurementCount is count information that indicates the number of playback environments such as channel configurations, i.e., the number of prepared production loudness values, etc., when production loudness values, etc. are prepared for each playback environment, such as for each channel configuration, for each CVP. Note that the number of measured loudness values for each CVP may also be the same as the number of measurementCount, i.e., for each playback environment.
  • the multi-loudness information stores the production loudness value present flag information "CvpLoudValuePresentFlag".
  • the produced loudness value presence flag information "CvpLoudValuePresentFlag" is flag information indicating whether or not a produced loudness value is present, i.e., whether or not a produced loudness value is included in the multi-loudness information (composition information).
  • a value of "0" in the produced loudness value presence flag information indicates that a produced loudness value does not exist (is not set), and a value of "1" in the produced loudness value presence flag information indicates that a produced loudness value exists (is set).
  • a value of "0" in the produced loudness value presence flag information indicates that the measured loudness mode is selected, and a value of "1" in the produced loudness value presence flag information indicates that the produced loudness mode is selected.
  • the multi-loudness information stores the production loudness values "CvpLoudValue[i][j]" for each CVP, the number of which is the measurementCount.
  • i is the index of the CVP
  • j is the index of the playback environment corresponding to the measurementCount.
  • the group mode flag information and produced loudness value presence flag information stored in the configuration information can be said to be information for identifying whether the loudness mode is the measured loudness mode, the group mode, or the produced loudness mode.
  • the configuration information needs to be transmitted to the playback side, i.e., the client that plays the content, at a specific timing, such as before or when playback of the content starts.
  • the client once the client has acquired the configuration information, it can use that information to generate output audio data for each frame (time).
  • configuration information will change while the content is being played.
  • configuration information may be prepared for each area in the virtual space, each scene in the content, each client resource, each client's remaining battery level, each client device type, each network status, etc.
  • the configuration information used to generate the output audio data will be switched at any time while the content is being played.
  • the server that distributes the content prepares configuration information for multiple viewing areas in a virtual space, such as configuration information for viewing area A to configuration information for viewing area C.
  • the server appropriately acquires listener position information indicating the listener's current position in the virtual space from the client, and selects configuration information. For example, if the listener's position indicated by the listener position information is a position within viewing area A, i.e., if the listener is located within viewing area A, configuration information for viewing area A is selected.
  • the configuration information selected according to the listener position, the metadata for each CVP of each object, and the audio data of each object are appropriately encoded and transmitted to the client.
  • the configuration information for viewing area A has been transmitted to the client.
  • the 6DoF decoder 121 In the client, the 6DoF decoder 121 generates listener-reference metadata in the same manner as in FIG. 23, based on the configuration information obtained from the server and the metadata for each CVP of each object. In this example, the configuration information for viewing area A is used as the configuration information.
  • a rendering process is performed based on the listener-based metadata and audio data of each object, and output audio data of the content is generated.
  • the configuration information transmitted to the client is switched every time the viewing area in which the listener is located is switched, that is, every time the listener moves to another viewing area.
  • the horizontal direction represents time, i.e., frames (time frames) of output audio.
  • the listener moves to a viewing area different from the viewing area in which it was located, so the configuration information of the viewing area to which the listener has moved, the metadata for each CVP of each object, and the audio data of each object are transmitted from the server to the client.
  • the listener moves to another viewing area, i.e., the viewing area changes, so the configuration information is transmitted in frame (N+4).
  • frame (N+4) configuration information for the viewing area to which the listener has moved, metadata for each CVP of each object, and audio data for each object are transmitted from the server to the client.
  • Fig. 27 to Fig. 30 Examples of display screens (UI (User Interface)) are shown in Fig. 27 to Fig. 30.
  • UI User Interface
  • corresponding parts are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • Figures 27 to 29 are examples of display screens (UI) that are displayed by the content production tool on the content production side.
  • UI display screens
  • the display screen shown in Figure 27 displays an image of a virtual space in which objects are placed, with TPs and CVPs being placed in the virtual space.
  • a circle with the letters "TP” written on it represents a TP
  • a circle with letters such as the letter "A” written on it represents a CVP
  • a circle with the letter “A” written on it represents one CVP, CVP A.
  • the pentagonal mark LPT11 indicates the current position of the listener in the virtual space.
  • the content creator determines the placement of the TP and CVP by, for example, changing the position of the TP or each CVP, adding a new CVP, or deleting unnecessary CVPs as appropriate. Once the placement of the CVP has been determined, the loudness value at each CVP is measured as appropriate in response to the creator's operations, and the measurement results, i.e., the measured loudness value, are displayed in the vicinity of each CVP.
  • a display area CLR11 is displayed adjacent to CVP B, which is represented by a circle with the letter "B” inscribed on it, showing information about that CVP B.
  • the measured loudness value of CVP B, "-10.75" is shown in the display area CLR11 for CVP B.
  • producers can check the measured loudness value for each CVP displayed, and can adjust the position of the CVP, etc., as appropriate, based on the displayed measured loudness value.
  • a virtual space is displayed on the display screen, and in the same way as in Figure 27, the TP, CVP, the display area of each CVP, and the mark LPT11 indicating the listener's position are displayed in the virtual space.
  • the display area of each CVP displays not only the measured loudness value of the CVP, but also information indicating the group to which the CVP belongs (CVP group).
  • the display area CLR11 for CVP B shows the measured loudness value of CVP B, "-10.75”, as well as "GP2", which is information indicating the group to which CVP B belongs (group name).
  • the creator can specify a group for each CVP by manipulating the display area. For example, as shown on the right side of the figure, the creator can display the group list GPL11, which is a user interface for selecting (specifying) a group for a CVP, by manipulating the part of the display area CLR12 of the desired CVP where the group name is displayed.
  • GPL11 is a user interface for selecting (specifying) a group for a CVP, by manipulating the part of the display area CLR12 of the desired CVP where the group name is displayed.
  • the group list GPL11 lists the CVP groups to which the CVP can belong, with check boxes next to them.
  • the creator can specify (select) the group to which the CVP will belong by manipulating the check boxes and displaying a check mark in the check boxes.
  • a check mark is displayed in the check box for the group name "GP2,” indicating that the group name "GP2" has been specified.
  • the display screen shown in Figure 29 displays a virtual space, in which, as in Figure 27, the TP, CVP, the display area of each CVP, and the mark LPT11 indicating the listener's position are displayed.
  • the display area of each CVP displays not only the measured loudness value of the CVP, but also the production loudness value of the CVP.
  • the display area CLR11 of CVP B displays the measured loudness value of CVP B, "-10.75", as well as the produced loudness value of CVP B, "-6.75", specified (input) by the producer.
  • the producer can input the produced loudness value for each CVP by performing operations on the CVP display area as appropriate.
  • the method of inputting the measured loudness value is not limited to the example in Figure 29, and any other method may be used.
  • Figure 30 shows an example of a display screen displayed by an application program that performs processing related to content playback on the playback side, i.e., the client side.
  • an image of a three-dimensional virtual space is displayed on the display screen, and in the virtual space are displayed marks LPT21 indicating the positions of the TP, CVP, objects, and listeners, and a display area RP11 related to content playback.
  • a sphere TPM11 in virtual space represents the TP, and images of objects that are sound sources are displayed around the TP.
  • spheres with letters such as the letter "A” represent CVPs.
  • a sphere with the letter "A” represents one CVP, CVP A.
  • the listener can grasp the position of his/her viewpoint in the virtual space, the placement of the CVP, the placement of objects, etc.
  • the listener's position, the number and positions of objects, and the number and positions of CVPs may change over time.
  • Display area RP11 includes a group of buttons BT11 for controlling content playback, check boxes BX11, and an input field IPB11.
  • Button group BT11 includes a play button to start playing content, a pause button to pause playing content, and a play stop button to stop playing content. The listener can start or stop playing content by operating the buttons in button group BT11.
  • Check box BX11 is operated when setting the loudness mode. For example, a listener can operate check box BX11 during content playback to cause a check mark to appear in check box BX11, thereby switching to loudness mode.
  • the input field IPB11 is an area for entering the target loudness value used in the loudness mode.
  • input field IPB11 becomes active and you can enter a target loudness value in input field IPB11.
  • the listener can input any value into input field IPB11 as the target loudness value by operating input field IPB11.
  • "-6.75" is input into input field IPB11 as the target loudness value.
  • the input field IPB11 may be always in an active state, and when a target loudness value is input into the input field IPB11, a check mark may be displayed in the check box BX11, and the loudness mode may be selected.
  • the check box BX11 may not be provided in the display area RP11, and when a target loudness value is input into the input field IPB11, the loudness mode may be selected.
  • FIG. 31 shows an example of the configuration of an embodiment of an information processing device that is a content production device.
  • the information processing device 161 shown in FIG. 31 is, for example, a personal computer, and generates content configuration information etc. in response to the creator's operations.
  • the information processing device 161 has an input unit 171, a display unit 172, a communication unit 173, a control unit 174, a recording unit 175, and an audio output unit 176.
  • the input unit 171 is made up of, for example, a mouse and a keyboard, and supplies signals corresponding to operations by the content creator to the control unit 174.
  • the display unit 172 is made up of a display, and displays the display screen of the production tool, etc., according to the control of the control unit 174.
  • the communication unit 173 communicates with an external device according to the control of the control unit 174.
  • the communication unit 173 transmits configuration information and object metadata provided by the control unit 174 to a server, which is an external device.
  • the control unit 174 controls the overall operation of the information processing device 161.
  • the control unit 174 executes the production tool program to realize the rendering processing unit 181 and the loudness measurement unit 182.
  • the rendering processing unit 181 performs rendering processing based on the metadata and audio data of the object.
  • the loudness measurement unit 182 performs loudness measurement based on the audio data of the content generated by the rendering processing.
  • the rendering processing unit 181 and the loudness measurement unit 182 correspond to, for example, the renderer 102 and the loudness measurement tool 103 shown in FIG. 23.
  • the control unit 174 also functions as the 6DoF decoder 101 and the configuration information generation unit 104 shown in FIG. 23.
  • the recording unit 175 is made up of a non-volatile memory or the like, records various data such as production tool programs, and supplies the recorded data to the control unit 174 as appropriate.
  • the audio output unit 176 is made up of a speaker or the like, and outputs sound based on audio data supplied from the control unit 174. Note that the audio output unit 176 may be provided outside the information processing device 161. In such a case, for example, headphones or earphones may serve as the audio output unit 176.
  • control unit 174 controls the display unit 172 to cause the display unit 172 to display the display screen of the production tool.
  • control unit 174 determines the CVP position etc. according to the signal supplied from the input unit 171 and generates metadata for each CVP of the object.
  • the information processing device 161 performs the configuration information generation process shown in FIG. 32 to generate configuration information.
  • the configuration information generation process performed by the information processing device 161 will be described below with reference to the flowchart in FIG. 32.
  • step S301 the control unit 174 measures the loudness value of each CVP.
  • control unit 174 For example, if metadata for each CVP of each object is encoded and stored, the control unit 174 performs a decoding process on the encoded metadata.
  • the rendering processing unit 181 of the control unit 174 also performs rendering processing for each CVP. That is, the rendering processing unit 181 regards the position of the CVP as the position of the listener, and performs rendering processing such as VBAP based on CVP position information indicating the position of the CVP in the virtual space, metadata about the CVP of each object, and object data of each object, thereby generating audio data of the content when the position of the CVP is the listening position.
  • the loudness measurement unit 182 of the control unit 174 calculates (measures) the loudness value of the audio data of the content in the CVP based on the audio data of the content obtained for each CVP, and sets the calculation result as the measured loudness value for the CVP.
  • the control unit 174 also causes the display unit 172 to display the measurement results of the loudness value for each CVP. As a result, the display unit 172 displays a display screen such as that shown in FIG. 27, for example.
  • step S302 the control unit 174 stores the measured loudness values of each CVP obtained in step S301 in the configuration information.
  • the control unit 174 stores the measured loudness value for each CVP obtained in step S301 in the loudness information loudnessInfoMp[i] of the configuration information being held and in the process of being generated. In addition, the control unit 174 also stores information such as measurementCount in the loudness information loudnessInfoMp[i] as necessary.
  • step S303 the control unit 174 determines whether or not the mode is group mode based on a signal corresponding to the producer's operation supplied from the input unit 171. For example, if the producer selects the group mode in the loudness mode settings, the mode is determined to be group mode in step S303.
  • step S304 the control unit 174 sets the group index values of all CVPs to 0. In other words, the CVP group becomes the default group.
  • control unit 174 sets the value of the group index LoudCvpGroup[i] of each CVP in the configuration information being held and in the process of being generated to 0.
  • control unit 174 controls the display unit 172 to display, for example, the display screen shown in FIG. 28 on the display unit 172.
  • the creator appropriately operates the input unit 171 to perform operations on the display area of any CVP to display a group list, and selects the CVP group by specifying the desired group (group name) from the group list. In other words, the creator appropriately operates to change the CVP group from the default group to a group specified by the creator.
  • step S305 the control unit 174 determines whether there is a CVP whose group index value has been changed by the creator.
  • control unit 174 determines that there is a CVP whose group index value has been changed.
  • step S305 If it is determined in step S305 that there is a CVP whose group index value has been changed, the control unit 174 changes the group index value in step S306.
  • control unit 174 changes (updates) the value of the group index LoudCvpGroup[i] of the CVP that is instructed to be changed in the configuration information that it is holding and is in the process of generating, to a value specified by the creator.
  • step S306 After step S306 is performed, the process returns to step S305 and the above-mentioned process is repeated.
  • step S305 determines whether there is no CVP whose group index value has been changed, i.e., when group selection for each CVP is completed.
  • control unit 174 stores information indicating group mode in the configuration information that is being held and is in the process of being generated. For example, when the control unit 174 generates configuration information including the multi-loudness information shown in FIG. 24, it sets the value of the group mode flag information LoudCvpGroupMode in the configuration information to "1" or "2" depending on the value of the group index of each CVP.
  • step S307 the control unit 174 determines whether or not the mode is the production loudness mode based on a signal corresponding to the producer's operation supplied from the input unit 171. For example, if the producer selects the production loudness mode in the loudness mode settings, it is determined in step S307 that the mode is the production loudness mode.
  • step S307 If it is determined in step S307 that the production loudness mode is not selected, i.e., the measured loudness mode has been selected by the producer (if it is determined that the measured loudness mode is selected), then processing proceeds to step S311.
  • the control unit 174 stores information indicating that the mode is not group mode in the configuration information that it is holding and is currently being generated. For example, when the control unit 174 generates configuration information including the multi-loudness information shown in FIG. 24, it sets the value of the group mode flag information LoudCvpGroupMode in the configuration information to "0.” In addition, the control unit 174 sets the value of the production loudness value present flag information CvpLoudValuePresentFlag in the configuration information to "0.”
  • step S308 the control unit 174 sets the production loudness values of all CVPs to 0.
  • the control unit 174 sets the value of the production loudness value present flag information CvpLoudValuePresentFlag in the configuration information being held and in the process of being generated to "1.” Furthermore, the control unit 174 sets the value of the production loudness value CvpLoudValue[i][j] of each CVP in the configuration information to 0.
  • control unit 174 controls the display unit 172 to display, for example, the display screen shown in FIG. 29 on the display unit 172.
  • the producer appropriately operates the input unit 171 to operate the display area of any CVP, thereby inputting the production loudness value of that CVP. In other words, the producer appropriately operates to change the production loudness value from the default value "0" to a value specified by the producer.
  • step S309 the control unit 174 determines whether there is a CVP whose production loudness value has been changed by the producer.
  • control unit 174 determines that there is a CVP whose production loudness value has been changed.
  • step S309 If it is determined in step S309 that there is a CVP whose production loudness value has been changed, the control unit 174 changes the production loudness value in step S310.
  • control unit 174 changes (updates) the production loudness value CvpLoudValue[i][j] of the CVP that is instructed to be changed in the configuration information being held and generated in response to a signal supplied from the input unit 171 to a value specified by the producer.
  • multiple production loudness values, etc. stored in the configuration information may be prepared for each playback environment, etc.
  • step S310 After step S310 is performed, the process returns to step S309 and the above-mentioned process is repeated.
  • step S309 determines whether there is no CVP whose production loudness value has been changed, i.e., when setting of the production loudness value for each CVP has been completed.
  • control unit 174 stores information indicating that a produced loudness value is stored in the configuration information being held and in the process of being generated. For example, when the control unit 174 generates configuration information including the multi-loudness information shown in FIG. 24, it sets the value of the produced loudness value present flag information CvpLoudValuePresentFlag in the configuration information to "1."
  • step S305 If it is determined in step S305 that there is no CVP whose group index value has been changed, if it is determined in step S307 that the measurement loudness mode is selected, or if it is determined in step S309 that there is no CVP whose production loudness value has been changed, then processing of step S311 is performed.
  • step S311 the control unit 174 outputs the configuration information it holds.
  • control unit 174 stores necessary information as appropriate in the configuration information including the multi-loudness information obtained by the processing up to this point to create the final configuration information, and outputs the final configuration information to the recording unit 175 to record it, and the configuration information generation processing ends.
  • control unit 174 appropriately supplies metadata for each CVP of each object, audio data for each object, and the like to the recording unit 175 for recording.
  • the final configuration information also includes, for example, multi-loudness information, object number information indicating the number of objects that make up the content, CVP number information indicating the number of CVPs prepared in advance, and CVP information regarding the CVPs.
  • the CVP information includes a CVP index, CVP position information, and CVP orientation information.
  • the CVP index is ID information that uniquely identifies the CVP.
  • the CVP position information is position information that indicates the absolute position of the CVP in virtual space
  • the CVP orientation information is information that indicates the direction of the face of a virtual listener in the CVP in virtual space.
  • the CVP orientation information can be information that indicates the direction from the CVP to the TP.
  • the configuration information may be generated for each viewing area, each scene of the content, each client resource, each client's remaining battery level, each client's device type, each network state, etc.
  • the control unit 174 may generate multiple different pieces of configuration information.
  • control unit 174 also reads out the content configuration information, metadata for each CVP of each object, and audio data for each object from the recording unit 175 at any timing, and supplies these to the communication unit 173.
  • the communication unit 173 transmits the content configuration information, metadata for each CVP of each object, and audio data for each object supplied from the control unit 174 to the server as content data.
  • the information processing device 161 selects (sets) a loudness mode in response to the producer's operation, and generates configuration information that includes measured loudness values, etc., in response to the selection result, etc.
  • loudness control can be performed using only the gain control of the object using the configuration information. This makes it possible to realize free viewpoint audio playback that reflects the creator's intentions and the target loudness value specified by the listener.
  • FIG. 33 is a diagram showing a configuration example of an embodiment of a server to which the present technology is applied.
  • the server 211 shown in FIG. 33 is an information processing device such as a computer, and functions as an encoder that receives content data from the information processing device 161 and distributes the content data to the client.
  • the server 211 has an acquisition unit 221, a bitstream encoder 222, and a communication unit 223.
  • the acquisition unit 221 receives (acquires) the content data transmitted from the information processing device 161, i.e., configuration information, metadata for each CVP of each object, and audio data for each object, and supplies them to the bitstream encoder 222.
  • the metadata for each CVP of an object includes object position information that indicates the object's position in virtual space, defined for the CVP, and gain information for the object's audio data.
  • the object position information may be coordinate information that indicates the relative position of the object as seen from the CVP, expressed in polar coordinates, or it may be coordinate information that indicates the absolute position of the object in virtual space, defined for each CVP and expressed in absolute coordinates (Cartesian coordinates).
  • the gain information is information on the gain value used for gain correction (gain adjustment) of the audio data of the object.
  • metadata for each CVP of an object may include, for example, priority information and spread information for the object.
  • the bitstream encoder 222 functions as a generator that generates a bitstream by appropriately encoding the configuration information supplied from the acquisition unit 221, the metadata for each CVP of each object, and the audio data of each object.
  • the bitstream encoder 222 supplies the generated bitstream to the communication unit 223.
  • the configuration information may be generated for each frame of the content, for each section consisting of multiple frames, or just one for the entire content.
  • the configuration information may also be stored in the bitstream as needed.
  • the communication unit 223 transmits the bit stream provided by the bit stream encoder 222 to the client, which is the information processing device that plays the content.
  • configuration information and the audio data and metadata of the object are transmitted to the client by a single server 211.
  • this is not limiting, and the configuration information and the audio data and metadata of the object may be transmitted to the client by different servers.
  • Bitstream Transmission Process Description The bitstream transmission process by the server 211 will be described with reference to the flowchart of FIG.
  • step S341 the acquisition unit 221 acquires the information necessary to generate a bitstream and supplies it to the bitstream encoder 222.
  • the acquisition unit 221 acquires the necessary information by receiving configuration information sent from the information processing device 161, metadata for each CVP of each object, and audio data for each object.
  • step S342 the bitstream encoder 222 generates a bitstream by encoding and multiplexing the configuration information supplied from the acquisition unit 221, the metadata for each CVP of each object, and the audio data of each object, as appropriate, and supplies the bitstream to the communication unit 223.
  • a bitstream is generated that includes the encoded configuration information, metadata of the objects, audio data of the objects, etc., as appropriate.
  • step S343 the communication unit 223 transmits the bitstream supplied from the bitstream encoder 222 to the client, and the bitstream transmission process ends.
  • bitstream encoder 222 stores the configuration information in the beginning (header) part of the bitstream.
  • the bitstream encoder 222 in step S342 selects an appropriate piece of configuration information from the multiple pieces of configuration information and generates a bitstream including the selected piece of configuration information. In this case, as described with reference to FIG. 26, for example, at the timing when the configuration information is switched, the configuration information selected at that time is stored in the bitstream.
  • the bitstream encoder 222 acquires listener position information from the client via the communication unit 223. Then, when the viewing area including the listener position indicated by the listener position information changes, the bitstream encoder 222 stores in the bitstream the configuration information prepared for the viewing area after the change. In other words, the configuration information prepared for the viewing area to which the listener has moved is stored in the bitstream.
  • the bitstream encoder 222 acquires resource information, which is information about the client's resources, and remaining battery level information, which indicates the remaining battery level, from the client via the communication unit 223. The bitstream encoder 222 then selects configuration information determined for the resource information or remaining battery level information, and stores the newly selected configuration information in the bitstream when the selected configuration information changes from the previous selection result.
  • the resources referred to here may be the client's currently available resources (computational resources) or the maximum resources available to the client.
  • the bitstream encoder 222 acquires device type information, which is information indicating the device type of the client, from the client via the communication unit 223. Then, the bitstream encoder 222 selects the configuration information defined for the device type information, and stores the selected configuration information in the bitstream.
  • the bitstream encoder 222 acquires the state of the network transmitting the bitstream (content data), such as the congestion state, from the communication unit 223. Then, the bitstream encoder 222 selects the configuration information determined for the network state, and stores the newly selected configuration information in the bitstream when the selected configuration information changes from the previous selection result.
  • content data such as the congestion state
  • the bitstream encoder 222 stores the configuration information defined for the scene after the scene change in the bitstream when the scene of the content changes.
  • the configuration information to be transmitted to the client may be selected from among the multiple pieces of configuration information based on a combination of at least two or more of the viewing area in which the listener is located, the client's resources, the client's remaining battery level, the client's device type, the network status, and the scene in the content being played.
  • bitstream encoder 222 may store multiple different configuration information, such as for each viewing area, in the bitstream, and the appropriate configuration information may be selected on the client side.
  • the server 211 stores the appropriate configuration information in the bitstream and transmits it to the client. This allows the client receiving the bitstream to use the appropriate configuration information to perform loudness control using only the gain control of the object.
  • FIG. 35 is a diagram showing a configuration example of an embodiment of a client to which the present technology is applied.
  • the client 261 shown in FIG. 35 is an information processing device such as a personal computer, tablet terminal, smartphone, head mount, or game device, and functions as a decoder that receives the bit stream transmitted by the server 211 and plays the content.
  • an information processing device such as a personal computer, tablet terminal, smartphone, head mount, or game device, and functions as a decoder that receives the bit stream transmitted by the server 211 and plays the content.
  • the client 261 has an input unit 271, a display unit 272, a communication unit 273, a control unit 274, a recording unit 275, and an audio output unit 276.
  • the input unit 271 is composed of, for example, a mouse, a keyboard, a button, a switch, a touch panel superimposed on the display unit 272, and supplies a signal corresponding to an operation by a user who is a listener to the control unit 274.
  • the display unit 272 is composed of a display, and displays various images (display screens), such as images related to the content, according to the control of the control unit 274.
  • the communication unit 273 communicates with external devices according to the control of the control unit 274. For example, the communication unit 273 transmits listener position information provided by the control unit 274 to the server 211, and receives a bit stream transmitted from the server 211 and provides it to the control unit 274.
  • the control unit 274 controls the overall operation of the client 261.
  • the control unit 274 realizes the function of a decoder by executing an application program that performs processing related to the playback of content.
  • the recording unit 275 is made up of a non-volatile memory or the like, records various data such as application programs for playing content, and supplies the recorded data to the control unit 274 as appropriate.
  • the audio output unit 276 is made up of a speaker or the like, and outputs sound based on audio data supplied from the control unit 274. Note that the audio output unit 276 may be provided outside the client 261. In such a case, for example, headphones, earphones, hearing aids, etc. may serve as the audio output unit 276.
  • the control unit 274 of the client 261 executes an application program to realize the function of a decoder.
  • FIG. 36 is a diagram showing an example of a functional configuration in which the client 261 functions as a decoder. Note that in FIG. 36, parts corresponding to those in FIG. 35 are given the same reference numerals, and their explanation will be omitted as appropriate.
  • the client 261 shown in FIG. 36 has a communication unit 273, a bitstream decoder 301, a metadecoder 302, a rendering processing unit 303, and an audio output unit 276.
  • bitstream decoder 301 For example, the bitstream decoder 301, metadecoder 302, and rendering processor 303 are realized by the control unit 274 executing an application program. Also, the bitstream decoder 301 and metadecoder 302 correspond to the 6DoF decoder 121 shown in FIG. 23, and the rendering processor 303 corresponds to the rendering module 122 shown in FIG. 23.
  • the communication unit 273 receives the bitstream transmitted from the server 211 and supplies it to the bitstream decoder 301.
  • the communication unit 273 functions as an acquisition unit that receives the bitstream and acquires configuration information and metadata contained in the bitstream.
  • the bitstream decoder 301 functions as a decoding unit that decodes the bitstream supplied from the communication unit 273, more specifically, the encoded audio data and the like contained in the bitstream. Through decoding and the like in the bitstream decoder 301, configuration information, metadata for each CVP of each object, and audio data for each object are extracted from the bitstream.
  • the bitstream decoder 301 supplies the audio data of each object to the rendering processor 303, and also supplies configuration information and metadata for each object's CVP to the meta decoder 302.
  • the metadecoder 302 is supplied with listener position information indicating the absolute position of the listener in the three-dimensional virtual space in which the object is placed, and listener direction information indicating the orientation of the listener in the three-dimensional virtual space, from the upper-level control unit 274 as appropriate.
  • the metadecoder 302 generates listener-based metadata, which is metadata for each object based on the position of the listener, based on the configuration information supplied from the bitstream decoder 301, the metadata for each CVP of each object, the listener position information, and the listener direction information, and supplies this to the rendering processor 303.
  • the listener-based metadata includes listener-based object position information obtained for each object, which indicates the position of each object relative to the listener position, and listener-based gain information, which is gain information of the object relative to the listener position.
  • the listener-based metadata may include priority information and spread information of each object.
  • listener-reference object position information is information that indicates the relative position of an object as seen by the listener, expressed in coordinates (polar coordinates) of a polar coordinate system that uses the listener's position in virtual space as the reference (origin).
  • the metadecoder 302 can be said to function as a correction unit that corrects the gain information of the object according to the loudness mode.
  • the rendering processing unit 303 performs rendering processing based on the audio data of each object supplied from the bitstream decoder 301 and the listener-reference metadata supplied from the meta decoder 302, and generates output audio data for the content.
  • the rendering processing unit 303 performs rendering processing in a polar coordinate system defined in MPEG-H, such as VBAP, to generate output audio data.
  • the rendering processing is not limited to VBAP and may be any other processing.
  • BRIR, HRTF, HOA, ITD (Interaural Time Difference), IID (Interaural Intensity Difference), etc. may be used in the rendering processing.
  • the output audio data of the content consists of audio data for each channel that is supplied to speakers corresponding to each channel that constitutes a speaker system as the audio output unit 276, for example.
  • the rendering processing unit 303 outputs the output audio data of the content to the audio output unit 276, causing the audio output unit 276 to play the sound of the content including the sounds of all objects. At this time, the sound (sound image) of each object is localized to the position indicated by the listener reference object position information.
  • step S391 the communication unit 273 receives the bitstream transmitted from the server 211 in step S343 of FIG. 34 and supplies it to the bitstream decoder 301.
  • step S392 the bitstream decoder 301 decodes the encoded audio data etc. contained in the bitstream supplied from the communication unit 273, and extracts various information contained in the bitstream. This extracts configuration information, metadata for each CVP of each object, and audio data for each object.
  • the bitstream decoder 301 supplies the audio data of each object to the rendering processor 303, and also supplies configuration information and metadata for each object's CVP to the meta decoder 302.
  • step S393 the metadecoder 302 generates listener-reference metadata based on the configuration information provided by the bitstream decoder 301, the metadata for each CVP of each object, and the provided listener position information and listener direction information.
  • the meta-decoder 302 supplies the generated listener-based metadata to the rendering processing unit 303.
  • the bit stream received (acquired) by the communication unit 273 may include multiple different pieces of configuration information.
  • the meta-decoder 302 may select one piece of configuration information from the multiple pieces of configuration information, and generate the listener-based metadata using the selected configuration information.
  • the selection of configuration information may be performed only when playback of the content begins, or may be performed for each frame of the content, or may be performed for each fixed or variable period, such as for each period consisting of multiple frames.
  • the configuration information used to generate the listener-referenced metadata will be switched as appropriate depending on the position of the listener, the computing resources, etc.
  • the metadecoder 302 uses the listener position information as appropriate to identify the viewing area in which the listener is currently located by some means, and selects the configuration information prepared for the identified viewing area.
  • the viewing area may be identified by the metadecoder 302 transmitting listener position information to the server 211 via the communication unit 273, and acquiring, via the communication unit 273, information indicating the viewing area including the current listener position transmitted from the server 211 in response to the transmission.
  • the metadecoder 302 may hold information indicating the range of each viewing area in virtual space in advance, and identify the viewing area including the current listener position based on that information and the listener position information.
  • information indicating the viewing area including the current listener position may be stored in the bit stream.
  • the meta-decoder 302 acquires resource information indicating the currently available resources (computational resources) of the client 261 or the maximum resources available to the client 261, and remaining battery level information indicating the remaining battery level of the client 261. The meta-decoder 302 then selects the configuration information defined for the resource or remaining battery level indicated by the resource information or remaining battery level information.
  • the meta-decoder 302 identifies the device type of the client 261 by some means, such as by referring to device type information previously recorded in the client 261, and selects the configuration information defined for the identified device type.
  • the metadecoder 302 obtains from the communication unit 273 the state of the network over which the bit stream (content data) is transmitted, such as the congestion state, and selects the configuration information defined for the network state.
  • the metadecoder 302 identifies the scene currently being played in the content, more specifically, the scene that is about to be played, by some means, and selects the configuration information defined for the identified scene. For example, information indicating the scene to be played in each frame of the content may be stored in the bitstream, or information indicating the scene to be played at each time (frame) of the content may be held in advance in the metadecoder 302.
  • configuration information specified by the listener by operating the input unit 271 may be selected from among multiple pieces of configuration information.
  • the configuration information selected by the listener may be used in response to the listener's operation.
  • the configuration information used to generate the listener-referenced metadata may be selected based on a combination of at least two of the following: the viewing area in which the listener is located, the resources of the client 261, the remaining battery level of the client 261, the device type of the client 261, the network status, and the scene in which the content is being played.
  • step S394 the rendering processing unit 303 performs rendering processing based on the audio data of each object supplied from the bitstream decoder 301 and the listener-reference metadata supplied from the meta decoder 302.
  • audio data for each channel is generated for each object to play the sound of that object.
  • the audio data for the same channel obtained for each object is then added together to create the output audio data for each channel of the content.
  • the rendering processing unit 303 supplies the output audio data for each channel obtained by the rendering processing to the audio output unit 276.
  • the audio output unit 276 plays the sound of the content based on the output audio data supplied from the rendering processing unit 303. When the sound of the content has been played, the output audio data generation processing ends.
  • the client 261 generates listener-reference metadata using the configuration information, and generates output audio data by rendering based on the listener-reference metadata. This allows for appropriate loudness control and free viewpoint audio playback that reflects the intentions of the producer and the target loudness value specified by the listener.
  • the client 261 performs metadata generation processing shown in FIG. 38 as part of the processing of step S393 in the output audio data generation processing described with reference to FIG.
  • step S441 the meta decoder 302 determines whether or not the mode is loudness mode.
  • the control unit 274 when playing back content, causes the display unit 272 to display the display screen shown in FIG. 30.
  • the display screen With such a display screen being displayed, if the listener (user) appropriately operates the input unit 271 to cause a check mark to be displayed in the check box BX11, i.e., when a check mark is displayed in the check box BX11, the meta decoder 302 determines that the loudness mode is in effect. Note that the loudness mode may also be determined to be in effect when a target loudness value is entered in the input field IPB11.
  • step S441 If it is determined in step S441 that the mode is not loudness mode, then processing proceeds to step S454. In this case, the gain information of the object contained in the metadata for each CVP of the object is used as the corrected gain information as is. In other words, no correction of the gain information is performed.
  • step S442 determines whether or not a measured loudness value is stored in the configuration information supplied from the bit stream decoder 301.
  • step S442 If it is determined in step S442 that a measured loudness value has not been stored, processing in loudness mode cannot be performed, and processing then proceeds to step S454. In this case as well, as in the case where it is determined in step S441 that the loudness mode is not being used, no correction is made to the gain information of the object, and the gain information is used as is as corrected gain information.
  • step S443 the meta decoder 302 determines whether or not the mode is measured loudness mode based on the configuration information.
  • the configuration information includes the multi-loudness information shown in FIG. 24, it is determined that the measured loudness mode is selected when the group mode flag information included in the configuration information has a value of "0" and the produced loudness value presence flag information included in the configuration information has a value of "0". More specifically, since the produced loudness value presence flag information is stored when the group mode flag information has a value of "0", it is determined that the measured loudness mode is selected when the produced loudness value presence flag information has a value of "0".
  • step S444 the metadecoder 302 calculates a loudness change value for each CVP based on the measured loudness value of the CVP and the target loudness value specified by the listener. For example, the metadecoder 302 calculates the loudness change value for each CVP by performing a calculation similar to the above-mentioned equation (11) using the measured loudness value included in the configuration information.
  • step S445 the metadecoder 302 corrects the gain information contained in the metadata for each CVP of each object supplied from the bitstream decoder 301 based on the loudness change value for each CVP.
  • the metadecoder 302 performs calculations similar to the above-mentioned equations (12) and (13) based on the object gain information contained in the metadata and the loudness change value calculated in step S444.
  • the gain change rate for each CVP is calculated from the loudness change value using a calculation similar to that of equation (12). Furthermore, for each object, the gain change rate is multiplied by the gain information for each CVP of the object to correct the gain information using a calculation similar to that of equation (13). This results in corrected gain information, which is the gain information after correction.
  • the gain information of the object defined for the CVP is corrected so that the loudness of the output audio data when the CVP position is the listener's position becomes the target loudness value.
  • the metadata for each object's CVP includes at least the object's correction gain information and object position information.
  • step S446 the meta decoder 302 determines whether or not the group mode is set based on the configuration information.
  • the configuration information includes the multi-loudness information shown in FIG. 24, it is determined to be in group mode when the value of the group mode flag information included in the configuration information is "1" or "2.”
  • step S446 If it is determined in step S446 that the mode is not group mode, then processing proceeds to step S447.
  • the configuration information includes the multi-loudness information shown in FIG. 24, the value of the group mode flag information is "0" and the value of the produced loudness value presence flag information is "1", so the produced loudness mode is selected.
  • step S447 the metadecoder 302 calculates an intermediate loudness change value for each CVP based on the measured loudness value of the CVP and the produced loudness value of the CVP.
  • the metadecoder 302 uses the measured loudness value and the produced loudness value contained in the configuration information to perform a calculation similar to the above-mentioned equation (17) to calculate the intermediate loudness change value for each CVP.
  • step S448 the meta decoder 302 calculates a common correction amount based on the production loudness value and the target loudness value.
  • the meta decoder 302 determines the maximum produced loudness value among all the CVP produced loudness values as the maximum produced loudness value, and calculates the common correction amount by performing a calculation similar to the above-mentioned equation (18) based on the maximum produced loudness value and the target loudness value.
  • step S449 the metadecoder 302 calculates a final loudness change value for each CVP based on the intermediate loudness change value calculated in step S447 and the common correction amount calculated in step S448. For example, the metadecoder 302 calculates the final loudness change value for each CVP by performing a calculation similar to the above-mentioned equation (19).
  • step S450 the metadecoder 302 corrects the gain information contained in the metadata for each CVP of each object supplied from the bitstream decoder 301 based on the final loudness change value for each CVP.
  • the metadecoder 302 performs calculations similar to the above-mentioned equations (20) and (21) based on the object gain information contained in the metadata and the final loudness change value calculated in step S449.
  • the gain change rate for each CVP is calculated from the final loudness change value using a calculation similar to that of equation (20).
  • the gain change rate for each object is multiplied by the gain information for each CVP of the object using a calculation similar to that of equation (21) to obtain corrected gain information.
  • the metadata for each object's CVP includes at least the object's correction gain information and object position information.
  • the loudness of the output audio data when the listener is positioned at the CVP with the maximum production loudness value becomes the target loudness value, and the gain information is corrected so that the relative relationship of the loudness of the output audio data at each of the multiple CVPs is the same as the relative relationship of the production loudness values at each of the multiple CVPs.
  • step S451 the meta decoder 302 identifies the maximum measured loudness value for each group (CVP group).
  • the metadecoder 302 identifies the CVP group to which each CVP belongs based on the group index value of each CVP included in the configuration information.
  • the metadecoder 302 also identifies the maximum measured loudness value, which is the maximum value among the measured loudness values of each CVP belonging to the CVP group, from the measured loudness value of each CVP included in the configuration information and the result of identifying the CVP group. Note that when the value of the group mode flag information is "2", all CVPs are considered to belong to the same group.
  • step S452 the metadecoder 302 calculates a loudness change value for each CVP group, based on the maximum measured loudness value identified in step S451 and the target loudness value. For example, the metadecoder 302 determines the loudness change value to be the value (difference value) obtained by subtracting the maximum measured loudness value from the target loudness value. In step S452, the loudness change value for each CVP group is found (calculated).
  • step S453 the metadecoder 302 corrects the gain information contained in the metadata for each CVP of each object supplied from the bitstream decoder 301 based on the loudness change value for each CVP.
  • the metadecoder 302 performs calculations similar to the above-mentioned equations (15) and (16) based on the gain information of the object contained in the metadata and the loudness change value calculated in step S452.
  • the gain change rate for each CVP is calculated from the loudness change value using a calculation similar to that of equation (15).
  • the gain change rate for each object is multiplied by the gain information for each CVP of the object using a calculation similar to that of equation (16) to obtain corrected gain information.
  • the loudness of the output audio data when the listener is positioned at the CVP with the largest measured loudness value among the CVPs belonging to the same group becomes the target loudness value, and the gain information is corrected so that the relative relationship between the loudness of the output audio data at each of the multiple CVPs belonging to the same group is the same as the relative relationship between the measured loudness values of each of the multiple CVPs.
  • the metadata for each object's CVP includes at least the object's correction gain information and object position information.
  • step S441 If it is determined in step S441 that the loudness mode is not set, if it is determined in step S442 that a measured loudness value has not been stored, if the process of step S445 is performed, if the process of step S450 is performed, or if the process of step S453 is performed, then the process of step S454 is performed.
  • step S454 the metadecoder 302 performs an interpolation process to generate metadata for each listener-based object, i.e., listener-based metadata.
  • the metadecoder 302 selects the CVP to be used for the interpolation process based on the listener position information and the CVP position information included in the configuration information.
  • the CVP to be used for the interpolation process may be a portion of all CVPs that are located around the listener position, or all CVPs may be used to perform the interpolation process.
  • the metadecoder 302 calculates a weighting coefficient for each CVP based on the CVP position information and the listener position information. For example, the weighting coefficient for each CVP is determined by the reciprocal ratio of the distance from the CVP to the listener position.
  • the metadecoder 302 calculates a three-dimensional object position vector whose starting point is the CVP and whose ending point is the position of the object as seen from the CVP.
  • the metadecoder 302 performs an interpolation process to calculate the weighted vector sum of the object three-dimensional position vectors for each CVP, using the weighting coefficient calculated for each CVP as the weight, and the resulting vector (position information) is used as the listener-reference object position information.
  • the sum of the object three-dimensional position vectors for each CVP multiplied by the weighting coefficient is calculated as the listener-reference object position information.
  • the object three-dimensional position vector obtained by the above calculation is an absolute coordinate in an absolute coordinate system with the listener position as the origin.
  • listener-reference object position information expressed in polar coordinates is required. Therefore, the meta-decoder 302 appropriately converts the listener-reference object position information expressed in absolute coordinates into listener-reference object position information expressed in polar coordinates.
  • listener direction information may be used as appropriate to calculate listener reference object position information.
  • the metadecoder 302 calculates listener reference gain information, which is the gain information of the object relative to the listener position, by an interpolation process based on the correction gain information included in the metadata for each CVP of the object.
  • the listener reference gain information is the gain information of the object when the listener position is the listening position.
  • the metadecoder 302 multiplies the correction gain information of each CVP by the weighting coefficient calculated for each CVP, and the sum of the correction gain information multiplied by the weighting coefficient is used as the listener reference gain information.
  • the method described in International Publication No. 2023/085140 can be adopted as a specific calculation method for determining the listener-reference object position information and the listener-reference gain information by the interpolation process.
  • the calculation method for the listener-reference object position information and the listener-reference gain information is not limited to this, and any other method may be used.
  • the CVP closest to the listener position may be identified, and the metadata of the object for the identified CVP may be used as the listener-reference metadata as is.
  • the metadecoder 302 calculates metadata including at least listener-based object position information and listener-based gain information as listener-based metadata for the object.
  • the listener-based metadata includes priority information, spread information, etc.
  • the priority information and spread information may also be generated by an interpolation process, etc.
  • the priority information or spread information included in the metadata for each CVP of the object used to generate the listener-based metadata may be the highest or lowest value, or the CVP closest to the listener position, etc., that is used as the priority information or spread information of the listener-based metadata.
  • the median or average value of the priority information or spread information may be used as the priority information or spread information of the listener-based metadata.
  • the metadecoder 302 supplies the listener-based metadata to the rendering processor 303, the metadata generation process ends.
  • step S394 of FIG. 37 rendering processing is performed based on the listener-based metadata and audio data of each object.
  • the rendering processing unit 303 performs gain correction on the audio data of each object based on the listener reference gain information of each object.
  • the rendering processing unit 303 then performs VBAP or the like based on the audio data of each object after gain correction and the listener reference object position information of each object to generate output audio data.
  • the client 261 can achieve loudness correction in free viewpoint audio using only object gain control (gain correction).
  • the client 261 generates listener-reference metadata based on the configuration information.
  • loudness control can be performed using only gain control, and free viewpoint audio playback can be achieved that reflects the intentions of the producer and the target loudness value specified by the listener.
  • Example of computer configuration The above-mentioned series of processes can be executed by hardware or software.
  • the program constituting the software is installed in a computer.
  • the computer includes a computer built into dedicated hardware, and a general-purpose personal computer, for example, capable of executing various functions by installing various programs.
  • FIG. 39 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 505 Connected to the input/output interface 505 are an input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510.
  • the input unit 506 includes a keyboard, mouse, microphone, imaging element, etc.
  • the output unit 507 includes a display, speaker, etc.
  • the recording unit 508 includes a hard disk, non-volatile memory, etc.
  • the communication unit 509 includes a network interface, etc.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads a program recorded in the recording unit 508, for example, into the RAM 503 via the input/output interface 505 and the bus 504, and executes the program, thereby performing the above-mentioned series of processes.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • a program can be installed in the recording unit 508 via the input/output interface 505 by inserting the removable recording medium 511 into the drive 510.
  • the program can also be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508.
  • the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or a program in which processing is performed in parallel or at the required timing, such as when called.
  • this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
  • a single step includes multiple processes
  • the processes included in that single step can be executed by a single device, or can be shared and executed by multiple devices.
  • this technology can also be configured as follows:
  • an acquisition unit that acquires loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed; and a level correction unit that performs level correction on the audio data of the object based on the loudness information for each of a plurality of positions or orientations.
  • the acquisition unit acquires the loudness information for each of a plurality of directions based on a control viewpoint in the space.
  • a placement position of the object in the space differs for each of the control viewpoints.
  • a loudness information processing unit that calculates an attenuation coefficient based on all the loudness information for each position or orientation, The information processing device according to any one of (1) to (3), wherein the level correction unit performs the level correction of the audio data based on the attenuation coefficient.
  • the loudness information processing unit calculates the attenuation coefficient based on the loudness information having the largest value among all the loudness information and a maximum value of a sound level that can be recorded as digital audio data.
  • a loudness information processing unit that selects, based on listener orientation information indicating an orientation of the listener in the space, the loudness information for a plurality of orientations at a predetermined control viewpoint that is closest to an orientation indicated by the listener orientation information;
  • the loudness information processing unit selects the control viewpoint closest to a position of the listener as the predetermined control viewpoint based on listener position information indicating a position of the listener in the space.
  • a loudness information processing unit that selects, for each of the plurality of control viewpoints, the loudness information for a direction closest to a direction indicated by the listener orientation information from among the loudness information for each of the plurality of control viewpoints based on listener orientation information indicating a direction of the listener in the space, and performs an interpolation process based on the plurality of pieces of loudness information selected for each of the control viewpoints;
  • the information processing device according to (2) or (3), wherein the level correction unit performs the level correction of the audio data based on the loudness information obtained by the interpolation process.
  • the information processing device (9) The information processing device according to (8), wherein the loudness information processing unit performs the interpolation process based on a ratio of a distance from the control viewpoint to a position of the listener in the space. (10) The information processing device according to any one of (6) to (9), wherein the level correction unit performs the level correction by DRC processing based on the loudness information. (11) a rendering processing unit that performs a rendering process based on the audio data of the object and metadata of the object, The information processing device according to any one of (1) to (10), wherein the level correction unit performs the level correction on an output signal obtained by the rendering process.
  • the information processing device (12) The information processing device according to (11), wherein the metadata is at least one of position information of the object, gain information of the object, priority information of the object, and spread information of the object. (13) The information processing device according to (11) or (12), wherein the rendering process is a process using at least one of VBAP, BRIR, HRTF, and HOA. (14) The information processing device according to any one of (1) to (13), wherein the loudness information is a sample peak level value or a true peak level value.
  • An information processing device Obtaining loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which the object is placed;
  • An information processing method comprising: correcting a level of audio data of the object based on the loudness information for each of a plurality of positions or orientations.
  • (16) Obtaining loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which the object is placed;
  • a generating unit that generates a bitstream including loudness information defined for each of a plurality of positions or orientations that a listener can take in a space in which an object is placed; and a communication unit that transmits the bit stream.
  • the generating unit generates the bit stream including the loudness information for each of a plurality of directions based on a control viewpoint in the space, the direction being determined for each control viewpoint.
  • the generating unit generates the bit stream including metadata including object position information indicating a position of the object and the loudness information.
  • An information processing device generating a bitstream including loudness information defined for each of a plurality of positions or orientations that a listener may take in a space in which the object is placed;
  • An information processing method comprising: transmitting the bitstream.
  • (24) generating a bitstream including loudness information defined for each of a plurality of positions or orientations that a listener may take in a space in which the object is placed;
  • a program causing a computer to execute a process including a step of transmitting the bitstream.
  • An information processing device comprising: a correction unit that corrects gain information of the object, determined for a control viewpoint in a space, based on a measured loudness value, which is a measurement result of the loudness of audio data of content including sounds of one or more objects when the control viewpoint is set to the position of a listener, and a predetermined target loudness value.
  • a correction unit that corrects gain information of the object, determined for a control viewpoint in a space, based on a measured loudness value, which is a measurement result of the loudness of audio data of content including sounds of one or more objects when the control viewpoint is set to the position of a listener, and a predetermined target loudness value.
  • the correction unit corrects the gain information for each of the plurality of control viewpoints based on a production loudness value specified for each of the control viewpoints, the measured loudness value for the control viewpoint, and the target loudness value.
  • the correction unit calculates a common correction amount based on the production loudness values of each of the multiple control viewpoints and the target loudness value, and corrects the gain information of the control viewpoint based on the common correction amount, the production loudness value of the control viewpoint, and the measured loudness value of the control viewpoint.
  • the information processing device (31), wherein the correction unit calculates the common correction amount based on a maximum value of the production loudness values of the plurality of control viewpoints and the target loudness value. (33) The information processing device according to claim 32, wherein the correction unit corrects the gain information so that the loudness of the audio data of the content when the control viewpoint at which the production loudness value is the maximum value is set to the position of the listener becomes the target loudness value. (34) The information processing device according to any one of (25) to (33), further comprising an acquisition unit that acquires configuration information including the measured loudness value of the control viewpoint.
  • the configuration information includes: correcting the gain information based on the measured loudness value and the target loudness value; correcting the gain information based on the measured loudness value, information indicating a group to which the control viewpoint belongs, which is included in the configuration information, and the target loudness value; or The information processing device according to claim 34, further comprising information for specifying whether to correct the gain information based on the measured loudness value, a production loudness value specified for each of the control viewpoints included in the configuration information, and the target loudness value.
  • the acquisition unit acquires a plurality of pieces of configuration information, The information processing device according to (34) or (35), wherein the correction unit corrects the gain information by using one piece of configuration information selected from a plurality of pieces of configuration information.
  • correction unit selects the configuration information in response to an operation of the listener, or selects the configuration information based on at least one of the position of the listener in the space, resources of the information processing device, remaining battery power of the information processing device, device type of the information processing device, a state of a network through which data of the content is transmitted, and a scene of the content.
  • the information processing device according to any one of (25) to (40), further comprising a control unit that displays an image of the space in which the object is arranged.
  • the information processing device according to (41), wherein the image displays an area for inputting the target loudness value.
  • An information processing device An information processing method for correcting gain information of an object defined for a control viewpoint in a space based on a measured loudness value, which is a measurement result of the loudness of audio data of content including the sounds of one or more objects when the control viewpoint in the space is set to the position of a listener, and a predetermined target loudness value.
  • An information processing device comprising: a control unit that generates configuration information including a measured loudness value that is a measurement result of loudness of audio data of content including sounds of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • the configuration information includes group mode information indicating whether or not the group mode corrects gain information of the object defined for the control viewpoint belonging to the same group based on any one of the measured loudness values of the multiple control viewpoints belonging to the same group and a predetermined target loudness value.
  • the configuration information further includes information indicating the group to which the control viewpoint belongs.
  • the configuration information includes production loudness value presence information indicating whether or not a production loudness value specified for each of the control viewpoints is included, An information processing device described in any one of (45) to (47), wherein when the configuration information includes production loudness value presence information indicating that the production loudness value is included, the configuration information further includes the production loudness value of the control viewpoint. (49) The information processing device according to any one of (45) to (48), wherein the configuration information includes position information indicating a position of the control viewpoint in the space. (50) The information processing device according to any one of (45) to (49), wherein the control unit generates a plurality of different pieces of configuration information.
  • the control unit causes an image of the space in which the control viewpoint is located to be displayed, The information processing device according to any one of (45) to (51), wherein the measured loudness value at the control viewpoint is displayed on the image.
  • the information processing device according to (52) or (53), wherein a production loudness value specified for each of the control viewpoints is displayed in the image.
  • the information processing device according to any one of (45) to (54), wherein a placement position of the object in the space differs for each of the control viewpoints.
  • An information processing device An information processing method for generating configuration information including a measured loudness value that is a measurement result of the loudness of audio data of content including sounds of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • a program for causing a computer to execute a process including a step of generating configuration information including a measured loudness value, which is a measurement result of the loudness of audio data of content including the sound of one or more objects when a control viewpoint in a space is set to the position of a listener.
  • a generating unit that generates a bitstream including configuration information storing measured loudness values that are measurement results of loudness of audio data of a content including sounds of one or more objects when a control viewpoint in a space is set to the position of a listener; and a communication unit that transmits the bit stream.
  • the configuration information includes group mode information indicating whether or not the group mode corrects gain information of the object defined for the control viewpoint belonging to the same group based on any one of the measured loudness values of the multiple control viewpoints belonging to the same group and a predetermined target loudness value.
  • the configuration information further includes information indicating the group to which the control viewpoint belongs.
  • the configuration information includes production loudness value presence information indicating whether or not a production loudness value specified for each of the control viewpoints is included, An information processing device described in any one of (58) to (60), wherein when the configuration information includes production loudness value presence information indicating that the production loudness value is included, the configuration information further includes the production loudness value of the control viewpoint.
  • the generating unit generates the bitstream including the configuration information selected from a plurality of different pieces of configuration information.
  • An information processing device generating a bitstream including configuration information storing measured loudness values which are results of measuring the loudness of audio data of a content including sounds of one or more objects when a control viewpoint in a space is set to the position of a listener;
  • An information processing method comprising: transmitting the bitstream.
  • (68) generating a bitstream including configuration information storing measured loudness values which are results of measuring the loudness of audio data of a content including sounds of one or more objects when a control viewpoint in a space is set to the position of a listener;
  • a program causing a computer to execute a process including a step of transmitting the bitstream.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、クリップ歪みの発生を抑制することができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、複数の位置または向きごとのラウドネス情報に基づいて、オブジェクトのオーディオデータのレベル補正を行うレベル補正部とを備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、クリップ歪みの発生を抑制できるようにした情報処理装置および方法、並びにプログラムに関する。
 従来、仮想的な空間内においてリスナの位置や向きを変化させることができる自由視点オーディオシステムが知られている。
 また、オーディオデータのゲイン調整に関する技術として、オブジェクト位置や参照位置に基づいてレンダリング時のゲインを決定する技術(例えば、特許文献1参照)や、複数のプロファイルごとにラウドネスを決定する技術が提案されている(例えば、特許文献2参照)。
特開2021-193842号公報 特開2022-166331号公報
 ところで、自由視点オーディオシステムにおいては、仮想的な空間でのリスナの位置や向きの変化に伴い、空間に配置されたスピーカの数が少ない領域にオブジェクトが多数集中してしまうことがある。
 そのような場合、レンダリング処理によって生成される各スピーカの出力信号のレベルがデジタルオーディオデータとしての記録可能な範囲を超えてしまい、その結果、クリップ歪みが発生してしまうことがある。すなわち、再生音がクリップして歪んだ音となってしまうことがある。そうすると、再生音の品質が低下してしまうことになる。
 本技術は、このような状況に鑑みてなされたものであり、クリップ歪みの発生を抑制することができるようにするものである。
 本技術の第1の側面の情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部とを備える。
 本技術の第1の側面の情報処理方法は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うステップを含む。
 本技術の第1の側面においては、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報が取得され、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正が行われる。
 本技術の第2の側面の情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、前記ビットストリームを送信する通信部とを備える。
 本技術の第2の側面においては、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームが生成され、前記ビットストリームが送信される。
 本技術の第3の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える。
 本技術の第3の側面の情報処理方法は、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正するステップを含む。
 本技術の第3の側面においては、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報が補正される。
 本技術の第4の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える。
 本技術の第4の側面の情報処理方法は、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成するステップを含む。
 本技術の第4の側面においては、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報が生成される。
 本技術の第5の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、前記ビットストリームを送信する通信部とを備える。
 本技術の第5の側面においては、空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームが生成され、前記ビットストリームが送信される。
再生音のクリップ歪みについて説明する図である。 水平方向への領域分割について説明する図である。 垂直方向への領域分割について説明する図である。 分割点について説明する図である。 マルチアングルラウドネス情報の例を示す図である。 サーバの構成例を示す図である。 クライアントの構成例を示す図である。 ビットストリーム送信処理を説明するフローチャートである。 出力信号生成処理を説明するフローチャートである。 減衰係数算出処理を説明するフローチャートである。 出力信号生成処理を説明するフローチャートである。 CVPの選択について説明する図である。 出力信号生成処理を説明するフローチャートである。 補間処理について説明する図である。 出力信号生成処理を説明するフローチャートである。 ラウドネスモードについて説明する図である。 測定ラウドネスモードについて説明する図である。 グループモードについて説明する図である。 グループモードについて説明する図である。 グループモードについて説明する図である。 制作ラウドネスモードについて説明する図である。 制作ラウドネスモードについて説明する図である。 制作側と再生側の処理の流れについて説明する図である。 マルチラウドネス情報のシンタックス例を示す図である。 構成情報の切り替えについて説明する図である。 構成情報の切り替えについて説明する図である。 表示画面例を示す図である。 表示画面例を示す図である。 表示画面例を示す図である。 表示画面例を示す図である。 情報処理装置の構成例を示す図である。 構成情報生成処理を説明するフローチャートである。 サーバの構成例を示す図である。 ビットストリーム送信処理を説明するフローチャートである。 クライアントの構成例を示す図である。 クライアントの機能的な構成例を示す図である。 出力オーディオデータ生成処理を説明するフローチャートである。 メタデータ生成処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、空間内における各位置について、複数の方向ごとにラウドネス情報を定めておくことで、クリップ歪みの発生を抑制できるようにするものである。
 特に、本技術によれば、実在するスピーカの数が少ない状況等において、スピーカの数が少ない領域に大量のオブジェクトが集中した場合であっても、クリップ歪みの発生を低減させることができる。
 例えば図1の矢印Q11に示すように、多数のオブジェクトの音からなるコンテンツを再生する自由視点オーディオシステムについて考える。
 この場合、実空間内において、リスナ(ユーザ)の前方、すなわち図中、上側に多数のスピーカが配置されており、リスナの後方、すなわち図中、下側には少ない数のスピーカしか配置されていないとする。また、実空間においては、ユーザは常に前方を向いた状態でコンテンツの音を聴取するものとする。
 コンテンツを構成する複数のオブジェクトが配置される仮想的な空間(仮想空間)内においては、リスナは自身の位置を移動させたり、自身が向いている方向(リスナの向き)を変化させたりすることができる。
 例えば仮想空間において、矢印A11に示すようにユーザがオブジェクト側、すなわち前方を向いている場合、矢印Q12に示すように複数のオブジェクトの音が、複数の各スピーカにより出力されることになる。
 この場合、オブジェクトの数は多いが、それらのオブジェクトの音の出力を担当するスピーカの数も多いため、各スピーカへの負荷は低い状態となる。
 これに対して、例えば仮想空間において、矢印A12に示すようにユーザがオブジェクト側とは反対側、すなわち後方を向いている場合、矢印Q13に示すように複数のオブジェクトの音は、少数のスピーカにより出力されることになる。
 この場合、オブジェクトの数が多いのに対して、それらのオブジェクトの音の出力を担当するスピーカの数は少ないため、各スピーカへの負荷は高い状態となってしまう。
 このように、自由視点オーディオシステムでは仮想空間でのリスナ位置の移動や、リスナの試聴方向(向き)の変化に伴い、実空間におけるリア方向、すなわちリスナの後方など、実在するスピーカが少ない領域にオブジェクトが多数集中してしまうことがある。
 そうすると、レンダリング処理により生成される各スピーカの出力信号のレベルが、PCM(Pulse Code Modulation)データなど、デジタルオーディオデータとして記録可能な範囲を超えることになり、結果として再生音がクリップして歪んだ音となってしまう。
 そこで本技術では、複数の位置または方向ごとにラウドネス情報を定めておくことで、任意の視点かつ試聴方向に対して再生音のクリップ歪みを低減(抑制)することができるようにした。
 それでは、以下、本技術について説明する。
 例えば本技術では、コンテンツを構成する1または複数のオブジェクトが配置される仮想空間内において、複数の視点位置が制御視点(Control Viewpoint(以下CVPとも称する))としてコンテンツ制作者により予め指定(設定)される。なお、オブジェクトが配置される仮想空間は、2次元空間であってもよいし、3次元空間であってもよいが、以下では仮想空間が3次元空間であるものとして説明を行う。
 コンテンツ制作者は、コンテンツ再生時にリスナに受聴位置として欲しい仮想空間内の位置、つまりコンテンツの音を聴かせたい視点の位置をCVP(制御視点)として予め指定(設定)する。なお、コンテンツは、例えば、音のみからなるオーディオコンテンツであってもよいし、映像と、その映像に付随する音声とからなるビデオコンテンツであってもよい。
 例えばコンテンツの制作過程において芸術(音楽)性を高めるために、オブジェクトの物理的な配置に囚われず、敢えて目に見える場所とは異なる位置に意図的にオブジェクトを配置したいことがある。
 そこで本技術では、コンテンツ制作者が仮想空間内に複数のCVPを設定するとともに、CVPごとにオブジェクトの配置位置を決定することができるようになされている。すなわち、同じオブジェクトであってもCVPごとに仮想空間におけるオブジェクトの配置位置が異なる。このようにすることで、芸術性の高いコンテンツを制作することができる。
 また、コンテンツの制作時においては、3次元の仮想空間内に存在する全てのCVPについて、CVPの位置を基準として水平方向および垂直方向への領域分割が行われる。例えば、まず水平方向への領域分割が行われた後、垂直方向への領域分割が行われる。
 具体的には、例えば図2の矢印Q21に示すように、仮想空間上の位置P11に1つのCVPが配置されているとする。このとき、CVP(位置P11)を中心とする球の表面上に複数の点を分割点として配置することで、水平方向の領域分割を行うとする。
 この例では、位置P11を含む水平面上で、かつ球表面上となる位置に分割点DV11を含む8個の分割点が設けられている。ここでは、球表面に描かれた各円が1つの分割点を表している。また、CVP(位置P11)から見た分割点の方向を示す直線を分割線と称することとする。この例では、分割線L11と球との交点の位置が分割点DV11となっている。
 コンテンツ制作時には、例えばCVPから見た水平方向の領域が、所定の水平分割数の各分割線により等分割され、各分割線と球との交点位置に分割点が設定される。
 したがって、この例ではCVP(位置P11)を垂直方向から見ると、矢印Q22に示すように、球の中心である位置P11から45度間隔で合計8本の分割線が設けられ、これにより8個の分割点が設けられている。なお、ここでは分割線により領域が等分割される例について説明するが、これに限らず領域が水平方向に不等分割されるようにしてもよい。
 また、各分割点、より詳細には水平方向の各分割線に対しては、それらの分割線を識別するための水平分割インデックスjが付与される。図2では、各分割点の近傍に記された数値が水平分割インデックスjの値を示している。したがって、例えば分割点DV11の水平方向の分割線L11の水平分割インデックスjの値は「5」とされていることが分かる。
 例えばコンテンツの音の再生にあたり、リスナの向き(試聴方向)に応じて水平方向の1つの分割線(分割点)を選択する必要がある場合には、矢印Q23に示すようにリスナの向きを示す直線L12とのなす角度が最も小さい分割線を選択することが考えられる。換言すれば、水平方向の向きが、直線L12により示されるリスナの向きと最も近い分割線が選択される。この例では、直線L12とのなす角度が最も小さい分割線L11が選択されることになる。
 なお、例えば直線L12とのなす角度が最も小さい分割線が2つある場合、つまり2つの各分割線の方向の間の方向がリスナの向きとなる場合には、リスナの向きの時間変化を考慮し、直前の時刻におけるリスナの向きに近い向きの分割線が選択されるようにしてもよい。その他、例えばラウドネス情報など、分割線に対応する何らかの値が利用される場合には、2つの分割線について按分等が行われるようにしてもよい。
 また、以下では、分割線L11など、水平方向への領域分割のための分割線を、特に水平分割線とも称することとする。
 以上のように水平方向の領域分割が行われると、次に垂直方向への領域分割が行われる。例えば水平分割線ごとに、CVPから見て水平分割線の方向から垂直方向に対して領域分割が行われる。
 具体的には、例えば図3の矢印Q31に示すように、位置P11と1つの水平分割線を含む垂直平面上で、かつ球表面上となる位置に分割点DV21を含む3個の分割点が設けられる。なお、図3において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図3では、球表面に描かれた各円が1つの分割点を表している。また、CVP(位置P11)から見た分割点の方向を示す直線が分割線となっている。この例では、分割線L21と球との交点の位置が分割点DV21となっている。
 コンテンツ制作時には、例えばCVPから見た垂直方向の領域が、所定の垂直分割数の各分割線により分割され、各分割線と球との交点位置に分割点が設定される。
 この例では、所定の水平分割線の方向を垂直方向の角度、すなわち垂直方向角度=0度として、垂直方向角度が0度、-90度、および90度となる3つの各方向に分割線が設けられている。この場合、垂直方向角度が0度となる方向の分割線は、1つの水平分割線と等しくなる(同じものとなる)。
 このような垂直方向への領域分割により、図3の例では3個の分割点が設けられている。
 また、各分割点、より詳細には垂直方向の各分割線に対しては、それらの分割線を識別するための垂直分割インデックスkが付与される。図3では、各分割点の近傍に記された数値が垂直分割インデックスkの値を示している。したがって、例えば分割点DV21の垂直方向の分割線L21の垂直分割インデックスkの値は「0」とされていることが分かる。
 例えばコンテンツの音の再生にあたり、リスナの向き(試聴方向)に応じて垂直方向の1つの分割線(分割点)を選択する必要がある場合には、矢印Q32に示すようにリスナの向きを示す直線L22とのなす角度が最も小さい分割線を選択することが考えられる。換言すれば、垂直方向の向きが、直線L22により示されるリスナの向きと最も近い分割線が選択される。この例では、直線L22とのなす角度が最も小さい分割線L21が選択されることになる。
 以下では、分割線L21など、垂直方向への領域分割のための分割線を、特に垂直分割線とも称することとする。
 水平方向と垂直方向の領域分割を行うと、各分割線に対応する分割点が設けられたことになる。換言すれば、CVPを基準とした複数の方向(向き)、すなわちCVPにいるリスナが取りうる複数の各向きに対応する分割点が設けられたことになる。
 例えば図2に示した水平方向の領域分割と、図3に示した垂直方向の領域分割を行うと、その結果として、図4に示すように合計で24個の分割点が設けられることになる。なお、図4において図2または図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図4の例では、1つのCVPに対して、水平分割インデックスjと垂直分割インデックスkの組み合わせごとに分割点が設けられている。ここでは、水平方向に8分割され、垂直方向に3分割されているため、合計で24個の分割点が設けられている。
 なお、ここでは分割点の個数を分かりやすくするため、垂直方向角度が-90度や90度となる分割線に対応する分割点が僅かにずらされた位置に描かれているが、これらの分割点は実際には同じ位置に配置されている。
 コンテンツ制作時には、CVPごとに設定された各分割点に対して、CVPにいるリスナがそれらの分割点に対応する方向を向いたときのラウドネス情報loudnessInfo[i][j][k]が予め算出されて対応付けられる。
 例えば、所定のCVPについてのある1つの分割点に対して設定されたラウドネス情報loudnessInfo[i][j][k]は、リスナがその所定のCVPの位置で、その分割点の方向を向いている場合に再生されるコンテンツの音についてのラウドネスに関する情報である。この場合、ラウドネス情報は、例えばコンテンツを構成する全オブジェクトのオーディオデータに基づき算出(決定)される。
 ラウドネス情報loudnessInfo[i][j][k]は、オブジェクトのオーディオデータのゲイン制御(レベル補正)に用いられる情報である。また、ラウドネス情報loudnessInfo[i][j][k]における配列の要素であるi、j、およびkは、それぞれCVPを識別するCVPインデックスi、水平分割インデックスj、および垂直分割インデックスkを示している。
 ラウドネス情報には、MPEG(Moving Picture Experts Group)規格、例えばISO23003-4 Information technology MPEG audio technologies Part 4:Dynamic Range Controlで規定されているDRC(Dynamic Range Control)やPeak Limiterによるゲイン制御に用いるピーク値等の情報が含まれるようにすることができる。
 すなわち、例えばラウドネス情報には、予めコンテンツ制作者等により定められた、コンテンツ全体を通したサンプルピークレベル値やトゥルーピークレベル値などが含まれているようにすることができる。
 ここでいうサンプルピークレベル値は、レンダリング処理後のオーディオデータとしてのPCMデータ全体におけるサンプル値のピーク値(最大値)である。また、トゥルーピークレベル値は、適宜、レンダリング処理やDRC処理などを行って得られるDA(Digital to Analog)変換後のオーディオ信号全体の波形のピーク値である。
 以下では、説明を簡単にするため、主にラウドネス情報loudnessInfo[i][j][k]がサンプルピークレベル値である場合について説明する。そのため、以下では、特に明記しない場合、ラウドネス情報はサンプルピークレベル値を示していることとする。
 本技術では、CVPごとに上述した分割点が複数設定され、各CVPについての複数の分割点に対してラウドネス情報が定められる。なお、1つのCVPに対して1つのラウドネス情報が定められるようにしてもよい。
 換言すれば、1または複数の各CVPについて、CVPを基準とした1または複数の方向(向き)ごと、すなわちCVPにいるリスナのとり得る1または複数の向きごとにラウドネス情報が定められる。このことは、仮想空間におけるリスナのとり得る複数の位置または向きごとにラウドネス情報が定められることであるともいうことができる。ここでは、リスナのとり得る全ての位置や方向に対してラウドネス情報が定められるのではなく、リスナが移動可能な位置やリスナが向くことのできる方向のうちの離散的ないくつかの位置と方向に対してラウドネス情報が定められる。
 例えば図5に示すようにラウドネス情報を記述することができる。本技術では、例えば各CVPの分割点ごとのラウドネス情報を含むマルチアングルラウドネス情報が図5に示すフォーマットでビットストリームに記述される。
 図5に示す例では、NumOfContorlViewpointsはCVPの数(CVP数)を示しており、マルチアングルラウドネス情報には、CVP数の分だけ、すなわち各CVPについて、水平分割数numOfDivs_h[i]、および垂直分割数numOfDivs_v[i]が格納されている。
 また、マルチアングルラウドネス情報には、各CVPについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]により定まる分割点数だけラウドネス情報loudnessInfo[i][j][k]が格納されている。
 したがって図5の例では、マルチアングルラウドネス情報には、CVPごとの水平分割数および垂直分割数と、各CVPについての分割点ごとのラウドネス情報とが含まれている。
 本技術では、各CVPの複数の分割点(方向)ごとに定められたラウドネス情報に基づいて、コンテンツの音の再生時におけるクリップ歪みの発生が抑制される。
 まず、ラウドネス情報を用いたクリップ歪みの抑制手法の1つの例として、全スピーカについて、スピーカへと供給されるコンテンツの出力信号の再生レベルを自動的に一律に下げることにより、クリップ歪みの発生を抑制する手法について説明する。
 この手法は、例えば3次元の仮想空間における任意の位置をリスナの位置(視点位置)とし、リスナが複数の各CVP間等を自由に移動可能な自由視点オーディオコンテンツに対して適用可能である。
 具体的には、この手法では、コンテンツの再生側(クライアント側)において、全CVPの全ての分割点におけるラウドネス情報に基づいて、ラウドネス情報としてのサンプルピークレベル値の最大値が最大ピーク値maxPeakとして求められる。
 換言すれば、CVPインデックスi、水平分割インデックスj、および垂直分割インデックスkの全ての組み合わせが対象とされて、それらの組み合わせごとのラウドネス情報loudnessInfo[i][j][k]のうちの最も値の大きいものが最大ピーク値maxPeakとされる。この最大ピーク値maxPeakは、最もクリップ歪みが大きくなる方向(分割点)のラウドネス情報である。
 最大ピーク値maxPeakは、例えば次式(1)により求めることができる。
Figure JPOXMLDOC01-appb-M000001
 次に、最大ピーク値maxPeakに基づいて、その最大ピーク値maxPeakがオーディオデータの最大記録可能値を超えた分が超過値として算出される。そして、その超過値に基づきオーディオデータ(出力信号)のピーク値を最大記録可能値へと調整するための減衰量を示す減衰係数decayFacが算出される。
 レベル補正(ゲイン調整)によって、全フレームの全チャンネルの出力信号を、減衰係数decayFacにより示される減衰量分だけ一律に減衰させれば、出力信号に基づくコンテンツの音の再生時にクリップ歪みが発生することはなくなるはずである。
 なお、ここでいう最大記録可能値とは、PCMデータなどのデジタルオーディオデータとして記録可能な、オーディオデータに基づく音のレベルがとり得る値(範囲)の最大値(音のレベルの最大値)である。例えば最大記録可能値は0[dB]などとされる。
 具体的な例として、例えば最大記録可能値が0[dB]である場合、減衰係数decayFacは次式(2)により算出される。なお、式(2)において「^」はべき乗を表している。
Figure JPOXMLDOC01-appb-M000002
 最大ピーク値maxPeak、すなわちラウドネス情報loudnessInfo[i][j][k]に基づいて、減衰係数decayFacが算出されると、その減衰係数decayFacがレンダリング処理で得られたスピーカごとの出力信号に対して適用される。これにより、各スピーカへと供給される出力信号に基づく再生音のレベルが最大記録可能値以下に減衰され、クリップ歪みの発生が抑制される。
 なお、出力信号とは、レンダリング処理により生成された、マルチチャンネル構成の各チャンネルに対応するスピーカへと供給されるオーディオ信号である。
〈サーバの構成例〉
 図6は、本技術を適用したサーバの一実施の形態の構成例を示す図である。
 図6に示すサーバ11は情報処理装置であり、取得部21、ビットストリームエンコーダ22、および通信部23を有している。
 取得部21は、サーバ11の内部、またはサーバ11の外部からコンテンツを構成する各オブジェクトのオーディオデータ(Object Audio)、システム構成情報(Config Info)、各オブジェクトのメタデータ(Object Metadata)、および各CVPの分割点ごとのラウドネス情報(Loudness Info)を取得する。なお、前述したデータ以外のデータを取得してもよい。
 システム構成情報は、コンテンツ全体に関する情報である。例えばシステム構成情報には、コンテンツを構成するオブジェクトの数を示すオブジェクト数や、仮想空間内に設定されたCVPの数であるCVP数を示す情報、および各CVPの仮想空間内における絶対的な位置を示すCVP位置情報が含まれている。
 オブジェクトのメタデータには、CVPごとに、オブジェクトの位置を示すオブジェクト位置情報が含まれている。
 オブジェクト位置情報は、極座標で表現された、CVPから見たオブジェクトの相対的な位置を示す座標情報とされてもよいし、CVPごとに定められ、絶対座標(直交座標)で表現された、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報とされてもよい。
 また、オブジェクトのメタデータには、オブジェクト位置情報の他、例えばオブジェクトのオーディオデータのゲイン情報や、優先度情報、オブジェクトの広がり具合いを示すスプレッド情報などが含まれるようにしてもよい。
 取得部21は、取得したオーディオデータ(Object Audio)、システム構成情報(Config Info)、メタデータ(Object Metadata)、およびラウドネス情報(Loudness Info)をビットストリームエンコーダ22に供給する。
 ビットストリームエンコーダ22は、取得部21から供給されたオーディオデータ、システム構成情報、メタデータ、ラウドネス情報に対して適宜符号化を行うことで、ビットストリームを生成し、通信部23に供給する生成部として機能する。
 ビットストリームには、オーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が含まれている。また、マルチアングルラウドネス情報には、CVPごとの水平分割数および垂直分割数と、各CVPについての分割点ごとのラウドネス情報とが含まれている。
 なお、システム構成情報とマルチアングルラウドネス情報は、コンテンツのフレームごとに生成されてもよいし、複数のフレームからなる区間ごとに生成されてもよいし、コンテンツ全体に対して1つだけ生成されてもよい。また、システム構成情報やマルチアングルラウドネス情報は、オブジェクトのオーディオデータとは異なるタイミングで送信されるようにしてもよい。
 通信部23は、ビットストリームエンコーダ22から供給されたビットストリームを、コンテンツの再生側の情報処理装置であるクライアントへと送信する。
〈クライアントの構成例〉
 図7は、本技術を適用したクライアントの一実施の形態の構成例を示す図である。
 図7に示すクライアント51は、サーバ11により送信されたビットストリームを受信してコンテンツを再生する情報処理装置である。クライアント51は、例えばパーソナルコンピュータやタブレット端末、スマートフォンなどからなる。
 クライアント51は、通信部61、ビットストリームデコーダ62、メタデコーダ63、レンダリング処理部64、ラウドネス情報処理部65、およびDRC処理部66を有している。また、クライアント51にはマルチチャンネル構成のスピーカシステムであるスピーカ71が接続されている。
 通信部61は、サーバ11から送信されてきたビットストリームを受信してビットストリームデコーダ62へと供給する。通信部61は、ビットストリームを受信することで、ラウドネス情報を取得する取得部として機能する。
 ビットストリームデコーダ62は、通信部61から供給されたビットストリーム、より詳細にはビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行う復号部として機能する。ビットストリームデコーダ62での復号等により、ビットストリームからオーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が抽出される。
 ビットストリームデコーダ62は、オーディオデータをレンダリング処理部64に供給するとともに、システム構成情報をメタデコーダ63およびラウドネス情報処理部65に供給する。また、ビットストリームデコーダ62は、メタデータをメタデコーダ63に供給するとともにマルチアングルラウドネス情報をラウドネス情報処理部65に供給する。
 メタデコーダ63およびラウドネス情報処理部65には、オブジェクトが配置された3次元の仮想空間におけるリスナの絶対的な位置を示すリスナ位置情報が供給される。
 また、メタデコーダ63およびラウドネス情報処理部65には、適宜、3次元の仮想空間におけるリスナの向きを示すリスナ向き情報も供給される。例えばリスナ向き情報は、リスナの水平方向の向きを示すヨー角(水平方向角度)と、リスナの垂直方向の向きを示すピッチ角(垂直方向角度)とからなる。なお、リスナ向き情報に、リスナの回転角度を示すロール角が含まれるようにしてもよい。
 メタデコーダ63は、供給されたリスナ位置情報と、ビットストリームデコーダ62からのメタデータおよびシステム構成情報とに基づいて、リスナ基準オブジェクト位置情報を生成し、レンダリング処理部64に供給する。
 例えばリスナ基準オブジェクト位置情報は、仮想空間におけるリスナの位置を基準(原点)とする極座標系の座標(極座標)により表現された、リスナから見たオブジェクトの相対的な位置を示す情報である。
 例えばメタデータに含まれているオブジェクト位置情報が、CVPから見たオブジェクトの相対的な位置を示す座標情報であるとする。そのような場合、メタデコーダ63は、システム構成情報に含まれているCVP位置情報と、オブジェクト位置情報とに基づいて、仮想空間におけるオブジェクトの絶対的な位置を示す位置情報を算出し、算出された位置情報と、リスナ位置情報とに基づいてリスナ基準オブジェクト位置情報を生成(算出)する。
 また、例えばメタデータに含まれているオブジェクト位置情報が、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報である場合、メタデコーダ63は、オブジェクト位置情報とリスナ位置情報に基づいてリスナ基準オブジェクト位置情報を生成する。
 レンダリング処理部64は、ビットストリームデコーダ62から供給されたオブジェクトのオーディオデータと、メタデコーダ63から供給されたリスナ基準オブジェクト位置情報とに基づいてレンダリング処理を行い、チャンネルごとの出力信号を生成する。
 レンダリング処理部64では、例えばVBAP(Vector Based Amplitude Panning)など、MPEG-Hで規定された極座標系でのレンダリング処理が行われて出力信号が生成される。なお、レンダリング処理は、VBAPに限らず他のどのような処理であってもよい。例えば、BRIR(Binaural Room Impulse Response)やHRTF(Head Related Transfer Function)、HOA(Higher Order Ambisonics)などがレンダリング処理に用いられてもよい。
 各チャンネルの出力信号は、スピーカ71としてのスピーカシステムを構成する各チャンネルに対応するスピーカへと供給されるオーディオデータ(オーディオ信号)である。スピーカ71では各チャンネルの出力信号により、全オブジェクトの音を含むコンテンツの音が再生される。このとき各オブジェクトの音(音像)は、仮想空間におけるオブジェクト位置情報により示される位置に定位する。
 ラウドネス情報処理部65は、供給されたリスナ位置情報と、ビットストリームデコーダ62からのマルチアングルラウドネス情報およびシステム構成情報とを適宜用いて、ラウドネス情報に関する処理を行い、その処理結果をDRC処理部66に供給する。
 例えばラウドネス情報処理部65は、マルチアングルラウドネス情報、すなわち全てのCVPの全ての分割点のラウドネス情報に基づいて、上述した減衰係数decayFacを算出し、DRC処理部66へと供給する。
 DRC処理部66は、ラウドネス情報処理部65から供給された、ラウドネス情報に関する処理の結果と、レンダリング処理部64から供給された出力信号とに基づいて、出力信号のレベル補正(ゲイン調整)を行い、レベル補正後の出力信号を最終的な出力信号としてスピーカ71に供給する。すなわち、DRC処理部66は、各CVPの複数の分割点ごとのラウドネス情報に基づいて出力信号のレベル補正を行うレベル補正部(ゲイン調整部)として機能する。
 例えばDRC処理部66は、ラウドネス情報処理部65から供給された減衰係数decayFacに基づいて出力信号のレベル補正を行ったり、必要に応じて減衰係数decayFacに基づくレベル補正後の出力信号に対してDRC処理によるレベル補正を行ったりする。また、より詳細には、DRC処理部66はデジタル信号である出力信号に対してDA変換を行い、その結果得られたアナログ信号である出力信号をスピーカ71に供給する。
 スピーカ71は、DRC処理部66から供給された出力信号に基づいて、コンテンツの音を再生する。
〈ビットストリーム送信処理の説明〉
 続いて、サーバ11およびクライアント51の動作について説明する。
 まず、図8のフローチャートを参照して、サーバ11によるビットストリーム送信処理について説明する。
 ステップS11において取得部21は、ビットストリームの生成に必要な情報を取得してビットストリームエンコーダ22に供給する。
 例えば取得部21は、各オブジェクトのオーディオデータ、システム構成情報、各オブジェクトのメタデータ、各CVPの水平分割数や垂直分割数、各CVPの分割点ごとのラウドネス情報などを取得する。
 ステップS12においてビットストリームエンコーダ22は、適宜、取得部21から供給されたオーディオデータ、システム構成情報、メタデータ、ラウドネス情報の符号化や多重化を行ってビットストリームを生成し、通信部23に供給する。
 ステップS13において通信部23は、ビットストリームエンコーダ22から供給されたビットストリームをクライアント51へと送信し、ビットストリーム送信処理は終了する。
 以上のようにしてサーバ11は、各CVPについて、CVPから見た複数の方向ごと、すなわち複数の分割点ごとのラウドネス情報を含むビットストリームを生成し、クライアント51へと送信する。これにより、ビットストリームの供給を受けるクライアント51では、これらのラウドネス情報に基づき、コンテンツの再生時にクリップ歪みの発生を抑制することができるようになる。
〈出力信号生成処理の説明〉
 次に、図9のフローチャートを参照して、クライアント51による出力信号生成処理について説明する。この出力信号生成処理は、図8のステップS13の処理が行われると開始される。
 ステップS41において通信部61は、図8のステップS13でサーバ11から送信されたビットストリームを受信してビットストリームデコーダ62へと供給する。
 ステップS42においてビットストリームデコーダ62は、通信部61から供給されたビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行い、ビットストリームに含まれている各種の情報を抽出する。これにより、ビットストリームからオーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が抽出される。
 ビットストリームデコーダ62は、オーディオデータをレンダリング処理部64に供給し、システム構成情報およびメタデータをメタデコーダ63に供給し、システム構成情報およびマルチアングルラウドネス情報をラウドネス情報処理部65に供給する。
 ステップS43においてラウドネス情報処理部65は、減衰係数算出処理を行うことで、全CVPの全分割点のラウドネス情報と最大記録可能値とに基づいて減衰係数decayFacを算出し、DRC処理部66に供給する。なお、減衰係数算出処理の詳細は後述する。
 また、後述するステップS46では、減衰係数decayFacとして、全チャンネルおよび全フレームで共通して同じものが用いられるため、ステップS43の処理は1度だけ行われる。これに対して、以降において説明するステップS44乃至ステップS46の処理は、コンテンツ(オーディオデータ)のフレームごとに行われる。特にステップS46では、各フレームについて、スピーカ71に対応するチャンネルごとに処理が行われる。
 ステップS44においてメタデコーダ63は、供給されたリスナ位置情報と、ビットストリームデコーダ62からのメタデータおよびシステム構成情報とに基づいて、リスナ基準オブジェクト位置情報を算出(生成)し、レンダリング処理部64に供給する。
 ステップS45においてレンダリング処理部64は、ビットストリームデコーダ62から供給されたオブジェクトのオーディオデータと、メタデコーダ63から供給されたリスナ基準オブジェクト位置情報とに基づいてVBAP等のレンダリング処理を行う。例えばレンダリング処理では、オブジェクトごとに、そのオブジェクトの音を再生するための各チャンネルの出力信号が生成される。そして、オブジェクトごとに得られた、同じチャンネルの出力信号が加算されて、最終的なチャンネルごとの出力信号とされる。レンダリング処理部64は、レンダリング処理により得られたチャンネルごとの出力信号をDRC処理部66に供給する。
 ステップS46においてDRC処理部66は、レンダリング処理部64から供給された出力信号に対してDRC処理を行う。
 例えばDRC処理部66は、ラウドネス情報処理部65から供給された減衰係数decayFacに基づいて、各チャンネルの出力信号に対してレベル補正(ゲイン調整)を行う。
 具体的には、例えばレベル補正前の出力信号、すなわちレンダリング処理部64の出力となる信号をrender_out[fr][ch]とし、レベル補正後の出力信号をout[fr][ch]とする。ここで、frおよびchは、それぞれフレームおよびチャンネルを示すインデックスである。
 この場合、DRC処理部66は、各フレームについて、チャンネルごとに次式(3)を計算することで、レベル補正後の出力信号out[fr][ch]を生成する。すなわち、式(3)では、出力信号render_out[fr][ch]に対して減衰係数decayFacが乗算されてレベル補正が行われる。
Figure JPOXMLDOC01-appb-M000003
 また、DRC処理部66は、レベル補正後の出力信号に対してさらにDRC処理を行うとともに、DRC処理により得られた出力信号に対してDA変換を行い、その結果得られたアナログの出力信号をスピーカ71へと供給する。
 スピーカ71は、DRC処理部66から供給された出力信号に基づいてコンテンツの音を出力(再生)する。スピーカ71によりコンテンツの音が再生されると、出力信号生成処理は終了する。
 なお、DRC処理部66では、減衰係数decayFacに基づくレベル補正が行われれば、特にDRC処理は行われなくてもよい。
 以上のようにしてクライアント51は、ラウドネス情報に基づいて減衰係数decayFacを算出し、その減衰係数decayFacに基づいて出力信号のレベル補正を行う。このようにすることで、出力信号に基づく再生音のレベルが最大記録可能値以下に減衰されるので、クリップ歪みの発生を抑制することができる。
〈減衰係数算出処理の説明〉
 図10のフローチャートを参照して、図9のステップS43の処理に対応する減衰係数算出処理について説明する。
 ステップS71においてラウドネス情報処理部65は、ビットストリームデコーダ62から供給されたマルチアングルラウドネス情報から、CVPごとに水平分割数および垂直分割数を取得する。
 例えばラウドネス情報処理部65は、図5に示したマルチアングルラウドネス情報から、各CVPインデックスiについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]を読み出す。これにより、各CVPでの水平方向と垂直方向への分割数が特定される。
 ステップS72においてラウドネス情報処理部65は、最大ピーク値cur_peakの値を最大ピーク値cur_peak=0.0とする。この最大ピーク値cur_peakは、上述の最大ピーク値maxPeakに相当し、現時点では仮の値「0.0」に設定される。
 ステップS73においてラウドネス情報処理部65は、ビットストリームデコーダ62から供給されたシステム構成情報に基づいて、仮想空間内で設定されている複数のCVPのうちの1つを処理対象とするCVPとして選択する。
 ステップS74においてラウドネス情報処理部65は、マルチアングルラウドネス情報に基づいて、処理対象のCVPに対して定められた複数の分割点のうちの1つを処理対象の分割点として選択する。例えば、水平分割インデックスjと垂直分割インデックスkの1つの組み合わせにより定まる分割点が処理対象の分割点として選択される。
 ラウドネス情報処理部65は、マルチアングルラウドネス情報から、処理対象のCVPの処理対象の分割点に対して定められたラウドネス情報loudnessInfo[i][j][k]を読み出す。この場合、特にラウドネス情報loudnessInfo[i][j][k]はサンプルピークレベル値とされる。
 ステップS75においてラウドネス情報処理部65は、読み出した処理対象の分割点のラウドネス情報loudnessInfo[i][j][k]の値が、最大ピーク値cur_peakよりも大きいか否かを判定する。
 ステップS75においてラウドネス情報の値が最大ピーク値cur_peakよりも大きいと判定された場合、その後、ステップS76の処理が行われる。
 ステップS76においてラウドネス情報処理部65は、最大ピーク値cur_peakを、処理対象の分割点のラウドネス情報loudnessInfo[i][j][k]の値に更新する。このような更新により、最大ピーク値cur_peakの値は、これまで処理対象とされた分割点のラウドネス情報のうち、最も値が大きいラウドネス情報の値となる。
 ステップS76の処理が行われて最大ピーク値cur_peakが更新されると、その後、処理はステップS77へと進む。
 これに対して、ステップS75においてラウドネス情報の値が最大ピーク値cur_peakよりも大きくないと判定された場合、ステップS76の処理は行われず、すなわち最大ピーク値cur_peakの更新は行われず、その後、処理はステップS77へと進む。
 ステップS76の処理が行われたか、またはステップS75においてラウドネス情報の値が最大ピーク値cur_peakよりも大きくないと判定されると、ステップS77の処理が行われる。
 ステップS77においてラウドネス情報処理部65は、処理対象のCVPの全ての分割点について処理を行ったか否かを判定する。すなわち、処理対象のCVPについて、全ての分割点が処理対象とされたか否かが判定される。
 ステップS77において、全ての分割点について処理を行っていないと判定された場合、すなわち、まだ全ての分割点が処理対象とされていないと判定された場合、処理はステップS74に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たな分割点が処理対象とされて上述の処理が行われる。
 これに対して、ステップS77において全ての分割点が処理対象とされたと判定された場合、ステップS78においてラウドネス情報処理部65は、全てのCVPについて処理を行ったか否かを判定する。すなわち、全てのCVPが処理対象とされたか否かが判定される。
 ステップS78において、全てのCVPについて処理を行っていないと判定された場合、すなわち、まだ全てのCVPが処理対象とされていないと判定された場合、処理はステップS73に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たなCVPが処理対象とされて上述の処理が行われる。
 一方、ステップS78において全てのCVPが処理対象とされたと判定された場合、その後、処理はステップS79へと進む。
 以上のステップS73乃至ステップS78の処理は、上述した式(1)の計算を行う処理であるといえる。最大ピーク値cur_peakは、全てのCVPの全ての分割点のラウドネス情報のうちの最も値が大きいラウドネス情報となる。
 ステップS79においてラウドネス情報処理部65は、最終的な最大ピーク値cur_peakの値が、予め定められた最大記録可能値よりも大きいか否かを判定する。ここでは、最大記録可能値は、例えば0.0[dB]とされる。
 ステップS79において最大ピーク値cur_peakが最大記録可能値よりも大きいと判定された場合、ステップS80においてラウドネス情報処理部65は、最大ピーク値cur_peakに基づいて減衰係数decayFacを算出する。
 具体的にはラウドネス情報処理部65は、次式(4)に示すように最大ピーク値cur_peakに基づいてゲインgain_dbを求め、得られたゲインgain_dbに基づいて以下の式(5)を計算することで減衰係数decayFacを算出する。これらの式(4)および式(5)では、上述の式(2)と同様の計算が行われる。すなわち、式(4)および式(5)の計算は、式(2)の計算と同じ計算である。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 一方、ステップS79において最大ピーク値cur_peakが最大記録可能値以下であると判定された場合、ステップS81においてラウドネス情報処理部65は、最大ピーク値cur_peakの値によらず、減衰係数decayFacを「1.0」とする。すなわち、減衰係数decayFac=1.0とされる。
 これは、最大ピーク値cur_peakが最大記録可能値以下である場合には、コンテンツの再生時にクリップ歪みが生じないからである。このような場合、後段のDRC処理部66では、実質的にクリップ歪みのためのレベル補正は行われない。
 ステップS80またはステップS81の処理が行われると、ラウドネス情報処理部65は、算出した減衰係数decayFacをDRC処理部66に供給し、減衰係数算出処理は終了する。減衰係数算出処理が終了すると、図9のステップS43が行われたことになるので、その後、処理は図9のステップS44へと進む。
 以上のようにしてクライアント51は、全CVPの全ての分割点におけるラウドネス情報に基づいて減衰係数decayFacを算出する。このような減衰係数decayFacを用いれば、レベル補正によりクリップ歪みの発生を抑制することができる。
〈第2の実施の形態〉
〈出力信号生成処理の説明〉
 ところで、上述した第1の実施の形態では、最大記録可能値に合わせて複数の各チャンネルの出力信号全体を一律に減衰させるため、場合によってはコンテンツの再生音が小さくなりすぎてしまう可能性もある。
 そこで、例えばMPEGなどで規格化されているDRC処理などといった適応的なレベル補正(ゲイン調整)を用いることで、出力信号全体の再生レベルを下げることなくクリップ歪みの発生を抑制するようにしてもよい。
 第2の実施の形態では、ラウドネス情報を用いたDRC処理によってクリップ歪みの発生を抑制する例について説明する。第2の実施の形態で説明する手法は、例えば仮想空間内におけるリスナの位置として、複数のCVPのうちの任意のCVPの位置を選択可能である、つまり複数のCVP間の離散的な移動が可能な多視点のオーディオコンテンツに対して適用可能である。
 第2の実施の形態で説明する手法では、例えば現在のリスナの位置として選択されているCVPにおいて、リスナの向きの方向に最も近い位置にある分割点のラウドネス情報が選択される。すなわち、水平分割線と垂直分割線の各組み合わせにより示される方向のうち、リスナの向きに最も近い方向となる組み合わせに対して定められたラウドネス情報が選択される。そして、選択されたラウドネス情報に基づいて、DRC処理等による出力信号のレベル補正が行われる。
 ラウドネス情報を用いたDRC処理によってクリップ歪みの発生が抑制される場合、クライアント51では、例えば図11に示す出力信号生成処理が行われる。
 以下、図11のフローチャートを参照して、クライアント51による出力信号生成処理について説明する。なお、ステップS111およびステップS112の処理は、図9のステップS41およびステップS42の処理と同様であるので、その説明は省略する。
 ステップS113においてラウドネス情報処理部65は、ビットストリームデコーダ62から供給されたマルチアングルラウドネス情報から、CVPごとに水平分割数および垂直分割数を取得する。
 ステップS113では、図10のステップS71における場合と同様の処理が行われ、各CVPインデックスiについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]が読み出される。
 ステップS114においてラウドネス情報処理部65は、リスナの入力操作等により供給される信号に基づいて、リスナにより選択されているCVPを示すCVPインデックスi=cur_cvpを取得する。なお、ラウドネス情報処理部65は、供給されるリスナ位置情報からCVPインデックスi=cur_cvpを特定してもよい。
 以下、リスナにより選択されているCVPを示すCVPインデックスiを、適宜、CVPインデックスcur_cvpとも記すこととする。
 ステップS115においてラウドネス情報処理部65は、リスナの入力操作等に応じて供給されるリスナ向き情報を取得する。例えばリスナ向き情報は、仮想空間での現時点のリスナの水平方向の向きを示すヨー角と、垂直方向の向きを示すピッチ角とからなる。
 ステップS116においてラウドネス情報処理部65は、マルチアングルラウドネス情報とリスナ向き情報に基づいて、CVPインデックスcur_cvpにより示されるCVPの水平分割インデックスjのうち、リスナの水平方向の向きに最も近い方向の水平分割線を示す水平分割インデックスjを算出(特定)する。この場合、例えば図2に示した例では、分割線L11の水平分割インデックスj=5が特定結果(算出結果)として得られる。なお、水平分割線の方向は、水平分割インデックスjの値により特定できるものとする。
 以下では、ステップS116で算出された水平分割インデックスjの値が「sel_hidx」であるものとし、適宜、水平分割インデックスsel_hidxとも記すこととする。
 ステップS117においてラウドネス情報処理部65は、マルチアングルラウドネス情報とリスナ向き情報に基づいて、CVPインデックスcur_cvpにより示されるCVPの垂直分割インデックスkのうち、リスナの垂直方向の向きに最も近い方向の垂直分割線を示す垂直分割インデックスkを算出(特定)する。この場合、例えば図3に示した例では、分割線L21の垂直分割インデックスk=0が特定結果として得られる。なお、垂直分割線の方向は、垂直分割インデックスkの値により特定できるものとする。
 以下では、ステップS117で算出された垂直分割インデックスkの値が「sel_vidx」であるものとし、適宜、垂直分割インデックスsel_vidxとも記すこととする。
 ステップS118においてラウドネス情報処理部65は、リスナの向きに応じたラウドネス情報を選択し、その選択したラウドネス情報をマルチアングルラウドネス情報から読み出してDRC処理部66に供給する。
 具体的には、ラウドネス情報処理部65はCVPインデックスcur_cvp、水平分割インデックスsel_hidx、および垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[cur_cvp][sel_hidx][sel_vidx]を選択する。
 このようにして選択されたラウドネス情報は、リスナにより選択されたCVPにおける、リスナの向きに最も近い方向に配置された(位置する)分割点に対応付けられたラウドネス情報である。すなわち、CVPを基準とする複数の向き(方向)ごとのラウドネス情報のうち、リスナ向き情報により示される向きに最も近い向きのラウドネス情報である。
 ステップS118の処理が行われてラウドネス情報が選択されると、その後、ステップS119およびステップS120の処理が行われるが、これらの処理は図9のステップS44およびステップS45の処理と同様であるので、その説明は省略する。
 ステップS121においてDRC処理部66は、ラウドネス情報処理部65から供給されたラウドネス情報に基づいて、レンダリング処理部64から供給された各チャンネルの出力信号に対してDRC処理を行う。
 すなわち、DRC処理部66は、ラウドネス情報としてのサンプルピークレベル値またはトゥルーピークレベル値に基づいて、DRC処理やDA変換を行うことで、ラウドネス情報に基づくレベル補正(ゲイン調整)が施されたアナログの出力信号を得る。すなわち、ラウドネス情報に基づくDRC処理等により出力信号のレベル補正が行われる。DRC処理部66は、このようにして得られた出力信号をスピーカ71へと供給し、コンテンツの音を再生させる。
 ステップS122においてクライアント51は、コンテンツ(オーディオデータ)の全てのフレームに対して処理を行ったか否かを判定する。例えばステップS122では、全てのフレームの出力信号がスピーカ71に供給されて再生が行われた場合、全てのフレームに対して処理を行ったと判定される。
 ステップS122において、まだ全てのフレームに対して処理を行っていないと判定された場合、その後、処理はステップS114に戻り、上述した処理が繰り返し行われる。この場合、まだ処理されていない新たなフレームについて上述の処理が行われる。
 これに対して、ステップS122において全てのフレームに対して処理を行ったと判定された場合、クライアント51の各部は行っている処理を終了し、これにより出力信号生成処理は終了する。
 以上のようにしてクライアント51は、リスナの位置および向きに対して適切なラウドネス情報を選択し、そのラウドネス情報に基づいてレベル補正を行う。このようにすることで、クリップ歪みの発生を抑制することができる。しかも、DRC処理等においてラウドネス情報に基づくレベル補正を実現することで、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。
〈第3の実施の形態〉
〈ラウドネス情報の選択について〉
 なお、CVP以外の位置を含む任意の位置をリスナの位置(視点位置)とし、リスナが仮想空間内を自由に移動可能な自由視点オーディオコンテンツに対しても、第2の実施の形態のように、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。
 そのような場合、例えばリスナ位置情報とリスナ向き情報に基づき、リスナの位置に最も近いCVPに対して定められた、リスナの向きに最も近い方向に位置する分割点のラウドネス情報が選択され、選択されたラウドネス情報に基づいてDRC処理等が行われる。
 例えば、図12に示すように3次元の仮想空間上にCVP1、CVP2、およびリスナが存在しており、リスナの向きが矢印L31に示す方向であるとする。
 図12は、仮想空間を上方から見たときの様子を表している。また、図12では各CVPを中心とする円上に配置された各円が1つの分割点を表しており、CVPの位置を起点とし、分割点を終点とする矢印は各分割点に対応する分割線を表している。さらに各分割点の近傍に記された数値は、水平分割インデックスjの値を示している。
 この場合、まず、CVP1とCVP2のうち、リスナの位置に最も近い位置にあるCVPが選択される。ここでは、リスナからCVP1までの距離aよりも、リスナからCVP2までの距離bがより小さい(短い)ため、CVP2が選択される。
 次に、CVP2の複数の分割点のうち、リスナの向きに最も近い方向に配置された分割点が選択される。なお、より詳細には、リスナの向きに最も近い方向の水平分割線および垂直分割線の組み合わせが選択され、その選択された組み合わせに対応する分割点が選択されるが、ここでは説明を簡単にするため、水平分割線の選択についてのみ説明を行う。
 CVP2を起点とする矢印L32は、矢印L31により示されるリスナの向きと同じ方向を示している。そのため、この例ではCVP2の分割線(水平分割線)のうち、矢印L32により示される方向と最も近い方向を示す分割線L33が選択され、その分割線L33に対応する分割点DV31が選択される。換言すれば、矢印L32により示される方向とのなす角度が最も小さい分割線L33が選択され、その分割線L33に対応する分割点DV31が選択される。
 したがって、この例ではCVP2の分割点DV31に対して定められたラウドネス情報に基づいてDRC処理等が行われ、これにより出力信号のレベル補正が実現される。
 なお、第3の実施の形態や第2の実施の形態では、リスナの位置に最も近いCVPが選択されるが、複数の各CVPとリスナの位置との間の距離が等しい、すなわち距離比が同じとなることも考えられる。そのような場合には、例えば現時点よりも時間的に前、より詳細には直前で使用されたリスナ位置情報が用いられ、そのリスナ位置情報により示される位置に最も近いCVPが選択されるようにしてもよい。
 その他、予め各CVPの優先度を示す優先度情報を設定しておき、リスナから最も近い複数のCVPのうち、最も優先度が高いCVPが選択されるようにしてもよい。
〈出力信号生成処理の説明〉
 図12を参照して説明したように、リスナの位置と向きに基づきラウドネス情報が選択される場合、クライアント51では、例えば図13に示す出力信号生成処理が行われる。
 以下、図13のフローチャートを参照して、クライアント51による出力信号生成処理について説明する。なお、ステップS151乃至ステップS153の処理は、図11のステップS111乃至ステップS113の処理と同様であるので、その説明は省略する。
 ステップS154においてラウドネス情報処理部65は、供給されたリスナ位置情報と、ビットストリームデコーダ62からのシステム構成情報とに基づいて、仮想空間におけるリスナ位置に最も近いCVPを示すCVPインデックスi=near_cvpを特定し、そのCVPインデックスを取得する。すなわち、仮想空間におけるリスナの位置に最も近いCVPが選択される。
 システム構成情報には、各CVPの仮想空間内における絶対的な位置を示すCVP位置情報が含まれているので、CVP位置情報とリスナ位置情報とから、リスナの位置に最も近い位置にあるCVPを計算により特定することができる。ここでは、リスナの位置に最も近いCVPが1つであるとして説明を続ける。
 また、以下、リスナに最も近いCVPを示すCVPインデックスiを、適宜、CVPインデックスnear_cvpとも記すこととする。
 CVPインデックスnear_cvpが取得されると、その後、ステップS155乃至ステップS157の処理が行われるが、これらの処理は図11のステップS115乃至ステップS117の処理と同様であるので、その説明は省略する。
 但し、ステップS156およびステップS157では、CVPインデックスnear_cvpにより示されるCVPが対象とされ、そのCVPについて水平分割インデックスsel_hidxと垂直分割インデックスsel_vidxが特定される。
 ステップS158においてラウドネス情報処理部65は、リスナの位置および向きに応じたラウドネス情報を選択し、その選択したラウドネス情報をマルチアングルラウドネス情報から読み出してDRC処理部66に供給する。
 具体的には、ラウドネス情報処理部65はCVPインデックスnear_cvp、水平分割インデックスsel_hidx、および垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[near_cvp][sel_hidx][sel_vidx]を選択する。
 このようにして選択されたラウドネス情報は、リスナに最も近い位置にあるCVPにおける、そのCVPを基準としたリスナの向きに最も近い方向に配置された(位置する)分割点に対応付けられたラウドネス情報である。すなわち、CVPを基準とする複数の向き(方向)ごとのラウドネス情報のうち、リスナ向き情報により示される向きに最も近い向きのラウドネス情報が選択される。
 このようにしてラウドネス情報が選択されると、その後、ステップS159乃至ステップS162の処理が行われて出力信号生成処理は終了するが、これらの処理は図11のステップS119乃至ステップS122の処理と同様であるので、その説明は省略する。
 以上のようにしてクライアント51は、リスナの位置および向きに対して適切なラウドネス情報を選択し、そのラウドネス情報に基づいてレベル補正を行う。このようにすることで、クリップ歪みの発生を抑制することができる。しかも、DRC処理等においてラウドネス情報に基づくレベル補正を実現することで、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。
〈第4の実施の形態〉
〈ラウドネス情報の選択について〉
 なお、リスナが仮想空間内のCVP以外の位置を含む任意の位置へと自由に移動可能な自由視点オーディオコンテンツにおいて、第3の実施の形態で説明した手法以外の手法でも、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。第4の実施の形態では、そのような他の手法について説明する。
 そのような場合、全CVPが対象とされて、CVPごとにリスナの向きに最も近い方向に位置する分割点のラウドネス情報が選択される。すなわち、リスナの向きに対応する水平分割インデックスjおよび垂直分割インデックスkの組み合わせにより定まるラウドネス情報が選択される。
 そして、選択された各CVPのラウドネス情報に基づき、現在のリスナの位置から各CVPまでの距離の逆数比により補間を行うことで算出されたラウドネス情報が用いられて、DRC処理等により出力信号のレベル補正が行われる。
 例えば、図14に示すように3次元の仮想空間上にCVP1、CVP2、CVP3、およびリスナが存在しており、リスナの向きが矢印L31に示す方向であるとする。なお、図14において図12における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図14では、CVP1を起点とする矢印L41は、矢印L31により示されるリスナの向きと同じ方向を示している。そのため、CVP1の分割点のうち、矢印L41により示される方向(リスナの向き)と最も近い方向に配置された分割点は、分割点DV41となる。
 同様に、CVP3を起点とする矢印L42は、矢印L31により示されるリスナの向きと同じ方向を示しており、CVP3の分割点のうち、矢印L42により示される方向(リスナの向き)と最も近い方向に配置された分割点は、分割点DV42となる。
 図14の例では、リスナ位置情報により示されるリスナの位置F、すなわち仮想空間上の点Fの座標が(xf,yf,zf)とされている。
 また、仮想空間におけるCVP1、CVP2、およびCVP3の位置が、それぞれ位置A、位置B、および位置Cとされており、CVP位置情報により示される、それらの位置A、位置B、および位置Cの座標が(xa,ya,za)、(xb,yb,zb)、および(xc,yc,zc)であるとする。
 さらに、CVP1の位置Aからリスナの位置Fまでの距離AFが距離AF=aであり、CVP2の位置Bからリスナの位置Fまでの距離BFが距離BF=bであり、CVP3の位置Cからリスナの位置Fまでの距離CFが距離CF=cであるとする。
 この場合、距離AF、距離BF、および距離CFの逆数比が求められ、さらにその逆数比と、CVP1の分割点DV41のラウドネス情報、CVP2の分割点DV31のラウドネス情報、およびCVP3の分割点DV42のラウドネス情報に基づき補間処理が行われる。
 この補間処理によって、リスナの位置Fと、矢印L31に示すリスナの向きとに対応するラウドネス情報が得られ、そのラウドネス情報に基づいてDRC処理等により出力信号のレベル補正が行われる。
 なお、ここでは仮想空間上の全てのCVPが対象とされてCVPごとに分割点(ラウドネス情報)が選択され、補間処理が行われる場合について説明するが、全てのCVPを対象とするのではなく、リスナの近傍にある一部の複数のCVPのみが対象とされてもよい。また、リスナの近傍にある一部の複数のCVPのみを対象とする場合に、対象とするCVPの個数についてはユーザ(リスナ)によって任意に設定されてもよいし、クライアントのリソースや残電池量、伝送帯域等によって動的に変更されてもよい。
 以下、ラウドネス情報を求めるための補間処理について、詳細に説明する。
 図14に示したように、仮想空間内の3つの位置A、位置B、および位置CのそれぞれにCVP1、CVP2、およびCVP3があり、リスナが位置Fにいる場合、距離AF=a、距離BF=b、および距離CF=cの比(距離比)は、次式(6)に示すようになる。
Figure JPOXMLDOC01-appb-M000006
 また、距離比の逆数を、これから求めようとするラウドネス情報へのCVPの依存度(寄与度)とすると、各CVPの依存度の比である依存比は、以下の式(7)に示すようになる。
Figure JPOXMLDOC01-appb-M000007
 なお、式(7)においてdp(AF)、dp(BF)、およびdp(CF)は、それぞれCVP1の依存度、CVP2の依存度、およびCVP3の依存度を示している。
 これらの依存度dp(AF)乃至依存度dp(CF)を正規化したものを、それぞれ依存度Cbr(AF)、依存度Cbr(BF)、および依存度Cbr(CF)とすると、各CVPの正規化した依存度の比、すなわち依存比は、次式(8)に示すようになる。なお、式(8)において「^」はべき乗を表しており、「sqrt」は平方根を表している。
Figure JPOXMLDOC01-appb-M000008
 このようにして求められた距離の逆数による依存度Cbr(AF)乃至依存度Cbr(CF)と、CVP1乃至CVP3のリスナ向きに応じたラウドネス情報とに基づいて補間処理が行われ、リスナの位置と向きに対応するラウドネス情報が求められる。
 具体的には、例えばリスナの位置と向きに対応するラウドネス情報として、サンプルピークレベル値EstSamplePeakLevelを算出する場合には次式(9)に示す計算が行われる。
Figure JPOXMLDOC01-appb-M000009
 なお、式(9)において、SamplePeakLevel[0][hor1][vir1]は、図14のCVP1について選択された分割点DV41のラウドネス情報としてのサンプルピークレベル値を示している。
 したがって、この例では分割点DV41は、各インデックスの組み合わせであるCVPインデックスi=0、水平分割インデックスj=hor1、および垂直分割インデックスk=vir1により特定される分割点となる。この場合、リスナの水平方向の向きに最も近い方向を示す水平分割線の水平分割インデックスjが「hor1=7」であり、リスナの垂直方向の向きに最も近い方向を示す垂直分割線の垂直分割インデックスkが「vir1」である。
 同様に、式(9)において、SamplePeakLevel[1][hor2][vir2]は、図14のCVP2について選択された分割点DV31のラウドネス情報としてのサンプルピークレベル値を示している。SamplePeakLevel[2][hor3][vir3]は、図14のCVP3について選択された分割点DV42のラウドネス情報としてのサンプルピークレベル値を示している。
 また、例えばリスナの位置と向きに対応するラウドネス情報として、トゥルーピークレベル値EstTruePeakLevelを算出する場合には次式(10)に示す計算が行われる。
Figure JPOXMLDOC01-appb-M000010
 なお、式(10)において、TruePeakLevel[0][hor1][vir1]は、図14のCVP1について選択された分割点DV41のラウドネス情報としてのトゥルーピークレベル値を示している。
 式(10)においても、式(9)における場合と同様に、分割点DV41は、各インデックスの組み合わせであるCVPインデックスi=0、水平分割インデックスj=hor1=7、および垂直分割インデックスk=vir1により特定される分割点となる。
 また、式(10)において、TruePeakLevel[1][hor2][vir2]は、図14のCVP2について選択された分割点DV31のラウドネス情報としてのトゥルーピークレベル値を示している。TruePeakLevel[2][hor3][vir3]は、図14のCVP3について選択された分割点DV42のラウドネス情報としてのトゥルーピークレベル値を示している。
 DRC処理部66では、以上のようにして算出されたラウドネス情報としてのサンプルピークレベル値EstSamplePeakLevelまたはトゥルーピークレベル値EstTruePeakLevelが用いられて、DRC処理等により出力信号のレベル補正が行われる。
〈出力信号生成処理の説明〉
 各CVPの正規化した依存度により補間処理を行ってラウドネス情報を求め、そのラウドネス情報を用いて出力信号のレベル補正が行われる場合、クライアント51では、例えば図15に示す出力信号生成処理が行われる。
 以下、図15のフローチャートを参照して、クライアント51による出力信号生成処理について説明する。なお、ステップS191乃至ステップS193の処理は、図11のステップS111乃至ステップS113の処理と同様であるので、その説明は省略する。
 ステップS194においてラウドネス情報処理部65は、現在のリスナ位置に基づいて、各CVPの依存比、すなわち依存度を算出する。
 具体的には、ラウドネス情報処理部65は供給されたリスナ位置情報と、ビットストリームデコーダ62からのシステム構成情報に含まれているCVP位置情報とに基づいて、仮想空間における各CVPからリスナまでの距離を算出する。
 そしてラウドネス情報処理部65は、算出した距離に基づいて、上述した式(8)と同様の計算を行うことで距離比、すなわちCVPごとの正規化された依存度を算出する。
 ステップS195においてラウドネス情報処理部65は、リスナの入力操作等に応じて供給されるリスナ向き情報を取得する。
 ステップS196においてラウドネス情報処理部65は、システム構成情報に基づいて、仮想空間内で設定されている複数のCVPのうちの1つを処理対象とするCVPとして選択する。
 処理対象のCVPが選択されると、その後、処理対象のCVPについて、ステップS197乃至ステップS199の処理が行われるが、これらの処理は、図11のステップS116乃至ステップS118の処理と同様であるので、その説明は省略する。
 これにより、処理対象のCVPについて、水平分割インデックスsel_hidxおよび垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[i][sel_hidx][sel_vidx]がマルチアングルラウドネス情報から読み出される。このようにして読み出されたラウドネス情報は、処理対象のCVPにおける、リスナの向きに最も近い方向に配置された(位置する)分割点に対応付けられたラウドネス情報である。
 ステップS200においてラウドネス情報処理部65は、全てのCVPについて、上述のステップS197乃至ステップS199の処理を行ったか否かを判定する。
 ステップS200において、まだ全てのCVPについて処理を行っていないと判定された場合、その後、処理はステップS196に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たなCVPが処理対象とされて上述の処理が行われる。
 これに対して、ステップS200において、全てのCVPについて処理を行ったと判定された場合、その後、処理はステップS201へと進む。この場合、全ての各CVPについて、CVPにおける複数の向き(方向)ごとのラウドネス情報のうち、リスナ向き情報により示されるリスナの向きに最も近い向きのラウドネス情報が選択されたことになる。
 ステップS201においてラウドネス情報処理部65は、ステップS194で算出した依存比(依存度)と、ステップS199で読み出された各CVPのラウドネス情報とに基づいて、リスナの位置および向きに応じたラウドネス情報を算出する。また、ラウドネス情報処理部65は、算出したラウドネス情報をDRC処理部66に供給する。
 例えばラウドネス情報処理部65は、上述した式(9)や式(10)と同様の計算を行うことで、依存度(距離比)に基づく補間処理によりラウドネス情報としてのサンプルピークレベル値やトゥルーピークレベル値を算出する。
 ラウドネス情報が算出されると、その後、ステップS202乃至ステップS205の処理が行われて出力信号生成処理は終了するが、これらの処理は図11のステップS119乃至ステップS122の処理と同様であるので、その説明は省略する。
 以上のようにしてクライアント51は、CVPごとに、リスナの向きに対して適切なラウドネス情報を選択し、それらのラウドネス情報に基づいて補間処理によりリスナの位置および向きに応じたラウドネス情報を算出する。そしてクライアント51は、算出したラウドネス情報を用いて、出力信号のレベル補正を行う。
 このようにすることで、クリップ歪みの発生を抑制することができるだけでなく、DRC処理等においてラウドネス情報に基づくレベル補正を実現し、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。
〈第5の実施の形態〉
〈本技術について〉
 ところで、オーディオ再生に関して、リスナ位置が固定でリスナの向きを自由に変えることができる3DoF(Degree of Freedom)オーディオと、リスナの位置や向きを自由に変えることができる6DoFオーディオとが知られている。6DoFオーディオは、自由視点オーディオとも呼ばれている。
 単一の3DoFオーディオにおいてラウドネス制御を行う場合には、レンダリング処理によって得られた各スピーカへの出力に基づきラウドネス値が測定される。また、再生側ではリスナが要求したターゲットラウドネス値に対する測定ラウドネス値との差分が算出され、そのゲイン差分がレンダリングされた出力オーディオデータに適用されている。
 一方で、自由視点オーディオシステム上では、3次元空間内の複数の視点(CVP)で制作された3DoFオーディオのデータを用いて任意視点でのオブジェクトの配置位置とゲインを補間によって求めることになる。しかし、複数の3DoFオーディオに対して再生側で要求されるターゲットラウドネス値を扱う手法が存在していない。
 そのため、自由視点オーディオ(6DoFオーディオ)における再生ラウドネスの制御ができない状況となっている。
 そこで、本技術では、自由視点オーディオにおいても再生側でラウドネス制御を行うことができるようにした。
 本技術は、例えば以下のような特徴を有している。
 すなわち、本技術は、オブジェクトのゲイン制御のみでラウドネス補正を行うという特徴を有している。
 また、本技術は、リスナの位置(視点)ごとに音量のばらつきがあるときでも、再生側のターゲットラウドネス値に合わせた自由視点オーディオ再生を実現可能であるという特徴を有している。
 例えば、コンテンツの制作時には、各視点(CVP)についてのレンダリング結果に対するラウドネス値が測定ラウドネス値として測定され、得られた測定ラウドネス値は構成情報の一部としてビットストリームに格納されて再生側に伝送される。なお、この実施の形態等における測定ラウドネス値を算出する際の測定対象となるスピーカ出力信号は、例えば全てのCVPについて、リスナが後述するTP(ターゲットポイント)を向いた状態となっているときのものであるとされる。
 再生側では、リスナが希望するラウドネス値がターゲットラウドネス値として入力される。また、6DoFメタデコーダでは、任意のリスナ位置に対するオブジェクトのゲイン値を補間により求める前の段階で、ターゲットラウドネス値と、CVPごとの測定ラウドネス値との差分のゲイン補正量が求められる。そして、CVPごとに全てのオブジェクトのメタデータに含まれるゲイン値に対して、ゲイン補正量の適用が行われる。
 これにより、視点(CVP)ごとの音量差が発生する場合でも、再生側のターゲット音量(ターゲットラウドネス値)に合わせて自由視点オーディオの再生が可能となる。
 さらに、本技術は、コンテンツ制作者側の意図と、ターゲットラウドネス値とを反映させた自由視点オーディオ再生を実現可能であるという特徴も有している。
 例えば、コンテンツの制作者が各CVPに対して、事前に希望するラウドネス値を制作ラウドネス値として設定することも考えられるため、そのような場合への対応が可能であると、制作者の意図をより反映させることができるようになる。
 この場合、制作者が設定したCVP間の音量の関係が保持され、その中で最も大きいラウドネス値を持つCVPとターゲットラウドネス値との差分が求められ、全てのCVPに対してその差分がオブジェクトのゲイン値に対して適用される。
 自由視点オーディオでの再生側におけるラウドネス制御を行う場合、再生側では、例えば図16に示すように、Case Index=0,1,2,3の各ケースに対応する処理が行われる。
 図16では、各ケースについて、動作仕様、構成情報(Config Info)内におけるグループ情報や制作ラウドネス値の有無、再生側(ラウドネス設定API(Application Programming Interface))での設定が示されている。
 例えば、再生側ではラウドネスモードの設定が行われる。ラウドネスモードとは、再生側において、ユーザ(リスナ)等によりターゲットラウドネス値に基づくラウドネス補正を行う動作モードである。例えば、再生側では、リスナ等によりターゲットラウドネス値が指定されると、ラウドネスモードとされる。
 また、ラウドネスモードには、測定ラウドネスモード(Case Index=1)、グループモード(Case Index=2)、および制作ラウドネスモード(Case Index=3)がある。
 Case Index=0(以下、ケース0とも称する)の場合、ターゲットラウドネス値は指定されていないので、ラウドネスモードとはされず、再生側では特にラウドネス補正は行われない。
 これに対して、ターゲットラウドネス値が指定され、ラウドネスモードとされた場合、測定ラウドネスモード、グループモード、および制作ラウドネスモードのうちの何れかのモードでラウドネス補正が行われる。
 Case Index=1(以下、ケース1とも称する)、すなわち測定ラウドネスモードでは、構成情報にグループ情報や制作ラウドネス値を格納する必要はない。すなわち、測定ラウドネスモードでは、グループ情報や制作ラウドネス値は用いられない。
 測定ラウドネスモードでは、制御視点である各CVPでのラウドネス(音量)のばらつきがある場合でも、そのばらつきが揃えられ、再生時のラウドネスが、リスナ等により設定されたターゲットラウドネス値となるようにラウドネス補正が行われる。後述するように、測定ラウドネスモードでは、測定ラウドネス値とターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。
 Case Index=2(以下、ケース2とも称する)、すなわちグループモードでは、構成情報にグループ情報が格納されているが、構成情報に制作ラウドネス値を格納する必要はない。すなわち、グループモードでは、グループ情報が用いられる。
 グループ情報は、仮想空間上に配置された複数の各CVP(制御視点)が属すグループ(以下、CVPグループとも称する)を示す情報である。グループモードでは、グループ数が1となるようなケースもある。すなわち、全CVPが同一のグループに属すケースもある。
 グループモードでは、同一グループに属す各CVPでの音量のばらつきは維持したまま、同一グループ内の最大の測定ラウドネス値をもつCVPを基準として、再生時のラウドネスがターゲットラウドネス値となるようにラウドネス補正が行われる。後述するように、グループモードでは、測定ラウドネス値と、グループ情報と、ターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。
 Case Index=3(以下、ケース3とも称する)、すなわち制作ラウドネスモードでは、構成情報に制作ラウドネス値が格納されているが、構成情報にグループ情報を格納する必要はない。すなわち、制作ラウドネスモードでは、制作者等によりCVPごとに指定された制作ラウドネス値が用いられる。
 制作ラウドネスモードでは、各CVP(制御視点)の制作ラウドネス値が用いられて、再生時のラウドネスがターゲットラウドネス値となるようにラウドネス補正が行われる。すなわち、制作ラウドネスモードでは、測定ラウドネス値と、制作ラウドネス値と、ターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。
〈ラウドネスモードについて〉
 以下、図17乃至図22を参照して、測定ラウドネスモード、グループモード、および制作ラウドネスモードについて、具体的に説明する。なお、図17乃至図22において、互いに対応する部分については、その説明は適宜省略する。
(測定ラウドネスモード)
 測定ラウドネスモード(ケース1)では、CVPごとの測定ラウドネス値が異なる場合に、再生側で、リスナの位置(受聴位置)によらず、再生時のラウドネス値がターゲットラウドネス値となるようにゲインの補正処理が行われる。
 例えば図17の左側に示すように、仮想空間上にターゲットポイント(以下、TP(Target Point)とも称する)と、複数のCVPとが定められているとする。
 TP(ターゲットポイント)は、所定の基準となる位置であり、一例として、例えば各CVPにいる仮想のリスナは、全てTPの方向を向いているものとして、オブジェクトのメタデータが生成されている。ここでは、文字「TP」が記された円がTPを表している。
 なお、各CVPにおけるオブジェクトのメタデータは、CVPにいる仮想のリスナがTPを向いているときのものに限らず、リスナが任意の方向を向いているときのものとすることができる。
 また、この例ではCVPとして、CVP A~CVP Eの5つのCVPが配置されている。例えば、文字「A」が記された円がCVP Aを表しているなど、円内に記された文字がどのCVPであるかを示している。
 コンテンツ制作側では、CVPごとにオブジェクトのメタデータが定められる。例えば、CVPごとのメタデータには、CVPに対して定められたオブジェクトの位置情報やゲイン情報などが含まれている。また、同じオブジェクトであっても、CVPごとに仮想空間におけるオブジェクトの配置位置やゲイン情報が異なることがある。
 コンテンツ制作側では、それらのメタデータが用いられてCVPごとにコンテンツのオーディオデータのラウドネス値が測定ラウドネス値として測定される。コンテンツのオーディオデータは、1または複数のオブジェクトの音を含む、コンテンツの音を再生するためのデータである。
 例えばオブジェクトのメタデータには、CVPごとに、オブジェクト位置情報とゲイン情報が含まれている。また、CVPごとに、オブジェクト位置情報およびゲイン情報を用いたレンダリング処理が行われ、5chや2ch、13chなどといった任意のチャンネル構成のオーディオデータが生成される。このオーディオデータは、CVPの位置をリスナの位置とした場合における、コンテンツの音を再生するためのオーディオデータである。
 さらに、CVPごとに生成されたオーディオデータのラウドネス値が測定され、その測定結果がCVPごとの測定ラウドネス値とされる。
 この例では、CVP Aの測定ラウドネス値La、CVP Bの測定ラウドネス値Lb、CVP Cの測定ラウドネス値Lc、CVP Dの測定ラウドネス値Ld、およびCVP Eの測定ラウドネス値Leが測定により得られている。
 一方、再生側においては、リスナが希望するラウドネス値として、ターゲットラウドネス値Lt[LKFS]が設定される。
 測定ラウドネスモードでは、各CVPについて、再生側でのレンダリング処理により得られるオーディオデータのラウドネス値がターゲットラウドネス値Ltとなるようにされる。すなわち、各CVPでのラウドネス値が全てターゲットラウドネス値Ltとなるように各オブジェクトのCVPごとのゲイン情報の補正(ゲイン制御)が行われ、これによりラウドネス補正が実現される。
 このようなラウドネス補正を実現するため、再生側では、例えば図17の右側に示すように、CVPごとにオブジェクトのゲイン情報(ゲイン値)を補正するためのラウドネス変更値が計算される。
 この例では、CVP Aのラウドネス変更値Ga、CVP Bのラウドネス変更値Gb、CVP Cのラウドネス変更値Gc、CVP Dのラウドネス変更値Gd、およびCVP Eのラウドネス変更値Geが求められる。
 例えば、これらのラウドネス変更値Ga~ラウドネス変更値Geは、次式(11)により得ることができる。
Figure JPOXMLDOC01-appb-M000011
 式(11)では、ターゲットラウドネス値Ltと測定ラウドネス値の差分、すなわちターゲットラウドネス値Ltから測定ラウドネス値を減算して得られる値がラウドネス変更値として算出される。
 また、再生側では、CVPごとに求めたラウドネス変更値に基づき、オブジェクトのゲイン情報の補正(ゲイン補正)のためのゲイン変化率が算出され、得られたゲイン変化率に基づいて、オブジェクトのCVPごとのゲイン情報が補正される。
 例えば図17の例では、各CVPのラウドネス変更値に基づき、次式(12)を計算することで、CVP A~CVP Eの各CVPのゲイン変化率であるGaRatio~GeRatioが求められる。
Figure JPOXMLDOC01-appb-M000012
 このようにして得られたCVPごとのゲイン変化率が、オブジェクトのCVPごとのゲイン情報に乗算され、最終的なオブジェクトのCVPごとのゲイン情報とされる。
 例えば図17の例では、各CVPのゲイン変化率に基づき、次式(13)を計算することで、CVP A~CVP Eの各CVPの最終的なオブジェクトのゲイン情報であるObgGain_a[i]~ObgGain_e[i]が求められる。
Figure JPOXMLDOC01-appb-M000013
 なお、式(13)では、ObgGain_a[i]~ObgGain_e[i]は、メタデータに含まれているCVP A~CVP Eについてのi番目のオブジェクトのゲイン情報(補正前のゲイン値)を示している。したがって、式(13)では、オブジェクトのゲイン情報にゲイン変化率を乗算して得られる値が、最終的なオブジェクトのゲイン情報、すなわち補正後のゲイン情報(以下、補正ゲイン情報とも称することとする)とされることになる。
 再生側でのレンダリング処理時には、CVPごとに得られた補正ゲイン情報が用いられてリスナの位置に対する各オブジェクトのゲイン情報が算出され、各オブジェクトのオーディオデータに適用されることになる。
(グループモード)
 グループモードでは、CVPがグループ分けされ、同一グループ内に含まれるCVP間のラウドネス値の相対関係が維持される。
 コンテンツの制作側において、例えば図18に示すようにCVP A~CVP Eの5個のCVPが設定され、それらの各CVPが何れかのグループ(CVPグループ)に属すようにグループ分けが行われる。
 この例では、CVP CおよびCVP Dにより1つのグループ1が形成されており、CVP A、CVP B、およびCVP Eにより1つのグループ2が形成されている。
 例えば制作者(クリエイタ)は、最も大きい測定ラウドネス値とCVP自身の測定ラウドネス値との差分を、ラウドネス値を意図的に下げたいCVPのラウドネス変更値に予め加算しておくという相対関係を築きたいCVPをグループ化する。すなわち、音量のバランス(音量の相対関係)を維持したいCVPが同じグループとなるようにグループ分けが行われる。
 後述するように、同じグループに属す各CVPの測定ラウドネス値のうちの最も大きいものを最大測定ラウドネス値とすると、ラウドネス変更値の算出時には、その最大測定ラウドネス値がグループ内の各CVPの測定ラウドネス値としてセットされる(用いられる)。そうすることで、再生側においては、同一グループ内では、そのグループに属す各CVPでの測定ラウドネス値の相対関係、つまり音量の相対関係(ゲイン差の関係)が維持されることになる。
 例えば制作者がCVP A、CVP B、およびCVP Eの間での音量のバランス関係を維持したいと考えている場合、制作者は図18に示したように、それらのCVP A、CVP B、およびCVP Eを1つのCVPグループ「グループ2」とする。この場合、CVP A、CVP B、およびCVP Eの測定ラウドネス値のうちの最も大きいものがCVP Bの測定ラウドネス値Lbであるとすると、ラウドネス変更値の計算時には、CVP Bだけでなく、CVP AやCVP Eについても、測定ラウドネス値がLbであるものとして扱われる。
 例えば本技術では、CVPグループという概念が設けられて、各CVPが属しているグループを示す情報(グループ情報)がビットストリームに格納されるが、グループモードとされるときでも各CVPのオリジナルの測定ラウドネス値がビットストリームに格納されるようにしてもよい。そうすれば、再生側において、全CVPにおけるラウドネス値をターゲットラウドネス値にしたい、つまり測定ラウドネスモードとして全CVPでの音量を均一にしたいという場合にも対応することができる。
 また、グループモードの場合、再生側では、CVPごとに定められたグループ情報の値をもとに、各CVPグループ内の最大測定ラウドネス値が特定される。そして、グループに属す全CVPの測定ラウドネス値として最大測定ラウドネス値がセットされる。
 なお、CVPのグループ分けは、例えば制作者による指定操作に従って行われることが考えられるが、他のどのような方法により行われるようにしてもよい。
 一例として、例えば仮想空間上における複数のCVPの配置位置に基づいて、クラスタリングを行ったり、CVP間の距離に基づいて、CVP間の距離が短いものが同じグループに属すようにグループ分けが行われたりしてもよい。
 また、例えば、仮想空間上におけるCVPが配置された領域に応じて、そのCVPがどのグループに属すかが定められるようにしてもよい。
 例えば、仮想空間がライブ会場やそのライブ会場の外の領域を含む空間であるときには、ライブ会場内に配置されたCVPは同じ1つのグループに属し、ライブ会場外に配置されたCVPは、ライブ会場内のCVPが属すグループとは異なる他のグループに属すようにすることなどが考えられる。また、同じライブ会場内でも、1階席にあるCVPは同じ1つのグループに属し、2階席にあるCVPは1階席にあるCVPとは異なる他のグループに属すようにすることなども考えられる。
 また、時間とともにグループ数やグループ分けが動的に変化するようにしてもよい。さらに、例えばリスナが仮想空間における領域Aにいるときの領域A用のグループ情報や、リスナが領域Bにいるときの領域B用のグループ情報など、予め複数のグループ分けの結果(グループパターン)を用意しておくようにしてもよい。
 そのような場合、例えば、リスナの位置や再生側のリソース、再生側の残電池量、再生側のデバイス種別、輻輳状態等のネットワークの状態などに応じて、複数のグループパターンのうちの1つが選択されるように、グループパターンの切り替えが行われるようにしてもよい。
 グループパターンの切り替えは、コンテンツを配信するサーバで行われてもよいし、コンテンツの再生側(クライアント)で行われてもよい。このようにグループパターンの切り替えが行われる場合、例えばグループパターンごとに、後述する構成情報を用意することが考えられる。
 グループモードでは、例えば図19の左側に示すように、全てのCVPが同じグループに属すこともある。換言すれば、1つのグループに仮想空間上の全てのCVPが属すこともある。
 図19の例では、CVP A~CVP Eの5個のCVPが全て同じグループとされている。この例では、再生側において、全てのCVPの測定ラウドネス値の関係が維持され、グループ内で最も大きい測定ラウドネス値と、ターゲットラウドネス値との差分が同一グループ内の全てのCVPに適用されることになる。
 具体的には、再生側において、オブジェクトのCVPごとのゲイン情報の補正を行う際には、まずラウドネス変更値が求められる。
 グループモードでは、グループに属す各CVPの測定ラウドネス値のなかの最大値が最大測定ラウドネス値として特定され、その最大測定ラウドネス値とターゲットラウドネス値との差分がラウドネス変更値とされる。特に、グループモードでは、グループに属す全CVPのラウドネス変更値は同じ値となる。
 例えば図19の例では、CVP A~CVP Eが同じグループに属しており、それらのCVPの測定ラウドネス値の最大値がCVP Dの測定ラウドネス値Ldとなっている。
 そのため、最大測定ラウドネス値Lmax=Ldとされ、図中、右側に示すように、最大測定ラウドネス値Lmaxと、ターゲットラウドネス値Ltとに基づき、以下の式(14)によりCVP A~CVP Eのラウドネス変更値Ga~ラウドネス変更値Geが求められる。
Figure JPOXMLDOC01-appb-M000014
 式(14)では、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmaxの差分、すなわちターゲットラウドネス値Ltから最大測定ラウドネス値Lmaxを減算して得られる値がラウドネス変更値Ga~ラウドネス変更値Geとして算出される。特に、同じグループに属すCVP A~CVP Eのラウドネス変更値Ga~Geは同じ値となっている。
 また、図18に示したように、グループ数が2つである場合には、例えば図20に示すように、グループごとにラウドネス変更値が算出される。
 図20における左側には、図18における場合と同様のグループ分けが行われており、グループ1はCVP CおよびCVP Dからなり、グループ2はCVP A、CVP B、およびCVP Eからなる。
 この場合、CVP Cの測定ラウドネス値LcとCVP Dの測定ラウドネス値Ldのうちの大きい方(最大のもの)がグループ1の最大測定ラウドネス値Lmax_g1とされる。
 同様に、CVP Aの測定ラウドネス値La、CVP Bの測定ラウドネス値Lb、およびCVP Eの測定ラウドネス値Leのうちの最大のもの(最大値)がグループ2の最大測定ラウドネス値Lmax_g2とされる。
 そして、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmax_g1の差分がグループ1内の全CVPのラウドネス変更値とされ、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmax_g2の差分がグループ2内の全CVPのラウドネス変更値とされる。
 すなわち、図20の右側に示すように、ラウドネス変更値Gc=Gd=Lt-Lmax_g1とされ、ラウドネス変更値Ga=Gb=Ge=Lt-Lmax_g2とされる。
 例えば図20の例では、上述の式(12)における場合と同様に、各CVPのラウドネス変更値に基づき、次式(15)を計算することで、CVP A~CVP Eの各CVPのゲイン変化率であるGaRatio~GeRatioが求められる。
Figure JPOXMLDOC01-appb-M000015
 このようにして得られたCVPごとのゲイン変化率が、オブジェクトのCVPごとのゲイン情報に乗算され、最終的なオブジェクトのCVPごとのゲイン情報とされる。
 図20の例では、上述の式(13)と同様に、各CVPのゲイン変化率に基づき、次式(16)を計算することで、CVP A~CVP Eの各CVPの最終的なオブジェクトのゲイン情報である補正ゲイン情報ObgGain_a[i]~ObgGain_e[i]が求められる。
Figure JPOXMLDOC01-appb-M000016
 なお、式(16)では、ObgGain_a[i]~ObgGain_e[i]は、メタデータに含まれているCVP A~CVP Eについてのi番目のオブジェクトのゲイン情報(補正前のゲイン値)を示している。式(16)では、オブジェクトのゲイン情報にゲイン変化率を乗算して得られる値が、最終的なオブジェクトのゲイン情報(補正ゲイン情報)とされる。
 再生側でのレンダリング処理時には、CVPごとに得られた補正ゲイン情報が用いられてリスナの位置に対する各オブジェクトのゲイン情報が算出され、各オブジェクトのオーディオデータに適用されることになる。
(制作ラウドネスモード)
 制作ラウドネスモードでは、コンテンツの制作時に制作者が意図した各CVPの制作ラウドネス値が設定される。
 例えば、図21の左側に示すように、仮想空間上にCVP A~CVP Eが配置された場合、それらのCVPごとに制作ラウドネス値が定められるとともに、各CVPについて測定ラウドネス値が測定される。
 この例では、CVP A~CVP Eの制作ラウドネス値Lca~制作ラウドネス値Lceが設定され、またCVP A~CVP Eの測定ラウドネス値La~測定ラウドネス値Leが測定により得られている。
 制作者は、制作ラウドネス値を指定(セット)することで、CVP間の音量バランスを意図的に設定できることになる。
 制作ラウドネスモードでは、2段階でラウドネス変更値が求められる。
 すなわち、まず1段階目の処理として、図中、中央に示すようにCVPごとに中間ラウドネス変更値が算出される。
 具体的には、次式(17)に示すように、制作ラウドネス値から測定ラウドネス値を減算して得られる値が中間ラウドネス変更値とされる。なお、式(17)では、Ga~Geは、CVP A~CVP Eの中間ラウドネス変更値を示している。
Figure JPOXMLDOC01-appb-M000017
 例えば、仮に中間ラウドネス変更値Gaをラウドネス変更値として用いれば、CVP Aについては、再生時のラウドネスが、制作ラウドネス値Lcaとなるようにラウドネス補正が行われることになる。
 次に、2段階目の処理として、図中、右側に示すように、全CVPで共通の補正量である共通補正量OvaGが求められ、その共通補正量OvaGに基づいて、各CVPの最終的なラウドネス変更値である最終ラウドネス変更値が求められる。
 具体的には、全CVPの制作ラウドネス値のうちの最大値、すなわち制作ラウドネス値Lca~制作ラウドネス値Lceのなかの最大値が最大制作ラウドネス値Lcx_maxとされる。
 また、次式(18)に示すように、ターゲットラウドネス値Ltと最大制作ラウドネス値Lcx_maxとの差分、すなわちターゲットラウドネス値Ltから最大制作ラウドネス値Lcx_maxを減算して得られる値が共通補正量OvaGとされる。
Figure JPOXMLDOC01-appb-M000018
 共通補正量OvaGは、最大制作ラウドネス値Lcx_maxとなるCVPにおけるラウドネスがターゲットラウドネス値Ltとなり、かつ各CVP間の音量バランス、つまり相対的な音量(ラウドネス)の関係が維持されるようにするための各CVPの中間ラウドネス変更値の補正量となっている。
 最後に、共通補正量OvaGと中間ラウドネス変更値とに基づいて、CVPごとに、最終的なラウドネス変更値(最終ラウドネス変更値)が求められる。
 すなわち、以下の式(19)により、CVP A~CVP Eの各CVPの最終ラウドネス変更値であるfGa~fGeが求められる。
Figure JPOXMLDOC01-appb-M000019
 式(19)では、CVPごとの中間ラウドネス変更値に共通補正量OvaGが加算されて、その加算結果が最終ラウドネス変更値とされている。
 図21に示した各CVPの最終ラウドネス変更値fGa~fGeの具体的な例を図22に示す。
 この例では、CVP A~CVP Eの制作ラウドネス値は、全て「-3」とされているため、最大制作ラウドネス値Lcx_max=-3となる。また、ターゲットラウドネス値Ltとして-11が指定されているので、共通補正量OvaG=-8となる。
 したがって、例えば測定ラウドネス値Le=-19.75であるCVP Eの最終ラウドネス変更値fGeは8.75となる。
 また、図21の例では、各CVPの最終ラウドネス変更値が得られると、その最終ラウドネス変更値が用いられて次式(20)によりCVP A~CVP Eの各CVPのゲイン変化率GaRatio~GeRatioが求められる。
Figure JPOXMLDOC01-appb-M000020
 さらに、CVPごとのゲイン変化率が、オブジェクトのCVPごとのゲイン情報に乗算され、最終的なオブジェクトのCVPごとのゲイン情報とされる。
 図21に示した例では、上述の式(13)と同様に、各CVPのゲイン変化率に基づき、次式(21)を計算することで、CVP A~CVP Eの各CVPの最終的なオブジェクトのゲイン情報である補正ゲイン情報ObgGain_a[i]~ObgGain_e[i]が求められる。
Figure JPOXMLDOC01-appb-M000021
 制作ラウドネスモードでは、得られた補正ゲイン情報を用いれば、最大制作ラウドネス値Lcx_maxとなるCVPにおけるラウドネスがターゲットラウドネス値Ltとなる。また、各CVP間のラウドネスの相対的な大小関係は、各CVPの制作ラウドネス値の相対的な大小関係と同じとなる。制作ラウドネスモードでは、ターゲットラウドネス値が設定されているものとなっているが、ターゲットラウドネス値が設定されていない場合においても制作者の意図が反映されるようにしてもよい。その場合には、Lt=Lcx_maxとして処理することでターゲットラウドネス値が設定されていない場合にも対応ができることとなる。
 以上のような本技術では、オブジェクトのゲイン制御のみでラウドネス補正を行うことができる。すなわち、オブジェクトのゲイン制御によって、3次元空間等の仮想空間内の任意のリスナ位置でのラウドネス制御を適切に行うことが可能である。
 例えば、測定ラウドネスモードでは、コンテンツ制作時にCVP間の音量バランスが考慮されなかった場合でも、再生側の各視点(受聴位置)におけるラウドネスをターゲットラウドネス値に合わせる(揃える)ことができる。
 また、例えばグループモードでは、コンテンツ制作時に設定されたグループごとに、グループ内におけるCVP間の音量バランスを維持したまま、測定ラウドネス値が最大となるCVPでのラウドネスをターゲットラウドネス値に合わせることができる。
 さらに、例えば制作ラウドネスモードでは、コンテンツの制作者が希望するCVP間の音量バランスを維持したまま、制作ラウドネス値が最大となるCVPでのラウドネスをターゲットラウドネス値に合わせることができる。
〈制作側と再生側の処理の流れについて〉
 コンテンツの制作側と再生側における大まかな処理の流れについて説明する。
 コンテンツの制作時には、例えば図23の上側に示すように、制作側の装置によって機能的な処理ブロックとして6DoFデコーダ101、レンダラ102、ラウドネス測定ツール103、および構成情報生成部104が実現され、構成情報が生成される。
 具体的には、6DoFデコーダ101では、仮想空間上の1または複数の各CVPについて、各オブジェクトのCVPごとのメタデータの復号が行われる。
 レンダラ102は、各オブジェクトのCVPごとのメタデータと、各オブジェクトの音を再生するためのオーディオデータとに基づいてVBAP等のレンダリング処理を行うことで、例えば2chや21chなどの所望のチャンネル構成のオーディオデータを生成する。レンダラ102では、CVPごとにレンダリング処理が行われる。レンダリング処理には、リスナの位置としてCVPの位置が用いられるとともに、任意の方向がリスナの方向として用いられる。
 ラウドネス測定ツール103では、CVPごとに得られた所望のチャンネル構成のオーディオデータに基づいてラウドネスの測定が行われ、その測定結果がCVPごとの測定ラウドネス値として出力される。
 構成情報生成部104は、CVPごとの測定ラウドネス値などを含む、CVPのラウドネスに関する情報をマルチラウドネス情報として生成するとともに、マルチラウドネス情報やCVPに関するその他の情報が含まれる構成情報を生成し、出力する。
 再生側には、このようにして得られた構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとが供給される。
 再生側の装置では、図中、下側に示すように、機能的な処理ブロックとして6DoFデコーダ121、レンダリングモジュール122、およびオーディオアウトプットモジュール123が実現され、コンテンツのオーディオデータが出力される。
 具体的には、6DoFデコーダ121では、構成情報と、オブジェクトのCVPごとのメタデータとに関して復号や補間処理が行われ、リスナの位置を基準とする各オブジェクトのメタデータ(以下、リスナ基準メタデータとも称する)が生成される。
 リスナ基準メタデータの生成には、仮想空間におけるリスナの位置を示すリスナ位置情報や、仮想空間におけるリスナの顔の向き、つまり視線の向きを示すリスナ方向情報、リスナ等により指定されたターゲットラウドネス値なども用いられる。
 レンダリングモジュール122では、各オブジェクトのリスナ基準メタデータと、各オブジェクトのオーディオデータとに基づいてVBAP等のレンダリング処理を行うことで、2chや21chなどの所望のチャンネル構成のオーディオデータを生成する。
 例えばレンダリングモジュール122では、レンダラ102における場合と同様のレンダリング処理が行われる。レンダリングモジュール122で生成されるオーディオデータは、各オブジェクトの音を含むコンテンツの音を再生するためのオーディオデータ(以下、出力オーディオデータとも称する)である。
 オーディオアウトプットモジュール123は、レンダリングモジュール122により生成された出力オーディオデータをスピーカやヘッドフォン等の音響出力部へと出力する。
 コンテンツの制作側で生成される構成情報、より詳細には構成情報に含まれているマルチラウドネス情報は、例えば図24に示す情報とされる。すなわち、マルチラウドネス情報が図24に示すフォーマットでビットストリームに記述される。
 この例では、マルチラウドネス情報には、グループモードであるか否か、すなわちグループモードを使用するか否かを示すグループモードフラグ情報「LoudCvpGroupMode」が含まれている。
 例えばグループモードフラグ情報の値「0」は、グループモードを使用しない(グループモードではない)ことを示しており、グループモードフラグ情報の値「1」は、グループモードが使用され、かつCVPごとにCVPグループの設定が行われることを示している。
 グループモードフラグ情報の値「2」は、グループモードが使用され、かつ全てのCVPが同じCVPグループとされることを示している。
 グループモードフラグ情報の値が「1」である場合、マルチラウドネス情報には、CVPの数だけ、すなわち各CVPについて、i番目のCVPが属すCVPグループを示すグループインデックス「LoudCvpGroup[i]」が格納されている。例えばグループインデックスLoudCvpGroup[i]の値の範囲は0から15などとされる。このグループインデックスは、図16を参照して説明したグループ情報に対応する。
 また、マルチラウドネス情報には、CVPの数だけ、i番目のCVPに関するラウドネス情報「loudnessInfoMp[i]」が格納されている。
 このラウドネス情報「loudnessInfoMp[i]」には、i番目のCVPの測定ラウドネス値やmeasurementCountなどが含まれている。
 measurementCountは、例えば各CVPについて、チャンネル構成ごとなど、複数の再生環境ごとに制作ラウドネス値等を用意した場合における、チャンネル構成等の再生環境の数、すなわち用意された制作ラウドネス値等の数を示すカウント情報である。なお、CVPごとの測定ラウドネス値もmeasurementCountの数だけ、すなわち再生環境ごとに用意されてもよい。
 グループモードフラグ情報の値が「0」である場合、マルチラウドネス情報には、制作ラウドネス値存在フラグ情報「CvpLoudValuePresentFlag」が格納されている。
 制作ラウドネス値存在フラグ情報「CvpLoudValuePresentFlag」は、制作ラウドネス値が存在するか否か、すなわち制作ラウドネス値がマルチラウドネス情報(構成情報)に含まれているか否かを示すフラグ情報である。
 例えば制作ラウドネス値存在フラグ情報の値「0」は制作ラウドネス値がない(設定されていない)ことを示しており、制作ラウドネス値存在フラグ情報の値「1」は制作ラウドネス値がある(設定されている)ことを示している。
 したがって、制作ラウドネス値存在フラグ情報の値「0」は、測定ラウドネスモードであることを示しており、制作ラウドネス値存在フラグ情報の値「1」は制作ラウドネスモードであることを示しているということができる。
 制作ラウドネス値存在フラグ情報の値が「1」である場合、マルチラウドネス情報には、各CVPについて、measurementCountの数だけ、制作ラウドネス値「CvpLoudValue[i][j]」が格納されている。ここでは、iはCVPのインデックスであり、jはmeasurementCountに対応する再生環境のインデックスである。
 構成情報(マルチラウドネス情報)に格納されるグループモードフラグ情報や制作ラウドネス値存在フラグ情報は、ラウドネスモードが測定ラウドネスモードであるか、グループモードであるか、制作ラウドネスモードであるかを特定するための情報であるといえる。
 基本的には構成情報は、コンテンツの再生開始前や再生開始時など、所定のタイミングで再生側、すなわちコンテンツを再生するクライアントに伝送しておけばよい。つまり、クライアントでは、一度、構成情報を取得すると、その構成情報を用いて各フレーム(時刻)の出力オーディオデータを生成すればよい。
 しかし、場合によっては、コンテンツの再生期間中に構成情報が変更されることも考えられる。例えば、仮想空間における領域ごとやコンテンツのシーンごと、クライアントのリソースごと、クライアントの残電池量ごと、クライアントのデバイス種別ごと、ネットワークの状態ごとなどに構成情報が用意されることもある。そのような場合、コンテンツの再生中に、任意のタイミングで、出力オーディオデータの生成に用いられる構成情報が切り替えられることになる。
 図25および図26を参照して、仮想空間における領域ごと、すなわちリスナが位置する視聴領域ごとに構成情報が用意される例について説明する。なお、図25において図23における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 例えば図25の左側に示すように、コンテンツを配信するサーバ側で、視聴領域A用の構成情報~視聴領域C用の構成情報など、仮想空間上の複数の視聴領域ごとに構成情報が用意されているとする。
 このような場合、サーバは、適宜、仮想空間におけるリスナの現在の位置を示すリスナ位置情報をクライアントから取得し、構成情報を選択する。例えばリスナ位置情報により示されるリスナの位置が視聴領域A内の位置である場合、すなわちリスナが視聴領域A内に位置している場合には、視聴領域A用の構成情報が選択される。
 そして、リスナ位置に応じて選択された構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとが適宜、符号化されてクライアントへと伝送される。ここでは、視聴領域A用の構成情報がクライアントへと伝送されたとする。
 クライアントでは、サーバから取得した構成情報と、各オブジェクトのCVPごとのメタデータとに基づいて、図23における場合と同様にして、6DoFデコーダ121によりリスナ基準メタデータが生成される。この例では、構成情報として、視聴領域A用の構成情報が用いられる。
 そして、その後、レンダリングモジュール122において、各オブジェクトのリスナ基準メタデータとオーディオデータに基づきレンダリング処理が行われ、コンテンツの出力オーディオデータが生成される。
 この例では、例えば図26に示すように、リスナがいる視聴領域が切り替わるごと、つまりリスナが他の視聴領域へと移動するごとにクライアントへと伝送される構成情報が切り替えられることになる。
 図26では、横方向は時間、すなわち出力オーディオのフレーム(時間フレーム)を示している。
 この例では、例えば所定のフレームNでは、リスナがこれまでいた視聴領域とは異なる視聴領域へと移動したため、リスナの移動先の視聴領域の構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。
 フレーム(N+1)からフレーム(N+3)では、リスナは他の視聴領域へと移動せずに、同じ視聴領域内にとどまっていたため、構成情報は伝送されず、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。
 その後、リスナが他の視聴領域へと移動したので、すなわち視聴領域が切り替わったので、フレーム(N+4)では構成情報が伝送される。
 すなわち、フレーム(N+4)では、リスナの移動先の視聴領域の構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。
 このように、視聴領域ごとなどに、複数種類の構成情報を用意しておけば、適宜、伝送する構成情報を切り替えることができる。これにより、よりコンテンツ制作者の意図が反映されたコンテンツ再生を実現することができる。
〈制作側と再生側の表示画面例〉
 図27~図30に表示画面(UI(User Interface))の例を示す。なお、図27~図30において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図27~図29は、コンテンツの制作側で表示される、コンテンツを制作するための制作ツールにより表示される表示画面(UI)の例となっている。
 例えば図27に示す表示画面では、オブジェクトが配置される仮想空間の画像が表示されており、仮想空間にはTPやCVPが配置されている。
 ここでは、文字「TP」が記された円がTPを表しており、文字「A」等の文字が記された円がCVPを表している。例えば文字「A」が記された円が1つのCVPであるCVP Aを表している。また、五角形のマークLPT11は、仮想空間における現在のリスナの位置を示している。
 コンテンツの制作者は、適宜、TPの位置や各CVPの位置を変更したり、新たなCVPを追加したり、不要なCVPを削除したりするなどして、TPやCVPの配置位置を決定する。また、CVPの配置位置が決定されると、適宜、制作者の操作等に応じて、各CVPでのラウドネス値の測定が行われ、その測定結果、すなわち測定ラウドネス値が各CVPの近傍の位置に表示される。
 この例では、例えば文字「B」が記された円により表されるCVP Bの近傍に、そのCVP Bに関する情報が表示される表示領域CLR11が表示されている。CVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」が表示されている。
 制作者は、このようにして表示されるCVPごとの測定ラウドネス値を確認することができ、表示された測定ラウドネス値に応じて、適宜、CVPの位置等の調整も行うことができる。
 また、制作ツールでは、例えば図28に示すように、コンテンツの制作を行っているときに、各CVPのCVPグループを指定することが可能である。
 図28の左側の例では、表示画面上に仮想空間が表示されており、仮想空間には図27における場合と同様に、TPやCVP、各CVPの表示領域、リスナの位置を示すマークLPT11が表示されている。この例では、各CVPの表示領域には、CVPの測定ラウドネス値だけでなく、CVPが属すグループ(CVPグループ)を示す情報も表示されている。
 例えばCVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」とともに、CVP Bが属すグループを示す情報(グループ名)である「GP2」が表示されている。
 制作者は、表示領域を操作することで、CVPごとにグループを指定することが可能である。例えば、図中、右側に示すように、制作者は、所望のCVPの表示領域CLR12におけるグループ名が表示されている部分を操作することで、CVPのグループを選択(指定)するためのユーザインターフェースであるグループリストGPL11を表示させることができる。
 グループリストGPL11には、CVPが属すことができるCVPグループがチェックボックスとともにリスト表示されている。制作者は、チェックボックスを操作し、そのチェックボックスにチェックマークを表示させることで、CVPが属すグループを指定(選択)することができる。この例では、グループ名「GP2」のチェックボックスにチェックマークが表示されており、グループ名「GP2」が指定されたことが分かる。
 このように、制作ツールでは、各CVPの表示領域に対する操作を行うだけで、簡単にCVPグループを指定することができる。なお、CVPグループの指定方法は、図28の例に限らず、ドラッグ操作による方法など、他のどのような方法であってもよい。
 制作ツールでは、例えば図29に示すように、コンテンツの制作を行っているときに、各CVPの制作ラウドネス値を指定することが可能である。
 図29に示す表示画面では、仮想空間が表示されており、仮想空間には図27における場合と同様に、TPやCVP、各CVPの表示領域、リスナの位置を示すマークLPT11が表示されている。この例では、各CVPの表示領域には、CVPの測定ラウドネス値だけでなく、CVPの制作ラウドネス値も表示されている。
 例えばCVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」とともに、制作者により指定(入力)されたCVP Bの制作ラウドネス値「-6.75」が表示されている。制作者は、適宜、CVPの表示領域に対して操作を行うことで、CVPごとに制作ラウドネス値を入力することができる。なお、測定ラウドネス値の入力方法は、図29の例に限らず、他のどのような方法であってもよい。
 図30に再生側、すなわちクライアント側で、コンテンツの再生に関する処理を行うアプリケーションプログラムにより表示される表示画面の例を示す。
 この例では、表示画面上に3次元の仮想空間の画像が表示されており、仮想空間にはTPやCVP、オブジェクト、リスナの位置を示すマークLPT21、コンテンツの再生に関する表示領域RP11が表示されている。
 ここでは、仮想空間上の球TPM11がTPを表しており、そのTPの周囲に音源となるオブジェクトの画像が表示されている。また、文字「A」等の文字が記された球がCVPを表している。例えば文字「A」が記された球が1つのCVPであるCVP Aを表している。
 リスナは、表示画面上の仮想空間の様子を見ることで、仮想空間上における自身の視点の位置やCVPの配置、オブジェクトの配置などを把握することができる。例えば、リスナの位置、オブジェクトの数や位置、CVPの数や位置などは、時間とともに変化することもある。
 表示領域RP11には、コンテンツの再生制御のためのボタン群BT11、チェックボックスBX11、および入力欄IPB11が設けられている。
 ボタン群BT11には、コンテンツの再生開始を指示する再生ボタン、コンテンツの再生の一時停止を指示する一時停止ボタン、およびコンテンツの再生停止を指示する再生停止ボタンが含まれている。リスナは、ボタン群BT11にあるボタンを操作することで、コンテンツの再生を開始させたり、再生を停止させたりすることができる。
 チェックボックスBX11は、ラウドネスモードの設定を行うときに操作される。例えばリスナは、コンテンツ再生時にチェックボックスBX11を操作して、そのチェックボックスBX11にチェックマークを表示させることで、ラウドネスモードとすることができる。
 ラウドネスモードでの再生では、構成情報に従って、測定ラウドネスモード、グループモード、および制作ラウドネスモードの何れかによりコンテンツが再生される。
 入力欄IPB11は、ラウドネスモードで用いられるターゲットラウドネス値を入力するための領域である。
 例えばチェックボックスBX11にチェックマークが表示され、ラウドネスモードが選択された状態となると、入力欄IPB11がアクティブとなり、入力欄IPB11にターゲットラウドネス値を入力することができるようになる。
 リスナは、入力欄IPB11に対する操作を行うことで、入力欄IPB11に任意の値をターゲットラウドネス値として入力することができる。この例では、入力欄IPB11には、ターゲットラウドネス値として「-6.75」が入力されている。
 なお、入力欄IPB11が常にアクティブな状態とされ、入力欄IPB11にターゲットラウドネス値が入力されると、チェックボックスBX11にチェックマークが表示され、ラウドネスモードが選択された状態となるようにしてもよい。また、表示領域RP11にチェックボックスBX11が設けられず、入力欄IPB11にターゲットラウドネス値が入力されると、ラウドネスモードが選択された状態となるようにしてもよい。
〈情報処理装置の構成例〉
 続いて、コンテンツの制作側、配信側、および再生側の各装置の構成と動作について説明する。
 図31は、コンテンツの制作側の装置である情報処理装置の一実施の形態の構成例を示す図である。
 図31に示す情報処理装置161は、例えばパーソナルコンピュータなどからなり、制作者の操作に応じてコンテンツの構成情報等を生成する。
 情報処理装置161は、入力部171、表示部172、通信部173、制御部174、記録部175、および音響出力部176を有している。
 入力部171は、例えばマウスやキーボードなどからなり、コンテンツの制作者の操作に応じた信号を制御部174に供給する。表示部172は、ディスプレイからなり、制御部174の制御に従って制作ツールの表示画面等を表示する。
 通信部173は、制御部174の制御に従って外部の装置と通信を行う。例えば通信部173は、制御部174から供給された構成情報やオブジェクトのメタデータなどを外部の装置であるサーバに送信する。
 制御部174は、情報処理装置161の全体の動作を制御する。制御部174は、制作ツールのプログラムを実行することで、レンダリング処理部181およびラウドネス測定部182を実現する。
 レンダリング処理部181は、オブジェクトのメタデータやオーディオデータに基づいてレンダリング処理を行う。ラウドネス測定部182は、レンダリング処理により生成されたコンテンツのオーディオデータに基づいてラウドネス測定を行う。
 レンダリング処理部181およびラウドネス測定部182は、例えば図23に示したレンダラ102およびラウドネス測定ツール103に対応する。なお、制御部174は、図23に示した6DoFデコーダ101や構成情報生成部104としても機能する。
 記録部175は、不揮発性のメモリ等からなり、制作ツールのプログラムなど、各種のデータを記録し、記録しているデータを適宜、制御部174に供給する。音響出力部176は、スピーカなどからなり、制御部174から供給されたオーディオデータに基づいて音を出力する。なお、音響出力部176は、情報処理装置161の外部に設けられてもよい。そのような場合、例えばヘッドフォンやイヤホンなどが音響出力部176とされてもよい。
〈構成情報生成処理の説明〉
 例えば、制作ツールが起動されると、制御部174は表示部172を制御し、表示部172に制作ツールの表示画面を表示させる。
 制作ツールの表示画面が表示された状態で、制作者が入力部171を操作することで、CVPの位置や各オブジェクトのCVPごとのメタデータなどを指定すると、制御部174は入力部171から供給される信号に応じてCVPの位置等を決定したり、オブジェクトのCVPごとのメタデータを生成したりする。
 また、制作ツールの表示画面が表示された状態で、制作者がラウドネスに関する操作を行うと、情報処理装置161は、図32に示す構成情報生成処理を行い、構成情報を生成する。以下、図32のフローチャートを参照して、情報処理装置161による構成情報生成処理について説明する。
 ステップS301において制御部174は、各CVPのラウドネス値を測定する。
 例えば制御部174は、各オブジェクトのCVPごとのメタデータが符号化されて保持されている場合、符号化されたメタデータに対して復号処理を行う。
 また、制御部174のレンダリング処理部181は、CVPごとにレンダリング処理を行う。すなわち、レンダリング処理部181は、CVPの位置をリスナの位置として、仮想空間におけるCVPの位置を示すCVP位置情報、各オブジェクトのCVPについてのメタデータ、および各オブジェクトのオブジェクトデータに基づいてVBAP等のレンダリング処理を行うことで、CVPの位置を受聴位置としたときのコンテンツのオーディオデータを生成する。
 制御部174のラウドネス測定部182は、CVPごとに得られたコンテンツのオーディオデータに基づいて、CVPにおけるコンテンツのオーディオデータのラウドネス値を算出(測定)し、その算出結果をCVPについての測定ラウドネス値とする。
 また、制御部174は、CVPごとのラウドネス値の測定結果を表示部172に表示させる。これにより、表示部172には、例えば図27に示した表示画面が表示される。
 ステップS302において制御部174は、構成情報に、ステップS301で得られた各CVPの測定ラウドネス値を格納する。
 例えば、図24に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部174は、保持している生成途中の構成情報のラウドネス情報loudnessInfoMp[i]に、ステップS301で得られたCVPごとの測定ラウドネス値を格納する。また、制御部174は、必要に応じてmeasurementCountなどの情報もラウドネス情報loudnessInfoMp[i]に格納する。
 ステップS303において制御部174は、入力部171から供給される制作者の操作に応じた信号に基づいて、グループモードであるか否かを判定する。例えば制作者がラウドネスモードの設定でグループモードを選択した場合、ステップS303ではグループモードであると判定される。
 ステップS303においてグループモードであると判定された場合、ステップS304において制御部174は、全CVPのグループインデックスの値を0にセットする。換言すれば、CVPのグループがデフォルトのグループとされる。
 例えば、図24に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部174は、保持している生成途中の構成情報における各CVPのグループインデックスLoudCvpGroup[i]の値を0とする。
 この場合、制御部174は、表示部172を制御して、例えば図28に示した表示画面を表示部172に表示させる。制作者は、適宜、入力部171を操作して、任意のCVPの表示領域に対する操作を行うことでグループリストを表示させ、そのグループリストから所望のグループ(グループ名)を指定することで、CVPのグループを選択する。換言すれば、制作者によって、適宜、CVPのグループを、デフォルトのグループから制作者が指定したグループへと変更する操作が行われる。
 ステップS305において制御部174は、制作者により、グループインデックスの値が変更されたCVPがあるか否かを判定する。
 例えばCVPのグループを変更する操作、すなわちCVPのグループを示すグループインデックスの値を変更する操作が制作者により行われ、その操作に応じた信号が入力部171から供給された場合、制御部174は、グループインデックスの値が変更されたCVPがあると判定する。
 ステップS305においてグループインデックスの値が変更されたCVPがあると判定された場合、ステップS306において制御部174は、グループインデックスの値を変更する。
 具体的には、例えば制御部174は、入力部171から供給される信号に応じて、保持している生成途中の構成情報における、変更が指示されたCVPのグループインデックスLoudCvpGroup[i]の値を、制作者により指定された値へと変更(更新)する。
 ステップS306の処理が行われると、その後、処理はステップS305に戻り、上述した処理が繰り返し行われる。
 また、ステップS305においてグループインデックスの値が変更されたCVPがないと判定された場合、すなわち、各CVPのグループの選択が終了した場合、処理はステップS311へと進む。
 この場合、制御部174は、保持している生成途中の構成情報に、グループモードであることを示す情報を格納する。例えば制御部174は、図24に示したマルチラウドネス情報を含む構成情報を生成する場合、各CVPのグループインデックスの値に応じて、構成情報におけるグループモードフラグ情報LoudCvpGroupModeの値を「1」または「2」とする。
 また、ステップS303においてグループモードではないと判定された場合、ステップS307において制御部174は、入力部171から供給される制作者の操作に応じた信号に基づいて、制作ラウドネスモードであるか否かを判定する。例えば制作者がラウドネスモードの設定で制作ラウドネスモードを選択した場合、ステップS307では制作ラウドネスモードであると判定される。
 ステップS307において制作ラウドネスモードではないと判定された場合、すなわち制作者により測定ラウドネスモードが選択された場合(測定ラウドネスモードであると判定された場合)、その後、処理はステップS311へと進む。
 この場合、制御部174は、保持している生成途中の構成情報に、グループモードでないことを示す情報を格納する。例えば制御部174は、図24に示したマルチラウドネス情報を含む構成情報を生成する場合、構成情報におけるグループモードフラグ情報LoudCvpGroupModeの値を「0」とする。また、制御部174は、構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「0」とする。
 一方、ステップS307において制作ラウドネスモードであると判定された場合、ステップS308において制御部174は、全CVPの制作ラウドネス値を0にセットする。
 例えば、図24に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部174は、保持している生成途中の構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「1」とする。さらに、制御部174は、構成情報における各CVPの制作ラウドネス値CvpLoudValue[i][j]の値を0とする。
 この場合、制御部174は、表示部172を制御して、例えば図29に示した表示画面を表示部172に表示させる。制作者は、適宜、入力部171を操作して、任意のCVPの表示領域に対する操作を行うことで、そのCVPの制作ラウドネス値を入力する。換言すれば、制作者によって、適宜、制作ラウドネス値を、デフォルトの値「0」から制作者が指定した値へと変更する操作が行われる。
 ステップS309において制御部174は、制作者により、制作ラウドネス値が変更されたCVPがあるか否かを判定する。
 例えばCVPの制作ラウドネス値を変更する操作が制作者により行われ、その操作に応じた信号が入力部171から供給された場合、制御部174は、制作ラウドネス値が変更されたCVPがあると判定する。
 ステップS309において制作ラウドネス値が変更されたCVPがあると判定された場合、ステップS310において制御部174は、制作ラウドネス値を変更する。
 具体的には、例えば制御部174は、入力部171から供給される信号に応じて、保持している生成途中の構成情報における、変更が指示されたCVPの制作ラウドネス値CvpLoudValue[i][j]を、制作者により指定された値へと変更(更新)する。なお、上述のように、構成情報(マルチラウドネス情報)に格納される制作ラウドネス値等は、再生環境ごとなどに複数用意されるようにしてもよい。
 ステップS310の処理が行われると、その後、処理はステップS309に戻り、上述した処理が繰り返し行われる。
 また、ステップS309において制作ラウドネス値が変更されたCVPがないと判定された場合、すなわち、各CVPの制作ラウドネス値の設定が終了した場合、処理はステップS311へと進む。
 この場合、制御部174は、保持している生成途中の構成情報に、制作ラウドネス値が格納されていることを示す情報を格納する。例えば制御部174は、図24に示したマルチラウドネス情報を含む構成情報を生成する場合、構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「1」とする。
 ステップS305でグループインデックスの値が変更されたCVPがないと判定されたか、ステップS307で測定ラウドネスモードであると判定されたか、またはステップS309で制作ラウドネス値が変更されたCVPがないと判定されると、ステップS311の処理が行われる。
 ステップS311において制御部174は、保持している構成情報を出力する。
 例えば制御部174は、これまでの処理により得られているマルチラウドネス情報を含む構成情報に、適宜、必要な情報を格納して最終的な構成情報とし、その最終的な構成情報を記録部175に出力して記録させ、構成情報生成処理は終了する。
 この場合、制御部174は、適宜、各オブジェクトのCVPごとのメタデータや、各オブジェクトのオーディオデータなども記録部175に供給して記録させる。
 また、最終的な構成情報には、例えばマルチラウドネス情報、コンテンツを構成するオブジェクトの数を示すオブジェクト数情報、予め用意されたCVPの数を示すCVP数情報、CVPに関するCVP情報などが含まれている。
 例えばCVP情報には、CVPインデックス、CVP位置情報、およびCVP向き情報が含まれている。
 CVPインデックスは、CVPを一意に識別するID情報である。CVP位置情報は、仮想空間におけるCVPの絶対的な位置を示す位置情報であり、CVP向き情報は、仮想空間における、CVPにいる仮想的なリスナの顔の向きを示す情報である。例えばCVP向き情報は、CVPからTPへと向かう方向を示す情報などとすることができる。
 なお、上述のように構成情報は、視聴領域ごとやコンテンツのシーンごと、クライアントのリソースごと、クライアントの残電池量ごと、クライアントのデバイス種別ごと、ネットワークの状態ごとなどに生成されるようにしてもよい。すなわち、制御部174により複数の異なる構成情報が生成されるようにしてもよい。
 また、例えば制御部174は、任意のタイミングで記録部175からコンテンツの構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを読み出して通信部173に供給する。通信部173は、制御部174から供給されたコンテンツの構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを、コンテンツのデータとしてサーバに送信する。
 以上のように、情報処理装置161は、制作者の操作に応じてラウドネスモードを選択(設定)し、その選択結果等に応じて測定ラウドネス値等が含まれている構成情報を生成する。
 このようにすることで、コンテンツの再生側においては、構成情報を用いてオブジェクトのゲイン制御のみでラウドネス制御を行うことができるようになる。これにより、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を実現することができる。
〈サーバの構成例〉
 図33は、本技術を適用したサーバの一実施の形態の構成例を示す図である。
 図33に示すサーバ211は、コンピュータ等の情報処理装置からなり、情報処理装置161からコンテンツのデータの供給を受けて、そのコンテンツのデータをクライアントへと配信するエンコーダとして機能する。
 サーバ211は、取得部221、ビットストリームエンコーダ222、および通信部223を有している。
 取得部221は、情報処理装置161から送信されてきたコンテンツのデータ、すなわち構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを受信(取得)してビットストリームエンコーダ222に供給する。
 例えば、オブジェクトのCVPごとのメタデータには、CVPに対して定められた、仮想空間におけるオブジェクトの位置を示すオブジェクト位置情報、およびオブジェクトのオーディオデータのゲイン情報が含まれている。
 オブジェクト位置情報は、極座標で表現された、CVPから見たオブジェクトの相対的な位置を示す座標情報とされてもよいし、CVPごとに定められ、絶対座標(直交座標)で表現された、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報とされてもよい。ゲイン情報は、オブジェクトのオーディオデータのゲイン補正(ゲイン調整)に用いられるゲイン値の情報である。
 その他、オブジェクトのCVPごとのメタデータには、例えばオブジェクトの優先度情報やスプレッド情報などが含まれるようにしてもよい。
 ビットストリームエンコーダ222は、取得部221から供給された構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータに対して適宜符号化を行うことで、ビットストリームを生成する生成部として機能する。ビットストリームエンコーダ222は、生成したビットストリームを通信部223に供給する。
 なお、構成情報は、コンテンツのフレームごとに生成されてもよいし、複数のフレームからなる区間ごとに生成されてもよいし、コンテンツ全体に対して1つだけ生成されてもよい。また、構成情報は、必要なタイミングで、適宜、ビットストリームに格納されるようにしてもよい。
 通信部223は、ビットストリームエンコーダ222から供給されたビットストリームを、コンテンツの再生側の情報処理装置であるクライアントへと送信する。
 なお、ここでは構成情報と、オブジェクトのオーディオデータやメタデータとが1つのサーバ211によりクライアントへと送信される例について説明する。しかし、これに限らず、構成情報と、オブジェクトのオーディオデータやメタデータとが異なるサーバによりクライアントへと送信されるようにしてもよい。
〈ビットストリーム送信処理の説明〉
 図34のフローチャートを参照して、サーバ211によるビットストリーム送信処理について説明する。
 ステップS341において取得部221は、ビットストリームの生成に必要な情報を取得してビットストリームエンコーダ222に供給する。
 例えば取得部221は、情報処理装置161から送信されてきた構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータ等を受信することで、必要な情報を取得する。
 ステップS342においてビットストリームエンコーダ222は、適宜、取得部221から供給された構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータの符号化や多重化を行ってビットストリームを生成し、通信部223に供給する。これにより、適宜、符号化された構成情報、オブジェクトのメタデータ、オブジェクトのオーディオデータなどが含まれるビットストリームが生成される。
 ステップS343において通信部223は、ビットストリームエンコーダ222から供給されたビットストリームをクライアントへと送信し、ビットストリーム送信処理は終了する。
 なお、コンテンツ全体に対して1つの構成情報が用意されている場合、ビットストリームエンコーダ222は、ステップS342では、ビットストリームの先頭(ヘッダ)部分などに構成情報を格納する。
 また、例えば視聴領域ごとなど、複数の異なる構成情報が用意されている場合には、ビットストリームエンコーダ222は、ステップS342では、複数の構成情報のなかから適切なものを選択し、選択した構成情報が含まれるビットストリームを生成する。この場合、例えば図26を参照して説明したように、構成情報が切り替わるタイミングで、そのタイミングで選択された構成情報がビットストリームに格納される。
 一例として、例えば視聴領域ごとに構成情報が用意されている場合、ビットストリームエンコーダ222は、通信部223を介して、クライアントからリスナ位置情報を取得する。そして、ビットストリームエンコーダ222は、リスナ位置情報により示されるリスナ位置を含む視聴領域が変化した場合、変化後の視聴領域に対して用意された構成情報をビットストリームに格納する。すなわち、リスナの移動先の視聴領域に対して用意された構成情報がビットストリームに格納される。
 同様に、例えばクライアントのリソースごとや残電池量ごとに構成情報が用意されている場合、ビットストリームエンコーダ222は、通信部223を介して、クライアントから、クライアントのリソースに関する情報であるリソース情報や残電池量を示す残電池量情報を取得する。そして、ビットストリームエンコーダ222は、リソース情報や残電池量情報に対して定められた構成情報を選択し、選択した構成情報が前回の選択結果から変化したタイミングで、新たに選択した構成情報をビットストリームに格納する。ここでいうリソースは、クライアントの現在利用可能なリソース(演算リソース)であってもよいし、クライアントが利用可能な最大のリソースであってもよい。
 例えばクライアントのデバイス種別ごとに構成情報が用意されている場合、ビットストリームエンコーダ222は、通信部223を介して、クライアントから、クライアントのデバイス種別を示す情報であるデバイス種別情報を取得する。そして、ビットストリームエンコーダ222は、デバイス種別情報に対して定められた構成情報を選択し、選択した構成情報をビットストリームに格納する。
 また、例えばネットワークの状態ごとに構成情報が用意されている場合、ビットストリームエンコーダ222は、通信部223から、ビットストリーム(コンテンツのデータ)を伝送するネットワークの輻輳状態などの状態を取得する。そして、ビットストリームエンコーダ222は、ネットワークの状態に対して定められた構成情報を選択し、選択した構成情報が前回の選択結果から変化したタイミングで、新たに選択した構成情報をビットストリームに格納する。
 さらに、例えばコンテンツのシーンごとに構成情報が用意されている場合、ビットストリームエンコーダ222は、コンテンツのシーンが切り替わるタイミングで、切り替わり後のシーンに対して定められた構成情報をビットストリームに格納する。
 なお、リスナが位置する視聴領域、クライアントのリソース、クライアントの残電池量、クライアントのデバイス種別、ネットワークの状態、コンテンツの再生中のシーンのうちの少なくとも2以上のものの組み合わせに基づいて、複数の構成情報のなかからクライアントに伝送される構成情報が選択されてもよい。
 その他、ビットストリームエンコーダ222が視聴領域ごとなどの複数の異なる構成情報をビットストリームに格納し、クライアント側で適切な構成情報が選択されるようにしてもよい。
 以上のようにしてサーバ211は、適切な構成情報をビットストリームに格納し、クライアントへと送信する。これにより、ビットストリームの供給を受けるクライアントでは、適切な構成情報を用いて、オブジェクトのゲイン制御のみでラウドネス制御を行うことができるようになる。
〈クライアントの構成例〉
 図35は、本技術を適用したクライアントの一実施の形態の構成例を示す図である。
 図35に示すクライアント261は、例えばパーソナルコンピュータやタブレット端末、スマートフォン、ヘッドマウント、ゲーム機器などからなる情報処理装置であり、サーバ211により送信されたビットストリームを受信してコンテンツを再生するデコーダとして機能する。
 クライアント261は、入力部271、表示部272、通信部273、制御部274、記録部275、および音響出力部276を有している。
 入力部271は、例えばマウスやキーボード、ボタン、スイッチ、表示部272に重畳されたタッチパネルなどからなり、リスナであるユーザの操作に応じた信号を制御部274に供給する。表示部272は、ディスプレイからなり、制御部274の制御に従ってコンテンツに関する画像など、各種の画像(表示画面)を表示する。
 通信部273は、制御部274の制御に従って外部の装置と通信を行う。例えば通信部273は、制御部274から供給されたリスナ位置情報をサーバ211に送信したり、サーバ211から送信されてきたビットストリームを受信して制御部274に供給したりする。
 制御部274は、クライアント261全体の動作を制御する。例えば制御部274は、コンテンツの再生に関する処理を行うアプリケーションプログラムを実行することで、デコーダの機能を実現する。
 記録部275は、不揮発性のメモリ等からなり、コンテンツの再生のためのアプリケーションプログラムなど、各種のデータを記録し、記録しているデータを適宜、制御部274に供給する。音響出力部276は、スピーカなどからなり、制御部274から供給されたオーディオデータに基づいて音を出力する。なお、音響出力部276は、クライアント261の外部に設けられてもよい。そのような場合、例えばヘッドフォンやイヤホン、補聴器などが音響出力部276とされてもよい。
〈クライアントの機能的な構成例〉
 クライアント261の制御部274はアプリケーションプログラムを実行することで、デコーダの機能を実現する。
 図36は、クライアント261がデコーダとして機能する場合における機能的な構成例を示す図である。なお、図36において図35における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図36に示すクライアント261は、通信部273、ビットストリームデコーダ301、メタデコーダ302、レンダリング処理部303、および音響出力部276を有している。
 例えばビットストリームデコーダ301、メタデコーダ302、およびレンダリング処理部303は、制御部274がアプリケーションプログラムを実行することにより実現される。また、ビットストリームデコーダ301およびメタデコーダ302は、図23に示した6DoFデコーダ121に対応し、レンダリング処理部303は図23に示したレンダリングモジュール122に対応する。
 通信部273は、サーバ211から送信されてきたビットストリームを受信してビットストリームデコーダ301へと供給する。すなわち、通信部273は、ビットストリームを受信することで、ビットストリームに含まれている構成情報やメタデータを取得する取得部として機能する。
 ビットストリームデコーダ301は、通信部273から供給されたビットストリーム、より詳細にはビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行う復号部として機能する。ビットストリームデコーダ301での復号等により、ビットストリームから構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータが抽出される。
 ビットストリームデコーダ301は、各オブジェクトのオーディオデータをレンダリング処理部303に供給するとともに、構成情報、および各オブジェクトのCVPごとのメタデータをメタデコーダ302に供給する。
 メタデコーダ302には、上位の制御部274から、適宜、オブジェクトが配置された3次元の仮想空間におけるリスナの絶対的な位置を示すリスナ位置情報と、3次元の仮想空間におけるリスナの向きを示すリスナ方向情報とが供給される。
 メタデコーダ302は、ビットストリームデコーダ301から供給された構成情報、および各オブジェクトのCVPごとのメタデータと、リスナ位置情報およびリスナ方向情報とに基づいて、リスナの位置を基準とする各オブジェクトのメタデータであるリスナ基準メタデータを生成し、レンダリング処理部303に供給する。
 リスナ基準メタデータには、各オブジェクトについて得られた、リスナ位置を基準とする各オブジェクトの位置を示すリスナ基準オブジェクト位置情報と、リスナ位置を基準とするオブジェクトのゲイン情報であるリスナ基準ゲイン情報とが含まれている。その他、リスナ基準メタデータには、各オブジェクトの優先度情報やスプレッド情報などが含まれるようにしてもよい。
 例えばリスナ基準オブジェクト位置情報は、仮想空間におけるリスナの位置を基準(原点)とする極座標系の座標(極座標)により表現された、リスナから見たオブジェクトの相対的な位置を示す情報である。
 リスナ基準メタデータの生成時には、オブジェクトのCVPごとのゲイン情報が補正されて補正ゲイン情報とされ、各CVPのオブジェクトの補正ゲイン情報に基づいてリスナ基準ゲイン情報が生成される。そのため、メタデコーダ302は、ラウドネスモードに応じてオブジェクトのゲイン情報を補正する補正部として機能するということができる。
 レンダリング処理部303は、ビットストリームデコーダ301から供給された各オブジェクトのオーディオデータと、メタデコーダ302から供給されたリスナ基準メタデータとに基づいてレンダリング処理を行い、コンテンツの出力オーディオデータを生成する。
 レンダリング処理部303では、例えばVBAPなど、MPEG-Hで規定された極座標系でのレンダリング処理が行われて出力オーディオデータが生成される。なお、レンダリング処理は、VBAPに限らず他のどのような処理であってもよい。例えば、BRIRやHRTF、HOA、ITD(Interaural Time Difference)、IID(Interaural Intensity Difference)などがレンダリング処理に用いられてもよい。
 コンテンツの出力オーディオデータは、例えば音響出力部276としてのスピーカシステムを構成する各チャンネルに対応するスピーカへと供給されるチャンネルごとのオーディオデータからなる。
 レンダリング処理部303は、コンテンツの出力オーディオデータを音響出力部276に出力することで、音響出力部276に全オブジェクトの音を含むコンテンツの音を再生させる。このとき各オブジェクトの音(音像)は、リスナ基準オブジェクト位置情報により示される位置に定位する。
〈出力オーディオデータ生成処理の説明〉
 図37のフローチャートを参照して、クライアント261による出力オーディオデータ生成処理について説明する。
 ステップS391において通信部273は、図34のステップS343でサーバ211から送信されたビットストリームを受信してビットストリームデコーダ301へと供給する。
 ステップS392においてビットストリームデコーダ301は、通信部273から供給されたビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行い、ビットストリームに含まれている各種の情報を抽出する。これにより、構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータが抽出される。
 ビットストリームデコーダ301は、各オブジェクトのオーディオデータをレンダリング処理部303に供給するとともに、構成情報、および各オブジェクトのCVPごとのメタデータをメタデコーダ302に供給する。
 ステップS393においてメタデコーダ302は、ビットストリームデコーダ301から供給された構成情報、および各オブジェクトのCVPごとのメタデータと、供給されたリスナ位置情報およびリスナ方向情報とに基づいてリスナ基準メタデータを生成する。
 なお、リスナ基準メタデータ生成の詳細は後述する。メタデコーダ302は、生成したリスナ基準メタデータをレンダリング処理部303に供給する。
 また、通信部273により受信(取得)されるビットストリームに複数の異なる構成情報が含まれているようにしてもよい。そのような場合、リスナ基準メタデータの生成にあたり、メタデコーダ302が複数の構成情報のなかから1つの構成情報を選択し、その選択した構成情報を用いてリスナ基準メタデータを生成するようにしてもよい。
 構成情報の選択は、コンテンツの再生開始時のみに行われるようにしてもよいし、コンテンツのフレームごとに行われるようにしてもよいし、複数フレームからなる期間ごとなど、固定または可変の期間ごとに行われるようにしてもよい。構成情報の選択が複数回行われるときには、リスナの位置や演算リソースなどによって、適宜、リスナ基準メタデータの生成に用いられる構成情報が切り替えられることになる。
 一例として、例えば仮想空間における視聴領域ごとに構成情報が用意されている場合、メタデコーダ302は、適宜、リスナ位置情報を用いて、何らかの手段により現在、リスナが位置している視聴領域を特定し、特定された視聴領域に対して用意された構成情報を選択する。
 例えば視聴領域の特定は、メタデコーダ302が通信部273を介して、サーバ211へとリスナ位置情報を送信し、その送信に応じてサーバ211から送信された、現在のリスナ位置を含む視聴領域を示す情報を、通信部273を介して取得することにより実現してもよい。また、例えばメタデコーダ302が予め仮想空間における各視聴領域の範囲を示す情報を保持しており、その情報とリスナ位置情報とに基づき、現在のリスナ位置を含む視聴領域を特定してもよい。その他、現在のリスナ位置を含む視聴領域を示す情報がビットストリームに格納されているようにしてもよい。
 同様に、例えばクライアント261のリソースごとや残電池量ごとに構成情報が用意されている場合、メタデコーダ302は、クライアント261の現在利用可能なリソース(演算リソース)、またはクライアント261が利用可能な最大のリソースを示すリソース情報や、クライアント261の残電池量を示す残電池量情報を取得する。そしてメタデコーダ302は、リソース情報や残電池量情報により示されるリソースや残電池量に対して定められた構成情報を選択する。
 例えばクライアント261のデバイス種別ごとに構成情報が用意されている場合、メタデコーダ302は、クライアント261のデバイス種別を、予めクライアント261に記録されているデバイス種別情報を参照するなど、何らかの手段により特定し、特定したデバイス種別に対して定められた構成情報を選択する。
 また、例えばネットワークの状態ごとに構成情報が用意されている場合、メタデコーダ302は、通信部273から、ビットストリーム(コンテンツのデータ)が伝送されるネットワークの輻輳状態などの状態を取得し、ネットワークの状態に対して定められた構成情報を選択する。
 さらに、例えばコンテンツのシーンごとに構成情報が用意されている場合、メタデコーダ302は、何らかの手段によりコンテンツの再生中のシーン、より詳細にはこれから再生されるシーンを特定し、特定したシーンに対して定められた構成情報を選択する。例えば、コンテンツの各フレームで再生されるシーンを示す情報がビットストリームに格納されているようにしてもよいし、コンテンツの各時刻(フレーム)で再生されるシーンを示す情報が予めメタデコーダ302で保持されているようにしてもよい。
 その他、複数の構成情報のなかから、リスナが入力部271を操作することで指定した構成情報が選択されるようにしてもよい。すなわち、リスナの操作に応じて、リスナにより選択された構成情報が用いられるようにしてもよい。
 なお、リスナが位置する視聴領域、クライアント261のリソース、クライアント261の残電池量、クライアント261のデバイス種別、ネットワークの状態、コンテンツの再生中のシーンのうちの少なくとも2以上のものの組み合わせに基づいて、リスナ基準メタデータの生成に用いられる構成情報が選択されてもよい。
 ステップS394においてレンダリング処理部303は、ビットストリームデコーダ301から供給された各オブジェクトのオーディオデータと、メタデコーダ302から供給されたリスナ基準メタデータとに基づいてレンダリング処理を行う。
 例えばレンダリング処理では、オブジェクトごとに、そのオブジェクトの音を再生するための各チャンネルのオーディオデータが生成される。そして、オブジェクトごとに得られた、同じチャンネルのオーディオデータが加算されて、コンテンツのチャンネルごとの出力オーディオデータとされる。
 レンダリング処理部303は、レンダリング処理により得られたチャンネルごとの出力オーディオデータを音響出力部276へと供給する。音響出力部276は、レンダリング処理部303から供給された出力オーディオデータに基づいてコンテンツの音を再生する。コンテンツの音が再生されると、出力オーディオデータ生成処理は終了する。
 以上のようにしてクライアント261は、構成情報を用いてリスナ基準メタデータを生成し、そのリスナ基準メタデータに基づいてレンダリング処理により出力オーディオデータを生成する。これにより、適切なラウドネス制御を行い、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を行うことができる。
〈メタデータ生成処理の説明〉
 クライアント261は、図37を参照して説明した出力オーディオデータ生成処理におけるステップS393の処理の一部として、図38に示すメタデータ生成処理を行う。
 以下、図38のフローチャートを参照して、クライアント261によるメタデータ生成処理について説明する。
 ステップS441においてメタデコーダ302は、ラウドネスモードであるか否かを判定する。
 例えば、コンテンツの再生時には、制御部274は、表示部272に図30に示した表示画面を表示させる。このような表示画面が表示された状態で、リスナ(ユーザ)が、適宜、入力部271を操作することでチェックボックスBX11にチェックマークを表示させた場合、すなわちチェックボックスBX11にチェックマークが表示されている状態となっている場合、メタデコーダ302は、ラウドネスモードであると判定する。なお、入力欄IPB11にターゲットラウドネス値が入力されている場合に、ラウドネスモードであると判定されるようにしてもよい。
 ステップS441においてラウドネスモードでないと判定された場合、その後、処理はステップS454へと進む。この場合、オブジェクトのCVPごとのメタデータに含まれている、オブジェクトのゲイン情報がそのまま補正ゲイン情報とされる。すなわち、ゲイン情報の補正は行われない。
 これに対して、ステップS441においてラウドネスモードであると判定された場合、ステップS442においてメタデコーダ302は、ビットストリームデコーダ301から供給された構成情報に測定ラウドネス値が格納されているか否かを判定する。
 ステップS442において測定ラウドネス値が格納されていないと判定された場合、ラウドネスモードでの処理を行うことはできないので、その後、処理はステップS454へと進む。この場合においても、ステップS441でラウドネスモードでないと判定された場合と同様に、オブジェクトのゲイン情報の補正は行われず、ゲイン情報がそのまま補正ゲイン情報とされる。
 一方、ステップS442において測定ラウドネス値が格納されていると判定された場合、ステップS443においてメタデコーダ302は、構成情報に基づいて、測定ラウドネスモードであるか否かを判定する。
 例えば、図24に示したマルチラウドネス情報が構成情報に含まれている場合、構成情報に含まれているグループモードフラグ情報の値が「0」であり、かつ構成情報に含まれている制作ラウドネス値存在フラグ情報の値が「0」であるときに、測定ラウドネスモードであると判定される。より詳細には、グループモードフラグ情報の値が「0」であるときに制作ラウドネス値存在フラグ情報が格納されているため、制作ラウドネス値存在フラグ情報の値が「0」であれば、測定ラウドネスモードであると判定される。
 ステップS443において測定ラウドネスモードであると判定された場合、ステップS444においてメタデコーダ302は、CVPごとに、CVPの測定ラウドネス値と、リスナにより指定されたターゲットラウドネス値とに基づいて、ラウドネス変更値を算出する。例えばメタデコーダ302は、構成情報に含まれている測定ラウドネス値を用いて、上述した式(11)と同様の計算を行うことで、CVPごとのラウドネス変更値を算出する。
 ステップS445においてメタデコーダ302は、CVPごとに、ラウドネス変更値に基づいて、ビットストリームデコーダ301から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。
 例えばメタデコーダ302は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップS444で算出したラウドネス変更値とに基づいて、上述した式(12)および式(13)と同様の計算を行う。
 式(12)と同様の計算により、ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式(13)と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されてゲイン情報が補正される。これにより、補正後のゲイン情報である補正ゲイン情報が得られる。
 この場合、CVPの位置をリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となるように、CVPに対して定められたオブジェクトのゲイン情報の補正が行われることになる。
 各オブジェクトのCVPごとのゲイン情報が補正されると、その後、処理はステップS454へと進む。この場合、オブジェクトのCVPごとのメタデータには、少なくともオブジェクトの補正ゲイン情報と、オブジェクト位置情報とが含まれた状態となる。
 また、ステップS443において測定ラウドネスモードでないと判定された場合、ステップS446においてメタデコーダ302は、構成情報に基づいて、グループモードであるか否かを判定する。
 例えば、図24に示したマルチラウドネス情報が構成情報に含まれている場合、構成情報に含まれているグループモードフラグ情報の値が「1」または「2」であるときに、グループモードであると判定される。
 ステップS446においてグループモードでないと判定された場合、その後、処理はステップS447へと進む。
 この場合、例えば、図24に示したマルチラウドネス情報が構成情報に含まれているときには、グループモードフラグ情報の値が「0」であり、かつ制作ラウドネス値存在フラグ情報の値が「1」であるので、制作ラウドネスモードとされている。
 ステップS447においてメタデコーダ302は、CVPごとに、CVPの測定ラウドネス値と、CVPの制作ラウドネス値とに基づいて、中間ラウドネス変更値を算出する。
 例えばメタデコーダ302は、構成情報に含まれている測定ラウドネス値と制作ラウドネス値を用いて、上述した式(17)と同様の計算を行うことで、CVPごとの中間ラウドネス変更値を算出する。
 ステップS448においてメタデコーダ302は、制作ラウドネス値とターゲットラウドネス値とに基づいて共通補正量を算出する。
 例えばメタデコーダ302は、全てのCVPの制作ラウドネス値のうちの最大のものを最大制作ラウドネス値とし、その最大制作ラウドネス値とターゲットラウドネス値とに基づいて、上述した式(18)と同様の計算を行うことで共通補正量を算出する。
 ステップS449においてメタデコーダ302は、CVPごとに、ステップS447で求めた中間ラウドネス変更値と、ステップS448で求めた共通補正量とに基づいて、最終ラウドネス変更値を算出する。例えばメタデコーダ302は、上述した式(19)と同様の計算を行うことで、CVPごとの最終ラウドネス変更値を算出する。
 ステップS450においてメタデコーダ302は、CVPごとに、最終ラウドネス変更値に基づいて、ビットストリームデコーダ301から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。
 例えばメタデコーダ302は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップS449で算出した最終ラウドネス変更値とに基づいて、上述した式(20)および式(21)と同様の計算を行う。
 式(20)と同様の計算により、最終ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式(21)と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されて補正ゲイン情報とされる。
 各オブジェクトのCVPごとのゲイン情報が補正されると、その後、処理はステップS454へと進む。この場合、オブジェクトのCVPごとのメタデータには、少なくともオブジェクトの補正ゲイン情報と、オブジェクト位置情報とが含まれた状態となる。
 この場合、制作ラウドネス値が最大となるCVPをリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となり、かつ複数の各CVPでの出力オーディオデータのラウドネスの相対的な関係が、複数の各CVPの制作ラウドネス値の相対的な関係と同じとなるようにゲイン情報の補正が行われることになる。
 また、ステップS446においてグループモードであると判定された場合、ステップS451においてメタデコーダ302は、グループ(CVPグループ)ごとに、最大となる測定ラウドネス値を特定する。
 例えばメタデコーダ302は、構成情報に含まれている各CVPのグループインデックスの値に基づいて、各CVPが属すCVPグループを特定する。また、メタデコーダ302は、構成情報に含まれている各CVPの測定ラウドネス値と、CVPグループの特定結果とから、CVPグループに属す各CVPの測定ラウドネス値のなかの最大値である最大測定ラウドネス値を特定する。なお、グループモードフラグ情報の値が「2」であるときには、全CVPが同じグループに属すとされる。
 ステップS452においてメタデコーダ302は、各CVPグループについて、CVPごとに、ステップS451で特定された最大測定ラウドネス値と、ターゲットラウドネス値とに基づいて、ラウドネス変更値を算出する。例えばメタデコーダ302は、ターゲットラウドネス値から最大測定ラウドネス値を減算して得られる値(差分値)をラウドネス変更値とする。ステップS452では、CVPグループごとのラウドネス変更値が求められる(算出される)。
 ステップS453においてメタデコーダ302は、CVPごとに、ラウドネス変更値に基づいて、ビットストリームデコーダ301から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。
 例えばメタデコーダ302は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップS452で算出したラウドネス変更値とに基づいて、上述した式(15)および式(16)と同様の計算を行う。
 式(15)と同様の計算により、ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式(16)と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されて補正ゲイン情報とされる。
 この場合、同じグループに属すCVPのうちの測定ラウドネス値が最大となるCVPをリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となり、かつ同じグループに属す複数の各CVPでの出力オーディオデータのラウドネスの相対的な関係が、複数の各CVPの測定ラウドネス値の相対的な関係と同じとなるようにゲイン情報の補正が行われることになる。
 各オブジェクトのCVPごとのゲイン情報が補正されると、その後、処理はステップS454へと進む。この場合、オブジェクトのCVPごとのメタデータには、少なくともオブジェクトの補正ゲイン情報と、オブジェクト位置情報とが含まれた状態となる。
 ステップS441でラウドネスモードでないと判定されたか、ステップS442で測定ラウドネス値が格納されていないと判定されたか、ステップS445の処理が行われたか、ステップS450の処理が行われたか、またはステップS453の処理が行われると、ステップS454の処理が行われる。
 ステップS454においてメタデコーダ302は、補間処理を行って、リスナ基準の各オブジェクトのメタデータ、すなわちリスナ基準メタデータを生成する。
 例えば、1つのオブジェクトについて注目することとする。
 メタデコーダ302は、リスナ位置情報と、構成情報に含まれているCVP位置情報とに基づいて、補間処理に用いるCVPを選択する。なお、補間処理に用いるCVPは、全CVPのうちのリスナ位置の周囲にある一部のCVPであってもよいし、全てのCVPが用いられて補間処理が行われてもよい。
 次に、メタデコーダ302は、CVP位置情報と、リスナ位置情報とに基づいて、各CVPの重み係数を計算する。例えば、各CVPの重み係数は、CVPからリスナ位置までの距離の逆数比により定まるものなどとされる。
 また、メタデコーダ302は、CVPごとのオブジェクト位置情報に基づき、CVPを始点とし、CVPから見たオブジェクトの位置を終点とするオブジェクト3次元位置ベクトルを算出する。
 メタデコーダ302は、CVPごとに求めた重み係数を重みとして、CVPごとのオブジェクト3次元位置ベクトルの重み付きベクトル和を求める計算を補間処理として行い、その結果得られたベクトル(位置情報)をリスナ基準オブジェクト位置情報とする。すなわち、重み係数が乗算された各CVPのオブジェクト3次元位置ベクトルの総和がリスナ基準オブジェクト位置情報として求められる。
 なお、上記の計算により得られるオブジェクト3次元位置ベクトルは、リスナ位置を原点とする絶対座標系の絶対座標となっている。しかし、レンダリング処理部303で極座標系でのレンダリング処理が行われる場合、極座標表現のリスナ基準オブジェクト位置情報が必要となる。そこで、メタデコーダ302は、適宜、絶対座標表現のリスナ基準オブジェクト位置情報を極座標表現のリスナ基準オブジェクト位置情報へと変換する。
 また、リスナ基準オブジェクト位置情報の算出に、適宜、リスナ方向情報が用いられるようにしてもよい。
 メタデコーダ302は、オブジェクトのCVPごとのメタデータに含まれている補正ゲイン情報に基づく補間処理により、リスナ位置に対するオブジェクトのゲイン情報であるリスナ基準ゲイン情報を算出する。リスナ基準ゲイン情報は、リスナ位置を受聴位置としたときのオブジェクトのゲイン情報である。
 一例として、例えばメタデコーダ302は、CVPごとに求めた上述の重み係数を各CVPの補正ゲイン情報に乗算し、重み係数の乗算された補正ゲイン情報の総和をリスナ基準ゲイン情報とする。
 なお、リスナ基準オブジェクト位置情報やリスナ基準ゲイン情報を補間処理により求めるときの具体的な計算方法として、例えば国際公開第2023/085140号に記載されている方法などを採用することができる。リスナ基準オブジェクト位置情報やリスナ基準ゲイン情報の算出方法は、これに限らず、他のどのような方法であってもよい。例えば、リスナ位置に最も近いCVPが特定され、その特定されたCVPについてのオブジェクトのメタデータが、そのままリスナ基準メタデータとされてもよい。
 メタデコーダ302は、少なくともリスナ基準オブジェクト位置情報およびリスナ基準ゲイン情報を含むメタデータを、オブジェクトのリスナ基準メタデータとして算出する。
 なお、リスナ基準メタデータに優先度情報やスプレッド情報などが含まれる場合、それらの優先度情報やスプレッド情報も補間処理等により生成されるようにしてもよい。
 また、例えばリスナ基準メタデータの生成に用いられるオブジェクトのCVPごとのメタデータに含まれている優先度情報やスプレッド情報のうち、最も値の大きいものや最も値の小さいもの、最もリスナ位置に近いCVPのものなどが、リスナ基準メタデータの優先度情報やスプレッド情報とされてもよい。さらに、優先度情報やスプレッド情報の中央値や平均値などがリスナ基準メタデータの優先度情報やスプレッド情報とされてもよい。
 メタデコーダ302がリスナ基準メタデータをレンダリング処理部303に供給すると、メタデータ生成処理は終了する。
 後段のレンダリング処理部303では、図37のステップS394で、各オブジェクトのリスナ基準メタデータとオーディオデータに基づきレンダリング処理が行われる。
 例えばレンダリング処理部303は、各オブジェクトのリスナ基準ゲイン情報に基づいて、それらの各オブジェクトのオーディオデータに対するゲイン補正を行う。そして、レンダリング処理部303は、ゲイン補正後の各オブジェクトのオーディオデータと、各オブジェクトのリスナ基準オブジェクト位置情報とに基づいてVBAP等を行うことで、出力オーディオデータを生成する。
 このようなリスナ基準ゲイン情報を用いることで、クライアント261では、自由視点オーディオにおいて、オブジェクトのゲイン制御(ゲイン補正)のみでラウドネス補正を実現することができる。
 以上のようにしてクライアント261は、構成情報に基づいてリスナ基準メタデータを生成する。このようにすることで、ゲイン制御のみでラウドネス制御を行うことができ、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を実現することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図39は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、
 複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部と
 を備える情報処理装置。
(2)
 前記取得部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を取得する
 (1)に記載の情報処理装置。
(3)
 前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
 (2)に記載の情報処理装置。
(4)
 位置または向きごとの全ての前記ラウドネス情報に基づいて減衰係数を算出するラウドネス情報処理部をさらに備え、
 前記レベル補正部は、前記減衰係数に基づいて前記オーディオデータの前記レベル補正を行う
 (1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
 前記ラウドネス情報処理部は、前記全ての前記ラウドネス情報のうちの最も値が大きい前記ラウドネス情報と、デジタルオーディオデータとして記録可能な音のレベルの最大値とに基づいて前記減衰係数を算出する
 (4)に記載の情報処理装置。
(6)
 前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、所定の前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択するラウドネス情報処理部をさらに備え、
 前記レベル補正部は、前記ラウドネス情報処理部により選択された前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
 (2)または(3)に記載の情報処理装置。
(7)
 前記ラウドネス情報処理部は、前記空間における前記リスナの位置を示すリスナ位置情報に基づいて、前記リスナの位置に最も近い前記制御視点を前記所定の前記制御視点として選択する
 (6)に記載の情報処理装置。
(8)
 前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、複数の各前記制御視点について、前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択し、各前記制御視点について選択した複数の前記ラウドネス情報に基づいて補間処理を行うラウドネス情報処理部をさらに備え、
 前記レベル補正部は、前記補間処理により得られた前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
 (2)または(3)に記載の情報処理装置。
(9)
 前記ラウドネス情報処理部は、前記空間における前記制御視点から前記リスナの位置までの距離の比に基づいて前記補間処理を行う
 (8)に記載の情報処理装置。
(10)
 前記レベル補正部は、前記ラウドネス情報に基づくDRC処理により前記レベル補正を行う
 (6)乃至(9)の何れか一項に記載の情報処理装置。
(11)
 前記オブジェクトの前記オーディオデータと、前記オブジェクトのメタデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備え、
 前記レベル補正部は、前記レンダリング処理により得られた出力信号に対して前記レベル補正を行う
 (1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
 前記メタデータは、前記オブジェクトの位置情報、前記オブジェクトのゲイン情報、前記オブジェクトの優先度情報、および前記オブジェクトのスプレッド情報のうちの少なくともいずれかである
 (11)に記載の情報処理装置。
(13)
 前記レンダリング処理は、VBAP、BRIR、HRTF、およびHOAのうちの少なくともいずれかを用いた処理である
 (11)または(12)に記載の情報処理装置。
(14)
 前記ラウドネス情報は、サンプルピークレベル値またはトゥルーピークレベル値である
 (1)乃至(13)の何れか一項に記載の情報処理装置。
(15)
 情報処理装置が、
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
 複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
 情報処理方法。
(16)
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
 複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
 ステップを含む処理をコンピュータに実行させるプログラム。
(17)
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、
 前記ビットストリームを送信する通信部と
 を備える情報処理装置。
(18)
 前記生成部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を含む前記ビットストリームを生成する
 (17)に記載の情報処理装置。
(19)
 前記生成部は、前記オブジェクトの位置を示すオブジェクト位置情報を含むメタデータと、前記ラウドネス情報とを含む前記ビットストリームを生成する
 (18)に記載の情報処理装置。
(20)
 前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
 (19)に記載の情報処理装置。
(21)
 前記生成部は、前記空間における前記制御視点の位置を示す制御視点位置情報を含むシステム構成情報と、前記ラウドネス情報とを含む前記ビットストリームを生成する
 (18)乃至(20)の何れか一項に記載の情報処理装置。
(22)
 前記生成部は、前記ラウドネス情報と、前記オブジェクトのオーディオデータとを含む前記ビットストリームを生成する
 (17)乃至(21)の何れか一項に記載の情報処理装置。
(23)
 情報処理装置が、
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成し、
 前記ビットストリームを送信する
 情報処理方法。
(24)
 オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成し、
 前記ビットストリームを送信する
 ステップを含む処理をコンピュータに実行させるプログラム。
(25)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える
 情報処理装置。
(26)
 前記補正部は、前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記補正を行う
 (25)に記載の情報処理装置。
(27)
 前記補正部は、複数の前記制御視点の前記測定ラウドネス値のうちの何れかと、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
 (25)に記載の情報処理装置。
(28)
 前記補正部は、同じグループに属す複数の前記制御視点の前記測定ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とから求まる変更値に基づいて、前記グループに属す各前記制御視点の前記ゲイン情報を補正する
 (27)に記載の情報処理装置。
(29)
 前記補正部は、前記測定ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
 (28)に記載の情報処理装置。
(30)
 前記補正部は、前記制御視点ごとに指定された制作ラウドネス値と、前記制御視点の前記測定ラウドネス値と、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
 (25)に記載の情報処理装置。
(31)
 前記補正部は、複数の各前記制御視点の前記制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて共通補正量を算出し、前記共通補正量と、前記制御視点の前記制作ラウドネス値と、前記制御視点の前記測定ラウドネス値とに基づいて、前記制御視点の前記ゲイン情報を補正する
 (30)に記載の情報処理装置。
(32)
 前記補正部は、複数の前記制御視点の前記制作ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とに基づいて前記共通補正量を算出する
 (31)に記載の情報処理装置。
(33)
 前記補正部は、前記制作ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
 (32)に記載の情報処理装置。
(34)
 前記制御視点の前記測定ラウドネス値を含む構成情報を取得する取得部をさらに備える
 (25)乃至(33)の何れか一項に記載の情報処理装置。
(35)
 前記構成情報には、
  前記測定ラウドネス値と前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
  前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点が属すグループを示す情報と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
  前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点ごとに指定された制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか
 を特定するための情報が含まれている
 (34)に記載の情報処理装置。
(36)
 前記取得部は、複数の前記構成情報を取得し、
 前記補正部は、複数の前記構成情報から選択された1つの前記構成情報を用いて前記ゲイン情報の補正を行う
 (34)または(35)に記載の情報処理装置。
(37)
 前記補正部は、前記リスナの操作に応じて前記構成情報を選択するか、または前記空間における前記リスナの位置、前記情報処理装置のリソース、前記情報処理装置の残電池量、前記情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか1つに基づいて前記構成情報を選択する
 (36)に記載の情報処理装置。
(38)
 前記補正部は、複数の前記制御視点の補正後の前記ゲイン情報と、複数の前記制御視点の前記空間における位置を示す位置情報と、前記空間における前記リスナの位置を示すリスナ位置情報とに基づいて、前記リスナの位置に対する前記オブジェクトの前記ゲイン情報であるリスナ基準ゲイン情報を算出する
 (25)乃至(37)の何れか一項に記載の情報処理装置。
(39)
 前記オブジェクトの前記リスナ基準ゲイン情報と、前記オブジェクトのオーディオデータとに基づいて、前記コンテンツのオーディオデータを生成するレンダリング処理部をさらに備える
 (38)に記載の情報処理装置。
(40)
 前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
 (25)乃至(39)の何れか一項に記載の情報処理装置。
(41)
 前記オブジェクトが配置された前記空間の画像を表示させる制御部をさらに備える
 (25)乃至(40)の何れか一項に記載の情報処理装置。
(42)
 前記画像には、前記ターゲットラウドネス値を入力するための領域が表示される
 (41)に記載の情報処理装置。
(43)
 情報処理装置が、
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
 情報処理方法。
(44)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
 ステップを含む処理をコンピュータに実行させるプログラム。
(45)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える
 情報処理装置。
(46)
 前記構成情報には、同じグループに属す複数の前記制御視点の前記測定ラウドネス値の何れかと、所定のターゲットラウドネス値とに基づいて、前記グループに属す前記制御視点に対して定められた前記オブジェクトのゲイン情報を補正するグループモードであるか否かを示すグループモード情報が含まれている
 (45)に記載の情報処理装置。
(47)
 前記構成情報に、前記グループモードであることを示す前記グループモード情報が含まれている場合、前記構成情報には、前記制御視点が属す前記グループを示す情報がさらに含まれている
 (46)に記載の情報処理装置。
(48)
 前記構成情報には、前記制御視点ごとに指定された制作ラウドネス値が含まれているか否かを示す制作ラウドネス値存在情報が含まれており、
 前記構成情報に、前記制作ラウドネス値が含まれていることを示す前記制作ラウドネス値存在情報が含まれている場合、前記構成情報には、前記制御視点の前記制作ラウドネス値がさらに含まれている
 (45)乃至(47)の何れか一項に記載の情報処理装置。
(49)
 前記構成情報には、前記空間における前記制御視点の位置を示す位置情報が含まれている
 (45)乃至(48)の何れか一項に記載の情報処理装置。
(50)
 前記制御部は、複数の異なる前記構成情報を生成する
 (45)乃至(49)の何れか一項に記載の情報処理装置。
(51)
 前記制御部は、前記空間における領域ごと、前記コンテンツを再生する情報処理装置のリソースごと、前記コンテンツを再生する情報処理装置の残電池量ごと、前記コンテンツを再生する情報処理装置のデバイス種別ごと、前記コンテンツのデータが伝送されるネットワークの状態ごと、または前記コンテンツのシーンごとに前記構成情報を生成する
 (50)に記載の情報処理装置。
(52)
 前記制御部は、前記制御視点が配置された前記空間の画像を表示させ、
 前記画像には、前記制御視点の前記測定ラウドネス値が表示される
 (45)乃至(51)の何れか一項に記載の情報処理装置。
(53)
 前記画像には、前記制御視点が属すグループを指定するためのユーザインターフェースが表示される
 (52)に記載の情報処理装置。
(54)
 前記画像には、前記制御視点ごとに指定された制作ラウドネス値が表示される
 (52)または(53)に記載の情報処理装置。
(55)
 前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
 (45)乃至(54)の何れか一項に記載の情報処理装置。
(56)
 情報処理装置が、
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
 情報処理方法。
(57)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
(58)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、
 前記ビットストリームを送信する通信部と
 を備える情報処理装置。
(59)
 前記構成情報には、同じグループに属す複数の前記制御視点の前記測定ラウドネス値の何れかと、所定のターゲットラウドネス値とに基づいて、前記グループに属す前記制御視点に対して定められた前記オブジェクトのゲイン情報を補正するグループモードであるか否かを示すグループモード情報が含まれている
 (58)に記載の情報処理装置。
(60)
 前記構成情報に、前記グループモードであることを示す前記グループモード情報が含まれている場合、前記構成情報には、前記制御視点が属す前記グループを示す情報がさらに含まれている
 (59)に記載の情報処理装置。
(61)
 前記構成情報には、前記制御視点ごとに指定された制作ラウドネス値が含まれているか否かを示す制作ラウドネス値存在情報が含まれており、
 前記構成情報に、前記制作ラウドネス値が含まれていることを示す前記制作ラウドネス値存在情報が含まれている場合、前記構成情報には、前記制御視点の前記制作ラウドネス値がさらに含まれている
 (58)乃至(60)の何れか一項に記載の情報処理装置。
(62)
 前記構成情報には、前記空間における前記制御視点の位置を示す位置情報が含まれている
 (58)乃至(61)の何れか一項に記載の情報処理装置。
(63)
 前記生成部は、複数の異なる前記構成情報のなかから選択した前記構成情報を含む前記ビットストリームを生成する
 (58)乃至(62)の何れか一項に記載の情報処理装置。
(64)
 前記生成部は、前記空間における前記リスナの位置、前記コンテンツを再生する情報処理装置のリソース、前記コンテンツを再生する情報処理装置の残電池量ごと、前記コンテンツを再生する情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか1つに基づいて前記構成情報を選択する
 (63)に記載の情報処理装置。
(65)
 前記生成部は、複数の異なる前記構成情報を含む前記ビットストリームを生成する
 (58)乃至(62)の何れか一項に記載の情報処理装置。
(66)
 前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
 (58)乃至(65)の何れか一項に記載の情報処理装置。
(67)
 情報処理装置が、
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成し、
 前記ビットストリームを送信する
 情報処理方法。
(68)
 空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成し、
 前記ビットストリームを送信する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 サーバ, 21 取得部, 22 ビットストリームエンコーダ, 23 通信部, 51 クライアント, 61 通信部, 62 ビットストリームデコーダ, 63 メタデコーダ, 64 レンダリング処理部, 65 ラウドネス情報処理部, 66 DRC処理部

Claims (38)

  1.  オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、
     複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部と
     を備える情報処理装置。
  2.  前記取得部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を取得する
     請求項1に記載の情報処理装置。
  3.  前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
     請求項2に記載の情報処理装置。
  4.  位置または向きごとの全ての前記ラウドネス情報に基づいて減衰係数を算出するラウドネス情報処理部をさらに備え、
     前記レベル補正部は、前記減衰係数に基づいて前記オーディオデータの前記レベル補正を行う
     請求項1に記載の情報処理装置。
  5.  前記ラウドネス情報処理部は、前記全ての前記ラウドネス情報のうちの最も値が大きい前記ラウドネス情報と、デジタルオーディオデータとして記録可能な音のレベルの最大値とに基づいて前記減衰係数を算出する
     請求項4に記載の情報処理装置。
  6.  前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、所定の前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択するラウドネス情報処理部をさらに備え、
     前記レベル補正部は、前記ラウドネス情報処理部により選択された前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
     請求項2に記載の情報処理装置。
  7.  前記ラウドネス情報処理部は、前記空間における前記リスナの位置を示すリスナ位置情報に基づいて、前記リスナの位置に最も近い前記制御視点を前記所定の前記制御視点として選択する
     請求項6に記載の情報処理装置。
  8.  前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、複数の各前記制御視点について、前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択し、各前記制御視点について選択した複数の前記ラウドネス情報に基づいて補間処理を行うラウドネス情報処理部をさらに備え、
     前記レベル補正部は、前記補間処理により得られた前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
     請求項2に記載の情報処理装置。
  9.  前記ラウドネス情報処理部は、前記空間における前記制御視点から前記リスナの位置までの距離の比に基づいて前記補間処理を行う
     請求項8に記載の情報処理装置。
  10.  前記レベル補正部は、前記ラウドネス情報に基づくDRC処理により前記レベル補正を行う
     請求項6に記載の情報処理装置。
  11.  前記オブジェクトの前記オーディオデータと、前記オブジェクトのメタデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備え、
     前記レベル補正部は、前記レンダリング処理により得られた出力信号に対して前記レベル補正を行う
     請求項1に記載の情報処理装置。
  12.  前記メタデータは、前記オブジェクトの位置情報、前記オブジェクトのゲイン情報、前記オブジェクトの優先度情報、および前記オブジェクトのスプレッド情報のうちの少なくともいずれかである
     請求項11に記載の情報処理装置。
  13.  前記レンダリング処理は、VBAP、BRIR、HRTF、およびHOAのうちの少なくともいずれかを用いた処理である
     請求項11に記載の情報処理装置。
  14.  前記ラウドネス情報は、サンプルピークレベル値またはトゥルーピークレベル値である
     請求項1に記載の情報処理装置。
  15.  情報処理装置が、
     オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
     複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
     情報処理方法。
  16.  オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、
     前記ビットストリームを送信する通信部と
     を備える情報処理装置。
  17.  空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える
     情報処理装置。
  18.  前記補正部は、前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記補正を行う
     請求項17に記載の情報処理装置。
  19.  前記補正部は、複数の前記制御視点の前記測定ラウドネス値のうちの何れかと、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
     請求項17に記載の情報処理装置。
  20.  前記補正部は、同じグループに属す複数の前記制御視点の前記測定ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とから求まる変更値に基づいて、前記グループに属す各前記制御視点の前記ゲイン情報を補正する
     請求項19に記載の情報処理装置。
  21.  前記補正部は、前記測定ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
     請求項20に記載の情報処理装置。
  22.  前記補正部は、前記制御視点ごとに指定された制作ラウドネス値と、前記制御視点の前記測定ラウドネス値と、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
     請求項17に記載の情報処理装置。
  23.  前記補正部は、複数の各前記制御視点の前記制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて共通補正量を算出し、前記共通補正量と、前記制御視点の前記制作ラウドネス値と、前記制御視点の前記測定ラウドネス値とに基づいて、前記制御視点の前記ゲイン情報を補正する
     請求項22に記載の情報処理装置。
  24.  前記補正部は、複数の前記制御視点の前記制作ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とに基づいて前記共通補正量を算出する
     請求項23に記載の情報処理装置。
  25.  前記補正部は、前記制作ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
     請求項24に記載の情報処理装置。
  26.  前記制御視点の前記測定ラウドネス値を含む構成情報を取得する取得部をさらに備える
     請求項17に記載の情報処理装置。
  27.  前記構成情報には、
      前記測定ラウドネス値と前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
      前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点が属すグループを示す情報と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
      前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点ごとに指定された制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか
     を特定するための情報が含まれている
     請求項26に記載の情報処理装置。
  28.  前記取得部は、複数の前記構成情報を取得し、
     前記補正部は、複数の前記構成情報から選択された1つの前記構成情報を用いて前記ゲイン情報の補正を行う
     請求項26に記載の情報処理装置。
  29.  前記補正部は、前記リスナの操作に応じて前記構成情報を選択するか、または前記空間における前記リスナの位置、前記情報処理装置のリソース、前記情報処理装置の残電池量、前記情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか1つに基づいて前記構成情報を選択する
     請求項28に記載の情報処理装置。
  30.  前記補正部は、複数の前記制御視点の補正後の前記ゲイン情報と、複数の前記制御視点の前記空間における位置を示す位置情報と、前記空間における前記リスナの位置を示すリスナ位置情報とに基づいて、前記リスナの位置に対する前記オブジェクトの前記ゲイン情報であるリスナ基準ゲイン情報を算出する
     請求項17に記載の情報処理装置。
  31.  前記オブジェクトの前記リスナ基準ゲイン情報と、前記オブジェクトのオーディオデータとに基づいて、前記コンテンツのオーディオデータを生成するレンダリング処理部をさらに備える
     請求項30に記載の情報処理装置。
  32.  前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
     請求項17に記載の情報処理装置。
  33.  前記オブジェクトが配置された前記空間の画像を表示させる制御部をさらに備える
     請求項17に記載の情報処理装置。
  34.  前記画像には、前記ターゲットラウドネス値を入力するための領域が表示される
     請求項33に記載の情報処理装置。
  35.  情報処理装置が、
     空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
     情報処理方法。
  36.  空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える
     情報処理装置。
  37.  情報処理装置が、
     空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
     情報処理方法。
  38.  空間内の制御視点をリスナの位置とした場合における1または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、
     前記ビットストリームを送信する通信部と
     を備える情報処理装置。
PCT/JP2024/013177 2023-05-22 2024-03-29 情報処理装置および方法、並びにプログラム WO2024241707A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023-083721 2023-05-22
JP2023083721 2023-05-22

Publications (1)

Publication Number Publication Date
WO2024241707A1 true WO2024241707A1 (ja) 2024-11-28

Family

ID=93590072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/013177 WO2024241707A1 (ja) 2023-05-22 2024-03-29 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2024241707A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512740A (ja) * 2003-11-26 2007-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低周波チャネルを生成する装置および方法
JP2013521539A (ja) * 2010-03-10 2013-06-10 ドルビー・インターナショナル・アーベー 単一再生モードにおいてラウドネス測定値を合成するシステム
JP2015158543A (ja) * 2014-02-21 2015-09-03 日本放送協会 ラウドネス測定装置およびラウドネス測定方法
JP2018524630A (ja) * 2015-06-17 2018-08-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ符号化システムにおけるユーザー対話のためのラウドネス制御
US20200053464A1 (en) * 2018-08-08 2020-02-13 Qualcomm Incorporated User interface for controlling audio zones
JP2020095290A (ja) * 2013-01-21 2020-06-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
JP2022542387A (ja) * 2019-07-30 2022-10-03 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のスピーカーを通じた複数のオーディオ・ストリームの再生の管理

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512740A (ja) * 2003-11-26 2007-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低周波チャネルを生成する装置および方法
JP2013521539A (ja) * 2010-03-10 2013-06-10 ドルビー・インターナショナル・アーベー 単一再生モードにおいてラウドネス測定値を合成するシステム
JP2020095290A (ja) * 2013-01-21 2020-06-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
JP2015158543A (ja) * 2014-02-21 2015-09-03 日本放送協会 ラウドネス測定装置およびラウドネス測定方法
JP2018524630A (ja) * 2015-06-17 2018-08-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ符号化システムにおけるユーザー対話のためのラウドネス制御
US20200053464A1 (en) * 2018-08-08 2020-02-13 Qualcomm Incorporated User interface for controlling audio zones
JP2022542387A (ja) * 2019-07-30 2022-10-03 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のスピーカーを通じた複数のオーディオ・ストリームの再生の管理

Similar Documents

Publication Publication Date Title
US12081955B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
US20230370803A1 (en) Spatial Audio Augmentation
WO2018047667A1 (ja) 音声処理装置および方法
US11221821B2 (en) Audio scene processing
US11950080B2 (en) Method and device for processing audio signal, using metadata
JP2024120097A (ja) 情報処理装置および方法、再生装置および方法、並びにプログラム
WO2024241707A1 (ja) 情報処理装置および方法、並びにプログラム
JP7533461B2 (ja) 信号処理装置および方法、並びにプログラム
WO2022234698A1 (ja) 情報処理装置および方法、並びにプログラム
KR20140128181A (ko) 예외 채널 신호의 렌더링 방법
KR20140128182A (ko) 예외 채널 근방의 객체 신호의 렌더링 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24810715

Country of ref document: EP

Kind code of ref document: A1