RU2798414C2

RU2798414C2 - Audio device and audio processing method

Info

Publication number: RU2798414C2
Application number: RU2021108348A
Authority: RU
Inventors: Вернер Паулус Йозефус ДЕ БРЮЙН; Натан СУВИРА-ЛАБАСТЬЕ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2018-08-28
Filing date: 2019-08-20
Publication date: 2023-06-22

Abstract

FIELD: computer technology for processing audio data.

SUBSTANCE: invention is aimed to increase the accuracy of matching the perception of audio and visual scenes. It is achieved by choosing between a transformation for reproducing at least the first part of the first audio element for a set of acoustic systems and for headphones in response to the first index of the transformation property for audio reproduction, and the index of the transformation property for audio reproduction indicates whether the first part of the first audio element represents an audio source with a spatial property whose orientation is head-bound and intended to be a fixed position relative to the user's head, or representing an audio source with a spatial property whose orientation is not head-bound and intended to be a fixed position in the environment.

EFFECT: increase the accuracy of matching the perception of audio and visual scenes.

14 cl, 2 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Изобретение относится к аудиоустройству и способу обработки аудио и, в частности, но не исключительно, к использованию таких устройства и способа для поддержки приложения дополненной/виртуальной реальности.The invention relates to an audio device and method for processing audio, and in particular, but not exclusively, to the use of such a device and method to support an augmented/virtual reality application.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления аудиовизуального контента в последние годы произошел значительный рост разнообразия и диапазона восприятия такого контента. В частности, разрабатываются множество пространственных и интерактивных услуг, приложений и подходов к восприятию, чтобы обеспечить пользователям восприятие с более сильным вовлечением и погружением.Thanks to the continuous development and introduction of new services and ways of using and consuming audiovisual content, there has been a significant increase in the diversity and range of perception of such content in recent years. In particular, many spatial and interactive experiences, applications and approaches are being developed to provide users with a more engaging and immersive experience.

Примерами таких приложений являются приложения виртуальной реальности (Virtual Reality, VR), дополненной реальности (Augmented Reality, AR) и смешанной реальности (Mixed Reality, MR), которые быстро становятся господствующими тенденциями, при этом ряд решений ориентирован на потребительский рынок. Кроме того, многими органами по стандартизации разрабатывается ряд стандартов. В рамках такой деятельности по стандартизации активно разрабатываются стандарты для различных аспектов систем VR/AR/MR, включая, например, потоковую передачу, широковещание, преобразование для воспроизведения и т.д.Examples of such applications are virtual reality (Virtual Reality, VR), augmented reality (Augmented Reality, AR) and mixed reality (Mixed Reality, MR) applications, which are rapidly becoming mainstream, with a number of solutions targeted at the consumer market. In addition, a number of standards are being developed by many standards bodies. As part of this standardization activity, standards are being actively developed for various aspects of VR/AR/MR systems, including, for example, streaming, broadcast, conversion for playback, etc.

Приложения VR, как правило, обеспечивают восприятия пользователем, соответствующие нахождению пользователя в другом мире/окружающей среде/сцене, тогда как приложения AR (включая смешанную реальность, Mixed Reality (MR)), обычно обеспечивают восприятия пользователем, соответствующие нахождению пользователя в текущей окружающей среде, но с добавлением дополнительной информации либо виртуальных объектов или информации. Таким образом, приложения VR, как правило, обеспечивают полностью погружающие синтетически формируемые мир/сцену, тогда как приложения AR обычно обеспечивают частично синтетические мир/сцену, накладываемые на реальную сцену, в которой пользователь присутствует физически. Однако это термины частот используются взаимозаменяемо и имеют высокую степень перекрытия. Далее термин виртуальная реальность/VR будет использоваться для обозначения как виртуальной реальности, так и дополненной реальности.VR applications typically provide user experiences corresponding to the user being in a different world/environment/scene, while AR applications (including Mixed Reality (MR)) typically provide user experiences corresponding to the user being in the current environment , but with the addition of additional information or virtual objects or information. Thus, VR applications typically provide a fully immersive, synthetically generated world/scene, while AR applications typically provide a partially synthetic world/scene overlaid on the real scene in which the user is physically present. However, these frequency terms are used interchangeably and have a high degree of overlap. In the following, the term virtual reality/VR will be used to refer to both virtual reality and augmented reality.

В качестве примера, быстро набирающая популярность услуга заключается в предоставлении изображений и аудио таким образом, что пользователь в состоянии активно и динамически взаимодействовать с системой для изменения параметров преобразования для воспроизведения так, что изображения и аудио будут адаптироваться к перемещению и изменениям положения и ориентации пользователя. Весьма привлекательной особенностью многих приложений является возможность изменения действующего положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться вокруг» в представляемой сцене.As an example, a rapidly growing service is to provide images and audio in such a way that the user is able to actively and dynamically interact with the system to change the rendering settings for playback so that the images and audio will adapt to the movement and changes in the position and orientation of the user. A very attractive feature of many applications is the ability to change the actual viewing position and viewing direction of the viewer so that, for example, the viewer can move and "look around" in the scene being presented.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории "шутеров", или игр-стрелялок от первого лица.Such a function may in particular provide the user with a virtual reality experience. Due to this, the user can (relatively) freely move around in the virtual environment and dynamically change his position and the direction in which he looks. Typically, such virtual reality applications are based on a 3D scene model, with the model being dynamically evaluated to provide the particular requested look. This approach is well known, for example, from gaming applications for computers and consoles, for example, from the category of "shooters", or first-person shooting games.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.It is also desirable, particularly for virtual reality applications, that the displayed image be a three-dimensional image. Indeed, in order to optimize viewer immersion, it is generally preferred that the user experience the presented scene as a three-dimensional scene. After all, the virtual reality experience should preferably allow the user to choose their own position, camera viewpoint, and point in time relative to the virtual world.

Как правило, приложения виртуальной реальности по своей природе ограничены тем, что они основаны на заранее определенной модели сцены и обычно на искусственной модели виртуального мира. В некоторых приложениях ощущение виртуальной реальности может быть обеспечено на основе захвата реального мира. Во многих случаях такой подход, как правило, основан на построении виртуальной модели реального мира из захватываемых данных реального мира. В таком случае ощущение виртуальной реальности формируется путем оценки этой модели.Generally, virtual reality applications are inherently limited in that they are based on a predetermined scene model and usually an artificial model of the virtual world. In some applications, a virtual reality experience can be provided based on a capture of the real world. In many cases, this approach is typically based on building a virtual model of the real world from captured real world data. In such a case, the feeling of virtual reality is formed by evaluating this model.

Многие современные подходы, как правило, неоптимальные и часто имеют тенденцию предъявлять высокие требования к вычислительным и коммуникационным ресурсам и/или обеспечивать неоптимальное восприятие пользователем, например из-за пониженного качества или ограниченной свободы.Many current approaches are generally sub-optimal and often tend to place high demands on computing and communication resources and/or provide a sub-optimal user experience, eg due to reduced quality or limited freedom.

В качестве примера применения на рынке появились очки виртуальной реальности, которые позволяют зрителям воспринимать отснятое 360° (панорамное) или 180° видео. Такие 360° видео часто предварительно снимают с использованием многокамерной установки, в которой отдельные изображения сшиваются вместе в одно сферическое отображение. Обычные форматы стерео для 180° или 360° видео - сверху/снизу и слева/справа. Так же, как и в непанорамном стереоскопическом видео, изображения для левого глаза и правого глаза сжимают, например, как часть одного видеопотока стандарта H.264.As an example of application, virtual reality glasses have appeared on the market, which allow viewers to perceive the captured 360° (panoramic) or 180° video. Such 360° videos are often pre-filmed using a multi-camera setup in which individual images are stitched together into a single spherical display. The usual stereo formats for 180° or 360° video are top/bottom and left/right. As with non-panoramic stereoscopic video, the left eye and right eye images are compressed, for example, as part of a single H.264 video stream.

В добавление к визуальному воспроизведению большинство приложений VR/AR также обеспечивают соответствующие восприятие аудио. Во многих приложениях аудио предпочтительно обеспечивает пространственное восприятие звука, причем аудиоисточники воспринимаются как издающие звук из положений, которые соответствуют положениям соответствующих объектов в визуальной сцене. Таким образом, аудио- и видеосцены предпочтительно воспринимаются как согласованные, причем и те, и другие обеспечивают полное пространственное восприятие.In addition to visual reproduction, most VR/AR applications also provide an appropriate audio experience. In many applications, audio preferably provides a spatial perception of sound, with audio sources perceived as emitting sound from positions that correspond to the positions of corresponding objects in the visual scene. Thus, the audio and video scenes are preferably perceived to be consistent, with both providing a complete spatial experience.

Что касается аудио, то до настоящего времени основной упор делали на воспроизведение через наушники с использованием технологии преобразования для воспроизведения бинаурального аудио. Во многих случаях воспроизведение через наушники делает возможным персонализированное восприятие пользователем с высокой степенью погружения. С помощью отслеживания головы можно добиться реагирования преобразования для воспроизведения на движения головы пользователя, что значительно повышает ощущение погружения.In terms of audio, up to now, the focus has been on playback through headphones using conversion technology to reproduce binaural audio. In many cases, playback through headphones enables a highly immersive personalized experience for the user. With head tracking, the transformation can be made responsive to the user's head movements, greatly enhancing the sense of immersion.

В последнее время, как на рынке, так и в ходе обсуждения стандартов, стали предлагать примеры использования, которые включают «социальный» или «общий» аспект VR (и AR), т.е. возможность обмена восприятием с другими людьми. Это могут быть люди в разных местах, но также люди в одном и том же месте (или сочетание и того, и другого). Например, у нескольких человек в одном и том же помещении может быть одно и то же общее восприятие с присутствием проекции (аудио или видео) каждого участника в контенте/сцене VR. Например, в игре с участием множества людей каждый игрок может иметь отличное от других местоположение в игровой сцене и, следовательно, отличную от других проекцию аудио- и видеосцены.Recently, both in the marketplace and in the discussion of standards, use cases have begun to be offered that include the "social" or "general" aspect of VR (and AR), i.e. the ability to share perceptions with other people. It can be people in different places, but also people in the same place (or a combination of both). For example, several people in the same room may have the same overall experience with the presence of a projection (audio or video) of each participant in the VR content/scene. For example, in a multi-person game, each player may have a different location in the game scene and hence a different projection of the audio and video scene.

В качестве конкретного примера MPEG предпринимает попытки стандартизировать битовый поток и декодер для реалистических, погружающих восприятий AR/VR с шестью степенями свободы. Социальная VR является важным функцией и позволяет пользователям взаимодействовать в общей окружающей среде (игры, конференц-звонки, покупки в сети и т.д.). Концепция социальной VR также способствует тому, чтобы сделать виртуальную реальность более социальной деятельностью для пользователей, физически находящихся в одном и том же месте, но в том случае, например, когда установленный на голову дисплей или другая гарнитура VR обеспечивает изоляцию восприятия физической окружающей обстановки.As a specific example, MPEG is attempting to standardize the bitstream and decoder for realistic, immersive AR/VR experiences with six degrees of freedom. Social VR is an important feature and allows users to interact in a shared environment (games, conference calls, online shopping, etc.). The concept of social VR also contributes to making virtual reality a more social experience for users who are physically in the same place, but in the case, for example, when a head-mounted display or other VR headset provides isolation from the perception of the physical environment.

Недостатком воспроизведения через наушники в таких примерах использования «социальной» или «общей» AR (или VR) является то, что при ношении каждым пользователем индивидуальных наушников находящиеся в одном месте (например, помещении) пользователи по меньшей мере частично акустически изолированы друг от друга, что уменьшает «социальную» часть восприятия (например, стоящим рядом друг с другом людям становится трудно или неудобно вести естественную беседу).The disadvantage of playing through headphones in such use cases of "social" or "general" AR (or VR) is that when each user wears individual headphones, located in the same place (for example, a room), users are at least partially acoustically isolated from each other, which reduces the “social” part of perception (for example, it becomes difficult or uncomfortable for people standing next to each other to conduct a natural conversation).

Эту проблему можно решить использованием для воспроизведения аудио акустических систем вместо наушников. Однако этот подход имеет недостаток, заключающийся в том, что воспроизведение аудио не может быть столь легко адаптировано и приспособлено под конкретного пользователя. Например, затрудняется динамическая адаптация воспроизведения аудио к движениям головы и, в частности, к изменениям ориентации головы каждого отдельного пользователя. Такой эффект очень важен для ощущения погружения, и поэтому акустические системы, как правило, не оптимальны для формирования оптимизированного восприятия пользователем.This problem can be solved by using speakers instead of headphones for audio playback. However, this approach has the disadvantage that audio playback cannot be as easily adapted and tailored to a particular user. For example, it is difficult to dynamically adapt audio playback to head movements and, in particular, to changes in the orientation of the head of each individual user. This effect is very important for the immersive experience, and therefore loudspeakers are generally not optimal for delivering an optimized user experience.

Поэтому был бы полезен усовершенствованный подход к обработке аудио, в частности, для применения восприятия/применения виртуальной/дополненной/смешанной реальности. В частности, был бы полезен подход, позволяющий улучшить работу, повысить гибкость, уменьшить сложность, облегчить реализацию, улучшить восприятие аудио, улучшить согласование восприятия аудио и визуальной сцены, улучшить адаптацию, улучшить персонификацию, улучшить восприятие виртуальной реальности и/или улучшить рабочие характеристики и/или работу.Therefore, an improved audio processing approach would be useful, in particular for perceptual/virtual/augmented/mixed reality applications. In particular, an approach would be useful to improve performance, increase flexibility, reduce complexity, facilitate implementation, improve audio experience, improve audio and visual scene perception matching, improve adaptation, improve personification, improve virtual reality experience, and/or improve performance and /or work.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.Accordingly, the present invention is directed to preferably weakening, alleviating or eliminating one or more of the above disadvantages, individually or in any combination.

В соответствии с аспектом настоящего изобретения предложено аудиоустройство, содержащее: приемник для приема данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов; первый преобразователь для воспроизведения для преобразования для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем; второй преобразователь для воспроизведения для преобразования для воспроизведения аудиоэлементов путем формирования второго набора сигналов для наушников; и селектор, выполненный с возможностью выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на первый указатель свойства преобразования для воспроизведения аудио; причем указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с позой слушателя, зависящей от положения, или с позой слушателя, не зависящей от положения.In accordance with an aspect of the present invention, an audio device is provided, comprising: a receiver for receiving data describing an audio scene, the data containing audio data for a set of audio elements corresponding to audio sources in the specified scene, and metadata containing at least a first index of a transform property for playing audio for the first audio element from a set of audio elements; a first playback converter for converting to reproduce audio elements by generating a first set of audio signals for a set of speakers; a second playback converter for converting to reproduce audio elements by generating a second set of headphone signals; and a selector configured to select between the first playback converter and the second playback converter for converting to reproduce at least the first part of the first audio element in response to the first audio playback transform property indicator; wherein the audio playback transform property pointer indicates whether the first part of the first audio element is associated with a position-dependent listener pose or a position-independent listener pose.

Данный подход может обеспечить улучшенное восприятие пользователем во многих вариантах реализации и может, в частности, обеспечить улучшенное восприятие пользователем для многих приложений виртуальной реальности (в том числе дополненной и смешанной реальности), включая, в частности, социальное или общее восприятие. Настоящий подход может обеспечить улучшенные рабочие характеристики с помощью гибридного преобразования для воспроизведения. Например, во многих вариантах реализации он может позволить облегчить находящимся в одном и том же помещении пользователям непосредственную беседу друг с другом, обеспечивая при этом целенаправленное и персонализированное преобразование для воспроизведения аудиосцены.This approach may provide an improved user experience in many implementations, and may in particular provide an improved user experience for many virtual reality applications (including augmented and mixed reality), including but not limited to social or general experiences. The present approach can provide improved performance with hybrid rendering. For example, in many implementations, it may allow users in the same room to facilitate face-to-face conversations with each other while providing a targeted and personalized transformation for audio scene reproduction.

Указатель свойства преобразования для воспроизведения аудио может указывать, представляет ли первый аудиоэлемент аудиоисточник с пространственным свойством, которое является привязанным к ориентации головы или не привязанным к ориентации головы (соответствующим зависящему от позы слушателя положению и независящему от позы слушателя положению, соответственно). Данный подход может уменьшить сложность и потребности в ресурсах.The audio playback transform property pointer may indicate whether the first audio element represents an audio source with a spatial property that is head-orientation-bound or head-orientation-free (corresponding to a listener's pose-dependent position and a listener's pose-independent position, respectively). This approach can reduce complexity and resource requirements.

В некоторых вариантах реализации устройство может содержать первый возбудитель для возбуждения набора акустических систем за счет первого набора аудиосигналов и второй возбудитель для возбуждения наушников за счет второго набора аудиосигналов. Первый набор аудиосигналов может быть, в частности, набором сигналов окружающего звука, а второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом.In some embodiments, the device may include a first driver for driving a set of speakers with a first set of audio signals and a second driver for driving headphones with a second set of audio signals. The first set of audio signals may in particular be a set of surround sound signals and the second set of audio signals may be in particular a binaural stereo signal.

Первый указатель свойства преобразования для воспроизведения аудио может указывать свойство преобразования для воспроизведения, которое нужно применить к первому аудиоэлементу, или свойство первого аудиоэлемента.The first audio playback transform property pointer may indicate a playback transform property to be applied to the first audio element, or a property of the first audio element.

В соответствии с необязательным признаком настоящего изобретения устройство также содержит приемник позы слушателя для приема позы слушателя, указывающей позу слушателя, причем первый преобразователь для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов независимо от позы слушателя, а второй преобразователь для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов в ответ на позу слушателя.In accordance with an optional feature of the present invention, the apparatus also comprises a listener position receiver for receiving a listener posture indicative of the listener posture, wherein the first playback transducer is configured to generate a first set of audio signals independent of the listener's posture, and the second playback transducer is configured to generate a second set of audio signals. audio signals in response to the listener's posture.

Аудиоустройство может обеспечивать весьма благоприятное и гибкое восприятие пользователем, делающее возможным тесную согласованность между, например, движением пользователя и воспринимаемой аудиосценой. Поза может относиться к данным о положении и/или ориентации и может также упоминаться как расположение. Поза слушателя может быть указанием положения слушателя, указанием ориентации слушателя или комбинированным указанием положения и ориентации слушателя. Поза/расположение могут быть представлены одним или более значениями, обеспечивающими указание положения и/или направления.An audio device can provide a highly favorable and flexible user experience, allowing for a tight match between, for example, the user's movement and the perceived audio scene. Pose may refer to position and/or orientation data and may also be referred to as position. The listener's posture may be an indication of the position of the listener, an indication of the orientation of the listener, or a combination of the indication of the position and orientation of the listener. A pose/position may be represented by one or more values providing an indication of position and/or direction.

В соответствии с необязательным признаком настоящего изобретения устройство выполнено с возможностью формирования аудиосигналов для множества слушателей, причем первый преобразователь для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов как общего набора аудиосигналов для множества слушателей; а второй преобразователь для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов для наушников первого слушателя из множества слушателей и формирования третьего набора аудиосигналов для наушников второго слушателя из множества слушателей.In accordance with an optional feature of the present invention, the apparatus is configured to generate audio signals for a plurality of listeners, wherein the first playback converter is configured to generate the first set of audio signals as a common set of audio signals for the plurality of listeners; and the second playback converter is configured to generate a second set of first listener headphone audio signals from the plurality of listeners and generate a third set of second listener headphone audio signals from the plurality of listeners.

Аудиоустройство может обеспечивать эффективную поддержку для множества пользователей. Во многих приложениях может быть достигнута улучшенная поддержка снижения сложности и использования ресурсов, но, тем не менее, обеспечивающая привлекательное впечатление от использования, часто с непротиворечивым и естественным восприятием аудиопространства.The audio device may provide effective support for multiple users. In many applications, improved support for reducing complexity and resource usage can be achieved while still providing an engaging user experience, often with a consistent and natural feel to the audio space.

Второй набор аудиосигналов может быть сформирован в ответ на первую позу слушателя для первого слушателя, а третий набор аудиосигналов может быть сформирован в ответ на вторую позу для второго слушателя. Первый набор сигналов может быть сформирован независимо от поз слушателей.The second set of audio signals may be generated in response to the first listener position for the first listener, and the third set of audio signals may be generated in response to the second position for the second listener. The first set of signals can be generated independently of the listeners' postures.

В соответствии с необязательным признаком настоящего изобретения первая часть является частотным поддиапазоном первого аудиоэлемента.In accordance with an optional feature of the present invention, the first part is the frequency subband of the first audio element.

Это может обеспечить улучшенные рабочие характеристики во многих вариантах реализации.This may provide improved performance in many implementations.

В соответствии с необязательным признаком настоящего изобретения селектор выполнен с возможностью выбора разных преобразователей для воспроизведения из первого преобразователя для воспроизведения и второго преобразователя для воспроизведения для первой части первого аудиоэлемента и для второй части первого аудиоэлемента.In accordance with an optional feature of the present invention, the selector is configured to select different playback transducers from a first playback transducer and a second playback transducer for the first part of the first audio element and for the second part of the first audio element.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Селектор может быть, в частности, выполнен с возможностью выбора разных преобразователей для воспроизведения для разных частотных диапазонов первого аудиоэлемента.This may provide an improved user experience in many implementations. The selector may in particular be configured to select different transducers for reproduction for different frequency ranges of the first audio element.

Это может обеспечить эффективный подход во многих приложениях. Указатель свойства преобразования для воспроизведения аудио может указывать, является ли первый аудиоэлемент диегетическим или нет.This can provide an efficient approach in many applications. The audio playback transform property pointer may indicate whether the first audio element is diegetic or not.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает аудиоформат первого аудиоэлемента.According to an optional feature of the present invention, the audio playback transform property pointer indicates the audio format of the first audio element.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Указатель свойства преобразования для воспроизведения аудио может указывать аудиоформат из набора аудиоформатов, содержащего по меньшей мере один аудиоформат из группы: формат аудиообъекта, аудиоформат амбиофонии более высокого порядка и аудиоформат сигнала аудиоканала.This may provide an improved user experience in many implementations. The transform property pointer for audio playback may indicate an audio format from a set of audio formats containing at least one audio format from the group: an audio object format, a higher order ambiophonic audio format, and an audio channel signal audio format.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает тип аудиоисточника для первого аудиоэлементаAccording to an optional feature of the present invention, the audio playback transform property pointer specifies the audio source type for the first audio element.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Указатель свойства преобразования для воспроизведения аудио может указывать тип аудиоисточника из набора типов аудиоисточника, содержащего по меньшей мере один тип аудиоисточника из группы: речевое аудио, музыкальное аудио, аудио переднего плана, фоновое аудио, закадровое аудио и аудио актера, читающего текст от автора.This may provide an improved user experience in many implementations. The audio playback transform property pointer may indicate an audio source type from an audio source type set containing at least one audio source type from the group: speech audio, music audio, foreground audio, background audio, voice-over audio, and audio of an actor reading text from an author.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает руководящее свойство преобразования для воспроизведения для преобразования для воспроизведения первого аудиоэлемента.According to an optional feature of the present invention, the audio playback transform property pointer indicates a playback transform guide property for the first audio element's transform to reproduce.

Это может обеспечить улучшенные восприятие пользователем и/или рабочие характеристики во многих вариантах реализации.This may provide improved user experience and/or performance in many implementations.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает, предназначена ли первая часть первого аудиоэлемента для преобразования для воспроизведения через акустические системы или наушники.According to an optional feature of the present invention, the audio playback conversion property indicator indicates whether the first part of the first audio element is to be converted for playback through speakers or headphones.

В соответствии с необязательным признаком настоящего изобретения приемник также выполнен с возможностью приема визуальных данных, указывающих виртуальную сцену, соответствующую аудиосцене, а указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первый аудиоэлемент аудиоисточник, соответствующий объекту аудиосцены.In accordance with an optional feature of the present invention, the receiver is also configured to receive visual data indicative of a virtual scene corresponding to an audio scene, and an audio playback transform property pointer indicating whether the first audio element represents an audio source corresponding to an audio scene object.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может указывать, представляет ли первый аудиоэлемент аудиосцену, соответствующую объекту сцены, который находится в пределах окна просмотра, определенного для текущей позы слушателя.In some embodiments, the audio playback transform property pointer may indicate whether the first audio element represents an audio scene corresponding to a scene object that is within the viewport defined for the listener's current pose.

В соответствии с необязательным признаком настоящего изобретения устройство также содержит пользовательский ввод для приема пользовательского ввода, и при этом селектор выполнен с возможностью выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на пользовательский ввод.In accordance with an optional feature of the present invention, the apparatus also comprises a user input for receiving a user input, wherein the selector is configured to select between a first playback transducer and a second playback transducer for converting to play at least a first portion of the first audio element in response to the user input.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации.This may provide an improved user experience in many implementations.

В соответствии с необязательным признаком настоящего изобретения селектор выполнен с возможностью определения свойства аудио первого аудиоэлемента и выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на свойство аудио.In accordance with an optional feature of the present invention, the selector is configured to determine an audio property of the first audio element and select between a first playback transducer and a second playback transducer to transform to reproduce at least a first portion of the first audio element in response to the audio property.

В соответствии с аспектом настоящего изобретения предложен способ обработки аудио, включающий: прием данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов; преобразование для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем; преобразования для воспроизведения аудиоэлементов путем формирования второго набора сигналов для наушников; и выбор между преобразованием для воспроизведения по меньшей мере первой части первого аудиоэлемента для набора акустических систем и набора наушников в ответ на первый указатель свойства преобразования для воспроизведения аудио; причем указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с позой слушателя, зависящей от положения, или с позой слушателя, не зависящей от положения.In accordance with an aspect of the present invention, an audio processing method is provided, including: receiving data describing an audio scene, the data containing audio data for a set of audio elements corresponding to audio sources in the specified scene, and metadata containing at least a first index of a transform property for playing audio for the first audio element from a set of audio elements; converting to reproduce audio elements by generating a first set of audio signals for a set of speakers; transformations for reproducing audio elements by generating a second set of headphone signals; and selecting between a transform to reproduce at least a first portion of the first audio element for the speaker set and the headphone set in response to the first audio transform property pointer; wherein the audio playback transform property pointer indicates whether the first part of the first audio element is associated with a position-dependent listener pose or a position-independent listener pose.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на варианты реализации.These and other aspects, features and/or advantages of the present invention will become apparent from the embodiments described later in this document and will be explained with reference to the embodiments.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:Embodiments of the invention will be described by way of example only, with reference to the drawings, in which:

на ФИГ. 1 показан пример системы виртуальной реальности на основе архитектуры клиент-сервер; иin FIG. 1 shows an example of a virtual reality system based on a client-server architecture; And

на ФИГ. 2 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения.in FIG. 2 shows an example of elements of an audio device in accordance with some embodiments of the present invention.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION

Восприятия виртуальной реальности (включая дополненную и смешанную реальность), позволяющие пользователю перемещаться в виртуальном или дополненном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги. Во многих таких подходах визуальные данные и аудиоданные могут быть сформированы динамически для отражения текущего положения пользователя (или зрителя).Virtual reality experiences (including augmented and mixed reality) that allow the user to navigate in a virtual or augmented world are becoming increasingly popular, and services are being developed to meet this demand. In many such approaches, visual data and audio data can be generated dynamically to reflect the user's (or viewer's) current position.

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации. Комбинация положения и направления/ориентации, например, объекта, камеры, головы или вида, может называться позой или расположением. Таким образом, указание расположения или позы может включать до шести значений/компонентов, или составляющих/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).In the art, the terms "location" and "posture" are used as a general term for position and/or direction/orientation. A combination of position and direction/orientation, such as an object, camera, head, or view, may be referred to as a posture or position. Thus, a position or pose indication may include up to six values/components, or components/degrees of freedom, with each value/component/degree of freedom describing a separate property of the position/location or orientation/direction of the respective object. Of course, in many situations, a location or pose can be represented using fewer components, for example, if one or more components is considered fixed or irrelevant (for example, if all objects are considered to be located at the same height and have a horizontal orientation, then four components can provide a complete representation of the object's pose). Hereinafter, the term "pose" is used to refer to the position and/or orientation, which can be represented by one to six values (corresponding to the maximum possible degrees of freedom).

Многие приложения виртуальной реальности основаны на позе, имеющей максимум степеней свободы, т.е. по три степени свободы каждого из положения и ориентации, дающих в результате в общей сложности шесть степеней свободы. Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.Many applications of virtual reality are based on a posture that has a maximum degree of freedom, i.e. three degrees of freedom each of position and orientation, resulting in a total of six degrees of freedom. Thus, a pose may be represented by a set or vector of six values representing six degrees of freedom, and therefore a pose vector may provide an indication of a 3D position and/or a 3D direction. However, it is understood that in other implementations, the pose may be represented by fewer values.

Систему или объект, основанные на обеспечении максимума степеней свободы для зрителя, обычно называют имеющими 6 степеней свободы. Многие системы и объекты обеспечивают только ориентацию или положение, и их обычно называют имеющими 3 степени свободы.A system or object based on providing maximum degrees of freedom for the viewer is usually referred to as having 6 degrees of freedom. Many systems and objects only provide orientation or position and are commonly referred to as having 3 degrees of freedom.

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз. Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности. В других вариантах реализации одно или более изображений вида могут быть, например, представлены на автостереоскопическом дисплее или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).Typically, a virtual reality application generates 3D output as separate left and right eye view images. They can then be presented to the user by suitable means, typically such as separate displays for the left and right eyes of a virtual reality headset. In other embodiments, one or more view images may, for example, be presented on an autostereoscopic display, or in fact, in some embodiments, only one 2D image may be generated (eg, using a conventional 2D display).

Аналогичным образом для данной позы зрителя/пользователя/слушателя может быть обеспечено аудиопредставление сцены. Аудиосцену обычно преобразуют для воспроизведения для обеспечения пространственного восприятия, в котором аудиоисточники воспринимаются как происходящие из требуемых положений. Аудиоисточники могут быть статичными в сцене, а изменения позы пользователя приведут к изменению относительного положения аудиоисточника относительно позы пользователя. Соответственно, пространственное восприятие аудиоисточника следует изменять для отражения нового положения относительно пользователя. Преобразование для воспроизведения аудио может быть, соответственно, адаптировано в зависимости от позы пользователя.Similarly, for a given viewer/user/listener pose, an audio representation of the scene can be provided. The audio scene is typically rendered to provide a spatial experience in which audio sources are perceived as originating from desired positions. Audio sources can be static in a scene, and changes in the user's pose will change the relative position of the audio source relative to the user's pose. Accordingly, the spatial perception of the audio source should be changed to reflect the new position relative to the user. The audio playback transform can be adapted accordingly depending on the user's posture.

Входные данные позы зрителя или пользователя могут быть определены разными путями в разных приложениях. Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно. Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза (отслеживание глаз)) пользователя. Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами. Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы. В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять положение гарнитуры виртуальной реальности.Viewer or user pose input can be defined in different ways in different applications. In many implementations, the physical movement of the user can be tracked directly. For example, a camera capturing a user's area can detect and track the head (or even eyes (eye tracking)) of the user. In many implementations, the user may be wearing a virtual reality headset that can be monitored by external and/or internal means. For example, the headset may contain accelerometers and gyroscopes that provide information about the movement and rotation of the headset and hence the head. In some examples, the virtual reality headset may transmit signals or contain (eg, visual) identifiers that allow an external sensor to determine the position of the virtual reality headset.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным средством ввода вручную. Например, пользователь может вручную перемещать виртуального зрителя вокруг виртуальной сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.In some systems, the viewer's pose may be provided by manual means, such as by the user manually operating a joystick or similar manual input. For example, the user may manually move the virtual viewer around the virtual stage by operating the first analog stick with one hand, and manually control the direction the virtual viewer is facing by manually moving the second analog stick with the other hand.

В некоторых приложениях для формирования входной позы зрителя может быть использовано сочетание ручного и автоматизированного подходов. Например, гарнитура может отслеживать ориентацию головы, а перемещением/положением зрителя в сцене может управлять пользователь с помощью джойстика.In some applications, a combination of manual and automated approaches may be used to generate the viewer's entrance pose. For example, the headset can track the orientation of the head, and the movement/position of the viewer in the scene can be controlled by the user using a joystick.

В некоторых системах приложение виртуальной реальности может быть предоставлено зрителю локально, например, с помощью автономного устройства, которое не использует какие-либо удаленные данные или обработку виртуальной реальности, или даже не имеет никакого доступа к ним. Например, устройство, такое как игровая консоль, может содержать хранилище для хранения данных сцены, вход для приема/формирования позы зрителя и процессор для формирования соответствующих изображений из данных сцены.In some systems, the virtual reality application may be provided to the viewer locally, such as by a stand-alone device that does not use or even have any access to any remote virtual reality data or processing. For example, a device such as a game console may include a store for storing scene data, an input for receiving/shaping a viewer's pose, and a processor for generating appropriate images from the scene data.

В других системах приложение виртуальной реальности может быть реализовано и выполнено удаленно от зрителя. Например, устройство, локальное для пользователя, может обнаруживать/принимать данные движения/позы, передаваемые удаленному устройству, которое обрабатывает данные для формирования позы зрителя. После этого удаленное устройство может формировать подходящие изображения вида для позы зрителя на основе данных сцены, описывающих сцену. Затем изображения вида передают на устройство, локальное для зрителя, где их представляют. Например, удаленное устройство может непосредственно формировать видеопоток (обычно поток стерео/3D-видео), который непосредственно представляют с помощью локального устройства.In other systems, the virtual reality application may be implemented and executed remotely from the viewer. For example, a device local to the user may detect/receive motion/pose data transmitted to a remote device that processes the data to form the viewer's pose. Thereafter, the remote device may generate appropriate view images for the viewer's pose based on the scene data describing the scene. The view images are then transferred to a device local to the viewer where they are presented. For example, the remote device may directly generate a video stream (typically a stereo/3D video stream) that is directly presented by the local device.

Аналогичным образом удаленное устройство может формировать аудиосцену, отражающую виртуальную окружающую аудиосреду. Во многих вариантах реализации этом может быть сделано путем формирования аудиоэлементов, которые соответствуют относительному положению разных радиоисточников в виртуальной окружающей аудиосреде, причем их преобразуют для воспроизведения так, чтобы они воспринимались в соответствующих положениях.Similarly, the remote device may generate an audio scene that reflects the virtual audio environment. In many implementations, this can be done by generating audio elements that correspond to the relative position of different radio sources in the virtual audio environment, and are converted for playback so that they are perceived in their respective positions.

Например, удаленное устройство может формировать аудиоданные, представляющие аудиосцену, и может передавать аудиокомпоненты/аудиообъекты/аудиосигналы или другие аудиоэлементы, соответствующие разным аудиоисточниками в аудиосцене, вместе информацией о положении, указывающей положение этих источников (которое может, например, динамически изменяться для движущихся объектов). В число аудиоэлементов могут входить аудиоэлементы, связанные с конкретными положениями, но могут также входить элементы для более распределенных или рассеянных аудиоисточников. Например, могут быть предусмотрены аудиоэлементы, представляющие общий (нелокализованный) фоновой звук, звук окружающей среды, рассеянную реверберацию и т.д.For example, a remote device may generate audio data representing an audio scene and may transmit audio components/audio objects/audio signals or other audio elements corresponding to different audio sources in the audio scene together with position information indicating the position of those sources (which may, for example, change dynamically for moving objects) . Audio elements may include position-specific audio elements, but may also include elements for more distributed or diffuse audio sources. For example, audio elements may be provided representing a general (non-localized) background sound, ambient sound, diffuse reverb, and so on.

В таком случае локальное устройство VR может преобразовать для воспроизведения аудиоэлементы соответствующим образом, например, путем применения надлежащей бинауральной обработки, отражающей относительное положение аудиоисточников для аудиокомпонентов.In such a case, the local VR device can render the audio elements appropriately, for example by applying appropriate binaural processing that reflects the relative position of the audio sources for the audio components.

Что касается аудио в услуге VR, в некоторых вариантах реализации центральный сервер может соответствующим образом формировать аудиоданные, представляющие аудиосцену, и может, в частности, представлять эту адиосцену при помощи ряда аудиоэлементов, которые могут быть преобразованы для воспроизведения локальным клиентом/устройством.With respect to audio in a VR service, in some embodiments, a central server may appropriately generate audio data representing an audio scene, and may specifically represent that adioscene with a set of audio elements that can be rendered by a local client/device.

На ФИГ. 1 показан пример системы VR, в которой центральный сервер 101 поддерживает связь с рядом удаленных клиентов 103, например, через сеть 105, такую как, например Интернет. Центральный сервер 101 может быть выполнен с возможностью одновременной поддержки потенциально большого количества удаленных клиентов 103.FIG. 1 shows an example of a VR system in which a central server 101 communicates with a number of remote clients 103, such as through a network 105 such as the Internet. The central server 101 may be configured to support a potentially large number of remote clients 103 at the same time.

Такой подход может обеспечивать улучшенный компромисс, например, между сложностью и потребностью в ресурсах для разных устройств, требованиями к связи и т.д., во многих сценариях. Например, поза зрителя и соответствующие данные сцены могут передаваться с более длинными интервалами, при этом локальное устройство обрабатывает позу зрителя и принятые данные сцены локально для обеспечения восприятия в реальном времени с малым запаздыванием. Это может, например, существенно уменьшить требуемую полосу пропускания связи с обеспечением при этом восприятия с малой задержкой при возможности централизованного хранения, формирования и поддержания данных сцены. Это может, например, подойти для приложений, в которых восприятие виртуальной реальности обеспечивают на множестве удаленных устройств.Such an approach can provide an improved trade-off between, for example, complexity and resource requirements for different devices, communication requirements, etc., in many scenarios. For example, the viewer's pose and corresponding scene data may be transmitted at longer intervals, with the local device processing the viewer's pose and the received scene data locally to provide real-time perception with low latency. This can, for example, significantly reduce the required communication bandwidth while providing low latency perception while allowing centralized storage, generation and maintenance of scene data. This may, for example, be suitable for applications in which a virtual reality experience is provided on multiple remote devices.

На ФИГ. 2 показаны элементы аудиоустройства, которое может обеспечить улучшенное преобразование для воспроизведения аудио во многих приложениях и сценариях. В частности, аудиоустройство может обеспечить улучшенное преобразование для воспроизведения для многих приложений VR, и аудиоустройство может быть, в частности, выполнено с возможностью выполнения обработки и преобразования для воспроизведения аудио для клиента 103 VR, приведенного на ФИГ. 1.FIG. 2 shows the elements of an audio device that can provide improved conversion for audio playback in many applications and scenarios. In particular, the audio device can provide improved playback conversion for many VR applications, and the audio device can specifically be configured to perform audio playback processing and conversion for the VR client 103 shown in FIG. 1.

Аудиоустройство, изображенное на ФИГ. 2, выполнено с возможностью преобразования для воспроизведения аудиосцены путем формирования гибридного набора выходных сигналов, причем первый (под-)набор выходных сигналов формируют для преобразования для воспроизведения набором акустических систем, а второй (под-)набор выходных сигналов формируют для преобразования для воспроизведения наушниками. Первый набор аудиосигналов может быть, в частности, набором сигналов окружающего звука для преобразования для воспроизведения на акустической установке окружающего звучания. Второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом для преобразования для воспроизведения в наушниках.The audio device shown in FIG. 2 is configured to be converted for audio scene playback by generating a hybrid output set, wherein the first (sub-)set of outputs is generated for conversion for playback by a set of speakers, and the second (sub-)set of outputs is generated for conversion for playback by headphones. The first set of audio signals may in particular be a set of surround sound signals to be converted for playback on a surround sound installation. The second set of audio signals may in particular be a binaural stereo signal to be converted for playback in headphones.

Аудиоустройство на ФИГ. 2 может быть частью гибридной системы воспроизведения аудио для VR/AR, которая использует комбинацию воспроизведения в наушниках и акустической системе для обеспечения представления аудиосцены.The audio device in FIG. 2 may be part of a hybrid audio playback system for VR/AR that uses a combination of headphone and speaker playback to provide an audio scene presentation.

Такой подход может обеспечить эффективную работу во многих вариантах реализации. Например, во многих сценариях использование комбинации воспроизведения в наушниках и акустической системе вместо воспроизведения либо в одном, либо в другом, может обеспечить восприятие AR (или VR/MR) с высокой степенью погружения для каждого отдельного пользователя и, в то же время, без ущерба для «социального» или «общего» аспекта восприятия. Например, благодаря этому преобразуемое для воспроизведения аудио может быть адаптировано для отдельных пользователей и текущего контекста для пользователя. Например, это может позволить точно адаптировать положения аудиоисточников для приведения в соответствие с движениями/поворотами головы пользователя. В то же время это может уменьшить сложность, требуемую для бинауральной обработки, поскольку существенные части аудиосцены могут быть преобразованы для воспроизведения с помощью менее сложной обработки аудиоканала/окружающего звука. Кроме того, это может быть основано, например, на использовании наушников с низким ослаблением внешнего звука, что, например, облегчает непосредственное взаимодействие между пользователями в одной и той же окружающей среде/помещении.This approach can work effectively in many implementations. For example, in many scenarios, using a combination of headphone and speaker playback, instead of either playback in one or the other, can provide a highly immersive AR (or VR/MR) experience for each individual user while not compromising for the "social" or "general" aspect of perception. For example, due to this, the audio being converted for playback can be adapted to individual users and the current context for the user. For example, this may allow the positions of the audio sources to be precisely adapted to match the movements/turns of the user's head. At the same time, this can reduce the complexity required for binaural processing since significant portions of the audio scene can be rendered for playback with less complex audio/surround processing. In addition, this may be based, for example, on the use of headphones with low external sound attenuation, which, for example, facilitates direct interaction between users in the same environment/room.

В дальнейшем описании основное внимание будет уделено вариантам реализации, в которых система преобразует для воспроизведения аудиосцену с использованием комбинации акустической установки окружающего звучания (например, системы 5.1 или 7.1), которая является общей для всех локальных пользователей, и индивидуальных (открытых или полуоткрытых) наушников для отдельных пользователей (где «индивидуальные наушники» означают наушники, преобразующие для воспроизведения сигнал, который был сформирован или адаптирован для пользователя, носящего эти наушники).The following description will focus on implementations in which the system converts an audio scene for playback using a combination of a surround sound setup (e.g., a 5.1 or 7.1 system) that is common to all local users, and individual (open or semi-open) headphones for individual users (where "individual headphones" means headphones that convert for reproduction a signal that has been generated or adapted for the user wearing the headphones).

В частности, устройство будет описано со ссылкой на пример использования «социального» или «общего» аспекта приложения VR/AR/MR с общим восприятием множеством людей. Они могут находиться в разных местах, но, что более интересно в данном примере, могут также находиться в одном и том же месте (например, в одном и том же помещении). В качестве конкретного примера использования несколько человек находятся в одном и том же помещении и имеют одно и то же общее восприятие AR, которое «проецируется» в пределах их общей реальной окружающей среды. Например, пара, сидящая вместе на диване и просматривающая фильм с эффектом погружения, виртуально проецируемый на стенку их гостиной. На них могут быть надеты прозрачные очки, позволяющие им видеть друг друга и окружающую их среду, а также открытые наушники, позволяющие как осуществлять специально предназначенное персонифицированное преобразование для воспроизведения, так и слышать аудио в окружающей среде, в том числе формируемое установкой окружающего звучания.In particular, the device will be described with reference to an example of using the "social" or "general" aspect of a VR/AR/MR application with a common perception by a plurality of people. They can be in different locations, but more interestingly in this example, they can also be in the same location (for example, in the same room). As a specific use case, multiple people are in the same room and have the same overall AR experience that is "projected" within their shared real world environment. For example, a couple sitting together on the couch watching an immersive movie projected virtually onto the wall of their living room. They may wear transparent glasses to allow them to see each other and their environment, as well as open headphones to allow both specially designed personalized conversion for playback and hear audio in the environment, including that generated by the surround sound setup.

В частности, устройство на ФИГ. 2 содержит приемник 201, который выполнен с возможностью приема данных, описывающих виртуальную сцену. Данные могут содержать данные, обеспечивающие визуальное описание сцена, и могут содержать данные, обеспечивающие звуковое описание сцены. Таким образом, принимаемые данные могут обеспечить описание аудиосцены и описание визуальной сцены.In particular, the device in FIG. 2 includes a receiver 201 that is configured to receive data describing a virtual scene. The data may include data that provides a visual description of a scene and may contain data that provides an audio description of a scene. Thus, the received data can provide an audio scene description and a visual scene description.

Приемник 201 соединен с визуальным преобразователем 203 для воспроизведения, который приступает к преобразованию для воспроизведения изображений, соответствующих текущей позе обзора зрителя. Например, данные могут содержать пространственные данные 3D-изображения (например, изображения и глубину или описание модели сцены), и из них визуальный преобразователь 203 для воспроизведения может формировать стереоизображения (изображение для левого и правого глаз пользователя), как известно специалисту в данной области. Изображения могу быть представлены пользователю, например, с помощью отдельных дисплеев для левого и правого глаз гарнитуры VR.The receiver 201 is connected to a rendering renderer 203 which proceeds to render rendering of images corresponding to the viewer's current viewing position. For example, the data may contain spatial 3D image data (e.g., images and depth or description of a scene model), and from these, the rendering renderer 203 may generate stereo images (an image for the user's left and right eyes), as is known to one skilled in the art. Images can be presented to the user, for example, using separate displays for the left and right eyes of a VR headset.

Принимаемые данные содержать аудиоданные, описывающие сцену. В частности, аудиоданные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в сцене. Некоторые аудиоэлементы могут представлять локализованные аудиоисточники в сцене, которые связаны с конкретным положением в сцене (разумеется, положение может динамически изменяться в случае движущегося объекта). Часто аудиоэлемент может представлять аудио, сформированное конкретным объектом сцены в виртуальной сцене и, следовательно, может представлять аудиоисточник в положении, соответствующем положению объекта сцены (например, говорящего человека).The received data contains audio data describing the scene. In particular, the audio data contains audio data for a set of audio elements corresponding to audio sources in the scene. Some audio elements may represent localized audio sources in the scene that are associated with a specific position in the scene (of course, the position may change dynamically in the case of a moving object). Often, an audio element may represent audio generated by a particular scene object in a virtual scene, and therefore may represent an audio source at a position corresponding to the position of the scene object (eg, a speaking person).

Другие элементы могут представлять более распределенные или рассеянные аудиоисточники, такие как, например, окружающий или фоновый шум, который может быть рассеянным. В качестве еще одного примера некоторые аудиоэлементы могут полностью или частично представлять не локализованные в пространстве компоненты аудио от локализованных аудиоисточников, таких как, например, рассеянная реверберация от четко определенного в пространстве аудиоисточника.Other elements may represent more distributed or diffuse audio sources such as, for example, ambient or background noise, which may be diffuse. As another example, some audio elements may wholly or partly represent non-spatialized audio components from localized audio sources, such as, for example, diffuse reverberation from a well-defined audio source.

Аудиоэлементы могут представлять собой закодированные аудиоданные, такие как закодированные аудиосигналы. Аудиоэлементы могут быть аудиоэлементами разных типов, в том числе сигналами и компонентами разных типов, и даже во многих вариантах реализации первый приемник 201 может принимать аудиоданные, которые определяют аудио разных типов/форматов. Например, аудиоданные могут содержать аудио, представленное сигналами аудиоканала, отдельными аудиообъектами, амбиофонией более высокого порядка (Higher Order Ambisonics, HOA) и т.д.The audio elements may be encoded audio data, such as encoded audio signals. The audio elements may be different types of audio elements, including different types of signals and components, and even in many implementations, the first receiver 201 may receive audio data that defines different types/formats of audio. For example, the audio data may contain audio represented by audio channel signals, individual audio objects, Higher Order Ambisonics (HOA), and so on.

Аудио может быть, например, представлено в виде кодированного аудио для данного аудиокомпонента, который нужно преобразовать для воспроизведения. Аудиоданные могут также содержать данные о положении, которые указывают положение источника аудиокомпонента. Позиционные данные могут, например, содержать данные об абсолютном положении, определяющие положение аудиоисточника в сцене.The audio may, for example, be represented as encoded audio for a given audio component to be converted for playback. The audio data may also contain position data that indicates the position of the source of the audio component. The positional data may, for example, contain absolute position data specifying the position of the audio source in the scene.

Устройство также содержит два преобразователя 205, 207 для воспроизведения.The device also contains two transducers 205, 207 for reproduction.

Первый преобразователь 205 для воспроизведения выполнен с возможностью преобразования для воспроизведения аудиоэлементов через набор акустических систем. В частности, первый преобразователь 205 для воспроизведения может формировать первый набор аудиосигналов для набора акустических систем, причем первый набор аудиосигналов представляет собой, например, набор сигналов окружающего звука для акустической установки окружающего звучания.The first playback transducer 205 is configured to convert to reproduce audio elements through a set of speakers. In particular, the first playback converter 205 may generate a first set of audio signals for a set of speakers, the first set of audio signals being, for example, a set of surround signals for a surround sound speaker setup.

Таким образом, первый преобразователь 205 для воспроизведения может формировать аудиосигналы, которые предназначены для преобразования для воспроизведения акустической системой конкретной конфигурации. Первый преобразователь 205 для воспроизведения может формировать сигнал для каждой акустической системы конфигурации окружающего звучания и, следовательно, для преобразования для воспроизведения из конкретного места, соответствующего положению динамика в конфигурации.Thus, the first playback converter 205 can generate audio signals that are intended to be converted for playback by a speaker system of a particular configuration. The first playback transducer 205 may generate a signal for each speaker of the surround configuration, and hence for conversion for playback from a specific location corresponding to the position of the speaker in the configuration.

Первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования аудиосигналов так, чтобы преобразование для воспроизведения данного аудиоэлемента выполняли таким образом, чтобы совокупный эффект создавал впечатление аудиоэлемента, преобразуемого для воспроизведения из требуемого положения. Как правило, принимаемые данные могут, по меньшей мере для некоторых аудиоэлементов, содержать конкретные указания положения, а первый преобразователь 205 для воспроизведения может преобразовывать для воспроизведения аудиоэлементы так, что они воспринимаются как происходящие из указанного положения. Другие аудиоэлементы могут быть, например, распределенными и рассеянными и могут быть преобразованы для воспроизведения как таковые.The first playback transducer 205 may be configured to generate the audio signals so that the transformation to reproduce a given audio element is performed in such a way that the cumulative effect gives the impression of an audio element being transformed to be played from a desired position. Typically, the received data may, for at least some of the audio elements, contain specific position indications, and the first playback transform 205 may render the audio elements such that they are perceived as originating from the specified position. Other audio elements may be distributed and scattered, for example, and may be rendered as such.

Понятно, что специалистам в данной области известны множество алгоритмов и подходов к преобразованию для воспроизведения пространственного аудио с использованием акустических систем и, в частности, в системах окружающего звучания, и что любой подходящий подход может быть использован без ущерба для настоящего изобретения.It is understood that many conversion algorithms and approaches are known to those skilled in the art for reproducing spatial audio using loudspeakers, and in particular surround sound systems, and that any suitable approach may be used without prejudice to the present invention.

Например, первый преобразователь 205 для воспроизведения может формировать аудиосигналы для пяти акустических систем в конфигурации окружающего звучания с центральным динамиком, левым передним динамиком, правым передним динамиком, левым динамиком окружающего звучания и правым динамиком окружающего звучания. Первый преобразователь 205 для воспроизведения может формировать набор аудиосигналов, содержащий аудиосигнал для каждой акустической системы. Затем сигналы могут быть усилены для формирования возбуждающих сигналов для отдельной акустической системы.For example, the first playback converter 205 may generate audio signals for five speakers in a surround configuration with a center speaker, a left front speaker, a right front speaker, a left surround speaker, and a right surround speaker. The first transducer 205 for reproduction may generate an audio signal set containing an audio signal for each speaker system. The signals can then be amplified to form drive signals for a particular speaker system.

В некоторых вариантах реализации аудиоэлемент, преобразуемый для воспроизведения с использованием акустических систем, может быть принят в виде, например, стерео с понижающим микшированием, а первый преобразователь 205 для воспроизведения может выполнять повышающее микширование для формирования сигналов окружающего звучания, которые в некоторых случаях могут быть непосредственно преобразованы для воспроизведения. Такой подход может быть полезен, например, для аудиоэлементов, представляющих рассеянный звук, который не относится непосредственно к позе пользователя. Например, аудиоэлемент, представляющий общее рассеянное окружающее аудио, может быть предоставлен в виде стерео с понижающим микшированием, которое непосредственно микшируют с повышением для обеспечения надлежащих аудиоканалов окружающего звучания. Каждый из сигналов, получающихся в результате повышающего микширования, может быть объединен с сигналами для соответствующих динамиков, формируемыми из других аудиоэлементов, для формирования набора выходных сигналов.In some implementations, the audio element being converted for speaker playback may be taken as stereo downmix, for example, and the first playback converter 205 may be upmixed to generate surround signals, which in some cases may be directly converted for playback. This approach can be useful, for example, for audio elements that represent diffuse sound that is not directly related to the user's posture. For example, an audio element representing the overall diffuse surround audio may be provided as a downmix stereo that is directly upmixed to provide proper surround audio channels. Each of the upmix signals can be combined with corresponding speaker signals generated from other audio elements to form a set of output signals.

Некоторые аудиоэлементы, которые преобразуют для воспроизведения через акустическую установку, могут быть предоставлены, например, в форме аудиообъектов. Такой аудиообъект может быть представлен аудиоданными, описывающими конкретное аудио и связанными с данными о положении, которые описывают положение аудиоисточника. На основе данных о положении и положений акустических систем (будь то фактические положения или номинальные положения для акустической установки окружающего звучания) первый преобразователь 205 для воспроизведения может определять коэффициенты для матрицы или вектора, отображающего аудиосигнал в разные каналы окружающего звука.Some audio elements that are rendered for playback through an acoustic setup may be provided, for example, in the form of audio objects. Such an audio object may be represented by audio data describing a particular audio and associated with position data that describes the position of the audio source. Based on the position data and speaker positions (whether actual positions or nominal positions for a surround speaker setup), the first playback converter 205 can determine coefficients for a matrix or vector mapping the audio signal to different surround channels.

В некоторых вариантах реализации первый преобразователь 205 для воспроизведения также может быть выполнен с возможностью адаптации формируемых аудиосигналов на основе данных акустической окружающей среды. Например, если предоставляемые данные указывают, что текущая окружающая среда является окружающей средой с высокой отражающей способностью (например, ванная или подобная акустическая окружающая среда с высокой степенью отражений), то первый преобразователь 205 для воспроизведения может формировать и применять фильтр, имеющий импульсную характеристику, соответствующую передаточной функции для окружающей среды (первых отражений и т.д.). В некоторых вариантах реализации фильтр может быть применен к каждому из формируемых аудиосигналов для отдельных каналов окружающего звука или в некоторых вариантах реализации может быть применен к аудиоэлементу до повышающего микширования разных аудиоканалов.In some embodiments, the first playback transducer 205 may also be configured to adapt the generated audio signals based on the acoustic environment data. For example, if the provided data indicates that the current environment is a highly reflective environment (e.g., a bathroom or similar highly reflective acoustic environment), then the first rendering transducer 205 may generate and apply a filter having an impulse response corresponding to transfer function for the environment (first reflections, etc.). In some embodiments, the filter may be applied to each of the generated audio signals for the individual surround channels, or in some embodiments, may be applied to the audio element before the different audio channels are upmixed.

В некоторых вариантах реализации первый преобразователь 205 для воспроизведения в качестве альтернативы или дополнительно может быть выполнен с возможностью добавления реверберации, которая, в частности, может быть основана на данных окружающей среды, принимаемых вместе с аудиоэлементом. Например, первый преобразователь 205 для воспроизведения может применять синтетический ревербератор, такой как ревербератора Джота (Jot), с параметрами, устанавливаемыми в зависимости от данных акустической окружающей среды (например, с продолжительностью звучания реверберации, как указанно данными). Обычно ревербератор может быть применен к аудиоэлементу до любого повышающего микширования или отображения в каналы окружающего звука. Второй преобразователь 207 для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов для наушников. Второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом.In some embodiments, the first playback transducer 205 may alternatively or additionally be configured to add reverb, which may in particular be based on environmental data received along with the audio element. For example, the first transducer 205 for playback may apply a synthetic reverb, such as a Jot reverb, with parameters set depending on the acoustic environment data (eg, reverb duration as specified by the data). Typically a reverb can be applied to an audio element prior to any up-mixing or mapping to the surround channels. The second playback converter 207 is configured to generate a second set of headphone audio signals. The second set of audio signals may in particular be a binaural stereo signal.

Во многих вариантах реализации преобразование для воспроизведения посредством второго преобразователя 207 для воспроизведения является процессом бинаурального преобразования для воспроизведения с использование подходящих бинауральных передаточных функций для обеспечения требуемого пространственного эффекта пользователю, носящему наушники. Например, второй преобразователь 207 для воспроизведения может быть выполнен с возможностью формирования аудиокомпонента, который с помощью бинауральной обработки должен восприниматься как приходящий из конкретного положения.In many embodiments, the playback transform by the second playback transducer 207 is a binaural playback transform process using suitable binaural transfer functions to provide the desired spatial effect to the user wearing the headphones. For example, the second playback transducer 207 may be configured to generate an audio component that is to be perceived by binaural processing as coming from a particular position.

Как известно, бинауральную обработку используют для обеспечения пространственного восприятия за счет виртуального позиционирования источников звука с использованием отдельных сигналов для ушей слушателя. При надлежащей бинауральной обработке преобразования для воспроизведения могут быть вычислены сигналы, необходимые на барабанных перепонках для восприятия слушателем звука из любого требуемого направления, и эти сигналы могут быть преобразованы для воспроизведения так, чтобы они обеспечивали требуемый эффект. Затем эти сигналы воспроизводят на барабанной перепонке с использованием либо наушников, либо методом подавления перекрестных помех (подходящим для преобразования для воспроизведения на динамиках, расположенных близко друг к другу). Бинауральное преобразование для воспроизведения можно считать подходом к формированию сигналов для ушей слушателя, приводящим к созданию у слуховой системы человека ложного впечатления, что звук поступает из требуемых положений.As is known, binaural processing is used to provide spatial perception through the virtual positioning of sound sources using separate signals for the listener's ears. With proper binaural rendering processing, the signals needed at the eardrums for the listener to perceive sound from any desired direction can be computed, and these signals can be rendered to produce the desired effect. These signals are then played back at the eardrum using either headphones or crosstalk cancellation (suitable for conversion for playback on speakers placed close together). Binaural rendering for playback can be thought of as a signal generation approach to the listener's ears that gives the human auditory system the false impression that the sound is coming from the desired positions.

Бинауральное преобразование для воспроизведения основано на бинауральных передаточных функциях, которые меняются от человека к человеку из-за акустических свойств головы, ушей и отражающих поверхностей, таких как плечи. Например, для создания бинауральной записи, имитирующей множественные источники в различных местах, могут быть использованы бинауральные фильтры. Это может быть реализовано посредством свертки каждого источника звука с парой импульсных характеристик для головы (Head Related Impulse Response, HRIR), которые соответствуют положению источника звука.The binaural conversion for playback is based on binaural transfer functions, which vary from person to person due to the acoustic properties of the head, ears, and reflective surfaces such as the shoulders. For example, binaural filters can be used to create a binaural recording that simulates multiple sources at different locations. This can be done by convolving each sound source with a pair of Head Related Impulse Response (HRIR) that correspond to the position of the sound source.

Хорошо известным способом определения бинауральных передаточных функций является бинауральная запись. Это способ записи звука, который использует специально предназначенную схему расположения микрофонов и предназначен для воспроизведения с помощью наушников. Запись осуществляют либо путем размещения микрофонов в ушном канале субъекта, либо путем использования муляжа головы со встроенными микрофонами - бюста, содержащего ушные раковины (наружные уши). Использование такого муляжа головы, содержащего ушные раковины, обеспечивает пространственное впечатление, весьма похожее на то, как если бы человек, прослушивающий записи, присутствовал во время записи.A well-known way to determine binaural transfer functions is binaural recording. This is a sound recording method that uses a specially designed microphone layout and is designed to be played back with headphones. Recording is carried out either by placing microphones in the subject's ear canal or by using a headform with built-in microphones - a bust containing auricles (outer ears). The use of such a headform containing auricles provides a spatial experience very similar to that of the person listening to the recording being present at the time of recording.

Подходящие бинауральные фильтры могут быть определены путем измерения, например, откликов от источников звука в конкретном месте в 2D- или 3D-пространстве на микрофонах, расположенных в ушах человека или возле них. На основе таких измерений могут быть сформированы бинауральные фильтры, отражающие акустические передаточные функции к ушам пользователя. Бинауральные фильтры могут быть использованы для создания бинауральной записи, имитирующей множественные источники в различных местах. Это может быть реализовано посредством свертки каждого источника звука с парой измеренных импульсных характеристик для требуемого положения источника звука. Для создания иллюзии перемещения источника звука вокруг слушателя, как правило, требуется большое количество бинауральных фильтров с достаточным пространственных разрешением, например 10 градусов.Suitable binaural filters can be determined by measuring, for example, the responses from sound sources at a specific location in 2D or 3D space on microphones placed at or near the person's ears. Based on such measurements, binaural filters can be generated that reflect the acoustic transfer functions to the user's ears. Binaural filters can be used to create a binaural recording that simulates multiple sources at different locations. This can be done by convolving each sound source with a pair of measured impulse responses for the desired sound source position. To create the illusion of a sound source moving around the listener, as a rule, a large number of binaural filters with sufficient spatial resolution, such as 10 degrees, are required.

Бинауральные передаточные функции головы могут быть представлены, например, в виде импульсных характеристик для головы (Head Related Impulse Response, HRIR), или в равной степени в виде передаточных функций головы (Head Related Transfer Function, HRTF), или в виде бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Response, BRIR), или бинауральных переходных функций помещения (Binaural Room Transfer Function, BRTF). (Оценочная или предполагаемая) передаточная функция из данного положения к ушам (или барабанным перепонкам) слушателя может быть, например задана в частотной области, и в этом случае ее обычно называют HRTF или BRTF, или во временной области, и в этом случае ее обычно называют HRIR или BRIR. В некоторых сценариях бинауральные передаточные функции головы определяют для включения аспектов или свойств акустической окружающей среды и, в частности, помещения, в котором производят измерения, в то время как в других примерах учитывают только характеристики пользователя. Примерами функций первого типа являются BRIR и BRTF.Binaural head transfer functions can be represented, for example, as Head Related Impulse Response (HRIR), or equally as Head Related Transfer Function (HRTF), or as binaural impulse responses. room (Binaural Room Impulse Response, BRIR), or binaural transitional room functions (Binaural Room Transfer Function, BRTF). The (estimated or implied) transfer function from a given position to the ears (or eardrums) of a listener may, for example, be given in the frequency domain, in which case it is usually called HRTF or BRTF, or in the time domain, in which case it is usually called HRIR or BRIR. In some scenarios binaural head transfer functions are defined to include aspects or properties of the acoustic environment and in particular the room in which measurements are taken, while in other examples only user characteristics are taken into account. Examples of functions of the first type are BRIR and BRTF.

Второй преобразователь 207 для воспроизведения содержит хранилище с бинауральными передаточными функциями, как правило, для большого количества разных положений, причем каждая бинауральная передаточная функция обеспечивает информацию о том, как следует обрабатывать/фильтровать аудиосигнал, чтобы он воспринимался как происходящий из этого положения. Для формирования аудиосцены с несколькими аудиоисточниками, расположенными в надлежащих положениях в звуковом пространстве, может быть использована бинауральная обработка, индивидуально применяемая к множеству аудиосигналов/аудиоисточников и объединение результата.The second playback transducer 207 contains a store with binaural transfer functions, typically for a large number of different positions, with each binaural transfer function providing information on how the audio signal should be processed/filtered to be perceived as originating from that position. To generate an audio scene with multiple audio sources located at appropriate positions in sound space, binaural processing individually applied to multiple audio signals/audio sources and combining the result can be used.

Для данного аудиоэлемента, который должен восприниматься как происходящий из данного положения относительно головы пользователя, второй преобразователь 207 для воспроизведения может выбрать и извлечь сохраненную бинауральную функцию, которая наиболее близко совпадает с требуемым положением (или, в некотором случае, может сформировать ее путем интерполяции между множеством близких бинауральных передаточных функций). После этого он может применить выбранную бинауральную передаточную функцию к аудиосигналу аудиоэлемента, тем самым формируя аудиосигнал для левого уха и аудиосигнал для правого уха.For a given audio element to be perceived as originating from a given position relative to the user's head, the second playback transducer 207 may select and retrieve the stored binaural function that most closely matches the desired position (or, in some case, may generate it by interpolation between a set of close binaural transfer functions). After that, it can apply the selected binaural transfer function to the audio signal of the audio element, thereby generating an audio signal for the left ear and an audio signal for the right ear.

Затем сформированный выходной стереосигнал в форме сигнала левого уха и правого уха пригоден для преобразования для воспроизведения в наушниках и может быть усилен для формирования возбуждающих сигналов, которые подают в гарнитуру пользователя. После этого пользователь будет воспринимать аудиоэлемент как происходящий из требуемого положения.The resulting left ear and right ear stereo signal output is then suitable for conversion for headphone playback and may be amplified to generate excitation signals that are fed into the user's headset. The user will then perceive the audio element as originating from the desired position.

Понятно, что в некоторых вариантах реализации аудиоэлемент может быть также обработан, например для добавления эффектов акустической окружающей среды. Например, как описано для первого преобразователя 205 для воспроизведения, аудиоэлемент может быть обработан для добавления реверберации или, например декорреляции/пространности. Во многих вариантах реализации эта обработка может быть выполнена на сформированном бинауральном сигнале, а не на аудиосигнале элемента непосредственно.It is understood that in some embodiments, the audio element may also be processed, for example to add acoustical ambient effects. For example, as described for the first transducer 205 for playback, the audio element can be processed to add reverb or, for example, decorrelation/spaciousness. In many implementations, this processing may be performed on the generated binaural signal rather than on the element audio signal itself.

Таким образом, второй преобразователь 207 для воспроизведения может быть выполнен с возможностью формирования аудиосигналов так, чтобы данный аудиоэлемент преобразовывали для воспроизведения таким образом, чтобы пользователь, носящий наушники, воспринимал этот аудиоэлемент как воспринимаемый из требуемого положения. Как правило, второй преобразователь 207 для воспроизведения может преобразовывать для воспроизведения аудиоэлементы так, что они воспринимаются как происходящие из положения, указанного в позиционных данных, включенных в аудиоданные. Возможно, другие аудиоэлементы могут быть, например, распределенными и рассеянными и могут быть преобразованы для воспроизведения как таковые.Thus, the second playback transducer 207 can be configured to generate audio signals such that a given audio element is converted for playback such that a user wearing headphones perceives the audio element to be perceived from a desired position. Typically, the second renderer 207 may render the audio elements such that they are perceived as originating from a position indicated in the positional data included in the audio data. Possibly other audio elements may be distributed and scattered, for example, and may be rendered as such.

Устройство может быть соответственно частью клиента 103, который принимает данные, содержащие аудиоданные, описывающие аудиосцену, с центрального сервера 101. Во многих вариантах реализации центральный сервер 101 может предоставлять ряд аудиоэлементов в форме аудиообъектов, аудиоканалов, аудиокомпонентов, HOA, аудиосигналов и т.д. Во многих ситуациях некоторые аудиоэлементы могут соответствовать одному аудиоисточнику, имеющему конкретное положение. Другие аудиоэлементы могут соответствовать более рассеянным и менее четко определенным и более распределенным аудиоисточникам.The device may suitably be part of a client 103 that receives data containing audio data describing an audio scene from a central server 101. In many implementations, the central server 101 may provide a number of audio elements in the form of audio objects, audio channels, audio components, HOAs, audio signals, and so on. In many situations, some audio elements may correspond to a single audio source having a particular position. Other audio elements may correspond to more diffuse and less well-defined and more distributed audio sources.

Понятно, что специалистам в данной области известны множество алгоритмов и подходов к преобразованию для воспроизведения пространственного аудио с использованием наушников и, в частности, для бинаурального преобразования для воспроизведения, и что любой подходящий подход может быть использован без ущерба для настоящего изобретения.It is understood that many algorithms and conversion approaches are known to those skilled in the art for spatial audio playback using headphones, and in particular for binaural playback conversion, and that any suitable approach can be used without prejudice to the present invention.

В таком случае устройство, приведенное на ФИГ. 2, может быть использовано в клиенте 103 для обработки принимаемых аудиоданных для преобразования для воспроизведения требуемой аудиосцены. В частности, оно может обрабатывать каждый аудиоэлемент на основе данных о требуемом положении (когда уместно) и затем объединять результаты.In such a case, the device shown in FIG. 2 may be used in the client 103 to process received audio data for conversion to reproduce the desired audio scene. In particular, it can process each audio element based on the required position data (when appropriate) and then combine the results.

Соответственно, для формирования аудио, представляющего сцену, устройство на ФИГ. 2 использует два разных метода преобразования для воспроизведения. Разные методы преобразования для воспроизведения могут иметь разные свойства, и устройство, приведенное на ФИГ. 2, содержит селектор 209, выполненный с возможностью выбора того, какие аудиоэлементы преобразуют для воспроизведения первым преобразователем 205 для воспроизведения, и какие аудиоэлементы преобразуют вторым преобразователем 207 для воспроизведения. В частности, для данного первого аудиоэлемента селектор 211 может выбрать, какой преобразователь 205, 207 для воспроизведения следует использовать для преобразования для воспроизведения. Селектор 209 может соответственно принимать первый аудиоэлемент и подавать его в первый преобразователь 205 для воспроизведения или второй преобразователь 207 для воспроизведения в зависимости от выбора.Accordingly, in order to generate audio representing a scene, the device in FIG. 2 uses two different conversion methods for playback. Different conversion methods for reproduction may have different properties, and the device shown in FIG. 2 includes a selector 209 configured to select which audio elements are rendered for playback by the first renderer 205 and which audio elements are rendered by the second renderer 207. In particular, for a given first audio element, the selector 211 may select which playback transform 205, 207 should be used for the playback transform. The selector 209 may respectively receive the first audio element and supply it to the first playback converter 205 or the second playback converter 207 depending on the selection.

В системе приемник 201 в дополнение к аудиоданным (и, возможно, визуальным данным) выполнен с возможностью приема метаданных, содержащих указатели свойств преобразования для воспроизведения аудио по меньшей мере для одного из аудиоэлементов и часто для большей части или даже для всего аудиоэлемента. В частности, для первого аудиоэлемента включен по меньшей мере первый указатель свойства преобразования для воспроизведения аудио.In the system, receiver 201, in addition to audio data (and possibly visual data), is configured to receive metadata containing transform property pointers for playing audio for at least one of the audio elements, and often for most or even all of the audio element. In particular, for the first audio element, at least a first transform property pointer is included for audio playback.

Селектор 209 выполнен с возможностью выбора того, какой преобразователь для воспроизведения нужно использовать в зависимости от принятых метаданных и указателей свойств преобразования для воспроизведения аудио. В частности, селектор 209 выполнен с возможностью учета первого указателя свойства преобразования для воспроизведения аудио и принятия решения о том, должен ли первый аудиоэлемент быть преобразован первым преобразователем 205 для воспроизведения или вторым преобразователем 207 для воспроизведения, т.е. должен ли он быть преобразован для воспроизведения с использованием акустических систем или наушников.The selector 209 is configured to select which playback transform to use depending on the received metadata and property pointers of the audio playback transform. In particular, the selector 209 is configured to consider the first audio playback transform property pointer and decide whether the first audio element is to be converted by the first playback transformer 205 or the second playback transformer 207, i. whether it should be converted for playback using speakers or headphones.

В качестве примера низкой сложности данные для аудиоэлемента могут включать кодированные аудиоданные, а также метаданные, содержащие указание положения (как правило, положения аудиоисточника, соответствующего аудиоэлементу) и указание свойства преобразования для воспроизведения аудио для аудиоэлемента, причем указание свойства преобразования для воспроизведения аудио в конкретном примере может быть просто двоичным указанием того, следует ли преобразовывать для воспроизведения первый аудиоэлемент с помощью первого преобразователя 205 для воспроизведения или с помощью второго преобразователя 207 для воспроизведения. Тогда селектор 209 может оценивать это двоичное указание и выбирать указанный преобразователь 205, 207 для воспроизведения. Преобразователь 205, 207 для воспроизведения может после этого формировать надлежащие выходные сигналы соответственно для акустических систем и наушников так, что аудиоэлементы воспринимаются как приходящие из положения, которое указано указателем положения. Вклады каждого из аудиоэлементов, для которых указано, что их следует преобразовать для воспроизведения с использованием преобразователя 205 для воспроизведения, затем могут быть объединены для формирования первого набора аудиосигналов для акустических систем, а вклад каждого из аудиоэлементов, для которых указано, что их следует преобразовать для воспроизведения с использованием второго преобразователя 207 для воспроизведения, затем могут быть объединены для формирования второго набора аудиосигналов для наушников.As an example of low complexity, the data for an audio element may include encoded audio data as well as metadata containing an indication of a position (typically the position of the audio source corresponding to the audio element) and an indication of an audio playback transform property for the audio element, wherein the indication of the audio playback transform property in a particular example is may simply be a binary indication of whether the first audio element should be rendered with the first renderer 205 or with the second renderer 207. The selector 209 may then evaluate this binary indication and select the indicated transducer 205, 207 for playback. The playback converter 205, 207 can then generate the proper output signals for the speakers and headphones, respectively, so that the audio elements are perceived as coming from the position indicated by the position indicator. The contributions of each of the audio elements that are indicated to be converted for playback using the playback converter 205 can then be combined to form a first set of speaker audio signals, and the contributions of each of the audio elements that are indicated to be converted for playback using the second converter 207 for playback, then can be combined to form a second set of audio signals for headphones.

Таким образом, аудиоустройство на ФИГ. 2 может преобразовывать для воспроизведения аудиосцену посредством гибридной системы преобразования для воспроизведения аудио, содержащей как акустические системы, так и наушники. Кроме того, управление распределением аудиоэлементов по наушникам и акустическим системам может быть управляемым/руководимым удаленно. Например, поставщик услуг восприятия VR может также управлять и решать, как следует преобразовывать для воспроизведения аудиоэлементы. Поскольку поставщик услуг, как правило, может иметь дополнительную информацию о конкретном характере аудиоисточника для каждого аудиоэлемента, это может позволить выбирать, как преобразовывать для воспроизведения каждый аудиоэлемент, на основе дополнительной информации и знании того, что может быть недоступно на стороне клиента. Данный подход может обеспечить улучшенное преобразование для воспроизведения во многих ситуациях и может обеспечить улучшенное восприятие пользователем во многих сценариях. Данный подход может, например, обеспечить точное и естественное преобразование для воспроизведения аудиосцены, в то же время, например, позволяя людям в одном и том же помещении более естественно разговаривать друг с другом.Thus, the audio device in FIG. 2 can render an audio scene through a hybrid audio rendering transform system comprising both speakers and headphones. In addition, the control of the distribution of audio elements to headphones and speakers can be controlled/managed remotely. For example, the VR experience provider may also control and decide how the audio elements should be rendered for playback. Since the service provider can typically have additional information about the specific nature of the audio source for each audio element, this may allow one to choose how to render each audio element based on the additional information and knowledge of what may not be available on the client side. This approach may provide improved rendering for playback in many situations and may provide an improved user experience in many scenarios. This approach can, for example, provide an accurate and natural conversion to reproduce an audio scene while, for example, allowing people in the same room to talk to each other more naturally.

Таким образом, во многих вариантах реализации указатель свойства преобразования для воспроизведения аудио может обеспечивать клиенту и аудиоустройству руководство тем, как следует преобразовывать для воспроизведения принимаемые аудиоданные. Указатель свойства преобразования для воспроизведения аудио может указывать руководящее свойство преобразования для воспроизведения для преобразования для воспроизведения первого аудиоэлемента. Во многих вариантах реализации руководящее свойство преобразования для воспроизведения может быть предпочтительным, предлагаемым или номинальным свойством преобразования для воспроизведения, которое рекомендуется для использования локальным преобразователем для воспроизведения. Таким образом, руководящее свойство преобразования для воспроизведения может представлять собой данные управления, которые могут быть использованы клиентом для установки параметра преобразования для воспроизведения преобразования для воспроизведения.Thus, in many implementations, the audio playback transform property pointer can provide guidance to the client and audio device on how to transform received audio data for playback. The audio playback transform property pointer may indicate a playback transform guide property for the first audio element's rendering transform. In many implementations, a rendering transform guiding property may be a preferred, suggested, or nominal rendering transform property that is recommended for use by a local rendering transform. Thus, the playback transform guide property may be control data that can be used by the client to set a transform parameter for playing the playback transform.

В некоторых вариантах реализации руководящее свойство преобразования для воспроизведения может быть предназначено в качестве обязательного свойства преобразования для воспроизведения, которое должно быть использовано при преобразовании для воспроизведения аудиоэлемента, но в других вариантах реализации руководящее свойство преобразования для воспроизведения может быть предлагаемым свойством, которое может быть использовано или не использовано клиентом. Таким образом, во многих вариантах реализации аудиоустройство может выбирать, адаптировать ли свое преобразование для воспроизведения для приведения его в соответствии с руководящим свойством преобразования для воспроизведения, или может выбрать использование другого значения. Однако данный подход обеспечивает подход, который позволяет устройству адаптировать свою работу под руководством удаленного сервера/поставщика услуг. Благодаря этому можно достичь улучшенных рабочих характеристик во многих вариантах реализации, поскольку удаленный сервер/поставщик услуг может иметь дополнительную информацию. Например, это может также сделать возможной централизованную оптимизацию вручную или анализ для потенциального улучшения преобразования для воспроизведения с обеспечением при этом клиенту возможности сохранять свободу и гибкость в преобразовании для воспроизведения.In some implementations, the playback transform guiding property may be intended as a required playback transform property to be used in the audio element's playback transform, but in other implementations, the playback transform guiding property may be a suggested property that can be used or not used by the client. Thus, in many implementations, an audio device may choose whether to tailor its playback transform to conform to the playback transform's guide property, or may choose to use a different value. However, this approach provides an approach that allows the device to tailor its operation under the guidance of a remote server/service provider. Due to this, improved performance can be achieved in many implementations because the remote server/service provider may have additional information. For example, it may also allow for centralized manual optimization or analysis to potentially improve the rendering transformation while allowing the client to retain freedom and flexibility in the rendering transformation.

В конкретном примере, упомянутом выше, указатель свойства преобразования для воспроизведения аудио указывает, предназначен ли первый аудиоэлемент для преобразования для воспроизведения посредством акустических систем, или предназначен ли он для преобразования для воспроизведения посредством наушников. Селектор 209 может быть выполнен с возможностью выбора для первого аудиоэлемента первого преобразователя 205 для воспроизведения для преобразования для воспроизведения, если первый указатель преобразования для воспроизведения для первого аудиоэлемента указывает, что первый аудиоэлемент предназначен для преобразования для воспроизведения акустическими системами, и выбора второго преобразователя 207 для воспроизведения первого аудиоэлемента, если первый указатель преобразования для воспроизведения указывает, что первый аудиоэлемент предназначен для преобразования для воспроизведения наушниками. После этого селектор 209 может предоставить его выбранному преобразователю 205, 207 для воспроизведения для преобразования для воспроизведения.In the specific example mentioned above, the audio playback transform property pointer indicates whether the first audio element is intended to be converted for playback through speakers, or whether it is intended to be converted for playback through headphones. The selector 209 may be configured to select, for the first audio element, the first transducer 205 for playback for transposition for playback if the first transducer for playback for the first audio element indicates that the first audio element is intended for transposition for playback by loudspeakers, and selecting the second transducer 207 for playback. of the first audio element, if the first playback conversion pointer indicates that the first audio element is to be converted for headphones playback. Thereafter, the selector 209 may provide it to the selected renderer 205, 207 for rendering.

Таким образом, во многих вариантах реализации указатель свойства преобразования для воспроизведения аудио указывает свойство преобразования для воспроизведения, которое должно быть применено к первому аудиоэлементу, и, в частности, указатель преобразования для воспроизведения для аудиоэлемента может указывать, предназначен ли аудиоэлемент для преобразования для воспроизведения акустическими системами или наушниками.Thus, in many implementations, the audio playback transform property pointer indicates the playback transform property to be applied to the first audio element, and in particular, the playback transform pointer for the audio element may indicate whether the audio element is intended to be rendered for playback by loudspeakers. or headphones.

В некоторых вариантах реализации, соответственно, с помощью метаданных в потоке контента можно в явном виде сообщать, следует ли аудиоэлемент преобразовывать для воспроизведения через акустические системы или через наушники в случае использования гибридной системы воспроизведения. Это может быть явный выбор с художественной точки зрения, сделанный производителем контента, и, следовательно, может обеспечивать улучшенное управление/руководство преобразованием для воспроизведения.In some implementations, respectively, using metadata in the content stream, it is possible to explicitly indicate whether the audio element should be converted for playback through speakers or through headphones in the case of using a hybrid playback system. This may be a clear artistic choice made by the content producer, and therefore may provide improved rendering control/guidance.

В устройстве на ФИГ. 2 преобразование для воспроизведения аудио (как и преобразование для визуального воспроизведения) может зависеть от позы зрителя. В частности, устройство содержит приемник 211 позы слушателя, который выполнен с возможностью приема позы слушателя, указывающей позу слушателя. Поза слушателя может быть, в частности, представлена позой гарнитуры, например, определенной путем отслеживания гарнитуры VR, носимой пользователем/слушателем. Понятно, что может быть использован любой подходящий способ формирования, оценки, приема и предоставления позы слушателя без ущерба для настоящего изобретения.In the device of FIG. 2, the transformation for audio playback (as well as the transformation for visual playback) may depend on the pose of the viewer. Specifically, the device includes a listener posture receiver 211 that is configured to receive a listener posture indicative of the listener posture. The pose of the listener may in particular be represented by the pose of the headset, for example determined by tracking the VR headset being worn by the user/listener. It is understood that any suitable method of generating, evaluating, receiving and delivering a listener's posture may be used without prejudice to the present invention.

Приемник 211 позы слушателя соединен с визуальным преобразователем 203 для воспроизведения и используется для формирования визуального выходного сигнала, соответствующего конкретной позе. Кроме того, приемник 211 позы слушателя соединен со вторым преобразователем 207 для воспроизведения и используется для преобразования для воспроизведения аудиоэлементов для наушников. Таким образом, второй преобразователь 207 для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов в ответ на позу слушателя.The receiver 211 of the listener's posture is connected to the visual transducer 203 for playback and is used to generate a visual output corresponding to a particular posture. In addition, the receiver 211 of the listener's posture is connected to the second transducer 207 for reproduction, and is used for conversion for reproducing headphone audio elements. Thus, the second playback transducer 207 is configured to generate a second set of audio signals in response to the listener's posture.

Второй преобразователь 207 для воспроизведения может, в частности, выполнять бинауральное преобразование для воспроизведения так, что аудиоэлементы преобразуются для воспроизведения как происходящие из соответствующих положений относительно текущих ориентации и положения слушателей. Например, для первого аудиоэлемента второй преобразователь 207 для воспроизведения может сначала определить положение в пространстве сцены, указанное указателем положения, принятым из первого аудиоэлемента в данных потока. После этого может быть определено относительное положение первого аудиоэлемента относительно пользователя путем анализа текущей позы слушателя и соответствующей позы в пространстве сцены. Затем второй преобразователь для воспроизведения 207 может извлечь HRTF, соответствующие этому относительному положению, и отфильтровать первый аудиосигнал с использованием извлеченных HRTF для формирования бинаурального стереосигнала для первого аудиоэлемента. После этого компоненты могут быть добавлены к соответствующим компонентам, сформированным из других аудиоэлементов, для формирования выходных бинауральных стереосигналов.The second playback transducer 207 may specifically perform binaural playback transformation such that the audio elements are rendered as originating from appropriate positions relative to the listeners' current orientation and position. For example, for a first audio element, the second playback transformer 207 may first determine a position in scene space indicated by a position indicator received from the first audio element in the stream data. The relative position of the first audio element relative to the user can then be determined by analyzing the listener's current pose and the corresponding pose in scene space. The second renderer 207 may then extract the HRTFs corresponding to this relative position and filter the first audio signal using the extracted HRTFs to generate a binaural stereo signal for the first audio element. After that, the components can be added to the corresponding components formed from other audio elements to form output binaural stereo signals.

Понятно, что известны множество других подходов к формированию сигналов наушников (и, в частности, бинауральных сигналов), соответствующих аудиоисточникам в пространственных положениях, и что такой подходящих подход или алгоритм может быть использован вторым преобразователем 207 для воспроизведения.It is understood that many other approaches are known for generating headphone signals (and in particular binaural signals) corresponding to audio sources at spatial positions, and that such a suitable approach or algorithm can be used by the second transducer 207 for playback.

В отличие от второго преобразователя 207 для воспроизведения преобразование для воспроизведения первым преобразователем 205 для воспроизведения (т.е. преобразование для воспроизведения для акустических систем) не зависит от позы слушателя, и поэтому первый преобразователь 205 для воспроизведения в примере на ФИГ. 2 выполнен с возможностью формирования первого набора аудиосигналов независимо от позы слушателя.Unlike the second playback transducer 207, the playback transformation of the first playback transducer 205 (i.e., the playback transformation for speakers) is independent of the listener's posture, and therefore the first playback transducer 205 in the example of FIG. 2 is configured to generate the first set of audio signals regardless of the listener's posture.

Первый преобразователь 205 для воспроизведения может, в частности, учитывать указание положения для аудиоэлемента, подлежащего преобразованию для воспроизведения первым преобразователем 205 для воспроизведения, и отображать его в положение в пространстве преобразования для воспроизведения акустических систем. Первый преобразователь 205 для воспроизведения может затем формировать сигналы для акустических систем для обеспечения пространственного восприятия аудиоэлемента, соответствующего определенному положению.The first playback transducer 205 may specifically take into account the indication of a position for an audio element to be rendered by the first playback transducer 205 and map it to a position in the speaker rendering transform space. The first transducer 205 for reproduction may then generate signals for the speakers to provide a spatial perception of the audio element corresponding to a certain position.

Понятно, что известны множество других подходов к формированию сигналов акустической системы (и, в частности, сигналов окружающего звучания), соответствующих аудиоисточникам в пространственных положениях, и что такой подходящих подход или алгоритм может быть использован первым преобразователем 205 для воспроизведения.It is understood that many other approaches are known for generating speaker signals (and in particular surround signals) corresponding to audio sources at spatial positions, and that such a suitable approach or algorithm can be used by first transducer 205 for playback.

Таким образом, в данном примере сигналы наушников непрерывно формируются для отражения перемещения и поворотов головы слушателя, тем самым обеспечивая непрерывное и согласованное восприятие пользователем. В том же время преобразование для воспроизведения с использованием акустических систем остается неизменным относительно перемещений и поворота головы слушателей, что также дополнительно обеспечивает согласованный подход. Данный подход может обеспечить подход, в котором разные подходы к преобразованию для воспроизведения обеспечивают согласованное представление аудиосцены относительно нестатического слушателя.Thus, in this example, the headphone signals are continuously shaped to reflect the movement and rotation of the listener's head, thereby providing a continuous and consistent user experience. At the same time, the transformation for speaker playback remains the same with respect to the movements and rotation of the listeners' heads, further providing a consistent approach. This approach can provide an approach in which different rendering transformation approaches provide a consistent representation of the audio scene with respect to a non-static listener.

В предыдущих примерах основное внимание уделено ситуации, в которой устройство формирует представление аудиосцены для одного пользователя. Однако во многих вариантах реализации устройство может формировать представление аудиосцены для множества пользователей, в частности, например, для двух или более пользователей, находящихся в одном и том же помещении.The previous examples have focused on the situation in which a device generates an audio scene representation for a single user. However, in many implementations, the device may generate an audio scene representation for multiple users, such as, for example, two or more users in the same room.

В таком случае первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования общего набора аудиосигналов для множества пользователей, тогда как второй преобразователь 207 для воспроизведения выполнен с возможностью формирования отдельных сигналов наушников для каждого пользователя.In such a case, the first playback converter 205 may be configured to generate a common set of audio signals for multiple users, while the second playback converter 207 is configured to generate separate headphone signals for each user.

Таким образом, для аудиоэлементов, которые выбраны для преобразования для воспроизведения первым преобразователем 205 для воспроизведения, формируют только один набор выходных сигналов для всех пользователей, например, формируют только один сигнал акустической системы для каждой акустической системы в конфигурации, и они, как правило, могут не зависеть ни от каких свойств, специфичных для пользователя. В частности, первый набор аудиосигналов, формируемых для преобразования для воспроизведения акустическими системами, формируют без учета каких-либо поз слушателя. Одно и то же преобразование для отображения аудиосцены формируют для всех пользователей.Thus, for the audio elements that are selected for playback conversion by the first playback converter 205, only one set of output signals is generated for all users, for example, only one speaker signal is generated for each speaker in the configuration, and they can generally not depend on any user-specific properties. In particular, the first set of audio signals generated for conversion for playback by loudspeakers is generated without considering any listener postures. The same transformation for displaying the audio scene is generated for all users.

Однако для аудиоэлементов, которые преобразуют для воспроизведения посредством второго преобразователя 207 для воспроизведения, для каждого пользователя может быть сформирован отличный от других набор аудиосигналов. В частности, для каждого пользователя может быть сформирован бинауральный стереосигнал. Эти отдельные сигналы могут быть сформированы для отражения свойств или конкретных характеристик для отдельного слушателя и могут быть, в частности, сформированы для отражения позы слушателя отдельного слушателя. Таким образом, могут быть сформированы бинауральные сигналы, которые отражают текущие положение и ориентацию пользователя.However, for audio elements that are rendered by the second render converter 207, a different set of audio signals may be generated for each user. In particular, a binaural stereo signal can be generated for each user. These individual cues may be shaped to reflect properties or specific characteristics for an individual listener, and may in particular be shaped to reflect the listener's posture of an individual listener. Thus, binaural signals can be generated that reflect the user's current position and orientation.

Следовательно, устройство может, в частности, обеспечивать очень эффективную поддержку многопользовательских сценариев. Требуемая обработка аудио для поддержки множества пользователей может быть существенно уменьшена. Например, бинауральная обработка, как правило, относительно сложная и ресурсозатратная, и количество сигналов, которые необходимо сформировать с использованием бинауральной обработки, может быть существенно уменьшено, что значительно снижает сложность и вычислительную нагрузку во многих вариантах реализации.Therefore, the device can, in particular, provide very efficient support for multi-user scenarios. The required audio processing to support multiple users can be substantially reduced. For example, binaural processing is typically relatively complex and resource intensive, and the number of signals that need to be generated using binaural processing can be substantially reduced, greatly reducing complexity and computational burden in many implementations.

Таким образом, в примере, в котором устройство поддерживает двух пользователей в одном и том же помещении, первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования общего первого набора аудиосигналов для преобразования для воспроизведения с использованием акустических систем, а второй преобразователь 207 для воспроизведения может быть выполнен для формирования второго набора аудиосигналов для наушников для первого слушателя и формирования третьего набора аудиосигналов для наушников для второго слушателя. Первый набор аудиосигналов может быть сформирован независимо от позы слушателя первого и второго слушателя, а второй набор аудиосигналов может быть сформирован в ответ на позу слушателя первого слушателя, и третий набор аудиосигналов может быть сформирован в ответ на позу слушателя второго слушателя.Thus, in an example where the device supports two users in the same room, the first playback converter 205 may be configured to generate a common first set of audio signals for conversion for playback using speakers, and the second playback converter 207 may be configured to generate a second set of headphone audio signals for the first listener and generate a third set of headphone audio signals for the second listener. The first set of audio signals may be generated independently of the listener posture of the first and second listeners, and the second set of audio signals may be generated in response to the listener posture of the first listener, and the third set of audio signals may be generated in response to the listener posture of the second listener.

Указатель свойства преобразования для воспроизведения аудио, предоставляемый в принимаемом потоке данных, в разных вариантах реализации может представлять разные данные.The audio playback transform property pointer provided in the received data stream may represent different data in different implementations.

Указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с зависящим от позы слушателя положением или не зависящим от позы слушателя положением. Указатель свойства преобразования для воспроизведения аудио может, в частности, указывать, является ли первый аудиоэлемент диегетическим или нет.The audio playback transform property pointer indicates whether the first part of the first audio element is associated with a listener pose dependent position or a listener pose independent position. The transform property pointer for audio playback may specifically indicate whether the first audio element is diegetic or not.

В качестве конкретного примера в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью распределения аудиоэлементов между первым преобразователем 205 для воспроизведения и вторым преобразователем 207 для воспроизведения на основе того, указывает ли указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента, что он является «привязанным к ориентации головы» или «не привязанным к ориентации головы» в соответствии с терминологией MPEG»As a specific example, in some implementations, the selector 209 may be configured to allocate audio elements between the first playback transformer 205 and the second playback transformer 207 based on whether the audio playback transform property pointer for the first audio element indicates that it is "anchored to head orientation" or "not tied to head orientation" according to MPEG terminology"

Аудиоэлемент, указанный указателем свойства преобразования для воспроизведения аудио как «привязанный к голове», является аудиоэлементом, у которого должно быть фиксированное местоположение относительно головы пользователя. Такие аудиоэлементы могут быть преобразованы для воспроизведения с использованием второго преобразователя 207 для воспроизведения и могут быть преобразованы для воспроизведения независимо от позы слушателя. Следовательно, преобразование для воспроизведения таких аудиоэлементов не учитывает ориентацию (изменения ориентации) головы пользователя, другими словами, такие аудиоэлементы являются аудиоэлементами, для которых относительное положение не изменяется, когда пользователь поворачивает свою голову (например, непространственное аудио, такое как окружающий шум или, например, музыка, предназначено для того, чтобы следовать за пользователем без изменения относительного положения).The audio element specified by the audio playback transform property pointer as "attached to the head" is an audio element that should have a fixed location relative to the user's head. Such audio elements may be rendered using the second renderer 207 and may be rendered regardless of the listener's posture. Therefore, the transformation for playing such audio elements does not take into account the orientation (orientation changes) of the user's head, in other words, such audio elements are audio elements for which the relative position does not change when the user turns his head (for example, non-spatial audio such as ambient noise or, for example , music, is designed to follow the user without changing relative position).

Аудиоэлемент, указанный указателем свойства преобразования для воспроизведения аудио как «не привязанный к голове», является аудиоэлементом, у которого должно быть фиксированное местоположение в (виртуальной или реальной) окружающей среде, и поэтому его преобразование для воспроизведения динамически адаптируют к (изменениям) ориентации головы пользователя. Во многих вариантах реализации реалистичность может более высокой, когда такой аудиоэлемент преобразовывают для воспроизведения как бинауральный сигнал наушников, который адаптируют на основе текущей позы слушателя. Например, восприятие положения аудиоисточника, преобразуемого для воспроизведения акустической установкой окружающего звучания, может зависеть от положения и ориентации пользователя, и, следовательно, преобразование для воспроизведения указанного как «не привязанный к голове» аудиоэлемента с помощью акустической установки может привести к восприятию аудиоисточника как движущегося при движении пользователя головой.The audio element specified by the audio playback transform property pointer as "not head-bound" is an audio element that should have a fixed location in the (virtual or real) environment and therefore its playback transform is dynamically adapted to (changes in) the orientation of the user's head . In many implementations, realism can be enhanced when such an audio element is rendered as a binaural headphone signal that is adapted based on the listener's current posture. For example, the perception of the position of an audio source being converted for playback by a surround speaker setup may depend on the position and orientation of the user, and therefore, converting to play back an audio element specified as "headless" by the speaker setup may result in the audio source being perceived as moving when the user's head movement.

Таким образом, в некоторых вариантах реализации «не привязанные к ориентации головы» элементы могут быть преобразованы для воспроизведения через наушники пользователя, причем их положения адаптируют для каждого отдельного пользователя в соответствии с отслеживаемой ориентацией головы пользователя. С другой стороны, «привязанные к ориентации головы» элементы могут быть преобразованы для воспроизведения посредством акустических систем, и их не адаптируют к движениям головы пользователей.Thus, in some embodiments, the "head-orientation-free" elements can be converted for playback through the user's headphones, with their positions adapted for each individual user according to the tracked user's head orientation. On the other hand, "head-orientation-bound" elements can be converted for playback through speakers and are not adapted to users' head movements.

Преимуществом такого варианта реализации является то, что «привязанные к ориентации головы» элементы, которые теперь по большей части представляют посредством акустических систем (а не через наушники), в основном отвечают за акустическую изоляцию, которая ощущается, когда все элементы преобразуют для воспроизведения через наушники. Это объясняется тем, что «привязанные к ориентации головы» звуки (по большей части музыка и атмосферные звуки, такие как, например, звуки толпы, ветра, дождя, грома и т.д.), часто являются непрерывными и повсеместно присутствующими в природе, что приводит к звуковой «завесе», которая изолирует пользователя от его физического окружения. С другой стороны, «не привязанные к ориентации головы элементы» часто более локализованные и рассеянные в пространстве и времени, и, следовательно, гораздо меньше маскируют физическое акустическое окружение пользователя.The advantage of this implementation is that the "head-orientation-bound" elements, which are now mostly presented through speakers (rather than headphones), are primarily responsible for the acoustic isolation that is felt when all elements are converted for playback through headphones. . This is because “head orientation-related” sounds (mostly music and atmospheric sounds such as crowd sounds, wind, rain, thunder, etc.) are often continuous and ubiquitous in nature, resulting in a sound "veil" that isolates the user from their physical surroundings. On the other hand, "head-independent elements" are often more localized and dispersed in space and time, and therefore mask the user's physical acoustic environment much less.

В некоторых практических реализациях восприятие пользователем «привязанных к ориентации головы» звуков, которые преобразовывают для воспроизведения посредством акустических систем, может несколько отличаться по сравнению с тем, как они обычно воспринимаются при воспроизведении через наушники. Однако, это обычно не создает проблем, поскольку «привязанные к ориентации головы» звуки, которые преобразуют для воспроизведения акустическими системами, как правило, являются ненаправленными или некритическими с точки зрения пространственной локализации.In some practical implementations, the user's perception of "head-orientation-bound" sounds that are converted for playback through loudspeakers may be somewhat different from how they are typically perceived when played back through headphones. However, this usually does not pose a problem, since the "head orientation-bound" sounds that are converted for playback by loudspeakers are generally non-directional or non-critical in terms of spatial localization.

Какие аудиоэлементы являются «не привязанными к ориентации головы», а какие «привязанными к ориентации головы», может быть сообщено в явном виде посредством метаданных в потоке аудиоконтента.Which audio elements are "non-head-orientated" and which are "head-orientated" can be explicitly communicated via metadata in the audio content stream.

Обычно в контексте воспроизведения аудио AR (и VR) термин «диегетический» также используют для описания того, должен ли аудиоэлемент быть «привязанным к ориентации головы» или нет. Термин «диегетический» описывает элементы, которые должны оставаться в том же самом виртуальном положении, когда пользователь двигает своей головой (это означает, что преобразованное для воспроизведения положение относительно головы пользователя должно быть изменено). Термин «недиегетический» описывает элементы, для которых не важно или даже предпочтительно, чтобы их положения не учитывали движения головы пользователя (т.е., они будут перемещаться вместе с головой пользователя или «прикреплены» к ней).Typically in the context of AR (and VR) audio playback, the term "diegetic" is also used to describe whether an audio element should be "locked to head orientation" or not. The term "diegetic" describes elements that must remain in the same virtual position when the user moves their head (meaning that the rendered position relative to the user's head must be changed). The term "non-diegetic" describes elements for which it is not important or even preferable that their positions do not take into account the movements of the user's head (i.e., they will move with the user's head or "attached" to it).

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио для аудиоэлемента может указывать аудиоформат аудиоэлемента. Селектор 209 может быть выполнен с возможностью выбора, использовать ли первый преобразователь 205 для воспроизведения или второй преобразователь 207 для воспроизведения для преобразования для воспроизведения аудиоэлемента на основе аудиоформата аудиоэлемента. Указатель свойства преобразования для воспроизведения аудио может, например, указывать, что аудиоэлемент имеет аудиоформат из группы: формат аудиообъекта, аудиоформат амбиофонии более высокого порядка и аудиоформат сигнала аудиоканала.In some implementations, the audio playback transform property pointer for an audio element may indicate the audio format of the audio element. The selector 209 may be configured to select whether to use the first playback converter 205 or the second playback converter 207 to convert to reproduce the audio element based on the audio element's audio format. The transform property pointer for audio playback may, for example, indicate that the audio element has an audio format from the group: audio object format, higher order ambiophonic audio format, and audio channel signal audio format.

В некоторых вариантах реализации селектор 209 может быть выполнен с возможностью различения между элементами, которые подлежат преобразованию наушниками или акустическими системами, на основе формата аудиоэлементов.In some implementations, the selector 209 may be configured to distinguish between elements to be converted by headphones or speakers based on the format of the audio elements.

Например, основанные на канале или являющиеся амбиофонией более высокого порядка (HOA) элементы, которые часто используют для передачи фоновых звуков, таких как музыка и атмосферные звуки, могут быть преобразованы для воспроизведения через акустические системы, тогда как элементы объектов, которые обычно используют для передачи основных аудиоэлементов сцены (часто представляющих аудиоисточники с четко определенными положениями), могут быть преобразованы для воспроизведения через наушники для каждого пользователя в отдельности. Это также позволят пользователю не только изменять ориентацию своей головы, но и взаимодействовать с отдельными аудиообъектами (если производитель контента замыслил объекты как интерактивные).For example, channel-based or Higher-Order Ambiophonic (HOA) elements that are often used to convey background sounds such as music and atmospheric sounds can be converted for playback through loudspeakers, while object elements that are typically used for transmission the main audio elements of a scene (often representing audio sources with well-defined positions) can be converted for playback through headphones on a per-user basis. This will also allow the user not only to change the orientation of their head, but also to interact with individual audio objects (if the content producer intended the objects to be interactive).

Данный вариант реализации можно рассматривать как альтернативу или дополнение к предоставлению указателей свойств преобразования для воспроизведения аудио, которые непосредственно определяют, какой преобразователь для воспроизведения следует использовать. Например, в ситуациях, когда не включен элемент явной сигнализации о том, является ли аудиоэлемент «не привязанным к ориентации головы»/«привязанным к ориентации головы», селектор 209 может оценивать аудиоформат для определения того, какой преобразователь 205, 207 для воспроизведения следует использовать.This implementation can be considered as an alternative to, or addition to, providing pointers to audio playback transform properties that directly specify which playback transform should be used. For example, in situations where no explicit signaling element is included as to whether the audio element is head-orientation-free/head-orientation-related, the selector 209 may evaluate the audio format to determine which transducer 205, 207 should be used for playback. .

Подходы и разные указатели свойств преобразования для воспроизведения аудио могут быть объединены, например, канальные элементы, элементы HOA или элементы, которые в явном виде сообщены как «привязанные к ориентации головы», преобразуют для воспроизведения через акустические системы, тогда как объекты и «не привязанные к ориентации головы» элементы преобразуют для воспроизведения через наушники.Approaches and different transform property pointers for audio playback can be combined, e.g. channel elements, HOA elements, or elements that are explicitly reported as "attached to head orientation" transform for playback through loudspeakers, while objects and "unattached to head orientation" elements are converted for playback through headphones.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может указывать тип источника для первого аудиоэлемента. Например, указатель свойства преобразования для воспроизведения аудио может указывать, является ли аудиоэлемент аудиоисточником типа из набора, включающего, например, одно или более из: речевого аудио; аудио переднего плана; фоновое аудио; аудио закадрового голоса; и аудио актера, читающего текст от автора.In some embodiments, the audio playback transform property pointer may indicate the source type for the first audio element. For example, a transform property pointer for audio playback may indicate whether the audio element is an audio source type from a set including, for example, one or more of: speech audio; foreground audio; background audio; voiceover audio; and audio of an actor reading text from the author.

В некоторых вариантах реализации распределение аудиоэлементов по акустическим системам и наушникам может быть основано на указаниях в потоке контента типов источника для аудиоэлементов, например, на метаданных, таких как «речь» или «музыка», или «передний план», или «фоновые звуки». В данном примере «речевые» источники могут быть преобразованы для воспроизведения через наушники, тогда как «музыкальные» и «фоновые» источники могут быть преобразованы для воспроизведения через акустические системы. Особым случаем может быть речь, которая помечена как являющаяся «закадровым голосом» или «актером, читающим текст от автора», которую лучше всего было бы преобразовать для воспроизведения через акустические системы (поскольку она предназначена не для присутствия в конкретном месте в пространстве, а, скорее, для присутствия «повсеместно»).In some implementations, the allocation of audio elements to speakers and headphones may be based on indications in the content stream of source types for the audio elements, such as metadata such as "speech" or "music" or "foreground" or "background sounds" . In this example, "speech" sources may be converted for playback through headphones, while "music" and "background" sources may be converted for playback through speakers. A special case would be a speech that is labeled as being "voiceover" or "actor reading from the author", which would be best transcribed for playback through loudspeakers (because it is not intended to be in a specific location in space, but, rather, for the presence "everywhere").

В некоторых вариантах реализации приемник 201 может, как описано ранее, также принимать визуальные данные, указывающие виртуальную сцену, соответствующую аудиосцене. Эти данные могут быть поданы в визуальный преобразователь 203 для воспроизведения для преобразования для воспроизведения с использованием подходящего метода преобразования для воспроизведения, например, формирования стереоизображений, соответствующих текущей позе пользователя.In some implementations, the receiver 201 may, as previously described, also receive visual data indicative of a virtual scene corresponding to an audio scene. This data may be provided to the rendering renderer 203 for rendering rendering using a suitable rendering rendering technique, such as rendering stereo images corresponding to the user's current posture.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио для аудиоэлемента может указывать, представляет ли первый аудиоэлемент аудиоисточник, соответствующий визуальному объекту сцены. Визуальный объект сцены может быть объектом, для которого визуальные данные содержат визуальное представление.In some implementations, the audio playback transform property pointer for an audio element may indicate whether the first audio element represents an audio source corresponding to a scene visual. A scene visual object may be an object for which the visual data contains a visual representation.

В примере, в котором визуальные данные обеспечивают визуальные данные для окна просмотра, указатель свойства преобразования для воспроизведения аудио может указывать, связан ли аудиоэлемент с объектом в пределах окна просмотра.In an example where the visual data provides visual data to the viewport, the audio playback transform property pointer may indicate whether the audio element is associated with an object within the viewport.

Если указатель свойства преобразования для воспроизведения аудио указывает, что объект, соответствующий аудиоэлементу, виден в сцене, селектор 209 может принять решение преобразовать его для воспроизведения с использованием наушников, а в противном случае он может преобразовать для воспроизведения аудиоэлемент с использованием наушников. В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может непосредственно указывать, виден ли объект. Однако в других вариантах реализации указатель свойства преобразования для воспроизведения аудио может обеспечивать косвенное указание того, соответствует ли аудиоэлемент видимому объекту сцены.If the audio playback transform property pointer indicates that the object corresponding to the audio element is visible in the scene, the selector 209 may decide to convert it for playback using headphones, otherwise it may convert the audio element for playback using headphones. In some embodiments, the audio playback transform property pointer may directly indicate whether the object is visible. However, in other implementations, a transform property pointer for audio playback may provide an indirect indication of whether an audio element corresponds to a visible scene object.

Например, указатель свойства преобразования для воспроизведения аудио может содержать указание объекта сцены, который представлен принятыми визуальными данными. После этого селектор 209 может перейти к оценке того, виден ли связанный с аудиоэлементом объект для текущей позы слушателя. Если да, то можно перейти к преобразованию его для воспроизведения с использованием наушников, а в противном случае объект может быть преобразован для воспроизведения акустическими системами.For example, the transform property pointer for audio playback may contain an indication of the scene object that is represented by the received visual data. The selector 209 may then proceed to evaluate whether the object associated with the audio element is visible for the current listener pose. If yes, then you can proceed to convert it for playback using headphones, otherwise the object can be converted for playback by speakers.

В некоторых вариантах реализации распределение аудиоэлементов по акустическим системам и наушникам может быть основано на указании в принимаемом потоке контента того, связан ли аудиоэлемент с визуальным элементом/объектов в потоке контента. Если указатель указывает, что дело обстоит именно так, аудиоэлемент преобразуют для воспроизведения через наушники. Если указатель указал, что дело обстоит иначе, аудиоэлементы преобразуют для воспроизведения через акустические системы.In some implementations, the allocation of audio elements to speakers and headphones may be based on an indication in the received content stream of whether the audio element is associated with a visual element/objects in the content stream. If the pointer indicates that this is the case, the audio element is converted for playback through headphones. If the pointer indicated that this is not the case, the audio elements are converted for playback through loudspeakers.

В предыдущих примерах селектор 209 был выполнен с возможностью выбора надлежащего преобразователя 205, 207 для воспроизведения на основе только принимаемых данных. Однако понятно, что во многих вариантах реализации могут быть учтены дополнительные соображения и, в частности, другие данные.In the previous examples, the selector 209 has been configured to select the appropriate transducer 205, 207 for playback based on received data only. However, it is understood that in many implementations, additional considerations and, in particular, other data may be taken into account.

Во многих вариантах реализации устройство может содержать функцию пользовательского ввода, которая может принимать пользовательский ввод. В таких вариантах реализации селектор 209 может быть выполнен с возможностью выбора между первым преобразователем 205 для воспроизведения и вторым преобразователем 207 для воспроизведения на основе пользовательского ввода. Например, пользовательский ввод может быть непосредственным указанием предпочтительного преобразования для воспроизведения, таким как, например, явное указание того, что конкретный аудиоэлемент следует преобразовывать через наушники, а не через акустические системы. В других вариантах реализации пользовательский ввод может быть более опосредованным и может, например, изменять критерий выбора или склонять выбор к одному из преобразователей 205, 207 для воспроизведения. Например, пользовательский ввод может указывать, что желательно большую часть аудиоэлементов преобразовывать для воспроизведения наушниками, и селектор 209 может изменить критерий принятия решения для осуществления этого.In many implementations, the device may include a user input function that can accept user input. In such implementations, the selector 209 may be configured to select between the first renderer 205 and the second renderer 207 based on user input. For example, the user input may be a direct indication of the preferred conversion for playback, such as, for example, an explicit indication that a particular audio element should be converted through headphones rather than speakers. In other implementations, the user input may be more indirect and may, for example, change the selection criterion or incline the selection to one of the renderers 205, 207. For example, user input may indicate that it is desirable to convert a majority of the audio elements for playback with headphones, and selector 209 may change the decision criteria to do so.

Таким образом, в некоторых вариантах реализации пользователь может быть в состоянии непосредственно влиять на распределение элементов по акустическим системам и наушникам. Один пример заключается в предоставлении пользователям возможности назначения вручную отдельных элементов для воспроизведения через наушники или акустические системы.Thus, in some implementations, the user may be able to directly influence the distribution of elements across speakers and headphones. One example is to allow users to manually assign individual items for playback through headphones or speakers.

Еще одним примером управления распределением пользователем является предоставление пользователю двух или нескольких режимов, из которых он может выбирать, например, режим «индивидуального восприятия» и режим «общего восприятия». В случае, когда пользователь выбирает режим «общего восприятия», любые из описанных выше вариантов реализации для определения того, какие аудиоэлементы следует преобразовывать для воспроизведения через акустические системы и наушники, соответственно, могут быть использованы в комбинации.Yet another example of user control of distribution is to provide the user with two or more modes from which to select, for example, an "individual experience" mode and a "common experience" mode. In the case where the user selects the "general perception" mode, any of the above implementations for determining which audio elements should be converted for playback through speakers and headphones, respectively, can be used in combination.

В некоторых вариантах реализации селектор 209 может быть сам выполнен с возможностью анализа аудиоэлементов и определения на основе этого, какой преобразователь 205, 207 нужно использовать. Например, если для данного аудиоэлемента не принят указатель свойства преобразования для воспроизведения аудио, селектор 209 может перейти к анализу аудиоэлементов для определения свойства аудио, такого как, например, количество аудиоэлементов в сцене, количество каналов на аудиоэлемент, положение аудиоэлементов, расстояния аудиоэлементов до слушателей (или до каждой акустической системы) или движение аудиоэлементов. После этого селектор 209 может перейти к принятию решения о том, какой преобразователь 205, 207 использовать, на основе этого свойства аудио или на их множестве.In some implementations, the selector 209 may itself be configured to parse the audio elements and determine based thereon which transducer 205, 207 should be used. For example, if a transform property pointer for audio playback is not received for a given audio element, the selector 209 may proceed to parse the audio elements to determine an audio property, such as, for example, the number of audio elements in the scene, the number of channels per audio element, the position of the audio elements, the distances of the audio elements to listeners ( or before each speaker) or the movement of audio elements. Thereafter, the selector 209 may proceed to decide which converter 205, 207 to use based on that audio property or a plurality of them.

В конкретном примере конфигурации, далее называемой конфигурацией X, селектор 209 может выбирать преобразователь для воспроизведения для каждого аудиоэлемента, чтобы создавать наиболее точное пространственное представление аудиосцены. Например, если аудиоэлемент находится в положении, довольно близком к положению одной из физических акустических систем, то он может быть преобразован для воспроизведения на этой конкретной акустической системе. И наоборот, если аудиоэлемент попадает в зону, не охватываемую никакой акустической системой, то он может быть преобразован для воспроизведения через наушники. Тот факт, что аудиоэлемент имеет то же самое направление, что и акустическая система (с точки зрения слушателя), тоже может быть использован таким же образом для одного слушателя, как и для множества слушателей, но при условии, что они все находятся на одной линии с динамиком. Однако это, как правило, не практично, поскольку пользователя могут менять положения со временем. В данной конкретной конфигурации X угловая точность (бинаурального) преобразователя 207 для воспроизведения через наушники может быть учтена селектором 209 для принятия этого решения.In a specific configuration example, hereinafter referred to as the X configuration, the selector 209 may select the renderer for each audio element in order to create the most accurate spatial representation of the audio scene. For example, if an audio element is in a position fairly close to that of one of the physical speakers, then it can be converted to play on that particular speaker. Conversely, if an audio element falls into an area that is not covered by any speaker system, then it can be converted for playback through headphones. The fact that the audio element has the same direction as the loudspeaker (from the listener's point of view) can also be used in the same way for a single listener as for multiple listeners, provided they are all on the same line. with speaker. However, this is generally not practical as the user may change positions over time. In this particular X configuration, the angular accuracy of the (binaural) headphone transducer 207 can be taken into account by the selector 209 to make this decision.

Таким образом, в некоторых вариантах реализации выбор надлежащего преобразователя 205, 207 для воспроизведения может быть дополнительно основан на анализе аудиосигналов. Например, может быть использовано средство оценки акустического свойства аудиосигналов для определения свойств, таких как расстояние (или скорость) аудиообъекта/аудиоисточника (в частности, в случае многоканальных сигналов) или время реверберации. Также могут быть использованы классификаторы аудиосигнала, такие как классификаторы речи/музыки, классификаторы музыкального жанра или классификаторы аудиособытия. Также, для определения того, микрофоны какого типа (HOA, петличный микрофон, всенаправленный, XY…) были использованы для записи данного сигнала, могут быть использованы классификаторы конкретного типа. Для принятия решения, какая аудиосистема (наушники или акустическая система) более подходит для преобразования для воспроизведения всего аудиоэлемента, также может быть использован анализ распределения частоты аудиосигнала.Thus, in some embodiments, the selection of the appropriate transducer 205, 207 for playback may be further based on an analysis of the audio signals. For example, an acoustic property estimator of audio signals may be used to determine properties such as the distance (or speed) of an audio object/audio source (particularly in the case of multi-channel signals) or reverberation time. Audio signal classifiers such as speech/music classifiers, music genre classifiers, or audio event classifiers may also be used. Also, specific type classifiers can be used to determine which type of microphone (HOA, lavalier, omnidirectional, XY…) was used to record a given signal. Audio frequency distribution analysis can also be used to decide which audio system (headphones or speakers) is more suitable for conversion to reproduce the entire audio element.

В предыдущем примере селектор 209 выполнен с возможностью выбора либо первого преобразователя 205 для воспроизведения, либо второго преобразователя 207 для воспроизведения для аудиоэлементов на поэлементной основе. Однако понятно, что это не является необходимым или существенным. Например, в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью выбора, какой преобразователь 205, 207 для воспроизведения использовать для группы аудиоэлементов.In the previous example, the selector 209 is configured to select either the first playback transformer 205 or the second playback transformer 207 for the audio elements on an element-by-element basis. However, it is clear that this is not necessary or essential. For example, in some implementations, the selector 209 may be configured to select which render converter 205, 207 to use for a group of audio elements.

Кроме того, в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью отдельного выбора между преобразователями 205, 207 для разных частей одного аудиоэлемента. Например, для некоторых аудиоэлементов одна часть может быть преобразована для воспроизведения первым преобразователем 205 для воспроизведения, а другая часть может быть преобразована для воспроизведения вторым преобразователем 207 для воспроизведения.In addition, in some implementations, the selector 209 may be configured to separately select between the converters 205, 207 for different parts of the same audio element. For example, for some audio elements, one part may be rendered by the first renderer 205 and another portion may be rendered by the second renderer 207.

Понятно, что аудиоэлемент может быть разделен на разные части разными способами в зависимости от требований и предпочтений отдельного варианта реализации. Например, в некоторых вариантах реализации аудиоэлемент может быть принят в виде комбинации или группы разных частей, а селектор 209 может по отдельности выбирать преобразователь 207 для преобразования для каждой части. Например, аудиоэлемент может представлять конкретный аудиоисточник первым компонентом, который представляет аудиоисточник с четко определенным положением (например, соответствующим непосредственному аудио), и вторым компонентом, который представляет более рассеянный и распределенный звук (например, соответствующий звуку реверберации). В таком сценарии селектор 209 может быть выполнен с возможностью преобразования для воспроизведения первого компонента и второго компонента с использованием акустических систем.It is understood that an audio element can be divided into different parts in different ways depending on the requirements and preferences of the individual implementation. For example, in some implementations, the audio element may be received as a combination or group of different parts, and the selector 209 may individually select the transducer 207 to be converted for each part. For example, an audio element may represent a particular audio source with a first component that represents an audio source with a well-defined position (eg, corresponding to direct audio) and a second component that represents a more diffuse and distributed sound (eg, corresponding to a reverb sound). In such a scenario, the selector 209 may be configured to convert to reproduce the first component and the second component using speakers.

В других вариантах реализации селектор 209 может быть выполнен с возможностью разделения аудиоэлемента на разные части для преобразования для воспроизведения. Например, принимаемый аудиоэлемент может соответствовать аудиосигналу, который может быть проанализирован для разделения на разные части, которые затем могут быть преобразованы для воспроизведения по отдельности.In other implementations, the selector 209 may be configured to separate the audio element into different parts for conversion for playback. For example, the received audio element may correspond to an audio signal that can be analyzed to be split into different parts, which can then be converted to be played back separately.

В частности, во многих вариантах реализации разные части аудиоэлемента могут соответствовать разным частотным диапазонам. Например, селектор 209 может быть выполнен с возможностью выбора для данной первой части, соответствующей конкретному частотному диапазону, какой преобразователь 205, 207 для воспроизведения использовать. То же самое можно проделать для другого частотного диапазона, что может привести к использованию разных преобразователей 205, 207 для воспроизведения для первого и второго частотных диапазонов.In particular, in many implementations, different parts of an audio element may correspond to different frequency ranges. For example, the selector 209 may be configured to select, for a given first part corresponding to a particular frequency band, which transducer 205, 207 to use for playback. The same can be done for a different frequency range, which may result in using different transducers 205, 207 for reproduction for the first and second frequency ranges.

В некоторых вариантах реализации для разных частей аудиоэлемента могут быть предусмотрены разные указатели свойства преобразования для воспроизведения аудио, и селектор 209 может учитывать конкретный указатель свойства преобразования для воспроизведения аудио для данной части при принятии решения о том, как преобразовывать ее для воспроизведения. В других вариантах реализации указатель свойства преобразования для воспроизведения аудио может быть предусмотрен для аудиоэлемента в целом, но с использованием разных критериев принятия решения для разных частей. Например, для диапазона от средних до высоких частот выбор между наушниками и акустическими системами делают в зависимости от принимаемого указателя свойства преобразования для воспроизведения аудио для аудиоэлемента, тогда как для диапазона очень низких частот используют первый преобразователь 205 для воспроизведения для преобразования для воспроизведения сигнала через акустические системы независимо от того, что указывает указатель свойства преобразования для воспроизведения аудио (это отражает тот факт, что низкие частоты, как правило, обеспечивают гораздо менее значимые пространственные признаки).In some implementations, different parts of an audio element may be provided with different audio playback transform property pointers, and the selector 209 can take into account the specific audio playback transform property pointer for a given part when deciding how to transform it for playback. In other implementations, a transform property pointer for audio playback may be provided for the audio element as a whole, but using different decision criteria for different parts. For example, for the mid-to-high frequency range, the choice between headphones and speakers is made depending on the received transform property indicator for audio playback for the audio element, while for the very low frequency range, the first playback transducer 205 is used to convert to reproduce the signal through the speakers. whatever the transform property pointer for audio playback specifies (this reflects the fact that low frequencies tend to provide much less significant spatial cues).

Например, сигнал может быть разделен на низкочастотную часть и высокочастотную часть с использованием фильтрации верхних частот, причем низкочастотную часть отправляют в акустические системы, а высокочастотную часть отправляют в наушники в зависимости от указателя свойства преобразования для воспроизведения аудио. В некоторых вариантах реализации может быть использовано усовершенствованное разделение аудиоисточника (например, разделение каждой частотно-временной точки между преобразователями для воспроизведения).For example, the signal may be divided into a low frequency part and a high frequency part using high pass filtering, with the low frequency part sent to the speakers and the high frequency part sent to the headphones depending on the transform property pointer for audio reproduction. In some implementations, advanced audio source separation may be used (eg, separation of each time-frequency point between transducers for playback).

Использование фильтрации, которая сохраняет энергию в каждой частотно-временной точке, может позволить физической гибридной системе преобразования для воспроизведения уменьшить возможные ошибки, создаваемые фильтрацией.The use of filtering that conserves energy at each time-frequency point may allow a physical hybrid rendering system to reduce the possible errors created by the filtering.

Описанный подход может обеспечивать ряд преимущественных эффектов, включая ранее описанное предоставление возможности воспринимаемого точного пространственного преобразования для воспроизведения аудиосцены при обеспечении/облегчении непосредственного взаимодействия пользователям, находящимся в одном и том же месте.The described approach can provide a number of advantageous effects, including the previously described enabling perceptually accurate spatial transformation to reproduce an audio scene while enabling/facilitating direct interaction with users in the same location.

Данный подход может уменьшить сложность и использование ресурсов во многих сценариях благодаря потенциальному снижению объема требуемой бинауральной обработки. Еще одним, часто достижимым преимуществом является снижение энергии, используемой системой воспроизведения через наушники, например, с точки зрения мощности усилителя и/или нагрузки на обработку для встроенного преобразователя для воспроизведения, что может быть критичным в случае непривязанных наушников (например, наушников с батарейным питанием).This approach can reduce complexity and resource usage in many scenarios by potentially reducing the amount of binaural processing required. Another often achievable benefit is the reduction in energy used by the headphone playback system, e.g. in terms of amplifier power and/or processing load for the built-in playback converter, which can be critical in the case of untethered headphones (e.g. battery powered headphones). ).

Другим интересным свойством гибридной системы воспроизведения аудио для приложения VR является то, что она, как правило, обеспечивает улучшенную безопасность. Действительно, в отличие от ношения закрытых наушников, участники не полностью отрезаны от потенциальной опасности реальной окружающей среды вокруг них. Это может быть важным фактором во многих практических ситуациях.Another interesting property of a hybrid audio playback system for a VR application is that it generally provides improved security. Indeed, unlike wearing closed headphones, participants are not completely cut off from the potential dangers of the real environment around them. This can be an important factor in many practical situations.

Еще одним преимуществом гибридной системы, такой как описанные системы, является то, что часть аудиоконтента преобразуют для воспроизведения через общую акустическую установку, которая обычно усиливает у пользователя ощущение общего восприятия. Данный подход, как правило, обеспечивает улучшенное восприятие пользователем.Another advantage of a hybrid system, such as the systems described, is that a portion of the audio content is converted for playback through a common acoustic setup, which typically enhances the user's sense of the overall experience. This approach generally provides an improved user experience.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры. Однако понятно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения. Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами. Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.It is understood that in the foregoing description, embodiments of the present invention have been set forth for clarity with reference to various functional circuits, blocks, and processors. However, it is understood that any suitable distribution of functionality between different functional circuits, blocks or processors can be used without prejudice to the present invention. For example, functionality shown to be implemented by separate processors or controllers may be implemented by the same processor or controllers. Therefore, references to specific functional blocks or diagrams should only be considered as references to suitable means to provide the functionality described, and not as an indication of a strict logical or physical structure or organization.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.The present invention may be implemented in any suitable form, including hardware, software, firmware, or any combination thereof. The present invention may optionally be implemented, at least in part, as computer software executing on one or more processors and/or digital signal processors. The elements and components of an embodiment of the present invention may be physically, functionally and logically implemented in any suitable manner. Indeed, functionality may be implemented in a single block, in multiple blocks, or as part of other functional blocks. Because of this, the present invention may be implemented in a single unit, or may be physically or functionally distributed among different units, circuits, and processors.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.Although the present invention has been described in connection with certain embodiments, this should not be construed as a limitation to the particular form set forth herein. Rather, the scope of the present invention is only limited by the appended claims. In addition, while it may appear that a feature is described in connection with particular embodiments, one skilled in the art will appreciate that various features of the described embodiments may be combined in accordance with the present invention. In the claims, the term "comprising/comprising" does not exclude the presence of other elements or steps.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Наоборот, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественного числа. Поэтому ссылки с использованием средств указания единственного числа, числительных в единственном числе «первый», «второй» и т.д. не исключают множества. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.In addition, although a plurality of means, elements, circuits, or method steps are listed individually, they may be implemented, for example, using a single circuit, block, or processor. Further, although individual features may be included in different claims, they may be effectively combined, and inclusion in different claims does not mean that the combination of features is not feasible and/or disadvantageous. In addition, the inclusion of a feature in one category of claims does not imply a limitation to that category, but rather indicates that the feature is equally applicable to other categories of claims when appropriate. In addition, the order of the features in the claims does not indicate the specific order in which the features should be worked out, and in particular the order of the individual steps in the claims per method does not mean that the steps must be performed in that order. Rather, the steps may be performed in any suitable order. In addition, references in the singular do not exclude the plural. Therefore, references using means of indicating the singular, numerals in the singular "first", "second", etc. do not exclude sets. Reference positions in the claims are provided solely as a clarifying example and should not be construed as limiting the scope of the claims in any way.

Claims

1. An audio processing device for audio data, comprising:

a receiver (201) for receiving data describing an audio scene, the data comprising audio data for a set of audio elements corresponding to audio sources in the specified scene, and metadata containing at least a first index of a transformation property for playing audio for a first audio element from the set of audio elements;

a first converter (205) for converting to reproduce audio elements by generating a first set of audio signals for a set of speakers;

a second converter (207) for converting to reproduce audio elements by generating a second set of headphone audio signals; and at the same time, the audio device is characterized in that it contains: a selector (209) configured to select between the first converter (205) for playback and the second converter (207) for playback for conversion to reproduce at least the first part of the first audio element in response to the first a transform property pointer for audio playback;

wherein the first transform property pointer for audio playback indicates whether the first part of the first audio element represents an audio source with a spatial property whose orientation is head-bound and is intended to be a bound position relative to the user's head, or represents an audio source with a spatial property whose orientation is not head-bound, and which is designed for a fixed position in the environment.

2. The apparatus of claim 1, further comprising a listener position receiver (211) for receiving a listener posture indicative of the listener posture, wherein the first transducer (205) for playback is configured to generate a first set of audio signals independent of the listener posture, and the second transducer (207) ) for playback is configured to generate a second set of audio signals in response to the listener's posture.

3. The apparatus of claim 1, configured to generate audio signals for a plurality of listeners, wherein the first playback converter (205) is configured to generate the first set of audio signals as a common set of audio signals for the plurality of listeners; and the second playback converter (207) is configured to generate a second set of first listener headphone audio signals from the plurality of listeners and generate a third set of second listener headphone audio signals from the plurality of listeners.

4. The device according to any preceding claim, wherein the first part is a frequency subband of the first audio element.

5. The device according to any previous claim, in which the selector (209) is configured to select different transducers (205, 207) for playback from the first transducer (205) for playback and the second transducer (207) for playback for the first part of the first audio element and for second part of the first audio element.

6. The apparatus of claim 1, wherein the audio playback transform property pointer indicates the audio format of the first audio element.

7. The apparatus of claim 1, wherein the audio playback transform property pointer indicates the audio source type of the first audio element.

8. The apparatus of any preceding claim, wherein the audio reproduction transform property pointer indicates a playback transform guide property for the first audio element to be converted to reproduce.

9. The apparatus of claim 8, wherein the audio reproduction conversion property indicator indicates whether the first portion of the first audio element is intended to be converted for playback through speakers or headphones.

10. The apparatus of any preceding claim, wherein the receiver (201) is also configured to receive visual data indicative of a virtual scene corresponding to an audio scene, and the audio playback transform property pointer indicates whether the first audio element represents an audio source corresponding to an audio scene object.

11. The device according to any previous claim, also containing a user input for receiving user input, and wherein the selector (211) is configured to select between the first converter (205) for playback and the second converter (207) for playback to convert to play at least at least the first part of the first audio element in response to user input.

12. The device according to any previous claim, in which the selector (209) is configured to determine the audio property of the first audio element and select between the first transducer (205) for playback and the second transducer (207) for playback for converting to reproduce at least the first part of the first audio element in response to the audio property.

13. An audio processing method, including:

receiving data describing an audio scene, the data comprising audio data for a set of audio elements corresponding to audio sources in the specified scene, and metadata containing at least a first index of a transformation property for playing audio for a first audio element of the set of audio elements;

converting to reproduce audio elements by generating a first set of audio signals for a set of speakers;

converting to reproduce audio elements by generating a second set of headphone audio signals, and

the method differs in that it includes:

selecting between a transformation to reproduce at least the first part of the first audio element for a set of speakers and for headphones in response to the first index of the transformation property for audio reproduction,

wherein the transform property pointer for audio playback indicates whether the first part of the first audio element represents an audio source with a spatial property whose orientation is bound to the orientation of the head and which is intended to be a bound position relative to the user's head, or represents an audio source with a spatial property whose orientation is not bound to the head, and which is designed for a fixed position in the environment.

14. A computer-readable storage medium on which program code means are stored, configured to carry out all the steps of the method according to claim 13 when said program code means are executed on a computer.