RU2798414C2

RU2798414C2 - Аудиоустройство и способ обработки аудио

Info

Publication number: RU2798414C2
Application number: RU2021108348A
Authority: RU
Inventors: Вернер Паулус Йозефус ДЕ БРЮЙН; Натан СУВИРА-ЛАБАСТЬЕ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2018-08-28
Filing date: 2019-08-20
Publication date: 2023-06-22

Abstract

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности согласования восприятия аудио и визуальной сцены. Технический результат достигается за счет выбора между преобразованием для воспроизведения по меньшей мере первой части первого аудиоэлемента для набора акустических систем и для наушников в ответ на первый указатель свойства преобразования для воспроизведения аудио, причем указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первая часть первого аудиоэлемента аудиоисточник с пространственным свойством, ориентация которого привязана к ориентации головы и которое предназначено для привязанного положения относительно головы пользователя, или представляет аудиоисточник с пространственным свойством, ориентация которого не привязана к голове и которое предназначено для фиксированного положения в окружающей среде. 3 н. и 11 з.п. ф-лы, 2 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к аудиоустройству и способу обработки аудио и, в частности, но не исключительно, к использованию таких устройства и способа для поддержки приложения дополненной/виртуальной реальности.

УРОВЕНЬ ТЕХНИКИ

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления аудиовизуального контента в последние годы произошел значительный рост разнообразия и диапазона восприятия такого контента. В частности, разрабатываются множество пространственных и интерактивных услуг, приложений и подходов к восприятию, чтобы обеспечить пользователям восприятие с более сильным вовлечением и погружением.

Примерами таких приложений являются приложения виртуальной реальности (Virtual Reality, VR), дополненной реальности (Augmented Reality, AR) и смешанной реальности (Mixed Reality, MR), которые быстро становятся господствующими тенденциями, при этом ряд решений ориентирован на потребительский рынок. Кроме того, многими органами по стандартизации разрабатывается ряд стандартов. В рамках такой деятельности по стандартизации активно разрабатываются стандарты для различных аспектов систем VR/AR/MR, включая, например, потоковую передачу, широковещание, преобразование для воспроизведения и т.д.

Приложения VR, как правило, обеспечивают восприятия пользователем, соответствующие нахождению пользователя в другом мире/окружающей среде/сцене, тогда как приложения AR (включая смешанную реальность, Mixed Reality (MR)), обычно обеспечивают восприятия пользователем, соответствующие нахождению пользователя в текущей окружающей среде, но с добавлением дополнительной информации либо виртуальных объектов или информации. Таким образом, приложения VR, как правило, обеспечивают полностью погружающие синтетически формируемые мир/сцену, тогда как приложения AR обычно обеспечивают частично синтетические мир/сцену, накладываемые на реальную сцену, в которой пользователь присутствует физически. Однако это термины частот используются взаимозаменяемо и имеют высокую степень перекрытия. Далее термин виртуальная реальность/VR будет использоваться для обозначения как виртуальной реальности, так и дополненной реальности.

В качестве примера, быстро набирающая популярность услуга заключается в предоставлении изображений и аудио таким образом, что пользователь в состоянии активно и динамически взаимодействовать с системой для изменения параметров преобразования для воспроизведения так, что изображения и аудио будут адаптироваться к перемещению и изменениям положения и ориентации пользователя. Весьма привлекательной особенностью многих приложений является возможность изменения действующего положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться вокруг» в представляемой сцене.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории "шутеров", или игр-стрелялок от первого лица.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.

Как правило, приложения виртуальной реальности по своей природе ограничены тем, что они основаны на заранее определенной модели сцены и обычно на искусственной модели виртуального мира. В некоторых приложениях ощущение виртуальной реальности может быть обеспечено на основе захвата реального мира. Во многих случаях такой подход, как правило, основан на построении виртуальной модели реального мира из захватываемых данных реального мира. В таком случае ощущение виртуальной реальности формируется путем оценки этой модели.

Многие современные подходы, как правило, неоптимальные и часто имеют тенденцию предъявлять высокие требования к вычислительным и коммуникационным ресурсам и/или обеспечивать неоптимальное восприятие пользователем, например из-за пониженного качества или ограниченной свободы.

В качестве примера применения на рынке появились очки виртуальной реальности, которые позволяют зрителям воспринимать отснятое 360° (панорамное) или 180° видео. Такие 360° видео часто предварительно снимают с использованием многокамерной установки, в которой отдельные изображения сшиваются вместе в одно сферическое отображение. Обычные форматы стерео для 180° или 360° видео - сверху/снизу и слева/справа. Так же, как и в непанорамном стереоскопическом видео, изображения для левого глаза и правого глаза сжимают, например, как часть одного видеопотока стандарта H.264.

В добавление к визуальному воспроизведению большинство приложений VR/AR также обеспечивают соответствующие восприятие аудио. Во многих приложениях аудио предпочтительно обеспечивает пространственное восприятие звука, причем аудиоисточники воспринимаются как издающие звук из положений, которые соответствуют положениям соответствующих объектов в визуальной сцене. Таким образом, аудио- и видеосцены предпочтительно воспринимаются как согласованные, причем и те, и другие обеспечивают полное пространственное восприятие.

Что касается аудио, то до настоящего времени основной упор делали на воспроизведение через наушники с использованием технологии преобразования для воспроизведения бинаурального аудио. Во многих случаях воспроизведение через наушники делает возможным персонализированное восприятие пользователем с высокой степенью погружения. С помощью отслеживания головы можно добиться реагирования преобразования для воспроизведения на движения головы пользователя, что значительно повышает ощущение погружения.

В последнее время, как на рынке, так и в ходе обсуждения стандартов, стали предлагать примеры использования, которые включают «социальный» или «общий» аспект VR (и AR), т.е. возможность обмена восприятием с другими людьми. Это могут быть люди в разных местах, но также люди в одном и том же месте (или сочетание и того, и другого). Например, у нескольких человек в одном и том же помещении может быть одно и то же общее восприятие с присутствием проекции (аудио или видео) каждого участника в контенте/сцене VR. Например, в игре с участием множества людей каждый игрок может иметь отличное от других местоположение в игровой сцене и, следовательно, отличную от других проекцию аудио- и видеосцены.

В качестве конкретного примера MPEG предпринимает попытки стандартизировать битовый поток и декодер для реалистических, погружающих восприятий AR/VR с шестью степенями свободы. Социальная VR является важным функцией и позволяет пользователям взаимодействовать в общей окружающей среде (игры, конференц-звонки, покупки в сети и т.д.). Концепция социальной VR также способствует тому, чтобы сделать виртуальную реальность более социальной деятельностью для пользователей, физически находящихся в одном и том же месте, но в том случае, например, когда установленный на голову дисплей или другая гарнитура VR обеспечивает изоляцию восприятия физической окружающей обстановки.

Недостатком воспроизведения через наушники в таких примерах использования «социальной» или «общей» AR (или VR) является то, что при ношении каждым пользователем индивидуальных наушников находящиеся в одном месте (например, помещении) пользователи по меньшей мере частично акустически изолированы друг от друга, что уменьшает «социальную» часть восприятия (например, стоящим рядом друг с другом людям становится трудно или неудобно вести естественную беседу).

Эту проблему можно решить использованием для воспроизведения аудио акустических систем вместо наушников. Однако этот подход имеет недостаток, заключающийся в том, что воспроизведение аудио не может быть столь легко адаптировано и приспособлено под конкретного пользователя. Например, затрудняется динамическая адаптация воспроизведения аудио к движениям головы и, в частности, к изменениям ориентации головы каждого отдельного пользователя. Такой эффект очень важен для ощущения погружения, и поэтому акустические системы, как правило, не оптимальны для формирования оптимизированного восприятия пользователем.

Поэтому был бы полезен усовершенствованный подход к обработке аудио, в частности, для применения восприятия/применения виртуальной/дополненной/смешанной реальности. В частности, был бы полезен подход, позволяющий улучшить работу, повысить гибкость, уменьшить сложность, облегчить реализацию, улучшить восприятие аудио, улучшить согласование восприятия аудио и визуальной сцены, улучшить адаптацию, улучшить персонификацию, улучшить восприятие виртуальной реальности и/или улучшить рабочие характеристики и/или работу.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.

В соответствии с аспектом настоящего изобретения предложено аудиоустройство, содержащее: приемник для приема данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов; первый преобразователь для воспроизведения для преобразования для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем; второй преобразователь для воспроизведения для преобразования для воспроизведения аудиоэлементов путем формирования второго набора сигналов для наушников; и селектор, выполненный с возможностью выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на первый указатель свойства преобразования для воспроизведения аудио; причем указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с позой слушателя, зависящей от положения, или с позой слушателя, не зависящей от положения.

Данный подход может обеспечить улучшенное восприятие пользователем во многих вариантах реализации и может, в частности, обеспечить улучшенное восприятие пользователем для многих приложений виртуальной реальности (в том числе дополненной и смешанной реальности), включая, в частности, социальное или общее восприятие. Настоящий подход может обеспечить улучшенные рабочие характеристики с помощью гибридного преобразования для воспроизведения. Например, во многих вариантах реализации он может позволить облегчить находящимся в одном и том же помещении пользователям непосредственную беседу друг с другом, обеспечивая при этом целенаправленное и персонализированное преобразование для воспроизведения аудиосцены.

Указатель свойства преобразования для воспроизведения аудио может указывать, представляет ли первый аудиоэлемент аудиоисточник с пространственным свойством, которое является привязанным к ориентации головы или не привязанным к ориентации головы (соответствующим зависящему от позы слушателя положению и независящему от позы слушателя положению, соответственно). Данный подход может уменьшить сложность и потребности в ресурсах.

В некоторых вариантах реализации устройство может содержать первый возбудитель для возбуждения набора акустических систем за счет первого набора аудиосигналов и второй возбудитель для возбуждения наушников за счет второго набора аудиосигналов. Первый набор аудиосигналов может быть, в частности, набором сигналов окружающего звука, а второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом.

Первый указатель свойства преобразования для воспроизведения аудио может указывать свойство преобразования для воспроизведения, которое нужно применить к первому аудиоэлементу, или свойство первого аудиоэлемента.

В соответствии с необязательным признаком настоящего изобретения устройство также содержит приемник позы слушателя для приема позы слушателя, указывающей позу слушателя, причем первый преобразователь для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов независимо от позы слушателя, а второй преобразователь для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов в ответ на позу слушателя.

Аудиоустройство может обеспечивать весьма благоприятное и гибкое восприятие пользователем, делающее возможным тесную согласованность между, например, движением пользователя и воспринимаемой аудиосценой. Поза может относиться к данным о положении и/или ориентации и может также упоминаться как расположение. Поза слушателя может быть указанием положения слушателя, указанием ориентации слушателя или комбинированным указанием положения и ориентации слушателя. Поза/расположение могут быть представлены одним или более значениями, обеспечивающими указание положения и/или направления.

В соответствии с необязательным признаком настоящего изобретения устройство выполнено с возможностью формирования аудиосигналов для множества слушателей, причем первый преобразователь для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов как общего набора аудиосигналов для множества слушателей; а второй преобразователь для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов для наушников первого слушателя из множества слушателей и формирования третьего набора аудиосигналов для наушников второго слушателя из множества слушателей.

Аудиоустройство может обеспечивать эффективную поддержку для множества пользователей. Во многих приложениях может быть достигнута улучшенная поддержка снижения сложности и использования ресурсов, но, тем не менее, обеспечивающая привлекательное впечатление от использования, часто с непротиворечивым и естественным восприятием аудиопространства.

Второй набор аудиосигналов может быть сформирован в ответ на первую позу слушателя для первого слушателя, а третий набор аудиосигналов может быть сформирован в ответ на вторую позу для второго слушателя. Первый набор сигналов может быть сформирован независимо от поз слушателей.

В соответствии с необязательным признаком настоящего изобретения первая часть является частотным поддиапазоном первого аудиоэлемента.

Это может обеспечить улучшенные рабочие характеристики во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения селектор выполнен с возможностью выбора разных преобразователей для воспроизведения из первого преобразователя для воспроизведения и второго преобразователя для воспроизведения для первой части первого аудиоэлемента и для второй части первого аудиоэлемента.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Селектор может быть, в частности, выполнен с возможностью выбора разных преобразователей для воспроизведения для разных частотных диапазонов первого аудиоэлемента.

Это может обеспечить эффективный подход во многих приложениях. Указатель свойства преобразования для воспроизведения аудио может указывать, является ли первый аудиоэлемент диегетическим или нет.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает аудиоформат первого аудиоэлемента.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Указатель свойства преобразования для воспроизведения аудио может указывать аудиоформат из набора аудиоформатов, содержащего по меньшей мере один аудиоформат из группы: формат аудиообъекта, аудиоформат амбиофонии более высокого порядка и аудиоформат сигнала аудиоканала.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает тип аудиоисточника для первого аудиоэлемента

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации. Указатель свойства преобразования для воспроизведения аудио может указывать тип аудиоисточника из набора типов аудиоисточника, содержащего по меньшей мере один тип аудиоисточника из группы: речевое аудио, музыкальное аудио, аудио переднего плана, фоновое аудио, закадровое аудио и аудио актера, читающего текст от автора.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает руководящее свойство преобразования для воспроизведения для преобразования для воспроизведения первого аудиоэлемента.

Это может обеспечить улучшенные восприятие пользователем и/или рабочие характеристики во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения указатель свойства преобразования для воспроизведения аудио указывает, предназначена ли первая часть первого аудиоэлемента для преобразования для воспроизведения через акустические системы или наушники.

В соответствии с необязательным признаком настоящего изобретения приемник также выполнен с возможностью приема визуальных данных, указывающих виртуальную сцену, соответствующую аудиосцене, а указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первый аудиоэлемент аудиоисточник, соответствующий объекту аудиосцены.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может указывать, представляет ли первый аудиоэлемент аудиосцену, соответствующую объекту сцены, который находится в пределах окна просмотра, определенного для текущей позы слушателя.

В соответствии с необязательным признаком настоящего изобретения устройство также содержит пользовательский ввод для приема пользовательского ввода, и при этом селектор выполнен с возможностью выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на пользовательский ввод.

Это может обеспечить улучшенное восприятие пользователем во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения селектор выполнен с возможностью определения свойства аудио первого аудиоэлемента и выбора между первым преобразователем для воспроизведения и вторым преобразователем для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на свойство аудио.

В соответствии с аспектом настоящего изобретения предложен способ обработки аудио, включающий: прием данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов; преобразование для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем; преобразования для воспроизведения аудиоэлементов путем формирования второго набора сигналов для наушников; и выбор между преобразованием для воспроизведения по меньшей мере первой части первого аудиоэлемента для набора акустических систем и набора наушников в ответ на первый указатель свойства преобразования для воспроизведения аудио; причем указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с позой слушателя, зависящей от положения, или с позой слушателя, не зависящей от положения.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на варианты реализации.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:

на ФИГ. 1 показан пример системы виртуальной реальности на основе архитектуры клиент-сервер; и

на ФИГ. 2 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Восприятия виртуальной реальности (включая дополненную и смешанную реальность), позволяющие пользователю перемещаться в виртуальном или дополненном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги. Во многих таких подходах визуальные данные и аудиоданные могут быть сформированы динамически для отражения текущего положения пользователя (или зрителя).

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации. Комбинация положения и направления/ориентации, например, объекта, камеры, головы или вида, может называться позой или расположением. Таким образом, указание расположения или позы может включать до шести значений/компонентов, или составляющих/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).

Многие приложения виртуальной реальности основаны на позе, имеющей максимум степеней свободы, т.е. по три степени свободы каждого из положения и ориентации, дающих в результате в общей сложности шесть степеней свободы. Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.

Систему или объект, основанные на обеспечении максимума степеней свободы для зрителя, обычно называют имеющими 6 степеней свободы. Многие системы и объекты обеспечивают только ориентацию или положение, и их обычно называют имеющими 3 степени свободы.

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз. Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности. В других вариантах реализации одно или более изображений вида могут быть, например, представлены на автостереоскопическом дисплее или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).

Аналогичным образом для данной позы зрителя/пользователя/слушателя может быть обеспечено аудиопредставление сцены. Аудиосцену обычно преобразуют для воспроизведения для обеспечения пространственного восприятия, в котором аудиоисточники воспринимаются как происходящие из требуемых положений. Аудиоисточники могут быть статичными в сцене, а изменения позы пользователя приведут к изменению относительного положения аудиоисточника относительно позы пользователя. Соответственно, пространственное восприятие аудиоисточника следует изменять для отражения нового положения относительно пользователя. Преобразование для воспроизведения аудио может быть, соответственно, адаптировано в зависимости от позы пользователя.

Входные данные позы зрителя или пользователя могут быть определены разными путями в разных приложениях. Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно. Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза (отслеживание глаз)) пользователя. Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами. Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы. В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять положение гарнитуры виртуальной реальности.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным средством ввода вручную. Например, пользователь может вручную перемещать виртуального зрителя вокруг виртуальной сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.

В некоторых приложениях для формирования входной позы зрителя может быть использовано сочетание ручного и автоматизированного подходов. Например, гарнитура может отслеживать ориентацию головы, а перемещением/положением зрителя в сцене может управлять пользователь с помощью джойстика.

В некоторых системах приложение виртуальной реальности может быть предоставлено зрителю локально, например, с помощью автономного устройства, которое не использует какие-либо удаленные данные или обработку виртуальной реальности, или даже не имеет никакого доступа к ним. Например, устройство, такое как игровая консоль, может содержать хранилище для хранения данных сцены, вход для приема/формирования позы зрителя и процессор для формирования соответствующих изображений из данных сцены.

В других системах приложение виртуальной реальности может быть реализовано и выполнено удаленно от зрителя. Например, устройство, локальное для пользователя, может обнаруживать/принимать данные движения/позы, передаваемые удаленному устройству, которое обрабатывает данные для формирования позы зрителя. После этого удаленное устройство может формировать подходящие изображения вида для позы зрителя на основе данных сцены, описывающих сцену. Затем изображения вида передают на устройство, локальное для зрителя, где их представляют. Например, удаленное устройство может непосредственно формировать видеопоток (обычно поток стерео/3D-видео), который непосредственно представляют с помощью локального устройства.

Аналогичным образом удаленное устройство может формировать аудиосцену, отражающую виртуальную окружающую аудиосреду. Во многих вариантах реализации этом может быть сделано путем формирования аудиоэлементов, которые соответствуют относительному положению разных радиоисточников в виртуальной окружающей аудиосреде, причем их преобразуют для воспроизведения так, чтобы они воспринимались в соответствующих положениях.

Например, удаленное устройство может формировать аудиоданные, представляющие аудиосцену, и может передавать аудиокомпоненты/аудиообъекты/аудиосигналы или другие аудиоэлементы, соответствующие разным аудиоисточниками в аудиосцене, вместе информацией о положении, указывающей положение этих источников (которое может, например, динамически изменяться для движущихся объектов). В число аудиоэлементов могут входить аудиоэлементы, связанные с конкретными положениями, но могут также входить элементы для более распределенных или рассеянных аудиоисточников. Например, могут быть предусмотрены аудиоэлементы, представляющие общий (нелокализованный) фоновой звук, звук окружающей среды, рассеянную реверберацию и т.д.

В таком случае локальное устройство VR может преобразовать для воспроизведения аудиоэлементы соответствующим образом, например, путем применения надлежащей бинауральной обработки, отражающей относительное положение аудиоисточников для аудиокомпонентов.

Что касается аудио в услуге VR, в некоторых вариантах реализации центральный сервер может соответствующим образом формировать аудиоданные, представляющие аудиосцену, и может, в частности, представлять эту адиосцену при помощи ряда аудиоэлементов, которые могут быть преобразованы для воспроизведения локальным клиентом/устройством.

На ФИГ. 1 показан пример системы VR, в которой центральный сервер 101 поддерживает связь с рядом удаленных клиентов 103, например, через сеть 105, такую как, например Интернет. Центральный сервер 101 может быть выполнен с возможностью одновременной поддержки потенциально большого количества удаленных клиентов 103.

Такой подход может обеспечивать улучшенный компромисс, например, между сложностью и потребностью в ресурсах для разных устройств, требованиями к связи и т.д., во многих сценариях. Например, поза зрителя и соответствующие данные сцены могут передаваться с более длинными интервалами, при этом локальное устройство обрабатывает позу зрителя и принятые данные сцены локально для обеспечения восприятия в реальном времени с малым запаздыванием. Это может, например, существенно уменьшить требуемую полосу пропускания связи с обеспечением при этом восприятия с малой задержкой при возможности централизованного хранения, формирования и поддержания данных сцены. Это может, например, подойти для приложений, в которых восприятие виртуальной реальности обеспечивают на множестве удаленных устройств.

На ФИГ. 2 показаны элементы аудиоустройства, которое может обеспечить улучшенное преобразование для воспроизведения аудио во многих приложениях и сценариях. В частности, аудиоустройство может обеспечить улучшенное преобразование для воспроизведения для многих приложений VR, и аудиоустройство может быть, в частности, выполнено с возможностью выполнения обработки и преобразования для воспроизведения аудио для клиента 103 VR, приведенного на ФИГ. 1.

Аудиоустройство, изображенное на ФИГ. 2, выполнено с возможностью преобразования для воспроизведения аудиосцены путем формирования гибридного набора выходных сигналов, причем первый (под-)набор выходных сигналов формируют для преобразования для воспроизведения набором акустических систем, а второй (под-)набор выходных сигналов формируют для преобразования для воспроизведения наушниками. Первый набор аудиосигналов может быть, в частности, набором сигналов окружающего звука для преобразования для воспроизведения на акустической установке окружающего звучания. Второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом для преобразования для воспроизведения в наушниках.

Аудиоустройство на ФИГ. 2 может быть частью гибридной системы воспроизведения аудио для VR/AR, которая использует комбинацию воспроизведения в наушниках и акустической системе для обеспечения представления аудиосцены.

Такой подход может обеспечить эффективную работу во многих вариантах реализации. Например, во многих сценариях использование комбинации воспроизведения в наушниках и акустической системе вместо воспроизведения либо в одном, либо в другом, может обеспечить восприятие AR (или VR/MR) с высокой степенью погружения для каждого отдельного пользователя и, в то же время, без ущерба для «социального» или «общего» аспекта восприятия. Например, благодаря этому преобразуемое для воспроизведения аудио может быть адаптировано для отдельных пользователей и текущего контекста для пользователя. Например, это может позволить точно адаптировать положения аудиоисточников для приведения в соответствие с движениями/поворотами головы пользователя. В то же время это может уменьшить сложность, требуемую для бинауральной обработки, поскольку существенные части аудиосцены могут быть преобразованы для воспроизведения с помощью менее сложной обработки аудиоканала/окружающего звука. Кроме того, это может быть основано, например, на использовании наушников с низким ослаблением внешнего звука, что, например, облегчает непосредственное взаимодействие между пользователями в одной и той же окружающей среде/помещении.

В дальнейшем описании основное внимание будет уделено вариантам реализации, в которых система преобразует для воспроизведения аудиосцену с использованием комбинации акустической установки окружающего звучания (например, системы 5.1 или 7.1), которая является общей для всех локальных пользователей, и индивидуальных (открытых или полуоткрытых) наушников для отдельных пользователей (где «индивидуальные наушники» означают наушники, преобразующие для воспроизведения сигнал, который был сформирован или адаптирован для пользователя, носящего эти наушники).

В частности, устройство будет описано со ссылкой на пример использования «социального» или «общего» аспекта приложения VR/AR/MR с общим восприятием множеством людей. Они могут находиться в разных местах, но, что более интересно в данном примере, могут также находиться в одном и том же месте (например, в одном и том же помещении). В качестве конкретного примера использования несколько человек находятся в одном и том же помещении и имеют одно и то же общее восприятие AR, которое «проецируется» в пределах их общей реальной окружающей среды. Например, пара, сидящая вместе на диване и просматривающая фильм с эффектом погружения, виртуально проецируемый на стенку их гостиной. На них могут быть надеты прозрачные очки, позволяющие им видеть друг друга и окружающую их среду, а также открытые наушники, позволяющие как осуществлять специально предназначенное персонифицированное преобразование для воспроизведения, так и слышать аудио в окружающей среде, в том числе формируемое установкой окружающего звучания.

В частности, устройство на ФИГ. 2 содержит приемник 201, который выполнен с возможностью приема данных, описывающих виртуальную сцену. Данные могут содержать данные, обеспечивающие визуальное описание сцена, и могут содержать данные, обеспечивающие звуковое описание сцены. Таким образом, принимаемые данные могут обеспечить описание аудиосцены и описание визуальной сцены.

Приемник 201 соединен с визуальным преобразователем 203 для воспроизведения, который приступает к преобразованию для воспроизведения изображений, соответствующих текущей позе обзора зрителя. Например, данные могут содержать пространственные данные 3D-изображения (например, изображения и глубину или описание модели сцены), и из них визуальный преобразователь 203 для воспроизведения может формировать стереоизображения (изображение для левого и правого глаз пользователя), как известно специалисту в данной области. Изображения могу быть представлены пользователю, например, с помощью отдельных дисплеев для левого и правого глаз гарнитуры VR.

Принимаемые данные содержать аудиоданные, описывающие сцену. В частности, аудиоданные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в сцене. Некоторые аудиоэлементы могут представлять локализованные аудиоисточники в сцене, которые связаны с конкретным положением в сцене (разумеется, положение может динамически изменяться в случае движущегося объекта). Часто аудиоэлемент может представлять аудио, сформированное конкретным объектом сцены в виртуальной сцене и, следовательно, может представлять аудиоисточник в положении, соответствующем положению объекта сцены (например, говорящего человека).

Другие элементы могут представлять более распределенные или рассеянные аудиоисточники, такие как, например, окружающий или фоновый шум, который может быть рассеянным. В качестве еще одного примера некоторые аудиоэлементы могут полностью или частично представлять не локализованные в пространстве компоненты аудио от локализованных аудиоисточников, таких как, например, рассеянная реверберация от четко определенного в пространстве аудиоисточника.

Аудиоэлементы могут представлять собой закодированные аудиоданные, такие как закодированные аудиосигналы. Аудиоэлементы могут быть аудиоэлементами разных типов, в том числе сигналами и компонентами разных типов, и даже во многих вариантах реализации первый приемник 201 может принимать аудиоданные, которые определяют аудио разных типов/форматов. Например, аудиоданные могут содержать аудио, представленное сигналами аудиоканала, отдельными аудиообъектами, амбиофонией более высокого порядка (Higher Order Ambisonics, HOA) и т.д.

Аудио может быть, например, представлено в виде кодированного аудио для данного аудиокомпонента, который нужно преобразовать для воспроизведения. Аудиоданные могут также содержать данные о положении, которые указывают положение источника аудиокомпонента. Позиционные данные могут, например, содержать данные об абсолютном положении, определяющие положение аудиоисточника в сцене.

Устройство также содержит два преобразователя 205, 207 для воспроизведения.

Первый преобразователь 205 для воспроизведения выполнен с возможностью преобразования для воспроизведения аудиоэлементов через набор акустических систем. В частности, первый преобразователь 205 для воспроизведения может формировать первый набор аудиосигналов для набора акустических систем, причем первый набор аудиосигналов представляет собой, например, набор сигналов окружающего звука для акустической установки окружающего звучания.

Таким образом, первый преобразователь 205 для воспроизведения может формировать аудиосигналы, которые предназначены для преобразования для воспроизведения акустической системой конкретной конфигурации. Первый преобразователь 205 для воспроизведения может формировать сигнал для каждой акустической системы конфигурации окружающего звучания и, следовательно, для преобразования для воспроизведения из конкретного места, соответствующего положению динамика в конфигурации.

Первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования аудиосигналов так, чтобы преобразование для воспроизведения данного аудиоэлемента выполняли таким образом, чтобы совокупный эффект создавал впечатление аудиоэлемента, преобразуемого для воспроизведения из требуемого положения. Как правило, принимаемые данные могут, по меньшей мере для некоторых аудиоэлементов, содержать конкретные указания положения, а первый преобразователь 205 для воспроизведения может преобразовывать для воспроизведения аудиоэлементы так, что они воспринимаются как происходящие из указанного положения. Другие аудиоэлементы могут быть, например, распределенными и рассеянными и могут быть преобразованы для воспроизведения как таковые.

Понятно, что специалистам в данной области известны множество алгоритмов и подходов к преобразованию для воспроизведения пространственного аудио с использованием акустических систем и, в частности, в системах окружающего звучания, и что любой подходящий подход может быть использован без ущерба для настоящего изобретения.

Например, первый преобразователь 205 для воспроизведения может формировать аудиосигналы для пяти акустических систем в конфигурации окружающего звучания с центральным динамиком, левым передним динамиком, правым передним динамиком, левым динамиком окружающего звучания и правым динамиком окружающего звучания. Первый преобразователь 205 для воспроизведения может формировать набор аудиосигналов, содержащий аудиосигнал для каждой акустической системы. Затем сигналы могут быть усилены для формирования возбуждающих сигналов для отдельной акустической системы.

В некоторых вариантах реализации аудиоэлемент, преобразуемый для воспроизведения с использованием акустических систем, может быть принят в виде, например, стерео с понижающим микшированием, а первый преобразователь 205 для воспроизведения может выполнять повышающее микширование для формирования сигналов окружающего звучания, которые в некоторых случаях могут быть непосредственно преобразованы для воспроизведения. Такой подход может быть полезен, например, для аудиоэлементов, представляющих рассеянный звук, который не относится непосредственно к позе пользователя. Например, аудиоэлемент, представляющий общее рассеянное окружающее аудио, может быть предоставлен в виде стерео с понижающим микшированием, которое непосредственно микшируют с повышением для обеспечения надлежащих аудиоканалов окружающего звучания. Каждый из сигналов, получающихся в результате повышающего микширования, может быть объединен с сигналами для соответствующих динамиков, формируемыми из других аудиоэлементов, для формирования набора выходных сигналов.

Некоторые аудиоэлементы, которые преобразуют для воспроизведения через акустическую установку, могут быть предоставлены, например, в форме аудиообъектов. Такой аудиообъект может быть представлен аудиоданными, описывающими конкретное аудио и связанными с данными о положении, которые описывают положение аудиоисточника. На основе данных о положении и положений акустических систем (будь то фактические положения или номинальные положения для акустической установки окружающего звучания) первый преобразователь 205 для воспроизведения может определять коэффициенты для матрицы или вектора, отображающего аудиосигнал в разные каналы окружающего звука.

В некоторых вариантах реализации первый преобразователь 205 для воспроизведения также может быть выполнен с возможностью адаптации формируемых аудиосигналов на основе данных акустической окружающей среды. Например, если предоставляемые данные указывают, что текущая окружающая среда является окружающей средой с высокой отражающей способностью (например, ванная или подобная акустическая окружающая среда с высокой степенью отражений), то первый преобразователь 205 для воспроизведения может формировать и применять фильтр, имеющий импульсную характеристику, соответствующую передаточной функции для окружающей среды (первых отражений и т.д.). В некоторых вариантах реализации фильтр может быть применен к каждому из формируемых аудиосигналов для отдельных каналов окружающего звука или в некоторых вариантах реализации может быть применен к аудиоэлементу до повышающего микширования разных аудиоканалов.

В некоторых вариантах реализации первый преобразователь 205 для воспроизведения в качестве альтернативы или дополнительно может быть выполнен с возможностью добавления реверберации, которая, в частности, может быть основана на данных окружающей среды, принимаемых вместе с аудиоэлементом. Например, первый преобразователь 205 для воспроизведения может применять синтетический ревербератор, такой как ревербератора Джота (Jot), с параметрами, устанавливаемыми в зависимости от данных акустической окружающей среды (например, с продолжительностью звучания реверберации, как указанно данными). Обычно ревербератор может быть применен к аудиоэлементу до любого повышающего микширования или отображения в каналы окружающего звука. Второй преобразователь 207 для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов для наушников. Второй набор аудиосигналов может быть, в частности, бинауральным стереосигналом.

Во многих вариантах реализации преобразование для воспроизведения посредством второго преобразователя 207 для воспроизведения является процессом бинаурального преобразования для воспроизведения с использование подходящих бинауральных передаточных функций для обеспечения требуемого пространственного эффекта пользователю, носящему наушники. Например, второй преобразователь 207 для воспроизведения может быть выполнен с возможностью формирования аудиокомпонента, который с помощью бинауральной обработки должен восприниматься как приходящий из конкретного положения.

Как известно, бинауральную обработку используют для обеспечения пространственного восприятия за счет виртуального позиционирования источников звука с использованием отдельных сигналов для ушей слушателя. При надлежащей бинауральной обработке преобразования для воспроизведения могут быть вычислены сигналы, необходимые на барабанных перепонках для восприятия слушателем звука из любого требуемого направления, и эти сигналы могут быть преобразованы для воспроизведения так, чтобы они обеспечивали требуемый эффект. Затем эти сигналы воспроизводят на барабанной перепонке с использованием либо наушников, либо методом подавления перекрестных помех (подходящим для преобразования для воспроизведения на динамиках, расположенных близко друг к другу). Бинауральное преобразование для воспроизведения можно считать подходом к формированию сигналов для ушей слушателя, приводящим к созданию у слуховой системы человека ложного впечатления, что звук поступает из требуемых положений.

Бинауральное преобразование для воспроизведения основано на бинауральных передаточных функциях, которые меняются от человека к человеку из-за акустических свойств головы, ушей и отражающих поверхностей, таких как плечи. Например, для создания бинауральной записи, имитирующей множественные источники в различных местах, могут быть использованы бинауральные фильтры. Это может быть реализовано посредством свертки каждого источника звука с парой импульсных характеристик для головы (Head Related Impulse Response, HRIR), которые соответствуют положению источника звука.

Хорошо известным способом определения бинауральных передаточных функций является бинауральная запись. Это способ записи звука, который использует специально предназначенную схему расположения микрофонов и предназначен для воспроизведения с помощью наушников. Запись осуществляют либо путем размещения микрофонов в ушном канале субъекта, либо путем использования муляжа головы со встроенными микрофонами - бюста, содержащего ушные раковины (наружные уши). Использование такого муляжа головы, содержащего ушные раковины, обеспечивает пространственное впечатление, весьма похожее на то, как если бы человек, прослушивающий записи, присутствовал во время записи.

Подходящие бинауральные фильтры могут быть определены путем измерения, например, откликов от источников звука в конкретном месте в 2D- или 3D-пространстве на микрофонах, расположенных в ушах человека или возле них. На основе таких измерений могут быть сформированы бинауральные фильтры, отражающие акустические передаточные функции к ушам пользователя. Бинауральные фильтры могут быть использованы для создания бинауральной записи, имитирующей множественные источники в различных местах. Это может быть реализовано посредством свертки каждого источника звука с парой измеренных импульсных характеристик для требуемого положения источника звука. Для создания иллюзии перемещения источника звука вокруг слушателя, как правило, требуется большое количество бинауральных фильтров с достаточным пространственных разрешением, например 10 градусов.

Бинауральные передаточные функции головы могут быть представлены, например, в виде импульсных характеристик для головы (Head Related Impulse Response, HRIR), или в равной степени в виде передаточных функций головы (Head Related Transfer Function, HRTF), или в виде бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Response, BRIR), или бинауральных переходных функций помещения (Binaural Room Transfer Function, BRTF). (Оценочная или предполагаемая) передаточная функция из данного положения к ушам (или барабанным перепонкам) слушателя может быть, например задана в частотной области, и в этом случае ее обычно называют HRTF или BRTF, или во временной области, и в этом случае ее обычно называют HRIR или BRIR. В некоторых сценариях бинауральные передаточные функции головы определяют для включения аспектов или свойств акустической окружающей среды и, в частности, помещения, в котором производят измерения, в то время как в других примерах учитывают только характеристики пользователя. Примерами функций первого типа являются BRIR и BRTF.

Второй преобразователь 207 для воспроизведения содержит хранилище с бинауральными передаточными функциями, как правило, для большого количества разных положений, причем каждая бинауральная передаточная функция обеспечивает информацию о том, как следует обрабатывать/фильтровать аудиосигнал, чтобы он воспринимался как происходящий из этого положения. Для формирования аудиосцены с несколькими аудиоисточниками, расположенными в надлежащих положениях в звуковом пространстве, может быть использована бинауральная обработка, индивидуально применяемая к множеству аудиосигналов/аудиоисточников и объединение результата.

Для данного аудиоэлемента, который должен восприниматься как происходящий из данного положения относительно головы пользователя, второй преобразователь 207 для воспроизведения может выбрать и извлечь сохраненную бинауральную функцию, которая наиболее близко совпадает с требуемым положением (или, в некотором случае, может сформировать ее путем интерполяции между множеством близких бинауральных передаточных функций). После этого он может применить выбранную бинауральную передаточную функцию к аудиосигналу аудиоэлемента, тем самым формируя аудиосигнал для левого уха и аудиосигнал для правого уха.

Затем сформированный выходной стереосигнал в форме сигнала левого уха и правого уха пригоден для преобразования для воспроизведения в наушниках и может быть усилен для формирования возбуждающих сигналов, которые подают в гарнитуру пользователя. После этого пользователь будет воспринимать аудиоэлемент как происходящий из требуемого положения.

Понятно, что в некоторых вариантах реализации аудиоэлемент может быть также обработан, например для добавления эффектов акустической окружающей среды. Например, как описано для первого преобразователя 205 для воспроизведения, аудиоэлемент может быть обработан для добавления реверберации или, например декорреляции/пространности. Во многих вариантах реализации эта обработка может быть выполнена на сформированном бинауральном сигнале, а не на аудиосигнале элемента непосредственно.

Таким образом, второй преобразователь 207 для воспроизведения может быть выполнен с возможностью формирования аудиосигналов так, чтобы данный аудиоэлемент преобразовывали для воспроизведения таким образом, чтобы пользователь, носящий наушники, воспринимал этот аудиоэлемент как воспринимаемый из требуемого положения. Как правило, второй преобразователь 207 для воспроизведения может преобразовывать для воспроизведения аудиоэлементы так, что они воспринимаются как происходящие из положения, указанного в позиционных данных, включенных в аудиоданные. Возможно, другие аудиоэлементы могут быть, например, распределенными и рассеянными и могут быть преобразованы для воспроизведения как таковые.

Устройство может быть соответственно частью клиента 103, который принимает данные, содержащие аудиоданные, описывающие аудиосцену, с центрального сервера 101. Во многих вариантах реализации центральный сервер 101 может предоставлять ряд аудиоэлементов в форме аудиообъектов, аудиоканалов, аудиокомпонентов, HOA, аудиосигналов и т.д. Во многих ситуациях некоторые аудиоэлементы могут соответствовать одному аудиоисточнику, имеющему конкретное положение. Другие аудиоэлементы могут соответствовать более рассеянным и менее четко определенным и более распределенным аудиоисточникам.

Понятно, что специалистам в данной области известны множество алгоритмов и подходов к преобразованию для воспроизведения пространственного аудио с использованием наушников и, в частности, для бинаурального преобразования для воспроизведения, и что любой подходящий подход может быть использован без ущерба для настоящего изобретения.

В таком случае устройство, приведенное на ФИГ. 2, может быть использовано в клиенте 103 для обработки принимаемых аудиоданных для преобразования для воспроизведения требуемой аудиосцены. В частности, оно может обрабатывать каждый аудиоэлемент на основе данных о требуемом положении (когда уместно) и затем объединять результаты.

Соответственно, для формирования аудио, представляющего сцену, устройство на ФИГ. 2 использует два разных метода преобразования для воспроизведения. Разные методы преобразования для воспроизведения могут иметь разные свойства, и устройство, приведенное на ФИГ. 2, содержит селектор 209, выполненный с возможностью выбора того, какие аудиоэлементы преобразуют для воспроизведения первым преобразователем 205 для воспроизведения, и какие аудиоэлементы преобразуют вторым преобразователем 207 для воспроизведения. В частности, для данного первого аудиоэлемента селектор 211 может выбрать, какой преобразователь 205, 207 для воспроизведения следует использовать для преобразования для воспроизведения. Селектор 209 может соответственно принимать первый аудиоэлемент и подавать его в первый преобразователь 205 для воспроизведения или второй преобразователь 207 для воспроизведения в зависимости от выбора.

В системе приемник 201 в дополнение к аудиоданным (и, возможно, визуальным данным) выполнен с возможностью приема метаданных, содержащих указатели свойств преобразования для воспроизведения аудио по меньшей мере для одного из аудиоэлементов и часто для большей части или даже для всего аудиоэлемента. В частности, для первого аудиоэлемента включен по меньшей мере первый указатель свойства преобразования для воспроизведения аудио.

Селектор 209 выполнен с возможностью выбора того, какой преобразователь для воспроизведения нужно использовать в зависимости от принятых метаданных и указателей свойств преобразования для воспроизведения аудио. В частности, селектор 209 выполнен с возможностью учета первого указателя свойства преобразования для воспроизведения аудио и принятия решения о том, должен ли первый аудиоэлемент быть преобразован первым преобразователем 205 для воспроизведения или вторым преобразователем 207 для воспроизведения, т.е. должен ли он быть преобразован для воспроизведения с использованием акустических систем или наушников.

В качестве примера низкой сложности данные для аудиоэлемента могут включать кодированные аудиоданные, а также метаданные, содержащие указание положения (как правило, положения аудиоисточника, соответствующего аудиоэлементу) и указание свойства преобразования для воспроизведения аудио для аудиоэлемента, причем указание свойства преобразования для воспроизведения аудио в конкретном примере может быть просто двоичным указанием того, следует ли преобразовывать для воспроизведения первый аудиоэлемент с помощью первого преобразователя 205 для воспроизведения или с помощью второго преобразователя 207 для воспроизведения. Тогда селектор 209 может оценивать это двоичное указание и выбирать указанный преобразователь 205, 207 для воспроизведения. Преобразователь 205, 207 для воспроизведения может после этого формировать надлежащие выходные сигналы соответственно для акустических систем и наушников так, что аудиоэлементы воспринимаются как приходящие из положения, которое указано указателем положения. Вклады каждого из аудиоэлементов, для которых указано, что их следует преобразовать для воспроизведения с использованием преобразователя 205 для воспроизведения, затем могут быть объединены для формирования первого набора аудиосигналов для акустических систем, а вклад каждого из аудиоэлементов, для которых указано, что их следует преобразовать для воспроизведения с использованием второго преобразователя 207 для воспроизведения, затем могут быть объединены для формирования второго набора аудиосигналов для наушников.

Таким образом, аудиоустройство на ФИГ. 2 может преобразовывать для воспроизведения аудиосцену посредством гибридной системы преобразования для воспроизведения аудио, содержащей как акустические системы, так и наушники. Кроме того, управление распределением аудиоэлементов по наушникам и акустическим системам может быть управляемым/руководимым удаленно. Например, поставщик услуг восприятия VR может также управлять и решать, как следует преобразовывать для воспроизведения аудиоэлементы. Поскольку поставщик услуг, как правило, может иметь дополнительную информацию о конкретном характере аудиоисточника для каждого аудиоэлемента, это может позволить выбирать, как преобразовывать для воспроизведения каждый аудиоэлемент, на основе дополнительной информации и знании того, что может быть недоступно на стороне клиента. Данный подход может обеспечить улучшенное преобразование для воспроизведения во многих ситуациях и может обеспечить улучшенное восприятие пользователем во многих сценариях. Данный подход может, например, обеспечить точное и естественное преобразование для воспроизведения аудиосцены, в то же время, например, позволяя людям в одном и том же помещении более естественно разговаривать друг с другом.

Таким образом, во многих вариантах реализации указатель свойства преобразования для воспроизведения аудио может обеспечивать клиенту и аудиоустройству руководство тем, как следует преобразовывать для воспроизведения принимаемые аудиоданные. Указатель свойства преобразования для воспроизведения аудио может указывать руководящее свойство преобразования для воспроизведения для преобразования для воспроизведения первого аудиоэлемента. Во многих вариантах реализации руководящее свойство преобразования для воспроизведения может быть предпочтительным, предлагаемым или номинальным свойством преобразования для воспроизведения, которое рекомендуется для использования локальным преобразователем для воспроизведения. Таким образом, руководящее свойство преобразования для воспроизведения может представлять собой данные управления, которые могут быть использованы клиентом для установки параметра преобразования для воспроизведения преобразования для воспроизведения.

В некоторых вариантах реализации руководящее свойство преобразования для воспроизведения может быть предназначено в качестве обязательного свойства преобразования для воспроизведения, которое должно быть использовано при преобразовании для воспроизведения аудиоэлемента, но в других вариантах реализации руководящее свойство преобразования для воспроизведения может быть предлагаемым свойством, которое может быть использовано или не использовано клиентом. Таким образом, во многих вариантах реализации аудиоустройство может выбирать, адаптировать ли свое преобразование для воспроизведения для приведения его в соответствии с руководящим свойством преобразования для воспроизведения, или может выбрать использование другого значения. Однако данный подход обеспечивает подход, который позволяет устройству адаптировать свою работу под руководством удаленного сервера/поставщика услуг. Благодаря этому можно достичь улучшенных рабочих характеристик во многих вариантах реализации, поскольку удаленный сервер/поставщик услуг может иметь дополнительную информацию. Например, это может также сделать возможной централизованную оптимизацию вручную или анализ для потенциального улучшения преобразования для воспроизведения с обеспечением при этом клиенту возможности сохранять свободу и гибкость в преобразовании для воспроизведения.

В конкретном примере, упомянутом выше, указатель свойства преобразования для воспроизведения аудио указывает, предназначен ли первый аудиоэлемент для преобразования для воспроизведения посредством акустических систем, или предназначен ли он для преобразования для воспроизведения посредством наушников. Селектор 209 может быть выполнен с возможностью выбора для первого аудиоэлемента первого преобразователя 205 для воспроизведения для преобразования для воспроизведения, если первый указатель преобразования для воспроизведения для первого аудиоэлемента указывает, что первый аудиоэлемент предназначен для преобразования для воспроизведения акустическими системами, и выбора второго преобразователя 207 для воспроизведения первого аудиоэлемента, если первый указатель преобразования для воспроизведения указывает, что первый аудиоэлемент предназначен для преобразования для воспроизведения наушниками. После этого селектор 209 может предоставить его выбранному преобразователю 205, 207 для воспроизведения для преобразования для воспроизведения.

Таким образом, во многих вариантах реализации указатель свойства преобразования для воспроизведения аудио указывает свойство преобразования для воспроизведения, которое должно быть применено к первому аудиоэлементу, и, в частности, указатель преобразования для воспроизведения для аудиоэлемента может указывать, предназначен ли аудиоэлемент для преобразования для воспроизведения акустическими системами или наушниками.

В некоторых вариантах реализации, соответственно, с помощью метаданных в потоке контента можно в явном виде сообщать, следует ли аудиоэлемент преобразовывать для воспроизведения через акустические системы или через наушники в случае использования гибридной системы воспроизведения. Это может быть явный выбор с художественной точки зрения, сделанный производителем контента, и, следовательно, может обеспечивать улучшенное управление/руководство преобразованием для воспроизведения.

В устройстве на ФИГ. 2 преобразование для воспроизведения аудио (как и преобразование для визуального воспроизведения) может зависеть от позы зрителя. В частности, устройство содержит приемник 211 позы слушателя, который выполнен с возможностью приема позы слушателя, указывающей позу слушателя. Поза слушателя может быть, в частности, представлена позой гарнитуры, например, определенной путем отслеживания гарнитуры VR, носимой пользователем/слушателем. Понятно, что может быть использован любой подходящий способ формирования, оценки, приема и предоставления позы слушателя без ущерба для настоящего изобретения.

Приемник 211 позы слушателя соединен с визуальным преобразователем 203 для воспроизведения и используется для формирования визуального выходного сигнала, соответствующего конкретной позе. Кроме того, приемник 211 позы слушателя соединен со вторым преобразователем 207 для воспроизведения и используется для преобразования для воспроизведения аудиоэлементов для наушников. Таким образом, второй преобразователь 207 для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов в ответ на позу слушателя.

Второй преобразователь 207 для воспроизведения может, в частности, выполнять бинауральное преобразование для воспроизведения так, что аудиоэлементы преобразуются для воспроизведения как происходящие из соответствующих положений относительно текущих ориентации и положения слушателей. Например, для первого аудиоэлемента второй преобразователь 207 для воспроизведения может сначала определить положение в пространстве сцены, указанное указателем положения, принятым из первого аудиоэлемента в данных потока. После этого может быть определено относительное положение первого аудиоэлемента относительно пользователя путем анализа текущей позы слушателя и соответствующей позы в пространстве сцены. Затем второй преобразователь для воспроизведения 207 может извлечь HRTF, соответствующие этому относительному положению, и отфильтровать первый аудиосигнал с использованием извлеченных HRTF для формирования бинаурального стереосигнала для первого аудиоэлемента. После этого компоненты могут быть добавлены к соответствующим компонентам, сформированным из других аудиоэлементов, для формирования выходных бинауральных стереосигналов.

Понятно, что известны множество других подходов к формированию сигналов наушников (и, в частности, бинауральных сигналов), соответствующих аудиоисточникам в пространственных положениях, и что такой подходящих подход или алгоритм может быть использован вторым преобразователем 207 для воспроизведения.

В отличие от второго преобразователя 207 для воспроизведения преобразование для воспроизведения первым преобразователем 205 для воспроизведения (т.е. преобразование для воспроизведения для акустических систем) не зависит от позы слушателя, и поэтому первый преобразователь 205 для воспроизведения в примере на ФИГ. 2 выполнен с возможностью формирования первого набора аудиосигналов независимо от позы слушателя.

Первый преобразователь 205 для воспроизведения может, в частности, учитывать указание положения для аудиоэлемента, подлежащего преобразованию для воспроизведения первым преобразователем 205 для воспроизведения, и отображать его в положение в пространстве преобразования для воспроизведения акустических систем. Первый преобразователь 205 для воспроизведения может затем формировать сигналы для акустических систем для обеспечения пространственного восприятия аудиоэлемента, соответствующего определенному положению.

Понятно, что известны множество других подходов к формированию сигналов акустической системы (и, в частности, сигналов окружающего звучания), соответствующих аудиоисточникам в пространственных положениях, и что такой подходящих подход или алгоритм может быть использован первым преобразователем 205 для воспроизведения.

Таким образом, в данном примере сигналы наушников непрерывно формируются для отражения перемещения и поворотов головы слушателя, тем самым обеспечивая непрерывное и согласованное восприятие пользователем. В том же время преобразование для воспроизведения с использованием акустических систем остается неизменным относительно перемещений и поворота головы слушателей, что также дополнительно обеспечивает согласованный подход. Данный подход может обеспечить подход, в котором разные подходы к преобразованию для воспроизведения обеспечивают согласованное представление аудиосцены относительно нестатического слушателя.

В предыдущих примерах основное внимание уделено ситуации, в которой устройство формирует представление аудиосцены для одного пользователя. Однако во многих вариантах реализации устройство может формировать представление аудиосцены для множества пользователей, в частности, например, для двух или более пользователей, находящихся в одном и том же помещении.

В таком случае первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования общего набора аудиосигналов для множества пользователей, тогда как второй преобразователь 207 для воспроизведения выполнен с возможностью формирования отдельных сигналов наушников для каждого пользователя.

Таким образом, для аудиоэлементов, которые выбраны для преобразования для воспроизведения первым преобразователем 205 для воспроизведения, формируют только один набор выходных сигналов для всех пользователей, например, формируют только один сигнал акустической системы для каждой акустической системы в конфигурации, и они, как правило, могут не зависеть ни от каких свойств, специфичных для пользователя. В частности, первый набор аудиосигналов, формируемых для преобразования для воспроизведения акустическими системами, формируют без учета каких-либо поз слушателя. Одно и то же преобразование для отображения аудиосцены формируют для всех пользователей.

Однако для аудиоэлементов, которые преобразуют для воспроизведения посредством второго преобразователя 207 для воспроизведения, для каждого пользователя может быть сформирован отличный от других набор аудиосигналов. В частности, для каждого пользователя может быть сформирован бинауральный стереосигнал. Эти отдельные сигналы могут быть сформированы для отражения свойств или конкретных характеристик для отдельного слушателя и могут быть, в частности, сформированы для отражения позы слушателя отдельного слушателя. Таким образом, могут быть сформированы бинауральные сигналы, которые отражают текущие положение и ориентацию пользователя.

Следовательно, устройство может, в частности, обеспечивать очень эффективную поддержку многопользовательских сценариев. Требуемая обработка аудио для поддержки множества пользователей может быть существенно уменьшена. Например, бинауральная обработка, как правило, относительно сложная и ресурсозатратная, и количество сигналов, которые необходимо сформировать с использованием бинауральной обработки, может быть существенно уменьшено, что значительно снижает сложность и вычислительную нагрузку во многих вариантах реализации.

Таким образом, в примере, в котором устройство поддерживает двух пользователей в одном и том же помещении, первый преобразователь 205 для воспроизведения может быть выполнен с возможностью формирования общего первого набора аудиосигналов для преобразования для воспроизведения с использованием акустических систем, а второй преобразователь 207 для воспроизведения может быть выполнен для формирования второго набора аудиосигналов для наушников для первого слушателя и формирования третьего набора аудиосигналов для наушников для второго слушателя. Первый набор аудиосигналов может быть сформирован независимо от позы слушателя первого и второго слушателя, а второй набор аудиосигналов может быть сформирован в ответ на позу слушателя первого слушателя, и третий набор аудиосигналов может быть сформирован в ответ на позу слушателя второго слушателя.

Указатель свойства преобразования для воспроизведения аудио, предоставляемый в принимаемом потоке данных, в разных вариантах реализации может представлять разные данные.

Указатель свойства преобразования для воспроизведения аудио указывает, связана ли первая часть первого аудиоэлемента с зависящим от позы слушателя положением или не зависящим от позы слушателя положением. Указатель свойства преобразования для воспроизведения аудио может, в частности, указывать, является ли первый аудиоэлемент диегетическим или нет.

В качестве конкретного примера в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью распределения аудиоэлементов между первым преобразователем 205 для воспроизведения и вторым преобразователем 207 для воспроизведения на основе того, указывает ли указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента, что он является «привязанным к ориентации головы» или «не привязанным к ориентации головы» в соответствии с терминологией MPEG»

Аудиоэлемент, указанный указателем свойства преобразования для воспроизведения аудио как «привязанный к голове», является аудиоэлементом, у которого должно быть фиксированное местоположение относительно головы пользователя. Такие аудиоэлементы могут быть преобразованы для воспроизведения с использованием второго преобразователя 207 для воспроизведения и могут быть преобразованы для воспроизведения независимо от позы слушателя. Следовательно, преобразование для воспроизведения таких аудиоэлементов не учитывает ориентацию (изменения ориентации) головы пользователя, другими словами, такие аудиоэлементы являются аудиоэлементами, для которых относительное положение не изменяется, когда пользователь поворачивает свою голову (например, непространственное аудио, такое как окружающий шум или, например, музыка, предназначено для того, чтобы следовать за пользователем без изменения относительного положения).

Аудиоэлемент, указанный указателем свойства преобразования для воспроизведения аудио как «не привязанный к голове», является аудиоэлементом, у которого должно быть фиксированное местоположение в (виртуальной или реальной) окружающей среде, и поэтому его преобразование для воспроизведения динамически адаптируют к (изменениям) ориентации головы пользователя. Во многих вариантах реализации реалистичность может более высокой, когда такой аудиоэлемент преобразовывают для воспроизведения как бинауральный сигнал наушников, который адаптируют на основе текущей позы слушателя. Например, восприятие положения аудиоисточника, преобразуемого для воспроизведения акустической установкой окружающего звучания, может зависеть от положения и ориентации пользователя, и, следовательно, преобразование для воспроизведения указанного как «не привязанный к голове» аудиоэлемента с помощью акустической установки может привести к восприятию аудиоисточника как движущегося при движении пользователя головой.

Таким образом, в некоторых вариантах реализации «не привязанные к ориентации головы» элементы могут быть преобразованы для воспроизведения через наушники пользователя, причем их положения адаптируют для каждого отдельного пользователя в соответствии с отслеживаемой ориентацией головы пользователя. С другой стороны, «привязанные к ориентации головы» элементы могут быть преобразованы для воспроизведения посредством акустических систем, и их не адаптируют к движениям головы пользователей.

Преимуществом такого варианта реализации является то, что «привязанные к ориентации головы» элементы, которые теперь по большей части представляют посредством акустических систем (а не через наушники), в основном отвечают за акустическую изоляцию, которая ощущается, когда все элементы преобразуют для воспроизведения через наушники. Это объясняется тем, что «привязанные к ориентации головы» звуки (по большей части музыка и атмосферные звуки, такие как, например, звуки толпы, ветра, дождя, грома и т.д.), часто являются непрерывными и повсеместно присутствующими в природе, что приводит к звуковой «завесе», которая изолирует пользователя от его физического окружения. С другой стороны, «не привязанные к ориентации головы элементы» часто более локализованные и рассеянные в пространстве и времени, и, следовательно, гораздо меньше маскируют физическое акустическое окружение пользователя.

В некоторых практических реализациях восприятие пользователем «привязанных к ориентации головы» звуков, которые преобразовывают для воспроизведения посредством акустических систем, может несколько отличаться по сравнению с тем, как они обычно воспринимаются при воспроизведении через наушники. Однако, это обычно не создает проблем, поскольку «привязанные к ориентации головы» звуки, которые преобразуют для воспроизведения акустическими системами, как правило, являются ненаправленными или некритическими с точки зрения пространственной локализации.

Какие аудиоэлементы являются «не привязанными к ориентации головы», а какие «привязанными к ориентации головы», может быть сообщено в явном виде посредством метаданных в потоке аудиоконтента.

Обычно в контексте воспроизведения аудио AR (и VR) термин «диегетический» также используют для описания того, должен ли аудиоэлемент быть «привязанным к ориентации головы» или нет. Термин «диегетический» описывает элементы, которые должны оставаться в том же самом виртуальном положении, когда пользователь двигает своей головой (это означает, что преобразованное для воспроизведения положение относительно головы пользователя должно быть изменено). Термин «недиегетический» описывает элементы, для которых не важно или даже предпочтительно, чтобы их положения не учитывали движения головы пользователя (т.е., они будут перемещаться вместе с головой пользователя или «прикреплены» к ней).

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио для аудиоэлемента может указывать аудиоформат аудиоэлемента. Селектор 209 может быть выполнен с возможностью выбора, использовать ли первый преобразователь 205 для воспроизведения или второй преобразователь 207 для воспроизведения для преобразования для воспроизведения аудиоэлемента на основе аудиоформата аудиоэлемента. Указатель свойства преобразования для воспроизведения аудио может, например, указывать, что аудиоэлемент имеет аудиоформат из группы: формат аудиообъекта, аудиоформат амбиофонии более высокого порядка и аудиоформат сигнала аудиоканала.

В некоторых вариантах реализации селектор 209 может быть выполнен с возможностью различения между элементами, которые подлежат преобразованию наушниками или акустическими системами, на основе формата аудиоэлементов.

Например, основанные на канале или являющиеся амбиофонией более высокого порядка (HOA) элементы, которые часто используют для передачи фоновых звуков, таких как музыка и атмосферные звуки, могут быть преобразованы для воспроизведения через акустические системы, тогда как элементы объектов, которые обычно используют для передачи основных аудиоэлементов сцены (часто представляющих аудиоисточники с четко определенными положениями), могут быть преобразованы для воспроизведения через наушники для каждого пользователя в отдельности. Это также позволят пользователю не только изменять ориентацию своей головы, но и взаимодействовать с отдельными аудиообъектами (если производитель контента замыслил объекты как интерактивные).

Данный вариант реализации можно рассматривать как альтернативу или дополнение к предоставлению указателей свойств преобразования для воспроизведения аудио, которые непосредственно определяют, какой преобразователь для воспроизведения следует использовать. Например, в ситуациях, когда не включен элемент явной сигнализации о том, является ли аудиоэлемент «не привязанным к ориентации головы»/«привязанным к ориентации головы», селектор 209 может оценивать аудиоформат для определения того, какой преобразователь 205, 207 для воспроизведения следует использовать.

Подходы и разные указатели свойств преобразования для воспроизведения аудио могут быть объединены, например, канальные элементы, элементы HOA или элементы, которые в явном виде сообщены как «привязанные к ориентации головы», преобразуют для воспроизведения через акустические системы, тогда как объекты и «не привязанные к ориентации головы» элементы преобразуют для воспроизведения через наушники.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может указывать тип источника для первого аудиоэлемента. Например, указатель свойства преобразования для воспроизведения аудио может указывать, является ли аудиоэлемент аудиоисточником типа из набора, включающего, например, одно или более из: речевого аудио; аудио переднего плана; фоновое аудио; аудио закадрового голоса; и аудио актера, читающего текст от автора.

В некоторых вариантах реализации распределение аудиоэлементов по акустическим системам и наушникам может быть основано на указаниях в потоке контента типов источника для аудиоэлементов, например, на метаданных, таких как «речь» или «музыка», или «передний план», или «фоновые звуки». В данном примере «речевые» источники могут быть преобразованы для воспроизведения через наушники, тогда как «музыкальные» и «фоновые» источники могут быть преобразованы для воспроизведения через акустические системы. Особым случаем может быть речь, которая помечена как являющаяся «закадровым голосом» или «актером, читающим текст от автора», которую лучше всего было бы преобразовать для воспроизведения через акустические системы (поскольку она предназначена не для присутствия в конкретном месте в пространстве, а, скорее, для присутствия «повсеместно»).

В некоторых вариантах реализации приемник 201 может, как описано ранее, также принимать визуальные данные, указывающие виртуальную сцену, соответствующую аудиосцене. Эти данные могут быть поданы в визуальный преобразователь 203 для воспроизведения для преобразования для воспроизведения с использованием подходящего метода преобразования для воспроизведения, например, формирования стереоизображений, соответствующих текущей позе пользователя.

В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио для аудиоэлемента может указывать, представляет ли первый аудиоэлемент аудиоисточник, соответствующий визуальному объекту сцены. Визуальный объект сцены может быть объектом, для которого визуальные данные содержат визуальное представление.

В примере, в котором визуальные данные обеспечивают визуальные данные для окна просмотра, указатель свойства преобразования для воспроизведения аудио может указывать, связан ли аудиоэлемент с объектом в пределах окна просмотра.

Если указатель свойства преобразования для воспроизведения аудио указывает, что объект, соответствующий аудиоэлементу, виден в сцене, селектор 209 может принять решение преобразовать его для воспроизведения с использованием наушников, а в противном случае он может преобразовать для воспроизведения аудиоэлемент с использованием наушников. В некоторых вариантах реализации указатель свойства преобразования для воспроизведения аудио может непосредственно указывать, виден ли объект. Однако в других вариантах реализации указатель свойства преобразования для воспроизведения аудио может обеспечивать косвенное указание того, соответствует ли аудиоэлемент видимому объекту сцены.

Например, указатель свойства преобразования для воспроизведения аудио может содержать указание объекта сцены, который представлен принятыми визуальными данными. После этого селектор 209 может перейти к оценке того, виден ли связанный с аудиоэлементом объект для текущей позы слушателя. Если да, то можно перейти к преобразованию его для воспроизведения с использованием наушников, а в противном случае объект может быть преобразован для воспроизведения акустическими системами.

В некоторых вариантах реализации распределение аудиоэлементов по акустическим системам и наушникам может быть основано на указании в принимаемом потоке контента того, связан ли аудиоэлемент с визуальным элементом/объектов в потоке контента. Если указатель указывает, что дело обстоит именно так, аудиоэлемент преобразуют для воспроизведения через наушники. Если указатель указал, что дело обстоит иначе, аудиоэлементы преобразуют для воспроизведения через акустические системы.

В предыдущих примерах селектор 209 был выполнен с возможностью выбора надлежащего преобразователя 205, 207 для воспроизведения на основе только принимаемых данных. Однако понятно, что во многих вариантах реализации могут быть учтены дополнительные соображения и, в частности, другие данные.

Во многих вариантах реализации устройство может содержать функцию пользовательского ввода, которая может принимать пользовательский ввод. В таких вариантах реализации селектор 209 может быть выполнен с возможностью выбора между первым преобразователем 205 для воспроизведения и вторым преобразователем 207 для воспроизведения на основе пользовательского ввода. Например, пользовательский ввод может быть непосредственным указанием предпочтительного преобразования для воспроизведения, таким как, например, явное указание того, что конкретный аудиоэлемент следует преобразовывать через наушники, а не через акустические системы. В других вариантах реализации пользовательский ввод может быть более опосредованным и может, например, изменять критерий выбора или склонять выбор к одному из преобразователей 205, 207 для воспроизведения. Например, пользовательский ввод может указывать, что желательно большую часть аудиоэлементов преобразовывать для воспроизведения наушниками, и селектор 209 может изменить критерий принятия решения для осуществления этого.

Таким образом, в некоторых вариантах реализации пользователь может быть в состоянии непосредственно влиять на распределение элементов по акустическим системам и наушникам. Один пример заключается в предоставлении пользователям возможности назначения вручную отдельных элементов для воспроизведения через наушники или акустические системы.

Еще одним примером управления распределением пользователем является предоставление пользователю двух или нескольких режимов, из которых он может выбирать, например, режим «индивидуального восприятия» и режим «общего восприятия». В случае, когда пользователь выбирает режим «общего восприятия», любые из описанных выше вариантов реализации для определения того, какие аудиоэлементы следует преобразовывать для воспроизведения через акустические системы и наушники, соответственно, могут быть использованы в комбинации.

В некоторых вариантах реализации селектор 209 может быть сам выполнен с возможностью анализа аудиоэлементов и определения на основе этого, какой преобразователь 205, 207 нужно использовать. Например, если для данного аудиоэлемента не принят указатель свойства преобразования для воспроизведения аудио, селектор 209 может перейти к анализу аудиоэлементов для определения свойства аудио, такого как, например, количество аудиоэлементов в сцене, количество каналов на аудиоэлемент, положение аудиоэлементов, расстояния аудиоэлементов до слушателей (или до каждой акустической системы) или движение аудиоэлементов. После этого селектор 209 может перейти к принятию решения о том, какой преобразователь 205, 207 использовать, на основе этого свойства аудио или на их множестве.

В конкретном примере конфигурации, далее называемой конфигурацией X, селектор 209 может выбирать преобразователь для воспроизведения для каждого аудиоэлемента, чтобы создавать наиболее точное пространственное представление аудиосцены. Например, если аудиоэлемент находится в положении, довольно близком к положению одной из физических акустических систем, то он может быть преобразован для воспроизведения на этой конкретной акустической системе. И наоборот, если аудиоэлемент попадает в зону, не охватываемую никакой акустической системой, то он может быть преобразован для воспроизведения через наушники. Тот факт, что аудиоэлемент имеет то же самое направление, что и акустическая система (с точки зрения слушателя), тоже может быть использован таким же образом для одного слушателя, как и для множества слушателей, но при условии, что они все находятся на одной линии с динамиком. Однако это, как правило, не практично, поскольку пользователя могут менять положения со временем. В данной конкретной конфигурации X угловая точность (бинаурального) преобразователя 207 для воспроизведения через наушники может быть учтена селектором 209 для принятия этого решения.

Таким образом, в некоторых вариантах реализации выбор надлежащего преобразователя 205, 207 для воспроизведения может быть дополнительно основан на анализе аудиосигналов. Например, может быть использовано средство оценки акустического свойства аудиосигналов для определения свойств, таких как расстояние (или скорость) аудиообъекта/аудиоисточника (в частности, в случае многоканальных сигналов) или время реверберации. Также могут быть использованы классификаторы аудиосигнала, такие как классификаторы речи/музыки, классификаторы музыкального жанра или классификаторы аудиособытия. Также, для определения того, микрофоны какого типа (HOA, петличный микрофон, всенаправленный, XY…) были использованы для записи данного сигнала, могут быть использованы классификаторы конкретного типа. Для принятия решения, какая аудиосистема (наушники или акустическая система) более подходит для преобразования для воспроизведения всего аудиоэлемента, также может быть использован анализ распределения частоты аудиосигнала.

В предыдущем примере селектор 209 выполнен с возможностью выбора либо первого преобразователя 205 для воспроизведения, либо второго преобразователя 207 для воспроизведения для аудиоэлементов на поэлементной основе. Однако понятно, что это не является необходимым или существенным. Например, в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью выбора, какой преобразователь 205, 207 для воспроизведения использовать для группы аудиоэлементов.

Кроме того, в некоторых вариантах реализации селектор 209 может быть выполнен с возможностью отдельного выбора между преобразователями 205, 207 для разных частей одного аудиоэлемента. Например, для некоторых аудиоэлементов одна часть может быть преобразована для воспроизведения первым преобразователем 205 для воспроизведения, а другая часть может быть преобразована для воспроизведения вторым преобразователем 207 для воспроизведения.

Понятно, что аудиоэлемент может быть разделен на разные части разными способами в зависимости от требований и предпочтений отдельного варианта реализации. Например, в некоторых вариантах реализации аудиоэлемент может быть принят в виде комбинации или группы разных частей, а селектор 209 может по отдельности выбирать преобразователь 207 для преобразования для каждой части. Например, аудиоэлемент может представлять конкретный аудиоисточник первым компонентом, который представляет аудиоисточник с четко определенным положением (например, соответствующим непосредственному аудио), и вторым компонентом, который представляет более рассеянный и распределенный звук (например, соответствующий звуку реверберации). В таком сценарии селектор 209 может быть выполнен с возможностью преобразования для воспроизведения первого компонента и второго компонента с использованием акустических систем.

В других вариантах реализации селектор 209 может быть выполнен с возможностью разделения аудиоэлемента на разные части для преобразования для воспроизведения. Например, принимаемый аудиоэлемент может соответствовать аудиосигналу, который может быть проанализирован для разделения на разные части, которые затем могут быть преобразованы для воспроизведения по отдельности.

В частности, во многих вариантах реализации разные части аудиоэлемента могут соответствовать разным частотным диапазонам. Например, селектор 209 может быть выполнен с возможностью выбора для данной первой части, соответствующей конкретному частотному диапазону, какой преобразователь 205, 207 для воспроизведения использовать. То же самое можно проделать для другого частотного диапазона, что может привести к использованию разных преобразователей 205, 207 для воспроизведения для первого и второго частотных диапазонов.

В некоторых вариантах реализации для разных частей аудиоэлемента могут быть предусмотрены разные указатели свойства преобразования для воспроизведения аудио, и селектор 209 может учитывать конкретный указатель свойства преобразования для воспроизведения аудио для данной части при принятии решения о том, как преобразовывать ее для воспроизведения. В других вариантах реализации указатель свойства преобразования для воспроизведения аудио может быть предусмотрен для аудиоэлемента в целом, но с использованием разных критериев принятия решения для разных частей. Например, для диапазона от средних до высоких частот выбор между наушниками и акустическими системами делают в зависимости от принимаемого указателя свойства преобразования для воспроизведения аудио для аудиоэлемента, тогда как для диапазона очень низких частот используют первый преобразователь 205 для воспроизведения для преобразования для воспроизведения сигнала через акустические системы независимо от того, что указывает указатель свойства преобразования для воспроизведения аудио (это отражает тот факт, что низкие частоты, как правило, обеспечивают гораздо менее значимые пространственные признаки).

Например, сигнал может быть разделен на низкочастотную часть и высокочастотную часть с использованием фильтрации верхних частот, причем низкочастотную часть отправляют в акустические системы, а высокочастотную часть отправляют в наушники в зависимости от указателя свойства преобразования для воспроизведения аудио. В некоторых вариантах реализации может быть использовано усовершенствованное разделение аудиоисточника (например, разделение каждой частотно-временной точки между преобразователями для воспроизведения).

Использование фильтрации, которая сохраняет энергию в каждой частотно-временной точке, может позволить физической гибридной системе преобразования для воспроизведения уменьшить возможные ошибки, создаваемые фильтрацией.

Описанный подход может обеспечивать ряд преимущественных эффектов, включая ранее описанное предоставление возможности воспринимаемого точного пространственного преобразования для воспроизведения аудиосцены при обеспечении/облегчении непосредственного взаимодействия пользователям, находящимся в одном и том же месте.

Данный подход может уменьшить сложность и использование ресурсов во многих сценариях благодаря потенциальному снижению объема требуемой бинауральной обработки. Еще одним, часто достижимым преимуществом является снижение энергии, используемой системой воспроизведения через наушники, например, с точки зрения мощности усилителя и/или нагрузки на обработку для встроенного преобразователя для воспроизведения, что может быть критичным в случае непривязанных наушников (например, наушников с батарейным питанием).

Другим интересным свойством гибридной системы воспроизведения аудио для приложения VR является то, что она, как правило, обеспечивает улучшенную безопасность. Действительно, в отличие от ношения закрытых наушников, участники не полностью отрезаны от потенциальной опасности реальной окружающей среды вокруг них. Это может быть важным фактором во многих практических ситуациях.

Еще одним преимуществом гибридной системы, такой как описанные системы, является то, что часть аудиоконтента преобразуют для воспроизведения через общую акустическую установку, которая обычно усиливает у пользователя ощущение общего восприятия. Данный подход, как правило, обеспечивает улучшенное восприятие пользователем.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры. Однако понятно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения. Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами. Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Наоборот, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественного числа. Поэтому ссылки с использованием средств указания единственного числа, числительных в единственном числе «первый», «второй» и т.д. не исключают множества. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.

Claims

1. Аудиоустройство обработки аудиоданных, содержащее:

приемник (201) для приема данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов;

первый преобразователь (205) для преобразования для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем;

второй преобразователь (207) для преобразования для воспроизведения аудиоэлементов путем формирования второго набора аудиосигналов для наушников; и при этом аудиоустройство отличается тем, что содержит: селектор (209), выполненный с возможностью выбора между первым преобразователем (205) для воспроизведения и вторым преобразователем (207) для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на первый указатель свойства преобразования для воспроизведения аудио;

причем первый указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первая часть первого аудиоэлемента аудиоисточник с пространственным свойством, ориентация которого привязана к голове и который предназначен для привязанного положения относительно головы пользователя, или представляет аудиоисточник с пространственным свойством, ориентация которого не привязана к голове и который предназначен для фиксированного положения в окружающей среде.

2. Устройство по п. 1, также содержащее приемник (211) позы слушателя для приема позы слушателя, указывающей позу слушателя, причем первый преобразователь (205) для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов независимо от позы слушателя, а второй преобразователь (207) для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов в ответ на позу слушателя.

3. Устройство по п. 1, выполненное с возможностью формирования аудиосигналов для множества слушателей, причем первый преобразователь (205) для воспроизведения выполнен с возможностью формирования первого набора аудиосигналов как общего набора аудиосигналов для множества слушателей; а второй преобразователь (207) для воспроизведения выполнен с возможностью формирования второго набора аудиосигналов для наушников первого слушателя из множества слушателей и формирования третьего набора аудиосигналов для наушников второго слушателя из множества слушателей.

4. Устройство по любому предыдущему пункту, в котором первая часть является частотным поддиапазоном первого аудиоэлемента.

5. Устройство по любому предыдущему пункту, в котором селектор (209) выполнен с возможностью выбора разных преобразователей (205, 207) для воспроизведения из первого преобразователя (205) для воспроизведения и второго преобразователя (207) для воспроизведения для первой части первого аудиоэлемента и для второй части первого аудиоэлемента.

6. Устройство по п. 1, в котором указатель свойства преобразования для воспроизведения аудио указывает аудиоформат первого аудиоэлемента.

7. Устройство по п. 1, в котором указатель свойства преобразования для воспроизведения аудио указывает тип аудиоисточника первого аудиоэлемента.

8. Устройство по любому предыдущему пункту, в котором указатель свойства преобразования для воспроизведения аудио указывает руководящее свойство преобразования для воспроизведения для преобразования для воспроизведения первого аудиоэлемента.

9. Устройство по п. 8, в котором указатель свойства преобразования для воспроизведения аудио указывает, предназначена ли первая часть первого аудиоэлемента для преобразования для воспроизведения через акустические системы или наушники.

10. Устройство по любому предыдущему пункту, в котором приемник (201) также выполнен с возможностью приема визуальных данных, указывающих виртуальную сцену, соответствующую аудиосцене, а указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первый аудиоэлемент аудиоисточник, соответствующий объекту аудиосцены.

11. Устройство по любому предыдущему пункту, также содержащее пользовательский ввод для приема пользовательского ввода, и при этом селектор (211) выполнен с возможностью выбора между первым преобразователем (205) для воспроизведения и вторым преобразователем (207) для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на пользовательский ввод.

12. Устройство по любому предыдущему пункту, в котором селектор (209) выполнен с возможностью определения свойства аудио первого аудиоэлемента и выбора между первым преобразователем (205) для воспроизведения и вторым преобразователем (207) для воспроизведения для преобразования для воспроизведения по меньшей мере первой части первого аудиоэлемента в ответ на свойство аудио.

13. Способ обработки аудио, включающий:

прием данных, описывающих аудиосцену, причем данные содержат аудиоданные для набора аудиоэлементов, соответствующих аудиоисточникам в указанной сцене, и метаданные, содержащие по меньшей мере первый указатель свойства преобразования для воспроизведения аудио для первого аудиоэлемента из набора аудиоэлементов;

преобразование для воспроизведения аудиоэлементов путем формирования первого набора аудиосигналов для набора акустических систем;

преобразование для воспроизведения аудиоэлементов путем формирования второго набора аудиосигналов для наушников, и

при этом способ отличается тем, что включает:

выбор между преобразованием для воспроизведения по меньшей мере первой части первого аудиоэлемента для набора акустических систем и для наушников в ответ на первый указатель свойства преобразования для воспроизведения аудио,

причем указатель свойства преобразования для воспроизведения аудио указывает, представляет ли первая часть первого аудиоэлемента аудиоисточник с пространственным свойством, ориентация которого привязана к ориентации головы и который предназначен для привязанного положения относительно головы пользователя, или представляет аудиоисточник с пространственным свойством, ориентация которого не привязана к голове и который предназначен для фиксированного положения в окружающей среде.

14. Машиночитаемый носитель информации, на котором сохранены средства программного кода, выполненные с возможностью осуществления всех этапов способа по п. 13 при исполнении упомянутых средств программного кода на компьютере.