Устройство и способ обработки аудиовизуальных данных Российский патент 2023 года по МПК G06F3/38 G06T3/40 H04N21/2343 G10L19/08 H04N21/439 H04S7/00 

Описание патента на изобретение RU2805260C2

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к устройству и способу обработки аудиовизуальных данных и, в частности, но не исключительно, к обработке аудиовизуальных данных, например для обеспечения восприятия виртуальной реальности.

УРОВЕНЬ ТЕХНИКИ

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления аудиовизуального контента в последние годы произошел значительный рост разнообразия и диапазона восприятия такого контента. В частности, разрабатываются множество пространственных и интерактивных услуг, приложений и подходов к восприятию, чтобы обеспечить пользователям восприятие с более сильным вовлечением и погружением.

Примерами таких приложений являются приложения виртуальной реальности (Virtual Reality, VR) и дополненной реальности (Augmented Reality, AR), которые быстро становятся господствующими тенденциями, при этом ряд решений ориентирован на потребительский рынок. Кроме того, многими органами по стандартизации разрабатывается ряд стандартов. В рамках такой деятельности по стандартизации активно разрабатываются стандарты для различных аспектов систем VR/AR, включая, например, потоковую передачу, широковещание, преобразование для воспроизведения и т. д.

Приложения VR, как правило, обеспечивают восприятия пользователем, соответствующие нахождению пользователя в другом мире/окружающей среде/сцене, тогда как приложения AR обычно обеспечивают восприятия пользователем, соответствующие нахождению пользователя в текущей окружающей среде, но с добавлением дополнительной информации либо виртуальных объектов или информации. Таким образом, приложения VR, как правило, обеспечивают всеохватывающие синтетически формируемые мир/сцену, тогда как приложения AR обычно обеспечивают частично синтетические мир/сцену, накладываемые на реальную сцену, в которой пользователь присутствует физически. Однако это термины частот используются взаимозаменяемо и имеют высокую степень перекрытия. Далее термин виртуальная реальность/VR будет использоваться для обозначения как виртуальной реальности, так и дополненной реальности.

В качестве примера, быстро набирающая популярность услуга заключается в предоставлении изображений и аудио таким образом, что пользователь в состоянии активно и динамически взаимодействовать с системой для изменения параметров преобразования для воспроизведения так, что изображения и аудио будут адаптироваться к перемещению и изменениям положения и ориентации пользователя. Весьма привлекательной особенностью многих приложений является возможность изменения эффективного положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться вокруг» в представляемой сцене.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории игр-стрелялок от первого лица.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.

В добавление к визуальному преобразованию для воспроизведения большинство приложений VR/AR также обеспечивают соответствующие восприятие аудио. Во многих приложениях аудио предпочтительно обеспечивает пространственное восприятие звука, причем аудиоисточники воспринимаются как издающие звук из положений, которые соответствуют положениям соответствующих объектов в визуальной сцене. Таким образом, аудио- и видеосцены предпочтительно воспринимаются как согласованные, причем и те, и другие обеспечивают полное пространственное восприятие.

Видеоконтент, например, используемый для приложений виртуальной реальности, все чаще захватывают с помощью широкого спектра устройств различных типов, начиная профессиональными системами камер и заканчивая смартфонами, планшетами, экшн-камерами, (360-градусными) надстройками к камере для смартфонов и т. д. Кроме того, весь этот видеоконтент используют в столь же широком диапазоне устройств отображения, например, в смартфонах, телевизорах, планшетах, наголовных дисплеях (Head Mounted Display, HMD) для виртуальной реальности и т. д.

Все эти устройства обладают конкретными свойствами, относящимися к собственным и/или поддерживаемым форматным соотношениям видеоконтента. Для устройств захвата они в основном определяются размером и формой кристалла микросхемы видеодатчика, в то время как для устройств отображения это размер и форма дисплея, которые определяют оптимальное форматное соотношение видеоконтента, подлежащего отображению на устройстве.

В результате форматные соотношения видеоконтента и устройства, на котором отображают этот контент, часто не совпадают, особенно учитывая то, что все больше и больше создаваемого пользователем контента (User Generated Content, UGC) захватывается потребителями на бесчисленном множестве устройств.

Во избежание неиспользования большой части дисплея или, наоборот, «отсечения» части видеоизображения к видеоизображению может быть применено преобразование форматного соотношения («увеличение масштаба»). Однако, когда это делают самым простым способом посредством линейного растяжения или сжатия одного (или более) размера, это часто приводит к нежелательному искажению изображения.

Для преодоления этой проблемы искажения изображения за последние годы были разработаны более продвинутые «интеллектуальные» алгоритмы увеличения масштаба видео, которые применяют к изображению неоднородное перепреобразование, учитывающее характеристики различных частей видеоизображения, например, различающее передний план и задний план, «центральную» и «периферийную часть» и/или «объекты» и «текстуру». Такие различия могут быть сделаны на основе чисто визуальных параметров, таких как, например, локальный контраст, но также на основе более продвинутых алгоритмов анализа, базирующихся на искусственном интеллекте (ИИ)/машинном обучении, например, на распознавании объектов как «человек» или «автомобиль».

Анализ изображения, необходимый для выполнения этого «интеллектуального» увеличения масштаба видео, требует большого объема вычислений, а для анализа на основе ИИ также требуется довольно большая база данных обучения.

По этой причине алгоритм на основе ИИ предпочтительно выполняют не непосредственно на устройстве конечного пользователя, а в (удаленной) распределенной компьютерной сети. Эта сеть может быть «облаком» или какой-то определенной компьютерной сетью. Это также имеет то преимущество, что алгоритм ИИ может воспользоваться обратной связью многих пользователей, чтобы со временем улучшить субъективное качество интеллектуального увеличения масштаба.

MPEG недавно инициировала новое направление работы по стандартизации «Сетевая обработка медиа» (Network-based Media Processing, NBMP), целью которого является обеспечение возможности распределенного анализа и обработки медиаконтента, например, интеллектуального увеличения масштаба, описанного выше. Это направление работы является частью нового стандарта MPEG-I для медиа с эффектом погружения (VR, AR, MR).

Однако в то время как такая интеллектуальная адаптация форматного соотношения часто может обеспечивать улучшенное восприятие пользователем за счет адаптации представленного видео к конкретному форматному соотношению, этот подход может сам по себе не обеспечивать оптимального восприятия пользователем.

Поэтому был бы полезен усовершенствованный подход к обработке аудиовизуальных данных для сцены. В частности, был бы полезен подход, позволяющий улучшить работу, повысить гибкость, уменьшить сложность, облегчить реализацию, улучшить восприятие пользователем, улучшить согласование восприятия сцены, улучшить восприятие виртуальной реальности и/или улучшить рабочие характеристики и/или работу.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.

В соответствии с аспектом настоящего изобретения предложено устройство обработки аудиовизуальных данных для сцены, содержащее: приемник для приема аудиовизуальных данных для указанной сцены, при этом аудиовизуальные данные содержат аудиоданные для указанной сцены, содержащие множество аудиоэлементов, и данные изображения по меньшей мере для первого изображения сцены, причем первое изображение сцены имеет первое форматное соотношение; перепреобразователь изображения для выполнения контент-зависимого неоднородного преобразования первого изображения во второе изображение, имеющее второе форматное соотношение, причем второе аспектное соотношение отличается от первого форматного соотношения, при этом перепреобразователь изображения выполнен с возможностью формирования данных преобразования, описывающих контент-зависимое неоднородное преобразование; и перепреобразователь аудио, выполненный с возможностью замены первого аудиоэлемента из множества аудиоэлементов вторым аудиоэлементом, сформированным путем модификации пространственного свойства для первого аудиоэлемента в ответ на данные преобразования.

Это может во многих вариантах реализации обеспечить улучшенное восприятие пользователем и может во многих сценариях обеспечить улучшенное и более согласованное восприятие аудио и видео, что, как правило, может привести к более реалистичному и погружающему восприятию. Кроме того, это может обеспечить практическую реализацию низкой сложности.

Как правило, можно достичь улучшенного и более естественного восприятия сцены, и во многих сценариях помехи и несогласованность в результате звукового и визуального представления сцены могут быть ослаблены или уменьшены. Этот подход может быть, в частности, полезен для приложений виртуальной реальности, VR, (включая дополненную реальность, AR).

Данный подход может во многих вариантах реализации обеспечить улучшенные рабочие характеристики при сохранении низких сложности и использовании ресурсов.

Авторы изобретения поняли, что в то время как приспосабливающаяся к контенту адаптация форматного соотношения может привести к улучшенной адаптации преобразуемого для воспроизведения видео к конкретным средствам отображения преобразования для воспроизведения, в некоторых случаях она также может привести к ухудшенному общему восприятию пользователем ввиду того, что адаптация приводит к потенциальному расхождению между пространственными восприятиями аудио и видео. Авторы изобретения также поняли, что использующий заданную адаптацию аудио подход к приведению в соответствие конкретных средств отображения и форматного соотношения, как правило, будет приводить к неоптимальным результатам. Авторы изобретения поняли, что улучшенного общего восприятия пользователем и, в частности, более согласованного подхода можно достичь путем применения перепреобразования к аудио, при котором перепреобразователь изображения формирует данные преобразования, описывающие конкретное выполняемое перепреобразование, а перепреобразование аудио адаптируют на основе этих данных преобразования.

Контент-зависимое неоднородное преобразование может быть нелинейным преобразованием, которое адаптируют в ответ на контент первого изображения. Данные преобразования могут указывать, каким образом разные элементы изображения были передвинуты с первого изображения на второе изображение. Например, сдвиг может быть абсолютным сдвигом или может быть относительным сдвигом между разными сегментами/положениями/пикселями изображения. Контент-зависимое неоднородное преобразование может быть двумерным преобразованием положений первого изображения в положения на втором изображении (по меньшей мере для некоторых положений). Двумерное преобразование может быть в плоскости отображения, а положения могут быть положениями плоскости отображения. Контент-зависимое неоднородное преобразование может быть изменяющим форматное соотношения изображения контент-зависимым неоднородным преобразованием.

Данные преобразования могут описывать контент-зависимое неоднородное преобразование путем описания взаимосвязи между положениями на первом изображении и положениями на втором изображении (по меньшей мере для некоторых положений). Положения на первом изображении и/или втором изображении могут быть двумерными положениями в плоскости отображения. Положения на первом изображении и/или втором изображении могут быть абсолютными и/или относительными положениями.

Второй аудиоэлемент может представлять тот же самый аудиоконтент, что и первый аудиоэлемент, но с другим пространственным свойством, таким как другое свойство положения и/или пространственного распространения.

Во многих вариантах реализации устройство может содержать функциональные возможности преобразования для воспроизведения сцены на основе аудиоданных и визуальных данных (после модификации перепреобразователем изображения и перепреобразователем аудио). Однако в других вариантах реализации такое преобразование для воспроизведения может быть внешним для устройства.

Форматное соотношение может быть отношением ширины к высоте изображения или экрана.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью формирования второго аудиоэлемента путем модификации свойства пространственного положения первого аудиоэлемента в ответ на данные преобразования.

Это может обеспечить особенно выгодные рабочие характеристики и/или восприятие пользователем во многих вариантах реализации. Как правило, это может обеспечить улучшенную согласованность между представлением аудио и визуальным представлением сцены.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью формирования второго аудиоэлемента путем изменения пространственного положения первого аудиоэлемента из положения, соответствующего положению изображения в первом форматном соотношении, в положение изображения на втором изображении.

Это может обеспечить особенно выгодные рабочие характеристики и/или восприятие пользователем во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью формирования второго аудиоэлемента путем модификации свойства пространственного распространения первого аудиоэлемента в ответ на данные преобразования.

Это во многих вариантах реализации может обеспечить улучшенное восприятие пользователем и может, в частности, обеспечить дополнительную гибкость адаптирования звукового пространства для обеспечения восприятия, совместимого с предоставленным визуальным выходным сигналом. Свойство пространственного распространения может указывать степень физического или воспринимаемого размера, указывающего, какую площадь обзора пользователя, дисплея и/или диапазона направлений прихода входящих волн звукового давления охватывает аудиовизуальный объект. Указание того, насколько больше преобразуется или должен быть преобразован для воспроизведения звуковой элемент, чем точечный источник, его пространности. В различных вариантах реализации подходящей мерой для пространственного распространения могут быть, например, абсолютные размер (размеры), угол (углы), радиус (радиусы).

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио также выполнен с возможностью формирования второго аудиоэлемента путем модификации пространственного свойства в ответ на свойство аудио первого аудиоэлемента.

Это может обеспечить улучшенные рабочие характеристики и/или восприятие пользователем. Свойство аудио может быть акустическим свойством.

В соответствии с необязательным признаком настоящего изобретения акустическое свойство содержит степень пространственного распространения для первого аудиоэлемента.

Это может позволить точнее адаптировать определение модифицированного пространственного свойства.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью уменьшения изменения положения между вторым аудиоэлементов и первым аудиоэлементом для увеличения степени пространственного распространения для первого аудиоэлемента.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью выбора, применять ли модификацию к пространственному свойству или нет в зависимости от степени пространственного распространения.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации. В некоторых вариантах реализации перепреобразователь аудио может быть выполнен с возможностью выбора, заменять ли первый аудиоэлемент вторым аудиоэлементом или нет в зависимости от степени пространственного распространения.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью модификации пространственного свойства в ответ на тип аудио первого аудиоэлемента.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации. Типы аудио могут включать одно или более из группы аудиоканала, аудиоэлемента амбиофонии более высокого порядка и аудиообъекта.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью модификации пространственного свойства в ответ на то, привязан ли первый аудиоэлемент к объекту изображения на первом изображении.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью модификации пространственного свойства в зависимости от того, предназначен ли первый аудиоэлемент в качестве аудио заднего плана.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации.

В некоторых вариантах реализации перепреобразователь аудио может быть выполнен с возможностью применения неоднородного пространственного расширения к аудиоэлементам множества аудиоэлементов, являющихся аудиоканалами.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью модификации пространственного свойства в ответ на свойство дисплея для преобразования для воспроизведения второго изображения.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации. Свойство дисплея может быть, в частности, размером дисплея.

В соответствии с необязательным признаком настоящего изобретения перепреобразователь аудио выполнен с возможностью модификации пространственного свойства в ответ на положение зрителя относительно дисплея для преобразования для воспроизведения второго изображения.

Это может обеспечить улучшенные рабочие характеристики и/или улучшенное восприятие пользователем во многих вариантах реализации. Положение зрителя может быть номинальным или предполагаемым положением зрителя или может быть, например, измеренным и идентифицированным положением зрителя.

В соответствии с аспектом настоящего изобретения предложен способ обработки аудиовизуальных данных для сцены, включающий: прием аудиовизуальных данных для указанной сцены, при этом аудиовизуальные данные содержат аудиоданные для указанной сцены, содержащие множество аудиоэлементов, и данные изображения по меньшей мере для первого изображения сцены, причем первое изображение сцены имеет первое форматное соотношение; выполнение контент-зависимого неоднородного преобразования первого изображения во второе изображение, имеющее второе форматное соотношение, причем второе форматное соотношение отличается от первого форматного соотношения, а контент-зависимое неоднородное преобразование включает формирование данных преобразования, описывающих контент-зависимое неоднородное преобразование; и замену первого аудиоэлемента из множества аудиоэлементов вторым аудиоэлементом, сформированным путем модификации пространственного свойства для первого аудиоэлемента в ответ на данные преобразования.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на варианты реализации.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:

на ФИГ. 1 показан пример схемы расположения клиент-сервер для обеспечения восприятия виртуальной реальности;

на ФИГ. 2 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения;

на ФИГ. 3 показан пример преобразования для воспроизведения аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения; и

на ФИГ. 4 показан пример преобразования для воспроизведения аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

В следующем описании основное внимание уделяется вариантам реализации настоящего изобретения, которые могут быть применены к системе виртуальной реальности. Однако понятно, что настоящее изобретение не ограничивается этим применением, а может быть применено к многим другим системам для распределения, обработки и/или преобразования для воспроизведения аудиовизуальных данных.

Описание также будет сосредоточено на обращении с аудиовизуальными данными и их обработке в контексте подходов клиент-сервер, поддерживаемых сетью, которая, в частности, может быть общедоступной сетью, такой как Интернет. Однако опять же понятно, что это всего лишь пример применения описанных принципов и подходов, и что они могут быть использованы во многих других системах и приложениях, включая, например, системы, в которых аудиовизуальные данные предоставляют в форме специально предназначенного потока данных, передаваемых непосредственно в устройство обработки/преобразования для воспроизведения, или варианты реализации, в которых устройство преобразования для воспроизведения само извлекает или формирует аудиовизуальные данные.

Виртуальные (включая дополненные) восприятия, позволяющие пользователю перемещаться в виртуальном или дополненном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги. Во многих таких подходах визуальные данные и аудиоданные могут быть сформированы динамически для отражения текущей позы пользователя (или зрителя).

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации. Комбинация положения и направления/ориентации, например, объекта, камеры, головы или вида, может называться позой или расположением. Таким образом, указание расположения или позы может включать шесть значений/компонентов/степеней свободы, причем каждое значение/компонент описывает отдельное свойство позиции/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз. Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности. В других вариантах реализации одно или более изображений вида могут быть, например, представлены на автостереоскопическом дисплее или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).

Аналогичным образом для данной позы зрителя/пользователя/слушателя может быть обеспечено аудиопредставление сцены. Аудиосцену обычно преобразуют для воспроизведения для обеспечения пространственного восприятия, в котором аудиоисточники воспринимаются как происходящие из требуемых положений. Аудиоисточники в сцене могут быть статичными, а изменения позы пользователя приведут к изменению относительного положения аудиоисточника относительно позы пользователя. Соответственно, пространственное восприятие аудиоисточника следует изменять для отражения нового положения относительно пользователя. Преобразование для воспроизведения аудио может быть, соответственно, адаптировано в зависимости от позы пользователя.

Во многих вариантах реализации преобразование для воспроизведения аудио является бинауральным преобразованием для воспроизведения с использованием передаточных функций головы (Head Related Transfer Function, HRTF) или бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Responses, BRIR) (или подобного) для обеспечения требуемого пространственного эффекта для пользователя, носящего наушники. Однако понятно, что вместо этого в некоторых системах аудио может быть преобразовано для воспроизведения с использованием системы громкоговорителей, а сигналы для каждого громкоговорителя могут быть преобразованы для воспроизведения так, что общий эффект возле пользователя соответствует требуемому пространственному восприятию.

Входные данные позы зрителя или пользователя могут быть определены разными путями в разных приложениях. Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно. Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза) пользователя. Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами. Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы. В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять положение гарнитуры виртуальной реальности.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным средством ввода вручную. Например, пользователь может вручную перемещать виртуального зрителя вокруг виртуальной сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.

В некоторых системах приложение виртуальной реальности может быть реализовано и выполнено удаленно от зрителя. Например, устройство, локальное для пользователя, может обнаруживать/принимать данные движения/позы, передаваемые удаленному устройству, которое обрабатывает данные для формирования позы зрителя. После этого удаленное устройство может формировать подходящие изображения вида для позы зрителя на основе данных сцены, описывающих сцену. Затем изображения вида передают на устройство, локальное для зрителя, где их представляют. Например, удаленное устройство может непосредственно формировать видеопоток (обычно поток стерео/3D-видео), который непосредственно представляют с помощью локального устройства. Аналогичным образом удаленное устройство может формировать аудиосцену, отражающую виртуальную окружающую аудиосреду. Во многих вариантах реализации это может быть сделано путем формирования аудиосигналов, которые соответствуют относительному положению разных аудиоисточников в виртуальной окружающей аудиосреде, например, путем применения бинауральной обработки к отдельным аудиокомпонентам, соответствующим их текущему положению относительно позы головы. Поэтому в таком примере локальное устройство может не выполнять никакой обработки виртуальной реальности за исключением передачи данных движения и представления принятых видео- и аудиоданных.

Во многих системах функциональные возможности могут быть распределены между локальным устройством и удаленным устройством. Например, локальное устройство может обрабатывать принимаемые входные данные и данные датчиков для формирования поз зрителя, которые непрерывно передаются на удаленное устройство виртуальной реальности. После этого удаленное устройство виртуальной реальности может формировать соответствующие изображения вида и передавать их на локальное устройство для представления. В других системах удаленное устройство виртуальной реальности может не формировать непосредственно изображения вида, а может выбирать соответствующие данные сцены и передавать их на локальное устройство, которое может затем формировать изображения вида, которые представляют. Например, удаленное устройство виртуальной реальности может идентифицировать ближайшую точку захвата, выделить соответствующие данные сцены (например, сферическое изображение и данные глубины из точки захвата) и передать их на локальное устройство. После этого локальное устройство может обработать принятые данные сцены для формирования изображений для конкретной текущей позы обзора.

Аналогичным образом удаленное устройство виртуальной реальности может формировать аудиоданные, представляющие аудиосцену с помощью ряда аудиоэлементов, которые могут быть разными аудиокомпонентами, аудиообъектами, аудиосигналами, сигналами аудиоканала и т. д., соответствующими разным аудиоисточникам в аудиосцене. Для некоторых или всех аудиоэлементов аудиовизуальные данные в некоторых вариантах реализации могут также содержать информацию о положении, указывающую положение аудиоисточников (которое может, например, динамически изменяться для подвижных объектов), а также потенциально другие пространственные данные или акустические метаданные (например, насколько рассеянным или реверберирующим является данный аудиоисточник). После этого локальное устройство виртуальной реальности может преобразовать для воспроизведения сигналы соответствующим образом, например, путем применения надлежащей бинауральной обработки, отражающей относительное положение аудиоисточников для аудиокомпонентов.

На ФИГ. 1 показан такой пример системы виртуальной реальности, в которой удаленный сервер 101 поддерживает связь с клиентским устройством 103, например, через сеть 105, такую как Интернет. Удаленный сервер 101 может быть выполнен с возможностью одновременной поддержки потенциально большого количества клиентских устройств 103.

Такой подход может обеспечивать улучшенный компромисс, например, между сложностью и потребностью в ресурсах для разных устройств, требованиями к связи и т. д., во многих сценариях. Например, поза зрителя и соответствующие данные сцены могут передаваться с более длинными интервалами, при этом локальное устройство обрабатывает позу зрителя и принятые данные сцены локально для обеспечения восприятия в реальном времени с малым запаздыванием. Это может, например, существенно уменьшить требуемую полосу пропускания связи с обеспечением при этом восприятия с малой задержкой при возможности централизованного хранения, формирования и поддержания данных сцены. Это может, например, подойти для приложений, в которых восприятие виртуальной реальности обеспечивают на множестве удаленных устройств.

В некоторых вариантах реализации сервер 101 может формировать непрерывный поток аудиовизуальных данных, содержащий видеопоток в режиме реального времени и связанный аудиопоток в режиме реального времени, соответствующие текущей позе зрителя (которая определяется из данных, принимаемых от клиента 103). Этот аудиовизуальный поток в режиме реального времени может быть сформирован так, что он может быть преобразован для воспроизведения непосредственно клиентом 103, и, в частности, в некоторых вариантах реализации на клиенте 103 может не выполняться или не требоваться обработка позы или сдвига точки обзора или обработка окружающей среды виртуальной реальности. Это может подойти для многих устройств с низкими ресурсами обработки, таких как, например, многие мобильные устройства или низкоресурсные устройства с гарнитурой. Требуемая обработка на клиенте может быть сокращена до минимума.

Такой подход может также особенно подойти для сценариев, в которых восприятие является общим восприятием, когда множество людей заинтересованы в одном и том же восприятии сцены. Такой сценарий обычен при широковещании, включая, например, 3D-трансляцию со спортивных соревнований. Данный подход не ограничивается традиционными аудиовизуальными трансляциями, а может также использоваться в системах, в которых поза обзора динамически определяется и варьируется. Общее восприятие может быть также применимым к некоторым восприятиям и услугам виртуальной реальности.

Например, в случае киберспортивных трансляций игрок может управлять перемещением в окружающей среде виртуальной реальности, причем получающиеся в результате аудиовизуальные данные для конкретных поз также распределяются сервером 101 большому количеству пассивных клиентов 103. В таком варианте реализации пользователь индивидуального пассивного клиента по существу может видеть киберспортивное соревнование глазами игрока.

Например, в случае киберспортивного соревнования, в котором игроки играют в игру-стрелялку от первого лица, отдельный игрок управляет своим аватаром и перемещается в сцене, в которой происходит битва. Другие игроки будут в состоянии видеть этот аватар, но сам игрок не видит свой собственный аватар (или по меньшей мере не весь аватар), а вместо этого видит вид сцены, которую воспринимает его аватар (т. е. то, что видел бы человек в виртуальной сцене из этой точки обзора). В последнее время киберспорт стал очень популярным видом спорта с крупными соревнованиями, привлекающими десятки тысяч зрителей, которые могут на больших дисплеях непосредственно наблюдать за игрой в месте проведения игры. Дисплеи могут, например, представлять общий вид сцены с указанием положения отдельных игроков и с видами отдельных игроков.

Кроме того, такие киберспортивные соревнования часто могут передаваться в потоковом режиме зрителям, которые находятся не в месте проведения соревнования, и часто могут передаваться в потоковом режиме очень большому количеству зрителей, которые в некоторых случаях могут составлять сотни тысяч или даже миллионы зрителей, смотрящих в режиме реального времени. В таких случаях вид, который формируется для одного из игроков в зависимости от ввода и управления этого игрока, может привести к изображениям вида (видеопоследовательности), которые не только представлены этому игроку, но и передаются в режиме реального времени очень большому количеству отдельных зрителей в разных местах и при разных обстоятельствах и с использованием различного оборудования для просмотра.

Проблема с предоставлением контента множеству и, в частности, большому количеству клиентов заключается в том, что характеристики клиентов и, в частности, средств преобразования для воспроизведения могут существенно отличаться для разных устройств и могут быть не известны на сервере. Соответственно, во многих подходах сервер 101 будет формировать поток аудиовизуальных данных для данного номинального или стандартизированного устройства. В частности, поток данных может быть сформирован для данного номинального дисплея преобразования для воспроизведения. К таким факторам, которые нужно учитывать, могут относиться разрешение, глубина цвета, форматное соотношение, размер и т. д. Если локальное средство преобразования для воспроизведения не соответствует предполагаемым характеристикам, на устройстве 103 может быть локально выполнена адаптация.

В частности, адаптация форматного соотношения для приведения в соответствие с конкретным дисплеем, используемым на отдельном клиенте, может значительно сказываться на восприятии пользователем, поскольку она напрямую влияет на визуальное представление. Например, использование неверного форматного соотношения может привести к черным полосам вокруг изображения, а многие имеющие низкую сложность адаптации форматного соотношения приводят к значительному геометрическому искажению.

На ФИГ. 2 показан пример клиентского устройства 103, которое выполнено с возможностью адаптации принимаемого потока аудиовизуальных данных для приведения в соответствие с конкретным форматным соотношением дисплея, на котором должны быть представлены визуальные данные.

Клиентское устройство 103 содержит приемник 201, который выполнен с возможностью приема аудиовизуальных данных для сцены, причем аудиовизуальные данные содержат данные, описывающие как визуальные, так и звуковые аспекты сцены. В частности, аудиовизуальные данные содержат данные изображения по меньшей мере для первого изображения сцены и, в частности, в описываемых вариантах реализации содержат видеопоток, обеспечивающий изображения в форме видеопоследовательности. Первое изображение имеет данное форматное соотношение (т. е. данное соотношение между шириной и высотой изображения). Во многих вариантах реализации может быть обеспечен поток 3D-видео, содержащий кадры изображений как для левого, так и для правого глаза, соответствующие конкретной позе обзора для сцены.

Кроме того, аудиовизуальные данные содержат аудиоданные для сцены, причем аудиоданные описывают ряд аудиоэлементов для сцены. Например, аудиоданные, содержащие различные аудиоэлементы в форме аудиоканалов, аудиообъектов, аудиоканала, амбиофонии более высокого порядка и т. д. В некоторых вариантах реализации аудиоэлементы аудиоданных могут все быть одного и того же типа, но во многих вариантах реализации аудиосцена может представлять аудиосцену посредством аудиоданных, содержащих аудиоэлементы разных типов для разных аудиоисточников.

Таким образом, во многих вариантах реализации принимаемые аудиоданные описывают аудиосцену, соответствующую сцене, визуально представленной видеоданными, посредством ряда разных аудиоэлементов, которые могут быть аудиоэлементами разных типов.

Например, некоторые аудиоэлементы могут соответствовать одному аудиоисточнику, имеющему конкретное и четко определенное пространственное положение в сцене (т. е. потенциально виртуальное пространственное положение в виртуальной сцене). Такой аудиоисточник может быть, например, представлен конкретным и отдельным аудиообъектом со связанными данными положения. Например, для каждого инструмента в оркестре и/или для каждого человека в данной сцене может быть предусмотрен аудиообъект. Другие аудиоэлементы могут соответствовать комбинации разных аудиоисточников, и они, как правило, могут иметь менее четко определенные пространственные положения. Например, может быть предусмотрен рассеянный аудиосигнал заднего плана, который представляет общий фоновый или рассеянный звук в сцене. Такой аудиосигнал может быть более рассеянным и распространенным, чем аудиообъект, который непосредственно представляет один аудиоисточник.

Приемник 201 соединен с перепреобразователем 203 изображения, в который подают данные изображения, т. е. он принимает данные изображения по меньшей мере для одного изображения, но, как правило, для большого количества кадров видеопоследовательности. Перепреобразователь 203 изображения выполнен с возможностью осуществления контент-зависимого неоднородного преобразования первого изображения во второе изображение, имеющее другое форматное соотношение (второе форматное соотношение) по сравнению с первоначальным форматным соотношением. Например, принимаемые аудиовизуальные данные могут содержать картинки или кадры с данным форматным соотношением, таким как, например, широко распространенное форматное соотношение 16:9. Однако устройство на ФИГ. 2 может быть выполнено с возможностью управления дисплеем, который имеет другое форматное соотношение. Например, дисплей может иметь форматное соотношение 4:3, форматное соотношение 21:9 или форматное соотношение 18:9 (которое часто используют для гарнитур виртуальной реальности).

Перепреобразователь 203 изображения выполнен с возможностью формирования модифицированного изображения, которое имеет другое форматное соотношение. Например, первое изображение, полученное в принятых аудиовизуальных данных, может быть модифицировано для обеспечения второго изображения, которое имеет другое форматное соотношение. Преобразование форматного соотношения — это не просто стандартное заданное растяжение/сжатие изображения из входного форматного соотношения в соотношение дисплея, а наоборот, неоднородное и контент-зависимое преобразование одного форматного соотношения в другое. При преобразовании некоторые части изображения растягивают/передвигают в соответствии с другими функциями по сравнению с другими частями. Перепреобразователь 203 изображения не просто применяет заданное преобразование, а адаптирует применяемое преобразование в зависимости от контента на изображениях.

Например, во многих вариантах реализации перепреобразователь 203 изображения может быть выполнен с возможностью деления изображения на сегменты и может применять разные преобразования по меньшей мере к двум разным сегментам изображения. Например, перепреобразователь 203 изображения может делить сегменты на ряд категорий или типов и применять конкретный алгоритм перепреобразования к каждому типу сегментов. Затем получающиеся в результате перепреобразованные сегменты могут быть объединены во второе изображение, например, путем выбора сегмента первого плана для областей сегментов, которые после перепреобразования перекрываются, и заполнения дыр, возникающих из-за преобразования (например, из сегмента заднего плана).

В качестве конкретного примера низкой сложности перепреобразователь 203 изображения может выполнять сегментацию принятого изображения. Сегментация может быть основана на содержимом изображения (например, цветах, яркости и т. д.), а также, возможно, может быть основана на карте глубины, связанной с принятым изображением, как известно специалисту в данной области. На основе сегментации сегменты могут быть разделены на группы, содержащие сегменты, которые соответствуют бросающимся в глаза объектам (например, объектам переднего плана, объектам, соответствующим людям, обнаруженным лицам и т. д.) и не бросающимся в глаза объектам (включая, например, задний план), соответственно. Из всех не бросающихся в глаза объектов/сегментов может быть сформировано промежуточное изображение, и к этому изображению может быть применено заданное преобразование форматного соотношения (например, заданное растяжение). Например, для формирования второго промежуточного изображения, имеющего форматное соотношение, соответствующее дисплею, может быть применено простое заданное однородное растяжение или заданное анаморфическое растяжение. После этого могут быть заполнены дыры в изображении, например, путем заполнения с использованием экстраполяции соседних областей, как известно в данной области техники, или путем растяжения изображения заднего плана между ними.

Для бросающихся в глаза объектов могут быть определены новые положения, и, как правило, они будут определены так, чтобы их искажение по сравнению с первоначальным изображением было меньше, чем для заданного преобразования изображения, не бросающегося в глаза. Например, бросающиеся в глаза объекты/изображения могут быть все определены так, чтобы они имели позиции, которые не меняются относительно друг друга, т. е. расстояния между бросающимися в глаза объектами могут поддерживаться неизменными. Абсолютное положение может быть, например, определено так, чтобы оно имело то же самое смещение относительно центра изображения. Наконец, бросающиеся в глаза объекты могут быть наложены на второе промежуточное изображение для формирования выходного изображения, соответствующего первоначальному изображению, но с требуемым форматным соотношением, обычно таким, как у дисплея, на котором должно быть преобразовано для отображения изображение/видео.

Такой пример может, например, привести к тому, что бросающиеся в глаза объекты остаются в том же самом положении относительно друг друга и центра изображения, но задний план растягивается для приведения в соответствие с новым форматным соотношением. Например, в случае двух людей, стоящих на пляже, сформированное изображение может иметь этих двух людей, стоящих в том же самом положении на отображаемом изображении и на том же расстоянии друг от друга, но пляж и море на заднем плане растягивают так, что они заполняют все изображение.

Понятно, что это всего лишь пример низкой сложности, и что вместо этого могут быть использованы многие другие, и часто более сложные, алгоритмы. Примеры можно найти, например, в итоговом документе «Примеры использования и проект требований к сетевой обработке медиа (в1)» 119-го собрания MPEG, Турин (Италия), июль 2017 г. («Use cases and draft requirements for Network Based Media Processing (v1)», output document of 119th MPEG meeting, Torino (Italy), Jul. 2017.)

Перепреобразователь 203 изображения соединен с преобразователем 205 для воспроизведения видео, который принимает перепреобразованные изображения/кадры из перепреобразователя 203 изображения и формирует подходящий управляющий сигнал для дисплея (не показан), на котором отображаются изображения/кадры. Понятно, что точная функция преобразователя для воспроизведения видео зависит от свойств/характеристик конкретного дисплея и свойств конкретного изображения. Например, преобразователь 205 для воспроизведения видео может быть выполнен с возможностью формирования выходного сигнала в соответствии с конкретным стандартом драйвера видео/дисплея.

Например, во многих вариантах реализации перепреобразователь 203 изображения работает на некодированных данных, т. е. изображения могут быть представлены некодированными значениями пикселей (например, непосредственными значениями RGB-пикселей), и выход перепреобразователя 203 изображения может, соответственно, представлять собой некодированные значения пикселей. Устройство может быть выполнено с возможностью управления монитором с использованием стандарта дисплея (например, VESA Display Stream Compression), а преобразователь для воспроизведения видео может быть выполнен с возможностью сжатия данных из перепреобразователя 203 изображения для формирования сжатого видеопотока в соответствии с конкретным стандартом.

В качестве другого примера, если устройство управляет специально предназначенной и патентованной гарнитурой виртуальной реальности, а изображения, предоставляемые перепреобразователем 203 изображения, кодированы, преобразователь 205 для воспроизведения видео может декодировать видеоизображения для преобразования для воспроизведения, например, значений RGB для каждого пикселя, и они могут быть преобразованы в подходящие управляющие сигналы для каждого пикселя дисплея гарнитуры виртуальной реальности. Затем управляющие сигналы могут быть поданы в драйвер внешней дисплейной панели для непосредственного управления дисплеем (дисплеями) гарнитуры.

В качестве еще одного примера преобразователь 205 для воспроизведения видео может быть выполнен с возможностью формирования потока данных, который подходит для дисплея, путем добавления и структуризации данных изображения из перепреобразователя 203 изображения. Например, для обмена данными с дисплеем с использованием, например, интерфейсов HDMI или DisplayPort, преобразователь 205 для воспроизведения видео может добавлять тактовые данные, данные для исправления ошибок и данные управления и т. д., чтобы формировать двоичный поток, соответствующий конкретному стандарту.

Таким образом, преобразователь 205 для воспроизведения видео может выполнять требуемые конвертирование, обработку и преобразование данных изображения из перепреобразователя 203 изображения в сигнал/поток данных, необходимый для последующего отображения.

Устройство на ФИГ. 2 может, соответственно, адаптировать принимаемые визуальные данные к конкретному используемому дисплею и обеспечивать улучшенные изображение и визуальное восприятие. Однако авторы изобретения поняли, что проблема с таким гибким и основанном на контенте преобразованием форматного соотношения заключается в том, что оно может ухудшить восприятие пользователем аудиосоставляющей. Авторы изобретения поняли, что перепреобразование изображения может привести к восприятию аудио, как более неточного или искусственного, и общее впечатление от восприятия может быть менее естественным. Для решения, например, таких проблем, устройство на ФИГ. 2 содержит функциональные возможности для модификации аудиосоставляющей перед преобразованием для воспроизведения.

Устройство содержит перепреобразователь 207 аудио, который принимает аудиоданные от приемника 201. Перепреобразователь 207 аудио соответственно принимает аудиоданные, описывающие аудиоэлементы аудиосцены. Перепреобразователь 207 аудио выполнен с возможностью модификации пространственного свойства одного или более принимаемых аудиоэлементов. В частности, перепреобразователь 207 аудио может заменять первый аудиоэлемент в аудиосцене/аудиоданных вторым аудиоэлементом, который имеет модифицированное пространственное свойство, такое как, например, другое положение или другое распространение/положение.

Перепреобразователь 207 аудио соединен с преобразователем 209 для воспроизведения аудио, который принимает аудиоданные, содержащие модифицированные аудиоэлементы (т. е. принимает второй аудиоэлемент, а не первый аудиоэлемент, поскольку он был заменен). Преобразователь 209 для воспроизведения аудио выполнен с возможностью преобразования для воспроизведения аудиоданных с использованием любого подходящего подхода к преобразованию для воспроизведения. Преобразователь 209 аудио может формировать аудиосигналы, например, для преобразования для воспроизведения аудио с использованием акустических систем или, например, с использованием наушников (бинауральное преобразование для воспроизведения).

Понятно, что специалистам в данной области известны множество алгоритмов и подходов к преобразованию для воспроизведения пространственного аудио с использованием акустических систем и, в частности, в системах окружающего звучания, и что любой подходящий подход может быть использован без ущерба для настоящего изобретения.

Например, преобразователь 209 для воспроизведения аудио может формировать аудиосигналы для пяти акустических систем в конфигурации окружающего звучания с центральным динамиком, левым передним динамиком, правым передним динамиком, левым динамиком окружающего звучания и правым динамиком окружающего звучания. Преобразователь 209 для воспроизведения аудио может формировать набор аудиосигналов, содержащий аудиосигнал для каждой акустической системы. Затем сигналы могут быть усилены для формирования возбуждающих сигналов для отдельной акустической системы.

В некоторых вариантах реализации аудиоэлемент, преобразуемый для воспроизведения с использованием акустических систем, может быть принят в виде, например, стерео с понижающим микшированием, а преобразователь 209 для воспроизведения аудио может выполнять повышающее микширование для формирования сигналов окружающего звучания, которые в некоторых случаях могут быть непосредственно преобразованы для воспроизведения. Такой подход может быть полезен, например, для аудиоэлементов, представляющих рассеянный звук, который не относится непосредственно к позе пользователя. Например, аудиоэлемент, представляющий общее рассеянное окружающее аудио, может быть предоставлен в виде стерео с понижающим микшированием, которое непосредственно микшируют с повышением для обеспечения надлежащих аудиоканалов окружающего звучания. Каждый из сигналов, получающихся в результате повышающего микширования, может быть объединен с сигналами для соответствующих динамиков, формируемыми из других аудиоэлементов, для формирования набора выходных сигналов.

Некоторые аудиоэлементы, которые преобразуют для воспроизведения через акустическую установку, могут быть предоставлены, например, в форме аудиообъектов. Такой аудиообъект может быть представлен аудиоданными, описывающими конкретное аудио и связанными с данными о положении, которые описывают положение аудиоисточника. На основе данных о положении и положений акустических систем (будь то фактические положения или номинальные положения для акустической установки окружающего звучания) преобразователь 209 для воспроизведения аудио может определять коэффициенты для матрицы или вектора, отображающего аудиосигнал в разные каналы окружающего звука.

Во многих вариантах реализации преобразование для воспроизведения посредством преобразователя 209 для воспроизведения аудио является процессом бинаурального преобразования для воспроизведения с использование подходящих бинауральных передаточных функций для обеспечения требуемого пространственного эффекта пользователю, носящему наушники. Например, преобразователь 209 для воспроизведения аудио может быть выполнен с возможностью формирования аудиокомпонента, который с помощью бинауральной обработки должен восприниматься как приходящий из конкретного положения.

Как известно, бинауральную обработку используют для обеспечения пространственного восприятия за счет виртуального позиционирования источников звука с использованием отдельных сигналов для ушей слушателя. При надлежащей бинауральной обработке преобразования для воспроизведения могут быть вычислены сигналы, необходимые на барабанных перепонках для восприятия слушателем звука из любого требуемого направления, и эти сигналы могут быть преобразованы для воспроизведения так, чтобы они обеспечивали требуемый эффект. Затем эти сигналы воспроизводят на барабанной перепонке с использованием либо наушников, либо методом подавления перекрестных помех (подходящим для преобразования для воспроизведения на динамиках, расположенных близко друг к другу). Бинауральное преобразование для воспроизведения можно считать подходом к формированию сигналов для ушей слушателя, приводящим к созданию у слуховой системы человека ложного впечатления, что звук поступает из требуемых положений.

Бинауральное преобразование для воспроизведения основано на бинауральных передаточных функциях, которые меняются от человека к человеку из-за акустических свойств головы, ушей и отражающих поверхностей, таких как плечи. Например, для создания бинауральной записи, имитирующей множественные источники в различных местах, могут быть использованы бинауральные фильтры. Это может быть реализовано посредством свертки каждого сигнала источника звука с парой импульсных характеристик для головы (Head Related Impulse Response, HRIR), которые соответствуют положению источника звука.

Хорошо известным способом определения бинауральных передаточных функций является бинауральная запись. Это способ записи звука, который использует специально предназначенную схему расположения микрофонов и предназначен для воспроизведения с помощью наушников. Запись осуществляют либо путем размещения микрофонов в ушном канале субъекта, либо путем использования муляжа головы со встроенными микрофонами — бюста, содержащего ушные раковины (наружные уши). Использование такого муляжа головы, содержащего ушные раковины, обеспечивает пространственное впечатление, весьма похожее на то, как если бы человек, прослушивающий записи, присутствовал во время записи.

Подходящие бинауральные фильтры могут быть определены путем измерения, например, откликов от источников звука в конкретном месте в 2D- или 3D-пространстве на микрофонах, расположенных в ушах человека или возле них. На основе таких измерений могут быть сформированы бинауральные фильтры, отражающие акустические передаточные функции к ушам пользователя. Бинауральные фильтры могут быть использованы для создания бинауральной записи, имитирующей множественные источники в различных местах. Это может быть реализовано посредством свертки каждого источника звука с парой измеренных импульсных характеристик для требуемого положения источника звука. Для создания иллюзии перемещения источника звука вокруг слушателя, как правило, требуется большое количество бинауральных фильтров с достаточным пространственных разрешением, например 10 градусов.

Бинауральные передаточные функции головы могут быть представлены, например, в виде импульсных характеристик для головы (Head Related Impulse Response, HRIR), или в равной степени в виде передаточных функций головы (Head Related Transfer Function, HRTF), или в виде бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Response, BRIR), или бинауральных переходных функций помещения (Binaural Room Transfer Function, BRTF). (Оценочная или предполагаемая) передаточная функция из данного положения к ушам (или барабанным перепонкам) слушателя может быть, например задана в частотной области, и в этом случае ее обычно называют HRTF или BRTF, или во временной области, и в этом случае ее обычно называют HRIR или BRIR. В некоторых сценариях бинауральные передаточные функции головы определяют для включения аспектов или свойств акустической окружающей среды и, в частности, помещения, в котором производят измерения, в то время как в других примерах учитывают только характеристики пользователя. Примерами функций первого типа являются BRIR и BRTF.

Преобразователь 209 для воспроизведения аудио содержит хранилище с бинауральными передаточными функциями, как правило, для большого количества разных положений, причем каждая бинауральная передаточная функция обеспечивает информацию о том, как следует обрабатывать/фильтровать аудиосигнал, чтобы он воспринимался как происходящий из этого положения. Для формирования аудиосцены с несколькими аудиоисточниками, расположенными в надлежащих положениях в звуковом пространстве, может быть использована бинауральная обработка, индивидуально применяемая к множеству аудиосигналов/аудиоисточников и объединение результата.

Для данного аудиоэлемента, который должен восприниматься как происходящий из данного положения относительно головы пользователя, преобразователь 209 для воспроизведения аудио может выбрать и извлечь сохраненную бинауральную функцию, которая наиболее близко совпадает с требуемым положением (или, в некотором случае, может сформировать ее путем интерполяции между множеством близких бинауральных передаточных функций). После этого он может применить выбранную бинауральную передаточную функцию к аудиосигналу аудиоэлемента, тем самым формируя аудиосигнал для левого уха и аудиосигнал для правого уха.

Затем сформированный выходной стереосигнал в форме сигнала левого уха и правого уха пригоден для преобразования для воспроизведения в наушниках и может быть усилен для формирования возбуждающих сигналов, которые подают в гарнитуру пользователя. После этого пользователь будет воспринимать аудиоэлемент как происходящий из требуемого положения.

В устройстве на ФИГ. 2 перепреобразователь 203 изображения выполнен с возможностью формирования данных преобразования, описывающих по меньшей мере часть перепреобразования изображения, которое было выполнено перепреобразователем 203 изображения для изменения форматного отношения. Например, перепреобразователь 203 изображения может предоставлять информацию, которая указывает модифицированные или новые положения конкретных объектов изображения на втором изображении и/или может, например, содержать данные, указывающие преобразование, которое было использовано для изображения заднего плана или для определенного сегмента изображения.

Данные преобразования могут быть любыми данными, описывающими свойство преобразования из первого изображения во второе изображение, выполняемого посредством контент-зависимого неоднородного преобразования. Данные преобразования могут, в частности, содержать данные, описывающие взаимосвязь между положениями на первом изображении и положениями на втором изображении по меньшей мере для некоторых положений. Данные преобразования могут, например, описывать, каким образом положения изображения на первом изображении преобразуют в положения изображения на втором изображении посредством контент-зависимого неоднородного преобразования. Положения могут быть двумерными положениями и могут быть абсолютными и/или относительными положениями, как правило, относительно системы координат для соответствующих первого или второго изображений.

Данные преобразования предоставляют из перепреобразователя 203 изображения в перепреобразователь 207 аудио, а перепреобразователь 207 аудио выполнен с возможностью модификации пространственного свойства аудиоэлемента (-ов) в зависимости от/в ответ на/как функции от/на основе данных преобразования (и, таким образом, на основе контент-зависимого неоднородного преобразования форматного соотношения изображения). Например, к первому аудиоэлементу может быть применено преобразование положения для формирования второго аудиоэлемента, причем преобразование положения может быть адаптировано на основе принимаемых данных преобразования.

Например, данные преобразования могут описывать взаимосвязь между положениями на первом изображении и на втором изображении, а перепреобразователь 207 аудио может быть выполнен с возможностью модификации положений аудиоэлементов на основе изменения в положениях между первым изображением и вторым изображением, как описано посредством данных преобразования.

В качестве конкретного примера, если данные преобразования указывают, что положение объекта изображения, соответствующего данному объекту на втором изображении, перемещено в другое положение на изображении, перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного положения аудиоэлемента, представляющего формируемый этим объектом звук, таким образом, чтобы он соответствовал новому положению. Например, в некоторых вариантах реализации аудиоэлемент может содержать связанные метаданные положения, которые используются преобразователем 209 для воспроизведения аудио для преобразования для воспроизведения аудиоэлемента так, что он воспринимается как происходящий из определенного положения. В таких вариантах реализации перепреобразователь 207 аудио может непосредственно изменять метаданные положения перед подачей их в преобразователь 209 для воспроизведения аудио. В частности, перепреобразователь 207 аудио может извлекать положение для аудиоэлемента и затем смещать его на величину, которая соответствует сдвигу соответствующего объекта изображения в измененном форматном соотношении. Затем модифицированное положение может быть подано в преобразователь 209 для воспроизведения аудио и использовано им при преобразовании для воспроизведения аудиоэлемента. Соответственно, аудиоэлемент будет преобразован для воспроизведения так, чтобы создавалось впечатление его происхождения из модифицированного положения. Как правило, такой подход может быть особенно пригодным для аудиообъектов, которые часто предоставляются с явно выраженными данными положения.

В других вариантах реализации точное положение может быть не известно, но может быть выведено из принятых аудиоданных. Например, если аудиоэлемент представлен, например, пятью каналами окружающего звука (или понижающим микшированием их), то относительный уровень сигнала и привязка ко времени в каждом из аудиоканалов будут указывать пространственное положение соответствующего аудиоисточника. Тогда это положение может быть оценено и модифицировано, а сигналы аудиоканалов могут быть компенсированы для отражения нового положения. Во многих вариантах реализации модификация пространственного положения может быть выполнена непосредственно путем обработки аудиосигналов и без какого-либо явного вывода первоначального положения. Например, если принимается аудиоэлемент канала окружающего звука, привязанного к объекту изображения, для которого данные преобразования указывают, что он был сдвинут, например, на 10° влево, то перепреобразователь 207 аудио может применить матричную операцию к сигналам аудиоканала, которая поворачивает их на 10° в правильном направлении.

Действительно, в случае аудиоконтента, который определен в основанном на канале формате, пространственное распределение аудиоисточников в аудиовизуальной сцене обычно определяется неявным образом относящимися к относительному уровню и времени взаимосвязями между каналами, например, за счет алгоритмов панорамирования, используемых при формировании аудиоэлементов на основе каналов. Кроме того, звук из множества источников может быть микширован в каналах, поэтому доступ к сигналам отдельных источников может быть затруднен, как в случае с аудиообъектами.

В основанном на каналах случае перепреобразование аудиоэлементов может быть, например, достигнуто с использованием алгоритмов пространственного расширения, имеющихся в широком разнообразии. Однако в отличие от общепринятого использования таких алгоритмов пространственного расширения (т. е. однородного растяжения или сжатия вдоль размерности пространства) алгоритм пространственного расширения может быть применен неоднородным образом, соответствующим неоднородному перепреобразованию видеоизображения.

Разности уровней каналов между каналами могут быть вычислены в частотно-временных плитках и использованы для приведения в соответствие таких частотно-временных плиток с визуальными объектами или сегментами изображения, представленными в данных преобразования. Кроме того, разности фазы в частотно-временных плитках и их стабильность во времени могут указывать, представляет ли частотно-временная плитка изолированный точечный источник (отсутствие разности фаз или стабильная разность фаз во времени) или рассеянный звук или смесь различных точечных источников (обычно ненулевая нестабильная разность фаз во времени).

Разности уровней каналов и разности фаз могут управлять адаптацией аудиоэлементов. Например, разности уровней каналов для частотно-временной плитки между различными парами каналов могут определять соответствие сегменту первого изображения путем сопоставления положений канала относительно размерностей изображения. Это может быть известно, измерено или предположено. В частности, например, левый канал может соответствовать левой границе изображения, правый канал — правой границе изображения, а центральный канал — середине изображения. Это соответствие может быть разным для первого и второго изображения.

В данном примере разница в уровне канала между левым и центральным каналами (, где PL и PC являются мощностью сигнала в левом и центральном каналах, соответственно) может соответствовать положению на левой половине изображения. Например, CLDLC, равное , соответствует середине изображения, а CLDLC, равное , соответствует левой границе. Промежуточные значения CLDLC могут быть интерполированы линейным или нелинейным образом. При наличии дополнительных каналов высоты могут быть выведены двумерные положения относительно изображения.

Оцененное таким образом положение для каждой частотно-временной плитки может быть сопоставлено с объектом или сегментом на изображении и соответствующими данными преобразования, предоставляемыми перепреобразователем изображения. При адаптации аудио может быть соблюдено то же самое преобразование, что и, например, при изменении положения объекта или сегмента. Например, , где и представляют базовые векторы канала частотно-временной плитки первого и второго аудиоэлемента, соответственно, а M является матрицей модификации, которая модифицирует мощность сигнала в частотно-временных плитках канала для достижения требуемого значения CLD для второго аудиоэлемента.

В примере, в котором CLDLC1 соответствует положению на изображении, которое согласно данным преобразования перемещается в положение на изображении, соответствующее CLDLC2, в соответствии с используемой выше схемой интерполяции, модификации и могут быть выведены при условии, что общая мощность остается одинаковой:

Если это адаптация только для данной частотно-временной плитки, матрица M адаптации для 5 каналов (L, R, C, Ls, Rs) может быть следующей:

Если адаптаций больше, отдельные матрицы адаптации могут быть перемножены, например:

В описанной системе контент-зависимое неоднородное преобразование по сути является динамическим преобразованием, поскольку оно контент-зависимое и, следовательно, будет меняться в зависимости от контента изображения. Преобразование представляет собой не фиксированное или заданное преобразование, а наоборот, преобразование, которое применяют к первому изображению для формирования второго изображения в зависимости от первого изображения и поэтому, как правило, не известно заранее. Таким образом, можно описать фактическое преобразование, которое применяют в конкретном случае и для данного конкретного изображения, и при таком подходе перепреобразователь 203 изображения формирует данные преобразования, которые описывают конкретное контент-зависимое неоднородное преобразование, которое применяют к первому изображению. Поэтому данные могут описывать конкретное преобразование, применяемое к этому изображению, тем самым позволяя перепреобразователю 207 аудио выполнять перепреобразование аудио, которое соответствует перепреобразованию изображения. Таким образом, данные преобразования, описывающие преобразование изображения, позволяют динамически перепреобразовывать аудио и адаптировать его к конкретным форматным соотношениям изображения.

Понятно, что существуют множество способов, которыми данные преобразования могут описать контент-зависимое неоднородное преобразование, и что конкретный используемый подход будет зависеть от предпочтений и требований отдельной реализации и области применения. Например, данные преобразования могут описывать, каким образом положения изображения/пикселя на первом изображении преобразуют в положения изображения/пикселя на втором изображении. Данные преобразования могут быть, например, заданы в виде абсолютных положений на двух изображениях или в виде относительных изображений.

Когда перепреобразователь 207 аудио принимает эти данные преобразования, он может перепреобразовать аудиоэлементы соответствующим образом. Например, для аудиоисточника, который соответствует объекту изображения в положении, не претерпевшем сильного изменения, перепреобразователь 207 аудио может не переходить к внесению каких-либо пространственных изменений в соответствующий аудиоэлемент. Однако, если вместо этого данные преобразования описывают, что для этого конкретного изображения положение изображения, соответствующее аудиоисточнику, было сильно изменено, перепреобразователь 207 аудио может перейти к внесению соответствующего изменения в положение соответствующего аудиоэлемента. Например, если контент-зависимое неоднородное преобразование сдвинуло соответствующие положения существенно дальше от середины к правому краю второго изображения, перепреобразователь 207 аудио может изменить положение соответствующего аудиоэлемента, чтобы он находился дальше вправо.

Таким образом, в дополнение к выполнению контент-зависимого неоднородного преобразования изображения перепреобразователь 203 изображения также формирует данные преобразования, описывающие конкретное преобразование, которое применяют к изображению. Данные преобразования подают в перепреобразователь 207 аудио, который может модифицировать пространственное свойство аудиоэлементов на основе описания, обеспеченного преобразованием, т. е. модификации пространственного свойства могут быть адаптированы, чтобы они соответствовали конкретному контент-зависимому неоднородному преобразованию, которое выполняли для обеспечения изменения форматного соотношения между первым и вторым изображениями. Конечно, точные данные преобразования (например, что описано и как это описано) и конкретная адаптация пространственных свойств специфичны для области применения и реализации и сильно зависят от результатов и свойств, требуемых в конкретном варианте реализации.

В некоторых вариантах реализации величина адаптации может также управляться соответствующей разницей фаз и/или вариацией разности фаз в соответствующей частотно-временной плитке или полосе частот. Например, когда соответствующая разница фаз нулевая, выполняют полную адаптацию, и адаптация уменьшается по мере возрастания разности фаз.

В качестве альтернативы или дополнительно к применению алгоритма пространственного расширения может быть использован алгоритм разделения источников (которые также имеются в широком разнообразии) для выделения отдельных источников вместе с информацией о направлении из основанного на канале контента. Эти выделенные отдельные источники и их соответствующая информация о направлении могут быть затем перепреобразованы аналогично тому, как это описано выше для аудиообъектов.

Таким образом, во многих вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью изменения пространственного положения для первого аудиоэлемента с положения, соответствующего положению изображения на первом изображении, в положение изображения на втором изображении.

Во многих вариантах реализации принимаемые данные могут содержать метаданные, которые привязывают аудиоэлементы к объектам изображения. Перепреобразователь 207 аудио может использовать эту информацию о привязке для определения преобразования, которое следует применить к отдельному аудиоэлементу. В других вариантах реализации может быть не предоставлено явных данных о привязке, и устройство может быть выполнено с возможностью анализа принятых аудиовизуальных данных для связывания аудиоэлементов и объектов изображения. Например, после идентификации бросающихся в глаза объектов перепреобразователь 207 аудио может проанализировать аудиоэлементы данного объекта изображения, чтобы определить аудиоэлемент, который соответствует свойствам, ожидаемым для этого объекта изображения. В частности, может быть выбран аудиоэлемент, указанное положение которого самое близкое к бросающемуся в глаза объекту на первом изображении. В некоторых вариантах реализации также могут быть учтены характеристики объекта изображения и аудиоэлементов. Например, если выявлено, что объект изображения соответствует лицу (например, объект изображения мог быть определен посредством обнаружения лица), в качестве аудиоэлемента может быть выбран аудиоэлемент, который обладает свойствами, показательными для речи.

В устройстве на ФИГ. 2 изменение форматного соотношения аудио/видео связывают с изменением пространственных свойств связанного пространственного аудиоконтента. Аудиоконтент может быть модифицирован для поддержания улучшенного качества восприятия в целом. Было обнаружено, что привязанная к форматному соотношению модификация аудиоконтента обеспечивает существенно улучшенное восприятие пользователем, в частности, для погружающего медиаконтента, такого как виртуальная реальность и контент фильма в 360-градусном формате.

Самым простым подходом было бы применение линейного перепреобразования пространственных положений аудиоэлементов в соответствии с взаимосвязью между первоначальным и модифицированным форматным соотношением. Однако в устройстве на ФИГ. 2 использован более продвинутый подход, в котором на визуальной составляющей выполняют контент-зависимое перепреобразование форматного соотношения, и это динамическое преобразование также управляет перепреобразованием аудиосоставляющей. Это может обеспечить улучшенный эффект и, в частности, может обеспечить более согласованное восприятие пользователем.

Соответственно, данный подход может привязывать перепреобразование аудиоэлементов непосредственно к нелинейному перепреобразованию видеоизображения. Например, если горизонтальные и вертикальные положения x и y данного пикселя или визуального объекта на видеоизображении перепреобразуют в положения ax и by, то аудио, соответствующее положению (x,y) тоже может быть перепреобразовано в модифицированное положение (ax,by).

При таком подходе пространственное перепреобразование аудиоэлементов аудиовизуального контента может быть выполнено в зависимости от неоднородного контента, причем зависимую от видео/изображения операцию перепреобразования выполняют для адаптирования форматного соотношения видеоизображения к форматному соотношению дисплея.

Во многих вариантах реализации перепреобразователь 207 аудио может быть дополнительно или в качестве альтернативы выполнен с возможностью одификации свойства пространственного распространения первого аудиоэлемента в ответ на данные преобразования. Свойство пространственного распространения может отражать степень локализации аудиоэлемента и, следовательно, степень, в которой преобразованный для воспроизведения аудиоэлемент считается происходящим из одной точки. Обычно распространение может быть указано параметрами размера или одним или более радиусами, указывающими физические или акустически воспринимаемые размер или протяженность объекта. В альтернативном варианте реализации это может быть коэффициент погружения или диапазон углов, для которого пользователь принимает или воспринимает поступающие звуковые волны. В качестве еще одного примера это может быть величина, указывающая рассеянность объекта в виде значения, например, от 0 до 1, которое преобразователь для воспроизведения переводит в преобразование для воспроизведения чисто точечного источника в преобразование для рассеянного воспроизведения для полного погружения. Как правило, это означает преобразование для воспроизведения множества положений или множества динамиков. Чем больше распространение, тем меньше необходимые корреляции между различными преобразуемыми для воспроизведения положениями для избежания артефактов и улучшения естественности.

Поэтому перепреобразователь 207 аудио может быть выполнен с возможностью изменения воспринимаемой ширины или рассеяния для данного аудиоэлемента.

Например, распространение данного аудиоэлемента может быть достигнуто путем преобразования для воспроизведения объекта в множестве положений. Например, за счет свертки сигнала объекта с несколькими HRTF для бинауральной обработки. Для варьирования пространственного распределения энергии к преобразованиям для воспроизведения могут быть применены усиления в различных положениях. В других реализациях может быть найден компромисс между диапазоном положений преобразования для воспроизведения (максимальным расстоянием между положениями преобразования для воспроизведения) и локализацией пространственного распределения энергии за счет усилений. Такой подход, как правило, хорошо работает для малых значений распространения и преобразования для воспроизведения на множестве положений, относительно близких друг к другу, например, в пределах угла в 30 градусов, если смотреть со стороны слушателя.

В других вариантах реализации для высококачественного преобразования для воспроизведения и больших значений распространения обычно могут быть сформированы множество взаимно декоррелированных (или частично декоррелированных) версий объекта и преобразованы для воспроизведения в диапазоне местоположений в зависимости от данных распространения.

В альтернативном варианте реализации этом может быть достигнуто путем применения алгоритма пространственного расширения к аудиоканалам аудиоэлемента. Например, можно сформировать декоррелированный сигнал для аудиообъекта, и выходной сигнал (например, бинауральный сигнал) можно сформировать как комбинацию декоррелированного сигнала и первоначального сигнала.

Алгоритм для модификации распространения аудиоэлемента адаптируют на основе данных преобразования, предоставляемых из перепреобразователя 203 изображения. Например, если соответствующий визуальный объект или сегмент изображения растягивают или сжимают, распространение аудиоэлемента тоже может быть увеличено или уменьшено, соответственно. Этот сценарий будет часто возникать для не бросающихся в глаза деталей заднего плана сцены.

В качестве примера низкой сложности, который показан на ФИГ. 3 и 4, устройство может преобразовывать для воспроизведения аудиообъект как имеющий среднее распространение путем преобразования для воспроизведения его из четырех разных положений и преобразовывать для воспроизведения аудиообъект как имеющий большое среднее распространение путем преобразования для воспроизведения его из четырех разных положений, которые более рассредоточены и могут дополнительно добавлять декорреляцию между разными положениями. Аудиообъект во втором примере будет восприниматься как имеющий гораздо большее распространение, чем в первом примере.

Во многих вариантах реализации пространственная модификация аудиоэлемента может также зависеть от акустических свойств/аудиосвойств аудиоэлементов, например, аудиосвойства могут быть оценены для принятия решения о том, следует ли изменять пространственное свойство, и как это следует делать. Таким образом, во многих вариантах реализации пространственная модификация аудиоэлементов может зависеть от характеристики аудио, представляемого аудиоэлементом.

В частности, во многих вариантах реализации пространственная модификация данного аудиоэлемента, выполняемая перепреобразователем 207 аудио, может зависеть от степени пространственного распространения аудиоэлемента. Таким образом, пространственная модификация может зависеть от степени локализации или пространственного расширения аудиоэлемента. Это может быть, например, представлено или оценено посредством степени рассеянности аудиоэлемента. Чем больше рассеяние аудио, преобразуемого для воспроизведения преобразователем 209 для воспроизведения аудио, тем меньше аудиоисточник, соответствующий этому аудиоэлементу, будет восприниматься как находящийся в конкретном месте, и тем больше он будет восприниматься как распределенный по большой площади.

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью применения, например, увеличенного изменения в положении для более высокой степени пространственного распространения аудиоэлемента. Например, аудиоэлемент, который имеет высокую степень распространения, может быть перемещен дальше к боковой стороне после изменения форматного соотношения для создания более широкого пространственного впечатления, которое может соответствовать большему углу обзора. Например, для широкого дисплея может быть выгодно формирование аудио ближе к боковой стороне и расположение больше аудиоисточников сбоку от слушателя, а не перед ним. Однако между аудио и видео поддерживается более высокая согласованность, если эта увеличенная ширина звукового пространства достигается посредством аудиоисточников, которые связаны не с конкретными узкими и четко определенными положениями, а наоборот, с аудиоисточниками, которые не напрямую связаны с конкретными положениями в аудиосцене.

Во многих вариантах реализации перепреобразователь 207 аудио выполнен с возможностью уменьшения уровня изменения положения для аудиоэлемента в ответ на степень увеличения пространственного распространения для аудиоэлемента. Это, например, может особенно подойти для аудиоэлементов, непосредственно связанными с объектами изображения, которые перемещаются перепреобразователем 203 изображения. Например, конкретный, четко определенный и локализованный аудиообъект может быть перемещен так, чтобы непосредственно соответствовать новому положению. Однако, если объект изображения привязан к аудиоэлементу, который более рассеян и распространен по большей области, перепреобразователь 207 аудио может уменьшить изменение положения. Например, новое положение может быть определено где-то между первоначальным положением и модифицированным положением. Это может во многих сценариях обеспечить улучшенное восприятие, поскольку это может обеспечить улучшенный компромисс между первоначальным звуковым пространством и модифицированным звуковым пространством. Это может, например, отражать наличие пониженной воспринимаемой связи между конкретным объектом изображения и звуком, привязанным к этому объекту изображения, для увеличения распространения аудио.

Действительно, во многих вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью выбора, применять ли модификацию к пространственному свойству или нет в зависимости от степени пространственного распространения. Например, аудиоэлементы, мера распространения которых ниже данного порогового значения, могут считаться достаточно тесно привязанными к конкретному объекту сцены, так что при перемещении объекта изображения, соответствующего объекту сцены, перепреобразователем 203 изображения аудиоэлемент перемещается соответствующим образом для поддержания тесного соответствия между объектом изображения и аудиообъектом, т. е. между визуальным и звуковым восприятием. Однако для аудиоэлемента, мера распространения которого выше порогового значения, перепреобразователь 207 аудио может не вводить модификацию положения. Это может привести к тому, что преобразуемый для воспроизведения аудиоэлемент будет восприниматься как происходящий из первоначального положения, а не из нового положения объекта изображения, но, поскольку восприятие положения будет рассеянным и неточным, любое несоответствие между визуальной и звуковой составляющими будет пренебрежимо малым и может быть сведено на нет за счет вероятности того, что это обеспечит улучшенную согласованность между аудиоэлементами, например, в частности, между рассеянными аудиоисточниками. Таким образом, можно обеспечить улучшенную согласованность преобразуемого для воспроизведения аудиопространства.

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного свойства в ответ на то, предназначен ли первый аудиоэлемент в качестве аудио заднего плана или нет. Например, аудиоэлементы могут быть разделены на две категории, соответствующие объектам переднего плана и объектам заднего плана, и аудиоэлементы этих двух категорий могут быть обработаны по-разному. В качестве примера низкой сложности все аудиоэлементы, отнесенные к категории объектов переднего плана, могут быть перемещены непосредственно в соответствии с перемещением соответствующих элементов изображения, в то время как к аудиоэлементам, отнесенным к категории элементов заднего плана, изменение положения не применяться. Это может обеспечить улучшенное восприятие во многих сценариях.

Таким образом, можно различать аудиоэлементы «переднего плана» и «заднего плана». Аудиоэлементы «переднего плана» могут быть определены как отчетливые локализованные аудиоэлементы, в то время как аудиоэлементы «заднего плана» могут быть определены как нелокализованные аудиоэлементы, такие как звуки «окружающей среды» или фоновая музыка. Например, в случае использования аудио, основанного на объекте, можно различать высоко локализованные (точечные) источники, которые можно считать соответствующими элементам «переднего плана», и нелокализованные (т. е. рассеянные) объекты, которые можно считать соответствующими элементам «заднего плана».

В других вариантах реализации разбиение на категории аудиоэлементов «переднего плана» и «заднего плана» может быть основано на явном указании в принимаемом двоичном потоке, например, для каждого аудиоэлемента могут быть предоставлены метаданные, указывающие, является ли он аудиообъектом переднего плана или заднего плана. Действительно, ряд стандартизованных форматов уже обеспечивают элементы метаданных для сигнализации того, что объект является точечным или рассеянным источником звука, которые могут быть использованы в качестве указания того, является ли аудиообъект аудиообъектом переднего плана или заднего плана.

Как упоминалось, перепреобразователь 207 аудио может просто считать, что только аудиоэлементы переднего плана следует подвергать возможному перепреобразованию положения, в то время как пространственное распределение звуков/аудиоэлементов заднего плана можно оставлять неизменным. Понятно, что в других вариантах реализации могут быть использованы другие адаптации, например, к аудиоэлементам заднего плана, но не к аудиоэлементам переднего плана, может быть добавлен эффект расширения или повышенного рассеяния.

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного свойства в ответ на тип аудио первого аудиоэлемента. В частности, тип аудио может быть определен как тип из группы, содержащей по меньшей мере аудиообъект, аудиоканал и аудиоэлемент амбиофонии более высокого порядка.

Например, аудиообъекты часто используют для представления отдельных и конкретных аудиоисточников, в то время как аудиоканалы и амбиофонию используют для представления более рассеянного аудио, включая множество (и, как правило, большое) различных аудиоисточников. Следовательно, в некоторых вариантах реализации аудиообъекты могут быть подвергнуты изменению положения, соответствующему изменению форматного соотношения, в то время как аудиоканалы и/или элементы амбиофонии могут быть оставлены неизменными.

В качестве еще одного примера в некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью применения неоднородного пространственного расширения к аудиоэлементам, которые являются аудиоканалами, в то время как к аудиообъектам пространственное расширение не применяют.

В гибридном примере использования, в котором аудиоэлемент может содержать как аудиообъекты, так и аудиоканалы и/или основанные на сцене аудиоэлементы (например, амбиофонию более высокого порядка), можно различать, с одной стороны, объекты («передний план) и, с другой стороны, каналы/основанные на сцене элементы. В качестве улучшения среди аудиообъектов можно дополнительно различать точечные и рассеянные источники, как описано выше. Аналогичным образом основанные на сцене элементы, такие как элементы амбиофонии более высокого порядка, могут быть дополнительно разделены на «основные» и «рассеянные» компоненты. Тогда эти разные категории могут быть обработаны по-разному перепреобразователем 207 аудио.

Например, аудиообъекты могут быть преобразованы для воспроизведения в соответствии с данными преобразования для их соответствующего первого положения относительно изображения, в то время как аудиоканалы, такие как левый и правый передние каналы, преобразуют для воспроизведения под более большими или маленькими углами, чем их номинальные положения, в зависимости от среднего или максимального изменения положения в результате изменения форматного соотношения. Элементы амбиофонии более высокого порядка (Higher Order Ambisonics, HOA) могут быть преобразованы для воспроизведения немодифицированными либо с минимальным пространственным растяжением или сжатием во избежание артефактов. Элементы HOA могут быть преобразованы в направленные компоненты для преобразования для воспроизведения с помощью алгоритмов преобразования для воспроизведения HRTF или динамика, таких как векторное амплитудное панорамирование (Vector Base Amplitude Panning, VBAP). Сигналы направленных компонентов передней части сцены могут быть преобразованы для воспроизведения под более широкими или узкими углами для растяжения или сжатия передней части сцены в соответствии с изменением форматного соотношения. Если направленные компоненты HOA имеют достаточное пространственное разрешение, обновления положения преобразования для воспроизведения могут меняться для приведения в соответствие с вариацией пространственного перепреобразования изображения.

Преобразованные для воспроизведения положения направленных компонентов вне передней части сцены могут быть оставлены неизменными или могут быть преобразованы под уменьшающимися более широкими или узкими углами аналогично передней части сцены для достижения пространственного плавного уменьшения эффекта растяжения/сжатия в направлении положений, более удаленных от передней части сцены.

Передняя часть сцены может быть определена как часть 3D-пространства, которая видна пользователю. Например, часть, которая отображается на 2D-дисплее или HMD.

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного свойства в ответ на то, привязан ли первый аудиоэлемент к объекту изображения на первом изображении или нет. Например, если поток данных содержит метаданные, которые указывают, что данный аудиоэлемент привязан к конкретному объекту изображения (или даже только то, что он имеет соответствующий объект изображения на изображении без какого-либо дальнейшего указания того, что представляет собой это изображение), перепреобразователь 207 аудио может модифицировать пространственное положение аудиоэлемента так, что оно соответствует сегменту изображения, который имеет соответствующее положение на первоначальном входном изображении. Однако для аудиоэлементов, которые не привязаны к объектам на изображении, перепреобразователь 207 аудио может переходить не к модификации какого-либо положения, а, возможно увеличению пространственного распространения/рассеяния. Это может быть выгодно, поскольку увеличенное распространение размывает локализацию объекта и, следовательно, уменьшает вероятность несоответствия с потенциальным визуальным аналогом, который изменен перепреобразователем изображения.

В некоторых вариантах реализации модификация перепреобразователем 207 аудио может быть основана на явном указании в битовом потоке того, что конкретный аудиоэлемент (например, аудиообъект) привязан к конкретному визуальному элементу (например, визуальному объекту) на визуальном изображении. Таким образом, можно идентифицировать аудиоэлементы, которые следует модифицировать в соответствии с возможным перепреобразованием привязанного визуального объекта. Поэтому в этом случае аудиоэлемент может быть модифицирован и перепреобразован только в том случае, если привязанный визуальный элемент перепреобразовывают с помощью интеллектуального алгоритма увеличения масштаба видео, выполняемого перепреобразователем 203 изображения. Аудиоэлементы, которые не привязаны к какому-либо визуальному элементу, или аудиоэлементы, которые привязаны к визуальным элементам, которые не перепреобразовывают с помощью интеллектуального алгоритма увеличения масштаба видео перепреобразователя 203 изображения, могут быть не перепреобразованы в этом примере.

В варианте этого примера явное указание в потоке может быть менее конкретным и просто указывать, что аудиоэлемент является «относящимся к экрану» (это означает, что увеличение масштаба визуального изображения должно приводит к аналогичному перепреобразованию данного аудиоэлемента).

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного свойства в ответ на свойство дисплея, используемого для преобразования для воспроизведения второго изображения. В дополнение к косвенному адаптированию обработки в зависимости от форматного соотношения дисплея посредством данных преобразования от перепреобразователя 203 изображения перепреобразователь 207 аудио может также учитывать другие свойства дисплея, такие как, в частности, размер дисплея.

Например, во многих вариантах реализации перепреобразователь 207 аудио может снабжаться данными, указывающими размер дисплея. Если дисплей является маленьким дисплеем для просмотра на некотором расстоянии, перепреобразователь 207 аудио может быть выполнен с возможностью неувеличения пространственного распространения (или может даже уменьшать его) даже для фонового и рассеянного аудио. Однако, если дисплей большой, перепреобразователь 207 аудио может увеличивать пространственное распространение (например, увеличивать рассеянность или выполнять пространственное расширение). Таким образом, для маленького дисплея может быть обеспечено восприятие аудио, которое воспринимается как менее обширное, что соответствует визуальному восприятию.

В некоторых вариантах реализации перепреобразователь 207 аудио может быть выполнен с возможностью модификации пространственного свойства в ответ на положение зрителя относительно дисплея. Перепреобразователь 207 аудио может, например, адаптировать обработку для отражения ориентации и положения пользователя относительно дисплея так, что преобразуемое для воспроизведения аудио воспринимается как поступающее из надлежащего положения. Например, если пользователь находится сбоку дисплея и смотрит на дисплей под углом, то для отражения этого может быть внесена поправка на позиционирование аудиоисточников.

В качестве еще одного примера может быть учтено расстояние от положения зрителя до дисплея. Например, для пользователя, сидящего близко к дисплею, положение большинства аудиоэлементов, включая многие более рассеянные аудиоэлементы, может быть модифицировано, чтобы следовать соответствующим изменениям в положении изображения. Это может обеспечить возможность более тесного соответствия между визуальным восприятием и восприятием аудио, поскольку даже более рассеянные звуки воспринимаются как происходящие из «правильной» части дисплея. Однако для пользователя, который расположен дальше от дисплея, может оказаться невозможным различать аудио из разных частей дисплея, и более привлекательным может оказаться формирование восприятия пользователем, которое обеспечивает более крупную аудиосцену, чем аудиосцена, которая соответствует непосредственно размеру дисплея. Следовательно, перепреобразователем 207 аудио может быть применено пространственное расширение и другие алгоритмы для увеличения пространственного распространения более рассеянного аудио, приводящее к восприятию с большей степенью погружения.

Например, размер дисплея и/или положение зрителя могут быть использованы для оценки или определения окна просмотра или апертуры для зрителя. Перепреобразователь 207 аудио может адаптировать обработку на основе этого окна просмотра. Адаптация может дополнительно или в качестве альтернативы зависеть от положения аудиоэлемента относительно окна просмотра первого изображения.

Например, аудиоэлементы, которые расположены вне первоначального окна просмотра, могут быть не модифицированы, в то время как аудиоэлементы в пределах окна просмотра модифицируют для отражения изменений при перепреобразовании форматного соотношения. Например, аудиообъекты, которые расположены позади или выше пользователя, могут быть не модифицированы. Еще одним примером является аудиокомпонент, который присутствует повсюду вокруг пользователя, например рассеянный элемент HOA. Для этого не требуется, чтобы рассеянный элемент был одинаковым во всех направлениях. Это может быть, например, элемент HOA, который содержит полную 3D-запись фоновой обстановки кафе.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры. Однако очевидно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения. Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами. Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности, функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Напротив, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а наоборот, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ не означает, что этапы должны выполняться в данном порядке. Напротив, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественности. Поэтому ссылки с использованием средств указания единственного числа, прилагательных в единственном числе «первый», «второй» и т. д. не исключают множественного числа. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.

Похожие патенты RU2805260C2

название год авторы номер документа
Аудиоустройство и способ обработки аудио 2019
  • Де Брюйн, Вернер Паулус Йозефус
  • Сувира-Лабастье, Натан
RU2815366C2
Аудиоустройство и способ обработки аудио 2019
  • Де Брюйн, Вернер Паулус Йозефус
  • Сувира-Лабастье, Натан
RU2798414C2
Аудиоустройство и способ обработки аудио 2019
  • Де Брюйн, Вернер Паулус Йозефус
  • Сувира-Лабастье, Натан
RU2815621C1
АУДИОУСТРОЙСТВО И СПОСОБ ЕГО РАБОТЫ 2019
  • Сувира-Лабастье, Натан
  • Коппенс, Йерун Герардус Хенрикус
RU2797362C2
Аудиоустройство и способ для него 2020
  • Коппенс, Йерун Герардус Хенрикус
RU2804014C2
ОБРАБОТКА ПРОСТРАНСТВЕННОГО АУДИО 2017
  • Де Брюэйн, Вернер, Паулус, Йосефус
  • Ван Де Керкхоф, Леон, Мария
RU2735652C2
Аудиоустройство, система распределения аудио и способ их работы 2019
  • Варекамп, Кристиан
  • Коппенс, Йерун Герардус Хенрикус
  • Крон, Барт
  • Сувира-Лабастье, Натан
  • Омен, Арнольдус Вернер Йоханнес
RU2816884C2
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ 2018
  • Муртаза, Адриан
  • Фукс, Харальд
  • Кцельхан, Бернд
  • Плогстис, Ян
  • Агнелли, Маттео
  • Хофманн, Инго
RU2750505C1
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ 2022
  • Муртаза, Адриан
  • Фукс, Харальд
  • Кцельхан, Бернд
  • Плогстис, Ян
  • Агнелли, Маттео
  • Хофманн, Инго
RU2801698C2
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ 2018
  • Муртаза, Адриан
  • Фукс, Харальд
  • Кцельхан, Бернд
  • Плогстис, Ян
  • Агнелли, Маттео
  • Хофманн, Инго
RU2765569C1

Иллюстрации к изобретению RU 2 805 260 C2

Реферат патента 2023 года Устройство и способ обработки аудиовизуальных данных

Изобретение относится к устройству и способу обработки аудиовизуальных данных. Технический результат заключается в возможности адаптации воспроизводимых видео к конкретному форматному соотношению. Устройство обработки аудиовизуальных данных для сцены содержит приемник для приема аудиовизуальных данных для указанной сцены, перепреобразователь изображения для выполнения контент-зависимого неоднородного преобразования первого изображения во второе изображение, которое имеет другое форматное соотношение, при этом перепреобразователь изображения выполнен с возможностью формирования данных преобразования, описывающих контент-зависимое неоднородное преобразование, перепреобразователь аудио для замены первого аудиоэлемента из множества аудиоэлементов вторым аудиоэлементом, сформированным путем модификации пространственного свойства для первого аудиоэлемента в ответ на данные преобразования. 2 н. и 12 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 805 260 C2

1. Устройство обработки аудиовизуальных данных для сцены, содержащее:

приемник (201) для приема аудиовизуальных данных для указанной сцены, при этом аудиовизуальные данные содержат аудиоданные для указанной сцены, содержащие множество аудиоэлементов, и данные изображения по меньшей мере для первого изображения сцены, причем первое изображение имеет первое форматное соотношение;

перепреобразователь (203) изображения для выполнения контент-зависимого неоднородного преобразования первого изображения во второе изображение, имеющее второе форматное соотношение, причем второе форматное соотношение отличается от первого форматного соотношения, и при этом перепреобразователь (203) изображения выполнен с возможностью формирования данных преобразования, описывающих контент-зависимое неоднородное преобразование; и

перепреобразователь (207) аудио, выполненный с возможностью замены первого аудиоэлемента из множества аудиоэлементов вторым аудиоэлементом, сформированным путем модификации пространственного свойства для первого аудиоэлемента на основе данных преобразования.

2. Устройство по п. 1, в котором перепреобразователь (207) аудио выполнен с возможностью формирования второго аудиоэлемента путем модификации свойства пространственного положения первого аудиоэлемента на основе данных преобразования.

3. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью формирования второго аудиоэлемента путем изменения пространственного положения первого аудиоэлемента из положения, соответствующего положению изображения в первом форматном соотношении, в положение изображения на втором изображении.

4. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью формирования второго аудиоэлемента путем модификации свойства пространственного распространения первого аудиоэлемента на основе данных преобразования.

5. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио также выполнен с возможностью формирования второго аудиоэлемента путем модификации пространственного свойства на основе свойства аудио первого аудиоэлемента.

6. Устройство по п. 5, в котором акустическое свойство содержит степень пространственного распространения для первого аудиоэлемента.

7. Устройство по п. 6, в котором перепреобразователь (207) аудио выполнен с возможностью уменьшения изменения положения между вторым аудиоэлементом и первым аудиоэлементом для увеличения степени пространственного распространения для первого аудиоэлемента.

8. Устройство по п. 6 или 7, в котором перепреобразователь (207) аудио выполнен с возможностью выбора, применять ли модификацию к пространственному свойству или нет в зависимости от степени пространственного распространения.

9. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью модификации пространственного свойства на основе типа аудио первого аудиоэлемента.

10. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью модификации пространственного свойства на основе того, привязан ли первый аудиоэлемент к объекту изображения на первом изображении.

11. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью модификации пространственного свойства в зависимости от того, предназначен ли первый аудиоэлемент в качестве аудио заднего плана.

12. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью модификации пространственного свойства на основе свойства дисплея для преобразования для воспроизведения второго изображения.

13. Устройство по любому предыдущему пункту, в котором перепреобразователь (207) аудио выполнен с возможностью модификации пространственного свойства на основе положения зрителя относительно дисплея для преобразования для воспроизведения второго изображения.

14. Способ обработки аудиовизуальных данных для сцены, включающий: прием аудиовизуальных данных для указанной сцены, при этом аудиовизуальные данные содержат аудиоданные для указанной сцены, содержащие множество аудиоэлементов, и данные изображения по меньшей мере для первого изображения сцены, причем первое изображение сцены имеет первое форматное соотношение; выполнение контент-зависимого неоднородного преобразования первого изображения во второе изображение, имеющее второе форматное соотношение, при этом второе форматное соотношение отличается от первого форматного соотношения, а контент-зависимое неоднородное преобразование включает формирование данных преобразования, описывающих контент-зависимое неоднородное преобразование; и замену первого аудиоэлемента из множества аудиоэлементов вторым аудиоэлементом, сформированным путем модификации пространственного свойства для первого аудиоэлемента на основе данных преобразования.

Документы, цитированные в отчете о поиске Патент 2023 года RU2805260C2

US 20180192222 A1, 05.07.2018
EP 3264228 A1, 03.01.2018
WO 2014094203 A1, 26.06.2014
Стереопросмотр 2015
  • Грёнхолм Ким
  • Балдвин Эндрю Роберт
RU2665872C2

RU 2 805 260 C2

Авторы

Де Брюйн, Вернер Паулус Йозефус

Коппенс, Йерун Герардус Хенрикус

Даты

2023-10-13Публикация

2019-09-10Подача