РОДСТВЕННЫЕ ЗАЯВКИ
Данная заявка испрашивает приоритет предварительной заявки на патент США с порядковым номером 62/655990, поданной 11 апреля 2018 г., которая включена в настоящий документ посредством ссылки во всей своей полноте.
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к предоставлению устройства, системы и способа формирования звука с шестью степенями свободы (6DoF), в частности в связи с представлением данных и структурами битовых потоков для формирования звука 6DoF.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
В настоящее время отсутствует надлежащее решение для формирования звука в сочетании с перемещением пользователя с шестью степенями свободы (6DoF). Хотя имеются решения для формирования сигналов канала, объекта и амбиофонии первого/высшего порядка (HOA) в сочетании с перемещением с тремя степенями свободы (3DoF) (движение рыскания, тангажа, крена), отсутствует поддержка обработки таких сигналов в сочетании с перемещением пользователя с шестью степенями свободы (6DoF) (движение рыскания, тангажа, крена и поступательное движение).
В общем, формирование звука 3DoF предоставляет звуковое поле, в котором один или более источников звука формируют в угловых положениях, окружающих заданное положение слушателя, называемое положением 3DoF. Один пример формирования звука 3DoF включен в стандарт MPEG-H 3D Audio (сокращенно обозначенный как MPEG-H 3DA).
Хотя MPEG-H 3DA был разработан для поддержки сигналов канала, объекта и HOA для 3DoF, он пока не может обрабатывать настоящий звук 6DoF. Желательно, чтобы предусмотренная реализация звука 3D в MPEG-I расширяла функциональность 3DoF (и 3DoF+) до применений звука 3D 6DoF эффективным образом (предпочтительно включая эффективное генерирование, кодирование, декодирование и/или формирование сигнала), при этом предпочтительно обеспечивая обратную совместимость с формированием 3DoF.
Учитывая вышеуказанное, цель настоящего изобретения заключается в предоставлении способов, устройства и представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA.
Другой целью настоящего изобретения может быть предоставление представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью с формированием звука 3DoF, например согласно стандарту MPEG-H 3DA, и устройства кодирования и/или формирования, предназначенного для эффективного кодирования и/или формирования звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Согласно иллюстративным аспектам может быть предоставлен способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает: кодирование и/или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и/или кодирование и/или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.
Согласно иллюстративным аспектам один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.
Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего: описание пространства 6DoF, необязательно включая координаты объектов; направления звуковых объектов одного или более звуковых объектов; среду виртуальной реальности (VR); и/или параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.
Согласно иллюстративным аспектам способ может дополнительно включать: прием звуковых сигналов от одного или более источников звука; и/или генерирование данных звукового сигнала, связанных с формированием звука 3DoF, на основании звуковых сигналов от одного или более источников звука и функции преобразования.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования.
Согласно иллюстративным аспектам функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам способ может дополнительно включать: определение параметризации функции преобразования на основании характеристик среды и/или параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям.
Согласно иллюстративным аспектам битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.
Согласно иллюстративным аспектам одна или более первых частей битового потока представляют полезные данные битового потока, и/или одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.
Согласно еще одному иллюстративному аспекту может быть предоставлен способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока.
Согласно иллюстративным аспектам при выполнении формирования звука 3DoF формирование звука 3DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.
Согласно иллюстративным аспектам при выполнении формирования звука 6DoF формирование звука 6DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.
Согласно иллюстративным аспектам один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.
Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего: описание пространства 6DoF, необязательно включая координаты объектов; направления звуковых объектов одного или более звуковых объектов; среда виртуальной реальности (VR); и/или параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют на основании звуковых сигналов от одного или более источников звука и функции преобразования.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования.
Согласно иллюстративным аспектам функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.
Согласно иллюстративным аспектам одна или более первых частей битового потока представляют полезные данные битового потока, и/или одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.
Согласно иллюстративным аспектам выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования.
Согласно иллюстративным аспектам данные звукового сигнала, связанные с формированием звука 6DoF, генерируют путем преобразования данных звукового сигнала, связанных с формированием звука 3DoF, используя функцию обратного преобразования и метаданные, связанные с формированием звука 6DoF.
Согласно иллюстративным аспектам функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
Согласно иллюстративным аспектам выполнение формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока приводит к генерированию такого же звукового поля, как и выполнение формирования звука 6DoF в положении слушателя 3DoF по умолчанию на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
Согласно еще одному иллюстративному аспекту может быть предоставлен битовый поток для формирования звука, причем битовый поток содержит данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержит метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.
Согласно еще одному иллюстративному аспекту может быть предоставлено устройство, в частности кодирующее устройство, содержащее процессор, выполненный с возможностью: кодирования и/или включения данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; кодирования и/или включения метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока; и/или вывода закодированного битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.
Согласно еще одному иллюстративному аспекту может быть предоставлено устройство, в частности декодирующее устройство или модуль формирования звука, содержащее процессор, выполненный с возможностью: приема битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнения по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.
Согласно иллюстративным аспектам при выполнении формирования звука 3DoF процессор выполнен с возможностью выполнения формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.
Согласно иллюстративным аспектам при выполнении формирования звука 6DoF процессор выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
Согласно еще одному иллюстративному аспекту может быть предоставлен постоянный компьютерный программный продукт, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает: кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и/или кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.
Согласно еще одному иллюстративному аспекту может быть предоставлен постоянный компьютерный программный продукт, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает: прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и/или выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока. Этот аспект можно комбинировать с любым или любыми из вышеуказанных иллюстративных аспектов.
Дальнейшие аспекты настоящего изобретения относятся к соответствующим компьютерным программам и машиночитаемым носителям данных.
Следует понимать, что этапы способа и характерные признаки устройства можно взаимно заменять различными способами. В частности, детали раскрытого способа могут быть реализованы в виде устройства, приспособленного для выполнения некоторых или всех этапов способа, и наоборот, как будет понятно специалисту. В частности, следует понимать, что соответствующие утверждения, сделанные в отношении способов, подобным образом применимы к соответствующему устройству и наоборот.
КРАТКОЕ ОПИСАНИЕ ФИГУР
Иллюстративные варианты осуществления настоящего изобретения описаны ниже со ссылкой на сопроводительные графические материалы, на которых одинаковые ссылочные номера могут обозначать одинаковые или подобные элементы, и на которых:
На фиг. 1 схематически изображена иллюстративная система, включающая интерфейсы декодирующего устройства/кодирующего устройства MPEG-H 3D Audio согласно иллюстративным аспектам настоящего изобретения.
На фиг. 2 схематически изображен иллюстративный вид сверху обстановки 6DoF комнаты (пространства 6DoF).
На фиг. 3 схематически изображены иллюстративный вид сверху обстановки 6DoF по фиг. 2, а также звуковые данные 3DoF и метаданные расширения 6DoF согласно иллюстративным аспектам настоящего изобретения.
На фиг. 4A схематически изображена иллюстративная система обработки 3DoF, 6DoF и звуковых данных согласно иллюстративным аспектам настоящего изобретения.
На фиг. 4B схематически изображены иллюстративные способы декодирования и формирования для формирования звука 6DoF и формирования звука 3DoF согласно иллюстративным аспектам настоящего изобретения.
На фиг. 5 схематически изображено иллюстративное условие согласования формирования звука 6DoF и формирования звука 3DoF в положении 3DoF в системе согласно одной или более из фиг. 2–4B.
На фиг. 6A схематически изображены иллюстративное представление данных и/или структура битового потока согласно иллюстративным аспектам настоящего изобретения.
На фиг. 6B схематически изображено иллюстративное формирование звука 3DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения.
На фиг. 6C схематически изображено иллюстративное формирование звука 6DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения.
На фиг. 7A схематически изображено кодирующее преобразование А звука 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.
На фиг. 7B схематически изображено кодирующее преобразование A-1 звука 6DoF для аппроксимации/восстановления данных звукового сигнала 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.
На фиг. 7C схематически изображено иллюстративное формирование звука 6DoF на основании аппроксимированных/восстановленных данных звукового сигнала 6DoF по фиг. 7B согласно иллюстративным аспектам настоящего изобретения.
На фиг. 8 схематически изображена иллюстративная блок-схема способа кодирования битового потока 3DoF/6DoF согласно иллюстративным аспектам настоящего изобретения.
На фиг. 9 схематически изображена иллюстративная блок-схема способов формирования звука 3DoF и/или 6DoF согласно иллюстративным аспектам настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
Далее предпочтительные иллюстративные аспекты будут описаны более подробно со ссылкой на сопроводительные фигуры. Одинаковые или подобные признаки на разных графических материалах и в разных вариантах осуществления могут быть обозначены подобными ссылочными номерами. Следует понимать, что подробное описание, представленное ниже и относящееся к различным предпочтительным иллюстративным аспектам, не должно восприниматься как ограничивающее объем настоящего изобретения.
В контексте настоящего документа термин «MPEG-H 3D Audio» относится к техническому описанию, указанному в стандарте ISO/IEC 23008-3 и/или в любых прошлых и/или будущих редакциях, изданиях или других версиях стандарта ISO/IEC 23008-3.
В контексте настоящего документа желательно, чтобы реализация звука 3D MPEG-I расширяла функциональность 3DoF (и 3DoF+) до звука 3D 6DoF, при этом предпочтительно обеспечивая обратную совместимость с формированием 3DoF.
В контексте настоящего документа 3DoF обычно является системой, которая может правильно обрабатывать движение головы пользователя, в частности поворот головы, характеризующийся тремя параметрами (например, движение рыскания, тангажа, крена). Такие системы часто доступны в различных игровых системах, таких как системы виртуальной реальности (VR)/дополненной реальности (AR)/смешанной реальности (MR) или другие акустические среды такого типа.
В контексте настоящего документа 6DoF обычно является системой, которая может правильно обрабатывать 3DoF и поступательное движение.
Иллюстративные аспекты настоящего изобретения относятся к звуковой системе (например, звуковой системе, совместимой со стандартом MPEG-I Аudio), где модуль формирования звука расширяет функциональность до 6DoF путем преобразования соответствующих метаданных в формат 3DoF, такой как входной формат модуля формирования звука, совместимый со стандартом MPEG (например, стандартом MPEG-H 3DA).
На фиг. 1 показана иллюстративная система 100, выполненная с возможностью использования расширений метаданных и/или расширений модуля формирования звука в дополнение к существующим системам 3DoF, чтобы обеспечить возможность опыта применения 6DoF. Система 100 включает исходную среду 101 (которая в качестве примера может включать один или более источников 101a звука), формат 102 контента (например битовый поток, содержащий звуковые данные 3D), кодирующее устройство 103 и предложенное расширение 106 кодирующего устройства метаданных. Система 100 также может включать модуль 105 формирования звука 3D (например модуль формирования 3DoF), и предложенные расширения 107 модуля формирования (например, расширения модуля формирования 6DoF для воспроизведенной среды 108).
В способе формирования звука 3D с 3DoF только углы (например угол y движения рыскания, угол p движения тангажа, угол r движения крена) угловой ориентации пользователя в заданном положении 3DoF могут быть введены в модуль 105 формирования звука 3DoF. С расширенной до 6DoF функциональностью координаты местоположения пользователя (например x, y и z) могут быть дополнительно введены в модуль формирования звука 6DoF (модуль формирования расширений).
Преимущество настоящего изобретения заключается в улучшениях скорости передачи битов битового потока, передаваемого между кодирующим устройством и декодирующим устройством. Битовый поток может быть закодирован и/или декодирован в соответствии со стандартом, например стандартом MPEG-I Audio и/или стандартом MPEG-H 3D Audio, или по меньшей мере обратно совместимым со стандартом, таким как стандарт MPEG-H 3D Audio.
В некоторых примерах иллюстративные аспекты настоящего изобретения относятся к обработке одного битового потока (например, битового потока (BS) MPEG-H 3D Audio (3DA) или битового потока, использующего синтаксис MPEG-H 3DA BS), совместимого со множеством систем.
Например, в некоторых иллюстративных аспектах звуковой битовый поток может быть совместимым с двумя или более разными модулями формирования, например, модулем формирования звука 3DoF, который может быть совместимым с одним стандартом (например, стандартом MPEG-H 3D Audio), и недавно определенным модулем формирования звука 6DoF или расширением модуля формирования, который может быть совместимым со вторым, отличающимся стандартом (например, стандартом MPEG-I Audio).
Иллюстративные аспекты настоящего изобретения относятся к разным декодирующим устройствам, выполненным с возможностью выполнения декодирования и формирования одинакового звукового битового потока, предпочтительно для создания одинакового вывода звука.
Например, иллюстративные аспекты настоящего изобретения относятся к декодирующему устройству 3DoF и/или модулю формирования 3DoF и/или декодирующему устройству 6DoF и/или модулю формирования 6DoF, выполненным с возможностью создания одинакового вывода для одинакового битового потока (например, 3DA BS или битового потока, использующего 3DA BS). В качестве примера битовый поток может содержать информацию, относящуюся к определенным положения слушается в пространстве VR/AR/MR (виртуальной реальности/дополненной реальности/смешанной реальности), например как часть метаданных 6DoF.
В качестве примера настоящее изобретение дополнительно относится к кодирующим устройствам и/или декодирующим устройствам, выполненным с возможностью кодирования и/или декодирования, соответственно, информации 6DoF (например, совместимой со средой MPEG-I Audio), при этом такие кодирующие устройства и/или декодирующие устройства согласно настоящему изобретению обеспечивают одно или более из следующих преимуществ:
• представления с эффективным качеством и скоростью передачи битов звуковых данных, связанных с VR/AR/MR, и его заключение в синтаксис звукового битового потока (например, MPEG-H 3D Audio BS);
• обратная совместимость между различными системами (например, стандартом MPEG-H 3DA и предусмотренным стандартом MPEG-I Audio).
Предпочтительно для того, чтобы избежать конкуренции между решениями 3DoF и 6DoF, и для обеспечения плавного перехода между настоящими и будущими технологиями обратная совместимость имеет много преимуществ.
Например, обратная совместимость между звуковой системой 3DoF и звуковой системой 6DoF может иметь много преимуществ, например предоставление в звуковой системе 6DoF, такой как MPEG-I Audio, обратной совместимости со звуковой системой 3DoF, такой как MPEG-H 3D Audio.
Согласно иллюстративным аспектам настоящего изобретения это может быть реализовано путем обеспечения обратной совместимости, например на уровне битового потока для систем, относящихся к 6DoF и состоящих из:
• закодированных данных и соответствующих метаданных звукового материала 3DoF; и
• метаданных, относящихся к 6DoF.
Иллюстративные аспекты настоящего изобретения относятся к стандартному синтаксису битового потока 3DoF, такого как первый тип синтаксиса звукового битового потока (например, MPEG-H 3DA BS), который заключает элементы битового потока 6DoF, такие как элементы битового потока MPEG-I Audio, например, в один или более контейнеров расширения первого типа звукового битового потока (например, MPEG-H 3DA BS).
Для предоставления системы, которая обеспечивает обратную совместимость на уровне производительности, следующие системы и/или структуры могут быть применимыми и могут использоваться:
1a. Система 3DoF (например, системы, совместимые со стандартами MPEG-H 3DA) должны быть способны игнорировать все элементы синтаксиса, относящиеся к 6DoF (например, игнорировать элементы синтаксиса битового потока MPEG-I Audio, основанные на функциональности «mpegh3daExtElementConfig()» или «mpegh3daExtElement()» синтаксиса битового потока MPEG-H 3D Audio), т.е. система (декодирующее устройство/модуль формирования) 3DoF предпочтительно может быть выполнена таким образом, чтобы не учитывать дополнительные данные и/или метаданные, относящиеся к 6DoF (например, не считывая данные и/или метаданные, относящиеся к 6DoF); и
2a. Остальная часть полезных данных битового потока (например, полезные данные битового потока MPEG-I Audio, содержащие данные и/или метаданные, совместимые с синтаксическим анализатором битового потока MPEG-H 3DA) должна быть декодируемой системой 3DoF (например, унаследованной системой MPEG-H 3DA) для создания желаемого звукового вывода, т.е. система (декодирующее устройство/модуль формирования) 3DoF предпочтительно может быть выполнена с возможностью декодирования части BS, относящейся к 3DoF; и
3a. Система 6DoF (например, система MPEG-I Audio) должна быть способна обрабатывать как части, относящиеся к 3DoF, так и части, относящиеся к 6DoF, звукового битового потока и создавать звуковой вывод, соответствующий звуковому выводу системы 3DoF (например, систем MPEG-H 3DA) в заданном обратно совместимом положении (положениях) 3DoF в пространстве VR/AR/MR, т.е. система (декодирующее устройство/модуль формирования) 6DoF предпочтительно может быть выполнена с возможностью формирования в положении (положениях) 3DoF по умолчанию звукового поля/звукового вывода, соответствующего сформированному звуковому полю/звуковому выводу 3DoF; и
4a. Система 6DoF (например, система MPEG-I Audio) должна обеспечивать плавное изменение (переход) звукового вывода вокруг заданного обратно совместимого положения (положений) 3DoF, (т.е., обеспечение непрерывного звукового поля в пространстве 6DoF), т.е. система (декодирующее устройство/модуль формирования) 6DoF предпочтительно может быть выполнена с возможностью формирования в окружениях положения (положений) 3DoF по умолчанию звукового поля/звукового вывода, который плавно переходит в положении (положениях) 3DoF по умолчанию в звуковое поле/звуковой вывод, сформированные 3DoF.
В некоторых примерах настоящее изобретение относится к предоставлению модуля формирования звука 6DoF (например, к модулю формирования MPEG-I Audio), который создает такой же звуковой вывод, что и модуль формирования звука 3DoF (например, модуль формирования MPEG-H 3D Audio) в одном или более или в некотором положении (положениях) 3DoF.
В настоящее время существуют недостатки при непосредственной передаче звуковых сигналов и метаданных, относящихся к 3DoF, непосредственно в звуковую систему 6DoF, которые включают:
1. Увеличение скорости передачи битов (т.е. звуковые сигналы и метаданные, относящиеся к 3DoF, отправляют в дополнение к звуковым сигналам и метаданным, относящимся к 6DoF); и
2. Ограниченная достоверность (т.е. звуковой сигнал (сигналы) и метаданные, относящиеся к 3DoF, достоверны только для положения (положений) 3DoF).
Иллюстративные аспекты настоящего изобретения относятся к преодолению вышеуказанных недостатков.
В некоторых примерах настоящее изобретение относится к:
1. использованию звукового сигнала (сигналов) и метаданных, совместимых с 3DoF (например, сигналов и метаданных, совместимых с MPEG-H 3D Audio) вместо (или в качестве дополнения к) исходных сигналов и метаданных источников звука; и/или
2. увеличению диапазона применимости (использования для формирования 6DoF) от положения (положений) 3DoF до пространства 6DoF (определенного автором контента), при этом сохраняя высокий уровень аппроксимации звукового поля.
Иллюстративные аспекты настоящего изобретения относятся к эффективному созданию, кодированию, декодированию и формированию такого сигнала (сигналов) для достижения этих целей и для обеспечения функциональности формирования 6DoF.
На фиг. 2 изображен иллюстративный вид 202 сверху иллюстративной комнаты 201. Как показано на фиг. 2, иллюстративный слушатель стоит посередине комнаты с несколькими источниками звука и нетривиальными геометрическими формами стен. В приспособлениях 6DoF (например, системах, обеспечивающих возможности 6DoF), иллюстративный слушатель может перемещаться, но в некоторых примерах предполагается, что положение 206 3DoF по умолчанию может соответствовать предполагаемой области наилучшего восприятия звука VR/AR/MR (например, согласно настройке или намерению автора контента).
В частности, на фиг. 2 изображены иллюстративные стены 203, пространство 204 6DoF, иллюстративные (необязательные) векторы 205 направленного действия (например, если один или более источников звука направленно испускает (испускают) звук), положение 206 слушателя 3DoF (положение 206 3DoF по умолчанию) и источники 207 звука, изображенные в качестве примера в форме звезды на фиг. 2.
На фиг. 3 изображена иллюстративная обстановка VR/AR/MR 6DoF, например, как на фиг. 2, а также звуковые объекты (звуковые данные + метаданные) 320, содержащиеся в битовом потоке 302 звука 3DoF (например, таком как битовый поток MPEG-H 3D Audio) и контейнере 303 расширения. Битовый поток 302 звука и контейнер 303 расширения могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).
Иллюстративные аспекты настоящего изобретения относятся к воссозданию звукового поля при использовании модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) в «положении 3DoF» таким образом, чтобы соответствовать выходному сигналу (который может соответствовать или не соответствовать распространению звука согласно законам физики) модуля формирования звука 3DoF (например, модуля формирования MPEG-H Audio). Это звуковое поле предпочтительно должно быть основано на исходных «источниках звука» и отражают влияние сложных геометрических форм соответствующей среды VR/AR/MR (например, эффект «стен», структур, отражений звука, ревербераций и/или поглощений и т.д.).
Иллюстративные аспекты настоящего изобретения относятся к параметризации кодирующим устройством всей соответствующей информации, описывающей этот сценарий таким образом, чтобы обеспечить выполнение одного или более, или предпочтительно всех соответствующих требований (1a)–(4a), описанных выше.
Если два режима формирования звука выполняются (т.е. 3DoF и 6DoF) параллельно и алгоритм интерполирования применяют к соответствующим выходным данным в пространстве 6DoF, такой подход будет приближенно оптимальным, поскольку он будет требовать:
• параллельного выполнения двух неодинаковых алгоритмов формирования (т.е. одного для конкретного положения 3DoF и одного для пространства 6DoF);
• большого количества звуковых данных (для передачи дополнительных звуковых данных для модуля формирования звука 3DoF).
Иллюстративные аспекты настоящего изобретения избегают вышеуказанных недостатков в том отношении, что предпочтительно выполняют только один режим формирования звука (например, вместо параллельного выполнения двух режимов формирования звука), и/или звуковые данные 3DoF предпочтительно используют для формирования звука 6DoF с дополнительными метаданными для восстановления и/или аппроксимации исходного сигнала (сигналов) источника (источников) звука (например, вместо передачи звуковых данных 3DoF и исходных данных источника (источников) звука).
Иллюстративные аспекты настоящего изобретения относятся к (1) одному алгоритму формирования звука 6DoF (например, совместимому с MPEG-I Audio), который предпочтительно создает точно такой же вывод, что и алгоритм формирования звука 3DoF (например, совместимый с MPEG-H 3DA) в конкретном положении (положениях), и/или (2) представлению звука (например звуковых данных 3DoF) и метаданных звука, относящихся к 6DoF, для сведения к минимуму избыточности в частях, относящихся к 3DoF и к VR/AR/MR, данных битового потока звука 6DoF (например, данных битового потока MPEG-I Audio).
Иллюстративные аспекты настоящего изобретения относятся к использованию синтаксиса первого битового потока стандартизированного формата (например, MPEG-H 3DA BS) для заключения второго битового потока стандартизированного формата (например, будущих стандартов, таких как MPEG-I) или их частей и метаданных, относящихся к 6DoF, для:
• передачи (например, в центральной части синтаксиса битового потока звука 3DoF) сигналов и метаданных источника звука, которые предпочтительно декодирует звуковая система 3DoF, и которые предпочтительно достаточно хорошо аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF (по умолчанию); и
• передачи (например, в части расширения синтаксиса битового потока звука 3DoF) метаданных, относящихся к 6DoF, и/или дополнительных данных (например, параметрические данные или/и данные сигналов), которые используются для аппроксимации (восстановления) исходных сигналов источника звука для формирования звука 6DoF.
Один аспект настоящего изобретения относится к определению желаемого «положения (положений) 3DoF» и сигналов, совместимых со звуковой системой 3DoF (например, системой MPEG-H 3DA), на стороне кодирующего устройства.
Например, как показано относительно фиг. 3, сигналы виртуального объекта 3DA для 3DA могут создавать одинаковое звуковое поле в конкретном положении 3DoF (на основании сигналов x3DA), что предпочтительно должно содержать эффекты среды VR для конкретного положения (положений) 3DoF («обработанные» сигналы), поскольку некоторые системы 3DoF (такие как система MPEG-H 3DA) не могут учитывать эффекты среды VR/AR/MR (например, поглощение, реверберация и т.д.). Способы и процессы, изображенные на фиг. 3, могут быть выполнены с помощью различных систем и/или продуктов.
В некоторых иллюстративных аспектах обратная функция А-1, которая предпочтительно «приводит в необработанное состояние» (т.е. удаляет эффекты среды VR) эти сигналы, будет полезной, поскольку это необходимо для аппроксимации исходных «необработанных» сигналов x (которые не содержат эффектов среды VR).
Звуковой сигнал (сигналы) для формирования 3DoF ((x3DA)) может быть предпочтительно определен для обеспечения одинакового/похожего вывода как для формирования звука 3DoF, так и для формирования звука 6DoF, например на основании следующего:
Уравнение № (1)
Звуковые объекты могут содержаться в стандартизованном битовом потоке. Этот битовый поток может быть закодирован в соответствии с различными стандартами, такими как MPEG-H 3DA и/или MPEG-I.
BS может содержать информацию о сигналах объекта, направлениях объектов и расстояниях до объектов.
На фиг. 3 дополнительно изображен пример контейнера 303 расширения, который может содержать метаданные расширения, например в BS. Контейнер 303 расширения BS может содержать по меньшей мере одно из следующих метаданных: (i) параметры положения 3DoF (по умолчанию); (ii) параметры описания пространства 6DoF (координаты объектов); (iii) (необязательные) параметры направленности объекта; (iv) (необязательные) параметры среды VR/AR/MR; и/или (v) (необязательные) параметры ослабления с увеличением дальности, параметры поглощения и/или параметры реверберации и т.д.
Может осуществляться аппроксимация желаемого формирования звука на основании следующего:
Уравнение № (2)
Аппроксимация может быть основана на среде VR, при этом характеристики среды могут быть включены в метаданные контейнера расширения.
Дополнительно или по выбору может быть предусмотрена плавность вывода модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) предпочтительно на основании следующего:
- класс геометрической непрерывности Уравнение № (3)
Иллюстративные аспекты настоящего изобретения относятся к определению объектов звука 3DoF (например, объектов MPEG-H 3DA) на стороне кодирующего устройства предпочтительно на основании следующего:
Уравнение № (4)
Один аспект настоящего изобретения относится к восстановлению исходных объектов на декодирующем устройстве на основании следующего:
Уравнение № (5)
при этом относится к сигналам источника звука/объекта, относится к аппроксимации сигналов источника звука/объекта, F(x) для 3DoF / для 6DoF относится к функции формирования звука для положения (положений) слушателя 3DoF / 6DoF, 3DoF относится к заданному положению (положениям) с эталонной совместимостью ∈ пространство 6DoF; 6DoF относятся к произвольному разрешенному положению (положениям) ∈ обстановки VR;
• F6DoF(x) относится к обусловленному декодирующим устройством формированию звука 6DoF (например, формированию MPEG-I Audio);
• F3DoF(x3DA) относится к обусловленному декодирующим устройством формированию 3DoF (например, формированию MPEG-H 3DA); и
• A, A-1 относятся к функции (A), аппроксимирующей сигналы x3DA на основании сигналов x, и функции (A-1), обратной ей.
Аппроксимированные сигналы источников звука/объекта предпочтительно воспроизводят, используя модуль формирования звука 6DoF, в «положении 3DoF» таким образом, который соответствует выходному сигналу модуля формирования звука 3DoF.
Сигналы источников звука/объекта предпочтительно аппроксимируют на основании звукового поля, которое основано на исходных «источниках звука» и отражает влияние сложных геометрических форм соответствующей среды VR/AR/MR (например, «стен», структур, ревербераций, поглощений и т.д.).
Другими словами, сигналы виртуального объекта 3DA для 3DA предпочтительно создают одинаковое звуковое поле в конкретном положении 3DoF (на основании сигналов x3DA), которое содержит эффекты среды VR для конкретного положения (положений) 3DoF.
Следующее может быть доступно на стороне формирования (например, декодирующему устройству, соответствующему стандарту, такому как стандарты MPEG-H или MPEG-I):
• звуковой сигнал (сигналы) для формирования звука 3DoF: x3DA
• функциональность формирования звука 3DoF или формирования звука 6DoF:
Уравнение № (6)
Для формирования звука 6DoF дополнительно могут присутствовать метаданные 6DoF, доступные на стороне формирования для функциональности формирования звука 6DoF (например, для аппроксимации/восстановления звуковых сигналов x одного или более источников звука, например на основании звуковых сигналов x3DA 3DoF и метаданных 6DoF.
Иллюстративные аспекты настоящего изобретения относятся к (i) определению звуковых объектов 3DoF (например, объектов MPEG-H 3DA) и/или (ii) восстановлению (аппроксимации) исходных звуковых объектов.
В качестве примера звуковые объекты могут содержаться в битовом потоке звука 3DoF (таком как MPEG-H 3DA BS).
Битовый поток может содержать информацию о звуковых сигналах объектов, направлениях объектов и/или расстояниях до объектов.
Контейнер расширения (например, битового потока, такого как MPEG-H 3DA BS) может содержать по меньшей мере одно из следующих метаданных: (i) параметры положения 3DoF (по умолчанию); (ii) параметры описания пространства 6DoF (координаты объектов); (iii) (необязательные) параметры направленности объекта; (iv) (необязательные) параметры среды VR/AR/MR; и/или (v) (необязательные) параметры ослабления с увеличением дальности, параметры поглощения, параметры реверберации и т.д.
Настоящее изобретение может обеспечивать следующие преимущества:
• Обратная совместимость с декодированием и формированием звука 3DoF (например, с декодированием и формированием MPEG-H 3DA): вывод модуля формирования звука 6DoF (например, модуля формирования MPEG-I Audio) соответствует выводу формирования 3DoF движка формирования 3DoF (например, движка формирования MPEG-H 3DA) для заданного положения (положений) 3DoF.
• Эффективность кодирования: для этого подхода можно с эффективностью повторно использовать унаследованную структуру синтаксиса битового потока звука 3DoF (например, синтаксиса битового потока MPEG-H 3DA).
• Управление качеством звука в заданном положении (положениях) (3DoF): наилучшее качество воспринимаемого звука может в явной форме обеспечить кодирующее устройство для любого произвольного положения (положений) и соответствующего пространства 6DoF.
Иллюстративные аспекты настоящего изобретения могут относиться к следующей передаче сигналов в формате, совместимом с битовым потоком стандарта MPEG (например, стандарта MPEG-I):
• Предполагается, что звуковая система 3DoF (например, MPEG-H 3DA) обеспечивает совместимость передачи сигналов посредством механизма контейнера расширения (например, MPEG-H 3DA BS), что позволяет алгоритму обработки звука 6DoF (например, совместимому с MPEG-I Audio) восстанавливать исходные сигналы звукового объекта.
• Параметризация описывает данные для аппроксимации исходных сигналов звукового объекта.
Модуль формирования звука 6DoF может уточнять, как восстановить исходные сигналы звукового объекта, например, в системе, совместимой с MPEG (например, системе MPEG-I Audio).
Эта предложенная концепция:
• является общей в отношении определения функции аппроксимации (т.е. A(x));
• может быть произвольно сложной, но на стороне декодирующего устройства должна присутствовать соответствующая аппроксимация (т.е. );
• приблизительно является «однозначно определенной» математически (например, алгоритмически устойчивой и т.д.);
• является общей применительно к типам функции аппроксимации (т.е. A(x));
• функция аппроксимации может быть основана на следующих типах аппроксимации или на любом сочетании этих подходов (перечисленных в порядке увеличения расхода скорости передачи битов):
- параметризованный звуковой эффект (эффекты), применяемые для сигнала x3DA (например, параметрически управляемый уровень, реверберация, отражение, поглощение и т.д.);
- параметрически закодированная модификация (модификации) (например, переменные во времени/частоте усиления модификации для переданного сигнала x3DA);
- сигнально закодированная модификация (модификации) (например, закодированные сигналы, аппроксимирующие остаточную форму колебаний (x - x3DA)); и
• является расширяемой и применимой к общим представлениям звукового поля и источников звука (и их сочетаниям): объектам, каналам, FOA, HOA.
На фиг. 6A схематически изображены иллюстративное представление данных и/или структура битового потока согласно иллюстративным аспектам настоящего изобретения. Представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).
В качестве примера битовый поток BS содержит первую часть 302 битового потока, содержащую закодированные звуковые данные 3DoF (например, в основной части или центральной части битового потока). Предпочтительно синтаксис битового потока BS является совместимым или соответствующим синтаксису BS формирования звука 3DoF, такому как, например, синтаксис битового потока MPEG-H 3DA. Закодированные звуковые данные 3DoF могут быть включены в качестве полезных данных в один или более пакетов битового потока BS.
Как было описано ранее, например в связи с фиг. 3 выше, закодированные звуковые данные 3DoF могут включать сигналы одного или более звуковых объектов (например, на сфере вокруг положения 3DoF по умолчанию). Для направленных звуковых объектов закодированные звуковые данные 3DoF дополнительно могут необязательно включать направления объектов и/или дополнительно могут необязательно указывать на расстояния до объектов (например, путем использования усиления и/или одного или более параметров ослабления).
В качестве примера BS содержит вторую часть 303 битового потока, содержащую метаданные 6DoF, для кодирования звука 6DoF (например, в части метаданных или части расширения битового потока). Предпочтительно синтаксис битового потока BS является совместимым или соответствующим синтаксису BS формирования звука 3DoF, такому как, например, синтаксис битового потока MPEG-H 3DA. Метаданные 6DoF могут быть включены в качестве метаданных расширения в один или более пакетов битового потока BS (например, в один или более контейнеров расширения, которые, например, уже предоставлены посредством структуры битового потока MPEG-H 3DA).
Как было описано ранее, например в связи с фиг. 3 выше, метаданные 6DoF могут включать данные положения (например, координату (координаты)) одного или более положений 3DoF (по умолчанию), дополнительно необязательно описание пространства 6DoF (например, координаты объектов), дополнительно необязательно направленности объектов, дополнительно необязательно метаданные, описывающие и/или параметризующие среду VR и/или дополнительно необязательно включать информацию о параметризации и/или параметры, относящиеся к ослаблению, поглощениям и/или реверберациям и т.д.
На фиг. 6B схематически изображено иллюстративное формирование звука 3DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения. Как и на фиг. 6a, представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).
В частности, на фиг. 6B иллюстративно изображено, что формирования звука 3DoF можно достичь с помощью модуля формирования звука 3DoF, который может исключать метаданные 6DoF для того, чтобы выполнять формирование звука 3DoF на основании только закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока. То есть, например, в случае обратной совместимости с MPEG-H 3DA модуль формирования MPEG-H 3DA может эффективно и надежно игнорировать/исключать метаданные 6DoF в части расширения (например, контейнере (контейнерах) расширения) битового потока для того, чтобы выполнять эффективное обычное формирование звука MPEG-H 3DA 3DoF (или 3DoF+) на основании только закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока.
На фиг. 6C схематически изображено иллюстративное формирование звука 6DoF на основании представления данных и/или структуры битового потока по фиг. 6A согласно иллюстративным аспектам настоящего изобретения. Как и на фиг. 6a, представление данных и/или структура битового потока могут быть закодированы с помощью устройства или системы (например, программного обеспечения, аппаратного обеспечения или посредством облачного решения), совместимых со стандартом MPEG (например, MPEG-H или MPEG-I).
В частности, на фиг. 6C иллюстративно изображено, что формирования звука 6DoF можно достичь с помощью нового модуля формирования звука 6DoF (например, согласно MPEG-I или более поздним стандартам), который использует закодированные звуковые данные 3DoF, полученные из первой части 302 битового потока, вместе с метаданными 6DoF, полученными из второй части 303 битового потока, для выполнения формирования звука 6DoF на основании закодированных звуковых данных 3DoF, полученных из первой части 302 битового потока, и метаданных 6DoF, полученных из второй части 303 битового потока.
Соответственно, с отсутствующей или по меньшей мере со сниженной избыточностью в битовом потоке один и тот же битовый поток может быть использован унаследованными модулями формирования звука 3DoF, что обеспечивает простую и полезную обратную совместимость, для формирования звука 3DoF и новыми модулями формирования звука 6DoF для формирования звука 6DoF.
На фиг. 7A схематически изображено кодирующее преобразование A звука 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения. Преобразование (и любые обратные преобразования) могут быть выполнены согласно способам, процессам, устройству или системам (например, программному обеспечению, аппаратному обеспечению или посредством облачного решения), совместимым со стандартом MPEG (например, MPEG-H или MPEG-I).
В качестве примера, подобно фиг. 2 и фиг. 3 выше, на фиг. 7A показан иллюстративный вид 202 сверху комнаты, включающий в качестве примера множество источников 207 звука (которые могут быть расположены за стенами 203 или их звуковым сигналам могут препятствовать другие структуры, что может привести к эффектам ослабления, реверберации и/или поглощения).
В целях формирования звука 3DoF звуковые сигналы x множества источников 207 звука преобразуют таким образом, чтобы получить звуковые сигналы (звуковые объекты) 3DoF на сфере S вокруг положения 206 3DoF по умолчанию (например, положения слушателя в звуковом поле 3DoF). Как указано выше, звуковые сигналы 3DoF обозначены как x3DA и могут быть получены с использованием функции A преобразования, так что:
x3DA = A(x) Уравнение № (6)
В вышеуказанном выражении x обозначает источник(и) звука/сигнал(ы) объекта, x3DA обозначает соответствующие сигналы виртуального объекта 3DA для 3DA, создающие одинаковое звуковое поле в положении 206 3DoF по умолчанию, и A обозначает функцию преобразования, которая аппроксимирует звуковые сигналы x3DA на основании звуковых сигналов x. Функция A-1 обратного преобразования может быть использована для восстановления/аппроксимации сигналов источника звука для формирования звука 6DoF, как рассмотрено выше и будет рассмотрено ниже. Следует отметить, что AA-1=1 и A-1A=1 или по меньшей мере AA-1≈1 и A-1A≈1.
В общем, функцию A преобразования можно расценивать как функцию отображения/проецирования, которая проецирует или по меньшей мере отображает звуковые сигналы x на сфере S, окружающей положение 206 3DoF по умолчанию в некоторых иллюстративных аспектах настоящего изобретения.
Следует также отметить, что формирование звука 3DoF не знает о среде VR (такой как существующие стены 203 или тому подобное, или другие структуры, которые могут привести к ослаблению, реверберациям, эффектам поглощения или тому подобному). Соответственно, функция A преобразования предпочтительно может включать эффекты на основании таких характеристик среды VR.
На фиг. 7B схематически изображено декодирующее преобразование A-1 звука 6DoF для аппроксимации/восстановления данных звукового сигнала 6DoF на основании данных звукового сигнала 3DoF согласно иллюстративным аспектам настоящего изобретения.
Путем использования функции A-1 обратного преобразования и аппроксимированных звуковых сигналов x3DA 3DoF, полученных как изображено выше на фиг. 7A, исходные звуковые сигналы x* исходных источников 207 звука можно восстановить/аппроксимировать в виде:
x* = A-1(x3DA). Уравнение № (7)
Соответственно, звуковые сигналы x* звуковых объектов 320 на фиг. 7B можно восстановить подобным или таким же образом, что и звуковые сигналы x исходных источников 207, в частности в тех же местах, что и исходные источники 207.
На фиг. 7C схематически изображено иллюстративное формирование звука 6DoF на основании аппроксимированных/восстановленных данных звукового сигнала 6DoF по фиг. 7B согласно иллюстративным аспектам настоящего изобретения.
Звуковые сигналы x* звуковых объектов 320 на фиг. 7B в этом случае могут быть использованы для формирования звука 6DoF, в котором положение слушателя также становится переменным.
Когда предполагается, что положение слушателя является положением 206 (тем же положением, что и положение 3DoF по умолчанию), формирование звука 6DoF формирует такое же звуковое поле, что и формирование звука 3DoF на основании звуковых сигналов x3DA.
Соответственно, формирование 6DoF F6DoF(x*) в положении 3DoF по умолчанию, являющемся предполагаемым положением слушателя, равно (или по меньшей мере приблизительно равно) формированию 3DoF F3DoF(x3DA).
Кроме того, если положение слушателя сдвигается, например в положение 206’ на фиг. 7C, звуковое поле, генерируемое в формировании звука 6DoF, изменяется, но предпочтительно это может происходить плавно.
В качестве другого примера, может предполагаться третье положение 206’’ слушателя, и звуковое поле, генерируемое в формировании звука 6DoF, изменяется конкретно для верхнего левого звукового сигнала, который не загражден стеной 203 в третьем положении 206’’ слушателя. Предпочтительно это становится возможным благодаря тому, что обратная функция A-1 восстанавливает исходный источник звука (без эффектов среды, таких как характеристики среды VR).
На фиг. 8 схематически изображена иллюстративная блок-схема способа кодирования битового потока 3DoF/6DoF согласно иллюстративным аспектам настоящего изобретения. Следует отметить, что порядок этапов не является ограничивающим и может быть изменен согласно обстоятельствам. Также следует отметить, что некоторые этапы способа являются необязательными. Например, способ может выполняться декодирующим устройством, декодирующим устройством звука, декодирующим устройством звука/видео или декодирующей системой.
На этапе S801 способ (например, на стороне декодирующего устройства) предусматривает прием исходного звукового сигнала (сигналов) x одного или более источников звука.
На этапе S802 способ предусматривает (необязательно) определение характеристик среды (таких как форма комнаты, стены, характеристики отражения звука стенами, объекты, препятствия и т.д.) и/или определение параметров (эффектов параметризации, таких как ослабление, усиление, поглощение, реверберации и т.д.).
На этапе S803 способ предусматривает (необязательно) определение параметризации функции A преобразования, например на основании результатов этапа S802. Предпочтительно на этапе S803 предусмотрено предоставление параметризованной или предварительно заданной функции A преобразования.
На этапе S804 способ предусматривает преобразование исходного звукового сигнала (сигналов) x одного или более источников звука в соответствующий один или более аппроксимированный звуковой сигнал (сигналы) x3DA 3DoF на основании функции A преобразования.
На этапе S805 способ предусматривает определение метаданных 6DoF (которые могут включать одно или более положений 3DoF, информацию о среде VR и/или параметры и параметризацию эффектов среды, таких как ослабление, усиление, поглощение, реверберации и т.д.).
На этапе S806 способ предусматривает включение (внедрение) звукового сигнала (сигналов) x3DA 3DoF в первую часть битового потока (или несколько первых частей битового потока).
На этапе S807 способ предусматривает включение (внедрение) метаданных 6DoF во вторую часть битового потока (или несколько вторых частей битового потока).
Затем на этапе S808 способ предусматривает продолжение кодирования битового потока на основании первой и второй частей битового потока для предоставления закодированного битового потока, который содержит звуковой сигнал (сигналы) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданные 6DoF во второй части битового потока (или нескольких вторых частях битового потока).
Закодированный битовый поток затем можно подавать в декодирующее устройство/модуль формирования 3DoF для формирования звука 3DoF на основании звукового сигнала (сигналов) x3DA 3DoF только в первой части битового потока (или нескольких первых частях битового потока) или в декодирующее устройство/модуль формирования 6DoF для формирования звука 6DoF на основании звукового сигнала (сигналов) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданных 6DoF во второй части битового потока (или нескольких вторых частях битового потока).
На фиг. 9 схематически изображена иллюстративная блок-схема способов формирования звука 3DoF и/или 6DoF согласно иллюстративным аспектам настоящего изобретения. Следует отметить, что порядок этапов не является ограничивающим и может быть изменен согласно обстоятельствам. Также следует отметить, что некоторые этапы способов являются необязательными. Например, способ может выполняться кодирующим устройством, модулем формирования, кодирующим устройством звука, модулем формирования звука, кодирующим устройством звука/видео или кодирующей системой или системой модулей формирования.
На этапе S901 принимают закодированный битовый поток, который содержит звуковой сигнал (сигналы) x3DA 3DoF в первой части битового потока (или нескольких первых частях битового потока) и метаданные 6DoF во второй части битового потока (или нескольких вторых частях битового потока).
На этапе S902 звуковой сигнал (сигналы) x3DA 3DoF получают из первой части битового потока (или нескольких первых частей битового потока). Это можно выполнить с помощью декодирующего устройства/модуля формирования 3DoF, а также с помощью декодирующего устройства/модуля формирования 6DoF.
Затем, если декодирующее устройство/модуль формирования представляют собой унаследованное устройство для целей формирования звука 3DoF (или новые декодирующее устройство/модуль формирования 3DoF/6DoF, переведенные в режим формирования звука 3DoF), то способ предусматривает переход к этапу S903, на котором метаданные 6DoF исключают/игнорируют, и затем переход к операции формирования звука 3DoF, чтобы формировать звук 3DoF на основании звукового сигнала (сигналов) x3DA 3DoF, полученных из первой части битового потока (или нескольких первых частей битового потока).
Другими словами, преимущественным образом гарантируется обратная совместимость.
С другой стороны, если декодирующее устройство/модуль формирования предназначены для целей формирования звука 6DoF (такие как новое декодирующее устройство/модуль формирования 6DoF или декодирующее устройство/модуль формирования 3DoF/6DoF, переведенные в режим формирования звука 6DoF), то способ предусматривает переход к этапу S905 для получения метаданных 6DoF из второй части (частей) битового потока.
На этапе S906 способ предусматривает аппроксимацию/восстановление звуковых сигналов x* звуковых объектов/источников из звукового сигнала (сигналов) x3DA 3DoF, полученных из первой части битового потока (или нескольких первых частей битового потока), на основании метаданных 6DoF, полученных из второй части битового потока (или нескольких вторых частей битового потока), и функции A-1 обратного преобразования.
Затем на этапе S907 способ предусматривает переход к выполнению формирования звука 6DoF на основании аппроксимированных/восстановленных звуковых сигналов x* звуковых объектов/источников и на основании положения слушателя (которое может быть переменным в среде VR).
В иллюстративных аспектах, представленных выше, могут быть предоставлены эффективные и надежные способы, устройство и представление данных и/или структуры битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA. В частности, возможно обеспечить представление данных и/или структуры битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA, и соответствующего устройства кодирования и/или формирования для эффективного кодирования и/или формирования звука 6DoF с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA.
Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы в виде программного обеспечения, выполняемого процессором цифровой обработки сигналов или микропроцессором. Другие компоненты могут быть реализованы в виде аппаратного обеспечения или в виде специализированных интегральных микросхем. Сигналы, которые встречаются в описанных способах и системах, можно хранить на носителях, таких как оперативное запоминающее устройство или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или формирования звуковых сигналов.
Примеры реализации способов и устройства согласно настоящему изобретению станут очевидными на основе следующих пронумерованных примеров вариантов осуществления (EEE), которые не являются пунктами формулы изобретения.
EEE1 иллюстративно относится к способу кодирования звука, содержащего сигналы источника звука, данные, относящиеся к 3DoF, и данные, относящиеся к 6DoF, включающему: кодирование, например устройством в виде источника звука, таким как, например, кодирующее устройство, сигналов источника звука, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF для определения данных 3DoF; и/или кодирование, например устройством в виде источника звука, таким как, например, кодирующее устройство, данных, относящихся к 6DoF, для определения метаданных 6DoF, при этом метаданные могут быть использованы для аппроксимации исходных сигналов источника звука для формирования 6DoF.
EEE2 иллюстративно относится к способу из EEE1, при этом данные 3DoF относятся к по меньшей мере одному из звуковых сигналов объектов, направлений объектов и расстояний до объектов.
EEE3 иллюстративно относится к способу из EEE1 или EEE2, при этом данные 6DoF относятся к по меньшей мере одному из следующего: параметры положения 3DoF (по умолчанию), параметры описания (координаты объектов) пространства 6DoF, параметры направленности объекта, параметры среды VR, параметры ослабления с увеличением дальности, параметры поглощения и параметры реверберации.
EEE4 иллюстративно относится к способу передачи данных, в частности звуковых данных, используемых для формирования 3DoF и 6DoF, причем способ включает: передачу, например в синтаксисе битового потока звука, сигналов источника звука, которые могут предпочтительно аппроксимировать желаемое звуковое поле в положении (положениях) 3DoF, например при декодировании звуковой системой 3DoF; и/или передачу, например в части расширения синтаксиса битового потока звука, метаданных, относящихся 6DoF, для аппроксимации и/или восстановления исходных сигналов источника звука для формирования 6DoF; при этом метаданные, относящиеся к 6DoF, могут представлять собой параметрические данные и/или данные сигналов.
EEE5 иллюстративно относится к способу из EEE4, при этом синтаксис битового потока звука, например, включающий метаданные 3DoF и/или метаданные 6DoF, соответствует по меньшей мере версии стандарта MPEG-H Audio.
EEE6 иллюстративно относится к способу генерирования битового потока, причем способ включает: определение метаданных 3DoF, которые основаны на сигналах источника звука, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF; определение метаданных, относящихся к 6DoF, при этом метаданные могут быть использованы для аппроксимации исходных сигналов источника звука для формирования 6DoF; и/или введение сигнала источника звука и метаданных, относящихся к 6DoF, в битовый поток.
EEE7 иллюстративно относится к способу формирования звука, причем указанный способ включает:
предварительную обработку метаданных 6DoF аппроксимированных звуковых сигналов x* исходных звуковых сигналов x в положении (положениях) 3DoF, при этом формирование 6DoF может обеспечивать такой же вывод, что и формирование 3DoF передаваемых сигналов источника звука x3DA для формирования 3DoF, которые аппроксимируют желаемое звуковое поле в положении (положениях) 3DoF.
EEE8 иллюстративно относится к способу из EEE7, при этом формирование звука определяют на основании следующего:
где относится к функции формирования звука для положения (положений) слушателя 6DoF, относится к функциям формирования звука для положения (положений) слушателя 3DoF, представляют собой звуковые сигналы, содержащие эффекты среды VR для конкретного положения (положений) 3DoF, и x* относится к аппроксимированным звуковым сигналам.
EEE9 иллюстративно относится к способу из EEE8, при этом аппроксимированные звуковые сигналы x* исходных звуковых сигналов x основаны на следующем:
при этом A-1 относится к функции, обратной функции A аппроксимации.
EEE10 иллюстративно относится к способу из EEE8 или EEE9, при этом метаданные, используемые для получения аппроксимированных звуковых сигналов x* исходных сигналов источника звука x, используя способ аппроксимации А, определяют на основании следующего:
при этом количество метаданных меньше количества звуковых данных, необходимых для передачи исходных сигналов источника звука x,
при этом формирование звука определяют на основании следующего:
где относится к функции формирования звука для положения (положений) слушателя 6DoF, относится к функциям формирования звука для положения (положений) слушателя 3DoF, представляют собой звуковые сигналы, содержащие эффекты среды VR для конкретного положения (положений) 3DoF, и x* относится к аппроксимированным звуковым сигналам.
Иллюстративные аспекты и варианты осуществления настоящего изобретения могут быть реализованы в аппаратном обеспечении, программно-аппаратном обеспечении или программном обеспечении, или их сочетании (например, в виде программируемой логической матрицы). Если не указано иное, алгоритмы или процессы, включенные в качестве части изобретения, по своей природе не относятся к какому-либо конкретному компьютеру или другому устройству. В частности, различные машины общего назначения могут быть использованы вместе с программами, написанными в соответствии с идеями в данном документе, или может быть удобнее сконструировать более специализированное устройство (например, интегральные микросхемы) для выполнения необходимых этапов способа. Таким образом, изобретение может быть реализовано в одной или нескольких компьютерных программах, исполняющихся на одной или нескольких программируемых компьютерных системах (например, реализация любого из элементов на фигурах), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (включая энергозависимое и энергонезависимое запоминающие устройства и/или элементы хранения), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Программный код применяется к входным данным для выполнения функций, описанных в данном документе, и генерирования выходной информации. Выходная информация известным способом применяется к одному или более устройствам вывода.
Каждая такая программа может быть реализована на любом желаемом компьютерном языке (включая машинный язык, язык ассемблера, высокоуровневый процедурный язык, логический язык или объектно-ориентированный язык программирования) для поддерживания связи с компьютерной системой. В любом случае язык может быть компилируемым или интерпретируемым языком.
Например, при реализации посредством последовательностей компьютерных программных команд различные функции и этапы вариантов осуществления изобретения могут быть реализованы многопоточными последовательностями программных команд, запущенными на подходящем аппаратном обеспечении цифровой обработки сигналов, в случае чего различные устройства, этапы и функции вариантов осуществления могут соответствовать частям программных команд.
Каждую такую компьютерную программу предпочтительно сохраняют или загружают на носители информации или устройство хранения (например, твердотельное запоминающее устройство или носители, или магнитные или оптические носители), считываемые программируемым компьютером общего или специального назначения, для конфигурирования и работы компьютера, когда носители информации или устройство хранения считываются компьютерной системой для выполнения процедур, описанных в данном документе. Система изобретения также может быть реализована в виде машиночитаемого носителя информации, оснащенного (т.е. хранящего) компьютерной программой, при этом оснащенный таким образом носитель информации заставляет компьютерную систему работать указанным и предопределенным образом для выполнения функций, описанных в данном документе.
Выше описаны ряд иллюстративных аспектов и иллюстративных вариантов осуществления настоящего изобретения. Тем не менее следует понимать, что различные модификации могут быть осуществлены без отступления от сущности и объема настоящего изобретения. В свете вышеизложенных идей возможны многочисленные модификации и изменения настоящего изобретения. Следует понимать, что в рамках объема прилагаемой формулы изобретения настоящее изобретение может быть применено на практике иным образом, отличным от конкретно описанного в данном документе.
Группа изобретений относится к предоставлению устройства, системы и способа формирования звука с шестью степенями свободы (6DoF), в частности в связи с представлением данных и структурами битовых потоков для формирования звука 6DoF. Техническим результатом изобретения является обеспечение возможности представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA. Заявленный способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, включает кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока, и кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока. Настоящее изобретение дополнительно относится к способам, устройству и системам для декодирования звукового сигнала и формирования звука на основании битового потока. 6 н. и 23 з.п. ф-лы, 14 ил.
1. Способ кодирования звукового сигнала в битовый поток, причем способ включает:
кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и
кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока, при этом способ дополнительно включает:
прием звуковых сигналов от одного или более источников звука;
определение характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;
определение параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров и предоставления параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; и
генерирование данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этом
функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
2. Способ по п.1, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.
3. Способ по п.2, отличающийся тем, что
один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
4. Способ по любому из пп.1-3, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.
5. Способ по любому из пп.1-4, отличающийся тем, что
метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию.
6. Способ по любому из пп.1-5, отличающийся тем, что
метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего:
описание пространства 6DoF, необязательно включая координаты объектов;
направления звуковых объектов одного или более звуковых объектов;
среда виртуальной реальности (VR); и
параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.
7. Способ по любому из пп.1-6, отличающийся тем, что
битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.
8. Способ по п.7, отличающийся тем, что
одна или более первых частей битового потока представляют полезные данные битового потока, и
одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.
9. Способ декодирования звука, причем способ включает:
прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и
выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
10. Способ по п.9, отличающийся тем, что
при выполнении формирования звука 3DoF формирование звука 3DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.
11. Способ по п.9 или 10, отличающийся тем, что
при выполнении формирования звука 6DoF формирование звука 6DoF выполняют на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
12. Способ по любому из пп.9-11, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, включают данные звукового сигнала одного или более звуковых объектов.
13. Способ по п.12, отличающийся тем, что
один или более звуковых объектов расположены на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
14. Способ по любому из пп.9-13, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, включают данные о направлении одного или более звуковых объектов и/или данные о расстоянии одного или более звуковых объектов.
15. Способ по любому из пп.9-14, отличающийся тем, что
метаданные, связанные с формированием звука 6DoF, указывают на одно или более положений слушателя 3DoF по умолчанию.
16. Способ по любому из пп.9-15, отличающийся тем, что
метаданные, связанные с формированием звука 6DoF, включают или указывают на по меньшей мере одно из следующего:
описание пространства 6DoF, необязательно включая координаты объектов;
направления звуковых объектов одного или более звуковых объектов;
среда виртуальной реальности (VR); и
параметры, относящиеся к ослаблению с увеличением дальности, поглощению и/или реверберациям.
17. Способ по любому из пп.9-16, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, генерируют на основании звуковых сигналов от одного или более источников звука и функции преобразования.
18. Способ по п.17, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 3DoF, генерируют путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию преобразования.
19. Способ по п.17 или 18, отличающийся тем, что
функция преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
20. Способ по любому из пп.9-19, отличающийся тем, что
битовый поток представляет собой битовый поток MPEG-H 3D Audio или битовый поток, использующий синтаксис MPEG-H 3D Audio.
21. Способ по п.20, отличающийся тем, что
одна или более первых частей битового потока представляют полезные данные битового потока, и
одна или более вторых частей битового потока представляют один или более контейнеров расширения битового потока.
22. Способ по любому из пп.9-21, отличающийся тем, что
данные звукового сигнала, связанные с формированием звука 6DoF, генерируют путем преобразования данных звукового сигнала, связанных с формированием звука 3DoF, используя функцию обратного преобразования и метаданные, связанные с формированием звука 6DoF.
23. Способ по любому из пп.9-22, отличающийся тем, что
выполнение формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока приводит к генерированию такого же звукового поля, как и выполнение формирования звука 6DoF в положении слушателя 3DoF по умолчанию на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
24. Устройство для декодирования звука, содержащее процессор, выполненный с возможностью:
кодирования или включения данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока;
кодирования или включения метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока; и
вывода закодированного битового потока, при этом процессор дополнительно выполнен с возможностью:
приема звуковых сигналов от одного или более источников звука;
определения характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;
определения параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров и предоставления параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; и
генерирования данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этом
функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
25. Устройство для декодирования звука, содержащее процессор, выполненный с возможностью:
приема битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и
выполнения по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом процессор дополнительно выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включая генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
26. Устройство по п.25, отличающееся тем, что
при выполнении формирования звука 3DoF процессор выполнен с возможностью выполнения формирования звука 3DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока, при этом исключая метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока.
27. Устройство по п.25 или 26, отличающееся тем, что
при выполнении формирования звука 6DoF процессор выполнен с возможностью выполнения формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока.
28. Машиночитаемый носитель, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ кодирования звукового сигнала в битовый поток, в частности кодирующим устройством, причем способ включает:
кодирование или включение данных звукового сигнала, связанных с формированием звука 3DoF, в одну или более первых частей битового потока; и
кодирование или включение метаданных, связанных с формированием звука 6DoF, в одну или более вторых частей битового потока, при этом способ дополнительно включает:
прием звуковых сигналов от одного или более источников звука;
определение характеристик среды и параметров, относящихся к ослаблению с увеличением дальности, поглощению и/или реверберациям;
определение параметризации функции A преобразования на основании указанных характеристик среды и указанных параметров и
предоставление параметризованной функции A преобразования, при этом AA-1≈1 и A-1A≈1; и
генерирование данных звукового сигнала, связанных с формированием звука 3DoF, путем преобразования звуковых сигналов от одного или более источников звука в звуковые сигналы 3DoF, используя функцию A преобразования, при этом
функция A преобразования отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
29. Машиночитаемый носитель, содержащий команды, которые при выполнении процессором заставляют процессор выполнять способ декодирования и/или формирования звука, в частности декодирующим устройством или модулем формирования звука, причем способ включает:
прием битового потока, содержащего данные звукового сигнала, связанные с формированием звука 3DoF, в одной или более первых частях битового потока и дополнительно содержащего метаданные, связанные с формированием звука 6DoF, в одной или более вторых частях битового потока, и
выполнение по меньшей мере одного из формирования звука 3DoF и формирования звука 6DoF на основании принятого битового потока, при этом выполнение формирования звука 6DoF на основании данных звукового сигнала, связанных с формированием звука 3DoF, в одной или более первых частях битового потока и метаданных, связанных с формированием звука 6DoF, в одной или более вторых частях битового потока, включает генерирование данных звукового сигнала, связанных с формированием звука 6DoF, на основании данных звукового сигнала, связанных с формированием звука 3DoF, и функции обратного преобразования, при этом функция обратного преобразования представляет собой функцию, обратную функции преобразования, которая отображает или проецирует звуковые сигналы одного или более источников звука на соответствующие звуковые объекты, расположенные на одной или более сферах, окружающих положение слушателя 3DoF по умолчанию.
BLEIDT R.L | |||
et al., Development of the MPEG-H TV Audio System for ATSC 3.0 // IEEE TRANSACTIONS ON BROADCASTING, 01.03.2017, Vol | |||
Способ приготовления сернистого красителя защитного цвета | 1915 |
|
SU63A1 |
Приспособление к тростильной машине для прекращения намотки шпули | 1923 |
|
SU202A1 |
US 9847088 B2, 19.12.2017 | |||
US 9477307 B2, 25.10.2016 | |||
WO 2014184706 A1, 20.11.2014 | |||
WO 2007096808 A1, 30.08.2007 | |||
US 2018068664 A1, 08.03.2018 | |||
RU 2015151021 A, 04.07.2017 | |||
ДЕКОДЕР И СПОСОБ МНОГОЭКЗЕМПЛЯРНОГО ПРОСТРАНСТВЕННОГО КОДИРОВАНИЯ АУДИООБЪЕКТОВ С ПРИМЕНЕНИЕМ ПАРАМЕТРИЧЕСКОЙ КОНЦЕПЦИИ ДЛЯ СЛУЧАЕВ МНОГОКАНАЛЬНОГО ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ/ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ | 2013 |
|
RU2604337C2 |
Авторы
Даты
2022-10-26—Публикация
2019-04-09—Подача