Способ, энергонезависимый машиночитаемый носитель и декодер MPEG-H 3D Audio для расширения трех степеней свободы MPEG-H 3D Audio Российский патент 2024 года по МПК H04S7/00 

Описание патента на изобретение RU2826074C2

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка претендует на приоритет следующих приоритетных заявок: предварительная заявка США 62/654915 (ссылка: D18045USP1), поданная 9 апреля 2018 г.; предварительная заявка США 62/695446 (ссылка: D18045USP2), поданная 9 июля 2018 г., и предварительная заявка США 62/823159 (ссылка: D18045USP3), поданная 25 марта 2019 г., которые включены в данную заявку посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к способу обработки информации о положении, указывающей положение звукового объекта, и информации, указывающей смещение положения головы слушателя, а также относится к энергонезависимому машиночитаемому носителю, содержащему команды для выполнения указанного способа, и к декодеру MPEG-H 3D Audio для обработки информации о положении, указывающей положение объекта для звукового объекта.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

В первом издании (15 октября 2015 г.) и редакциях 1-4 стандарта ISO/IEC 23008-3 MPEG-H 3D Audio не представлено обеспечение небольших поступательных движений головы пользователя в среде трех степеней свободы (Three Degrees of Freedom, 3DoF).

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

В первом издании (15 октября 2015 г.) и редакциях 1-4 стандарта ISO/IEC 23008-3 MPEG-H 3D Audio представлена функциональность для возможности среды 3DoF, где пользователь (слушатель) выполняет действия поворота головы. Однако такая функциональность в лучшем случае поддерживает только передачу сигнала о поворотном смещении сцены и соответствующий рендеринг. Это означает, что звуковая сцена может оставаться неподвижной в пространстве при изменении ориентации головы слушателя, что соответствует свойству 3DoF. Однако отсутствует возможность учета небольшого поступательного движения головы пользователя внутри настоящей экосистемы MPEG-H 3D Audio.

Таким образом, существует необходимость в способах и аппарате для обработки информации о положении звуковых объектов, которые могут учитывать небольшое поступательное движение головы пользователя потенциально в сочетании с поворотным движением головы пользователя.

В настоящем изобретении представлены аппарат и системы для обработки информации о положении, имеющие признаки соответствующих независимых и зависимых пунктов формулы изобретения.

Согласно одному аспекту настоящего изобретения описан способ обработки информации о положении, указывающей положение звукового объекта, причем обработка может быть совместима со стандартом MPEG-H 3D Audio. Положение объекта может быть использовано для рендеринга звукового объекта. Звуковой объект может быть включен в звуковое содержимое на основе объектов наряду с информацией о его положении. Информация о положении может представлять собой (часть) метаданные для звукового объекта. Звуковое содержимое (например, звуковой объект вместе с информацией о его положении) может быть передано в кодированном звуковом битовом потоке. Способ может включать прием звукового содержимого (например, кодированного звукового битового потока). Способ может включать получение информации об ориентации слушателя, указывающей ориентацию головы слушателя. Слушателя могут называть пользователем, например декодера, выполняющего способ. Ориентация головы слушателя (ориентация слушателя) может представлять собой ориентацию головы слушателя относительно номинальной ориентации. Способ может дополнительно включать получение информации о смещении слушателя, указывающей смещение головы слушателя. Смещение головы слушателя может представлять собой смещение относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (например, заданное положение, ожидаемое положение для головы слушателя или зону наилучшего восприятия при расположении динамиков). Информация об ориентации слушателя и информация о смещении слушателя могут быть получены посредством входного интерфейса декодера MPEG-H 3D Audio. Информация об ориентации слушателя и информация о смещении слушателя могут быть выведены на основании информации от датчиков. Сочетание информации об ориентации и информации о положении могут называть информацией о позиции. Способ может дополнительно включать определение положения объекта из информации о положении. Например, положение объекта может быть извлечено из информации о положении. Определение (например, извлечение) положения объекта может быть дополнительно основано на информации относительно геометрии расположения динамиков одного или более динамиков в среде прослушивания. Положение объекта также могут называть положением канала звукового объекта. Способ может дополнительно включать модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта. Модификация положения объекта может относиться к корректировке положения объекта для смещения головы слушателя из номинального положения прослушивания. Иными словами, модификация положения объекта может относиться к применению компенсации смещения положения к положению объекта. Способ может также дополнительно включать дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания). Дополнительная модификация модифицированного положения объекта для рендеринга звукового объекта может включать поворотное смещение звуковой сцены.

Предложенный способ, приспособленный так, как описано выше, предоставляет более реалистичное ощущение от прослушивания, особенно для звуковых объектов, которые находятся вблизи головы слушателя. В дополнение к трем (поворотным) степеням свободы, обычно предлагаемым слушателю в среде 3DoF, в предложенном способе также могут учитывать поступательные движения головы слушателя. Это позволяет слушателю достигать близких звуковых объектов с разных углов и даже сторон. Например, слушатель может слушать звуковой объект «комар», который расположен вблизи головы слушателя, с разных углов за счет небольшого сдвига своей головы, возможно в дополнение к повороту его головы. В результате, предложенный способ может обеспечить улучшенное, более реалистичное, погружающее ощущение от прослушивания для слушателя.

В некоторых вариантах осуществления модификация положения объекта и дополнительная модификация модифицированного положения объекта могут быть выполнены таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации. Соответственно, звуковой объект могут воспринимать как перемещающийся относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как поворачивающийся относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Один или более динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, 5.1, 7.1 и т.д.).

В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.

Таким образом, обеспечивают, что близкие звуковые объекты воспринимаются слушателем как перемещающиеся в соответствии с движением его головы. Это способствует более реалистичному ощущению от прослушивания этих звуковых объектов.

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения. Например, абсолютное значение смещения может составлять не более 0,5 м. Смещение может быть выражено в декартовых координатах (например, x, y, z) или сферических координатах (например, азимут, угол подъема, радиус).

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. Таким образом, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле.

В некоторых вариантах осуществления способ может дополнительно включать обнаружение ориентации головы слушателя посредством носимого и/или стационарного оборудования. Подобным образом, способ может дополнительно включать обнаружение смещения головы слушателя из номинального положения прослушивания посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру или гарнитуру для дополненной реальности (augmented reality, AR) / виртуальной реальности (virtual reality,VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Это обеспечивает получение точной информации о смещении и/или ориентации головы слушателя и, тем самым, обеспечивает реалистичную обработку близких звуковых объектов в соответствии с ориентацией и/или смещением.

В некоторых вариантах осуществления расстояние между модифицированным положением звукового объекта и положением прослушивания после смещения преобразуется в усиление для модификации уровня звукового сигнала.

Согласно другому аспекту настоящего изобретения описан энергонезависимый машиночитаемый носитель, содержащий команды, которые при исполнении программного обеспечения процессором цифровой обработки сигналов или микропроцессором вызывают выполнение процессором цифровой обработки сигналов или микропроцессором способа обработки информации о положении, включающего:

прием битового потока, содержащего кодированный звук;

декодирование из битового потока звукового объекта и информации о положении для звукового объекта;

получение информации об ориентации слушателя, указывающей ориентацию головы слушателя;

получение информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;

определение положения объекта из информации о положении, причем

информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания;

модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; и

дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, причем

когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.

Согласно другому аспекту настоящего изобретения описан декодер MPEG-H 3D Audio для обработки информации о положении, указывающей положение объекта для звукового объекта, причем положение объекта используемо для рендеринга звукового объекта, при этом декодер содержит процессор и запоминающее устройство, соединенное с процессором, причем процессор адаптирован для:

приема битового потока, содержащего кодированный звук;

декодирования из битового потока звукового объекта и информации о положении для звукового объекта;

получения информации об ориентации слушателя, указывающей ориентацию головы слушателя;

получения информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;

определения положения объекта из информации о положении, причем

информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания;

модификации положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; и

дополнительной модификации модифицированного положения объекта на основании информации об ориентации слушателя, причем

когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение, составляющее 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.

Следует понимать, что этапы способа и характерные признаки энергонезависимого машиночитаемого носителя и декодера MPEG-H 3D Audio можно взаимно заменять различными способами. В частности, детали раскрытого способа могут быть реализованы в виде энергонезависимого машиночитаемого носителя или декодера, приспособленного для выполнения некоторых или всех этапов способа, и наоборот, как будет понятно специалисту. В частности, следует понимать, что энергонезависимый машиночитаемый носитель или декодер согласно настоящему изобретению может относиться к энергонезависимому машиночитаемому носителю, содержащему команды для реализации или исполнения способа согласно вышеприведенным вариантам осуществления и их вариациям, или к декодеру и что соответствующие утверждения, сделанные в отношении способа, аналогичным образом применяются к соответствующему энергонезависимому машиночитаемому носителю или декодеру. Подобным образом, следует понимать, что способ согласно настоящему изобретению может относиться к способу работы с энергонезависимым машиночитаемым носителем или декодером согласно вышеприведенным вариантам осуществления и их вариациям и что соответствующие утверждения, сделанные в отношении энергонезависимого машиночитаемого носителя или декодера, аналогичным образом применяются к соответствующему способу.

КРАТКОЕ ОПИСАНИЕ ФИГУР

Ниже изобретение разъясняется иллюстративным образом со ссылкой на сопроводительные графические материалы, в которых:

на фиг. 1 схематически показан пример системы MPEG-H 3D Audio;

на фиг. 2 схематически показан пример системы MPEG-H 3D Audio согласно настоящему изобретению;

на фиг. 3 схематически показан пример системы рендеринга звука согласно настоящему изобретению;

на фиг. 4 схематически показана примерная система осей декартовых координат и их отношения к сферическим координатам; и

на фиг. 5 показана блок-схема, схематически иллюстрирующая пример способа обработки информации о положении для звукового объекта согласно настоящему изобретению.

ПОДРОБНОЕ ОПИСАНИЕ

В контексте настоящего документа 3DoF обычно является системой, которая может правильно обрабатывать движение головы пользователя, в частности поворот головы, характеризующийся тремя параметрами (например, рыскание, тангаж, крен). Такие системы часто доступны в различных игровых системах, таких как системы виртуальной реальности (VR) / дополненной реальности (AR) / смешанной реальности (Mixed Reality, MR), или в других звуковых средах такого типа.

В контексте настоящего документа пользователя (например, декодера звука или системы воспроизведения, содержащей декодер звука) могут также называть «слушателем».

В контексте настоящего документа 3DoF+ должно обозначать, что в дополнение к движению головы пользователя, которое может быть правильно обработано посредством системы 3DoF, также должны быть обработаны поступательные движения.

В контексте настоящего документа выражение «небольшой» должно указывать, что движения ограничены пороговым значением, которое, как правило, составляет не более 0,5 метра. Это означает, что движения не превышают 0,5 метра от первоначального положения головы пользователя. Например, движения пользователя ограничены вследствие того, что он сидит на стуле.

В контексте настоящего документа термин «MPEG-H 3D Audio» относится к техническому описанию, указанному в стандарте ISO/IEC 23008-3 и/или в любых будущих редакциях, изданиях или других версиях стандарта ISO/IEC 23008-3.

В контексте стандартов звука, предоставленных организацией MPEG, различие между 3DoF и 3DoF+ может быть определено следующим образом:

• 3DoF: позволяет пользователю испытывать движение рыскания, тангажа, крена (например, головы пользователя);

• 3DoF+: позволяет пользователю испытывать движение рыскания, тангажа, крена и ограниченное поступательное движение (например, головы пользователя), например, во время сидения в кресле.

Ограниченные (небольшие) поступательные движения головы могут представлять собой движения, ограниченные конкретным радиусом движения. Например, движения могут быть ограничены вследствие сидячего положения пользователя, например, без использования нижней части тела. Небольшие поступательные движения головы могут относиться или соответствовать смещению головы пользователя относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (такое как, например, заданное положение, ожидаемое положение для головы слушателя или зона наилучшего восприятия при расположении динамиков).

Восприятие 3DoF+ можно сравнить с ограниченным восприятием 6DoF, при котором поступательные движения могут быть описаны как ограниченные или небольшие движения головой. В одном примере также выполняют рендеринг звука на основании положения и ориентации головы пользователя, включая возможное акустическое поглощение. Рендеринг может быть выполнен с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя, например на основании функций моделирования восприятия звука (HRTF) для головы слушателя.

В отношении способов, систем, аппаратов и других устройств, совместимых с функциональными возможностями, установленными посредством стандарта MPEG-H 3D Audio, которые могут обозначать, что 3DoF+ поддерживается для любой будущей версии (версий) стандартов MPEG, таких как будущие версии всенаправленного мультимедийного формата (например, стандартизированного в будущих версиях MPEG-I), и/или в любых обновлениях для MPEG-H Audio (например, редакциях или более новых стандартах на основании стандарта MPEG-H 3D Audio), или любых связанных или опорных стандартах, которые могут требовать обновления (например, стандарты, в которых уточняют конкретные типы метаданных и сообщений SEI).

Например, функциональность модуля рендеринга звука, который является нормативным для стандарта звука, установленного в описании MPEG-H 3D Audio, может быть расширена, чтобы включать рендеринг звуковой сцены для точного учета взаимодействия пользователя со звуковой сценой, например, когда пользователь двигает своей головой слегка в стороны.

Настоящее изобретение предоставляет различные технические преимущества, включая преимущество предоставления MPEG-H 3D Audio, способного обработать варианты использования 3DoF+. В настоящем изобретении расширяют стандарт MPEG-H 3D Audio для поддержки функциональных возможностей 3DoF+.

Для поддержки функциональных возможностей 3DoF+ система рендеринга звука должна учитывать ограниченные/небольшие смещения положения головы пользователя/слушателя. Смещения положения должны определять на основании относительного отклонения от начального положения (т.е. положения по умолчанию /номинального положения прослушивания). В одном примере амплитуда этого отклонения (например, отклонения радиуса, которое может быть определено на основании roffset=||P0-P1||), где P0 представляет собой номинальное положение прослушивания, а P1 представляет собой смещенное положение головы слушателя) максимально составляет приблизительно 0,5 м. В другом примере амплитуда отклонения ограничена тем, что представляет собой отклонение, получаемое только тогда, когда пользователь сидит на стуле и не выполняет движения нижней частью тела (однако его голова движется относительно его тела). Это (небольшое) расстояние отклонения обеспечивает очень небольшой (воспринимаемый) уровень и разность панорамирования для отдаленных звуковых объектов. Однако для близких объектов такое небольшое расстояние отклонения может стать значимым для восприятия. Конечно, движение головы слушателя может оказывать влияние на восприятие того, где находится точная локализация звукового объекта. Этот эффект восприятия может оставаться важным (т.е. быть заметным для восприятия пользователя/слушателя) при условии, что отношение между (i) смещением головы пользователя (например, roffset=||P0-P1||)) и расстоянием до звукового объекта (например, r) тригонометрически обеспечивает углы, которые находятся в диапазоне психоакустической способности пользователей обнаруживать направление звука. Такой диапазон может изменяться для разных настроек модуля рендеринга звука, звукового материала и конфигурации проигрывания. Например, предполагая, что диапазон точности локализации составляет, например, +/-3 со свободой движения головы слушателя из стороны в сторону +/-0,25 м, это будет соответствовать ~5 м расстояния до объекта.

Для объектов, которые расположены вблизи слушателя, (например, объектов на расстоянии меньше 1 м от пользователя), надлежащая обработка смещения положения головы слушателя является важной для сценариев 3DoF+, поскольку как во время панорамирования, так и во время изменений уровня присутствуют значительные эффекты восприятия.

Одним примером обработки объектов вблизи слушателей, например, является случай, когда звуковой объект (например, комар) расположен очень близко к лицу слушателя. Звуковая система, такая как звуковая система, обеспечивающая возможности VR/AR/MR, должна позволять пользователю воспринимать этот звуковой объект со всех сторон и под всеми углами, даже когда пользователь выполняет небольшие поступательные движения головой. Например, пользователь должен иметь возможность точно воспринимать объект (например, комара), даже когда пользователь перемещает свою голову, не двигая нижней частью тела.

Однако система, совместимая с текущей версией MPEG-H 3D Audio, не может в настоящее время это корректно обработать. Вместо этого, использование системы, совместимой с системой MPEG-H 3D Audio, приводит к восприятию «комара» с неверного положения относительно пользователя. В сценариях, которые включают исполнение 3DoF+, небольшие поступательные движения должны приводить к значительной разнице в восприятии звукового объекта (например, при движении головой влево звуковой объект «комар» должен восприниматься с правой стороны относительно головы пользователя, и т.д.).

Стандарт MPEG-H 3D Audio содержит синтаксис битового потока, который обеспечивает передачу информации о расстоянии до объекта посредством синтаксиса битового потока, например посредством элемента синтаксиса object_metadata() (начиная с 0,5 м).

Элемент синтаксиса prodMetadataConfig() может быть введен в битовый поток, предоставленный стандартом MPEG-H 3D Audio, который может быть использован для оповещения, что объект находится на очень близких расстояниях от слушателя. Например, синтаксис prodMetadataConfig() может оповещать, что расстояние между пользователем и объектом составляет меньше конкретного порогового расстояния (например, меньше 1 см).

На фиг. 1 и фиг. 2 показано настоящее изобретение на основании рендеринга в наушниках (т.е., когда динамики двигаются вместе с головой слушателя).

На фиг. 1 показан пример поведения 100 системы, которая совместима с системой MPEG-H 3D Audio. В этом примере предполагают, что голова слушателя расположена в положении P0 103 в момент t0 и перемещается в положение P1 104 в момент t1 > t0. Пунктирные круги вокруг положений P0 и P1 указывают допустимую область движения 3DoF+ (например, с радиусом 0,5 м). Положение A 101 указывает переданное положение объекта (в момент t0 и момент t1, т.е. предполагают, что переданное положение объекта является постоянным в течение некоторого времени). Положение A также указывает положение объекта, рендеринг которого выполняют посредством модуля рендеринга MPEG-H 3D Audio в момент t0. Положение B 102 указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент t1. Вертикальные линии, проходящие вверх от положений P0 и P1, указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Смещение головы пользователя между положением P0 и положением P1 может быть представлено посредством roffset=||P0-P1|| 106. Если слушатель находится в положении по умолчанию (номинальное положение прослушивания) P0 103 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении A 101. Если пользователь переместится в положение P1 104 в момент t1, он будет воспринимать звуковой объект в положении B 102, если обработку MPEG-H 3D Audio применяют как текущий стандарт, что вводит показанную ошибку δAB 105. То есть, несмотря на движение головы слушателя, звуковой объект (например, комар) все еще будет восприниматься как расположенный непосредственно перед головой слушателя (т.е. как по существу перемещающийся совместно с головой слушателя). Следует отметить, что введенная ошибка δAB 105 возникает независимо от ориентации головы слушателя.

На фиг. 2 показан пример поведения системы относительно системы 200 MPEG-H 3D Audio согласно настоящему изобретению. На фиг. 2 голова слушателя находится в положении P0 203 в момент t0 и перемещается в положение P1 204 в момент t1 > t0. Опять же, пунктирные круги вокруг положений P0 и P1 указывают допустимую область движения 3DoF+ (например, с радиусом 0,5 м). В пункте 201 показано, что положение A=B, что означает, что переданное положение объекта (в момент t0 и момент t1, т. е. предполагают, что переданное положение объекта) является постоянным в течение некоторого времени. Положение A=B 201 также указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент t0 и момент t1. Вертикальные стрелки, проходящие вверх от положений P0 203 и P1 204, указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Если слушатель находится в начальном положении / положении по умолчанию (номинальное положение прослушивания) P0 203 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении A 201. Если пользователь переместится в положение P1 203 в момент t1, он все еще будет воспринимать звуковой объект в положении B 201, которое подобно (например, по существу совпадает с) положению A 201 в соответствии с настоящим изобретением. Таким образом, настоящее изобретение обеспечивает изменение положения пользователя с течением времени (например, из положения P0 203 в положение P1 204), в то же время обеспечивая восприятие звука из той же (пространственно зафиксированной) локации (например, положение A=B 201, и т.д.). Иными словами, звуковой объект (например, комар) движется относительно головы слушателя в соответствии с перемещением (например, отрицательно коррелируя с) головы слушателя. Это позволяет пользователю двигаться вокруг звукового объекта (например, комара) и воспринимать звуковой объект под разными углами или даже с разных сторон. Смещение головы пользователя между положением P0 и положением P1 может быть представлено как roffset=||P0-P1|| 206.

На фиг. 3 показан пример системы 300 рендеринга звука согласно настоящему изобретению. Система 300 рендеринга звука может соответствовать или содержать декодер, такой как, например, декодер MPEG-H 3D audio. Система 300 рендеринга звука может содержать блок 310 смещения звуковой сцены с соответствующим интерфейсом обработки смещения звуковой сцены (например, интерфейсом для данных смещения сцены в соответствии со стандартом MPEG-H 3D Audio). Блок 310 смещения звуковой сцены может выводить положения 321 объекта для рендеринга соответствующих звуковых объектов. Например, блок смещения сцены может выводить метаданные положения объекта для рендеринга соответствующих звуковых объектов.

Система 300 рендеринга звука может дополнительно содержать модуль 320 рендеринга звукового объекта. Например, модуль рендеринга может состоять из аппаратного обеспечения, программного обеспечения и/или любой частичной или полной обработки, выполненной посредством облачных вычислений, включая различные сервисы, такие как платформы разработки программного обеспечения, серверы, хранилища и программное обеспечение, через интернет, часто называемые «облаком», которые совместимы с описанием, установленным стандартом MPEG-H 3D Audio. Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для одного или более (реальных или виртуальных) динамиков в соответствии с соответствующими положениями объекта (эти положения объекта могут быть модифицированными или дополнительно модифицированными положениями объекта, описанными ниже). Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для наушников и/или громкоговорителей. То есть, модуль 320 рендеринга звукового объекта может генерировать формы волны объекта согласно заданному формату воспроизведения. С этой целью модуль 320 рендеринга звукового объекта может использовать сжатые метаданные объекта. Рендеринг каждого объекта может быть выполнен для конкретных выходных каналов в соответствии с его положением объекта (например, модифицированным положением объекта или дополнительно модифицированным положением объекта). Таким образом, положения объекта также могут называться положениями канала их звуковых объектов. Положения 321 звукового объекта могут быть включены в выходную информацию метаданных положения объекта или метаданных смещения сцены посредством блока 310 смещения сцены.

Обработка согласно настоящему изобретению может быть совместима со стандартом MPEG-H 3D Audio. Таким образом, она может быть выполнена посредством декодера MPEG-H 3D Audio, или, более конкретно, посредством блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Соответственно, система 300 рендеринга звука по фиг. 3 может соответствовать или содержать декодер MPEG-H 3D Audio (т.е. декодер, совместимый с описанием, установленным стандартом MPEG-H 3D Audio). В одном примере система 300 рендеринга звука может представлять собой аппарат, содержащий процессор и запоминающее устройство, соединенное с процессором, при это процессор адаптирован для реализации декодера MPEG-H 3D Audio. В частности, процессор может быть приспособлен для реализации блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Таким образом, процессор может быть приспособлен для выполнения этапов обработки, описанных в настоящем изобретении (например, этапы S510-S560 способа 500, описанного со ссылкой на фиг. 5). В другом примере, обрабатывающая система или система 300 рендеринга звука может быть выполнена в облаке.

Система 300 рендеринга звука может получать (например, принимать) данные 301 локации прослушивания. Система 300 рендеринга звука может получать данные 301 локации прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio.

Данные 301 локации прослушивания могут указывать ориентацию и/или положение (например, смещение) головы слушателя. Таким образом, данные 301 локации прослушивания (которые также могут называть информацией о позиции) могут содержать информацию об ориентации слушателя и/или информацию о смещении слушателя.

Информация о смещении слушателя может указывать смещение головы слушателя (например, из номинального положения прослушивания). Информация о смещении слушателя может соответствовать или содержать указание амплитуды смещения головы слушателя из номинального положения прослушивания, roffset=||P0-P1|| 206, как показано на фиг. 2. В контексте настоящего изобретения информация о смещении слушателя указывает небольшое смещение положения головы слушателя из номинального положения прослушивания. Например, абсолютное значение смещения может составлять не более 0,5 м. Как правило, это представляет собой смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. То есть, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле, как указано выше. Смещение может быть выражено посредством различных систем координат, таких как, например, декартовы координаты (например, в рамках x, y, z) или сферические координаты (например, в рамках азимута, угла подъема, радиуса). Альтернативные системы координат для выражения смещения головы слушателя также возможны и, как следует понимать, охвачены настоящим изобретением.

Информация об ориентации слушателя может указывать ориентацию головы слушателя (например, ориентацию головы слушателя относительно номинальной ориентации/исходной ориентации головы слушателя). Например, информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя. В настоящем документе рыскание, тангаж и крен могут быть заданы относительно номинальной ориентации.

Данные 301 локации прослушивания могут непрерывно собирать с приемника, который может предоставлять информацию относительно поступательных движений пользователя. Например, данные 301 локации прослушивания, которые используются в конкретном случае во времени, могли быть недавно собраны с приемника. Данные локации прослушивания могут быть получены/собраны/сгенерированы на основании информации от датчиков. Например, данные 301 локации прослушивания могут быть получены/собраны/сгенерированы посредством носимого и/или стационарного оборудования, имеющего подходящие датчики. То есть, ориентация головы слушателя может быть обнаружена посредством носимого и/или стационарного оборудования. Подобным образом, смещение головы слушателя (например, из номинального положения прослушивания) может быть обнаружено посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру (например, гарнитуру AR/VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Стационарное оборудование может быть встроено, например, в телевизор или телевизионную приставку. В некоторых вариантах осуществления данные 301 локации прослушивания могут быть приняты от звукового кодера (например, MPEG-H 3D Audio-совместимого кодера), который мог получить (например, принять) информацию от датчиков.

В одном примере носимое и/или стационарное оборудование для обнаружения данных 301 локации прослушивания могут называть отслеживающими устройствами, которые поддерживают оценку/обнаружение положения головы и/или оценку/обнаружение ориентации головы. Существуют различные решения, позволяющие точное отслеживание движений головы пользователя с использованием камер компьютера или смартфона (например, на основании распознавания и отслеживания лица «FaceTrackNoIR», «opentrack»). Также несколько систем виртуальной реальности для наголовного дисплея (Head-Mounted Display, HMD) (например, HTC VIVE, Oculus Rift) имеют встроенную технологию отслеживания положения головы пользователя. Любое из этих решений может быть использовано в контексте настоящего изобретения.

Также важно отметить, что расстояние смещения головы в реальных условиях не должно соответствовать один к одному смещению, указанному данными 301 локации прослушивания. Для достижения гиперреалистичного эффекта (например, сверхусиленного параллакс-эффекта движения пользователя) в конкретных применениях могут использовать разные настройки калибровки датчиков или задавать разные отображения между движением в реальном и виртуальном пространствах. Следовательно, можно ожидать, что небольшое физическое движение приведет к большему смещению в виртуальной реальности в некоторых случаях использования. В любом случае, можно сказать, что амплитуды смещения в реальных условиях и в виртуальной реальности (т.е. смещение, указанное данными 301 локации прослушивания) положительно коррелируют. Подобным образом, направления смещения в реальных условиях и в виртуальной реальности положительно коррелируют.

Система 300 рендеринга звука может дополнительно принимать (объект) информацию 302 о положении (например, данные положения объекта) и звуковые данные 322. Звуковые данные 322 могут содержать один или более звуковых объектов. Информация 302 о положении может представлять собой часть метаданных для звуковых данных 322. Информация 302 о положении может указывать соответствующие положения объекта для одного или более звуковых объектов. Например, информация 302 о положении может содержать указание расстояния до соответствующих звуковых объектов относительно номинального положения прослушивания пользователя/слушателя. Расстояние (радиус) может составлять менее 0,5 м. Например, расстояние может составлять менее 1 см. Если информация 302 о положении не содержит указание расстояния до заданного звукового объекта до номинального положения прослушивания, система рендеринга звука может устанавливать расстояние от этого звукового объекта до номинального положения прослушивания на значение по умолчанию (например, 1 м). Информация 302 о положении может дополнительно содержать указания угла подъема и/или азимута соответствующих звуковых объектов.

Каждое положение объекта может использовано для рендеринга соответствующего звукового объекта. Соответственно информация 302 о положении и звуковые данные 322 могут содержаться в звуковом содержимом на основе объектов или образовывать его. Звуковое содержимое (например, звуковые объекты/звуковые данные 322 вместе с информацией 302 о их положении) может быть передано в кодированном звуковом битовом потоке. Например, звуковое содержимое может находиться в формате битового потока, принятого посредством передачи по сети. В этом случае, как определено, система рендеринга звука может принимать звуковое содержимое (например, из кодированного звукового битового потока).

В одном примере настоящего изобретения параметры метаданных могут быть использованы для исправления обработки вариантов использования с обратно совместимым улучшением для 3DoF и 3DoF+. Метаданные могут содержать информацию о смещении слушателя в дополнение к информации об ориентации слушателя. Такие параметры метаданных могут быть использованы системами, показанными на фиг. 2 и 3, а также любыми другими вариантами осуществления настоящего изобретения.

Обратно совместимое улучшение может обеспечить корректировку обработки вариантов использования (например, реализаций настоящего изобретения) на основании нормативного интерфейса смещения сцены MPEG-H 3D Audio. Это означает, что устаревший декодер/модуль рендеринга MPEG-H 3D Audio все еще будет обеспечивать вывод, пусть даже некорректный. Однако улучшенный декодер/модуль рендеринга MPEG-H 3D Audio согласно настоящему изобретению будет корректно применять данные расширения (например, метаданные расширения) и обработку, и, следовательно, может управлять сценарием объектов, расположенных вблизи слушателя, корректным образом.

В одном примере настоящее изобретение относится к предоставлению данных для небольших поступательных движений головы пользователя в форматах, отличающихся от тех, что отмечены ниже, и формулы могут быть адаптированы соответствующим образом. Например, данные могут быть приведены в формате, таком как координаты x, y, z (в системе декартовых координат) вместо азимута, угла подъема и радиуса (в системе сферических координат). Пример этих систем координат относительно друг друга показан на фиг. 4.

В одном примере, настоящее изобретение относится к предоставлению метаданных (например, информация о смещении слушателя включена в данные 301 локации прослушивания, показанные на фиг. 3) для ввода поступательного движения головы слушателя. Метаданные могут быть использованы, например, для интерфейса для данных смещения сцены. Метаданные (например, информация о смещении слушателя) могут быть получены посредством использования отслеживающего устройства, которое поддерживает отслеживание 3DoF+ или 6DoF.

В одном примере метаданные (например, информация о смещении слушателя, в частности смещение головы слушателя, или, эквивалентно, смещение сцены) могут быть представлены посредством следующих трех параметров: sd_azimuth, sd_elevation и sd_radius, относящихся к азимуту, углу подъема и радиусу (сферические координаты) смещения головы слушателя (или смещения сцены).

Синтаксис для этих параметров представлен в нижеследующей таблице.

Таблица 264b - синтаксис mpegh3daPositionalSceneDisplacementData()

sd_azimuth - это поле обозначает положение азимута смещения сцены. Это поле может иметь значения от -180 до 180.

azoffset = (sd_azimuth - 128) ⋅ 1,5

azoffset = min(max(azoffset, -180), 180)

sd_elevation - это поле обозначает положение угла подъема смещения сцены. Это поле может иметь значения от -90 до 90.

eloffset = (sd_elevation - 32) ⋅ 3,0

eloffset = min(max(eloffset, -90), 90)

sd_radius - это поле обозначает радиус смещения сцены. Это поле может иметь значения от 0,015626 до 0,25.

roffset = (sd_radius + 1) / 16

В другом примере метаданные (например, информация о смещении слушателя) могут быть представлены следующими тремя параметрами sd_x, sd_y и sd_z в декартовых координатах, за счет чего снизится обработка данных со сферических координат до декартовых координат. Метаданные могут быть основаны на следующем синтаксисе:

Как описано выше, вышеприведенный синтаксис или эквиваленты этого синтаксиса могут сигнально передавать информацию, относящуюся к поворотам вокруг оси x, y, z.

В одном примере настоящего изобретения обработка углов смещения сцены для каналов и объектов может быть улучшена за счет расширения уравнений, которые учитывают изменения положения головы пользователя. То есть, при обработке положений объекта могут учитывать (например, могут быть основаны, по меньшей мере частично) информацию о смещении слушателя.

Пример способа 500 обработки информации о положении, указывающей положение объекта для звукового объекта, продемонстрирован на блок-схеме на фиг. 5. Этот способ может быть выполнен посредством декодера, такого как декодер MPEG-H 3D audio. Система 300 рендеринга звука по фиг. 3 может выступать в качестве примера такого декодера.

На первом этапе (не показан на фиг. 5) принимают звуковое содержимое, включающее звуковой объект и соответствующую информацию о положении, например, из битового потока кодированного звука. Затем способ может дополнительно включать декодирование кодированного звукового содержимого для получения звукового объекта и информации о положении.

На этапе S510 получают (например, принимают) информацию об ориентации слушателя. Информация об ориентации слушателя может указывать ориентацию головы слушателя.

На этапе S520 получают (например, принимают) информацию о смещении слушателя. Информация о смещении слушателя может указывать смещение головы слушателя.

На этапе S530 определяют положение объекта из информации о положении. Например, положение объекта (например, в рамках азимута, угла подъема, радиуса или x, y, z или их эквивалентов) могут извлечь из информации о положении. Определение положения объекта также может быть основано, по меньшей мере частично, на информации относительно геометрии расположения динамиков одного или более (реальных или виртуальных) динамиков в среде прослушивания. Если радиус не включен в информацию о положении для этого звукового объекта, декодер может устанавливать значение радиуса по умолчанию (например, 1 м). В некоторых вариантах осуществления значение по умолчанию может зависеть от геометрии расположения динамиков.

Следует отметить, что этапы S510, S520 и S520 могут быть выполнены в любом порядке.

На этапе S540 положение объекта, определенное на этапе S530, модифицируют на основании информации о смещении слушателя. Это могут выполнить посредством применения поступательного перемещения к положению объекта в соответствии с информацией о смещении (например, в соответствии со смещением головы слушателя). Таким образом, как определено, модификацию положения объекта могут относить к корректировке положения объекта для смещения головы слушателя (например, смещение из номинального положения прослушивания). В частности, модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания. Пример такого поступательного перемещения схематически проиллюстрирован на фиг. 2.

На этапе S550 модифицированное положение объекта, полученное на этапе S540, дополнительно модифицируют на основании информации об ориентации слушателя. Например, это могут осуществить посредством применения поворотного преобразования к модифицированному положению объекта в соответствии с информацией об ориентации слушателя. Этот поворот может представлять собой, например, поворот относительно головы слушателя или номинального положения прослушивания. Поворотное преобразование может быть выполнено посредством алгоритма смещения сцены.

Как отмечено выше, компенсацию отклонения пользователя (т.е. модификацию положения объекта на основании информации о смещении слушателя) принимают во внимание при применении поворотного преобразования. Например, применение поворотного преобразования может включать:

• вычисление матрицы поворотного преобразования (на основании ориентации пользователя, например информации об ориентации слушателя);

• конвертирование положения объекта из сферических в декартовы координаты;

• применение поворотного преобразования к звуковым объектам, компенсирующим отклонение положения пользователя (т.е. к модифицированному положению объекта); и

• конвертирование положения объекта после поворотного преобразования обратно из декартовых в сферические координаты.

На следующем этапе S560 (не показан на фиг. 5) способ 500 может включать рендеринг звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта. С этой целью дополнительно модифицированное положение объекта могут отрегулировать для формата ввода, используемого модулем рендеринга MPEG-H 3D Audio (например, модулем 320 рендеринга звукового объекта, описанным выше). Вышеупомянутые один или более (реальных или виртуальных) динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, композиции динамиков 5.1, композиции динамиков 7.1 и т.д.). В некоторых вариантах осуществления рендеринг звукового объекта могут выполнять, например, для левого и правого динамиков гарнитуры.

Цель этапов S540 и S550, описанных выше, заключается в следующем. А именно, модификацию положения объекта и дополнительную модификацию модифицированного положения объекта выполняют таким образом, что звуковой объект после рендеринга на одном или более (реальных или виртуальных) динамиках в соответствии с дополнительно модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания. Это фиксированное положение звукового объекта должно психоакустически восприниматься независимо от смещения головы слушателя из номинального положения прослушивания и независимо от ориентации головы слушателя относительно номинальной ориентации. Иными словами, звуковой объект могут воспринимать как перемещающийся (поступательно) относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как перемещающийся (поворачивающийся) относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Таким образом, слушатель может воспринимать близкий звуковой объект под разными углами и с разных расстояний посредством движения его головы.

Модификацию положения объекта и дополнительную модификацию модифицированного положения объекта на этапах S540 и S550 соответственно могут выполнить в контексте (поворотного/поступательного) смещения звуковой сцены, например, посредством блока 310 смещения звуковой сцены, описанного выше.

Следует отметить, что конкретные этапы могут быть пропущены в зависимости от данного определенного случая использования. Например, если данные 301 локации прослушивания содержат только информацию о смещении слушателя (но не содержат информацию об ориентации слушателя, или только информацию об ориентации слушателя, указывающую, что отсутствует отклонение ориентации головы слушателя от номинальной ориентации), этап S550 могут пропустить. Затем, рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением объекта, определенным на этапе S540. Подобным образом, если данные 301 локации прослушивания содержат только информацию об ориентации слушателя (но не содержат информацию о смещении слушателя, или только информацию о смещении слушателя, указывающую, что отсутствует отклонение положения головы слушателя от номинального положения прослушивания), этап S540 могут пропустить. Затем, этап S550 будет относиться к модификации положения объекта, определенного на этапе S530, на основании информации об ориентации слушателя. Рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением, определенным на этапе S550.

В целом, в настоящем изобретении предложено обновление положения для положений объектов, полученных как часть звукового содержимого на основе объектов (например, информации 302 о положении вместе со звуковыми данными 322), на основании данных 301 локации прослушивания для слушателя.

Во-первых, определяют положение объекта (или положение канала) p = (az,el,r). Это могут выполнять в контексте (например, как часть) этапа 530 способа 500.

Для сигналов на основе каналов радиус r могут определять следующим образом:

- если предполагаемый громкоговоритель (канала для входного сигнала на основе канала) существует в компоновке громкоговорителей воспроизведения и расстояние до компоновки воспроизведения известно, радиус r установлен на расстояние до громкоговорителя (например, в см);

- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения, но расстояние до громкоговорителей воспроизведения (например, от номинального положения прослушивания) известно, радиус r установлен на максимальное расстояние до громкоговорителя воспроизведения;

- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения и расстояние до громкоговорителя воспроизведения не известно, радиус r установлен на значение по умолчанию (например, 1023 см).

Для сигналов на основе объектов радиус r определяют следующим образом:

- если расстояние до объекта известно (например, от производственных средств и из производственных форматов и передано в prodMetadataConfig()), радиус r устанавливают на известное расстояние до объекта (например, переданное через goa_bsObjectDistance[] (в см) согласно таблице AMD5.7 стандарта MPEG-H 3D Audio);

Таблица AMD5.7 - синтаксис goa_Production_Metadata ()

- если расстояние до объекта известно из информации о положении (например, из метаданных объекта и передано в object_metadata()), радиус r установлен на расстояние до объекта, переданное в информации о положении (например, на радиус[] (в см), переданный с метаданными объектов). Радиус r может быть передан в соответствии с разделами: «масштабирование метаданных объекта» и «ограничение метаданных объекта», представленными ниже.

Масштабирование метаданных объекта

В качестве необязательного этапа в контексте определения положения объекта положение объекта p = (az,el,r), определенное из информации о положении, может быть масштабировано. Это может включать применение коэффициента масштабирования для отмены масштабирования кодера входных данных для каждого компонента. Это может быть выполнено для каждого объекта. Фактическое масштабирование положения объекта может быть реализовано наряду с псевдокодом, представленным ниже:

Ограничение метаданных объекта

В качестве необязательного этапа в контексте определения положения объекта (возможно масштабированное) положение объекта p = (az,el,r), определенное из информации о положении, может быть ограничено. Это может включать применение ограничения декодированных значений для каждого компонента для удержания значений в допустимом диапазоне. Это может быть выполнено для каждого объекта. Фактическое ограничение положения объекта может быть реализовано в соответствии с функциональными возможностями псевдокода, представленного ниже:

После этого, определенное (и необязательно масштабированное и/или ограниченное) положение объекта p = (az,el,r) может быть конвертировано в заданную систему координат, такую как, например, система координат в соответствии с «обычным соглашением», при котором азимут 0° находится на правом ухе (положительные значения идут против часовой стрелки) и угол подъема 0° находится вверху головы (положительные значения идут по направлению вниз). Таким образом, положение объекта p может быть конвертировано в положение p' согласно «обычному» соглашению. Это обеспечивает положение объекта p' с

p' = (az',el',r)

az' = az + 90°

el' = 90° - el

с неизменным радиусом r.

В то же время смещение головы слушателя, указанное посредством информации о смещении слушателя (azoffset, eloffset, roffset), может быть конвертировано в заданную систему координат. С использованием «обычного соглашения» это составляет

az'offset = azoffset + 90°

el'offset = 90° - eloffset

с неизменным радиусом roffset.

Следует отметить, что конвертирование в заданную систему координат как для положения объекта, так и для смещения головы слушателя может быть выполнено в контексте этапа S530 или этапа S540.

Обновление фактического положения может быть выполнено в контексте (например, в качестве части) этапа S540 способа 500. Обновление положения может включать следующие этапы.

В качестве первого этапа положение p или, если был выполнен перенос в заданную систему координат, положение p', переносят в декартовы координаты (x, y, z). Далее без предполагаемого ограничения процесс будет описан для положения p' в заданной системе координат. Также без предполагаемого ограничения следующую ориентацию/направление осей координат можно предполагать следующим образом: ось x указывает вправо (показана от головы слушателя в номинальной ориентации), ось y указывает направление прямо вперед и ось z указывает прямо вверх. В то же время, смещение головы слушателя, указанное посредством информации о смещении слушателя (az'offset, el'offset, roffset), конвертировано в декартовы координаты.

В качестве второго этапа положение объекта в декартовых координатах сдвигают (поступательно перемещают) в соответствии со смещением головы слушателя (смещением сцены) таким образом, как описано выше. Это могут выполнять посредством

x = r ⋅ sin(el') ⋅ cos(az') + roffse ⋅ sin(el'offset) ⋅ cos(az'offset)

y = r ⋅ sin(el') ⋅ sin(az') + roffset sin(el'offset) ⋅ sin(az'offset)

z = r ⋅ cos(el') + roffset ⋅ cos(el'offset)

Вышеуказанное поступательное перемещение представляет собой пример модификации положения объекта на основании информации о смещении слушателя на этапе S540 способа 500.

Сдвинутое положение объекта в декартовых координатах конвертируют в сферические координаты и могут называть p''. Сдвинутое положение объекта могут выражать в заданной системе координат в соответствии с обычным соглашением как p'' = (az'',el'',r').

Когда присутствуют смещения головы слушателя, которые обеспечивают небольшое изменение параметра радиуса (т.е. r' ≈ r), модифицированное положение p'' объекта может быть повторно определено как p'' = (az'',el'',r).

В другом примере, когда присутствуют большие смещения головы слушателя, которые могут обеспечить значительное изменение параметра радиуса (т.е. r '>> r), модифицированное положение p'' объекта также может быть определено как p'' = (az'',el'',r') вместо p'' = (az'',el'',r) с модифицированным параметром радиуса r'.

Соответствующее значение модифицированного параметра радиуса r' могут получить из расстояния смещения головы слушателя (т.е. roffset=||P0-P1||) и начального параметра радиуса (т.е. r=||P0-A||), (см., например, фиг. 1 и 2). Например, модифицированный параметр радиуса r' могут определить на основании следующего тригонометрического отношения:

Отображение этого модифицированного параметра радиуса r' на коэффициенты усиления объекта/канала и их применения для последующего рендеринга звука может значительно улучшить эффекты восприятия изменения уровня вследствие движений пользователя. За счет обеспечения такой модификации параметра радиуса r' обеспечивается «адаптивная зона наилучшего восприятия». Это будет означать, что система рендеринга MPEG динамически регулирует положение зоны наилучшего восприятия согласно текущей локации слушателя. В общем, рендеринг звукового объекта в соответствии с модифицированным (или дополнительно модифицированным) положением объекта может быть основан на модифицированном параметре радиуса r'. В частности, коэффициенты усиления объекта/канала для рендеринга звукового объекта могут быть основаны на (например, модифицированы на основании) модифицированном параметре радиуса r'.

В другом примере во время установки и рендеринга громкоговорителя воспроизведения (например, на этапе S560, представленном выше), смещение сцены может быть отключено. Однако доступно необязательное включение смещения сцены. Это обеспечивает создание модулем рендеринга 3DoF+ динамически регулируемой зоны наилучшего восприятия в соответствии с текущей локацией и ориентацией слушателя.

Следует отметить, что этап конвертирования положения объекта и смещения головы слушателя в декартовы координаты является необязательным, и поступательное перемещение / сдвиг (модификацию) в соответствии со смещением головы слушателя (смещением сцены) могут выполнять в любой подходящей системе координат. Иными словами, выбор декартовых координат в вышепредставленном описании следует понимать, как неограничивающий пример.

В некоторых вариантах осуществления обработка смещения сцены (включая модификацию положения объекта и/или дополнительную модификацию модифицированного положения объекта) может быть включена или выключена посредством флага (поле, элемент, установочный бит) в битовом потоке (например, элемент useTrackingMode). Подпункты «17.3 Interface for local loudspeaker setup and rendering» и «17.4 Interface for binaural room impulse responses (BRIRs)» в ISO/IEC 23008-3 содержат описания элемента useTrackingMode, активирующего обработку смещения сцены. В контексте настоящего изобретения элемент useTrackingMode должен определять (подпункт 17.3), должна или не должна происходить обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(). Альтернативно или дополнительно (подпункт 17.4) поле useTrackingMode должно определять, соединено ли отслеживающее устройство и должен ли быть обработан бинауральный рендеринг в особом режиме отслеживания положения головы пользователя, что обозначает, что обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(), должна быть осуществлена.

Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или на микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение или как интегральные схемы специального назначения. Сигналы, которые встречаются в описанных способах и системах, можно хранить на носителях, таких как оперативное запоминающее устройство или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или формирования звуковых сигналов.

Хотя в настоящем документе выполняют ссылки на MPEG и, в частности, MPEG-H 3D Audio, настоящее изобретение не должно быть истолковано как ограниченное этими стандартами. Напротив, как станет понятно специалистам в данной области техники, настоящее изобретение может найти преимущественное применение также в других стандартах кодирования звука.

Кроме того, хотя в настоящем документе часто выполняют ссылки на небольшие смещения положения головы слушателя (например, из номинального положения прослушивания), настоящее изобретение не ограничено небольшими смещениями положения и может в целом применяться для произвольного смещения положения головы слушателя.

Следует отметить, что описание и графические материалы иллюстрируют только принципы предложенных способов, систем и аппаратов. Специалисты в данной области техники будут способны реализовать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Более того, все примеры и вариант осуществления, изложенные в настоящем документе, в первую очередь явным образом предназначены для пояснительных целей, чтобы помочь читателю в понимании принципов предложенного способа. Кроме того, все утверждения в настоящем документе, представляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.

В дополнение к вышепредставленному, различные примерные реализации и примерные варианты осуществления настоящего изобретения станут понятны из пронумерованных примеров вариантов осуществления (ППВО), перечисленных ниже, которые не являются пунктами формулы изобретения.

Первый ППВО относится к способу декодирования кодированного битового потока звукового сигнала, причем указанный способ включает: прием аппаратом 300 декодирования звука кодированного битового потока (302, 322) звукового сигнала, при этом кодированный битовой поток звукового сигнала содержит кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта; декодирование аппаратом (300) декодирования звука кодированного битового потока (302, 322) звукового сигнала для получения представления нескольких звуковых источников; прием аппаратом (300) декодирования звука данных (301) локации прослушивания; генерирование аппаратом (300) декодирования звука данных (321) положений звукового объекта, причем в данных (321) положений звукового объекта описано несколько источников звука относительно локации прослушивания на основании данных (301) локации прослушивания.

Второй ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания основаны на первом наборе первых данных положения поступательного перемещения и втором наборе вторых данных положения и ориентации поступательного перемещения.

Третий ППВО относится к способу согласно второму ППВО, при этом либо первые данные положения поступательного перемещения, либо вторые данные положения поступательного перемещения основаны на по меньшей мере одном из набора сферических координат или набора декартовых координат.

Четвертый ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания получены посредством входного интерфейса декодера MPEG-H 3D Audio.

Пятый ППВО относится к способу согласно первому ППВО, при этом кодированный битовый поток звукового сигнала содержит элементы синтаксиса битового потока MPEG-H 3D Audio, и причем элементы синтаксиса битового потока MPEG-H 3D Audio содержат кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта.

Шестой ППВО относится к способу согласно первому ППВО, который дополнительно включает рендеринг аппаратом (300) декодирования звука на нескольких громкоговорителях нескольких звуковых источников, при этом процесс рендеринга совместим с по меньшей мере стандартом MPEG-H 3D Audio.

Седьмой ППВО относится к способу согласно первому ППВО, который дополнительно включает конвертирование аппаратом (300) декодирования звука на основании трансляции данных (301) локации прослушивания положения p, соответствующего по меньшей мере одному звуковому сигналу (302) объекта, во второе положение p'', соответствующее положениям (321) звукового объекта.

Восьмой ППВО относится к способу согласно седьмому ППВО, при этом положение p’ для положений звукового объекта в заданной системе координат (например, в соответствии с обычным соглашением) определяют на основании:

p’=(az’,el’,r)

az' = az + 90°

el' = 90° - el

az'offset = azoffset + 90°

el'offset = 90° - eloffset

причем az соответствует первому параметру азимута, el соответствует первому параметру угла подъема и r соответствует первому параметру радиуса, в настоящем документе az' соответствует второму параметру азимута, el' соответствует второму параметру угла подъема и r' соответствует второму параметру радиуса, причем azoffset соответствует третьему параметру азимута, eloffset соответствует третьему параметру угла подъема, и при этом az'offset соответствует четвертому параметру азимута, el'offset соответствует четвертому параметру угла подъема.

Девятый ППВО относится к способу согласно восьмому ППВО, причем сдвинутое положение p'' (321) звукового объекта для положения (302) звукового объекта определено в декартовых координатах (x, y, z) на основании:

x = r ⋅ sin(el') ⋅ cos(az') + xoffset

y = r ⋅ sin(el') ⋅ sin(az') + yoffset

z = r ⋅ cos(el') + zoffset

причем положение в декартовых координатах (x, y, z) содержит параметры x, y и z, и при этом xoffset относится к первому параметру отклонения оси x, yoffset относится к первому параметру отклонения оси y и zoffset относится к первому параметру отклонения оси z.

Десятый ППВО относится к способу согласно девятому ППВО, где параметры xoffset, yoffset и zoffset основаны на

xoffset = roffset sin(el'offset) ⋅ cos(az'offset)

yoffset = roffset ⋅ sin(el'offset) ⋅ sin(az'offset)

zoffset = roffset cos(el'offset)

Одиннадцатый ППВО относится к способу согласно седьмому ППВО, при этом параметр azoffset азимута относится к положению азимута смещения сцены и основан на:

azoffset = (sd_azimuth - 128) ⋅ 1,5

azoffset = min(max(azoffset, -180), 180)

причем sd_azimuth представляет собой параметр, указывающий смещение азимута сцены MPEG-H 3DA, при этом параметр угла подъема eloffset относится к положению угла подъема смещения сцены и основан на:

eloffset = (sd_elevation - 32) ⋅ 3

eloffset = min(max(eloffset, -90), 90)

причем sd_elevation представляет собой параметр метаданных угла подъема, указывающий смещение угла подъема сцены MPEG-H 3DA, причем параметр радиуса roffset относится к радиусу смещения сцены и основан на:

roffset = (sd_radius + 1) / 16

при этом sd_radius представляет собой параметр метаданных радиуса, указывающий смещение радиуса сцены MPEG-H 3DA, и причем параметры X и Y представляют собой скалярные переменные.

Двенадцатый ППВО относится к способу согласно десятому ППВО, при этом параметр xoffset относится к положению sd_x отклонения смещения сцены в направлении оси x; параметр yoffset относится к положению sd_y отклонения смещения сцены в направлении оси y; и параметр zoffset относится к положению sd_z отклонения смещения сцены в направлении оси z.

Тринадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает интерполяцию аппаратом декодирования звука первых данных положения, относящихся к данным (301) локации прослушивания и звуковому сигналу (102) объекта, со скоростью обновления.

Четырнадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает определение аппаратом 300 декодирования звука эффективного энтропийного кодирования данных (301) локации прослушивания.

Пятнадцатый ППВО относится к способу согласно первому ППВО, при этом данные положения, относящиеся к локации (301) прослушивания, получают на основании информации от датчиков.

Похожие патенты RU2826074C2

название год авторы номер документа
СПОСОБЫ, АППАРАТЫ И СИСТЕМЫ ДЛЯ РАСШИРЕНИЯ ТРЕХ СТЕПЕНЕЙ СВОБОДЫ (3DOF+) MPEG-H 3D AUDIO 2019
  • Ферш, Кристоф
  • Терентив, Леон
  • Фишер, Дэниел
RU2803062C2
СПОСОБЫ, УСТРОЙСТВА И СИСТЕМЫ ДЛЯ ПОДВЕРГНУТОГО ПРЕДВАРИТЕЛЬНОМУ РЕНДЕРИНГУ СИГНАЛА ДЛЯ РЕНДЕРИНГА ЗВУКА 2019
  • Терентив, Леон
  • Ферш, Кристоф
  • Фишер, Дэниел
RU2787581C2
СПОСОБ И УСТРОЙСТВО ОБРАБОТКИ ВСПОМОГАТЕЛЬНЫХ ПОТОКОВ МЕДИАДАННЫХ, ВСТРОЕННЫХ В ПОТОК MPEG-H 3D AUDIO 2019
  • Шрайнер, Штефан
  • Ферш, Кристоф
RU2780733C2
СПОСОБ И УСТРОЙСТВО ОБРАБОТКИ ВСПОМОГАТЕЛЬНЫХ ПОТОКОВ МЕДИАДАННЫХ, ВСТРОЕННЫХ В ПОТОК MPEG-H 3D AUDIO 2019
  • Шрайнер, Штефан
  • Ферш, Кристоф
RU2762400C1
ПРИНЦИП ФОРМИРОВАНИЯ УЛУЧШЕННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ ИЛИ МОДИФИЦИРОВАННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ С ИСПОЛЬЗОВАНИЕМ DIRAC-ТЕХНОЛОГИИ С РАСШИРЕНИЕМ ГЛУБИНЫ ИЛИ ДРУГИХ ТЕХНОЛОГИЙ 2018
  • Херре, Юрген
  • Хабетс, Эмануэль
  • Плинге, Аксель
  • Тиргарт, Оливер
  • Кюх, Фабиан
RU2736274C1
СПОСОБЫ, УСТРОЙСТВО И СИСТЕМЫ ФОРМИРОВАНИЯ ЗВУКА 6DOF, И ПРЕДСТАВЛЕНИЕ ДАННЫХ, И СТРУКТУРЫ БИТОВЫХ ПОТОКОВ ДЛЯ ФОРМИРОВАНИЯ ЗВУКА 6DOF 2019
  • Терентив, Леон
  • Ферш, Кристоф
  • Фишер, Дэниел
RU2782344C2
ОБРАБОТКА МОНОФОНИЧЕСКОГО СИГНАЛА В ДЕКОДЕРЕ 3D-АУДИО, ПРЕДОСТАВЛЯЮЩАЯ БИНАУРАЛЬНЫЙ ИНФОРМАЦИОННЫЙ МАТЕРИАЛ 2018
  • Паллон, Грегори
RU2779295C2
ПРИНЦИП ФОРМИРОВАНИЯ УЛУЧШЕННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ ИЛИ МОДИФИЦИРОВАННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ С ИСПОЛЬЗОВАНИЕМ МНОГОСЛОЙНОГО ОПИСАНИЯ 2018
  • Херре, Юрген
  • Хабетс, Эмануэль
RU2740703C1
УСТРОЙСТВО И СПОСОБ ДЛЯ ОСУЩЕСТВЛЕНИЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ SAOC ОБЪЕМНОГО (3D) АУДИОКОНТЕНТА 2014
  • Диш Саша
  • Фукс Харальд
  • Хелльмут Оливер
  • Херре Юрген
  • Муртаза Адриан
  • Риддербуш Фалько
  • Терентив Леон
  • Паулус Йоуни
RU2666239C2
ПРИНЦИП ФОРМИРОВАНИЯ УЛУЧШЕННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ ИЛИ МОДИФИЦИРОВАННОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ С ИСПОЛЬЗОВАНИЕМ МНОГОТОЧЕЧНОГО ОПИСАНИЯ ЗВУКОВОГО ПОЛЯ 2018
  • Херре, Юрген
  • Хабетс, Эмануэль
RU2736418C1

Иллюстрации к изобретению RU 2 826 074 C2

Реферат патента 2024 года Способ, энергонезависимый машиночитаемый носитель и декодер MPEG-H 3D Audio для расширения трех степеней свободы MPEG-H 3D Audio

Изобретение относится к средствам для обработки информации о положении звукового объекта. Технический результат заключается в повышении эффективности обработки информации о положении звукового объекта. Получают информацию об ориентации головы слушателя. Получают информацию о смещении головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio. Информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания. Модифицируют положение объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта. Дополнительно модифицируют модифицированное положение объекта на основании информации об ориентации слушателя. Когда информация о смещении слушателя указывает на небольшое смещение головы слушателя, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания. 3 н. и 6 з.п. ф-лы, 5 ил., 2 табл.

Формула изобретения RU 2 826 074 C2

1. Способ обработки информации о положении, указывающей положение объекта для звукового объекта, причем обработку осуществляют с использованием декодера MPEG-H 3D Audio, причем положение объекта используемо для рендеринга звукового объекта, при этом способ включает:

прием битового потока, содержащего кодированный звук;

декодирование из битового потока звукового объекта и информации о положении для звукового объекта;

получение информации об ориентации слушателя, указывающей ориентацию головы слушателя;

получение информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;

определение положения объекта из информации о положении, причем

информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания;

модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; и

дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, причем

когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.

2. Способ по п. 1, отличающийся тем, что:

модификацию положения объекта и дополнительную модификацию модифицированного положения объекта выполняют таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации.

3. Способ по п. 1, отличающийся тем, что:

модификацию положения объекта на основании информации о смещении слушателя выполняют посредством поступательного перемещения положения объекта, равного смещению головы слушателя из номинального положения прослушивания, но в противоположном направлении.

4. Способ по п. 1, отличающийся тем, что:

информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания, которое достигаемо посредством движения по меньшей мере одного из верхней части тела и головы пользователя.

5. Способ по п. 1, отличающийся тем, что дополнительно включает:

обнаружение ориентации головы слушателя посредством носимого или стационарного оборудования.

6. Способ по п. 1, отличающийся тем, что дополнительно включает:

обнаружение смещения головы слушателя из номинального положения прослушивания посредством носимого и/или стационарного оборудования.

7. Способ по п. 1, отличающийся тем, что расстояние между модифицированным положением звукового объекта и положением прослушивания после смещения преобразуется в усиление для модификации уровня звукового сигнала.

8. Энергонезависимый машиночитаемый носитель, содержащий команды, которые при исполнении программного обеспечения процессором цифровой обработки сигналов или микропроцессором вызывают выполнение процессором цифровой обработки сигналов или микропроцессором способа обработки информации о положении, включающего:

прием битового потока, содержащего кодированный звук;

декодирование из битового потока звукового объекта и информации о положении для звукового объекта;

получение информации об ориентации слушателя, указывающей ориентацию головы слушателя;

получение информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;

определение положения объекта из информации о положении, причем

информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания;

модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; и

дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, причем

когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.

9. Декодер MPEG-H 3D Audio для обработки информации о положении, указывающей положение объекта для звукового объекта, причем положение объекта используемо для рендеринга звукового объекта, при этом декодер содержит процессор и запоминающее устройство, соединенное с процессором, причем процессор адаптирован для:

приема битового потока, содержащего кодированный звук;

декодирования из битового потока звукового объекта и информации о положении для звукового объекта;

получения информации об ориентации слушателя, указывающей ориентацию головы слушателя;

получения информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;

определения положения объекта из информации о положении, причем

информация о положении содержит указание расстояния от звукового объекта до номинального положения прослушивания;

модификации положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; и

дополнительной модификации модифицированного положения объекта на основании информации об ориентации слушателя, причем

когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение, составляющее 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя является равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.

Документы, цитированные в отчете о поиске Патент 2024 года RU2826074C2

Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
US 9807534 B2, 31.10.2017
РЕНДЕРИНГ ОТРАЖЕННОГО ЗВУКА ДЛЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ АУДИОИНФОРМАЦИИ 2013
  • Крокетт Бретт Г.
  • Хукс Спенсер
  • Сифельдт Алан
  • Ландо Джошуа Б.
  • Браун С. Филлип
  • Мехта Срипал С.
  • Марри Стюарт
RU2602346C2

RU 2 826 074 C2

Авторы

Ферш, Кристоф

Терентив, Леон

Фишер, Дэниел

Даты

2024-09-03Публикация

2019-04-09Подача