Данное изобретение относится к обработке звуковых сигналов, в частности, к устройству и способу для повторного отображения звуковых объектов и, в частности, к устройству и способу для повторного отображения относящихся к экрану звуковых объектов.
В повседневной жизни при все возрастающем потреблении мультимедийного контента непрерывно увеличивается спрос на сложные мультимедийные решения. В этой связи важную роль играет объединение визуального и звукового контента. Желательной была бы оптимальная адаптация визуального и звукового мультимедийного контента под имеющееся устройство визуального и звукового воспроизведения.
На существующем уровне техники известны звуковые объекты. Звуковые объекты могут, например, рассматриваться как звуковые дорожки с соответствующими метаданными. Метаданные могут, например, описывать характеристики необработанных звуковых данных, например, желательное положение воспроизведения или уровень громкости. Преимущество объектно-ориентированного звука состоит в том, что предварительно заданное движение может воспроизводиться с помощью специального процесса рендеринга на стороне воспроизведения наилучшим образом для любых схем расположения громкоговорителей.
Для установления того, где должен воспроизводиться звуковой объект, могут использоваться геометрические метаданные, например, углы азимута или возвышения, либо абсолютные положения относительно базисной точки, например, слушателя. Метаданные хранятся или передаются вместе со звуковыми сигналами объекта.
В области MPEG-H на 105-й конференции по MPEG группа по акустике проанализировала требования и графики по различным стандартам на применение (MPEG=Экспертная Группа по Вопросам Движущегося Изображения). В соответствии с этим анализом, было бы весьма важно выполнить некоторые сроки и конкретные требования к вещательной системе следующего поколения. В соответствии с этим, система должна обладать способностью приема звуковых объектов на входе кодера. Кроме того, система должна поддерживать сигнализацию, передачу и рендеринг звуковых объектов и должна позволять пользователям управлять объектами, например, для улучшения диалога, альтернативного языкового сопровождения и языка описания звука.
На существующем уровне техники предлагаются различные концепции. В соответствии с первым прототипом, представленным в документе «Способ и устройство для воспроизведения звукового сигнала амбиофонии высшего порядка» (см. [1]), воспроизведение ориентированного по пространственному звуковому полю звука для связанных с ним видимых объектов адаптируется путем применения пространственной обработки с искажением. В указанном прототипе декодер искажает звуковое поле таким образом, что все звуковые объекты в направлении экрана сжимаются или растягиваются в соответствии с отношением размеров мишени и базисных экранов. Создается возможность кодирования и передачи базисного размера (или угла наблюдения из базисного положения слушания) экрана, используемого при формировании контента, в качестве метаданных вместе с контентом. В качестве альтернативы, при кодировании и для декодирования предполагается фиксированный размер базисного экрана, при этом декодер знает фактический размер экрана мишени. В данном прототипе декодер искажает звуковое поле таким образом, что все звуковые объекты в направлении экрана сжимаются или растягиваются в соответствии с соотношением размера экрана мишени и размера базисного экрана. Используются так называемые «двухсегментные кусочные линейные» функции искажений. Растягивание ограничивается угловыми положениями звуковых элементов. В указанном прототипе для центрированных экранов задание функции искажений подобно заданию функции отображения для относящегося к экрану повторного отображения. Первый и третий сегменты трехсегментной кусочной линейной функции отображения могут задаваться в виде двухсегментной кусочной линейной функции. Однако при использовании указанного прототипа применение ограничивается сигналами НОА (НОА=амбиофония высшего порядка) (ориентированными по звуковому полю) в пространственной области. Кроме того, функция искажений зависит лишь от соотношения базисного экрана и экрана воспроизведения, при этом задание нецентрированных экранов не предусматривается.
Еще в одном прототипе «Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition» (см. [2]) описывается способ адаптации положения источника звука к воспроизведению видеоинформации. Положение воспроизведения источника звука определяется индивидуально для каждого звукового объекта в зависимости от направления и расстояния до базисной точки и от параметров камеры. В указанном прототипе также описывается экран, базисный размер которого предполагается фиксированным. Для адаптации сцены к экрану воспроизведения, который больше или меньше базисного экрана, проводится линейное масштабирование всех параметров положения (в декартовых координатах). Однако в соответствии с указанным прототипом введение физической камеры и параметров проецирования является сложным, и такие параметры не всегда доступны. Кроме того, способ указанного прототипа работает в декартовых координатах (x, y, z), поэтому с масштабированием сцены изменяется не только положение, но и расстояние до объекта. Кроме того, данный прототип не применим для адаптации положения объекта в отношении изменений относительного размера экрана (апертурного угла, угла наблюдения) в угловых координатах.
Еще в одном прототипе «Verfahren zur Audiocodierung» (см. [3]) описывается способ, который включает в себя передачу текущего (изменяющегося во времени) горизонтального и вертикального угла наблюдения в потоке данных (базисного угла наблюдения относительно положения слушателя в исходной сцене). На стороне воспроизведения анализируются размер и положение воспроизведения, и воспроизведение звуковых объектов индивидуально оптимизируется для согласования с базисным экраном.
Еще в одном прототипе «Акустическое масштабирование на основе параметрического представления звукового поля» (см. [4]) описывается способ, который предусматривает звуковой рендеринг, сопровождающий перемещение визуальной сцены («Акустическое масштабирование»). Процесс акустического масштабирования определяется как смещение виртуального положения записи. В модели сцены для алгоритма масштабирования все источники звука помещаются на круг с произвольным, но фиксированным радиусом. Однако способ указанного прототипа работает в области параметров Дирака, расстояние и углы (направление прихода) изменяются, функция отображения является нелинейной и зависит от коэффициента/параметра масштабирования, а нецентрированные экраны не поддерживаются.
Целью настоящего изобретения является создание усовершенствованных концепций объединения звукового и визуального мультимедийного контента с использованием устройств воспроизведения мультимедийной информации. Цель настоящего изобретения достигается с помощью устройства по п. 1, с помощью декодера по п. 13, с помощью способа по п. 14 и с помощью компьютерной программы по п. 15.
Предлагается устройство для повторного отображения звукового объекта. Устройство содержит процессор метаданных объекта и средство рендеринга объекта. Средство рендеринга объекта выполнено с возможностью приема звукового объекта. Процессор метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта. Кроме того, процессор метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану. Средство рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении. Процессор метаданных объекта выполнен с возможностью подачи первого положения звукового объекта в качестве информации о положении на средство рендеринга объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану. Кроме того, процессор метаданных объекта выполнен с возможностью подачи второго положения звукового объекта в качестве информации о положении на средство рендеринга объекта, если звуковой объект указан в метаданных как являющийся относящимся к экрану.
В соответствии с одним из вариантов осуществления, процессор метаданных объекта может, например, быть выполнен с возможностью не вычислять второе положение звукового объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану.
В одном из вариантов осуществления средство рендеринга объекта может, например, быть выполнено с возможностью не определять то, является ли информация о положении первым положением звукового объекта или вторым положением звукового объекта.
В соответствии с одним из вариантов осуществления, средство рендеринга объекта может, например, быть выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от числа громкоговорителей среды воспроизведения.
В одном из вариантов осуществления средство рендеринга объекта может, например, быть выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от положения каждого из громкоговорителей среды воспроизведения.
В соответствии с одним из вариантов осуществления, процессор метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану, причем, первое положение означает первое положение в трехмерном пространстве и, причем, второе положение означает второе положение в трехмерном пространстве.
В одном из вариантов осуществления процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану, причем, первое положение означает первый азимут, первое возвышение и первое расстояние, и, причем, второе положение означает второй азимут, второе возвышение и второе расстояние.
В соответствии с одним из вариантов осуществления, процессор метаданных объекта может, например, быть выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания, и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем, упомянутое второе указание указывает на то, является ли звуковой объект показываемым на экране объектом. Процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает первое значение на области экрана, если второе указание указывает, что звуковой объект является показываемым на экране объектом.
В одном из вариантов осуществления процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает второе значение, которое находится либо на области экрана, либо не на области экрана, если второе указание указывает, что звуковой объект не является показываемым на экране объектом.
В соответствии с одним из вариантов осуществления, процессор метаданных объекта может, например, быть выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания, и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем, упомянутое второе указание указывает на то, является ли звуковой объект показываемым на экране объектом. Процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от первой кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект является показываемым на экране объектом, причем, первая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта во втором интервале значений. Кроме того, процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от второй кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект не является показываемым на экране объектом, причем, вторая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта в третьем интервале значений, и, причем, упомянутый второй интервал значений входит в третий интервал значений, и, причем, упомянутый второй интервал значений меньше, чем упомянутый третий интервал значений.
В одном из вариантов осуществления каждый из первого интервала значений, второго интервала значений и третьего интервала значений может, например, представлять собой интервал значений углов азимута, либо каждый из первого интервала значений, второго интервала значений и третьего интервала значений может, например, представлять собой интервал значений углов возвышения.
В соответствии с одним из вариантов осуществления, процессор метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости, по меньшей мере, от одной из первой линейной функции отображения и второй линейной функции отображения, причем, первая линейная функция отображения задается для отображения первого значения возвышения на второе значение возвышения, причем, означает отсчет от левого края экрана по азимуту, причем, означает отсчет от правого края экрана по азимуту, причем, означает отсчет от верхнего края экрана по возвышению, причем, означает отсчет от нижнего края экрана по возвышению, причем, означает левый край экрана по азимуту, причем, означает правый край экрана по азимуту, причем, означает верхний край экрана по возвышению, причем, означает нижний край экрана по возвышению, причем, ϕ означает первое значение азимута, причем, ϕ' означает второе значение азимута, причем, θ означает первое значение возвышения, причем, θ' означает второе значение возвышения, причем, второе значение ϕ' азимута может, например, получаться в результате первого отображения первого значения ϕ азимута в соответствии с первой линейной функцией отображения в соответствии с
и, причем, второе значение θ' возвышения может, например, получаться в результате первого отображения первого значения θ возвышения в соответствии со второй линейной функцией отображения в соответствии с
Кроме того, предлагается декодер. Декодер содержит декодер USAC для декодирования битового потока с целью получения одного или более каналов ввода звука, с целью получения одного или более входных звуковых объектов, с целью получения сжатых метаданных объекта и с целью получения одного или более каналов передачи SAOC. Кроме того, декодер содержит декодер SAOC для декодирования указанных одного или более каналов передачи SAOC с целью получения первой группы одного или более подвергнутых рендерингу объектов. Кроме того, декодер содержит устройство в соответствии с вышеописанными вариантами осуществления. Данное устройство содержит декодер метаданных объекта, являющийся процессором метаданных объекта устройства в соответствии с вышеописанными вариантами осуществления и реализуемый для декодирования сжатых метаданных объекта с целью получения несжатых метаданных, при этом устройство дополнительно содержит средство рендеринга объекта устройства в соответствии с вышеописанными вариантами осуществления для рендеринга указанных одного или более входных звуковых объектов в зависимости от несжатых метаданных с целью получения второй группы одного или более подвергнутых рендерингу объектов. Кроме того, декодер содержит конвертер формата для конвертирования указанных одного или более каналов ввода звука с целью получения одного или более конвертированных каналов. Кроме того, декодер содержит микшер для микширования указанных одного или более звуковых объектов первой группы одного или более подвергнутых рендерингу объектов, указанных одного или более звуковых объектов второй группы одного или более подвергнутых рендерингу объектов и указанных одного или более конвертированных каналов с целью получения одного или более декодированных звуковых каналов.
Кроме того, предлагается способ генерирования сигналов громкоговорителя. Данный способ включает в себя:
- Прием звукового объекта.
- Прием метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта.
- Вычисление второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану.
- Генерирование сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении.
Информация о положении представляет собой первое положение звукового объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану. Информация о положении представляет собой второе положение звукового объекта, если звуковой объект указан в метаданных как являющийся относящимся к экрану.
Кроме того, предлагается компьютерная программа, причем, компьютерная программа выполнена с возможностью реализации вышеописанного способа при исполнении в компьютере или сигнальном процессоре.
Далее варианты осуществления настоящего изобретения описываются более подробно со ссылками на чертежи, на которых:
Фиг. 1 иллюстрирует устройство для повторного отображения звукового объекта в соответствии с одним из вариантов осуществления. Устройство содержит процессор 110 метаданных объекта и средство 120 рендеринга объекта.
Средство 120 рендеринга объекта выполнено с возможностью приема звукового объекта.
Процессор 110 метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта. Кроме того, процессор 110 метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану.
Средство 120 рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении.
Процессор 110 метаданных объекта выполнен с возможностью подачи первого положения звукового объекта в качестве информации о положении на средство 120 рендеринга объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану.
Кроме того, процессор 110 метаданных объекта выполнен с возможностью подачи второго положения звукового объекта в качестве информации о положении на средство 120 рендеринга объекта, если звуковой объект указан в метаданных как являющийся относящимся к экрану.
В соответствии с одним из вариантов осуществления, процессор 110 метаданных объекта может, например, быть выполнен с возможностью не вычислять второе положение звукового объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану.
В одном из вариантов осуществления средство 120 рендеринга объекта может, например, быть выполнено с возможностью не определять то, является ли информация о положении первым положением звукового объекта или вторым положением звукового объекта.
В соответствии с одним из вариантов осуществления, средство 120 рендеринга объекта может, например, быть выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от числа громкоговорителей среды воспроизведения.
В одном из вариантов осуществления средство 120 рендеринга объекта может, например, быть выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от положения каждого из громкоговорителей среды воспроизведения.
В соответствии с одним из вариантов осуществления, 110 процессор метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану, причем, первое положение означает первое положение в трехмерном пространстве и, причем, второе положение означает второе положение в трехмерном пространстве.
В одном из вариантов осуществления процессор 110 метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану, причем, первое положение означает первый азимут, первое возвышение и первое расстояние, и, причем, второе положение означает второй азимут, второе возвышение и второе расстояние.
В соответствии с одним из вариантов осуществления, процессор 110 метаданных объекта может, например, быть выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания, и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем, упомянутое второе указание указывает на то, является ли звуковой объект показываемым на экране объектом. Процессор 110 метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает первое значение на области экрана, если второе указание указывает, что звуковой объект является показываемым на экране объектом.
В одном из вариантов осуществления процессор 110 метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает второе значение, которое находится либо на области экрана, либо не на области экрана, если второе указание указывает, что звуковой объект не является показываемым на экране объектом.
В соответствии с одним из вариантов осуществления, процессор 110 метаданных объекта может, например, быть выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания, и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем, упомянутое второе указание указывает на то, является ли звуковой объект показываемым на экране объектом. Процессор 110 метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от первой кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект является показываемым на экране объектом, причем, первая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта во втором интервале значений. Кроме того, процессор 110 метаданных объекта может, например, быть выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от второй кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект не является показываемым на экране объектом, причем, вторая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта в третьем интервале значений, и, причем, упомянутый второй интервал значений входит в третий интервал значений, и, причем, упомянутый второй интервал значений меньше, чем упомянутый третий интервал значений.
В одном из вариантов осуществления каждый из первого интервала значений, второго интервала значений и третьего интервала значений может, например, представлять собой интервал значений углов азимута, либо каждый из первого интервала значений, второго интервала значений и третьего интервала значений может, например, представлять собой интервал значений углов возвышения.
Далее описываются конкретные варианты осуществления настоящего изобретения и факультативные признаки множества вариантов осуществления настоящего изобретения.
Могут существовать звуковые объекты (звуковые сигналы, связанные с положением в 3-мерном пространстве, например, заданным азимутом, возвышением и расстоянием), которые не предназначены для фиксированного положения, а положение которых должно изменяться с размером экрана в устройстве воспроизведения.
Если объект сигнализируется как относящийся к экрану (например, флагом в метаданных), его положение повторно отображается/заново вычисляется в отношении размера экрана в соответствии с конкретным правилом.
Фиг. 2 иллюстрирует средство рендеринга объекта в соответствии с одним из вариантов осуществления.
В качестве вступления отметим следующее:
В объектно-ориентированных форматах звука метаданные хранятся или передаются вместе с сигналами объекта. Звуковые объекты отображаются на стороне воспроизведения с помощью метаданных и информации о среде воспроизведения. Такая информация представляет собой, например, число громкоговорителей или размер экрана.
Таблица 1: Пример метаданных:
Возвышение
Коэффициент усиления
Расстояние
AllowPositionInteractivity
AllowGainInteractivity
DefaultOnOff
DefaultGain
InteractivityMinGain
InteractivityMaxGain
InteractivityMinAzOffset
InteractivityMaxAzOffset
InteractivityMinElOffset
InteractivityMaxElOffset
InteractivityMinDist
InteractivityMaxDist
SpeakerConfig3D
AzimuthScreenRelated
ElevationScreenRelated
ClosesSpeakerPlayout
ContentLanguage
GroupDescription
GroupNumMembers
GroupMembers
Priority
SwitchGroupDescription
SwitchGroupDefault
SwitchGroupNumMembers
SwitchGroupMembers
IsMainScene
NumGroupsPresent
NumSwitchGroups
Для объектов геометрические метаданные могут использоваться для задания того, как они должны подвергаться рендерингу, например, углы по азимуту или возвышению, либо абсолютные положения относительно базисной точки, например, слушателя. Средство рендеринга вычисляет сигналы громкоговорителя на основе геометрических данных и имеющихся громкоговорителей, а также их положения.
Варианты осуществления в соответствии с настоящим изобретением следуют из вышеописанного изложенным ниже образом.
С целью управления относящейся к экрану рендеринга дополнительное поле метаданных управляет тем, как интерпретировать геометрические метаданные:
Если поле установлено на «Выключено», геометрические метаданные интерпретируются средством рендеринга для вычисления сигналов громкоговорителя.
Если поле установлено на «Включено», геометрические метаданные отображаются из номинальных данных в другие значения. Повторное отображение осуществляется по геометрическим метаданным таким образом, что средство рендеринга, которое отслеживает процессор метаданных объекта, является независимым от предварительной обработки метаданных объекта и работает без изменений. Примеры таких полей метаданных приведены в нижеследующих таблицах.
Таблица 2: Пример метаданных для управления относящимся к экрану рендерингу и их назначение:
Кроме того, номинальный размер экрана или размер экрана, используемые во время создания звукового контента, могут отправляться в качестве информации о метаданных.
В нижеследующей таблице приведен пример того, как такие метаданные могут эффективно кодироваться.
Таблица 3 - Синтаксис ObjectMetadataConfig() в соответствии с одним из вариантов осуществления:
{
...
hasScreenRelatedObjects;
if( hasScreenRelatedObjects ){
для ( o=1; o<=num_objects; o++){
isScreenRelatedObject[o];
if( !isScreenRelatedObjects ){
isOnScreenObject[o];
}
}
}
}
1
1
bslbf
bslbf
В отношении isScreenRelativeObject необходимо отметить, что в соответствии с одним из вариантов осуществления существуют две возможности: повторное отображение положения, но оно, тем не менее, может принимать все значения (относящиеся к экрану), и повторное отображение таким образом, что оно может содержать только значения, которые находятся на области экрана (показываемые на экране).
Повторное отображение осуществляется в процессоре метаданных объекта, который учитывает локальный размер экрана и выполняет отображение геометрических метаданных.
Фиг. 3 иллюстрирует процессор метаданных объекта в соответствии с одним из вариантов осуществления.
В отношении модификации относящихся к экрану геометрических метаданных можно сказать следующее.
В зависимости от информации isScreenRelativeObject и isOnScreenObject имеются две возможности сигнализации относящихся к экрану звуковых элементов:
a) Относящиеся к экрану звуковые элементы
b) Показываемые на экране звуковые элементы
В обоих случаях данные о положении звуковых элементов повторно отображаются Процессором Метаданных Объекта. Применяется кривая, которая отображает исходные углы положения по азимуту и возвышению в повторно отображенные углы по азимуту и возвышению.
Базисным является номинальный размер экрана в метаданных или предполагаемый задаваемый по умолчанию размер экрана.
Например, может использоваться угол наблюдения, задаваемый в ITU-R REC-BT.2022 (Общие условия наблюдения для субъективной оценки качества телевизионных изображений SDTV и HDTV на плоскопанельных дисплеях).
Различие между двумя типами отношения к экрану состоит в задании кривой повторного отображения.
В случае а) Повторно отображаемый азимут может принимать значения между -180° и 180°, а повторно отображаемое возвышение может принимать значения между -90° и 90°. Кривая задается таким образом, что значения азимута между задаваемым по умолчанию азимутом левого края и задаваемым по умолчанию азимутом правого края отображаются (сжимаются или развертываются) в интервал между заданным левым краем экрана и заданным правым краем экрана (и соответственно этому для возвышения). Другие значения азимута и возвышения сжимаются или развертываются соответственно этому таким образом, что перекрывается полный диапазон значений.
Фиг. 4 иллюстрирует повторное отображение азимута в соответствии с вариантами осуществления.
В случае b) повторно отображаемые азимут и возвышение могут принимать только значения, которые описывают положения на области экрана (Азимут (левый край экрана) Азимут (Повторно отображаемый Азимут (правый край экрана) и Возвышение (нижний край экрана) Возвышение (повторно отображаемое) Возвышение (верхний край экрана)).
Имеются различные возможности рассмотрения значений вне этих диапазонов: они могут отображаться на края экрана таким образом, что все объекты между азимутом -180° и левым краем экрана заканчиваются на левом краю экрана, а все объекты между правым краем экрана и азимутом 180° заканчиваются на правом краю экрана. Еще одна возможность состоит в отображении значений задней полусферы на переднюю полусферу. При этом в левой полусфере положения между -180°+Азимут (левый край экрана) и Азимут (левый край экрана) отображаются на левый край экрана. Значения между -180° и -180°+Азимут (левый край экрана) и Азимут (левый край экрана) отображаются на значения между 0° и Азимут (левый край экрана). Правая полусфера и углы возвышения рассматриваются аналогичным образом.
Фиг. 5 иллюстрирует повторное отображение возвышения в соответствии с вариантами осуществления.
Точки -х1 и +х2 (которые могут быть различными или равными +х1) кривой, на которой изменяется градиент, либо задаются в качестве значений по умолчанию (по умолчанию предполагает стандартный размер экрана+положение), либо они могут присутствовать в метаданных (например, вводиться изготовителем, который может при этом вводить в них размер экрана при изготовлении).
Возможны также функции отображения, которые не состоят из прямых отрезков, а являются вместо этого криволинейными.
Дополнительные метаданные могут управлять способом повторного отображения, например, задавая смещения или нелинейные коэффициенты, учитываемые для характеристик панорамирования или разрешающей способности слушания.
Кроме того, может сигнализироваться, как выполняется отображение, например, путем «проецирования» на экран всех объектов, предназначенных для задней области.
Такие альтернативные способы отображения перечислены на следующих чертежах.
При этом фиг. 6 иллюстрирует повторное отображение азимута в соответствии с вариантами осуществления.
Фиг. 7 иллюстрирует повторное отображение возвышения в соответствии с вариантами осуществления.
В отношении неизвестной характеристики размера экрана:
если размер экрана воспроизведения не задан, то либо
- предполагается задаваемый по умолчанию размер экрана, либо
- отображение не применяется, даже если объект отмечен как относящийся к экрану или показываемый на экране.
В соответствии с фиг. 4, еще в одном варианте осуществления в случае b) повторно отображаемые азимут и возвышение могут принимать только значения, которые описывают положения на области экрана (Азимут (левый край экрана) ≤Азимут (Повторно отображаемый ≤Азимут (правый край экрана) и Возвышение (нижний край экрана) ≤Возвышение (повторно отображаемое) ≤Возвышение (верхний край экрана)). Имеются различные возможности рассмотрения значений вне этих диапазонов: в некоторых вариантах осуществления они могут либо отображаться на края экрана таким образом, что все объекты между азимутом +180° и левым краем экрана заканчиваются на левом краю экрана, а все объекты между правым краем экрана и азимутом -180° заканчиваются на правом краю экрана. Еще одна возможность состоит в отображении значений задней полусферы на переднюю полусферу.
При этом в левой полусфере положения между +180° - Азимут (левый край экрана) и Азимут (левый край экрана) отображаются на левый край экрана. Значения между +180° и +180°+Азимут (левый край экрана) отображаются на значения между 0° и Азимут (левый край экрана). Правая полусфера и углы возвышения рассматриваются аналогичным образом.
Фиг. 16 представляет собой чертеж, подобный фиг. 5. В вариантах осуществления, иллюстрируемых с помощью фиг. 16, на обеих диаграммах иллюстрируются интервал значений по оси абсцисс от -90° до +90° и интервал значений по оси ординат от -90° до +90°.
Фиг. 17 представляет собой чертеж, подобный фиг. 7. В вариантах осуществления, иллюстрируемых с помощью фиг. 17, на обеих диаграммах иллюстрируются интервал значений по оси абсцисс от -90° до +90° и интервал значений по оси ординат от -90° до +90°.
Далее со ссылкой на фиг. 8 - фиг. 15 описываются дополнительные варианты осуществления изобретения и факультативные признаки дополнительных вариантов осуществления.
В соответствии с некоторыми вариантами осуществления, отображение относящегося к экрану элемента может, например, обрабатываться только в том случае, если битовый поток содержит относящиеся к экрану элементы (флаг isScreenRelativeObject == 1, по меньшей мере, для одного звукового элемента), которые сопровождаются данными ОАМ (данные ОАМ=связанные метаданные объекта) и если локальный размер экрана сигнализируется в декодер через интерфейс LocalScreenSize().
Геометрические данные о положении (данные ОАМ до того, как произошла какая-либо модификация положения за счет взаимодействия с пользователем) могут, например, отображаться на другой диапазон значений путем задания и использования функции отображения. Повторное отображение может, например, изменять геометрические данные о положении в качестве этапа предварительной обработки перед рендерингом таким образом, что средство рендеринга является независимым от повторного отображения и работает без изменений.
Размер номинального базисного экрана (используемого в процессе микширования и контроля) и/или информация о локальном размере экрана в комнате воспроизведения могут, например, учитываться при повторном отображении.
Если размер номинального базисного экрана не задан, могут использоваться, например, задаваемые по умолчанию базисные значения, например, предполагающие дисплей 4k и оптимальное расстояние наблюдения.
Если не задана информация о локальном размере экрана, то повторное отображение, например, не применяется.
Для повторного отображения значений возвышения и азимута могут, например, задаваться две линейные функции отображения:
Края экрана для размера номинального экрана могут, например, задаваться в виде:
, , ,
Края экрана воспроизведения могут, например, обозначаться следующим образом:
, , ,
Повторное отображение данных о положении по азимуту и возвышению может, например, задаваться следующими линейными функциями отображения:
Фиг. 13 иллюстрирует функцию повторного отображения данных о положении в соответствии с одним из вариантов осуществления. В частности, на фиг. 13 показана функция отображения для отображения азимута. На фиг. 13 кривая задается таким образом, что значения азимута между азимутом номинального базисного левого края и азимутом номинального базисного правого края отображаются (сжимаются или развертываются) в интервал между заданным локальным левым краем экрана и заданным локальным правым краем экрана (и соответственно этому для возвышения). Другие значения азимута сжимаются или развертываются соответственно этому таким образом, что перекрывается полный диапазон значений.
Повторно отображаемый азимут может, например, принимать значения между -180° и 180°, а повторно отображаемое возвышение может принимать значения между -90° и 90°.
В соответствии с одним из вариантов осуществления, например, если флаг isScreenRelativeObject установлен на ноль, то повторное отображение относящегося к экрану элемента не применяется для соответствующего элемента, при этом геометрические данные о положении (данные ОАМ плюс изменение положения за счет взаимодействия с пользователем) непосредственно используются средством рендеринга для вычисления сигналов воспроизведения.
В соответствии с некоторыми вариантами осуществления, положения всех относящихся к экрану элементов могут, например, повторно отображаться в соответствии с размером экрана воспроизведения в качестве адаптации к комнате воспроизведения. Например, если информация о размере экрана воспроизведения не выдается, или относящиеся к экрану элементы не существуют, повторное отображение не применяется.
Повторное отображение может, например, задаваться линейными функциями отображения, которые учитывают информацию о размере экрана воспроизведения в комнате воспроизведения и информацию о размере базисного экрана, например, используемого в процессе микширования и контроля.
Функция отображения азимута в соответствии с одним из вариантов осуществления показана на фиг. 13. На упомянутой фиг. 13 иллюстрируется функция отображения углов азимута. Как на фиг. 13 она может, например, задаваться таким образом, что значения азимута между левым краем и правым краем базисного экрана отображаются (сжимаются или развертываются) в интервал между левым краем экрана и правым краем экрана воспроизведения. Другие значения азимута и возвышения сжимаются или развертываются таким образом, что перекрывается полный диапазон значений.
Функция отображения возвышения может, например, задаваться соответственно этому (см. фиг. 14). Относящаяся к экрану обработка может, например, также учитывать область масштабирования для масштабирования видеоконтента высокого разрешения. Относящаяся к экрану обработка может, например, задаваться только для элементов, которые сопровождаются динамическими данными о положении и которые отмечены как относящиеся к экрану.
Далее представлен обзор системы 3-мерного аудиокодека. Варианты осуществления настоящего изобретения могут использоваться в такой системе 3-мерного аудиокодека. Система 3-мерного аудиокодека может, например, основываться на Кодеке MPEG-D USAC для кодирования канала и сигналов объекта.
В соответствии с вариантами осуществления, для повышения эффективности кодирования большого числа объектов использовалась технология MPEG SAOC (SAOC=Пространственное Кодирование Звуковых Объектов). Например, в соответствии с некоторыми вариантами осуществления, три типа средств рендеринга могут, например, выполнять задачи рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в другую громкоговорящую установку.
Когда сигналы объекта напрямую передаются или параметрически кодируются с помощью SAOC, соответствующая информация о Метаданных Объекта сжимается и мультиплексируется в битовый поток 3-мерного звука.
На фиг. 8 и фиг. 9 показаны различные блоки алгоритма системы 3-мерного звука. В частности, фиг. 8 иллюстрирует обзор кодера 3-мерного звука. Фиг. 9 иллюстрирует обзор декодера 3-мерного звука в соответствии с одним из вариантов осуществления.
Далее описываются возможные варианты осуществления модулей, изображенных на фиг. 8 и фиг. 9.
На фиг. 8 иллюстрируется средство 810 предварительной рендеринга (называемое также микшером). В изображенной на фиг. 8 конфигурации средство 810 предварительной рендеринга (микшер) является факультативным. Средство 810 предварительной рендеринга может факультативно использоваться для конвертирования входной сцены «Канал+Объект» в сцену «канал» перед кодированием. Функционально средство 810 предварительной рендеринга на стороне кодера может, например, относиться к функциональным возможностям средства рендеринга/микшера 920 объекта на стороне декодера, который описывается ниже. Предварительный рендеринг объектов обеспечивает детерминированную энтропию сигнала на входе кодера, который, как правило, является независимым от числа одновременно активных сигналов объекта. При использовании предварительного рендеринга объектов передача метаданных объекта не требуется. Дискретные Сигналы Объекта подвергаются рендерингу в Структуру Канала, на использование которой сконфигурирован кодер. Весовые значения объектов для каждого канала образуются из связанных метаданных объекта (ОАМ).
Основной кодек для сигналов канала громкоговорителя, дискретных сигналов объекта, сигналов понижающего микширования объекта и предварительно подвергнутых рендерингу сигналов основан на технологии MPEG-D USAC (Основной Кодек USAC). Кодер 820 USAC (например, иллюстрируемый на фиг. 8) управляет кодированием множества сигналов путем создания информации отображения канала и объекта на основе геометрической и семантической информации о назначении канала и объекта входа. Данная информация отображения описывает, как входные каналы и объекты отображаются в элементы канала USAC (CPE, SCE, LFE), а соответствующая информация передается на декодер.
Все дополнительные полезные нагрузки, например, данные SAOC или метаданные объекта были пропущены через расширительные элементы и могут, например, учитываться при контроле скорости передачи кодера USAC.
Кодирование объектов возможно различными путями в зависимости от требований к скорости передачи/искажениям и требованиям к интерактивности средства рендеринга. Возможны следующие варианты кодирования объекта:
- Предварительно подвергнутые рендерингу объекты: сигналы объектов предварительно подвергаются рендерингу и микшируются в сигналы канала 22.2 перед кодированием. Последующая цепочка кодирования видит сигналы канала 22.2.
- Дискретные волны объекта: объекты подаются в виде монофонических волн в кодер 820 USAC. Кодер 820 USAC использует одноканальные элементы SCE для передачи объектов помимо сигналов канала. Декодированные объекты подвергаются рендерингу и микшируются на стороне приемника. Наряду с ними сжатая информация о метаданных объекта передается на приемник/средство рендеринга.
- Параметрические волны объекта: свойства объекта и их отношение друг другу описываются посредством параметров SAOC. Понижающее микширование сигналов объекта кодируется с USAC кодером 820 USAC. Наряду с этим передается параметрическая информация. Число каналов понижающего микширования выбирается в зависимости от числа объектов и общей скорости передачи данных. Сжатая информация о метаданных объекта передается на средство рендеринга SAOC.
На стороне декодера декодер 910 USAC выполняет декодирование USAC.
Кроме того, в соответствии с вариантами осуществления, предлагается декодер - см. фиг. 9. Декодер содержит декодер 910 USAC для декодирования битового потока с целью получения одного или более каналов ввода звука, с целью получения одного или более входных звуковых объектов, с целью получения сжатых метаданных объекта и с целью получения одного или более каналов передачи SAOC.
Кроме того, декодер содержит декодер 915 SAOC для декодирования указанных одного или более каналов передачи SAOC с целью получения первой группы одного или более подвергнутых рендерингу объектов.
Кроме того, декодер содержит устройство 917 в соответствии с вариантами осуществления, описанными выше применительно к фиг. 1-7 или описываемыми ниже применительно к фиг. 11-15. Устройство 917 содержит декодер 918 метаданных объекта, например, являющийся процессором 110 метаданных объекта изображенного на фиг. 1 устройства и реализуемый для декодирования сжатых метаданных объекта с целью получения несжатых метаданных.
Кроме того, устройство 917 в соответствии с вышеописанными вариантами осуществления содержит средство 920 рендеринга объекта, например, являющееся средством 120 рендеринга объекта изображенного на фиг. 1 устройства, для рендеринга указанных одного или более входных звуковых объектов в зависимости от несжатых метаданных с целью получения второй группы одного или более подвергнутых рендерингу объектов.
Кроме того, декодер содержит конвертер 922 формата для конвертирования указанных одного или более каналов ввода звука с целью получения одного или более конвертированных каналов.
Кроме того, декодер содержит микшер 930 для микширования указанных одного или более звуковых объектов первой группы одного или более подвергнутых рендерингу объектов, указанных одного или более звуковых объектов второй группы одного или более подвергнутых рендерингу объектов и указанных одного или более конвертированных каналов с целью получения одного или более декодированных звуковых каналов.
На фиг. 9 иллюстрируется конкретный вариант осуществления декодера. Кодер 815 SAOC (кодер 815 SAOC является факультативным, см. фиг. 8) и декодер 915 SAOC (см. фиг. 9) для сигналов объекта основаны на технологии MPEG SAOC. Данная система способна восстанавливать, модифицировать и подвергать рендерингу множество звуковых объектов на основе меньшего числа передаваемых каналов и дополнительных параметрических данных (OLD, IOC, DMG) (OLD=разность уровней объектов, IOC=межобъектная корреляция, DMG=коэффициент усиления понижающего микширования). Дополнительные параметрические данные имеют значительно более низкую скорость передачи, чем требуется для передачи объектов по отдельности, что делает кодирование весьма эффективным.
Кодер 815 SAOC принимает в качестве входа сигналы объекта/канала в виде монофонических волн и выдает параметрическую информацию (которая упакована в битовый поток 3-мерного звука) и каналы передачи SAOC (которые кодируются с помощью одноканальных элементов и передаются).
Декодер 915 SAOC восстанавливает сигналы объекта/канала по декодированным каналам передачи SAOC и параметрической информации и генерирует выходную звуковую сцену на основе структуры воспроизведения, разуплотненной информации о метаданных объекта и факультативно на основе информации о взаимодействии с пользователем.
Касательно кодека метаданных объекта связанные метаданные, которые задают геометрическое положение и протяженность в 3-мерном пространстве, эффективно кодируются путем квантования свойств объекта во времени и пространстве, например, кодером 818 метаданных, изображенным на фиг. 8. Сжатые метаданные объекта сОАМ (сОАМ=сжатые метаданные звукового объекта) передаются на приемник в качестве побочной информации. В приемнике сОАМ декодируется декодером 918 метаданных.
Например, на фиг. 9 декодер 918 метаданных может, например, реализовывать процессор метаданных объекта в соответствии с одним из вышеописанных вариантов осуществления.
Средство рендеринга объекта, например, изображенное на фиг. 9 средство 920 рендеринга объекта использует сжатые метаданные объекта для генерирования волн объекта в соответствии с установленным форматом воспроизведения. Каждый объект подвергается рендерингу в некоторые выходные каналы в соответствии со своими метаданными. Выход этого блока является результатом суммы частичных результатов.
Например, на фиг. 9 средство 920 рендеринга объекта может, например, быть реализовано в соответствии с одним из вышеописанных вариантов осуществления.
На фиг. 9 декодер 918 метаданных может, например, быть реализован в виде процессора метаданных объекта, как описано в соответствии с одним из вышеописанных или описываемых ниже вариантов осуществления, описываемых применительно к фиг. 1-7 и фиг. 11-15, а средство 920 рендеринга объекта может, например, быть реализовано в виде средства рендеринга объекта, как описано в соответствии с одним из вышеописанных или описываемых ниже вариантов осуществления, описываемых применительно к фиг. 1-7 и фиг. 11-15. Декодер 918 метаданных и средство 920 рендеринга объекта могут, например, вместе реализовывать устройство 917 для генерирования сигналов громкоговорителя, как описано выше или как описывается ниже применительно к фиг. 1-7 и фиг. 11-15.
Если декодируются и основанный на канале контент, и дискретные/параметрические объекты, основанные на канале волны и волны подвергнутого рендерингу объекта микшируются перед выдачей результирующих волн, например, изображенным на фиг. 9 микшером 930 (либо перед подачей их в модуль постпроцессора, например, модуль бинаурального средства рендеринга или модуль средства рендеринга громкоговорителя).
Модуль 940 бинаурального средства рендеринга может, например, создавать бинауральное понижающее микширование многоканального звукового материала таким образом, что каждый входной канал представлен виртуальным источником звука. Обработка проводится покадрово в области QMF. Бинаурализация может, например, основываться на измеренных бинауральных импульсных откликах комнаты.
Средство 922 рендеринга громкоговорителя может, например, осуществлять конвертирование между конфигурацией передаваемого канала и форматом требуемого воспроизведения. Поэтому далее он называется конвертером 922 формата. Конвертер 922 формата выполняет конвертирование в меньшее число выходных каналов, например, он создает понижающее микширование. Система автоматически генерирует оптимизированные матрицы понижающего микширования для установленной комбинации входных и выходных форматов и применяет эти матрицы в процессе понижающего микширования. Конвертер 922 формата предусматривает стандартные конфигурации громкоговорителя, а также случайные конфигурации с нестандартными положениями громкоговорителя.
Фиг. 10 иллюстрирует структуру конвертера формата. Фиг. 10 иллюстрирует конфигуратор 1010 понижающего микширования и процессор понижающего микширования для обработки понижающего микширования в области QMF (область QMF=область квадратурного зеркального фильтра).
В соответствии с некоторыми вариантами осуществления, средство 920 рендеринга объекта может быть выполнено с возможностью реализации относящегося к экрану повторного отображения звукового объекта, как описано применительно к одному из вышеописанного множества вариантов осуществления, которые описаны со ссылкой на фиг. 1 - фиг. 7, либо, как описывается применительно к одному из описываемого множества вариантов осуществления, которые будут описываться со ссылкой на фиг. 11 - фиг. 15.
Далее описываются дополнительные варианты осуществления и концепции вариантов осуществления настоящего изобретения.
В соответствии с некоторыми вариантами осуществления, при пользовательском контроле объектов могут, например, использоваться описательные метаданные, например, информация о существовании объекта внутри битового потока и обобщенные свойства объектов, и могут, например, использоваться ограничительные метаданные, например, информация о том, как взаимодействие становится возможным или активируется создателем контента.
В соответствии с некоторыми вариантами осуществления, при сигнализации, передаче и рендеринге звуковых объектов могут, например, использоваться метаданные о местоположении, метаданные о структуре, например, группировка и иерархия объектов, возможность осуществлять рендеринг на конкретный громкоговоритель и сигнализировать контент канала в виде объектов, а также средства для адаптации сцены объекта к размеру экрана.
В вариантах осуществления предлагаются новые поля метаданных, разработанные в дополнение к уже заданному геометрическому положению и уровню объекта в 3-мерном пространстве.
Если объектно-ориентированная звуковая сцена воспроизводится в различных устройствах воспроизведения, в соответствии с некоторыми вариантами осуществления, положения подвергнутых рендерингу источников звука могут, например, автоматически масштабироваться под размер воспроизведения. В случае, если демонстрируется звуко-визуальный контент, стандартная визуализация звуковых объектов в воспроизведение может, например, приводить к нарушению звуко-визуальной согласованности по положению, поскольку местоположения источника звука и положение визуального инициатора звука могут, например, уже не быть согласованными.
Чтобы избежать этого эффекта, может, например, использоваться возможность сигнализации того, что звуковые объекты не предназначены для фиксированного положения в 3-мерном пространстве, и их положение должно изменяться с размером экрана устройства воспроизведения. В соответствии с некоторыми вариантами осуществления, специальная обработка этих звуковых объектов и задание алгоритма масштабирования сцены могут, например, предусматривать более значительный эффект погружения, поскольку воспроизведение может, например, быть оптимизировано по локальным характеристикам среды воспроизведения.
В некоторых вариантах осуществления средство рендеринга или модель предварительной обработки может, например, учитывать локальный размер экрана в комнате воспроизведения и может, например, тем самым сохранять взаимоотношение между звуковой информацией и видеоинформацией в контексте фильмов или игр. В таких вариантах осуществления звуковая сцена может, например, при этом автоматически масштабироваться в соответствии с устройством воспроизведения таким образом, что положения визуальных элементов и положение соответствующего источника звука являются согласованными. Может, например, сохраняться звуко-визуальная согласованность по положению для экранов, изменяющихся по размеру.
Например, в соответствии с вариантами осуществления, диалог и речь могут, например, при этом восприниматься с направления оратора на экране независимо от размера экрана воспроизведения. Это возможно для неподвижных источников, а также для движущихся источников, у которых траектории звука и перемещение визуальных элементов должны соответствовать.
С целью управления относящимся к экрану рендерингом вводится дополнительное поле метаданных, которое позволяет отмечать объекты как относящиеся к экрану. Если объект отмечен как относящийся к экрану, его метаданные о геометрическом положении повторно отображаются на другие значения перед рендерингом. Например, фиг. 13 иллюстрирует пример функции (повторного) отображения для углов азимута.
В частности, в некоторых вариантах осуществления может обеспечиваться задание простой функции отображения, которая работает в угловой области (азимут, возвышение).
Кроме того, некоторые варианты осуществления могут, например, реализовывать отсутствие изменения расстояния до объектов, отсутствие «масштабирования» или виртуальных перемещений в направлении экрана или от экрана, но наличие масштабирования только положения объектов.
Кроме того, некоторые варианты осуществления могут, например, управлять нецентрированными экранами воспроизведения ( и/или ), поскольку функция отображения не только основывается на соотношении сторон экрана, но и учитывает азимут и возвышение краев экрана.
Кроме того, некоторые варианты осуществления могут, например, задавать специальные функции отображения для показываемых на экране объектов. В соответствии с некоторыми вариантами осуществления, функции отображения для азимута и возвышения могут, например, являться независимыми, поэтому может осуществляться выбор отображения только значений азимута или возвышения.
Далее предлагаются дополнительные варианты осуществления.
Фиг. 11 иллюстрирует рендеринг объектно-ориентированного звука в соответствии с одним из вариантов осуществления. Звуковые объекты могут, например, подвергаться рендерингу на стороне воспроизведения с помощью метаданных и информации о среде воспроизведения. Такая информация представляет собой, например, число громкоговорителей или размер экрана. Средство 1110 рендеринга может, например, вычислять сигналы громкоговорителя на основе геометрических данных и имеющихся громкоговорителей, а также их положений.
Далее со ссылкой на фиг. 12 описывается (пре)процессор 1210 метаданных объекта в соответствии с одним из вариантов осуществления.
На фиг. 12 процессор 1210 метаданных объекта выполнен с возможностью выполнения повторного отображения, которое учитывает локальный размер экрана и выполняет отображение геометрических метаданных.
Данные о положении относящихся к экрану объектов повторно отображаются процессором 1210 метаданных объекта. Может, например, применяться кривая, которая отображает исходный угол положения по азимуту и возвышению в угол повторно отображаемого азимута и повторно отображаемого возвышения.
При повторном отображении могут, например, учитываться размер номинального базисного экрана, например, используемый в процессе микширования и контроля, и информация о локальном размере экрана в комнате воспроизведения.
Размер базисного экрана, который может, например, называться размером экрана при изготовлении, может, например, передаваться в метаданных.
В некоторых вариантах осуществления, если не установлен номинальный размер экрана, может, например, предполагаться задаваемый по умолчанию размер экрана.
Например, может использоваться угол наблюдения, задаваемый в ITU-R REC-BT.2022 (см.: Общие условия наблюдения для субъективной оценки качества телевизионных изображений SDTV и HDTV на плоскопанельных дисплеях).
В некоторых вариантах осуществления для повторного отображения значений возвышения и азимута могут, например, задаваться две линейные функции отображения.
Далее со ссылкой на фиг. 13 - фиг. 15 описывается модификация относящихся к экрану геометрических метаданных в соответствии с некоторыми вариантами осуществления.
Повторно отображаемый азимут может принимать значения между -180° и 180°, а повторно отображаемое возвышение может принимать значения между -90° и 90°. Кривая отображения, как правило, задается таким образом, что значения азимута между задаваемым по умолчанию азимутом левого края и задаваемым по умолчанию азимутом правого края отображаются (сжимаются или развертываются) в интервал между заданным левым краем экрана и заданным правым краем экрана (и соответственно этому для возвышения). Другие значения азимута и возвышения сжимаются или развертываются соответственно этому таким образом, что перекрывается полный диапазон значений.
Как уже описывалось выше, края экрана для размера номинального экрана могут, например, задаваться в виде:
, , ,
Края экрана воспроизведения могут, например, обозначаться следующим образом:
, , ,
Повторное отображение данных о положении по азимуту и возвышению может, например, задаваться следующими линейными функциями отображения:
Функция отображения для азимута показана на фиг. 13, а функция отображения для возвышения показана на фиг. 14.
Точки , , , кривых, на которых изменяется градиент, могут либо задаваться в качестве значений по умолчанию (по умолчанию предполагает стандартный размер экрана и по умолчанию предполагает стандартное положение экрана), либо они могут присутствовать в метаданных (например, вводиться изготовителем, который может при этом вводить в них размер экрана при изготовлении/контроле).
В отношении задания метаданных объекта для относящегося к экрану повторного отображения, с целью управления относящимся к экрану рендерингом задается дополнительный флаг метаданных, называемый ʺisScreenRelativeObjectʺ. Данный флаг может, например, задавать, должен ли звуковой объект обрабатываться/подвергаться рендерингу относительно локального размера экрана воспроизведения.
Если в звуковой сцене присутствуют относящиеся к экрану элементы, то появляется возможность выдавать информацию о размере экрана для номинального размера экрана, который использовался для микширования и контроля (размера экрана, используемого во время создания звукового контента).
Таблица 4 - Синтаксис ObjectMetadataConfig() в соответствии с одним из вариантов осуществления:
{
...
hasScreenRelatedObjects;
if( hasScreenRelatedObjects ){
hasScreenSize;
if( hasScreenSize ){
bsScreenSizeAz;
bsScreenSizeTopEl;
bsScreenSizeBottomEl;
}
для (o=0; o <= num_objects-1; o++ ){
isScreenRelativeObject[o];
}
}
}
1
9
9
9
1
bslbf
uimsbf
uimsbf
uimsbf
bslbf
=29,0°
=-29,0°
=17,5°
- -17,5°
=0,5⋅ bsScreenSizeAz
=min (max (, 0), 180);
=-0,5⋅ bsScreenSizeAz
min (max (, -180), 0);
=0,5⋅bsScreenSizeTopEl - 255
=min (max (, -90), 90);
=0,5⋅bsScreenSizeBottomEl - 255
=min (max (, -90), 90);
В соответствии с одним из вариантов осуществления, если размер экрана воспроизведения не задан, то либо предполагаются задаваемый по умолчанию размер экрана воспроизведения и задаваемое по умолчанию положение экрана воспроизведения, либо отображение не применяется, даже если объект отмечен как относящийся к экрану или относящийся к экрану.
Некоторые из вариантов осуществления реализуют возможные модификации.
В некоторых вариантах осуществления используются нелинейные функции отображения. Эти возможные функции отображения не состоят из прямых отрезков, а являются вместо этого криволинейными. В некоторых вариантах осуществления дополнительные метаданные управляют способом повторного отображения, например, задавая смещения или нелинейные коэффициенты, учитываемые для характеристик панорамирования или разрешающей способности слушания.
Некоторые варианты осуществления реализуют независимую обработку азимута и возвышения. Азимут и возвышение могут быть отмечены и обработаны как относящиеся к экрану независимо. Таблица 5 иллюстрирует синтаксис ObjectMetadataConfig() в соответствии с таким вариантом осуществления.
Таблица 5: Синтаксис ObjectMetadataConfig() в соответствии с одним из вариантов осуществления:
{
...
hasScreenRelatedObjects;
if( hasScreenRelatedObjects ){
...
для ( o=0; o<=num_objects-1; o++){
AzimuthScreenRelated[o];
ElevationScreenRelated[o];
}
}
}
1
1
bslbf
bslbf
Некоторые варианты осуществления используют определение показываемых на экране объектов, в котором может проводиться различие между относящимися к экрану объектами и показываемыми на экране объектами. При этом возможен следующий синтаксис в соответствии с таблицей 6:
{
...
hasScreenRelatedObjects;
if( hasScreenRelatedObjects ){
...
для ( o=0; o<=num_objects-1; o++){
isScreenRelatedObject[o];
if( !isScreenRelativeObject ){
isOnScreenObject[o];
}
}
}
}
1
1
bslbf
bslbf
Для показываемых на экране объектов повторно отображаемые азимут и возвышение могут принимать только значения, которые описывают положения на области экрана ( и ).
Как реализуется в некоторых вариантах осуществления, имеются различные возможности для обработки значений вне этих диапазонов: они могут отображаться на края экрана. При этом на левой полусфере положения между 180° и 180° - отображаются на левый край экрана . Правая полусфера и углы возвышения обрабатываются аналогичным образом (непунктирная функция 1510 отображения на фиг. 15).
Еще одна возможность, реализуемая в некоторых из вариантов осуществления, состоит в отображении значений задней полусферы в переднюю полусферу. Значения между 180° и 180° - отображаются на значения между 0° и . Правая полусфера и углы возвышения обрабатываются аналогичным образом (пунктирная функция 1520 отображения на фиг. 15).
Фиг. 15 иллюстрирует повторное отображение углов азимута (показываемых на экране объектов) в соответствии с этими вариантами осуществления.
Выбор необходимых характеристик может сигнализироваться дополнительными метаданными (например, флагом для «проецирования» всех показываемых на экране объектов, предназначенных для задней области ([180° и 180° - ] и [-180° и -180° - ] на экран).
Несмотря на то, что некоторые аспекты описаны применительно к устройству, ясно, что эти аспекты также представляют собой описание соответствующего способа, в котором блок или устройство соответствует этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описываемые применительно к этапу способа, также представляют собой описание соответствующего блока, элемента или признака соответствующего устройства.
Анализируемый сигнал в соответствии с изобретением может храниться на носителе цифровых данных, либо может передаваться в среде передачи данных, например, беспроводной среде передачи данных или проводной среде передачи данных, такой как Интернет.
В зависимости от некоторых требований к реализации, варианты осуществления данного изобретения могут быть реализованы в аппаратных средствах или программных средствах. Реализация может осуществляться с помощью носителя цифровых данных, например, гибкого диска, DVD, CD, постоянного запоминающего устройства (ПЗУ), программируемого постоянного запоминающего устройства (ППЗУ), стираемого программируемого постоянного запоминающего устройства (СППЗУ), электрически-стираемого программируемого постоянного запоминающего устройства (ЕСППЗУ) или флэш-памяти, содержащей хранящиеся на ней электронно-считываемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой вычислительной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления в соответствии с данным изобретением содержат энергонезависимый носитель данных, содержащей электронно-считываемые управляющие сигналы, которые способны взаимодействовать с программируемой вычислительной системой таким образом, что осуществляется один из способов, описываемых в настоящем документе.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, причем, программный код применяется для осуществления одного из способов, когда компьютерный программный продукт запущен на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления для осуществления одного из способов, описываемых в настоящем документе, включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе.
Следовательно, иными словами, один из вариантов осуществления способа в соответствии с изобретением представляет собой компьютерную программу, содержащую программный код для осуществления одного из способов, описываемых в настоящем документе, когда компьютерная программа запущена на компьютере.
Следовательно, еще один вариант осуществления способа в соответствии с изобретением представляет собой информационный носитель (либо носитель цифровых данных, либо машиночитаемый носитель), содержащий записанную на него компьютерную программу для осуществления одного из способов, описываемых в настоящем документе.
Следовательно, еще один вариант осуществления способа в соответствии с изобретением представляет собой информационный поток или последовательность сигналов, представляющую собой компьютерную программу для осуществления одного из способов, описываемых в настоящем документе. Информационный поток или последовательность сигналов может, например, быть выполнена с возможностью передачи через соединение связи, например, через Интернет.
Следовательно, еще один вариант осуществления включает в себя средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из способов, описываемых в настоящем документе.
Еще один вариант осуществления включает в себя компьютер, содержащий установленную на нем компьютерную программу для осуществления одного из способов, описываемых в настоящем документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для осуществления некоторых или всех функциональных возможностей способов, описываемых в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором с целью осуществления одного из способов, описываемых в настоящем документе. Как правило, способы предпочтительно осуществляются любым аппаратным устройством.
Вышеописанные варианты осуществления лишь иллюстрируют принципы настоящего изобретения. При этом специалистам будут очевидны модификации и варианты конструкций и деталей, описываемых в настоящем документе. Следовательно, целью является ограничиться только объемом приводимой ниже формулы изобретения, а не конкретными деталями, представленными в качестве описания и объяснения вариантов осуществления, описываемых в настоящем документе.
ЛИТЕРАТУРА
[1] «Способ и устройство для воспроизведения звукового сигнала амбиофонии высшего порядка», заявка на патент номер ЕР20120305271
[2] «Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition», заявка на патент номер WO2004073352A1
[3] «Verfahren zur Audiocodierung», заявка на патент номер ЕР20020024643
[4] «Акустическое масштабирование на основе параметрического представления звукового поля», http://www.aes.org/tmpFiles/elib/20140814/15417.pdf
Изобретение относится к акустике. Устройство содержит процессор метаданных объекта и средство рендеринга объекта. Средство рендеринга объекта выполнено с возможностью приема звукового сигнала. Процессор метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта. Процессор метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как являющийся относящимся к экрану. Средство рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении. Процессор метаданных объекта выполнен с возможностью подачи первого положения звукового объекта в качестве информации о положении на средство рендеринга объекта, если звуковой объект указан в метаданных как не являющийся относящимся к экрану. Процессор метаданных объекта выполнен с возможностью подачи второго положения звукового объекта в качестве информации о положении на средство рендеринга объекта, если звуковой объект указан в метаданных как являющийся относящимся к экрану. Технический результат - создание усовершенствованных концепций объединения звукового и визуального мультимедийного контента с использованием устройств воспроизведения мультимедийной информации. 4 н. и 11 з.п. ф-лы, 17 ил., 6 табл.
1. Устройство для генерирования сигналов громкоговорителя, содержащее:
процессор (110) метаданных объекта и
средство (120) рендеринга объекта, при этом
средство (120) рендеринга объекта выполнено с возможностью приема звукового объекта,
процессор (110) метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта,
процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как относящийся к экрану,
средство (120) рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении,
процессор (110) метаданных объекта выполнен с возможностью подачи первого положения звукового объекта в качестве информации о положении на средство (120) рендеринга объекта, если звуковой объект указан в метаданных как не относящийся к экрану, и
процессор (110) метаданных объекта выполнен с возможностью подачи второго положения звукового объекта в качестве информации о положении на средство (120) рендеринга объекта, если звуковой объект указан в метаданных как относящийся к экрану.
2. Устройство по п. 1, в котором процессор (110) метаданных объекта выполнен с возможностью не вычислять второе положение звукового объекта, если звуковой объект указан в метаданных как не относящийся к экрану.
3. Устройство по п. 1, в котором средство (120) рендеринга объекта выполнено с возможностью не определять то, является ли информация о положении первым положением звукового объекта или вторым положением звукового объекта.
4. Устройство по п. 1, в котором средство (120) рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от числа громкоговорителей среды воспроизведения.
5. Устройство по п. 4, в котором средство (120) рендеринга объекта выполнено с возможностью генерирования сигналов громкоговорителя дополнительно в зависимости от положения каждого из громкоговорителей среды воспроизведения.
6. Устройство по п. 1, в котором процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как относящийся к экрану, причем первое положение означает первое положение в трехмерном пространстве и второе положение означает второе положение в трехмерном пространстве.
7. Устройство по п. 6, в котором процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как относящийся к экрану, причем первое положение означает первый азимут, первое возвышение и первое расстояние, и второе положение означает второй азимут, второе возвышение и второе расстояние.
8. Устройство по п. 1, в котором
процессор (110) метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем второе указание указывает на то, является ли звуковой объект показываемым на экране объектом, и
процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает первое значение на области экрана, если второе указание указывает, что звуковой объект является показываемым на экране объектом.
9. Устройство по п. 8, в котором процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана таким образом, что второе положение принимает второе значение, которое находится либо на области экрана, либо не на области экрана, если второе указание указывает, что звуковой объект не является показываемым на экране объектом.
10. Устройство по п. 1, в котором
процессор (110) метаданных объекта выполнен с возможностью приема метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, в качестве первого указания и дополнительно содержащих второе указание, если звуковой объект является относящимся к экрану, причем второе указание указывает на то, является ли звуковой объект показываемым на экране объектом,
процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от первой кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект является показываемым на экране объектом, причем первая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта во втором интервале значений, и
процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от первого положения звукового объекта, в зависимости от размера экрана и в зависимости от второй кривой отображения в качестве кривой отображения, если второе указание указывает, что звуковой объект не является показываемым на экране объектом, причем вторая кривая отображения задает отображение исходных положений объекта в первом интервале значений в повторно отображенные положения объекта в третьем интервале значений, второй интервал значений входит в третий интервал значений, и второй интервал значений меньше, чем третий интервал значений.
11. Устройство по п. 10, в котором
каждый из первого интервала значений, второго интервала значений и третьего интервала значений представляет собой интервал значений углов азимута либо
каждый из первого интервала значений, второго интервала значений и третьего интервала значений представляет собой интервал значений углов возвышения.
12. Устройство по п. 1, в котором процессор (110) метаданных объекта выполнен с возможностью вычисления второго положения звукового объекта в зависимости от по меньшей мере одной из первой линейной функции отображения и второй линейной функции отображения, при этом
первая линейная функция отображения задается для отображения первого значения азимута во второе значение азимута,
вторая линейная функция отображения задается для отображения первого значения возвышения во второе значение возвышения,
означает отсчет от левого края экрана по азимуту,
означает отсчет от правого края экрана по азимуту,
означает отсчет от верхнего края экрана по возвышению,
означает отсчет от нижнего края экрана по возвышению,
означает левый край экрана по азимуту,
означает правый край экрана по азимуту,
означает верхний край экрана по возвышению,
означает нижний край экрана по возвышению,
ϕ означает первое значение азимута,
ϕ' означает второе значение азимута,
θ означает первое значение возвышения,
θ' означает второе значение возвышения,
второе значение ϕ' азимута получается из первого отображения первого значения ϕ азимута в соответствии с первой линейной функцией отображения в соответствии с
и
второе значение θ' возвышения получается из первого отображения первого значения θ возвышения в соответствии со второй линейной функцией отображения в соответствии с
13. Устройство декодера, содержащее:
декодер (910) USAC для декодирования битового потока, чтобы получить один или более каналов ввода звука, получить один или более входных звуковых объектов, получить сжатые метаданные объекта и получить один или более каналов передачи SAOC,
декодер (915) SAOC для декодирования одного или более каналов передачи SAOC, чтобы получить первую группу одного или более подвергнутых рендерингу звуковых объектов,
устройство (917) по одному из предыдущих пунктов, содержащее:
декодер (918) метаданных объекта, являющийся процессором (110) метаданных объекта из состава устройства по одному из предыдущих пунктов и реализованный для декодирования сжатых метаданных объекта, чтобы получить несжатые метаданные, и
средство (920; 120) рендеринга объекта из состава устройства по одному из предыдущих пунктов для рендеринга одного или более входных звуковых объектов в зависимости от несжатых метаданных, чтобы получить вторую группу одного или более подвергнутых рендерингу объектов,
конвертер (922) формата для конвертирования одного или более каналов ввода звука, чтобы получить один или более конвертированных каналов, и
микшер (930) для микширования одного или более звуковых объектов первой группы одного или более подвергнутых рендерингу объектов, одного или более звуковых объектов второй группы одного или более подвергнутых рендерингу объектов и одного или более конвертированных каналов, чтобы получить один или более декодированных звуковых каналов.
14. Способ генерирования сигналов громкоговорителя, включающий в себя:
прием звукового объекта,
прием метаданных, содержащих указание на то, является ли звуковой объект относящимся к экрану, и дополнительно содержащих первое положение звукового объекта,
вычисление второго положения звукового объекта в зависимости от первого положения звукового объекта и в зависимости от размера экрана, если звуковой объект указан в метаданных как относящийся к экрану,
генерирование сигналов громкоговорителя в зависимости от звукового объекта и в зависимости от информации о положении, при этом
информация о положении представляет собой первое положение звукового объекта, если звуковой объект указан в метаданных как не относящийся к экрану, и
информация о положении представляет собой второе положение звукового объекта, если звуковой объект указан в метаданных как относящийся к экрану.
15. Машиночитаемый носитель, содержащий компьютерную программу для реализации способа по п. 14 при её исполнении в компьютере или сигнальном процессоре.
МАСШТАБИРУЕМЫЙ ПРЯМОЙ ОБМЕН ДАННЫМИ МЕЖДУ УЗЛАМИ ЧЕРЕЗ ШИНУ МЕЖСОЕДИНЕНИЯ ПЕРИФЕРИЙНЫХ КОМПОНЕНТОВ ТИПА ЭКСПРЕСС (PCIE) | 2014 |
|
RU2637428C2 |
US 2006294125 A1, 28.12.2006 | |||
US 20140023197 A1, 23.01.2014 | |||
WO 2014032709 A1, 06.03.2014 | |||
US 2012183162 A1, 19.07.2012 | |||
WO 2013006338 A2, 10.01.2013 | |||
US 2013236039 A1, 12.09.2013 | |||
US 2003007648 A1, 09.01.2003 | |||
WO 2013006330 A2, 10.01.2013 | |||
US 7606372 B2, 20.10.2009. |
Авторы
Даты
2019-03-28—Публикация
2015-03-25—Подача