1. Введение
Во многих сферах применения доставка акустических сообщений может улучшать пользовательское восприятие во время использования медиаданных. Одним из наиболее актуальных применений таких сообщений является контент Виртуальной Реальности (VR). В среде VR или, аналогичным образом, в средах Дополненной Реальности (AR), либо Смешанной Реальности (MR), либо Панорамного Видео пользователь обычно может визуализировать полный панорамный контент с помощью, например, Головного Дисплея (HMD) и слушать его через наушники (или, аналогичным образом, через громкоговорители, включая корректный рендеринг, зависящий от его положения). Обычно пользователь может перемещаться в пространстве VR/AR или по меньшей мере изменять направление наблюдения - так называемое «окно просмотра» для Видео. В средах Панорамного Видео, которые используют классические системы воспроизведения (широкоугольный экран) вместо HMD, могут использоваться устройства дистанционного управления для имитации перемещения пользователя в сцене, при этом применяются аналогичные принципы. Необходимо отметить, что под панорамным контентом может иметься в виду любой тип контента, который содержится более чем в одном угле наблюдения в один и тот же момент времени, выбираемый пользователем (например, ориентированием его головы или с помощью устройства дистанционного управления).
ПО сравнению с классическим использованием контента, для VR создатели контента уже не могут управлять тем, что пользователь визуализирует в различные моменты времени - текущим окном просмотра. Пользователь имеет возможность в каждый момент времени выбирать различные окна просмотра из допустимых или доступных окон просмотра.
Распространенной проблемой использования контента VR является риск того, что пользователь пропустит важные события в Видеосцене из-за неправильного выбора окна просмотра. Для решения этой проблемы было введено понятие Области Интереса (ROI) и рассмотрены несколько концепций сигнализации ROI. Несмотря на то, что ROI обычно используется для индикации пользователю области, содержащей рекомендуемое окно просмотра, она может также использоваться в других целях, например: индикации присутствия нового отличительного признака/объекта в сцене, индикации специальных возможностей, связанных с объектами в сцене - по существу любого признака, который может быть связан с элементом, составляющим Видеосцену. Например, визуальные сообщения (например, «Поверните голову налево») могут использоваться и накладываться на текущее окно просмотра. В альтернативном варианте могут использоваться слышимые звуки - либо естественные, либо синтезированные звуки - путем воспроизведения их в положении ROI. Эти Аудиосообщения известны как «Аудиоиконки».
Применительно к данной заявке понятие Аудиоиконки будет использоваться для обозначения Аудиосообщений, передаваемых для сигнализации ROI, но предлагаемые сигнализация и обработка могут использоваться также для универсальных Аудиосообщений для целей, отличных от сигнализации ROI. Одним из примеров таких Аудиосообщений являются Аудиосообщения для передачи информации/индикации о различных вариантах, имеющихся у пользователя в интерактивной среде AR/VR/MR (например, «перепрыгните через коробку слева от вас для входа в комнату Х). Кроме того, будет использоваться пример VR, но механизмы, описываемые в данном документе, распространяются на любые среды использования медиаданных.
2. Термины и определения
В данной области техники используются следующие термины:
- Аудиоэлементы: Аудиосигналы, которые могут быть представлены, например, как Аудиообъекты, Аудиоканалы, основанное на сцене Аудио (Амбисоника Высшего Порядка - HOA) или комбинация перечисленного.
- Область Интереса (ROI): Одна область видеоконтента (либо отображаемой или моделируемой среды), которая представляет интерес для пользователя в один момент времени. Как правило, это может быть, например, область на сфере или многоугольный выделенный фрагмент 2-мерной карты. ROI идентифицирует конкретную область для конкретной цели, определяя границы рассматриваемого объекта.
- Информация о положении пользователя: информация о местоположении (например, координаты x, y, z), информация об ориентации (рыскание, тангаж, крен), направление и скорость движения, и т.д.
- Окно Просмотра: Часть сферического Видео, которая в настоящий момент отображается и просматривается пользователем.
- Точка просмотра: центральная точка Окна Просмотра.
- Панорамное Видео (также известное как видео с погружением или сферическое видео): представляет применительно к данному документу видеоконтент, который содержит более одного просмотра (т.е. окна просмотра) в одном направлении в один и тот же момент времени. Такой контент может быть создан, например, с помощью всенаправленной камеры или набора камер. Во время воспроизведения наблюдатель управляет направлением наблюдения.
- Адаптационные Наборы содержат мультимедийный поток или набор мультимедийных потоков. В простейшем случае один Адаптационный Набор содержит все аудио и видео для контента, но для уменьшения полосы пропускания каждый поток может быть разбит на отдельно взятый Адаптационный Набор. Распространенный случай - наличие одного Адаптационного Набора видео и множества Адаптационных Наборов Аудио (по одному для каждого поддерживаемого языка). Адаптационные Наборы могут также содержать субтитры или произвольные метаданные.
- Представления позволяют Адаптационному Набору содержать один и тот же контент, кодируемый различными способами. В большинстве случаев Представления предусматриваются на множестве скоростей передачи битов. Это позволяет клиентам запрашивать контент наивысшего качества, который они могут воспроизводить, не ожидая буферизации. Представления могут также кодироваться с использованием различных кодеков, обеспечивая поддержку клиентов с различными поддерживаемыми кодеками.
- Описание Представления Медиаданных (MPD) - это синтаксис XML, содержащий информацию о сегментах медиаданных, их соотношения и информацию, необходимую для выбора из них.
Применительно к данной заявке используются более универсальные понятия Адаптационных Наборов, иногда относящиеся в действительности к Представлениям. Кроме того, мультимедийные потоки (потоки аудио/видео) главным образом включены прежде всего в сегменты Медиаданных, которые представляют собой фактические мультимедийные файлы, воспроизводимые клиентом (например, DASH-клиентом). Для сегментов Медиаданных могут использоваться различные форматы, такие как Базовый Формат Медиафайлов ISO (ISOBMFF), который аналогичен формату контейнера MPEG-4, и MPEG-TS. Включение в Сегменты Медиаданных и в различные Представления/Адаптационные Наборы не зависит от способов, описываемых в данном документе, способы распространяются на все различные варианты.
Кроме того, описание способов в этом документе может быть сосредоточено на связи «сервер-клиент» DASH, но способы являются достаточно универсальными, чтобы работать с другими средами доставки, такими как MMT, Транспортный Поток MPEG-2, DASH-ROUTE, Формат Файлов для воспроизведения файлов и т.д.
3. Существующие решения
Существуют следующие решения:
[1]. ISO/IEC 23008-3:2015, Информационная технология - Высокоэффективное кодирование и доставка медиа в гетерогенных средах - Часть 3: 3D Аудио.
[2]. N16950, изучение ISO/IEC DIS 23000-20 Формат всенаправленного медиа.
[3]. M41184, Использование Аудиоиконок для идентификации ROI в Панорамном Видео.
Механизм доставки для панорамного контента задан в ISO/IEC 23000-20 - Формат Всенаправленного Медиа [2]. Этот стандарт задает формат медиа для кодирования, хранения, доставки и рендеринга всенаправленных изображений, Видео и соответствующего Аудио. Он предусматривает информацию о медиакодеках, используемых для сжатия Аудио и Видео, и дополнительную информацию о метаданных для правильного использования контента панорамного Аудио/Видео.
Он также задает ограничения и требования по каналам доставки, таким как Потоковая Передача по DASH/MMT или пофайловое воспроизведение.
Концепция Аудиоиконки была впервые введена в M41184 «Использование Аудиоиконок для идентификации ROI в Панорамном Видео» [3], который предусматривает механизм для сигнализации Аудиоданных Аудиоиконки пользователю.
Однако от некоторых пользователей поступали разочаровывающие комментарии по этим системам. Большое количество Аудиоиконок часто оказывалось раздражающим. Когда разработчики сократили число Аудиоиконок, некоторые пользователи потеряли важную информацию. Примечательно, что каждый пользователь имеет свои навыки и уровень опытности и предпочел бы систему, подходящую для него. Например, каждый пользователь предпочел бы иметь Аудиоиконки, воспроизводимые на предпочтительной громкости (независимой, например, от громкости, используемой для других Аудиосигналов). Разработчику системы оказалось сложно получить систему, которая обеспечивает высокий уровень удовлетворенности для всех возможных пользователей. Поэтому осуществлялся поиск решения, позволяющего увеличить удовлетворенность почти для всех пользователей.
Более того, даже разработчикам оказалось сложно реконфигурировать системы. На пример, они испытывали трудности при подготовке новых выпусков Аудиопотоков и обновлении Аудиоиконок.
Более того, ограниченная система накладывает некоторые ограничения на функциональность, например, Аудиоиконки не могут быть точно идентифицированы в одном Аудиопотоке. Кроме того, Аудиоиконки всегда должны быть активными и могут стать раздражающими для пользователя, если они воспроизводятся, когда они не нужны.
Более того, пространственная информация Аудиоиконок не может ни сигнализироваться, ни изменяться с помощью, например, DASH-клиента. Удобный доступ к этой информации на уровне Системы может обеспечивать дополнительный признак для улучшения пользовательского восприятия.
Кроме того, отсутствует адаптивность при обращении к различным типам Аудиоиконок (например, естественный звук, синтезированный звук, звук, генерированный в DASH-клиенте, и т.д.).
Все эти проблемы приводят к плохому Качеству Восприятия пользователем. Поэтому предпочтительной была бы более адаптивная архитектура.
4. Настоящее изобретение
В соответствии с примерами, предлагается система для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности MR, или Панорамного Видео, выполненная с возможностью:
приема по меньшей мере одного Видеопотока, связанного с воспроизводимой аудио- и видеосценой; и
приема по меньшей мере одного первого Аудиопотока, связанного с воспроизводимой аудио- и видеосценой,
причем система содержит:
по меньшей мере один мультимедийный Видеодекодер, выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока для представления аудио- и видеосцены пользователю; и
по меньшей мере один мультимедийный Аудиодекодер, выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока для представления аудио- и видеосцены пользователю;
процессор области интереса, ROI, выполненный с возможностью:
решения - на основе по меньшей мере данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных окна просмотра и/или метаданных сообщения с Аудиоинформацией пользователя - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с аудиоинформацией не зависит от упомянутого по меньшей мере одного Видеосигнала и упомянутого по меньшей мере одного Аудиосигнала; и
инициирования - при решении, что упомянутое сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией.
В соответствии с примерами, предлагается система для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или Панорамного Видео, выполненная с возможностью:
приема по меньшей мере одного Видеопотока; и
приема по меньшей мере одного первого Аудиопотока,
причем система содержит:
по меньшей мере один мультимедийный Видеодекодер, выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока для представления сцены среды VR, AR, MR или Панорамного Видео пользователю; и
по меньшей мере один мультимедийный Аудиодекодер, выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока для представления Аудиосцены пользователю;
процессор области интереса, ROI, выполненный с возможностью:
решения - на основе данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных окна просмотра и/или метаданных сообщения с Аудиоинформацией пользователя - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с аудиоинформацией является аудиоиконкой; и
инициирования - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией.
Система может содержать:
процессор метаданных, выполненный с возможностью приема и/или обработки и/или манипулирования с метаданными аудио сообщения с информацией, чтобы инициировать - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведение сообщения с Аудиоинформацией в соответствии с метаданными сообщения с аудиоинформацией.
Процессор ROI может быть выполнен с возможностью:
приема данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя и/или иных связанных с пользователем данных; и
приема метаданных окна просмотра, связанных с по меньшей мере одним Видеосигналом из по меньшей мере одного Видеопотока, причем метаданные окна просмотра определяют по меньшей мере одну ROI; и
решения - на основе по меньшей мере одного из данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения и метаданных окна просмотра пользователя и/или иных критериев - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI.
Система может содержать:
процессор метаданных, выполненный с возможностью приема и/или обработки и/или манипулирования с метаданными сообщения с Аудиоинформацией, описывающими сообщение с Аудиоинформацией, и/или метаданными Аудио, описывающими упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном Аудиопотоке, и/или метаданными окна просмотра, чтобы инициировать воспроизведение сообщения с Аудиоинформацией в соответствии с метаданными сообщения с Аудиоинформацией и/или метаданными Аудио, описывающими упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном Аудиопотоке, и/или метаданными окна просмотра.
Процессор ROI может быть выполнен с возможностью:
в случае, если упомянутая по меньшей мере одна ROI находится за пределами данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя - инициирования воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI, в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и
в случае, если упомянутая по меньшей мере одна ROI находится в пределах данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя - запрета и/или деактивации воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI.
Система может быть выполнена с возможностью:
приема упомянутого по меньшей мере одного дополнительного Аудиопотока, в котором закодировано упомянутое по меньшей мере одно сообщение с Аудиоинформацией,
причем система дополнительно содержит:
по меньшей мере один мультиплексор или уплотнитель для объединения - под управлением процессора метаданных и/или процессора ROI и/или другого процессора - пакетов упомянутого по меньшей мере одного дополнительного Аудиопотока с пакетами упомянутого по меньшей мере одного первого Аудиопотока в один Поток на основе решения, принимаемого процессором ROI, что упомянутое по меньшей мере одно сообщение с Аудиоинформацией должно быть воспроизведено, для инициирования воспроизведения сообщения с Аудиоинформацией помимо Аудиосцены.
Система может быть выполнена с возможностью:
приема по меньшей мере одних метаданных Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном Аудиопотоке;
приема метаданных сообщения с Аудиоинформацией, связанных с по меньшей мере одним сообщением с Аудиоинформацией из по меньшей мере одного Аудиопотока;
при решении, что сообщение с информацией должно быть воспроизведено, изменения метаданных сообщения с Аудиоинформацией для разрешения воспроизведения сообщения с Аудиоинформацией в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала.
Система может быть выполнена с возможностью:
приема по меньшей мере одних метаданных Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном Аудиопотоке;
приема метаданных сообщения с Аудиоинформацией, связанных с по меньшей мере одним сообщением с Аудиоинформацией из по меньшей мере одного Аудиопотока;
при решении, что сообщение с Аудиоинформацией должно быть воспроизведено, изменения метаданных сообщения с Аудиоинформацией для разрешения воспроизведения сообщения с Аудиоинформацией в увязке с по меньшей мере одной ROI в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и
изменения метаданных Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, для разрешения объединения упомянутого по меньшей мере одного первого Аудиопотока и упомянутого по меньшей мере одного дополнительного Аудиопотока.
Система может быть выполнена с возможностью:
приема по меньшей мере одних метаданных Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном Аудиопотоке;
приема метаданных сообщения с Аудиоинформацией, связанных с по меньшей мере одним сообщением с Аудиоинформацией из по меньшей мере одного Аудиопотока;
при решении, что сообщение с Аудиоинформацией должно быть воспроизведено, выдачи метаданных сообщения с Аудиоинформацией в Генератор синтезированного Аудио для создания синтезированного Аудиопотока, чтобы связать метаданные сообщения с Аудиоинформацией с синтезированным Аудиопотоком, и для выдачи синтезированного Аудиопотока и метаданных сообщения с Аудиоинформацией в уплотнитель или мультиплексор для разрешения объединения упомянутого по меньшей мере одного Аудиопотока и синтезированного Аудиопотока.
Система может быть выполнена с возможностью:
получения метаданных сообщения с Аудиоинформацией из по меньшей мере одного дополнительного Аудиопотока, в котором закодировано сообщение с Аудиоинформацией.
Система может содержать:
генератор метаданных сообщения с Аудиоинформацией, выполненный с возможностью генерирования метаданных сообщения с Аудиоинформацией на основе решения, что сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, должно быть воспроизведено.
Система может быть выполнена с возможностью:
Хранения - для последующего использования - метаданных сообщения с Аудиоинформацией и/или Потока сообщений с Аудиоинформацией.
Система может содержать:
генератор синтезированного Аудио, выполненный с возможностью синтезирования сообщения с Аудиоинформацией на основе метаданных сообщения с Аудиоинформацией, связанных с по меньшей мере одной ROI.
Процессор метаданных может быть выполнен с возможностью управления мультиплексором или уплотнителем для объединения - на основе метаданных Аудио и/или метаданных сообщения с Аудиоинформацией - пакетов Потока сообщений с Аудиоинформацией с пакетами упомянутого по меньшей мере одного первого Аудиопотока в один Поток для обеспечения добавления сообщения с Аудиоинформацией к указанному по меньшей мере одному Аудиопотоку.
Метаданные сообщения с Аудиоинформацией могут быть закодированы в кадре конфигурации и/или в кадре данных, содержащем по меньшей мере одно из:
метки идентификации,
целочисленного значения, однозначно идентифицирующего воспроизведение метаданных сообщения с Аудиоинформацией,
типа сообщения,
состояния,
индикации зависимости/независимости от сцены,
данных о положении,
данных о коэффициенте усиления,
индикации присутствия соответствующей текстовой подписи,
числа доступных языков,
языка сообщения с Аудиоинформацией,
длины текста с данными,
текста с данными соответствующей текстовой подписи и/или
описания сообщения с Аудиоинформацией.
Процессор метаданных и/или процессор ROI может быть выполнен с возможностью осуществления по меньшей мере одной из следующих операций:
извлечение метаданных сообщения с Аудиоинформацией из Потока;
изменение метаданных сообщения с Аудиоинформацией для активации сообщения с Аудиоинформацией и/или установки/изменения его положения;
встраивание метаданных назад в Поток;
подача Потока в дополнительный мультимедийный декодер;
извлечение метаданных Аудио из упомянутого по меньшей мере одного первого Аудиопотока;
извлечение метаданных сообщения с Аудиоинформацией из дополнительного Потока;
изменение метаданных сообщения с Аудиоинформацией для активации сообщения с Аудиоинформацией и/или установки/изменения его положения;
изменение метаданных Аудио упомянутого по меньшей мере одного первого Аудиопотока, чтобы учесть наличие сообщения с Аудиоинформацией и обеспечить объединение;
подача Потока в уплотнитель или мультиплексор для его уплотнения или мультиплексирования на основе информации, принимаемой из процессора ROI.
Процессор ROI может быть выполнен с возможностью осуществления локального поиска дополнительного Аудиопотока, в котором закодировано сообщение с Аудиоинформацией, и/или метаданных сообщения с Аудиоинформацией, и в случае ненахождения - отправки запроса дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией на удаленный объект.
Процессор ROI может быть выполнен с возможностью осуществления локального поиска дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией и в случае ненахождения - инициирования генерирования Генератором синтезированного Аудио Потока сообщения с Аудиоинформацией и/или метаданных сообщения с Аудиоинформацией.
Система может быть выполнена с возможностью:
приема упомянутого по меньшей мере одного дополнительного Аудиопотока, в который включено по меньшей мере одно сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI; и
декодирования упомянутого по меньшей мере одного дополнительного Аудиопотока, если процессор ROI решает, что должно быть воспроизведено сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI.
Система может содержать:
по меньшей мере один первый Аудиодекодер для декодирования упомянутого по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока;
по меньшей мере один дополнительный Аудиодекодер для декодирования упомянутого по меньшей мере одного сообщения с Аудиоинформацией из дополнительного Аудиопотока; и
по меньшей мере один смеситель и/или рендерер для смешивания и/или наложения сообщения с Аудиоинформацией из упомянутого по меньшей мере одного дополнительного Аудиопотока с упомянутым по меньшей мере одним Аудиосигналом из упомянутого по меньшей мере одного первого Аудиопотока.
Система может быть выполнена с возможностью отслеживания показателей, связанных с хронологическими и/или статистическими данными, которые связаны с воспроизведением сообщения с Аудиоинформацией, чтобы запретить воспроизведение сообщения с Аудиоинформацией, если показатели находятся выше заданного порога.
Решение процессора ROI может основываться на прогнозировании данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя относительно положения ROI.
Система может быть выполнена с возможностью приема упомянутого по меньшей мере одного первого Аудиопотока и при решении, что сообщение с информацией должно быть воспроизведено, запроса Потока информации Аудиосообщения от удаленного объекта.
Система может быть выполнена с возможностью установления, воспроизводить ли два сообщения с Аудиоинформацией одновременно или выбирать воспроизведение более приоритетного сообщения с Аудиоинформацией в первоочередном порядке по отношению к менее приоритетному сообщению с Аудиоинформацией.
Система может быть выполнена с возможностью идентификации сообщения с Аудиоинформацией среди множества сообщений с Аудиоинформацией, кодированных в один дополнительный Аудиопоток, на основе адреса и/или положения сообщений с Аудиоинформацией в Аудиопотоке.
Аудиопотоки могут быть форматированы в формате Аудиопотока MPEG-H 3D.
Система может быть выполнена с возможностью:
приема данных о доступности множества адаптационных наборов, причем доступные адаптационные наборы содержат по меньшей мере один адаптационный набор Аудиосцены для упомянутого по меньшей мере одного первого Аудиопотока и по меньшей мере один адаптационный набор Аудиосообщения для упомянутого по меньшей мере одного дополнительного Аудиопотока, содержащего по меньшей мере одно сообщение с Аудиоинформацией;
создания - на основе решения процессора ROI - данных для выбора, идентифицирующих, какие из адаптационных наборов должны быть получены, причем доступные адаптационные наборы содержат по меньшей мере один адаптационный набор Аудио сцены и/или по меньшей мере один адаптационный набор Аудиосообщения; и
запроса и/или получения данных для адаптационных наборов, идентифицированных в данных для выбора,
причем каждый адаптационный набор группирует различные способы кодировки для различных скоростей передачи битов.
Система может быть выполнена таким образом, что по меньшей мере один из ее элементов содержит клиент Динамической Адаптивной Потоковой Передачи по HTTP, DASH и/или выполнен с возможностью получения данных для каждого адаптационного набора с помощью Базового Формата Медиафайлов ISO, ISO BMFF, или Транспортного Потока MPEG-2, MPEG-2 TS.
Процессор ROI может быть выполнен с возможностью проверки соответствий между ROI и данными текущего окна просмотра и/или положения и/или ориентации головы и/или движения, чтобы проверить, представлена ли ROI в текущем окне просмотра, и в случае, если ROI находится за пределами данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения, акустической сигнализации присутствия ROI пользователю.
Процессор ROI может быть выполнен с возможностью проверки соответствий между ROI и данными текущего окна просмотра и/или положения и/или ориентации головы и/или движения, чтобы проверить, представлена ли ROI в текущем окне просмотра, и в случае, если ROI находится в пределах данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения, недопущения акустической сигнализации присутствия ROI пользователю.
Система может быть выполнена с возможностью приема - от удаленного объекта - упомянутого по меньшей мере одного видеопотока, связанного со сценой видеосреды, и упомянутого по меньшей мере одного аудиопотока, связанного с аудиосценой, причем аудиосцена связана со сценой видеосреды.
Процессор ROI может быть выполнен с возможностью выбора - среди множества воспроизводимых сообщений с аудиоинформацией - воспроизведения одного первого сообщения с аудиоинформацией перед вторым сообщением с аудиоинформацией.
Система может содержать кэш-память для хранения сообщения с аудиоинформацией, принимаемого от удаленного объекта или синтезированного, для повторного использования сообщения с аудиоинформацией в различные моменты времени.
Сообщение с Аудиоинформацией может являться аудиоиконкой.
Упомянутый по меньшей мере один видеопоток и/или упомянутый по меньшей мере один первый аудиопоток могут являться частью текущей сцены видеосреды и/или видео-аудиосцены, соответственно, и не зависеть от данных текущего окна просмотра и/или ориентации головы и/или движения пользователя в текущей сцене видеосреды и/или видео-аудиосцене.
Система может быть выполнена с возможностью отправки запроса упомянутого по меньшей мере одного первого аудиопотока и/или по меньшей мере одного видеопотока на удаленный объект применительно к аудиопотоку и/или потоку видеосреды, соответственно, и воспроизведения упомянутого по меньшей мере одного сообщения с аудиоинформацией на основе данных текущего окна просмотра и/или ориентации головы и/или движения пользователя.
Система может быть выполнена с возможностью отправки запроса упомянутого по меньшей мере одного первого аудиопотока и/или по меньшей мере одного видеопотока на удаленный объект применительно к аудиопотоку и/или потоку видеосреды, соответственно, и отправки запроса - на удаленный объект - упомянутого по меньшей мере одного сообщения с аудиоинформацией на основе данных текущего окна просмотра и/или ориентации головы и/или движения пользователя.
Система может быть выполнена с возможностью отправки запроса упомянутого по меньшей мере одного первого аудиопотока и/или по меньшей мере одного видеопотока на удаленный объект применительно к аудиопотоку и/или потоку видеосреды, соответственно, и синтезирования упомянутого по меньшей мере одного сообщения с аудиоинформацией на основе данных текущего окна просмотра и/или ориентации головы и/или движения пользователя.
Система может быть выполнена с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с аудиоинформацией, причем критерии дополнительно включают в себя выбор пользователя и/или настройку пользователя.
Система может быть выполнена с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с аудиоинформацией, причем критерии дополнительно включают в себя состояние системы.
Система может быть выполнена с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с аудиоинформацией, причем критерии дополнительно включают в себя число воспроизведений сообщений с аудиоинформацией, которые уже были выполнены.
Система может быть выполнена с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с аудиоинформацией, причем критерии дополнительно включают в себя флаг в потоке данных, полученном от удаленного объекта.
В соответствии с одним из аспектов, предлагается система, содержащая клиент, выполненный в виде системы из любого из примеров, приведенных выше и/или ниже, и удаленный объект, выполненный в виде сервера для доставки упомянутого по меньшей мере одного Видеопотока и упомянутого по меньшей мере одного Аудиопотока.
Удаленный объект может быть выполнен с возможностью поиска - в базе данных, интранете, интернете и/или географической сети - упомянутого по меньшей мере одного дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией и, в случае нахождения, доставки упомянутого по меньшей мере одного дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией.
Удаленный объект может быть выполнен с возможностью синтезирования упомянутого по меньшей мере одного дополнительного Аудиопотока и/или генерирования метаданных сообщения с Аудиоинформацией.
В соответствии с одним из аспектов, может предлагаться способ для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, включающий в себя:
декодирование по меньшей мере одного Видеосигнала из упомянутой по меньшей мере одной видео- и аудиосцены, воспроизводимой пользователю;
декодирование по меньшей мере одного Аудиосигнала из воспроизводимой видео- и аудиосцены;
решение - на основе данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных пользователя, должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с аудиоинформацией не зависит от упомянутого по меньшей мере одного Видеосигнала и упомянутого по меньшей мере одного Аудиосигнала; и
инициирование - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией.
В соответствии с одним из аспектов, может предлагаться способ для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, включающий в себя:
декодирование по меньшей мере одного Видеосигнала из упомянутого по меньшей мере одного Видеопотока для представления сцены среды VR, AR, MR или Панорамного Видео пользователю;
декодирование по меньшей мере одного Аудиосигнала из упомянутого по меньшей мере одного первого Аудиопотока для представления Аудиосцены пользователю;
решение - на основе данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных пользователя - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с аудиоинформацией является аудиоиконкой; и
инициирование - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией.
Способы, описанные выше и/или ниже, могут включать в себя:
прием и/или обработку и/или манипулирование с метаданными, чтобы инициировать - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведение сообщения с Аудиоинформацией в соответствии с метаданными таким образом, что сообщение с Аудиоинформацией является частью Аудиосцены.
Способы, описанные выше и/или ниже, могут включать в себя:
воспроизведение аудио- и видеосцены; и
решение дополнительно воспроизвести сообщение с аудиоинформацией на основе данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных пользователя.
Способы, описанные выше и/или ниже, могут включать в себя:
воспроизведение аудио- и видеосцены; и
в случае, если упомянутая по меньшей мере одна ROI находится за пределами данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя, инициирование воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI, в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и/или
в случае, если упомянутая по меньшей мере одна ROI находится в пределах данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя, запрет и/или деактивацию воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI.
В соответствии с примерами, предлагается система для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или Панорамного Видео, выполненная с возможностью:
приема по меньшей мере одного Видеопотока; и
приема по меньшей мере одного первого Аудиопотока,
причем система содержит:
по меньшей мере один мультимедийный Видеодекодер, выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока для представления сцены среды VR, AR, MR или Панорамного Видео пользователю; и
по меньшей мере один мультимедийный Аудиодекодер, выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока для представления Аудиосцены пользователю;
процессор области интереса, ROI, выполненный с возможностью:
решения - на основе данных текущего окна просмотра и/или ориентации головы и/или движения и/или метаданных пользователя - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI; и
инициирования - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией.
В примерах предлагается система для среды виртуальной реальности, VR, дополненной реальности, AR смешанной реальности, MR, или Панорамного Видео, выполненная с возможностью:
приема по меньшей мере одного Видеопотока; и
приема по меньшей мере одного первого Аудиопотока,
причем система содержит:
по меньшей мере один мультимедийный Видеодекодер, выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока для представления сцены среды VR, AR, MR или Панорамного Видео пользователю; и
по меньшей мере один мультимедийный Аудиодекодер, выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока для представления Аудиосцены пользователю;
процессор области интереса, ROI, выполненный с возможностью решения - на основе данных текущего окна просмотра и/или положения и/или ориентации головы и/или движения и/или метаданных пользователя и/или иных критериев - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI; и
процессор метаданных, выполненный с возможностью приема и/или обработки и/или манипулирования с метаданными, чтобы инициировать - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией в соответствии с метаданными таким образом, что сообщение с Аудиоинформацией является частью Аудиосцены.
В соответствии с одним из аспектов, предлагается блок долговременной памяти, содержащий инструкции, которые при исполнении процессором инициируют осуществление процессором способа, описанного выше и/или ниже.
5. Описание чертежей
На фиг. 1-5, 5a и 6 изображены примеры реализаций;
На фиг. 7 изображен способ в соответствии с одним из примеров;
На фиг. 8 изображен пример реализации.
6. Примеры
6.1 Общие примеры
На фиг. 1 изображен пример системы 100 для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR или Панорамного Видео. Система 100 может быть связана, например, с устройством использования контента (например, Головным Дисплеем и т.п.), которое воспроизводит визуальные данные на сферическом или полусферическом дисплее, тесно связанном с головой пользователя.
Система 100 может содержать по меньшей мере один мультимедийный Видеодекодер 102 и по меньшей мере один мультимедийный Аудиодекодер 112. Система 100 может принимать по меньшей мере один Видеопоток 106, в котором Видеосигнал закодирован для представления сцены 118а среды VR, AR, MR или Панорамного Видео пользователю. Система 100 может принимать по меньшей мере один первый Аудиопоток 116, в котором Аудиосигнал закодирован для представления Аудиосцены 118b пользователю.
Система 100 может также содержать процессор 120 области интереса, ROI. Процессор 120 ROI может обрабатывать данные, связанные с ROI. Вообще говоря, присутствие ROI может сигнализироваться в метаданных 131 окна просмотра. Метаданные 131 окна просмотра могут быть закодированы в Видеопотоке 106 (в других примерах метаданные 131 окна просмотра могут быть закодированы в других Потоках). Метаданные 131 окна просмотра могут содержать, например, информацию о положении (например, информацию о координатах), связанную с ROI. Например, ROI может в примерах рассматриваться как прямоугольник (определяемый координатами, такими как положение одной из четырех вершин прямоугольников в сферическом Видео и длина сторон прямоугольника). ROI, как правило, проецируется в сферическом Видео. ROI, как правило, связана с видимым элементом, который, как предполагается (в соответствии с конкретной конфигурацией), представляет интерес для пользователя. Например, ROI может быть связана с прямоугольной зоной, отображаемой устройством использования контента (либо тем или иным образом видимой пользователю).
Процессор 120 ROI может, помимо прочего, управлять операциями мультимедийного Аудиодекодера 112.
Процессор 120 ROI может получать данные 122, связанные с текущим окном просмотра и/или положением и/или ориентацией головы и/или движением пользователя (кроме того, виртуальные данные, связанные с виртуальным положением, могут рассматриваться в некоторых примерах, как часть данных 122). Эти данные 122 могут предусматриваться по меньшей мере частично, например, устройством использования контента или блоками позиционирования/обнаружения.
Процессор 120 ROI может проверять соответствия между ROI и данными 122 текущего окна просмотра и/или положения (реального или виртуального) и/или ориентации головы и/или движения пользователя (в примерах могут использоваться иные критерии). Например, процессор ROI может проверять, представлена ли ROI в текущем окне просмотра. В случае, если ROI лишь частично представлена в окне просмотра (например, на основе движений головы пользователя), может определяться, например, отображается ли на экране минимальная доля ROI. В любом случае процессор 120 ROI способен обнаруживать, что ROI не представлена или невидима пользователю.
В случае, если ROI считается находящейся за пределами данных 122 текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя, процессор 120 ROI может акустически сигнализировать присутствие ROI пользователю. Например, процессор 120 ROI может запрашивать воспроизведение сообщения с Аудиоинформацией (Аудиоиконки) помимо Аудиосигнала, декодированного из по меньшей мере одного первого Аудиопотока 116.
В случае, если ROI считается находящейся в пределах данных 122 текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя, процессор ROI может решить исключить воспроизведение сообщения с Аудиоинформацией.
Сообщение с Аудиоинформацией может быть закодировано в Аудиопотоке 140 (Потоке сообщений с Аудиоинформацией), который может быть таким же, как Аудиопоток 116 или другой Поток. Аудиопоток 140 может быть сгенерирован системой 100 или может быть получен от внешнего объекта (например, сервера). Метаданные Аудио, такие как метаданные 141 сообщения с Аудиоинформацией, могут быть определены для описания свойств Потока 140 с Аудиоинформацией.
Сообщение с Аудиоинформацией может совмещаться (или смешиваться или мультиплексироваться или объединяться или комбинироваться или складываться) с сигналом, кодированным в Аудиопотоке 116, или может не выбираться, например, попросту на основе решения процессора 120 ROI. Процессор 120 ROI может основывать свое решение на окне просмотра и/или положении и/или ориентации головы и/или данных о движении 122, метаданных (таких как метаданные 131 окна просмотра или иные метаданные) и/или иных критериях (например, выделенных фрагментах, состоянии системы, числе воспроизведений сообщений с Аудиоинформацией, которые уже выполнены, конкретных функциях и/или операциях, предпочитаемых пользователем настройки, которые могут запретить использование Аудиоиконок, и так далее).
Может быть реализован процессор 132 метаданных. Процессор 132 метаданных может быть установлен, например, между процессором 120 ROI (которым он может управляться) и мультимедийным Аудиодекодером 112 (который может управляться из процессора метаданных). В примерах процессор метаданных является секцией процессора 120 ROI. Процессор 132 метаданных может принимать, генерировать, обрабатывать и/или манипулировать с метаданными 141 сообщения с Аудиоинформацией. Процессор 132 метаданных может также обрабатывать и/или манипулировать с метаданными Аудиопотока 116, например, для смешивания Аудиопотока 116 с Потоком 140 сообщений с Аудиоинформацией. Дополнительно или в качестве альтернативы, процессор 132 метаданных может принимать метаданные Аудиопотока 116, например от сервера (например, удаленного объекта).
Процессор 132 метаданных может вследствие этого изменять воспроизведение Аудиосцены и адаптировать сообщение с Аудиоинформацией к конкретным ситуациям и/или выделенным фрагментам и/или состояниям.
При этом рассматриваются некоторые преимущества некоторых реализаций.
Сообщения с Аудиоинформацией могут быть точно идентифицированы, например, с помощью метаданных 141 сообщения с Аудиоинформацией.
Сообщения с Аудиоинформацией могут быть легко активированы/деактивированы, например, путем изменения метаданных (например, процессором 132 метаданных). Сообщения с Аудиоинформацией могут быть, например, разрешены/запрещены на основе текущего окна просмотра и информации о ROI (а также специальных функций или эффектов, которые должны достигаться).
Сообщение с Аудиоинформацией (содержащее, например, состояние, тип, пространственную информацию и так далее) может легко сигнализироваться и изменяться традиционным оборудованием, например, Клиентом Динамической Адаптивной Потоковой Передачи по HTTP (DASH).
Удобный доступ к сообщению с Аудиоинформацией (содержащему, например, состояние, тип, пространственную информацию и так далее) на уровне системы может вследствие этого обеспечивать дополнительный признак для улучшения пользовательского восприятия. Следовательно, система 100 может легко настраиваться и позволять дополнительные реализации (например, конкретные применения), что может выполняться персоналом, который не зависит от разработчиков системы 100.
Кроме того, достигается адаптивность при обращении к различным типам сообщений с Аудиоинформацией (например, естественный звук, синтезированный звук, звук, генерируемый в DASH-Клиенте, и т.д.).
Другие преимущества (которые также будут понятны из нижеследующих примеров):
- Использование текстовых подписей в метаданных (в качестве основы для отображения чего-либо или генерирования Аудиоиконки)
- Адаптация положения Аудиоиконки на основе устройства (если это HMD, хотелось бы точное местоположение, если это громкоговоритель, возможно, лучше использовать другое местоположение - непосредственно в один громкоговоритель).
- Различные классы устройства:
- Метаданные Аудиоиконок могут быть созданы таким образом, чтобы Аудиоиконка сигнализировалась как активная
- Некоторые устройства будут знать только, как разбирать метаданные и воспроизводить Аудиоиконку
- Некоторые более новые устройства, в которых дополнительно имеется усовершенствованный процессор ROI, могут решить деактивировать ее в случае, если она не нужна
- Больше информации и дополнительный количественный показатель по адаптационным наборам.
Следовательно, в среде VR/AR пользователь обычно может визуализировать полный панорамный контент с помощью, например, Головного Дисплея (HMD) и прослушивать его через наушники. Обычно пользователь может перемещаться в пространстве VR/AR или по меньшей мере изменять направление наблюдения - так называемое «окно просмотра» для видео. По сравнению с классическим использованием контента, для VR создатели контента уже не могут управлять тем, что пользователь визуализирует в различные моменты времени - текущим окном просмотра. Пользователь имеет возможность в каждый момент времени выбирать различные окна просмотра из допустимых или имеющихся окон просмотра. Чтобы указать пользователю Область Интереса (ROI), могут использоваться слышимые звуки - либо естественные, либо синтезированные звуки - путем воспроизведения их в положении ROI. Эти аудиосообщения известны как «Аудиоиконки». В данном изобретении предлагается решение для эффективной доставки таких сообщений и предлагается оптимизированное поведение приемника для использования Аудиоиконок без влияния на пользовательское восприятие и использование контента. Это приводит к повышенному Качеству Восприятия. Это может достигаться путем использования специальных метаданных и механизмов манипулирования с метаданными на уровне системы для разрешения или запрещения Аудиоиконок в конечной сцене.
Процессор 132 метаданных может быть выполнен с возможностью приема и/или обработки и/или манипулирования с метаданными 141, чтобы инициировать - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведение сообщения с Аудиоинформацией в соответствии с метаданными 141. Аудиосигналы (например, Аудиосигналы для представления сцены) могут рассматриваться как являющиеся частью аудиосцены (например, аудиосцены, загружаемой с удаленного сервера). Аудиосигналы могут быть в целом семантически значимыми для аудиосцены, и все присутствующие аудиосигналы вместе составляют аудиосцену. Аудиосигналы могут быть закодированы вместе в одном битовом потоке аудио. Аудиосигналы могут быть созданы создателем контента и/или могут быть связаны с конкретной сценой и/или могут быть независимыми от ROI.
Сообщение с аудиоинформацией (например, аудиоиконка) может рассматриваться как не являющееся семантически значимым для аудиосцены. Оно может рассматриваться как независимый звук, который может быть сгенерирован искусственно, например, записанный звук, голос человека в записывающем устройстве и т.д. Оно может быть также зависящим от устройства (например, системным звуком, генерируемым при нажатии кнопки на пульте дистанционного управления). Сообщение с аудиоинформацией (например, аудиоиконка) может рассматриваться как предназначенное для направления пользователя в сцене, не являясь частью сцены.
Сообщение с аудиоинформацией может быть независимым от аудиосигналов, как указано выше. В соответствии с различными примерами, оно может либо быть включено в тот же битовый поток, либо передаваться в отдельном битовом потоке, либо генерироваться системой 100.
Возможный пример аудиосцены, состоящей из множества аудиосигналов:
- Аудиосцена - концертное помещение, которое содержит 5 аудиосигналов:
- Аудиосигнал 1: Звук пианино
- Аудиосигнал 2: Голос певца
- Аудиосигнал 3: Голос Человека 1 из зрителей
- Аудиосигнал 4: Голос Человека 2 из зрителей
- Аудиосигнал 5: Звук, создаваемый часами на стене.
Сообщение с аудиоинформацией может представлять собой, например, записанный звук, такой как «посмотрите на пианиста» (пианино является ROI). Если пользователь уже смотрит на пианиста, это аудиосообщение не будет воспроизводиться.
Еще один пример: позади пользователя открывается дверь (например, виртуальная дверь), и в комнату входит новый человек; пользователь туда не смотрит. На основе этого (информации, относящейся к среде VR, такой как виртуальное положение) может запускаться аудиоиконка, чтобы известить пользователя, что позади него что-то происходит.
В примерах каждая сцена (например, с соответствующими аудио- и видеопотоками) передается от сервера клиенту, когда пользователь изменяет среду.
Сообщение с аудиоинформацией может быть адаптивным. В частности:
- сообщение с аудиоинформацией может находиться в том же аудиопотоке, связанном с воспроизводимой сценой;
- сообщение с аудиоинформацией может находиться в дополнительном аудиопотоке;
- сообщение с аудиоинформацией может полностью отсутствовать, но в потоке могут присутствовать только метаданные, описывающие аудиоиконку, а сообщение с аудиоинформацией может генерироваться в системе;
- сообщение с аудиоинформацией может полностью отсутствовать, так же, как и метаданные, описывающие сообщение с аудиоинформацией, и в этом случае система генерирует и то, и другое (аудиоиконку и метаданные) на основе другой информации о ROI в потоке.
Сообщение с аудиоинформацией в целом не зависит от любого Аудиосигнала в составе Аудиосцены и не используется для представления Аудиосцены.
Примеры систем, реализующих или содержащих части, которые реализует система 100, приводятся ниже.
6.2 Пример на фиг. 2
На фиг. 2 изображена система 200 (которая может содержать по меньшей мере часть, реализующую систему 100), которая в данном документе представлена как разделенная на серверную сторону 202, сторону 203 доставки медиаданных, клиентскую сторону 204 и/или сторону 206 устройства использования медиаданных. Каждая из сторон 202, 203, 204 и 206 сама по себе является системой и может быть объединена с любой другой системой для получения еще одной системы. При этом сообщения с Аудиоинформацией называются Аудиоиконками, даже если можно обобщить их на любой тип сообщений с Аудиоинформацией.
Клиентская сторона 204 может принимать упомянутый по меньшей мере один Видеопоток 106 и/или упомянутый по меньшей мере один Аудиопоток 116 от серверной стороны 202 через сторону 203 доставки медиаданных.
Сторона 203 доставки может, например, основываться на системе связи, такой как облачная система, сетевая система, географическая сеть связи или хорошо известные форматы передачи мультимедийных данных (Транспортный Поток MPEG-2 TS, DASH, MMT, DASH ROUTE и т.д.) или даже файловое хранилище. Сторона 203 доставки может быть выполнена с возможностью осуществления связи в форме электрических сигналов (например, по кабелю, беспроводным способом и т.д.) и/или путем распространения пакетов данных (например, в соответствии с конкретным протоколом связи) с битовыми Потоками, в которых закодированы Аудио- и Видеосигналы. Сторона 203 доставки может, тем не менее, быть реализована с помощью двухточечной связи, последовательного или параллельного соединения и так далее. Сторона 203 доставки может осуществлять беспроводное соединение, например, в соответствии с такими протоколами, как WiFi, Bluetooth и так далее.
Клиентская сторона 204 может быть связана с устройством использования медиаданных, например, HND, например, в которое может быть вставлена голова пользователя (тем не менее, могут использоваться и другие устройства). Следовательно, пользователь может воспринимать Видео- и Аудиосцену (например, сцену VR), подготовленную клиентской стороной 204 на основе Видео- и Аудиоданных, предоставляемых серверной стороной 202. Тем не менее возможны и другие реализации.
Серверная сторона 202 в данном документе представлена как содержащая кодер 240 медиаданных (который может охватывать кодеры Видео, кодеры Аудио, кодеры субтитров и т.д.). Этот кодер 240 может быть связан, например, с представляемой Аудио- и Видеосценой. Аудиосцена может, например, быть предназначена для воссоздания среды и связана с по меньшей мере одним из Потоков 106, 116 Аудио-и Видеоданных, который может быть закодирован на основе положения (или виртуального положения), достигаемого пользователем в среде VR, AR, MR. Вообще говоря, Видеопоток 106 кодирует сферические изображения, только часть которых (окна просмотра) будет видна пользователем в соответствии с его положением и движениями. Аудиопоток 116 содержит Аудиоданные, которые участвуют в представлении Аудиосцены, и предполагается, что они слышны пользователю. В соответствии с примерами, Аудиопоток 116 может содержать метаданные 236 Аудио (относящиеся по меньшей мере к одному Аудиосигналу, который, как предполагается, участвует в представлении Аудиосцены) и/или метаданные 141 Аудиоиконок (которые могут описывать Аудиоиконки, воспроизводимые лишь в некоторых случаях).
Система 100 при этом представлена как находящаяся на клиентской стороне 204. Для упрощения на фиг. 2 мультимедийный Видеодекодер 112 не представлен.
Чтобы подготовить воспроизведение Аудиоиконки (или иных сообщений с Аудиоинформацией), могут использоваться метаданные 141 Аудиоиконок. Метаданные 141 Аудиоиконок могут рассматриваться как метаданные (которые могут быть закодированы в Аудиопотоке), которые описывают и предусматривают атрибуты, связанные с Аудиоиконкой. Следовательно, Аудиоиконка (если она должна воспроизводиться) может основываться на атрибутах метаданных 141 Аудиоиконок.
Предпочтительно, процессор 132 метаданных может, в частности, быть реализован для обработки метаданных 141 Аудиоиконок. Например, процессор 132 метаданных может управлять приемом, обработкой, манипулированием и/или генерированием метаданных 141 Аудиоиконок. После обработки метаданные Аудиоиконок могут быть представлены как измененные метаданные 234 Аудиоиконок. Например, можно манипулировать с метаданными Аудиоиконок для получения конкретного эффекта и/или для выполнения операций обработки Аудио, таких как уплотнение или смешивание, для добавления Аудиоиконки к Аудиосигналу, представляемому в Аудиосцене.
Процессор 132 метаданных может управлять приемом, обработкой, манипулированием метаданных 236 Аудио, связанных с по меньшей мере одним Потоком 116. После обработки метаданные 236 Аудио могут быть представлены как измененные метаданные 238 Аудио.
Измененные метаданные 234 и 238 могут выдаваться в мультимедийный Аудиодекодер 112 (или множество декодеров в некоторых примерах) для воспроизведения Аудиосцены 118b пользователю.
В примерах может предлагаться в качестве необязательного компонента генератор синтезированного Аудио и/или запоминающее устройство 246. Генератор может синтезировать Аудиопоток (например, для генерирования Аудиоиконки, которая не закодирована в Потоке). Запоминающее устройство позволяет запоминать (например, в кэш-памяти) Потоки Аудиоиконок (например, для последующего использования), которые были сгенерированы генератором и/или получены в принятом Аудиопотоке.
Следовательно, процессор 120 ROI может принимать решение относительно представления Аудиоиконки на основе данных 122 текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя. Тем не менее, процессор 120 ROI может также основывать свое решение на критериях, которые включают в себя иные аспекты.
Например, процессор ROI может разрешать/запрещать воспроизведение Аудиоиконки на основе других условий, например, выделенных фрагментов пользователя или выделенных фрагментов более высокого уровня, например, на основе конкретного приложения, которое предполагается использовать. Для приложения Видеоигры, например, Аудиоиконки или иные сообщения с Аудиоинформацией могут быть исключены для высоких уровней Видеоигр. Это легко может быть получено с помощью процессора метаданных путем отключения Аудиоиконок в метаданных Аудиоиконок.
Более того, можно запрещать Аудиоиконки на основе состояния системы: если, например, Аудиоиконка уже была воспроизведена, ее повтор может быть запрещен. Может использоваться таймер, например, для исключения слишком быстрых повторов.
Процессор 120 ROI может также запрашивать управляемое воспроизведение последовательности Аудиоиконок (например, Аудиоиконок, связанных со всеми ROI в сцене), например, для инструктирования пользователя по элементам, которые он может видеть. Процессор 132 метаданных может управлять этой операцией.
Процессор 120 ROI может также изменять положение Аудиоиконки (т.е. пространственное местоположение в сцене) или тип Аудиоиконки. Например, некоторые пользователи могут предпочесть иметь в качестве Аудиоиконки один конкретный звук, воспроизводимый в точном местоположении/положении ROI, в то время как другие пользователи может предпочесть иметь Аудиоиконку, всегда воспроизводимую в одном фиксированном местоположении (например, находящийся в центральном или верхнем положении «глас Божий» и т.д.) в качестве звука голоса, указывающего положение, в котором расположена ROI.
Можно изменять коэффициент усиления (например, для получения другой громкости) воспроизведения Аудиоиконки. Это решение может, например, соответствовать выбору пользователя. Примечательно, что на основе решения процессора ROI процессор 132 метаданных будет осуществлять изменение коэффициента усиления путем изменения - среди метаданных Аудиоиконок, связанных с Аудиоиконкой - конкретного атрибута, связанного с коэффициентом усиления.
Первый разработчик среды VR, AR, MR может также не знать о том, как в действительности будут воспроизводиться Аудиоиконки. Например, результаты выбора пользователем могут изменять конечный рендеринг Аудиоиконок. Такая операция может управляться, например, процессором 132 метаданных, который может изменять метаданные 141 Аудиоиконок на основе решения процессора ROI.
Таким образом, операции, выполняемые с Аудиоданными, связанными с Аудиоиконкой, вследствие этого в принципе независимы от упомянутого по меньшей мере одного Аудиопотока 116, используемого для представления Аудиосцены, и могут регулироваться иным образом. Аудиоиконки могут даже генерироваться независимо от Аудио- и Видеопотоков 106 и 116, которые составляют Аудио- и Видеосцену, и могут создаваться различными и независимыми предпринимательскими группами.
Следовательно, данные примеры позволяют увеличить удовлетворенность пользователей. Например, пользователь может осуществлять свой выбор, например, путем изменения громкости сообщений с Аудиоинформацией, путем запрета сообщений с Аудиоинформацией и так далее. Следовательно, каждый пользователь может иметь восприятие, более подходящее для его предпочтений. Более того, полученная архитектура является более адаптивной. Сообщения с Аудиоинформацией могут легко обновляться, на пример, путем изменения метаданных независимо от Аудиопотоков и/или путем изменения Потоков сообщений с Аудиоинформацией независимо от метаданных и от главных Аудиопотоков.
Полученная архитектура также совместима с наследуемыми системами: наследуемые Потоки сообщений с Аудиоинформацией могут, например, быть связаны с новыми метаданными сообщения с Аудиоинформацией. В случае отсутствия подходящего Потока сообщений с Аудиоинформацией в данных примерах последний может быть легко синтезирован (и, например, сохранен для последующего использования).
Процессор ROI может отслеживать показатели, связанные с хронологическими и/или статистическими данными, связанными с воспроизведением сообщения с Аудиоинформацией, чтобы запретить воспроизведение сообщения с Аудиоинформацией, если показатели находятся выше заданного порога (это может использоваться в качестве критерия).
Решение процессора ROI может основываться в качестве критерия на прогнозировании данных 122 текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя по отношению к положению ROI.
Процессор ROI может быть дополнительно выполнен с возможностью приема упомянутого по меньшей мере одного первого Аудиопотока 116 и при решении, что сообщение с информацией должно быть воспроизведено, отправки запроса Потока информации Аудиосообщения от удаленного объекта.
Процессор ROI и/или генератор метаданных может быть дополнительно выполнен с возможностью установления, воспроизводить ли два сообщения с Аудиоинформацией одновременно или выбирать воспроизведение более приоритетного сообщения с Аудиоинформацией в первоочередном порядке по отношению к менее приоритетному сообщению с Аудиоинформацией. Чтобы выполнить это решение, могут использоваться метаданные Аудиоинформации. Приоритет может, например, быть получен процессором 132 метаданных на основе значений в метаданных сообщения с аудиоинформацией.
В некоторых примерах кодер 240 медиаданных может быть выполнен с возможностью поиска - в базе данных, интранете, интернете и/или географической сети - дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией и, в случае нахождения, доставки дополнительного Аудиопотока и/или метаданных сообщения с Аудиоинформацией. Например, поиск может быть выполнен по запросу клиентской стороны.
Как упоминалось выше, в данном документе предложено решение для эффективной доставки сообщений Аудиоиконки вместе с Аудиоконтентом. Достигается оптимизированное поведение приемника для использования сообщений с Аудиоинформацией (например, Аудиоиконок) без влияния на пользовательское восприятие и использование контента. Это приведет к повышенному Качеству Восприятия.
Это может достигаться путем использования специальных метаданных и механизмов манипулирования с метаданными на уровне системы для разрешения или запрещения Аудиоиконок в конечных Аудиосценах. Метаданные могут использоваться вместе с любыми Аудиокодеками и прекрасно дополняют метаданные Аудиокодеков Следующего Поколения (например, метаданные Аудио MPEG-H).
Механизмы доставки могут быть различными (например, Потоковая Передача по DASH/HLS, передача по DASH-ROUTE/MMT/MPEG-2 TS, воспроизведение файла и т.д.). В данной заявке рассматривается доставка DASH, но все концепции применимы к другим вариантам доставки.
В большинстве случаев сообщения с Аудиоинформацией не будут перекрываться во временной области, т.е. в конкретный момент времени задается только одна ROI. Но если учесть случаи более расширенного применения, например, в интерактивной среде, где пользователь может изменять контент на основе своих выборов/движений, возможны также сценарии использования, которые требуют множества ROI. Для этой цели в один момент времени может потребоваться более одного сообщения с Аудиоинформацией. Поэтому описывается универсальное решение, позволяющее реализовать все различные сценарии использования.
Доставка и обработка сообщений с Аудиоинформацией должна дополнять существующие способы доставки для Аудио Следующего Поколения.
Один способ передачи множества сообщений с Аудиоинформацией для нескольких ROI, которые являются независимыми во временной области, состоит в смешивании всех сообщений с Аудиоинформацией друг с другом в один Аудиоэлемент (например Аудиообъект), со связанными метаданными, описывающими пространственное положение каждого сообщения с Аудиоинформацией в различные моменты времени. Поскольку сообщения с Аудиоинформацией не перекрываются во времени, к ним можно независимо обращаться в одном совместно используемом Аудиоэлементе. Этот Аудиоэлемент может содержать тишину (или не содержать Аудиоданные) между сообщениями с Аудиоинформацией, т.е. когда отсутствуют сообщения с Аудиоинформацие. В этом случае могут использоваться следующие механизмы:
- Общий Аудиоэлемент сообщения с Аудиоинформацией может предаваться в одном и том же элементарном Потоке (ES) с Аудиосценой, к которой относится, или он может передаваться в одном вспомогательном Потоке (зависимом или независимом от главного Потока).
- Если Аудиоэлемент Аудиоиконки передается во вспомогательном Потоке, зависимом от главного Потока, Клиент может запросить дополнительный Поток, когда в визуальной сцене присутствует новая ROI.
- Клиент (например, система 100) может в примерах запрашивать Поток раньше сцены, требующей Аудиоиконку.
- Клиент может в примерах запрашивать Поток на основе текущего окна просмотра, т.е., если текущее окно просмотра согласуется с ROI, Клиент может решить не запрашивать дополнительный Поток Аудиоиконок.
- Если Аудиоэлемент Аудиоиконки может передаваться во вспомогательном Потоке, независимом от главного Потока, Клиент может запрашивать, аналогично вышеуказанному, дополнительный Поток, когда в визуальной сцене присутствует новая ROI. Кроме того, два (или более) Потока могут обрабатываться с помощью двух Декодеров Медиаданных и общего этапа Рендеринга/Смешивания для подмешивания декодированных Аудиоданных Аудиоиконки в конечную Аудиосцену. В альтернативном варианте могут использоваться Процессор Метаданных для изменения метаданных двух Потоков и «Устройство Объединения Потоков» для объединения двух Потоков. Возможная реализация такого Процессора метаданных и Устройства Объединения Потоков описывается ниже.
В альтернативных примерах множество Аудиоиконок для нескольких ROI, независимых во временной области или перекрывающихся во временной области, может быть передано во множестве Аудиоэлементов (например Аудиообъектов) и встроено либо в один элементарный Поток вместе с главной Аудиосценой, либо во множество вспомогательных Потоков, например, каждая Аудиоиконка в одном ES или группа Аудиоиконок в одном ES на основе общего свойства (например, все Аудиоиконки, расположенные с левой стороны, совместно используют один Поток).
- Если все Аудиоэлементы Аудиоиконки передаются в нескольких вспомогательных Потоках, зависимых от главного Потока (например, одна Аудиоиконка на Поток или группа Аудиоиконок на Поток), Клиент может в примерах запрашивать один дополнительный Поток, который содержит требуемую Аудиоиконку, когда соответствующая ROI с этой Аудиоиконкой присутствует в визуальной сцене.
- Клиент может в примерах запрашивать Поток с Аудиоиконкой раньше сцены, требующей эту Аудиоиконку (например, на основе движений пользователя процессор 120 ROI может выполнять решение, даже если ROI еще не является частью сцены).
- Клиент, в примерах, может запрашивать Поток на основе текущего окна просмотра, если текущее окно просмотра согласуется с ROI, Клиент может решить не запрашивать дополнительный Поток Аудиоиконок.
- Если один Аудиоэлемент Аудиоиконки (или группа Аудиоиконок) передается во вспомогательном Потоке, независимом от главного Потока, Клиент может в примерах запрашивать, аналогично вышеуказанному, дополнительный Поток, когда в визуальной сцене присутствует новая ROI. Кроме того, два (или более) Потока могут обрабатываться с помощью двух Декодеров Медиаданных и общего этапа Рендеринга/Смешивания для подмешивания декодированных Аудиоданных Аудиоиконки в конечную Аудиосцену. В альтернативном варианте могут использоваться Процессор метаданных для изменения метаданных двух Потоков и «Устройство Объединения Потоков» для объединения двух Потоков. Возможная реализация такого Процессора метаданных и Устройства Объединения Потоков описывается ниже.
В альтернативном варианте одна общая (универсальная) Аудиоиконка может использоваться для сигнализации всех ROI в одной Аудиосцене. Это может достигаться с помощью одного и того же Аудиоконтента с различной пространственной информацией, связанной с Аудиоконтентом в различные моменты времени. В этом случае процессор 120 ROI может отправлять запрос в процессор 132 метаданных на сбор Аудиоиконок, связанных с ROI в сцене, и на управление последовательным воспроизведением Аудиоиконок (например, по выбору пользователя или по запросу приложения более высокого уровня).
В альтернативном варианте одна Аудиоиконка может передаваться только один раз и кэшироваться в Клиенте. Клиент может повторно использовать ее для всех ROI в одной Аудиосцене с различной пространственной информацией, связанной с Аудиоконтентом в различные моменты времени.
В альтернативном варианте Аудиоконтент Аудиоиконки может быть синтезирован в Клиенте. Вместе с тем, Генератор Метаданных может использоваться для создания необходимых метаданных для сигнализации пространственной информации Аудиоиконки. Например, Аудиоконтент Аудиоиконки может быть сжат и подан в один Мультимедийный декодерданных вместе с главным Аудиоконтентом и новыми метаданными, либо он может быть подмешан в конечную Аудиосцену после того, как может быть использован Мультимедийный декодерданных или несколько Декодеров Медиаданных.
В альтернативном варианте Аудиоконтент Аудиоиконки может в примерах быть синтезирован в Клиенте (например, под управлением процессора 132 метаданных), в то время как метаданные, описывающие Аудиоиконку, уже встроены в Поток. При использовании конкретной сигнализации типа Аудиоиконки в кодере метаданные могут содержать пространственную информацию Аудиоиконки, конкретную сигнализацию для «Генерируемой Декодером Аудиоиконки», но никаких Аудиоданных для Аудиоиконки.
В альтернативном варианте Аудиоконтент Аудиоиконки может быть синтезирован в Клиенте, а Генератор Метаданных может использоваться для создания необходимых метаданных для сигнализации пространственной информации Аудиоиконки. Например, Аудиоконтент Аудиоиконки может быть
- сжат и подан в один Мультимедийный декодерданных вместе с главным Аудиоконтентом и новыми метаданными;
- либо он может быть подмешан в конечную Аудиосцену после Декодера Медиаданных;
- либо могут использоваться несколько Декодеров Медиаданных.
6.3 Примеры метаданных для сообщений с Аудиоинформацией (например, Аудиоиконок)
Далее приводится пример метаданных 141 сообщения с Аудиоинформацией (Аудиоиконок), описанных выше.
Одна структура, описывающая свойства Аудиоиконки и дающая возможность легко корректировать эти значения:
Каждый идентификатор в таблице может предполагаться связанным с атрибутом метаданных 132 Аудиоиконок.
Далее рассматривается Семантика.
numEarcons - Это поле задает число Аудиоэлементов Аудиоиконок, доступных в Потоке.
Earcon_isIndependent - Этот флаг определяет, является ли Аудиоэлемент Аудиоиконки независимым от любой Аудиосцены. Если Earcon_isIndependent == 1, Аудиоэлемент Аудиоиконки не зависит от Аудиосцены. Если Earcon_isIndependent == 0, Аудиоэлемент Аудиоиконки является частью Аудиосцены, и Earcon_id имеет то же значение, что и mae_groupID, связанное с Аудиоэлементом.
EarconType - Это поле определяет тип Аудиоиконки. В нижеследующей таблице указаны допустимые значения.
Одна структура - для идентификации Аудиоиконок на уровне системы и связи их с существующими окнами просмотра. В нижеследующих таблицах предлагаются два способа реализации такой структуры, которые могут использоваться в различных реализациях:
aligned(8) class EarconSample() extends SphereRegionSample {
for (i=0; i < num_regions; i++) {
unsigned int(7) reserved;
unsigned int(1) has Earcon;
if (hasEarcon == 1) {
unsigned int(8) numRegionEarcons;
for (n=0; n<numRegionEarcons; n++) {
unsigned int(8) Earcon_id;
unsigned int(32) Earcon_track_id;
}
}
}
}
либо в альтернативном варианте:
aligned(8) class EarconSamp1e() extends SphereRegionSample {
for (i=0; i < num_regions; i++) {
unsigned int(32) Earcon_track_id;
unsigned int(8) Earcon_id;
}
}
Семантика:
hasEarcon задает, доступны ли данные Аудиоиконки для одной области.
numRegionEarcon задает число Аудиоиконок, доступных для одной области.
Earcon_id однозначно определяет ID для одного элемента Аудиоиконки, связанного с областью сферы. Если Аудиоиконка является частью Аудиосцены (т.е., Аудиоиконка является частью одной группы элементов, идентифицируемых с помощью одного mae_groupID), Earcon_id ДОЛЖЕН иметь то же значение, что и mae_groupID. Earcon_id может использоваться для идентификации в файле/дорожке Аудио, например в случае DASH-доставки AdaptationSet с элементом EarconComponent@tag в MPD сравнивается с Earcon_id.
Earcon_track_id - целочисленное значение, которое однозначно идентифицирует одну дорожку Аудиоиконки, связанную с областью сферы, в течение всего времени существования одного представления, т.е., если дорожка Аудиоиконки (Аудиоиконок) передается в том же файле ISO BMFF, Earcon_track_id представляет соответствующий track_id дорожки Аудиоиконки (Аудиоиконок). Если Аудиоиконка не доставляется в том же файле ISO BMFF, это значение ДОЛЖНО устанавливаться равным нулю.
Для упрощения идентификации дорожки Аудиоиконки (Аудиоиконок) на уровне MPD нижеследующий Атрибут/Элемент может использоваться для EarconComponent@tag:
Сводка подходящих элементов и атрибутов MPD для Аудио MPEG-H.
Для Аудио MPEG-H это может быть реализовано в примерах путем использования пакетов MHAS:
- может быть определен новый пакет MHAS для передачи информации об Аудиоиконках: PACTYP_EARCON, передающий структуру EarconInfo();
- новое поле идентификации в универсальном пакете MHAS МЕТАДАННЫЕ MHAS для передачи структуры EarconInfo().
По отношению к метаданным процессор 132 метаданных может иметь по меньшей мере некоторые из следующих возможностей:
извлечение метаданных сообщения с Аудиоинформацией из Потока;
изменение метаданных сообщения с Аудиоинформацией для активации сообщения с Аудиоинформацией и/или установки/изменения его положения и/или записи/изменения и текстовой подписи сообщения с Аудиоинформацией;
встраивание метаданных назад в Поток;
подача Потока на дополнительный мультимедийный декодер;
извлечение метаданных Аудио из по меньшей мере одного первого Аудиопотока (116);
извлечение метаданных сообщения с Аудиоинформацией из дополнительного Потока; изменение метаданных сообщения с Аудиоинформацией для активации сообщения с Аудиоинформацией и/или установки/изменения его положения и/или записи/изменения и текстовой подписи сообщения с Аудиоинформацией;
изменение метаданных Аудио упомянутого по меньшей мере одного первого Аудиопотока (116), чтобы учесть наличие сообщения с Аудиоинформацией и обеспечить объединение;
подача Потока на уплотнитель или мультиплексор для уплотнения или мультиплексирования их на основе информации, принимаемой из процессора ROI.
6.4 Пример на фиг. 3
На фиг. 3 изображена система 300, содержащая на клиентской стороне 204 систему 302 (клиентскую систему), которая может реализовывать, например, систему 100 или 200.
Система 302 может содержать процессор 120 ROI, процессор 132 метаданных, группу 313 декодеров, образованную множеством декодеров 112.
В этом примере различные Аудиопотоки декодируются (каждый соответствующим мультимедийным Аудиодекодером 112) и затем смешиваются друг с другом и/или преобразуются вместе для получения конечной Аудиосцены.
Упомянутый по меньшей мере один Аудиопоток при этом представлен как содержащий два Потока 116 и 316 (в других примерах может предусматриваться всего один Поток, как на фиг. 2, или более двух Потоков). Это Аудиопотоки, которые предполагаются при воспроизведении Аудиосцены, восприятие которой ожидается пользователем. При этом упоминаются Аудиоиконки, хотя можно обобщить эту концепцию на любые сообщения с Аудиоинформацией.
Кроме того, Поток 140 Аудиоиконок может выдаваться кодером 240 медиаданных. На основе движений пользователя и ROI, указанных в метаданных 131 окна просмотра, и/или иных критериев процессор ROI будет инициировать воспроизведение Аудиоиконки из Потока 140 Аудиоиконок (также указанного как дополнительный Аудиопоток, являющийся дополнительным к Аудиопотокам 116 и 316).
Примечательно, что фактическое представление Аудиоиконки будет основываться на метаданных 141 Аудиоиконок и на изменениях, выполняемых процессором 132 метаданных.
В примерах запрос Потока может отправляться системой 302 (клиентом) в кодер 240 медиаданных (сервер) в случае необходимости. Например, процессор ROI может решить, что исходя из движений пользователя вскоре потребуется конкретная Аудиоиконка, и вследствие этого может отправлять запрос соответствующего Потока 140 Аудиоиконок в кодер 240 медиаданных.
Можно отметить следующие аспекты данного примера:
- Сценарий использования: Аудиоданные доставляются в одном или более Аудиопотоках 116, 316 (например, одном главном Потоке и вспомогательном Потоке), а Аудиоиконка (Аудиоиконки) передается в одном или более дополнительных Потоках 140 (зависимых или независимых от главного Аудиопотока).
- В одной реализации на клиентской стороне 204 Процессор 120 ROI и Процессор 132 Метаданных используются для эффективной обработки информации Аудиоиконок.
- Процессор 120 ROI может принимать информацию 122 о текущем окне просмотра (информацию об ориентации пользователя) от стороны 206 устройства использования медиаданных, применяемой для использования контента (например, на основе HMD). Процессор ROI может также принимать информацию о ROI, сигнализируемую в Метаданных (Окна Просмотра Видео сигнализируются, как в OMAF).
- На основе этой информации Процессор 120 ROI может решить активировать одну (или более) Аудиоиконку, содержащуюся в Аудиопотоке 140 Аудиоиконок. Кроме того, Процессор 120 ROI может принять решение о другом местоположении Аудиоиконок и других значениях коэффициента усиления (например, для более точного представления Аудиоиконки в текущем пространстве, в котором используется контент).
- Процессор 120 ROI выдает эту информацию в Процессор 132 Метаданных.
- Процессор 132 Метаданных может разобрать метаданные, содержащиеся в Аудиопотоке Аудиоиконка, и
- разрешает Аудиоиконку (чтобы позволить ей воспроизводиться)
- и в случае запроса Процессором 120 ROI соответствующим образом изменяет информацию о пространственном положении и коэффициенте усиления, содержащуюся в метаданных 141 Аудиоиконок.
- Каждый Аудиопоток 116, 316, 140 после этого независимо декодируется и преобразуется (на основе информации о положении пользователя), и выход всех Декодеров Медиаданных смешивается качестве конечного этапа смесителем или рендерером 314. Другая реализация может лишь декодировать сжатое Аудио и выдавать декодированные Аудиоданные и метаданные в Универсальный Общий рендерер для конечного рендеринга всех Аудиоэлементов (включая Аудиоиконки).
- Кроме того, в среде Потоковой Передачи на основе той же информации Процессор 120 ROI может решить отправить запрос Потока (Потоков) 140 Аудиоиконки (Аудиоиконок) заранее (например, когда пользователь смотрит в неправильном направлении за несколько секунд до разрешения ROI.
6.5 Пример на фиг. 4
На фиг. 4 изображена система 400, содержащая на клиентской стороне 204 систему 402 (клиентскую систему), которая может реализовывать, например, систему 100 или 200. При этом упоминаются Аудиоиконки, хотя можно обобщить эту концепцию на любые сообщения с Аудиоинформацией.
Система 402 может содержать процессор 120 ROI, процессор 132 метаданных, уплотнитель или мультиплексор 412 Потока. В примерах, в которых используется уплотнитель или мультиплексор 412, число операций, выполняемых аппаратными средствами, эффективно уменьшается по отношению к числу операций, выполняемых при использовании множества декодеров и одного смесителя или рендерера.
В данном примере различные Аудиопотоки обрабатываются на основе их метаданных и уплотняются или мультиплексируются в элементе 412.
Упомянутый по меньшей мере один Аудиопоток при этом представлен как содержащий два Потока 116 и 316 (в других примерах может предусматриваться всего один Поток, как на фиг. 2, или более двух Потоков). Это Аудиопотоки, которые предполагаются при воспроизведении Аудиосцены, восприятие которой ожидается пользователем.
Кроме того, Поток 140 Аудиоиконок может выдаваться кодером 240 медиаданных. На основе движений пользователя и ROI, указанных в метаданных 131 окна просмотра, и/или иных критериев процессор 120 ROI будет инициировать воспроизведение Аудиоиконки из Потока 140 Аудиоиконок (также указанного как дополнительный Аудиопоток, являющийся дополнительным к Аудиопотокам 116 и 316).
Каждый Аудиопоток 116, 316, 140 может содержать метаданные 236, 416, 141 соответственно. С по меньшей мере некоторыми из этих метаданных может осуществляться манипулирование и/или обработка для выдачи в мультиплексор или уплотнитель 412 Потока, в котором пакеты Аудиопотоков объединяются друг с другом. В этой связи, Аудиоиконка может быть представлена как часть Аудиосцены.
Мультиплексор или уплотнитель 412 Потока может вследствие этого выдавать Аудиопоток 414, содержащий измененные метаданные 238 Аудио и измененные метаданные 234 Аудиоиконок, которые могут выдаваться в Аудиодекодер 112 и декодироваться и воспроизводиться пользователю.
Можно отметить следующие аспекты данного примера:
- Сценарий использования: Аудиоданные доставляются в одном или более Аудиопотоках 116, 316 (например, одном главном Потоке 116 и вспомогательном Потоке 316, а также может предусматриваться всего один Аудиопоток), а Аудиоиконка (Аудиоиконки) передается в одном или более дополнительных Потоках 140 (зависимых или независимых от главного Аудиопотока 116).
- В одной реализации на клиентской стороне 204 Процессор 120 ROI и Процессор 132 Метаданных используются для эффективной обработки информации Аудиоиконок.
- Процессор 120 ROI может принимать информацию 122 о текущем окне просмотра (информацию об ориентации пользователя) от устройства использования медиаданных, применяемого для использования контента (например, HMD). Процессор 120 ROI может также принимать информацию о ROI, сигнализируемую в Метаданных 141 Аудиоиконки (Окна Просмотра Видео могут сигнализироваться, как в Формате Применения Всенаправленных Данных, OMAF).
- На основе этой информации Процессор 120 ROI может решить активировать одну (или более) Аудиоиконку, содержащуюся в дополнительном Аудиопотоке 140. Кроме того, Процессор 120 ROI может принять решение о другом местоположении Аудиоиконок и других значениях коэффициента усиления (например, для более точного представления Аудиоиконки в текущем пространстве, в котором используется контент).
- Процессор 120 ROI может выдавать эту информацию в Процессор 132 Метаданных.
- Процессор 132 Метаданных может разобрать метаданные, содержащиеся в Аудиопотоке Аудиоиконок, и
- разрешает Аудиоиконку
- и в случае запроса Процессором ROI соответствующим образом изменяет информацию о пространственном положении и/или коэффициенте усиления и/или текстовые подписи, содержащиеся в метаданных Аудиоиконок.
- Процессор 132 Метаданных может разбирать также метаданные 236, 416 Аудио всех Аудиопотоков 116, 316 и манипулировать с Относящейся к Конкретным Аудио Информацией таким образом, что Аудиоиконка может использоваться как часть Аудиосцены (например, если Аудиосцена имеет платформу канала 5.1 и 4 объекта, Аудиоэлемент Аудиоиконки добавляется к сцене как пятый объект. Все поля метаданных обновляются соответствующим образом).
- Аудиоданные каждого Потока 116, 316 и измененные метаданные Аудио и метаданные Аудиоиконок после этого выдаются в Мультиплексор или уплотнитель Потока, который может генерировать на основе этого один Аудиопоток 414 с одним набором Метаданных (измененные метаданные 238 Аудио и измененные метаданные 234 Аудиоиконок).
- Этот Поток 414 может быть декодирован отдельным Мультимедийным Аудиодекодером 112 на основе информации 122 о положении пользователя.
- Кроме того, в среде Потоковой Передачи на основе той же информации Процессор 120 ROI может решить запросить Поток (Потоки) 140 Аудиоиконки (Аудиоиконок) заранее (например, когда пользователь смотрит в неправильном направлении за несколько секунд до разрешения ROI).
6.6 Пример на фиг. 5
На фиг. 5 изображена система 500, содержащая на клиентской стороне 204 систему 502 (клиентскую систему), которая может реализовывать, например, систему 100 или 200. При этом упоминаются Аудиоиконки, хотя можно обобщить эту концепцию на любые сообщения с Аудиоинформацией.
Система 502 может содержать процессор 120 ROI, процессор 132 метаданных, уплотнитель или мультиплексор 412 Потока.
В данном примере Поток Аудиоиконок не выдается удаленным объектом (на клиентской стороне), а генерируется генератором 246 синтезированного Аудио (который может также иметь возможность сохранения Потока для последующего повторного использования или использовать сохраненную сжатую/несжатую версию естественного звука). Метаданные 141 Аудиоиконок, тем не менее, выдаются удаленным объектом, например, в Аудиопотоке 116 (который не является Потоком Аудиоиконок). Следовательно, генератор 246 синтезированного Аудио может быть активирован для создания Аудиопотока 140 на основе атрибутов метаданных 141 Аудиоиконок. Например, атрибуты могут относиться к типу синтезированного голоса (естественный звук, синтезированный звук, произносимый текст и так далее) и/или текстовым подписям (Аудиоиконка может генерироваться путем создания синтезированного звука на основе текста в метаданных). В примерах после того, как создан Поток Аудиоиконок, он может быть сохранен для повторного использования в будущем. В альтернативном варианте синтезированный звук может являться универсальным звуком, постоянно хранящемся в устройстве.
Мультиплексор или уплотнитель 412 Потока может использоваться для объединения пакетов Аудиопотока 116 (а также в случае других Потоков, таких как вспомогательный Аудиопоток 316) с пакетами Потока Аудиоиконок, генерируемого генератором 246. После этого может быть получен Аудиопоток 414, который связан с измененными метаданными 238 Аудио и измененными метаданными 234 Аудиоиконок. Аудиопоток 414 может быть декодирован декодером 112 и воспроизведен пользователю на стороне 206 устройства использования медиаданных.
Можно отметить следующие аспекты данного примера:
- Сценарий использования:
- Аудиоданные доставляются в одном или более Аудиопотоках (например, одном главном Потоке и вспомогательном Потоке).
- Аудиоиконка (Аудиоиконки) не доставляется из удаленного устройства, но метаданные 141 Аудиоиконок доставляются как часть главного Аудиопотока (конкретная сигнализация может использоваться для индикации, что Аудиоиконка не имеет связанных с ней Аудиоданных).
- В одной реализации на клиентской стороне Процессор 120 ROI и Процессор 132 Метаданных используются для эффективной обработки информации Аудиоиконок.
- Процессор 120 ROI может принимать информацию 122 о текущем окне просмотра (информацию об ориентации пользователя) от устройства, применяемого на стороне 206 устройства использования медиаданных (например, HMD). Процессор 120 ROI может также принимать информацию о ROI, сигнализируемую в Метаданных (Окна Просмотра Видео сигнализируются как в OMAF).
- На основе этой информации Процессор 120 ROI может решить активировать одну (или более) Аудиоиконку (Аудиоиконки), НЕ содержащуюся в Потоке 116. Кроме того, Процессор 120 ROI может принять решение о другом местоположении Аудиоиконок и других значениях коэффициента усиления (например, для более точного представления Аудиоиконки в текущем пространстве, в котором используется контент).
- Процессор 120 ROI может выдавать эту информацию в Процессор 132 Метаданных.
- Процессор 120 Метаданных может разобрать метаданные, содержащиеся в Аудиопотоке 116, и может
- разрешить Аудиоиконку,
- и в случае запроса Процессором 120 ROI соответствующим образом изменить информацию о пространственном положении и коэффициенте усиления, содержащуюся в метаданных 141 Аудиоиконок.
- Процессор 132 Метаданных может разбирать также метаданные Аудио (например, 236, 417) всех Аудиопотоков (116, 316) и манипулировать с Относящейся к Конкретным Аудио Информацией таким образом, что Аудиоиконка может использоваться как часть Аудиосцены (например, если Аудиосцена имеет платформу канала 5.1 и 4 объекта, Аудиоэлемент Аудиоиконки добавляется к сцене как пятый объект. Все поля метаданных обновляются соответствующим образом).
- Измененные Метаданные Аудиоиконок и информация из Процессора 120 ROI выдаются в Генератор 246 Синтезированного Аудио. Генератор 246 Синтезированного Аудио может создавать на основе полученной информации синтезированный звук (например, на основе пространственного положения Аудиоиконки генерируется речевой сигнал, произносящий местоположение). Кроме того, метаданные 141 Аудиоиконок связаны с генерируемыми Аудиоданными в новом Потоке 414.
- Подобным образом, аналогично вышеуказанному, Аудиоданные каждого Потока (116, 316) и измененные метаданные Аудио и метаданные Аудиоиконок после этого выдаются в Мультиплексор Потока, который может генерировать на основе этого один Аудиопоток с одним набором Метаданных (Аудио и Аудиоиконка).
- Этот Поток 414 декодируется отдельным Мультимедийным Аудиодекодером 112 на основе информации о положении пользователя.
- В альтернативном варианте или дополнительно Аудиоданные Аудиоиконки могут кэшироваться в Клиенте (например, из предыдущих применений Аудиоиконки).
- В альтернативном варианте выход Генератора 246 Синтезированного Аудио может представлять собой несжатое Аудио, и он может быть подмешан в конечную преобразованную сцену.
- Кроме того, среде Потоковой Передачи на основе той же информации Процессор 120 ROI может решить запросить Поток (Потоки) Аудиоиконки (Аудиоиконок) заранее (например, когда пользователь смотрит в неправильном направлении за несколько секунд до разрешения ROI).
6.7 Пример на фиг. 6
На фиг. 6 изображена система 600, содержащая на клиентской стороне 204 систему 602 (клиентскую систему), которая может реализовывать, например, систему 100 или 200. При этом упоминаются Аудиоиконки, хотя можно обобщить эту концепцию на любые сообщения с Аудиоинформацией.
Система 602 может содержать процессор 120 ROI, процессор 132 метаданных, уплотнитель или мультиплексор 412 Потока.
В данном примере Поток Аудиоиконок не выдается удаленным объектом (на клиентской стороне), а генерируется генератором 236 синтезированного Аудио (который может также иметь возможность сохранения Потока для последующего повторного использования).
В данном примере метаданные 141 Аудиоиконок не выдаются удаленным объектом. Метаданные Аудиоиконок генерируются генератором 432 метаданных, который может генерировать метаданные Аудиоиконок, используемые (например, обрабатываемые, манипулируемые, изменяемые) процессором 132 метаданных. Метаданные 141 Аудиоиконок, генерируемые генератором 432 метаданных Аудиоиконок, могут иметь такую же структуру и/или формат и/или атрибут, как и метаданные Аудиоиконок, рассмотренные для предыдущих примеров.
Процессор 132 метаданных может действовать, как в примере на фиг. 5. Генератор 246 синтезированного Аудио может быть активирован для создания Аудиопотока 140 на основе атрибутов метаданных 141 Аудиоиконок. Например, атрибуты могут относиться к типу синтезированного голоса (естественный звук, синтезированный звук, произносимый текст и так далее) и/или к коэффициенту усиления и/или к состоянию активации/неактивации и так далее. В примерах после того, как создан Поток 140 Аудиоиконок, он может быть сохранен (например, кэширован) для повторного использования в будущем. Можно также сохранить (например, кэшировать) метаданные Аудиоиконок, генерируемые генератором 432 метаданных Аудиоиконок.
Мультиплексор или уплотнитель 412 Потока может использоваться для объединения пакетов Аудиопотока 116 (а также в случае других Потоков, таких как вспомогательный Аудиопоток 316) с пакетами Потока Аудиоиконок, генерируемого генератором 246. После этого может быть получен Аудиопоток 414, который связан с измененными метаданными 238 Аудио и измененными метаданными 234 Аудиоиконок. Аудиопоток 414 может быть декодирован декодером 112 и воспроизведен пользователю на стороне 206 устройства использования медиаданных.
Можно отметить следующие аспекты данного примера:
- Сценарий использования:
- Аудиоданные передается в одном или более Аудиопотоках (например, одном главном Потоке 116 и вспомогательном Потоке 316)
- Аудиоиконка (Аудиоиконки) не передается из клиентской стороны 202
- Метаданные Аудиоиконок не передаются из клиентской стороны 202
- Этот сценарий использования может представлять собой решение для разрешения Аудиоиконок для наследуемого контента, который был создан без Аудиоиконок
- В одной реализации на Клиентской стороне Процессор 120 ROI и Процессор 232 Метаданных используются для эффективной обработки информации Аудиоиконок.
- Процессор 120 ROI может принимать информацию 122 о текущем окне просмотра (информацию об ориентации пользователя) от устройства, применяемого на стороне 206 устройства использования медиаданных (например, HMD). Процессор 120 ROI может также принимать информацию о ROI, сигнализируемую в Метаданных (Окна Просмотра Видео сигнализируются как в OMAF).
- На основе этой информации Процессор 120 ROI может решить активировать одну (или более) Аудиоиконку (Аудиоиконки), ОТСУТСТВУЮЩУЮ в Потоке (116, 316).
- Кроме того, Процессор 120 ROI может выдавать информацию о местоположении Аудиоиконок и значениях коэффициента усиления в Генератор 432 Метаданных Аудиоиконок.
- Процессор 120 ROI может выдавать эту информацию в Процессор 232 метаданных.
- Процессор 232 метаданных может разбирать метаданные, содержащиеся в Аудиопотоке Аудиоиконок (при его наличии) и может:
- разрешить Аудиоиконку,
- и в случае запроса Процессором 120 ROI соответствующим образом изменить информацию о пространственном положении и коэффициенте усиления, содержащуюся в метаданных Аудиоиконок.
- Процессор Метаданных может также разбирать Метаданные 236, 417 Аудио всех Аудиопотоков 116, 316 и манипулировать с Относящейся к Конкретным Аудио Информацией таким образом, что Аудиоиконка может использоваться как часть Аудиосцены (например, если Аудиосцена имеет платформу канала 5.1 и 4 объекта, Аудиоэлемент Аудиоиконки добавляется к сцене как пятый объект. Все поля метаданных обновляются соответствующим образом).
- Измененные метаданные 234 Аудиоиконок и информация из Процессора 120 ROI выдаются в Генератор 246 Синтезированного Аудио. Генератор 246 Синтезированного Аудио может создавать на основе полученной информации синтезированный звук (например, на основе пространственного положения Аудиоиконки генерируется речевой сигнал, произносящий местоположение). Кроме того, метаданные Аудиоиконок связаны с генерируемыми Аудиоданными в новом Потоке.
- Подобным образом, аналогично вышеуказанному, Аудиоданные каждого Потока и измененные метаданные Аудио и метаданные Аудиоиконок после этого выдаются в Мультиплексор или уплотнитель 412 Потока, который может генерировать на основе этого один Аудиопоток 414 с одним набором Метаданных (Аудио и Аудиоиконка).
- Этот Поток 414 декодируется отдельным Мультимедийным Аудиодекодером на основе информации о положении пользователя.
- В альтернативном варианте выход Генератора Синтезированного Аудио может представлять собой несжатое Аудио, и он может быть подмешан в конечную преобразованную сцену.
- Кроме того, в среде Потоковой Передачи на основе той же информации Процессор 120 ROI может решить запросить Поток (Потоки) Аудиоиконки (Аудиоиконок) заранее (например, когда пользователь смотрит в неправильном направлении за несколько секунд до разрешения ROI).
6.8 Пример на основе положения пользователя
Можно реализовать функцию, которая позволяет воспроизводить Аудиоиконку только тогда, когда пользователь не видит ROI.
Процессор 120 ROI может периодически проверять, например, данные 122 текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя. Если ROI видна пользователю, воспроизведение Аудиоиконки не инициируется.
Если - по данным текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя - процессор ROI определяет, что ROI не видна пользователю, процессор 120 ROI может запрашивать воспроизведение Аудиоиконки. В этом случае процессор 120 ROI может инициировать подготовку процессором 132 метаданных воспроизведения Аудиоиконки. Процессор 132 метаданных может использовать один из методов, описанных в приведенных выше примерах. Например, метаданные могут быть получены в Потоке, передаваемом серверной стороной 202, могут генерироваться генератором 432 метаданных Аудиоиконок и так далее. Атрибуты метаданных Аудиоиконок могут быть легко изменены на основе запросов процессора ROI и/или различных условий. Например, если выбором пользователя Аудиоиконка была ранее запрещена, Аудиоиконка не будет воспроизведена, даже если пользователь не видит ROI. Например, если (ранее установленный) таймер еще не истек, Аудиоиконка не будет воспроизведена, даже если пользователь не видит ROI.
Кроме того, если по данным текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя процессор ROI определяет, что ROI видна пользователю, процессор 120 ROI может отправлять запрос, чтобы воспроизведение Аудиоиконки не осуществлялось, особенно, если метаданные Аудиоиконок уже содержат сигнализацию для активной Аудиоиконки.
В этом случае процессор 120 ROI может инициировать запрет воспроизведения процессором 132 метаданных Аудиоиконок. Процессор 132 метаданных может использовать один из методов, описанных для приведенных выше примеров. Например, метаданные могут быть получены в Потоке, передаваемом серверной стороной 202, могут генерироваться генератором 432 метаданных Аудиоиконок и так далее. Атрибуты метаданных Аудиоиконок могут быть легко изменены на основе запросов процессора ROI и/или различных условий. Если метаданные уже содержат индикацию, что Аудиоиконка должна быть воспроизведена, метаданные в этом случае изменяются для индикации того, что Аудиоиконка неактивна и она не должна воспроизводиться.
Можно отметить следующие аспекты данного примера:
- Сценарий использования:
- Аудиоданные доставляются в одном или более Аудиопотоках 116, 316 (например, одном главном Потоке и вспомогательном Потоке), а Аудиоиконка (Аудиоиконки) передается либо в тех же одном или более Аудиопотоках 116, 316, либо в одном или более дополнительных Потоках 140 (зависимых или независимых от главного Аудиопотока).
- Метаданные Аудиоиконок устанавливаются таким образом, что они указывают, что Аудиоиконка активна, всегда в конкретные моменты времени.
- Первое поколение устройств, которое не содержит процессор ROI, должно считывать метаданные Аудиоиконок и инициировать воспроизведение Аудиоиконки независимо от того, указывают ли данные текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя, что ROI видна пользователю.
- В более новом поколении устройств, которое содержит процессор ROI, описываемый в любой из систем, применяется определение с помощью Процессора ROI. Если по данным текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя процессор ROI определяет, что ROI видна пользователю, процессор 120 ROI может запрашивать, чтобы воспроизведение Аудиоиконки не осуществлялось, особенно, если метаданные Аудиоиконок уже содержат сигнализацию для активной Аудиоиконки. В этом случае процессор 120 ROI может инициировать запрет воспроизведения процессором 132 метаданных Аудиоиконок. Процессор 132 метаданных может использовать один из методов, описанных для приведенных выше примеров. Например, метаданные могут быть получены в Потоке, передаваемом серверной стороной 202, могут генерироваться генератором 432 метаданных Аудиоиконок и так далее. Атрибуты метаданных Аудиоиконок может быть легко изменены на основе запросов процессора ROI и/или различных условий. Если метаданные уже содержат индикацию, что Аудиоиконка должна воспроизводиться, метаданные в этом случае изменяются для индикации, что Аудиоиконка неактивна и она не должна быть воспроизведена.
- Кроме того, в зависимости от устройства воспроизведения Процессор ROI может решить запросить изменение метаданных Аудиоиконок. Например, пространственная информация Аудиоиконки может изменяться иначе, если звук воспроизводится через наушники или через громкоговорители.
Следовательно, конечная Аудиосцена, воспринимаемая пользователем, будет получена на основе изменений метаданных, выполняемых процессором метаданных.
6.9 Пример на основе связи Сервер-Клиент (фиг. 5a)
На фиг. 5a изображена система 550, содержащая на клиентской стороне 204 систему 552 (клиентскую систему), которая может реализовывать, например, систему 100 или 200 или 300 или 400 или 500. При этом упоминаются Аудиоиконки, хотя можно обобщить эту концепцию на любые сообщения с Аудиоинформацией.
Система 552 может содержать процессор 120 ROI, процессор 132 метаданных, уплотнитель или мультиплексор 412 Потока. (В примерах различные Аудиопотоки декодируются (каждый - соответствующим мультимедийным Аудиодекодером 112) и затем смешиваются друг с другом и/или преобразуются вместе для получения конечной Аудиосцены).
Упомянутый по меньшей мере один Аудиопоток в данном случае представлен как содержащий два Потока 116 и 316 (в других примерах может предусматриваться всего один Поток, как на фиг. 2, или более двух Потоков). Это Аудиопотоки, предполагаемые при воспроизведении Аудиосцены, восприятие которой ожидается пользователем.
Кроме того, Поток 140 Аудиоиконок может выдаваться кодером 240 медиаданных.
Аудиопотоки могут кодироваться на различных скоростях передачи битов, которые обеспечивают эффективную адаптацию скорости передачи битов в зависимости от сетевого соединения (т.е., для пользователей, использующих высокоскоростное соединение, доставляется высокоскоростная кодированная версия, а для пользователей с более низкоскоростным сетевым соединением доставляется более низкоскоростная версия).
Аудиопотоки могут храниться на Медиасервере 554, где для каждого Аудиопотока различные способы кодировки на различных скоростях передачи битов группируются в один Адаптационный Набор 556 с соответствующими данными, сигнализирующими доступность всех созданных Адаптационных Наборов. Могут предусматриваться адаптационные наборы 556 Аудио и адаптационные наборы 557 Видео.
На основе движений пользователя и ROI, указанных в метаданных 131 окна просмотра, и/или иных критериев процессор 120 ROI будет инициировать воспроизведение Аудиоиконки из Потока 140 Аудиоиконок (также указанного как дополнительный Аудиопоток, являющийся дополнительным к Аудиопотокам 116 и 316).
В данном примере:
- клиент 552 выполнен с возможностью приема из сервера данных о доступности всех адаптационные наборов, причем доступные адаптационные наборы содержат:
- по меньшей мере один Адаптационный Набор Аудиосцены для упомянутого по меньшей мере одного Аудиопотока; и
- по меньшей мере один Адаптационный Набор Аудиосообщений для упомянутого по меньшей мере одного дополнительного Аудиопотока, содержащий по меньшей мере одно сообщение с Аудиоинформацией
- Аналогично другим примерам реализации, Процессор 120 ROI может принимать информацию 122 о текущем окне просмотра (информацию об ориентации пользователя) от стороны 206 устройства использования медиаданных, используемой для использования контента (например, на основе HMD). Процессор 120 ROI может также принимать информацию о ROI, сигнализируемую в Метаданных (Окна просмотра Видео сигнализируются как в OMAF).
- На основе этой информации Процессор 120 ROI может решить активировать одну (или более) Аудиоиконку, содержащуюся в Аудиопотоке 140 Аудиоиконок.
- Кроме того, Процессор 120 ROI может принимать решение по различному местоположению Аудиоиконок и различным значениям коэффициента усиления (например, для более точного представления Аудиоиконки в текущем пространстве, в котором используется контент).
- Процессор 120 ROI может выдавать эту информацию в Генератор 558 Данных Выбора.
- генератор 558 данных Выбора может быть выполнен с возможностью создания - на основе решения процессора ROI - данных 559 выбора, идентифицирующих, какие из Адаптационных Наборов должны приниматься; причем Адаптационные Наборы включают в себя Адаптационные Наборы Аудиосцены и Адаптационные Наборы Аудиосообщения.
- Медиасервер 554 может быть выполнен с возможностью выдачи управляющей информации в клиент 552 для инициирования получения данных клиентом Потоковой Передачи для Адаптационных Наборов 556, 557, идентифицируемых с помощью данных выбора, идентифицирующих, какие из Адаптационных Наборов должны приниматься; причем Адаптационные Наборы содержат адаптационные наборы Аудиосцены и адаптационные наборы Аудиосообщения.
- модуль 560 Загрузки и Коммутации выполнен с возможностью приема запрашиваемых Аудиопотоков из Медиасервера 554 на основе данных выбора, идентифицирующих, какие из Адаптационных Наборов должны приниматься; причем Адаптационные Наборы содержат адаптационные наборы Аудиосцены и адаптационные наборы Аудиосообщения. Модуль 560 Загрузки и Коммутации может быть дополнительно выполнен с возможностью выдачи метаданных Аудио и метаданных 141 Аудиоиконок в Процессор 132 Метаданных.
- Процессор 120 ROI может выдавать эту информацию в Процессор 132 Метаданных.
- Процессор 132 Метаданных может разбирать метаданные, содержащиеся в Аудиопотоке 140 Аудиоиконок, и
- разрешить Аудиоиконку (чтобы позволить ей воспроизводиться)
- и в случае запроса Процессором 120 ROI соответствующим образом изменить информацию о пространственном положении и коэффициенте усиления, содержащуюся в метаданных 141 Аудиоиконок.
- Процессор 132 Метаданных может разбирать также метаданные Аудио всех Аудиопотоков 116, 316 и манипулировать с Относящейся к Конкретным Аудио Информацией таким образом, что Аудиоиконка может использоваться как часть Аудиосцены (например, если Аудиосцена имеет платформу канала 5.1 и 4 объекта, Аудиоэлемент Аудиоиконки добавляется к сцене как пятый объект. Все поля метаданных могут обновляться соответствующим образом).
- Аудиоданные каждого Потока 116, 316 и измененные Метаданные Аудио и Метаданные Аудиоиконок могут затем выдаваться в Мультиплексор или уплотнитель Потока, который может генерировать на основе этого один Аудиопоток 414 с одним набором метаданных (измененными метаданными 238 Аудио и измененными метаданными 234 Аудиоиконок).
- Этот Поток может быть декодирован отдельным Мультимедийным Аудиодекодером 112 на основе информации 122 о положении пользователя.
Адаптационный Набор может быть образован набором Представлений, содержащим взаимозаменяемые версии соответствующего контента, например, различные скорости передачи битов аудио (например, различные потоки на различных скоростях передачи битов). Хотя всего одного Представления теоретически могло бы хватить для получения воспроизводимого потока, множество Представлений может дать клиенту возможность адаптировать мультимедийный поток к его текущим сетевым условиям и требованиям к полосе пропускания и вследствие этого гарантировать более плавное воспроизведение.
6.10 Способ
Все приведенные выше примеры могут быть реализованы с помощью этапов способа. При этом способ 700 (который может быть осуществлен любым из приведенных выше примеров) описывается для полноты. Способ может включать в себя:
На этапе 702 - прием по меньшей мере одного Видеопотока (106) и по меньшей мере одного первого Аудиопотока (116, 316),
На этапе 704 - декодирование по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока (106) для представления сцены (118a) среды VR, AR, MR или Панорамного Видео пользователю; и
На этапе 706 - декодирование по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока (116, 316) для представления Аудиосцены (118b) пользователю;
прием данных (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя; и
На этапе 708 - прием метаданных (131) окна просмотра, связанных с по меньшей мере одним Видеосигналом из по меньшей мере одного Видеопотока (106), причем метаданные окна просмотра определяют по меньшей мере одну ROI; и
На этапе 710 - решение - на основе данных (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движения и метаданных окна просмотра пользователя и/или иных критериев - должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI; и
На этапе 712 - прием, обработка и/или манипулирование с метаданными (141) сообщения с Аудиоинформацией, описывающими сообщение с Аудиоинформацией, чтобы инициировать воспроизведение сообщения с Аудиоинформацией в соответствии с атрибутами сообщения с Аудиоинформацией таким образом, что сообщение с Аудиоинформацией является частью Аудиосцены.
Примечательно, что, последовательность может также изменяться. Например, этапы 702, 706, 708 приема могут иметь другой порядок в соответствии с фактическим порядком, в котором доставляется информация.
Линия 714 означает, что способ может повторяться. Этап 712 может быть пропущен в случае решения процессора ROI не воспроизводить сообщение с Аудиоинформацией.
6.11 Другие реализации
На фиг. 8 изображена система 800, которая может реализовывать одну из систем (или ее компонент) или осуществлять способ 700. Система 800 может содержать процессор 802 и блок 806 долговременной памяти, хранящий инструкции, которые при исполнении процессором 802 могут инициировать выполнение процессором по меньшей мере операций обработки Потока, рассмотренных выше, и/или операций обработки метаданных, рассмотренных выше. Система 800 может содержать блок 804 ввода-вывода для соединения с внешними устройствами.
Система 800 может реализовывать по меньшей мере некоторые (или все) функции процессора 120 ROI, процессора 232 метаданных, генератора 246, мультиплексора или уплотнителя 412, декодера 112m, генератора 432 метаданных Аудиоиконок и так далее.
В зависимости от определенных требований к реализации, примеры могут быть реализована в аппаратных средствах. Реализация может быть осуществлена с помощью носителя цифровых данных, например, гибкого диска, Универсального Цифрового Диска (DVD), Диска Blu-Ray, Компакт-Диска (CD), Постоянного Запоминающего Устройства (ROM), Программируемого Постоянного Запоминающего Устройства (PROM), Стираемого Программируемого Постоянного Запоминающего Устройства (EPROM), Электрически Стираемого Программируемого Постоянного Запоминающего Устройства (EEPROM) или флэш-памяти, содержащей хранящиеся на ней электронно-считываемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, носитель цифровых данных может быть машиночитаемым.
В большинстве случаев примеры могут быть реализованы в виде компьютерного программного продукта с программными инструкциями, причем программные инструкции применяются для осуществления одного из способов при запуске компьютерного программного продукта на компьютере. Программные инструкции могут, например, храниться на машиночитаемом носителе.
Другие примеры включают в себя компьютерную программу для осуществления одного из способов, описываемых в данном документе, которая хранится на машиночитаемом носителе. Иными словами, одним из примеров способа вследствие этого является компьютерная программа, содержащая программные инструкции для осуществления одного из способов, описываемых в данном документе, при запуске компьютерной программы на компьютере.
Еще одним примером способов является вследствие этого канал передачи данных (или носитель цифровых данных, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для осуществления одного из способов, описываемых в данном документе. Канал передачи данных или носитель цифровых данных или носитель с записанными данными являются материальными и/или долговременными, а не сигналами, которые являются неосязаемыми и недолговременными.
Еще один пример включает в себя блок обработки, например компьютер или программируемое логическое устройство, осуществляющее один из способов, описываемых в данном документе.
Еще один пример включает в себя компьютер, содержащий установленную на нем компьютерную программу для осуществления одного из способов, описываемых в данном документе.
Еще один пример включает в себя устройство или систему, переносящую (например, электронным или оптическим способом) компьютерную программу для осуществления одного из способов, описываемых в данном документе, в приемник. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы в приемник.
В некоторых примерах программируемое логическое устройство (например, программируемая логическая интегральная схема) может использоваться для осуществления некоторых или всех функциональных возможностей способов, описываемых в данном документе. В некоторых примерах программируемая логическая интегральная схема может взаимодействовать с микропроцессором с целью осуществления одного из способов, описываемых в данном документе. В большинстве случаев способы могут осуществляться любым подходящим аппаратным устройством.
Вышеописанные примеры являются иллюстративными для принципов, рассмотренных выше. При этом подразумевается, что очевидны изменения конструкций и элементов, описываемых в данном документе. Поэтому цель состоит в ограничении объемом нижеследующей формулы изобретения, а не конкретными элементами, представленными для описания и объяснения примеров в данном документе.
название | год | авторы | номер документа |
---|---|---|---|
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ | 2018 |
|
RU2750505C1 |
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ | 2022 |
|
RU2801698C2 |
ОПТИМИЗАЦИЯ ДОСТАВКИ ЗВУКА ДЛЯ ПРИЛОЖЕНИЙ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ | 2018 |
|
RU2765569C1 |
НОСИТЕЛЬ ЗАПИСИ, УСТРОЙСТВО ВОСПРОИЗВЕДЕНИЯ И СПОСОБЫ ЗАПИСИ И ВОСПРОИЗВЕДЕНИЯ | 2006 |
|
RU2393556C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2823573C1 |
УСТРОЙСТВО И СПОСОБ РЕНДЕРИНГА ЗВУКОВОЙ СЦЕНЫ С ИСПОЛЬЗОВАНИЕМ КАСКАДОВ КОНВЕЙЕРА | 2021 |
|
RU2815296C1 |
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ АУДИО | 2020 |
|
RU2823537C1 |
СПОСОБЫ, УСТРОЙСТВА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ДЛЯ УЛУЧШЕНИЯ ОТОБРАЖЕНИЯ ВИЗУАЛИЗАЦИИ ВО ВРЕМЯ ПОТОКОВОЙ ПЕРЕДАЧИ СПЛАНИРОВАННЫХ ПО ВРЕМЕНИ МУЛЬТИМЕДИЙНЫХ ДАННЫХ | 2017 |
|
RU2724318C1 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2815366C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2798414C2 |
Заявленное изобретение относится к области видеоконтента, в частности контенту виртуальной реальности. Описываются способ и система для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или Панорамного Видео. Система может быть выполнена с возможностью: приема по меньшей мере одного Видеопотока, связанного с воспроизводимой аудио- и видеосценой; и приема по меньшей мере одного первого Аудиопотока, связанного с воспроизводимой аудио- и видеосценой, причем система содержит: по меньшей мере один мультимедийный Видеодекодер, выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока для представления аудио- и видеосцены пользователю; и по меньшей мере один мультимедийный Аудиодекодер, выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока для представления аудио- и видеосцены пользователю; процессор области интереса, ROI, выполненный с возможностью: решения - на основе по меньшей мере данных текущего окна просмотра, должно ли быть воспроизведено сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с аудиоинформацией не зависит от упомянутого по меньшей мере одного Видеосигнала и упомянутого по меньшей мере одного Аудиосигнала; и инициирования - при решении, что сообщение с информацией должно быть воспроизведено - воспроизведения сообщения с Аудиоинформацией. Заявленная группа решений обеспечивает адаптивность архитектуры при обращении к различным типам аудиоиконок, что обеспечивает повышенное качество восприятия пользователем. 4 н. и 42 з.п. ф-лы, 15 ил.
1. Система устройства использования контента для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности MR, или Панорамного Видео, выполненная с возможностью:
приема по меньшей мере одного Видеопотока (106), связанного с воспроизводимой Аудио- и Видеосценой (118a, 118b); и
приема по меньшей мере одного первого Аудиопотока (116, 316), связанного с воспроизводимой Аудио- и Видеосценой (118a, 118b),
приема метаданных (141) сообщения с Аудиоинформацией, связанных с по меньшей мере одним сообщением с Аудиоинформацией из упомянутого по меньшей мере одного первого Аудиопотока (116),
при этом система устройства использования контента содержит:
по меньшей мере один мультимедийный Видеодекодер (102), выполненный с возможностью декодирования по меньшей мере одного Видеосигнала из по меньшей мере одного Видеопотока (106) для представления Аудио- и Видеосцены (118a, 118b) пользователю; и
по меньшей мере один мультимедийный Аудиодекодер (112), выполненный с возможностью декодирования по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока (116, 316) для представления Аудио- и Видеосцены (118a, 118b) пользователю;
процессор (132) метаданных;
процессор (120) области интереса, ROI, выполненный с возможностью:
приема данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя;
приема метаданных (131) окна просмотра, связанных с упомянутым по меньшей мере одним Видеосигналом из упомянутого по меньшей мере одного Видеопотока (106), причем метаданные (131) окна просмотра определяют по меньшей мере одну ROI;
решения на основе по меньшей мере:
данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя; и
метаданных (131) окна просмотра,
должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с Аудиоинформацией не зависит от упомянутого по меньшей мере одного Видеосигнала и упомянутого по меньшей мере одного Аудиосигнала; и
отправки запроса - при решении процессора ROI, что упомянутое сообщение с Аудиоинформацией должно быть воспроизведено - изменения метаданных (141) сообщения с Аудиоинформацией в процессор (132) метаданных; и
при этом процессор (132) метаданных выполнен с возможностью приема метаданных (141) сообщения с Аудиоинформацией для приема запроса на изменение метаданных сообщения с Аудиоинформацией от процессора (120) ROI и изменения метаданных (141) сообщения с Аудиоинформацией на измененные метаданные сообщения с Аудиоинформацией в соответствии с запросом от процессора (141) ROI,
причем процессор (120) ROI дополнительно выполнен с возможностью инициирования воспроизведения сообщения с Аудиоинформацией в соответствии с измененными метаданными (234) сообщения с Аудиоинформацией.
2. Система устройства использования контента по п. 1, в которой сообщение с Аудиоинформацией является аудиоиконкой.
3. Система устройства использования контента по п. 1, в которой процессор (120) ROI выполнен с возможностью принятия решения также на основе метаданных (141) сообщения с Аудиоинформацией.
4. Система устройства использования контента по п. 1, в которой процессор (120) ROI дополнительно выполнен с возможностью принятия решения с тем, чтобы:
в случае, если упомянутая по меньшей мере одна ROI находится за пределами текущего окна просмотра пользователя - инициирования воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI, в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и
в случае, если упомянутая по меньшей мере одна ROI находится в пределах текущего окна просмотра пользователя - деактивации воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI.
5. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема по меньшей мере одного дополнительного Аудиопотока (140), в котором закодировано упомянутое по меньшей мере одно сообщение с Аудиоинформацией,
при этом система устройства использования контента дополнительно содержит:
по меньшей мере один мультиплексор или уплотнитель (412) для объединения - под управлением процессора (132) метаданных или другого процессора - пакетов упомянутого по меньшей мере одного дополнительного Аудиопотока (140) с пакетами упомянутого по меньшей мере одного первого Аудиопотока (116, 316) в один Поток (414) на основе решения, принимаемого процессором (120) ROI, что упомянутое по меньшей мере одно сообщение с Аудиоинформацией должно быть воспроизведено, для инициирования воспроизведения сообщения с Аудиоинформацией помимо Аудиосцены.
6. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема по меньшей мере одних метаданных (236) Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном первом Аудиопотоке (116);
при решении процессора ROI, что сообщение с Аудиоинформацией должно быть воспроизведено, изменения - процессором (132) метаданных - метаданных (141) сообщения с Аудиоинформацией для разрешения воспроизведения сообщения с Аудиоинформацией в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала.
7. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема по меньшей мере одних метаданных (236) Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном первом Аудиопотоке (116);
при решении процессора ROI, что сообщение с Аудиоинформацией должно быть воспроизведено, изменения - процессором (132) метаданных - метаданных (141) сообщения с Аудиоинформацией для разрешения воспроизведения сообщения с Аудиоинформацией в увязке с по меньшей мере одной ROI в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и
изменения - процессором (132) метаданных - метаданных (236) Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, для разрешения объединения упомянутого по меньшей мере одного первого Аудиопотока (116) и упомянутого по меньшей мере одного дополнительного Аудиопотока (140).
8. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема по меньшей мере одних метаданных (236) Аудио, описывающих упомянутый по меньшей мере один Аудиосигнал, кодированный в упомянутом по меньшей мере одном первом Аудиопотоке (116);
при решении процессора ROI, что сообщение с Аудиоинформацией должно быть воспроизведено, выдачи - процессором (132) метаданных - метаданных (141) сообщения с Аудиоинформацией в Генератор (246) синтезированного Аудио для создания синтезированного Аудиопотока (140), чтобы связать метаданные (141) сообщения с Аудиоинформацией с синтезированным Аудиопотоком (140), и для выдачи синтезированного Аудиопотока (140) и метаданных (141) сообщения с Аудиоинформацией в уплотнитель или мультиплексор (412) для разрешения объединения упомянутого по меньшей мере одного первого Аудиопотока (116) и синтезированного Аудиопотока (140).
9. Система устройства использования контента по п. 5, дополнительно выполненная с возможностью получения метаданных (141) сообщения с Аудиоинформацией из упомянутого по меньшей мере одного дополнительного Аудиопотока (140), в котором закодировано сообщение с Аудиоинформацией.
10. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью хранения - для последующего использования - метаданных (141) сообщения с Аудиоинформацией и/или Потока (140) сообщений с Аудиоинформацией.
11. Система устройства использования контента по п. 1, дополнительно содержащая:
генератор (246) синтезированного Аудио, выполненный с возможностью синтезирования сообщения с Аудиоинформацией на основе метаданных (141) сообщения с Аудиоинформацией, связанных с по меньшей мере одной ROI.
12. Система устройства использования контента по п. 1, в которой процессор (132) метаданных дополнительно выполнен с возможностью управления мультиплексором или уплотнителем (412) для объединения - на основе метаданных (236) Аудио и метаданных сообщения с Аудиоинформацией - пакетов Потока (140) сообщений с Аудиоинформацией с пакетами упомянутого по меньшей мере одного первого Аудиопотока (116) в один Поток (414) для обеспечения добавления сообщения с Аудиоинформацией к указанному по меньшей мере одному первому Аудиопотоку (116).
13. Система устройства использования контента по п. 1, в которой метаданные (141) сообщения с Аудиоинформацией закодированы в кадре конфигурации или в кадре данных, содержащем по меньшей мере данные о коэффициенте усиления, связанные с уровнем громкости воспроизводимого сообщения с Аудиоинформацией.
14. Система устройства использования контента по п. 1, в которой метаданные (141) сообщения с Аудиоинформацией закодированы в кадре конфигурации или в кадре данных, содержащем по меньшей мере одно из:
данных о положении,
языка сообщения с Аудиоинформацией,
длины текста с данными,
текста с данными соответствующей текстовой подписи и
описания сообщения с Аудиоинформацией.
15. Система устройства использования контента по п. 1, в которой процессор (132) метаданных дополнительно выполнен с возможностью изменения метаданных сообщения с Аудиоинформацией для активации сообщения с Аудиоинформацией и/или установки/изменения его положения.
16. Система устройства использования контента по п. 1, в которой процессор (132) метаданных дополнительно выполнен с возможностью осуществления по меньшей мере одной из следующих операций:
извлечение метаданных сообщения с Аудиоинформацией из Потока;
встраивание метаданных назад в Поток;
подача Потока в дополнительный мультимедийный декодер;
извлечение метаданных Аудио из упомянутого по меньшей мере одного первого Аудиопотока (116);
извлечение метаданных сообщения с Аудиоинформацией из дополнительного Потока;
изменение метаданных Аудио упомянутого по меньшей мере одного первого Аудиопотока (116), чтобы учесть наличие сообщения с Аудиоинформацией и обеспечить объединение;
подача Потока в уплотнитель или мультиплексор для его уплотнения или мультиплексирования на основе информации, принимаемой из процессора ROI.
17. Система устройства использования контента по п. 1, в которой процессор (120) ROI дополнительно выполнен с возможностью осуществления локального поиска дополнительного Аудиопотока (140), в котором закодировано сообщение с Аудиоинформацией, и/или метаданных сообщения с Аудиоинформацией, и в случае ненахождения - отправки запроса дополнительного Аудиопотока (140) и/или метаданных сообщения с Аудиоинформацией на удаленный объект.
18. Система устройства использования контента по п. 11, в которой процессор (120) ROI дополнительно выполнен с возможностью осуществления локального поиска дополнительного Аудиопотока (140) и/или метаданных сообщения с Аудиоинформацией и в случае ненахождения - инициирования генерирования генератором (432) синтезированного Аудио Потока сообщения с Аудиоинформацией и/или метаданных сообщения с Аудиоинформацией.
19. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема по меньшей мере одного дополнительного Аудиопотока (140), в который включено по меньшей мере одно сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI,
в которой упомянутый по меньшей мере один мультимедийный Аудиодекодер (112) дополнительно выполнен с возможностью декодирования упомянутого по меньшей мере одного дополнительного Аудиопотока (140), если процессор ROI решает, что должно быть воспроизведено сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI.
20. Система устройства использования контента по п. 19, в которой:
упомянутый по меньшей мере один первый мультимедийный Аудиодекодер (112) выполнен с возможностью декодирования упомянутого по меньшей мере одного Аудиосигнала из по меньшей мере одного первого Аудиопотока (116);
система устройства использования контента дополнительно содержит
по меньшей мере один дополнительный Аудиодекодер (112), выполненный с возможностью декодирования упомянутого по меньшей мере одного сообщения с Аудиоинформацией из дополнительного Аудиопотока (140); и
по меньшей мере один смеситель и/или рендерер (314) для смешивания и/или наложения сообщения с Аудиоинформацией из упомянутого по меньшей мере одного дополнительного Аудиопотока (140) с упомянутым по меньшей мере одним Аудиосигналом из упомянутого по меньшей мере одного первого Аудиопотока (116).
21. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью отслеживания показателей, определяющих суммарное число воспроизведений сообщения с Аудиоинформацией, чтобы запретить воспроизведение сообщения с Аудиоинформацией, если показатели находятся выше заданного порога.
22. Система устройства использования контента по п. 1, в которой решение процессора ROI основывается на прогнозировании данных (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движения пользователя относительно положения ROI.
23. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью - при решении процессора ROI, что сообщение с информацией должно быть воспроизведено - запроса Потока информации Аудиосообщения от удаленного объекта.
24. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью установления, воспроизводить ли два сообщения с Аудиоинформацией одновременно или выбирать воспроизведение более приоритетного сообщения с Аудиоинформацией в первоочередном порядке по отношению к менее приоритетному сообщению с Аудиоинформацией.
25. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью идентификации сообщения с Аудиоинформацией среди множества сообщений с Аудиоинформацией, кодированных в один дополнительный Аудиопоток (140), на основе адреса и/или положения сообщений с Аудиоинформацией в Аудиопотоке.
26. Система устройства использования контента по п. 1, в которой Аудиопотоки форматированы в формате Аудиопотока MPEG-H 3D.
27. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью:
приема данных о доступности множества Адаптационных Наборов (556, 557), причем доступные Адаптационные Наборы содержат по меньшей мере один Адаптационный Набор Аудиосцены для упомянутого по меньшей мере одного первого Аудиопотока (116, 316) и по меньшей мере один Адаптационный Набор Аудиосообщения для упомянутого по меньшей мере одного дополнительного Аудиопотока (140), содержащего по меньшей мере одно сообщение с Аудиоинформацией;
создания - на основе решения процессора ROI - данных (559) для выбора, идентифицирующих, какие из Адаптационных Наборов должны быть получены, причем доступные Адаптационные Наборы содержат по меньшей мере один Адаптационный Набор Аудио сцены и/или по меньшей мере один Адаптационный Набор Аудиосообщения; и
запроса и/или получения данных для Адаптационных Наборов, идентифицированных в данных для выбора,
в которой каждый адаптационный набор группирует различные способы кодировки для различных скоростей передачи битов.
28. Система устройства использования контента по п. 27, в которой по меньшей мере один из ее элементов содержит клиент Динамической Адаптивной Потоковой Передачи по HTTP, DASH и/или выполнен с возможностью получения данных для каждого адаптационного набора с помощью Базового Формата Медиафайлов ISO, ISO BMFF, или Транспортного Потока MPEG-2, MPEG-2 TS.
29. Система устройства использования контента по п. 1, в которой процессор (120) ROI дополнительно выполнен с возможностью проверки соответствий между ROI и данными (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движения, чтобы проверить, представлена ли ROI в текущем окне просмотра, и в случае, если ROI находится за пределами текущего окна просмотра, акустической сигнализации присутствия ROI пользователю.
30. Система устройства использования контента по п. 1, в которой процессор (120) ROI дополнительно выполнен с возможностью проверки соответствий между ROI и данными (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движении, чтобы проверить, представлена ли ROI в текущем окне просмотра, и в случае, если ROI находится в пределах данных (122) текущего окна просмотра и/или положения и/или ориентации головы и/или движения, недопущения акустической сигнализации присутствия ROI пользователю.
31. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью приема - от удаленного объекта (202) - упомянутого по меньшей мере одного Видеопотока (116), связанного с Видеосценой, и упомянутого по меньшей мере одного Аудиопотока (106), связанного с Аудиосценой, причем Аудиосцена связана с Видеосценой.
32. Система устройства использования контента по п. 1, в которой процессор (120) ROI дополнительно выполнен с возможностью выбора - среди множества воспроизводимых сообщений с Аудиоинформацией - воспроизведения одного первого сообщения с Аудиоинформацией перед вторым сообщением с Аудиоинформацией.
33. Система устройства использования контента по п. 1, дополнительно содержащая кэш-память (246) для хранения сообщения с Аудиоинформацией, принимаемого от удаленного объекта (204) или синтезированного, для повторного использования сообщения с Аудиоинформацией в различные моменты времени.
34. Система устройства использования контента по п. 1, в которой упомянутый по меньшей мере один Видеопоток и/или упомянутый по меньшей мере один первый Аудиопоток являются частью текущей Видеосцены и Аудиосцены, соответственно, и не зависят от данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя в текущей Видео- и Аудиосцене.
35. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью отправки запроса упомянутого по меньшей мере одного первого Аудиопотока и/или по меньшей мере одного Видеопотока на удаленный объект в увязке с Аудиопотоком и/или Видеопотоком, соответственно, и воспроизведения упомянутого по меньшей мере одного сообщения с Аудиоинформацией на основе данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя.
36. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью отправки запроса упомянутого по меньшей мере одного первого Аудиопотока и/или по меньшей мере одного Видеопотока на удаленный объект в увязке с Аудиопотоком и/или Видеопотоком, соответственно, и отправки запроса на удаленный объект упомянутого по меньшей мере одного сообщения с Аудиоинформацией на основе данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя.
37. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью отправки запроса упомянутого по меньшей мере одного первого Аудиопотока и/или по меньшей мере одного Видеопотока на удаленный объект в увязке с Аудиопотоком и/или Видеопотоком, соответственно, и синтезирования упомянутого по меньшей мере одного сообщения с Аудиоинформацией на основе данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя.
38. Система устройства использования контента по п. 1, дополнительно выполненная с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с Аудиоинформацией, причем критерии дополнительно включают в себя выбор пользователя и/или настройку пользователя.
39. Система устройства использования контента по п. 1, выполненная с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с Аудиоинформацией, причем критерии дополнительно основаны на запрете повтора сообщения с Аудиоинформацией, если оно уже воспроизводилось, причем критерии используют таймер для исключения слишком быстрых повторов.
40. Система устройства использования контента по п. 1, выполненная с возможностью проверки по меньшей мере одного из дополнительных критериев для воспроизведения сообщения с Аудиоинформацией, причем критерии дополнительно включают в себя флаг в метаданных аудиосообщения, полученных от удаленного объекта, в которой флаг определяет, является ли сообщение с Аудиоинформацией активным.
41. Система доставки аудиоданных, содержащая клиент, выполненный в виде системы устройства использования контента по п. 1, и удаленный объект (202, 240), выполненный в виде сервера для доставки упомянутого по меньшей мере одного Видеопотока (106) и упомянутого по меньшей мере одного первого Аудиопотока (116).
42. Система доставки аудиоданных по п. 41, в которой удаленный объект (202, 240) выполнен с возможностью поиска - в базе данных, интранете, интернете и/или географической сети - упомянутого по меньшей мере одного дополнительного Аудиопотока (140) и/или метаданных сообщения с Аудиоинформацией и, в случае нахождения, доставки упомянутого по меньшей мере одного дополнительного Аудиопотока (140) и/или метаданных сообщения с Аудиоинформацией.
43. Система доставки аудиоданных по п. 42, в которой удаленный объект (202, 240) выполнен с возможностью синтезирования упомянутого по меньшей мере одного дополнительного Аудиопотока (140) и/или генерирования метаданных сообщения с Аудиоинформацией.
44. Способ для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного Видео в системе устройства использования контента, причем способ включает в себя:
прием системой устройства использования контента по меньшей мере одного воспроизводимого Видеопотока (106);
прием системой устройства использования контента по меньшей мере одного воспроизводимого Аудиопотока (116, 316);
прием системой устройства использования контента метаданных (141) сообщения с Аудиоинформацией, связанных с по меньшей мере одним сообщением с Аудиоинформацией из упомянутого по меньшей мере одного первого Аудиопотока (116);
декодирование по меньшей мере одним мультимедийным Видеодекодером (102) по меньшей мере одного Видеосигнала из упомянутого по меньшей мере одного Видеопотока (106);
декодирование по меньшей мере одним мультимедийным Аудиодекодером (112) по меньшей мере одного Аудиосигнала из упомянутого по меньшей мере одного Аудиопотока (116, 316);
прием процессором (120) области интереса, ROI, данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя;
прием процессором (120) ROI метаданных (131) окна просмотра, связанных с упомянутым по меньшей мере одним Видеосигналом, из упомянутого по меньшей мере одного Видеопотока (106), причем метаданные (131) окна просмотра определяют по меньшей мере одну ROI;
решение процессором (120) ROI на основе:
данных (122) текущего окна просмотра и/или ориентации головы и/или движения пользователя и
метаданных (131) окна просмотра,
должно ли воспроизводиться сообщение с Аудиоинформацией, связанное с по меньшей мере одной ROI, причем сообщение с Аудиоинформацией не зависит от упомянутого по меньшей мере одного Видеосигнала и упомянутого по меньшей мере одного Аудиосигнала;
отправку запроса процессором ROI - при решении процессора ROI, что сообщение с Аудиоинформацией должно быть воспроизведено - изменения метаданных (141) сообщения с Аудиоинформацией в процессор (132) метаданных;
прием - процессором (132) метаданных - метаданных (141) сообщения с Аудиоинформацией,
прием - процессором (132) метаданных - запроса на изменение метаданных сообщения с Аудиоинформацией от процессора (120) (ROI),
изменение - процессором (132) метаданных - метаданных (141) сообщения с Аудиоинформацией на измененные метаданные сообщения с Аудиоинформацией в соответствии с запросом от процессора (141) ROI,
инициирование процессором (120) ROI воспроизведения сообщения с Аудиоинформацией в соответствии с измененными метаданными (234) сообщения с Аудиоинформацией.
45. Способ по п. 44, дополнительно включающий в себя:
воспроизведение Аудио- и Видеосцены (118a, 118b); и
в случае, если упомянутая по меньшей мере одна ROI находится за пределами текущего окна просмотра пользователя, инициирование воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI, в дополнение к воспроизведению упомянутого по меньшей мере одного Аудиосигнала; и/или
в случае, если упомянутая по меньшей мере одна ROI находится в пределах текущего окна просмотра пользователя, деактивацию воспроизведения сообщения с Аудиоинформацией, связанного с по меньшей мере одной ROI.
46. Блок долговременной памяти, содержащий инструкции, которые при исполнении процессором инициируют осуществление процессором способа по п. 44.
US 2016381398 A1, 29.12.2016 | |||
US 2013259312 A1, 03.10.2013 | |||
US 2013329087 A1, 12.12.2013 | |||
US 2010299630 A1, 25.11.2010 | |||
AU 2012313936 A1, 15.05.2014. |
Авторы
Даты
2021-03-17—Публикация
2018-10-10—Подача