КОМБИНИРОВАНИЕ 3D ВИДЕО И ВСПОМОГАТЕЛЬНЫХ ДАННЫХ Российский патент 2015 года по МПК G06T15/08 H04N13/00 

Описание патента на изобретение RU2554465C2

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

Изобретение относится к способу предоставления сигнала трехмерного [3D] видео для передачи на конечное 3D устройство, способ, содержащий определение метаданных о глубине, указывающих глубины, фигурирующие в данных 3D видео.

Изобретение дополнительно относится к исходному 3D устройству, конечному 3D устройству, сигналу, носителю записи и компьютерному программному продукту.

Изобретение относится к области рендринга данных 3D видео в комбинации с вспомогательными данными, такими как субтитры, логотипы или дополнительные данные 3D изображения, на устройстве 3D отображения.

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Устройства для генерирования данных 2D видео известны, например, видеосерверы, телевизионные станции или устройства разработки. В настоящее время, предлагаются устройства с 3D расширением для предоставления данных трехмерных (3D) изображений. Аналогично, предлагаются конечные устройства для отображения рендринга данных 3D видео, такие как проигрыватели оптических дисков (например, Blu-ray Диск; BD) или телеприставки, которые рендерят принятые цифровые сигналы видео. Конечное устройство подлежит соединению с отображающим устройством, таким как телевизор или монитор. Видеоданные передаются из исходного устройства через подходящий интерфейс, предпочтительно высокоскоростной цифровой интерфейс, такой как HDMI. 3D дисплей может быть также интегрирован с конечным устройством, например, телевизор, имеющий принимающую секцию и 3D дисплей.

Для 3D контента, такого как 3D фильмы или телевизионные трансляции, дополнительно могут отображаться вспомогательные данные в комбинации с данными изображения, например, субтитрами, логотипами, игровым счетом, бегущая строка для финансовых новостей или других объявления или новостей.

Документ W02008/115222 описывает систему для комбинирования текста с трехмерным контентом. Система вставляет текст на тот же уровень, что и ближайшее значение глубины в 3D контенте. Одним примером 3D контента является двумерное изображение и связанная карта глубины. В этом случае, значение глубины вставленного текста выставляется так, чтобы совпасть с ближайшим значением глубины данной карты глубины. Еще одним примером 3D контента является множество двумерных изображений и связанных карт глубины. В этом случае, значение глубины вставленного текста постоянно выставляется так, чтобы совпасть с ближайшим значением глубины данной карты глубины. Дополнительным примером 3D контента является стереоскопический контент, имеющий представление для правого глаза и представление для левого глаза. В этом случае, текст в одном из представлении для левого глаза или представлении для правого глаза сдвигается, чтобы совпасть с ближайшим значением расхождения в стереоскопическом изображении. И еще одним примером 3D контента является стереоскопический контент, имеющий множество представлений для правого глаза и представлений для левого глаза. В этом случае, текст в представлениях для левого глаза или представлениях для правого глаза постоянно сдвигается, чтобы совпасть с ближайшим значением глубины в стереоскопических изображениях. В качестве результата, система выдает текст, скомбинированный с 3D контентом, где текст не препятствует 3D эффектам в 3D контенте и не создает зрительное утомление при просмотре наблюдателем.

WQ2008/0382Q5 описывает систему для отображения видео и графических данных на 3D дисплее. 3D дисплей имеет диапазон глубины, который разбит на поддиапазоны. Основное видео отображается в первом поддиапазоне и вторичная визуальная информация назначается на второй поддиапазон. Входные данные изображения для 3D дисплеев обычно являются цифровыми данными, имеющими информацию о глубине в 3D формате. Например, левое представление и правое представление предоставляются имеющими информацию о глубине в расхождении объектов в представлениях, появляющихся в разных расположениях, или 2D изображение и карту глубины.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Документ W02008/115222 описывает, что вспомогательные графические данные подлежат отображению перед ближайшей частью данных изображения. Проблема возникает, когда нужно скомбинировать вспомогательные данные с данными 3D видео на конечном устройстве, которое имеет ограниченные вычислительные ресурсы. Получение ближайшего значения глубины из потока 3D видео требует обработки информации о глубине. В частности, для потока 3D видео из нескольких представлений, например, содержащий левое и правое представление, обнаружение ближайшей глубины или значения расхождения, соответствующего этому, требует значительной обработки.

Целью изобретения является предоставление системы для комбинирования вспомогательных данных и 3D видеоконтента наиболее удобным образом.

Для этой цели, согласно первому аспекту изобретения, способ, как описано во вступительном абзаце, содержит

- определение метаданных о глубине, где метаданные о глубине содержат ближнее значение, указывающее глубины элементов в данных 3D видео, ближайших к наблюдателю, при отображении на 3D дисплее,

- генерирование сигнала 3D видео, содержащего данные 3D видео, и

- внесение метаданных о глубине в сигнал 3D видео для обеспечения возможностью конечного 3D устройства

- извлекать метаданные о глубине,

- предоставлять вспомогательные данные, и

- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных метаданных в комбинации с данными 3D видео.

Для этой цели, согласно второму аспекту изобретения, исходное 3D устройство для предоставления сигнала трехмерного [3D] видео для передачи на конечное 3D устройство, содержит средства обработки для

- определения метаданных о глубине, указывающих глубины, фигурирующие в данных 3D видео, метаданные о глубине которых содержат ближнее значение, указывающее глубины элементов в данных 3D видео, ближайших к наблюдателю, при отображении на 3D дисплее,

- генерирования сигнала 3D видео, содержащего данные 3D видео, и

- внесения метаданных о глубине в сигнал 3D видео для обеспечения возможностью конечного 3D устройства

- извлекать метаданные о глубине,

- предоставлять вспомогательные данные, и

- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных метаданных в комбинации с данными 3D видео.

Для этой цели, согласно дополнительному аспекту изобретения, конечное 3D устройство для приема сигнала трехмерного [3D] видео, содержит средства приема для приема сигнала 3D видео, содержащего данные 3D видео и метаданные о глубине, указывающие глубины, фигурирующие в данных 3D видео, метаданные о глубине которого содержат ближнее значение, указывающее глубины элементов в данных 3D видео, ближайших к наблюдателю, при отображении на 3D дисплее, и средства обработки для

- извлечения метаданных о глубине из сигнала 3D видео,

- предоставления вспомогательных данных, и

- расположения вспомогательных данных на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных метаданных в комбинации с данными 3D видео.

Для этой цели, согласно дополнительному аспекту изобретения, сигнал трехмерного [3D] видео для передачи данных 3D видео на конечное 3D устройство, содержит данные 3D видео и метаданные о глубине, указывающие глубины, фигурирующие в данных 3D видео, метаданные о глубине которых содержат ближнее значение, указывающее глубины элементов в данных 3D видео, ближайших к наблюдателю, при отображении на 3D дисплее, для обеспечения возможностью конечного 3D устройства

- извлекать метаданные о глубине,

- предоставлять вспомогательные данные, и

- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных метаданных в комбинации с данными 3D видео.

Измерения оказывают воздействие, на источнике, по определению значений глубины, фигурирующих в данных 3D видео, например, вычисление значений расхождения из левого и правого представления в левом/правом 3D формате, или обработка данных о глубине из потока 2D + глубина, или получение таких значений глубины из любого другого формата 3D изображения. Метаданные о глубине впоследствии вносятся в сигнал 3D видео. Выгодно, что на конечном устройстве, любые вспомогательные данные могут быть скомбинированы с данными 3D видео, и расположены в направлении глубины на основе метаданных о глубине, так чтобы избежать загораживание вспомогательных данных указанными ближайшими видеоданными и возмущающего воздействия на границе вспомогательных данных. Отмечено, что такое возмущающее действие происходит, когда вспомогательные данные располагаются дальше, чем более ближний объект, но еще отображаются. В частности, не требуется, чтобы вспомогательные данные были доступны на исходном устройстве, но динамически предоставляются на конечное устройство, которое генерирует скомбинированный сигнал 3D видео посредством расположения вспомогательных данных на подходящей глубине, не требуя значительных вычислительных ресурсов для получения метаданных о глубине.

Изобретение также основано на следующем утверждении. Документ известного уровня техники описывает расположение текста на глубине перед ближайшим элементом в изображении в исходной системе 3D видео. Однако, вспомогательные данные могут быть недоступны в источнике. Расположение вспомогательных данных на конечном устройстве на основе известного уровня техники потребует существенной обработки. Кроме того, для показа динамических вспомогательных данных, таких как меню или сгенерированных вспомогательных графических объектов, таких как игровые персонажи, может быть выбрана подходящая часть данных 3D видео на основе метаданных о глубине, например, период во времени, имеющий ближнее значение, которое не является близким для наблюдателя. Такое расположение подносит текст и объекты немного ближе к наблюдателю. И наконец, система позволяет автору 3D видео задавать метаданные о глубине и воздействовать на расположение любых вспомогательных данных, добавленных на устройство рендринга.

В варианте осуществления метаданные о глубине содержат дальнее значение, указывающее глубины, фигурирующие в данных 3D видео, наиболее дальние от пользователя для позволения конечному 3D устройству устанавливать вспомогательную глубину, более отдаленную от пользователя, чем ближнее значение, и применять сдвиг к данным 3D видео в направлении от пользователя для сдвига указанных ближайших видеоданных к глубине, более отдаленной от пользователя, чем вспомогательная глубина, сдвиг будучи максимизированным на основе дальнего значения. Смысл состоит в том, что сигнал трехмерного видео адаптируется за счет сдвига назад (от наблюдателя) входного сигнала трехмерного видео посредством сдвига в направлении глубины на основе дальнего значения. Следовательно, диапазон глубины свободен для расположения вспомогательных данных по направлению глубины перед сдвинутым трехмерным видео.

В варианте осуществления ближнее значение является значением расхождения. Смысл состоит в том, что конечное устройство осведомлено о значении расхождения ближайших видеоданных, и может легко расположить вспомогательные данные перед видео за счет использования значения расхождения. В варианте осуществления конечного устройства, когда вспомогательные данные являются двумерными [2D] данными и ближнее значение является значением расхождения, средства обработки выполнены с возможностью генерирования по меньшей мере левого вспомогательного изображения и правого вспомогательного изображения за счет применения, к вспомогательным 2D данным, по меньшей мере одного горизонтального сдвига на основе значения расхождения. Выгодно могут использоваться для генерирования правого представления посредством сдвига левого представления, или сдвига представления на 50% от расхождения влево и право, чтобы сгенерировать левое и правое представление.

В варианте осуществления сигнал 3D видео содержит поток закодированных видеоданных, выполненный с возможностью передачи декодированной информации, согласно предопределенному стандарту, и указанный, содержащий метаданные о глубине в сигнале 3D видео, содержит метаданные о глубине в по меньшей мере одном из:

- сообщении с пользовательскими данными;

- оповещающем сообщении с информацией об элементарном потоке [SEI];

- таблице точек входа;

- описании на основе XML.

Смысл состоит в том, что дополнительные метаданные о глубине вносятся посредством сообщений расширенного управления или параметров согласно предопределенному стандарту. Выгодно, что улучшенный, закодированный поток видео является совместимым с существующим предопределенным стандартом, при этом эффективно передавая метаданные о глубине.

Кроме того, предпочтительные варианты осуществления способа, 3D устройств и сигнала согласно изобретению заданы в прилагаемой формуле изобретения, раскрытие которых включено в настоящий документ по ссылке.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Эти и другие аспекты изобретения станут очевидны из и объяснены дополнительно согласно вариантам осуществления, описанным в качестве примера в следующем описании, и согласно прилагающимся чертежам, в которых

на фиг. 1 проиллюстрированы несколько общих концептов и параметров, определяющих расхождение, на фиг. 2A проиллюстрирована гистограмма расхождения трехмерного входного сигнала, на фиг. 2B проиллюстрирована дополнительная гистограмма расхождения трехмерного входного сигнала и трехмерное наложение,

на фиг. 3 проиллюстрирована адаптация изображения правого представления входной стереопары в соответствии с настоящим изобретением,

на фиг. 4 проиллюстрирован способ согласно настоящему изобретению,

на фиг. 5A проиллюстрирована система согласно настоящему изобретению и

на фиг. 5B проиллюстрирована дополнительная система согласно настоящему изобретению,

на фиг. 6 показана система для отображения данных 3D изображения,

на фиг. 7 показаны метаданные о расхождении/глубине в частном сообщении SEI пользовательских данных,

на фиг. 8 показана структура данных для метаданных о глубине в сигнале 3D видео,

на фиг. 9 показана структура данных для метаданных о глубине в сигнале 3D видео на носителе записи,

на фиг. 10a показан формат поля метаданных, содержащего метаданные о глубине, и

на фиг. 10b показан формат поля метаданных, содержащего данные о расхождении.

На фигурах, элементы, которые соответствуют ранее описанным элементам, имеют те же самые номера позиций.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Отмечено, что текущее изобретение может быть использовано для любого типа 3D дисплея, который имеет диапазон глубины. Предполагается, что видеоданные для 3D дисплеев доступны в виде электронных, обычно цифровых, данных. Текущее изобретение относится к таким данным изображения и манипулирует данными изображения в цифровой области.

Существует множество разных образов действия, при которых 3D изображения могут быть отформатированы и переданы, называемых форматом 3D видео. Некоторые форматы основаны на использовании 2D канала, чтобы также нести стереоинформацию. Например, левое и правое представления могут чередоваться или помещаться одно к другому и над и под. Эти способы уменьшают разрешение, чтобы переносить стереоинформацию. Другим вариантом является уменьшение цвета, этот подход называется анаглифным стерео. Анаглифное стерео использует спектральное мультиплексирование, которое основано на отображении двух отдельных, наложенных изображений в комплиментарных цветах. За счет использования очков с цветными фильтрами, каждый глаз видит только изображение того же цвета, что и фильтр перед этим глазом. Так например, правый глаз видит только красное изображение, а левый глаз только зеленое изображение.

Другой 3D формат основан на двух представлениях, использующих 2D изображение и дополнительное изображение глубины, так называемой карты глубины, которая передает информацию о глубине объектов в 2D изображении. Формат, называемый изображение + глубина, отличается тем, что он является комбинацией 2D изображения с так называемой "глубиной", или картой расхождения. Она представляет собой полутоновое изображение, тем самым значение полутона пикселя указывает величину расхождения (или глубину в случае карты глубины) для соответствующего пикселя в связанном 2D изображении. Отображающее устройство использует расхождение, глубину или карту параллакса для вычисления дополнительных представлений, принимая 2D изображение в качестве входа. Это может быть сделано множеством методов, в самом простом виде это вопрос сдвига пикселей влево или вправо, в зависимости от значения расхождения, связанного с этими пикселями. Документ, озаглавленный как "Depth image based rendering, compression and transmission for a new approach on 3D TV" написанный Christoph Fehn, дает отличный обзор данной технологии (смотри http://iphome.hhi.de/fehn/Publications/fehn_EI2004.pdf).

На фиг. 1 проиллюстрированы несколько общих концептов и параметров, определяющих расхождение. На фиг. 1 показаны две точки наблюдения, размещенные на краях двойной стрелки E, разнесенные на расстояние E между зрачками. На расстоянии Z наблюдения, размещен экран S, представленный пунктирной линией, который используется для отображения трехмерной информации. На практике таким экраном может являться, например, дисплей временной или спектральной последовательности, который поочередно предоставляет глазу наблюдателя, носящего предназначенные очки, предназначенную информацию изображения для соответствующей точки наблюдения. Здесь экран S помещен на нулевом расхождении, и W указывает ширину экрана. N (ближний) представляет максимальную воспринимаемую глубину перед экраном S. Аналогично, F (дальний) представляет максимальную воспринимаемую глубину за экраном S.

Линия представляет воспринимаемое расхождение объекта, размещенного на расстоянии N перед экраном S, здесь значение dN расхождения является отрицательным, также называемое сходящимся расхождением, и может быть выражено как:

dN=NE/(Z-N) [1]

Линия dF представляет воспринимаемое расхождение объекта, размещенного на расстоянии F за экраном S, здесь значение dF расхождения является положительным, также называемое несходящимся расхождением, и может быть выражено как:

dF=FE/(Z+F) [2]

На практике, максимальное расхождение должно быть меньше расстояния E между зрачками для обеспечения комфортного наблюдения. На практике, максимальное расхождение предпочтительно устанавливать в значение меньшее расстояния E между зрачками для обеспечения вариаций расстояния E между зрачками среди людей.

Отмечено, что максимальный положительный параллакс экрана, который является числом пикселей, соответствующих максимальному положительному расхождению, зависит от ширины W экрана и разрешения экрана S.

На фиг. 2A проиллюстрирована гистограмма 205 расхождения трехмерного входного сигнала. Гистограмма 205 определена на основе входного трехмерного сигнала, т.е. на всей пространственной зоне трехмерного входного сигнала. Иначе, гистограмма расхождения может быть составлена для репрезентативных выборок из всей пространственной зоны трехмерного входного сигнала.

На фиг. 2A ближайшим значением расхождения по оси d является точка C, имеющая отрицательное расхождение. Самым дальним значением расхождения является точка B по оси d, имеющая положительное расхождение. Основываясь на гистограмме 205, оценка дальнего расхождения, для использования в способе в соответствии с настоящим изобретением, соответствует точке B.

Гистограмма 205 указывает, что существует свободное пространство 215, доступное внутри диапазона расхождения, для сдвига диапазона расхождения входного трехмерного (сигнала) от наблюдателя, что перемещает гистограмму вправо.

Учитывая ситуацию, в которой требуется поместить наложение внутри конкретной пространственной области в соответствующих представлениях. На фиг. 2A также показана гистограмма для входного трехмерного сигнала в релевантной пространственной области. Гистограмма трехмерного входного сигнала для пространственной области указана жирной пунктирной линией 205'. Основываясь на гистограмме 205', оценка ближнего расхождения, указывающего наименьшее значение расхождения для этой пространственной области, соответствует точке A. Учтите, что так как эта конкретная пространственная область не содержит меньшие (т.е. более отрицательные) значения расхождения, то в пространственной области уже существует существенное свободное пространство 210 для помещения наложения.

Учтите, что пространственная область для помещения наложения обычно является блоком или сегментом, определенным контуром, и в силу этого, явно отличается от точек выборки, которые использовались для определения оценки расхождения для представления в полном объеме, как описано выше в этом документе.

Несмотря на то, что в пространственной области для помещения наложения уже существует существенное свободное пространство, возможно создать еще большее свободное пространство посредством сдвига диапазона расхождения входного сигнала трехмерного видео от наблюдателя посредством сдвига DS, где DS<E-B. Несмотря на то, что нет строгой необходимости, целесообразно сохранить запас (E-B)-DS, как показано на фиг. 2B посредством запаса 215', для согласования разных расстояний между значками среди различных людей. В качестве результата, настоящее изобретение обеспечивает дополнительное увеличение в диапазоне расхождения для помещения наложения.

Гистограмма 220 указывает гистограмму расхождения наложения, когда наложение помещено полностью внутри этой пространственной области, эта гистограмма также является гистограммой наложения поверх всего изображения. В результате сдвига расхождения, теперь возможно поместить информацию наложения, такую как субтитры на или рядом с плоскостью нулевого расхождения, что улучшает комфорт наблюдения наложения.

Как указано выше, оценка дальнего и ближнего расхождения может быть определена на основе информации гистограммы расхождения, предоставленной с помощью входного сигнала трехмерного видео. Иначе, оценка дальнего и ближнего расхождения может быть получена из входного сигнала трехмерного видео, используя известные специалисту в данной области техники алгоритмы. Пример такого алгоритма представлен в документе "Dense disparity estimation from feature correspondences", написанном Konrad и соавторами, IS&T/SPIE Симпозиум по электронным стереоскопическим дисплеям и системам виртуальной реальности, январь 23-28, 2000, Сан-Хосе, Калифорния, США.

На фиг. 3 проиллюстрирован процесс сдвига расхождения как предложено настоящим изобретением. С левой стороны показаны пара изображений LV1 и RV1 из входящего стерео видеосигнала. Изображения показывают серый блок 310 и 310', помещенный на нулевом расхождении и белый диск 305 и 305', помещенный перед блоком на отрицательном расхождении в изображениях LV1 и RV1 соответственно.

Как может быть видно благодаря мелкопунктирным вертикальным линиям на краях серого блока 310 и 310', прямоугольник имеет нулевое расхождение, так как он помещен на ту же позицию в левом и правом изображении.

Диск 305 и 305' имеет отрицательный параллакс экрана, т.е. на правом изображении RV1 диск 305' находится левее позиции диска 305 на левом изображении LV1. В результате он визуализируется перед дисплеем.

Для того, чтобы сдвинуть сцену назад, мы сдвигаем RV1 вправо для получения RV1'. Сравнивая RV1' с LV1 теперь мы видим, что диск 305' имеет нулевое расхождение, а прямоугольник имеет положительное расхождение.

Для того, чтобы вписать сдвинутое изображение в стереодисплей, сдвинутое изображение RV1' кадрируется с правой стороны и расширяется на равную величину с левой стороны для достижения RV1''. В свою очередь, LV1 и RV1" могут визуализироваться вместе, как новая стереопара, в которой сцена была сдвинута назад по сравнению с оригинальной LV1-RV1 парой. В результате, пара LV1-RV1" имеет больше свободного пространства для помещения наложения, чем пара LV1-RV1.

Необходимо отметить, что несмотря на то, что в вышеописанном примере сдвинуто только одно из представлений, также возможно сдвинуть и левое изображение LV1, и правое изображение RV1 на одинаковую противоположную величину, где скомбинированная величина соответствует сдвигу RV1'. В результате, оба сдвинутых изображения должны быть расширены, но область расширения составляет половину размера этого кадрированного и расширенного на фиг. 3. В результате, возникшие из-за расширения артефакты могут распределяться более равномерно.

При сдвиге контента из нескольких представлений, например трех представлений, возможно сохранить центральное изображение и сдвинуть и расширить левое и правое изображение соответственно. Специалисту будет ясно, что вышеуказанный метод сдвига диапазона расхождения может быть впоследствии расширен для дополнительных изображений из нескольких представлений и для любых предназначенных величин сдвига изображений, что приводит к тем же относительным величинам сдвига между ними.

При адаптации входного сигнала трехмерного видео доступны некоторые варианты, например, первым вариантом является использование только кадрирования. Рассмотрим стерео видеосигнал, в этом случае возможно кадрировать как левое, так и правое изображения в видеосигнале на равную величину. В случае, когда отношение ширины изображения к высоте не является проблемой, кадрированные представления не требуют расширения и могут использоваться как есть. Преимущество этого состоит в том, что не требуется расширения, и не вносятся артефакты расширения. Вторым вариантом является использование кадрирования и расширения, как описано выше в этом документе. Рассмотрим стерео видеосигнал, в этом случае возможно кадрировать как левое, так и правое изображения в видеосигнале на равную величину и впоследствии расширить соответствующие представления как показано на фиг. 3. Преимущество использования расширения состоит в том, что соотношение ширины к высоте входного сигнала трехмерного видео может быть сохранено. Отмечено, что вышеуказанный список вариантов не является исчерпывающим.

На фиг. 4 показана блок-схема способа 400 согласно настоящему изобретению для обработки входного сигнала трехмерного видео, содержащего несколько представлений. Способ содержит этап для определения 405 оценки дальнего расхождения, указывающей наибольшее значение расхождения для входного сигнала трехмерного видео, и оценки ближнего расхождения, указывающей наименьшее значение расхождения для пространственной области внутри входного сигнала трехмерного видео. Как указано выше, оценки соответствующих расхождений могут быть основаны на метаданных или иначе могут определяться на основе контента изображения входного сигнала трехмерного видео.

Способ дополнительно содержит этап адаптации 410 сигнала трехмерного видео за счет сдвига входного сигнала трехмерного видео назад посредством сдвига расхождения на основе оценки дальнего расхождения и генерирования 415 наложения внутри пространственной области для сдвинутого сигнала трехмерного видео на основе оценки ближнего расхождения и сдвига расхождения.

Предпочтительно способ содержит этап накладывания 420 наложения поверх сдвинутого сигнала трехмерного видео.

Как указано выше в этом документе, этап адаптации входного сигнала трехмерного видео может содержать этап для кадрирования 425 и расширения 430 соответствующих представлений с помощью заполнения пикселями, так чтобы получить измененный диапазон расхождения.

В случае стереосигнала, кадрируется и впоследствии расширяется одно или предпочтительно оба представления. Для изображения из нескольких представлений в количестве N-представлений, при четном N, N-1 или предпочтительно N-представлений кадрированы и расширены как описано выше в настоящем документе.

На фиг. 5A показана система 500 согласно настоящему изобретению для обработки входного сигнала трехмерного видео, содержащего несколько представлений. Система 500 содержит средство определения 505 расхождения для определения оценки дальнего расхождения, указывающей наибольшее значение расхождения для входного сигнала трехмерного видео, и оценки ближнего расхождения, указывающей наименьшее значение расхождения для пространственной области внутри входного сигнала трехмерного видео. Как указано выше в этом документе, средство определения 505 расхождения может быть реализовано как средство оценки расхождения. Система дополнительно содержит средство сдвига 510 расхождения, выполненное с возможностью адаптации сигнала трехмерного видео за счет сдвига сигнала трехмерного видео назад посредством сдвига расхождения на основе оценки дальнего расхождения. Система 500 дополнительно содержит генератор 515 наложений, выполненный с возможностью генерирования наложения внутри безопасной зоны наложения для сдвинутого сигнала трехмерного видео на основе оценки ближнего расхождения и сдвига расхождения.

Предпочтительно система 500 также содержит видеомикшер 520, выполненный с возможностью накладывания наложения поверх сдвинутого сигнала трехмерного видео. Как показано на фиг. 5A, система 500 может быть реализована на персональном компьютере или другой вычислительной платформе для автономной обработки контента. Иначе, она может быть реализована, например, в устройстве, способном проигрывать диски Blu-ray, или телеприставке или 3D-TV.

На фиг. 5B показана дополнительная система 500 согласно настоящему изобретению, в которой система разделена на анализирующее устройство 502 и устройство 503 совмещения изображений, оба скомбинированных устройства реализуют функциональность, обеспеченную системой 500, как показано на фиг. 5A.

Отмечено, что оценка дальнего и ближнего расхождения может быть определена, например, за счет использования анализа расхождения на уровне крупных структурных единиц входного сигнала трехмерного видео, как описано выше, или иначе, за счет использования метаданных, предоставленных во входном сигнале трехмерного видео.

В варианте осуществления, глубина и/или параллакс субтитров поставляется в виде метаданных с видео либо на кадр, либо на группу кадров. Продюсер фильма или специалисты пост-производства могут создавать эти метаданные посредством средства разработки. Глубина и/или параллакс субтитров используется для расположения субтитров на соответствующей глубине или параллаксе перед фоном видео.

Предоставление метаданных о глубине в сигнале 3D видео сейчас объясняется более подробно. Отмечено, что метаданные о глубине являются любыми данными, описывающими характеристику информации о глубине в сигнале 3D видео. Для описанной здесь системы по меньшей мере ближнее значение содержится в метаданных о глубине, которое указывает глубины видеоданных, ближайшие к пользователю, т.е. элементы в 3D видео, ближайшие к наблюдателю, при правильном отображении на 3D дисплее. Описанная выше оценка ближнего расхождения и указанная глубина и/или параллакс субтитров являются примерами ближнего значения.

На фиг. 6 показана система для отображения данных трехмерного (3D) изображения, таких как видео, графическая или другая визуальная информация. Исходное 3D устройство 40 передает сигнал 41 3D видео на конечное устройство 50, которое соединено с устройством 60 3D отображения для передачи сигнала 56 3D отображения. Конечное 3D устройство имеет входной блок 51 для приема сигнала 3D видео. Например, устройство может содержать блок 58 оптических дисков, соединенный с входным блоком для приема информации 3D видео из носителя 54 оптических записей, таких как DVD или Blu-ray диск. Иначе, устройство может содержать блок 59 сетевого интерфейса для соединения с сетью 45, например, Интернет или широковещательной сетью, такое конечное устройство обычно называется телеприставкой. Сигнал 3D видео может быть извлечен из удаленного медиасервера, например, исходного устройства 40. Конечное устройство может также являться спутниковым приемником или медиапроигрывателем.

Исходное 3D устройство имеет блок 42 обработки данных для определения метаданных о глубине, указывающих глубины, фигурирующие в данных 30 3D видео. Данные 3D видео могут быть доступны из хранилища, из камеры и т.д. Метаданные о глубине содержат ближнее значение, указывающее глубины видеоданных, ближайшие к пользователю, т.е. элементы в 3D видео, ближайшие к наблюдателю, при правильном отображении на 3D дисплее. Определение метаданных о глубине, таких как значения расхождения, и примеры ближнего значения были описаны выше для данных нескольких представлений (например, оценка (A) ближнего расхождения, указывающая наименьшее значение расхождения для пространственной области внутри входного сигнала трехмерного видео). Блок обработки данных генерирует сигнал 3D видео, содержащий данные 3D видео, и содержит метаданные о глубине в сигнале 3D видео.

Исходное 3D устройство может быть сервером, вещательной станцией, записывающим устройством или системами разработки и/или производства для изготовления носителей записи, таких как Blu-ray Disc. Blu-ray Disc поддерживает интерактивную платформу для создателей контента. Он поддерживает два уровня наложения графики и два набора программируемой среды для автора, из которых он может выбрать. Для стереоскопического 3D видео существует множество форматов. Основными форматами являются форматы стерео и изображение-плюс-глубина. И среди них существует множество возможных методов, в которых контент может быть отформатирован, чтобы подходить для использования с новыми и существующими 3D дисплеями и форматами распространения. Это так же оказывает влияние на то, как расширять графические системы в стандарте Blu-ray Disc, чтобы сделать их подходящими для использования с конкретным форматом 3D видео. Дополнительная информация по формату Blu-ray Disc доступна на веб-сайте ассоциации Blu-ray Disc в документе по формату аудиовизуального применения. http://www.blu-raydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisualapplication_030 5-12955-15269.pdf. Следовательно, могут содержаться вспомогательные данные, подлежащие добавлению на различных этапах рендринга. Процесс производства дополнительно содержит этапы получения физических образцов меток в треках, которые осуществляют сигнал 3D видео, содержащий метаданные о глубине, и впоследствии придание материалам формы носителя записи, чтобы предоставить треки меток на по меньшей мере одни слой хранения.

Конечное 3D устройство имеет блок 52 обработки данных, соединенный с входным блоком 51 для обработки 3D информации для генерирования сигнала 56 3D отображения, подлежащего передаче через блок 55 выходного интерфейса на отображающее устройство, например, сигнал отображения согласно стандарту HDMI, смотри документ "High Definition Multimedia Interface; Specification Version 1.3a of Nov 10 2006", доступный по адресу http://hdmi.org/manufacturer/specification.aspx. Блок 52 обработки данных выполнен с возможностью генерирования данных изображения, содержащихся в сигнале 56 3D отображения, для отображения на отображающем устройстве 60.

Конечное устройство имеет вспомогательный блок 53 обработки данных для предоставления вспомогательных данных, подлежащих комбинированию с данными 3D видео на 3D дисплее. Вспомогательными данными могут быть любые дополнительные данные графического изображения, которые подлежат комбинированию локально, т.е. на конечном устройстве, с контентом 3D видео, таким как субтитры, логотип вещательной станции, меню или системное сообщение, коды ошибок, экстренное сообщение, бегущая строка, дополнительный 3D поток, такой как комментарии и т.д. В тексте ниже, обычно субтитры будут использоваться как указывающие для каждого типа вспомогательных данных.

Устройство 60 3D отображения для отображения данных 3D изображения. Устройство имеет блок 61 входного интерфейса для приема сигнала 56 3D отображения, содержащего данные 3D видео и вспомогательные данные, переданные от конечного устройства 50. Переданные данные 3D видео обрабатываются блоком 62 обработки данных для отображения на 3D дисплее 63, например, двойном или линзообразном LCD. Отображающее устройство 60 может быть стереоскопическим дисплеем любого типа, также называемое 3D дисплеем, и имеет диапазон глубины отображения, указанный стрелкой 64. Иначе, обработка для предоставления и расположения вспомогательных данных выполняется согласно варианту осуществления отображающего устройства. Данные 3D видео, и опционально вспомогательные данные, передаются посредством сигнала 56 отображения. Вспомогательные данные могут быть также сгенерированы локально в отображающем устройстве, например меню. Теперь блок 62 обработки данных выполняет функции комбинирования вспомогательных данных с данными 3D видео на 3D дисплее. Средства 62 обработки могут быть устроены для соответствующих функций, как описано ниже, для средств 52, 53 обработки в конечном устройстве. В дополнительном варианте осуществления конечное устройство и отображающее устройство интегрированы в отдельное устройство, где отдельный набор средств обработки выполняет указанные функции.

На фиг. 6 дополнительно показан носитель 54 записи, в качестве носителя сигнала 3D видео. Носитель записи является в форме диска и имеет трек и центральное отверстие. Трек, состоящий из серий физически обнаруживаемых меток, устроен в соответствии со спиральным или концентрическим образцом витков, составляющих по существу параллельные треки на информационном слое. Носитель записи может быть оптически читаемым, называемым оптическим диском, например, CD, DVD или BD (Blue-ray Disc). Информация представляется на информационном слое за счет оптически обнаруживаемых меток вдоль трека, например питы и ленды. Структура трека так же содержит информацию о расположении, например, заголовки и адреса, для указания размещения блоков информации, обычно называемых информационными блоками. Носитель 54 записи несет информацию, представляющую цифровые данные закодированного изображения, такие как видео, например, закодированное согласно системе кодирования MPEG2 или MPEG4, в предопределенном формате записи, таком как формат DVD или BD.

Средства 52, 53 обработки в конечном устройстве выполнены с возможностью исполнения следующих функций. Сигнал 3D видео принимается средствами 51, 58, 59 приема. Сигнал 3D видео содержит данные 3D видео и метаданные о глубине, указывающие глубины, фигурирующие в данных 3D видео, метаданные о глубине которых содержат ближнее значение, указывающее глубины видеоданных, ближайшие к пользователю, как описано выше. Средства обработки 52, 53 выполнены с возможностью извлечения метаданных о глубине из сигнала 3D видео, предоставляя вспомогательные данные, и расположения вспомогательных данных на вспомогательной глубине, в зависимости от принятых метаданных, для отображения вспомогательных данных в комбинации с данными 3D видео так чтобы избежать загораживание вспомогательных данных указанными ближайшими видеоданными.

Проблема с наложением 3D графики поверх 3D видео относится в тому, как расположить наложение графики в 3D пространстве без знания в проигрывающем устройстве Z диапазона стереоскопического 3D видео на фоне. Это является обычным случаем для стереоскопического 3D видео в стереоформате. Метод, которым это может быть решено, зависит исключительно от формата 3D видео, который используется, и от того, как скомбинированные видео и графика отправляются на устройство 3D отображения.

Использование метаданных для совмещения 3D изображений может быть основано на законченной 3D модели, содержащей геометрию, освещение и тому подобное для обеспечения правильного совмещения стереоскопических изображений. Этот подход предоставляет механизм для совмещения 3D изображений в среде разработки на этапе пост-производства. Однако, проблема с целой 3D моделью состоит в том, что это требует множество данных так как 3D информация предоставляется для каждого пикселя в изображении. Такой подход является менее осуществимым при имении дела со стереоскопическими изображениями, сгенерированными в реальном времени, которые должны быть совмещены в стереоскопическое видео на потребительском устройстве, таком как проигрыватель Blu-ray Disc или телеприставка.

Теперь предлагается предоставлять метаданные о глубине для данных 3D видео, которые являются фоном для динамических вспомогательных данных, так чтобы, например, графика, которая сгенерирована в реальном времени, могла быть наложена на этот фон видео.

В варианте осуществления для каждого кадра или группы картинок (GOP) метаданные о глубине добавляются к сигналу 3D видео. Эти метаданные о глубине могут содержать отдельный байт данных, в результате чего значение указывает ближайшее расхождение между левым и правым представлением фона стереоскопического видео. Иначе, это значение метаданных о глубине может указывать расхождение любого наложения графики, так что если проигрыватель совмещает сгенерированную в реальном времени графику, то он должен расположить графику на расхождении как указано в метаданных.

Предложенные метаданные о глубине могут составить один байт на кадр или на GOP. Если байт добавляется к каждому кадру, то для двухчасового стереоскопического фильма требуется 173 КБ данных, это приемлемо. Использование на группу картинок уменьшит это до (для 1 секунды длительности GOP) 7,2 КБ данных. Из-за ограниченного размера метаданные о глубине могут быть расширены, чтобы содержать дополнительные поля, относящиеся к 3D.

Дополнительная проблема, подлежащая решению, состоит в том, как внести метаданные о глубине в формат распространения таким образом, чтобы они были внесены совместимым образом и чтобы это предоставляло проигрывателю возможность их использования для совмещения в реальном времени. Теперь описаны несколько методов внесения метаданных.

Конечное устройство подлежит снаряжению, так называемым, средством "Z" совмещения, который может накладывать стереоскопическую графику на стереоскопическое видео. Например, средство "Z" совмещения содержится в блоке 52 обработки данных. Средство "Z" совмещения интерпретирует метаданные о глубине и из этого определяет расположение вспомогательных данных поверх видео в 3D пространстве.

В варианте осуществления средство "Z" совмещения является упрощенной версией средства "Z" совмещения, основывающегося на целой 3D модели, как упомянуто в данном уровне техники. Данная версия не требует целой геометрической модели как видео, так и графики, но использует только один байт, который указывает глубину диапазона расхождения стереоскопического видео и использует это для наложения вспомогательных данных.

Так для хранения метаданных в одном варианте осуществления, метаданные о глубине для фона видео содержатся в сообщении с пользовательскими данными, согласно предопределенному стандарту формата передачи, такому как MPEG4, например оповещающее сообщение с информацией об элементарном потоке [SEI] кодированного потока H.264. Преимущество способа состоит в том, что он совместим со всеми системами, которые опираются на стандарт кодирования H.264/AVC (смотри например, ITU-T H.264 и ISO/IEC MPEG-4 AVC, т.е. стандарты ISO/IEC 14496-10). Новые кодеры/декодеры могут реализовать новое сообщение SEI, в то время как существующие будут просто игнорировать их.

На фиг. 7 показаны метаданные о глубине в частном сообщении SEI пользовательских данных. Поток 71 3D видео указан схематически. Одним элементом в потоке является оповещение для указания параметров потока декодеру, так называемое оповещающее сообщение 72 с информацией об элементарном потоке [SEI]. Более конкретно, метаданные 73 о глубине могут храниться в контейнере пользовательских данных. Метаданные о глубине могут содержать значения глубины, значения расхождения или любое другое представление информации о глубине.

На фиг. 8 показана структура данных для метаданных о глубине в сигнале 3D видео. Показанная на фигуре таблица определяет синтаксис соответствующих управляющих пакетов данных в потоке видео, в частности GOP_structure_map(). Структура данных определяет поля для метаданных 81 о глубине, т.е. Video_max_disparity, которое определяет дальнее значение, и Video min disparity, которое определяет ближнее значение; также смотри фиг. 1 для определения значений расхождения. Учтите, что поле video min disparity указывает ближайший объект в 3D пространстве по отношению к наблюдателю и может быть использовано для определения, где накладывать какую-либо графику, такую как субтитры, в то время как video max disparity указывает расхождение объекта в видео, который является самым дальним от наблюдателя. Отмечено, что некоторые документы общего пользования определяют максимальное значение расхождения для представления ближайшего объекта; для такого определения, знак значений расхождения подлежит обращению. На глубине экрана расхождение равно нулю, независимо от указанного определения.

На фиг. 9 показана структура данных для метаданных о глубине в сигнале 3D видео на носителе записи. Для видеоданных на носителе, таком как Blu-ray Disc, может быть предоставлена карта точек входа, которая указывает точки входа, которые позволяют рендринг видео, начиная с точки входа. Структура данных карты точек входа может быть расширена за счет добавления метаданных о глубине, которые определяют значения глубины для фрагмента данных 3D видео, начиная с точки входа, и, например, действительны до следующей точки входа. Характерно для стандарта Blu-ray Disc, метаданные хранятся в EP-карте, как показано на фигуре. EP-карта содержит таблицу, которая хранит записи для всех действующих точек входа декодирования в потоке, т.е. точек, где может начаться декодирование.

Иначе, метаданные предоставляются в виде основанного на XML описании, это описание переносится в карусель данных транспортного потока MPEG-2. Приложение интерактивного ТВ, также передающееся в этом MPEG-транспортном потоке, может использовать это основанное на XML описание для определения, как совмещать стереоскопическую графику с видео. Иначе, метаданные могут предоставляться в виде расширения к списку проигрывания.

В дополнительном улучшении, метаданные расширяются, чтобы содержать минимальный и максимальный диапазоны расхождения. Это позволит накладывать несколько плоскостей видео и графики.

В дополнительном улучшении, предназначенном для наложения текста, такого как субтитры, проигрывающее устройство хранит максимальное значение диапазонов расхождения метаданных о глубине в специальном регистре. Затем оно использует ближайшее значение для определения на какой глубине (или расхождении) накладывать субтитры. Значение, хранящееся в этом регистре, изменяется только постепенно со временем. Это гарантирует, что субтитры не изменяются постоянно по глубине, так как это может вызвать чрезмерное напряжение глаз у зрителя.

Дополнительное расширение метаданных о глубине состоит в том, чтобы определить несколько областей в видеокадре и назначить значения метаданных о глубине конкретно этой области. В варианте осуществления, выбор области выполняется как следует ниже. Зона отображения разделена на несколько областей. Обнаружение метаданных о глубине выполняется для каждой области. Например, зона кадра разделена на 2 или более областей (например, являющиеся горизонтальными полосами) и для каждой области min и max depth добавляются в поток. Это дает свободу для наложения графики, так как теперь она может быть расположена в зависимости также от области.

Область метаданных о глубине может быть основана на пространственной фильтрации значений глубины нескольких областей, согласно функции пространственного фильтра в зависимости от области. В примере, зона отображения разделена в виде мозаики. В каждом мозаичном элементе, максимальная глубина вычисляется отдельно. В примере, вспомогательные данные могут находиться на конкретной глубине, даже если глубина другого объекта в другой области находится существенно ближе к наблюдателю. Это также позволяет совмещать субтитры на другой области и расхождении, чем например, всплывающее меню. Средство "Z" совмещения и количество хранимых данных расширяются для приспособления управления областями.

В альтернативном варианте осуществления для хранения метаданных, сообщения SEI на GOP содержат список расхождения или значения смещения и указатель направления расхождения или смещения для плоскостей вывода. Значение расхождения или смещения указывает сдвиг пикселя между левой и правой плоскостями вывода стереоскопического вывода, и указатель направления указывает сдвинут ли пиксель влево или вправо. Сдвиг пикселя происходит когда соответствующий пиксель в левой плоскости вывода в размещении x сдвигается в x+n или x-n в правой плоскости вывода. Этот список значений смещения может быть использован для различных целей. В общем, такие значения смещения используются для наложения 2D графики отдельного представления поверх фона стереоскопического видео. В таком случае, значение смещения n используется для сдвига пикселей в 2D изображении, чтобы создать второе изображение для наложения поверх второго представления ("R") фона стереоскопического видео, тогда как 2D изображение накладывается поверх первого представления ("L") фона стереоскопического видео. Изобретатели поняли, что такой список значений смещения с указателем направления может быть также использован для представления максимального и/или минимального расхождения фона видео. Например, значение смещения плоскости = x, где направление смещения плоскости, указывающее сдвиг пикселей влево во второй ("R") плоскости, указывает video_max_disparity и значение смещения плоскости = y, где указатель направления смещения плоскости, указывающий сдвиг пикселей вправо во второй ("R") плоскости, указывает video_min_disparity. То, что предлагается состоит в том, что дополнительное оповещение содержится в таблице, которая выводит список потоков для проигрывания, из которых проигрывающее устройство может выбирать во время демонстрации. Дополнительное оповещение указывает, какое из вложенных значений смещения в списке, вложенном в сообщениях SEI соответствующего потока, должно использоваться для оповещения о максимальном и/или минимальном расхождении стереоскопического изображения на выходе. На фиг. 11 показан пример такого оповещения.

Фиг. 11

Система, использующая метаданные о глубине, требует создания метаданных и распространения данных, и наконец, так называемое, средство "Z" совмещения для считывания метаданных и совмещения вспомогательных данных поверх 3D видео, например стереоскопической графики поверх стереоскопического видео. Средство оценки расхождения и кодер метаданных определяет минимальное и/или максимальное расхождение кадра в видеоконтенте и кодирует его в канале распространения. Для Blu-ray Disc это может быть либо в EP-карте, либо сообщениях SEI, непосредственно в кодированном потоке, как описано выше.

EP карта обычно используется во время быстрого проигрывания, это позволяет проигрывателю быстро переходить в правое размещение в потоке, чтобы начать декодировать следующий кадр. Мы расширяем эту таблицу за счет метаданных о глубине. На фиг. 9 показана упрощенная версия этой таблицы, расширенной за счет поля метаданных, которое содержит любые метаданные, связанные с точкой входа.

На фиг. 10a показан формат поля метаданных, содержащего метаданные о глубине. Существует два поля 92, одно, содержащее максимальное значение диапазона глубины точки входа, и другое - опциональное поле, которое используется для содержания смещения. Для правильного наложения, глубина графики должна быть ближе, чем значение depth_max.

На фиг. 10b показан формат поля метаданных, содержащего данные о расхождении. Данные 93 о расхождении являются альтернативной версией метаданных о глубине, которые предоставляют минимальные и максимальные диапазоны расхождения или значение, это позволяет наложение нескольких плоскостей видео. Система для применения изобретения требует средства для создания метаданных, распространения данных и, на конечном пункте, так называемое средство "Z" совмещения для считывания метаданных и совмещения стереоскопической графики поверх стереоскопического видео.

Обработка видеоданных на конечном устройстве происходит как следует ниже. Для декодирования средство "Z" совмещения определяет кадр, где графика подлежит наложению. Затем, оно считывает "глубину" или метаданные о расхождении этого кадра или если это отсутствует, оно использует значение, связанное с ближайшим I-кадром (или точкой входа). На следующем этапе, оно определяет является ли расхождение между левым и правым графическим изображением больше или равно расхождению изображений фона видео. Если расхождение стереоскопической графики больше или равно значению, указанному в метаданных видео, то средство "Z" совмещения просто совмещает левое и правое графические изображения на левом и правом видеокадрах. Если расхождение меньше, то вспомогательные данные находятся дальше, и средство "Z" совмещения подстраивает расхождение стереоскопических графических изображений посредством выполнения линейного сдвига для совпадения расхождения графики со значением, указанным в метаданных о глубине.

Иначе, когда присутствует только одиночная графика, средство "Z" совмещения совмещает графику на левом видеокадре и совмещает графику на правом видеокадре, но сдвинутые горизонтально вправо. Величина сдвига зависит от значения "глубины" или метаданных о расхождении. Учтите, что сдвиг, требуемый для получения желаемого параллакса, зависит от некоторых параметров, таких как расстояние наблюдения зрителем до дисплея. При вычислении сдвига как числа пикселей, должны быть известны ширина и разрешение дисплея зрителей. Эти параметры могут содержаться также в виде опции в метаданные о "глубине". В варианте осуществления используется стандартизированная или базовая установка, где, например, дисплей имеет ширину в 1 метр и зритель сидит в 4 метрах от дисплея.

В практическом варианте осуществления субтитры наложены на 3D контент. Первичный контент существует в виде стерео (левый/правый) изображений; субтитры также существуют в виде изображений. Вариант осуществления может, кстати, отрендрить субтитры из подходящего описания. Вариант осуществления использует следующие этапы:

- для соответствующего периода 3D видео, расхождение извлекается из метаданных, переданных с сигналом 3D видео. Внутри интересующей области и/или периода, ближайшие расхождения извлекаются из метаданных. К списку минимальных расхождений может быть применена фильтрация для определения отфильтрованного расхождения.

- Вспомогательные данные располагаются на отфильтрованном расхождении, например субтитры смешаны поверх левого и правого изображений, используя перемещение пикселей между левым и правым, которое равняется отфильтрованному расхождению.

- Если субтитры отрендрены заранее, используется обычное альфа смешивание. Если субтитры существуют в текстовом формате, они рендрятся с субпиксельной точностью.

- Для генерирования небольшого диапазона глубины между передним наибольшим объектом и субтитрами может применяться небольшое смещение (обычно один пиксель).

Отмечено, что вышеуказанный метод позволяет выбирать целевую область за счет выбора области данных изображения, где не возникают значения глубины большие, чем значения вспомогательной глубины. Кроме того, указанный выбор может содержать выбор периода времени для отображения вспомогательных данных, так что в целевой области не возникают значения глубины большие, чем значение вспомогательной глубины. Например, рендринг субтитров может быть задержан или сдвинут, чтобы позволить более близкому объекту исчезнуть.

В варианте осуществления определение образца глубины содержит обнаружение значений глубины в нескольких кадрах видеоконтента, и временную фильтрацию значений глубины согласно функции временного фильтра. Например, может быть учтен период времени, за который субтитры сами по себе подлежат отображению, или период немного больший, чтобы предотвратить появление объектов существенно прилегающих к, или более близких чем, субтитрам. Период отображения субтитров обычно указывается в сигнале отображения.

В частности, определение образца глубины может содержать установку окна времени для функции временного фильтра на основе обнаружения границ съемки в нескольких кадрах видеоконтента. Это может быть реализовано как следует ниже.

Границы снимка вычисляются из левого или правого изображений. Начальные изображения снимков находятся посредством обнаружения больших изменений в контенте изображений, используя цветовую гистограмму изображения. Список минимальных расхождений обнаруживается для снимков согласно снимков со сменой изображения, обнаруженных ранее. Затем, для каждого снимка список минимальных расхождений фильтруется с помощью подходящей функции окна времени (смотри пример ниже). Оконная функция является функцией с нулевым значением за пределом некоторого выбранного интервала. Например, функция, которая является постоянной внутри интервала и нулевой где-либо еще называется прямоугольным окном, которая описывает форму ее графического представления. Сигнал (данные) изображения умножается на оконную функцию и произведение является также нулевым за пределами интервала.

Фильтрация каждого снимка по отдельности гарантирует, что используются только значения изнутри снимка. Таким образом, значения глубины вспомогательных графических данных позволяют переходить на снимки со сменой изображения, если расхождение переднего наибольшего объекта внутри интересующей области переходит, но не разрешено переходить внутри снимка. В качестве альтернативы, также расположение глубины между снимками может фильтроваться, позволяя сглаженные переходы на границах снимка.

Для выбора оконной функции вариант осуществления использует оконную функцию Ханна, кроме других оконных функций, например также подходит прямоугольная оконная функция. Функция Ханна, названная в честь Австрийского метеоролога Джулиуса фон Ханна, является дискретной функцией распределения масс, заданной формулой

Окно отцентрировано в текущий момент времени, так что оба значения и прошлое, и будущее учтены. Это имеет эффект сглаживания значений, таким образом предотвращая резкие изменения в расхождении, и гарантирует, что наложение находится всегда перед 3D контентом. Будущие значения могут отсутствовать, например, для трансляций в реальном времени, и кадрирование может основываться только на прошлых значениях. Иначе, часть будущих кадров может сохраняться сначала в буфере, при применении небольшой задержки при рендринге.

Отмечено, что содержание дальнего значения, т.е. минимального сдвига параллакса [PS] или максимального расхождения видео, позволяет отодвинуть видео назад (уменьшить PS или увеличить расхождение для L+R на то же значение) для того, чтобы освободить место для вспомогательных данных. Дальнее значение учитывается для предотвращения чрезмерного отодвигания назад, т.е. отодвигание назад никогда не должно приводить к значениям расхождения выше расстояния между зрачками (обычно 6 см) на экране, т.е. за пределы бесконечности. За счет содержания дальнего значения (например, максимального расхождения), это может быть предотвращено проигрывателем. Проигрыватель должен также знать размер экрана, чтобы вычислить соответствующий сдвиг в пикселях.

В варианте осуществления конечного устройства обнаружено, что максимальное значение таково, что нет места для (значительного) сдвига видео назад. Затем, обработка временно переключается в специальный режим, в котором основное 3D видео отображается как одиночное видео, или в режим одиночного видео с одной выбранной глубиной, имеющей сдвинутое левое или правое представление, так что одиночное видео появляется за экраном. Дополнительный параметр в потоке (например, один байт для периода 3D видео) может указывать предназначенную глубину (или расхождение), чтобы поставить одиночное видео на выбранной глубине, например немного за экраном, в то время как вспомогательное видео отображается ближе, например на экране.

Следует принять во внимание, что вышеуказанное описание для ясности описывает варианты осуществления изобретения с учетом различных функциональных блоков и процессоров.

Однако, будет очевидно, что любое подходящее распределение функциональности между разными функциональными блоками или процессорами может использоваться без принижения изобретения. Например, функциональность, проиллюстрированная для выполнения отдельными блоками, процессорами или контроллерами, может быть выполнена тем же процессором или контроллерами. Следовательно, ссылки на конкретные функциональные блоки следует рассматривать только в качестве ссылок на подходящие средства для предоставления описанной функциональности, а не в качестве указания на точную логическую или физическую структуру или организацию.

Изобретение может быть реализовано в любом подходящем виде, в том числе в аппаратном обеспечении, программном обеспечении, прошивки или любой их комбинации. Изобретение может быть опционально реализовано по меньшей мере частично как компьютерное программное обеспечение, запущенное на одном или более процессорах обработки данных и/или процессорах цифровой обработки сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. Действительно, функциональность может быть реализована в отдельном блоке, во множестве блоков или как часть других функциональных блоков. В связи с этим, изобретение может быть реализовано в отдельном блоке или может быть физически и функционально распределено между разными блоками и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, это не предназначено для ограничения конкретной формой, описанной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, несмотря на то, что признак может показаться описанным в связи с конкретными вариантами осуществления, специалист в данной области техники распознает, что различные признаки описанных вариантов осуществления могут быть скомбинированы в соответствии с изобретением. В формуле изобретения, термин "содержащий" не исключает присутствия других элементов или этапов.

Более того, несмотря на то, что перечислены индивидуально, множество средств, элементов или этапов способа могут быть реализованы, например, посредством отдельного блока или процессора. Дополнительно, несмотря на то, что индивидуальные признаки могут содержаться в разных пунктах формулы изобретения, они возможно могут быть выгодно скомбинированы, и содержание в разных пунктах формулы изобретения не означает, что комбинация этих признаков не является выполнимой и/или выгодной. Также содержание признака в одной категории формулы изобретения не означает ограниченность этой категорией, но скорее указывает что признак одинаково применим к другим категориям формулы изобретения в зависимости от ситуации. Более того, порядок признаков в формуле изобретения не означает какой-либо конкретный порядок, в котором признаки должны работать, и в частности, порядок индивидуальных этапов формулы изобретения на способ не означает, что этапы должны выполняться в этом порядке. Скорее, этапы могут выполняться в любом подходящем порядке. К тому же, единичные ссылки не исключают множественности. Таким образом, ссылки на артикли единственного числа, "первый", "второй" и т.д. не исключают множественности. Ссылки в формуле изобретения предоставлены лишь как поясняющий пример, который не следует толковать как ограничивающий объем формулы каким-либо образом.

Похожие патенты RU2554465C2

название год авторы номер документа
ОБЪЕДИНЕНИЕ ДАННЫХ 3D ИЗОБРАЖЕНИЯ И ГРАФИЧЕСКИХ ДАННЫХ 2010
  • Ньютон Филип С.
  • Де Хан Вибе
  • Талстра Йохан С.
  • Брюльс Вильгельмус Х.А.
  • Парлантзас Георгиос
  • Хельбинг Марк
  • Бенин Кристиан
  • Филомин Васант
  • Варекамп Кристиан
  • Ван Дер Хейден Герардус В.Т.
RU2538335C2
ОБРАБОТКА 3D ОТОБРАЖЕНИЯ СУБТИТРОВ 2009
  • Ньютон Филип С.
  • Болио Деннис Д.Р.Й.
  • Скалори Франческо
  • Вандерхейден Герардус В.Т.
  • Ван Доверен Хенрикус Ф.П.М.
  • Де Хан Вибе
  • Молль Хендрик Ф.
RU2517402C2
ВСПОМОГАТЕЛЬНЫЕ ДАННЫЕ В ТРАНСЛЯЦИИ 3D ИЗОБРАЖЕНИЯ 2011
  • Ньютон Филип Стивен
  • Брондейк Роберт Албертус
  • Де Хан Вибе
RU2589307C2
УСТРОЙСТВО ВОСПРОИЗВЕДЕНИЯ, СПОСОБ ЗАПИСИ, СИСТЕМА ВОСПРОИЗВЕДЕНИЯ НОСИТЕЛЯ ЗАПИСИ 2010
  • Икеда Ватару
  • Огава Томоки
  • Сасаки Таидзи
  • Яхата Хироси
RU2522304C2
СПОСОБ И СИСТЕМА ДЛЯ ОБРАБОТКИ ВХОДНОГО ТРЕХМЕРНОГО ВИДЕОСИГНАЛА 2009
  • Баренбруг Барт Г. Б.
  • Ван Дер Хейден Герардус В. Т.
  • Свилленс Петер Й. Л. А.
RU2519433C2
КОМПЕНСАЦИЯ РАЗМЕРА ТРЕХМЕРНОГО ЭКРАНА 2010
  • Брюльс Вильгельмус Хендрикус Альфонсус
  • Клейн Гунневик Рейнир Бернардус Мария
  • Ван Дальфсен Аге Йохем
  • Ньютон Филип Стивен
RU2559735C2
НОСИТЕЛЬ ЗАПИСИ ИНФОРМАЦИИ И УСТРОЙСТВО ВОСПРОИЗВЕДЕНИЯ ДЛЯ ВОСПРОИЗВЕДЕНИЯ 3D ИЗОБРАЖЕНИЙ 2010
  • Сасаки Таидзи
  • Яхата Хироси
  • Огава Томоки
RU2520325C2
ПЕРЕДАЧА ДАННЫХ 3D ИЗОБРАЖЕНИЯ 2010
  • Талстра Йохан С.
  • Ван Дер Хейден Герардус В.Т.
  • Ньютон Филип С.
RU2538333C2
ГЕНЕРИРОВАНИЕ ТРЕХМЕРНОГО ВИДЕОСИГНАЛА 2010
  • Ньютон Филип Стивен
  • Де Хан Вибе
  • Болио Деннис Даниэль Роберт Йозеф
RU2566968C2
ПЕРЕДАЧА ДАННЫХ 3D-ИЗОБРАЖЕНИЯ 2011
  • Де Хан Вибе
RU2589870C2

Иллюстрации к изобретению RU 2 554 465 C2

Реферат патента 2015 года КОМБИНИРОВАНИЕ 3D ВИДЕО И ВСПОМОГАТЕЛЬНЫХ ДАННЫХ

Изобретение относится к средствам передачи сигнала трехмерного видео на конечное устройство. Техническим результатом является повышение точности комбинирования вспомогательных данных и 3D видеоконтента. Способ содержит этапы определения метаданных о глубине, указывающих глубины, фигурирующие в данных 3D видеоизображения, генерирования сигнала 3D видеоизображения, содержащего данные 3D видеоизображения, внесения метаданных о глубине в сигнал 3D видеоизображения для предоставления возможности конечному 3D устройству извлекать метаданные о глубине, предоставлять вспомогательные данные, располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных данных в комбинации с данными 3D видеоизображения. 4 н. и 9 з.п. ф-лы, 10 ил.

Формула изобретения RU 2 554 465 C2

1. Способ предоставления сигнала трехмерного 3D видеоизображения для передачи на конечное 3D устройство,
причем способ содержит следующие этапы:
- определения метаданных о глубине, указывающих глубины, фигурирующие в данных 3D видеоизображения, причем метаданные о глубине содержат ближнее значение, указывающее глубины элементов в данных 3D видеоизображения, ближайших к наблюдателю, при отображении на 3D отображающем устройстве,
- генерирования сигнала 3D видеоизображения, содержащего данные 3D видеоизображения и
- внесения метаданных о глубине в сигнал 3D видеоизображения для предоставления возможности конечному 3D устройству
- извлекать метаданные о глубине,
- предоставлять вспомогательные данные и
- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных данных в комбинации с данными 3D видеоизображения.

2. Способ по п. 1, в котором метаданные о глубине содержат дальнее значение, указывающее глубины, фигурирующие в данных 3D видеоизображения, самых дальних от пользователя, чтобы предоставить возможность конечному 3D устройству
- устанавливать вспомогательную глубину, более дальнюю от пользователя, чем ближнее значение и
- применять сдвиг к данным 3D видеоизображения в направлении от пользователя для сдвига указанных ближайших данных видеоизображения на глубину, более дальнюю от пользователя, чем вспомогательная глубина, причем сдвиг максимизирован на основе дальнего значения.

3. Способ по п. 1, в котором метаданные о глубине являются списком значений смещения и указателем направления смещения, причем значения смещения указывают сдвиг пикселя между левой плоскостью вывода и правой плоскостью вывода вспомогательных данных, и указатель направления указывает, сдвинут ли пиксель влево или вправо, или метаданные о глубине содержат данные, указывающие глубины, фигурирующие по меньшей мере в одной пространственной области данных 3D видеоизображения.

4. Способ по п. 1, в котором сигнал 3D видеоизображения содержит поток закодированных данных видеоизображения, выполненный с возможностью передачи декодированной информации, согласно предопределенному стандарту, и указанное внесение метаданных о глубине в сигнале 3D видеоизображения, содержит внесение метаданных о глубине в по меньшей мере одном из:
- сообщении с пользовательскими данными;
- оповещающем сообщении с информацией об элементарном потоке [SEI];
- таблице точек входа;
- описании на основе XML.

5. Способ по п. 1, в котором метаданные о глубине содержат данные, указывающее глубины, фигурирующие по меньшей мере в одной пространственной области данных 3D видеоизображения.

6. Способ по п. 1, в котором способ содержит этап изготовления носителя записи, носитель записи, обеспеченный треками меток, представляющих сигнал 3D видеоизображения.

7. Исходное 3D устройство (40) для предоставления сигнала (41) трехмерного 3D видеоизображения для передачи на конечное 3D устройство (50), причем
исходное устройство содержит средства (42) обработки для
- определения метаданных о глубине, указывающих глубины, фигурирующие в данных (30) 3D видеоизображения, причем метаданные о глубине содержат ближнее значение, указывающее глубины элементов в данных 3D видеоизображения, ближайших к наблюдателю, при отображении на 3D отображающем устройстве,
- генерирования сигнала 3D видеоизображения, содержащего данные 3D видеоизображения и
- внесения метаданных о глубине в сигнал 3D видеоизображения для предоставления возможности конечному 3D устройству
- извлекать метаданные о глубине,
- предоставлять вспомогательные данные и
- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных метаданных в комбинации с данными 3D видеоизображения.

8. Исходное устройство по п. 7, в котором метаданные о глубине являются списком значений смещения и указателем направления смещения, причем значения смещения указывают сдвиг пикселя между левой плоскостью вывода и правой плоскостью вывода вспомогательных данных, и указатель направления указывает, сдвинут ли пиксель влево или вправо.

9. Конечное 3D устройство (50) для приема сигнала трехмерного 3D видеоизображения, причем устройство содержит:
средства (51, 58, 59) приема для приема сигнала 3D видеоизображения, содержащего данные 3D видеоизображения и метаданные о глубине, указывающие глубины, фигурирующие в данных 3D видеоизображения, причем метаданные о глубине содержат ближнее значение, указывающее глубины элементов в данных 3D видеоизображения, ближайших к наблюдателю, при отображении на 3D отображающем устройстве, и средства (52, 53) обработки для
- извлечения метаданных о глубине из сигнала 3D видео,
- предоставления вспомогательных данных и
- расположения вспомогательных данных на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных данных в комбинации с данными 3D видеоизображения.

10. Конечное устройство по п. 9, в котором средства приема содержат средства (58) для чтения носителя записи для приема сигнала 3D видеоизображения, или
в котором устройство содержит средства (63) 3D отображения для отображения вспомогательных данных в комбинации с данными 3D видеоизображения.

11. Конечное устройство по п. 9, в котором метаданные о глубине содержат дальнее значение, указывающее глубины, фигурирующие в данных 3D видеоизображения, самых дальних от пользователя, и средства (52, 53) обработки, выполненные с возможностью
- установления вспомогательной глубины, более дальней от пользователя, чем ближнее значение,
- применения сдвига к данным 3D видеоизображения в направлении от пользователя для сдвига указанных ближайших данных видеоизображения на глубину, более дальнюю от пользователя, чем вспомогательная глубина, причем сдвиг максимизирован на основе дальнего значения.

12. Устройство по п. 9, в котором метаданные о глубине являются списком значений смещения и указателем направления смещения, причем значения смещения указывают сдвиг пикселя между левой плоскостью вывода и правой плоскостью вывода вспомогательных данных, и указатель направления указывает, сдвинут ли пиксель влево или вправо, и причем средства (52, 53) обработки выполнены с возможностью генерирования по меньшей мере левой вспомогательной плоскости вывода и правой вспомогательной плоскости вывода посредством применения к вспомогательным данным, горизонтального сдвига, основанного на значениях смещения и указателе направления смещения.

13. Носитель записи (54), содержащий сигнал трехмерного 3D видеоизображения для передачи данных 3D видеоизображения на конечное 3D устройство, причем сигнал 3D видеоизображения содержит данные 3D видеоизображения и метаданные о глубине, указывающие глубины, фигурирующие в данных 3D видеоизображения, причем метаданные о глубине содержат ближнее значение, указывающее глубины элементов в данных 3D видеоизображения, ближайших к наблюдателю, при отображении на 3D отображающем устройстве, для обеспечения возможностью конечного 3D устройства
- извлекать метаданные о глубине,
- предоставлять вспомогательные данные и
- располагать вспомогательные данные на вспомогательной глубине в зависимости от извлеченных метаданных для отображения вспомогательных данных в комбинации с данными 3D видеоизображения.

Документы, цитированные в отчете о поиске Патент 2015 года RU2554465C2

WO 2008038205 A2, 03.04.2008
US 20070248260 A1, 25.10.2007
Фильтр для разделения суспензий 1988
  • Успенский Владимир Андреевич
  • Ткач Константин Юльевич
  • Кашаровский Игорь Янович
  • Голунов Сергей Герасимович
  • Константинова Любовь Савватьевна
SU1599053A1
СПОСОБ ФОРМИРОВАНИЯ ИЗОБРАЖЕНИЯ ОБЪЕКТА В ТРЕХМЕРНОМ ПРОСТРАНСТВЕ И УСТРОЙСТВА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ (ВАРИАНТЫ) 1996
  • Занен Питер П.
RU2171487C2
СИСТЕМА ТРЕХМЕРНОЙ ВИДЕОИГРЫ 2003
  • Гутиерез Новело Мануэль Рафаэль
RU2339083C2

RU 2 554 465 C2

Авторы

Ньютон Филип Стивен

Болио Деннис Даниэль Роберт Йозеф

Кюрверс Марк Йозеф Мария

Ван Дер Хейден Герардус Вильхельмус Теодорус

Брюльс Вильгельмус Хендрикус Альфонус

Де Хан Вибе

Талстра Йохан Корнелис

Даты

2015-06-27Публикация

2010-07-20Подача