Область техники
Настоящее изобретение в общем относится к системам обработки видео, более конкретно, к устройству и способу для временного полуавтоматического (с поддержкой оператора) дополнения видео, такого как назначение информации глубины (диапазона) для последующего преобразования последовательности монокулярной видеопоследовательности в стереовидео или назначение цветовой информации для последующего преобразования полутонового видео в цветное. Настоящее изобретение также может быть применено к ротоскопированию (покадровой ручной обработке изображений) объектов посредством временного распространения маски сегментации объекта. Методы ротоскопирования объектов составляют важную часть любого программного обеспечения обработки видео (например, Adobe Premier) и систем цифровой мультипликации.
Предшествующий уровень техники
В последние годы различные компании активно разрабатывали стереоскопические устройства отображения, подходящие для демонстрации стереоизображений. Для представления наблюдателю 3D восприятия (стерео) необходима видеопоследовательность в специальном формате. Этот формат включает в себя видео, воспроизводимое для разных видов, чтобы представлять отдельно для левого и правого глаз. Различные методы могут быть использованы для генерации изображений для разных видов. Это может, например, представлять собой видео, захваченное несколькими камерами, или видео, сгенерированное с использованием 3D модели.
Большая часть видеоконтента, генерируемого в эпоху кинематографа, предназначена для традиционных моноустройств отображения. Для получения 3D-представлений из устаревшего видеоконтента необходимо преобразовать этот видеоконтент в стереовидео. Это достигается назначением карты глубины для каждого видеокадра и воспроизведением левого и правого видов с использованием видеокадров и карт глубины.
Системы для преобразования видео могут быть либо полностью автоматическими (как в патентной заявке US 2011/0026808), не требуя вмешательства оператора, либо полуавтоматическими, где преобразование выполняется при поддержке оператора. В последних системах оператор обычно выбирает ключевые кадры в видеопоследовательностях и вручную назначает (выводит) карты глубины, возможно с использованием некоторых специальных методов поддержки (патентная заявка US 2002/0048395). Кадры для назначения глубины выбираются вручную (как в патенте US 7158676) или автоматически (как в патентной заявке US 2009/0116732 и в патенте RU 2493602). Эти карты глубины распространяются на остальные видеокадры (как в патентных заявках US 2010/0194856 и US 2009/0116732), возможно с помощью ротоскопирования (патентная заявка US 2012/0314025 A1). Полуавтоматические системы обеспечивают намного более высокое качество, чем полностью автоматические системы.
В последние годы ряд старых черно-белых кинофильмов были преобразованы в цветные кинофильмы. В настоящее время потребности потребителя в приятном впечатлении от просмотра кинофильма включают в себя восприятие полноцветной качественной видеоинформации. Однако большое количество фильмов, представляющих собой шедевры, были сняты с использованием полутоновой (черно-белой) пленки, тем самым с потерей цветовой информации. Дополнение такого ценного наследия цветовой информацией представляет собой трудоемкую и дорогостоящую процедуру. Обычно пленка обрабатывается следующим образом: одному из кадров (ключевому кадру) в видеопоследовательности назначается цветовая информация (придается окраска), и эта информация затем распространяется (путем ротоскопирования) на соседние кадры, как описано в патенте US 4755870 (окрашивание выполняется от первого кадра вперед с использованием обработанного кадра в качестве опорного, что приводит к распространению ошибок), патенте US 8467629 и патентной заявке US 2012/0063675 (требует наличия цветовой информации низкого разрешения на входе и корректирует цвета для соответствия входной шкале).
Процесс ручного назначения глубины (или цвета) является трудоемкой и требующей большого времени работой, выполняемой операторами.
Эффективность и скорость метода преобразования сильно зависят от качества временного распространения: чем лучше распространение, тем меньше требуется вручную выводимых ключевых кадров, тем меньше людей задействованы в процессе преобразования, и весь процесс становится заметно более быстродействующим и экономичным.
В патентной заявке US 2010/0194856 “Способ и устройство для распространения связанной с глубиной информации” описан способ двухэтапного распространения глубины. На входе имеется один опорный видеокадр (ключевой кадр) с доступной глубиной и один кадр запроса (неключевой кадр) с неизвестной глубиной. (i) На первом этапе карта глубины распространяется от опорного кадра к кадру запроса с использованием билатерального фильтра на основе характеристик изображения, таких как, например, яркость и цветность, как первого, так и второго изображения, и формируется промежуточная карта глубины. (ii) На втором этапе устанавливается вектор движения с использованием информации из пространственной области вокруг первого местоположения в первой карте глубины и пространственной области вокруг второго местоположения в промежуточной карте глубины. После этого вектор движения используется для генерации значения глубины для второго местоположения во второй карте глубины с использованием информации, содержащей вектор движения, и первой карты глубины. Такой подход требует тесной временной близости опорного кадра и кадра запроса, так чтобы движение между ними не превышало апертуры фильтра, чтобы сгенерировать релевантную промежуточную карту глубины.
В патентной заявке US 2012/0194642 “Система и способ обработки информации глубины движущегося изображения” описана система обработки информации глубины, которая содержит буфер, блок оценки движения, блок компенсации движения и блок адаптивной постфильтрации. Система принимает два ключевых кадра, которые уже имеют ассоциированную карту глубины, в качестве входа, и распространяет карту глубины на остальные видеокадры, которые по времени заключены между этими ключевыми кадрами. Сначала выполняется оценка движения (вперед и/или назад) между всеми кадрами в последовательности (аналогично технологии MPEG). Затем выполняется компенсация движения по глубине в соответствии с вектором движения, соответствующим каждому блоку в текущем кадре (кадре запроса). Затем эта карта глубины комбинируется и/или подвергается постобработке, чтобы вывести окончательную карту глубины. Качество карты глубины, формируемой при таком подходе, будет снижаться в случае, когда объекты с разной глубиной имеют одинаковые или близкие цвет/текстуру, поскольку оценка движения принимает во внимание только цвет/текстуру объектов.
Патентная заявка US 2010/0194856 и патентная заявка US 2012/0194642 могут рассматриваться в качестве ближайших аналогов изобретения.
Современная технология распространения пиксельной информации для дополнения видео в значительной степени основывается на оценке движения, а не на визуальном подобии участков изображения. Это приводит к неточности упомянутого способа в таких областях, как окклюзия, где не существует информация движения, и требует тесной временной близости ключевых кадров, поскольку большие изменения и быстрое движение не могли бы быть учтены при существующих способах. Также современные способы основываются на прямом распространении единственного ключевого кадра, который распространяется и также увеличивает ошибки. Современные способы ротоскопирования объектов дают неудовлетворительные результаты в случае ограниченного вмешательства оператора: после нескольких кадров с существенным движением ротоскопирование перестает очерчивать объект.
Задачей настоящего изобретения является предоставить способ для временного полуавтоматического дополнения видео, который преодолевает по меньшей мере некоторые из вышеуказанных недостатков существующих способов.
Сущность изобретения
Задача настоящего изобретения решается в способе дополнения видеокадров посредством распространения пиксельной информации из двух ближайших по времени дополненных опорных видеокадров, один из которых является предшествующим по времени кадром, а другой - последующим по времени кадром, при этом способ содержит следующие этапы:
- представление входного видеокадра и обоих дополненных опорных видеокадров как низкочастотных пирамид;
- вычисление самой грубой аппроксимации пиксельной информации путем установления плотного пиксельного соответствия между пикселями самых грубых уровней входного видеокадра и дополненных опорных видеокадров и вычисление пиксельной информации для самого грубого уровня низкочастотной пирамиды, используя соответствие, установленное на текущем этапе;
- для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, выполнение процедуры обработки пирамиды, содержащей:
дополнение видеокадра текущего уровня низкочастотной пирамиды пиксельной информацией из предшествующего уровня пирамиды, масштабированной с повышением до размера текущего уровня пирамиды,
генерацию соответствующей пиксельной информации для текущего уровня низкочастотной пирамиды путем установления плотного пиксельного соответствия между дополненными видеокадрами для текущего уровня пирамиды и вычисления пиксельной информации с использованием соответствия, установленного на текущем этапе,
- повторение процедуры обработки пирамиды посредством предопределенного числа итераций;
- вывод пиксельной информации, вычисленной для последнего уровня пирамиды;
- постобработку пиксельной информации, выведенной процедурой обработки пирамиды, чтобы вывести результирующую пиксельную информацию.
В одном варианте осуществления низкочастотная пирамида конструируется путем понижающей дискретизации видеокадра и пиксельной информации некоторым положительным коэффициентом, меньшим чем 1, с использованием предопределенного числа уровней пирамид.
В другом варианте осуществления для самого грубого уровня пирамиды, установление плотного пиксельного соответствия выполняется с использованием только цветовых компонент входных видеокадров.
В еще одном варианте осуществления для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, установление плотного пиксельного соответствия выполняется с использованием цветовых компонент входных и опорных видеокадров, а также пиксельной информации для упомянутых кадров.
В еще одном варианте осуществления для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, на каждой итерации, за исключением начальной, пиксельная информация входного видеокадра использует пиксельную информацию из предыдущей итерации.
В другом варианте осуществления установление плотного пиксельного соответствия достигается путем сравнения участков цветного кадра/дополненного кадра предопределенного фиксированного размера.
В другом варианте осуществления участки выбираются с использованием хеш-кода участка, учитывая, что визуально подобные участки должны иметь равные хеш-коды, и/или пространственной близости входного участка и опорного участка.
В другом варианте осуществления, хеш-код участка вычисляется с использованием результата применения набора фильтров к видеокадру/дополненному видеокадру.
В еще одном варианте осуществления постобработка пиксельной информации, выведенной посредством процедуры обработки пирамиды, содержит фильтрацию упомянутой информации способом нелинейной фильтрации.
Также предложена система дополнения видеокадра для осуществления способа дополнения видеокадра посредством распространения пиксельной информации из двух ближайших по времени дополненных опорных видеокадров, один из которых является предшествующим по времени кадром, а другой - последующим по времени кадром, при этом система содержит:
- устройство ввода для приема начальных данных системы;
- память для хранения исходного видео, пиксельной информации для поднабора кадров, результатов обработки видеокадров и программного кода;
- шину данных для обмена информацией; и
- процессор для управления процессом работы системы;
при этом при исполнении упомянутым процессором, программный код побуждает упомянутый процессор выполнять способ дополнения видеокадра.
Также предложен считываемый компьютером носитель, содержащий компьютерную программу, сохраненную на нем, причем программа содержит программный код, который, при исполнении упомянутым процессором, побуждает упомянутый процессор выполнять способ дополнения видеокадра.
Техническим результатом предложенного изобретения является высококачественное дополнение видеокадра посредством распространения пиксельной информации из двух ближайших по времени дополненных опорных видеокадров.
Краткое описание чертежей
Вышеописанные варианты осуществления настоящего изобретения станут более понятными при обращении к следующему детальному описанию со ссылками на иллюстрирующие чертежи, на которых показано следующее:
Фиг. 1 - структурная схема основных компонентов системы, реализующей способ дополнения видеокадра согласно изобретению;
Фиг.2 - схема, иллюстрирующая основной поток данных в способе coгласно изобретению;
Фиг. 3 - блок-схема последовательности операций способа дополнения видеокадра coгласно изобретению;
Фиг. 4 - блок-схема последовательности операций процесса вычисления самой грубой аппроксимации пиксельной информации coгласно изобретению;
Фиг. 5 - блок-схема последовательности операций процесса дополнения видео на каждом уровне пирамиды coгласно изобретению;
Фиг. 6 поясняет ротоскопирование с использованием предложенного способа coгласно изобретению.
Детальное описание
Настоящее раскрытие, описываемое в общем, направлено на дополнение видеокадра пиксельной информацией.
В предложенном способе пиксельная информация, ассоциированная с видеокадром (каналами глубины или цвета) распространяется, принимая на входе два опорных кадра, предыдущий и последующий. Плотное пиксельное соответствие выполняется по разным шкалам, от самой грубой, чтобы учесть важные изменения/движение, до самой точной, чтобы получить лучшую точность. В то же время, пиксельная информация принимается во внимание для установления соответствия по каждой шкале, за исключением самой грубой (с наименьшими изменениями/движениями), где не существует пиксельной информации, и вычисляется только начальная грубая аппроксимация такой информации. Предложенный способ может быть применен к объектам “ротоскопирования” посредством временного распространения маски сегментации объекта.
Предложенный способ дополнения видеокадра посредством распространения пиксельной информации (такой как цвет, глубина, маска переднего плана, метка объекта и т.п.) из двух ближайших по времени дополненных (уже имеющих соответствующую пиксельную информацию) опорных кадров, один из которых является предшествующим по времени кадром и другой является последующим по времени кадром, содержит этапы:
представление входного видеокадра и обоих дополненных видеокадров как низкочастотных пирамид;
вычисление самой грубой аппроксимации пиксельной информации для самого грубого уровня пирамиды (что означает дополнение входного кадра на самом грубом уровне пирамиды) путем установления плотного пиксельного соответствия между пикселями самых грубых уровней входного видеокадра дополненным опорным видеокадрам и синтез пиксельной информации для самого грубого уровня низкочастотной пирамиды, используя установленное соответствие;
повторение для каждого уровня низкочастотной пирамиды: если текущий уровень не является самым грубым уровнем, дополнить видеокадр текущего уровня низкочастотной пирамиды пиксельной информацией из предшествующего (более грубого) уровня пирамиды, масштабированного с повышением до размера текущего уровня пирамиды; генерировать соответствующую пиксельную информацию для текущего уровня низкочастотной пирамиды путем установления плотного пиксельного соответствия между дополненными видеокадрами для текущего уровня пирамиды и синтезирования пиксельной информации с использованием установленного соответствия;
вывод пиксельной информации, вычисленной для последнего уровня пирамиды; и
постобработка пиксельной информации, выведенной процедурой обработки пирамиды.
Фиг. 1 показывает операционную схему базовых компонентов системы, которая реализует предложенный способ дополнения видеокадра. Система принимает начальные данные системы с помощью устройства ввода (103). Процесс работы контролируется процессором 101, который исполняет программный код, сохраненный в памяти 102. В памяти 102 сохранено исходное видео вместе с пиксельной информацией для поднабора кадров. Видеокадр обрабатывается, и результаты переносятся в память 102. Обмен информацией выполняется по шине 104 данных.
Фиг. 2 иллюстрирует основной поток данных в предложенном способе. Система принимает на входе два дополненных (возможно, вручную оператором) опорных кадра и видеокадр запроса. Один опорный кадр предшествует по времени кадру запроса, другой опорный кадр является следующим за кадром запроса. Плотное пиксельное соответствие устанавливается от кадра запроса к опорному кадру, пиксельная информация синтезируется для кадра запроса и поэтому кадр запроса становится дополненным кадром.
Фиг. 3 иллюстрирует детали упомянутого процесса дополнения. Система принимает входные начальные данные системы, состоящие из следующего: frame_q - кадр запроса во время tq; frame_1 и d1 - предшествующий кадр и соответствующая пиксельная информация во время t1; frame_2 и d2 - последующий кадр и соответствующая пиксельная информация во время t2, где t1<tq<t2; и Np - предопределенное число уровней пирамиды (этап 301). На этапе 302 пирамиды с числом уровней, равным Np, из опорных кадров и кадров запроса конструируются и сохраняются. Самая грубая начальная аппроксимация пиксельной информации d_q_init вычисляется на этапе 303 (этот этап будет пояснен далее более подробно). На этапе 304 d_q (пиксельная информация, соответствующая frame_q во время tq) устанавливается как равная d_q_init, текущий уровень s пирамиды - на Ns, и вводится в циклический процесс из этапов 305-307. Детали этапа 305 будут описаны далее. На каждой итерации (этап 305), d_q обновляется. После дополнения s-го уровня пирамиды способ переходит к следующему уровню пирамиды (этап 306). Если текущий уровень s пирамиды не последний (самый точный), размер ds_q изменяется до размера следующего уровня пирамиды (этап 307) посредством некоторого интерполяционного метода (например, билинейного или бикубического). Если цикл доходит до последнего (самого точного) уровня пирамиды (условие 308), то способ переходит к этапу 309 и d_q устанавливается равной ds_q - результату обработки пирамиды. На этапе 310 результирующая d_q подвергается постобработке. Для постобработки, d_q фильтруется с помощью некоторого метода нелинейной фильтрации, чтобы привести характеристики d_q, такие как края, в соответствие с подобными характеристиками изображения (frame_q). Для этой цели оказался весьма эффективным билатеральный фильтр (см. Tomasi, C., & Manduchi, R. (1998, January). Bilateral filtering for gray and color images. In Computer Vision, 1998. Sixth International Conference, pp. 839-846, IEEE). Окончательная пиксельная информация для дополненного frame_q выдается на выход на этапе 311, и способ заканчивается.
Фиг. 4 поясняет более детально этап 303 (вычисление самой грубой аппроксимации пиксельной информации d_q_init) по Фиг. 3. Вначале не имеется никакого значения пиксельной информации для кадра запроса. Таким образом, только входные видеокадры используются для генерации самой грубой попиксельной информации. Это вычисление выполняется для самого грубого уровня пирамиды и затем распространяется на все уровни пирамид. На этапе 401 эта часть раскрытого способа получает image_q - изображение запроса, полученное из frame_q в качестве самого грубого уровня пирамиды; image_1 и dc_1 - предшествующее изображение и соответствующую пиксельную информацию, полученную из frame_1 и d_1 в качестве самого грубого уровня пирамиды; image_2 и dc_2 - последующее изображение и соответствующую пиксельную информацию, полученную из frame_2 и d_2 в качестве самого грубого уровня пирамиды. На этапе 402 плотное пиксельное соответствие устанавливается между image_q и image_1 и между image_q и image_2. Это выполняется с использованием метода, основанного на визуальном подобии. Сначала изображения, предусмотренные для согласования, фильтруются с помощью набора различных фильтров. После этого несколько хеш-таблиц создаются из выхода набора фильтров путем хеширования векторов в целочисленные значения (имеющие 12-19 битов). Детальная информация относительно этого метода может быть найдена в Korman, Simon, and Shai Avidan. "Coherency sensitive hashing." In Computer Vision (ICCV), 2011 IEEE International Conference on, pp. 1607-1614. IEEE, 2011. Единственное различие состоит в том, что во время детектирования оптимального (ближайшего) участка для пиксельного соответствия вычисляется не только цветовой компонент, но также принимается во внимание и пространственная близость:
Близость(участок1, участок2) = различие_цвета(участок1, участок2) + пространственное_расстояние(участок1, участок2) → min,
где участок изображения представляет собой квадратный фрагмент изображения с предопределенным размером; в варианте осуществления размер участка равен 8×8 пикселей. На этапе 403 вычисляется d_q_init:
d_q_init = d_1(map_1)*w1 + d_2(map_2)*w2
w1 = (tq-t1)/(t2-t1),
w2 = (t2-tq)/(t2-t1),
t1<tq<t2
На этапе 404, d_q_init выдается на выход.
Фиг. 5 подробно поясняет этап 305 (дополнение видео), который выполняется на каждом уровне пирамиды. На этапе 501 в качестве входа принимаются следующие элементы: image_q и d_q - изображение запроса и соответствующая пиксельная информация на s-м уровне пирамиды, полученные из видеокадра запроса; image_1 и ds_1 - предшествующий кадр и соответствующая пиксельная информация на s-м уровне пирамиды, полученные из frame_1 и d_1; image_2 и ds_2 - последующее изображение и соответствующая пиксельная информация на s-м уровне пирамиды, полученные из frame_2 и d_2, и предопределенное число итераций для выполнения на этом уровне, Ns. На этапе 502, текущий номер итерации устанавливается в 0. На этапе 503 плотное пиксельное соответствие устанавливается между image_q&ds_q и image_1&ds_1 (как map_1) и между image_q&ds_q и image_2&ds_2 (как map_2), аналогично тому, как на этапе 402. Это означает, что плотное пиксельное соответствие устанавливается между дополненными кадрами (если, например, пиксельная информация обрабатывается как дополнительный канал для изображения или если она заменяет один из существующих каналов, например один цветной канал в YCrCb пространстве цветов изображения). На этапе 504, dq_i вычисляется с использованием map_1 и map_2 таким же путем, как на этапе 403. Затем итерация переходит к следующей (этап 505). Когда все итерации выполнены (условие 506 не выполняется), ds_q (пиксельная информация для s-го уровня пирамиды) устанавливается как конечный результат итераций d_qi (этап 507), и ds_q выдается на выход, этап 508.
Фиг. 6 поясняет возможное применение предложенного способа к ротоскопированию. На изображении a) маска объекта создается и распространяется, b), после этого границы объекта назначаются в пикселях с переходом диапазона маски переднего плана выше некоторого порога c).
Другие аспекты изобретения будут очевидны из рассмотрения чертежей и описания предпочтительных вариантов осуществления изобретения. Специалисту в данной области техники должно быть понятно, что другие варианты осуществления изобретения возможны и что детали изобретения могут быть модифицированы в различных отношениях без отклонения от принципа изобретения. Таким образом, чертежи и описание должны рассматриваться как иллюстративные, но не как ограничительные.
Предложенный способ предназначен для реализации в программном обеспечении для систем обработки видео, включая, без ограничения указанным, полуавтоматическое преобразование моно в стерео или полутонового в цветное видео, распространение меток объектов, распространение меток ручного редактирования для приложений программного обеспечения обработки видео с возможностями ротоскопирования объектов для различных последующих операций, таких как раскрашивание или назначение другой информации, с использованием современного компьютерного оборудования (такого как персональные компьютеры, рабочие станции, кластеры компьютеров и т.п.).
Следует также отметить, что заявленное изобретение является промышленно применимым, а именно, предложенный способ может применяться для систем обработки видео, включая, без ограничения указанным, полуавтоматическое преобразование моно в стерео или полутонового в цветное видео, распространение меток объектов, распространение меток ручного редактирования, для приложений программного обеспечения обработки видео с возможностями ротоскопирования объектов для различных последующих операций, таких как раскрашивание или назначение другой информации, оснащенных процессором, памятью, устройствами ввода/вывода и шиной данных.
Изобретение включает в себя не только способ дополнения видеокадров и систему дополнения видеокадров, реализующую упомянутый способ, но также компьютерную программу, сохраненную на считываемом компьютером носителе данных, который, при исполнении компьютером, побуждает процессор выполнять этапы упомянутого способа.
Должно быть понятно, что многие вариации и модификации могут быть выполнены в описанных выше вариантах осуществления, элементы которых должны пониматься как существующие среди других приемлемых примеров. Все такие модификации и вариации предполагаются включенными в пределы объема настоящего раскрытия и защищенными следующей формулой изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ДЛЯ ПРЕОБРАЗОВАНИЯ СТЕРЕОКОНТЕНТА | 2009 |
|
RU2423018C2 |
СИСТЕМА И СПОСОБ ФОРМИРОВАНИЯ И ВОСПРОИЗВЕДЕНИЯ ТРЕХМЕРНОГО ВИДЕОИЗОБРАЖЕНИЯ | 2009 |
|
RU2421933C2 |
Способ создания многослойного представления сцены и вычислительное устройство для его реализации | 2021 |
|
RU2787928C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫСОКОМАСШТАБИРУЕМОГО ВНУТРИКАДРОВОГО ВИДЕОКОДИРОВАНИЯ | 2008 |
|
RU2503137C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ АЛГОРИТМОВ ПРОТИВОСТОЯНИЯ ОШИБКАМ ПРИ БЕСПРОВОДНОЙ ПЕРЕДАЧЕ ВИДЕО | 2007 |
|
RU2404536C2 |
ТЕХНОЛОГИЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА ВИДЕО | 2010 |
|
RU2540846C2 |
ИНТЕРФЕЙС ВЫСОКОСКОРОСТНОЙ ПЕРЕДАЧИ ДАННЫХ | 2004 |
|
RU2369033C2 |
ОБРАБОТКА ОККЛЮЗИЙ ДЛЯ FRC C ПОМОЩЬЮ ГЛУБОКОГО ОБУЧЕНИЯ | 2020 |
|
RU2747965C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫЧИСЛЕНИЯ И ФИЛЬТРАЦИИ КАРТЫ ДИСПАРАНТНОСТИ НА ОСНОВЕ СТЕРЕО ИЗОБРАЖЕНИЙ | 2008 |
|
RU2419880C2 |
РАСШИРЕНИЕ ЗАГОЛОВКА ВЫРЕЗКИ ДЛЯ ТРЕХМЕРНОГО ВИДЕО ДЛЯ ПРОГНОЗИРОВАНИЯ ЗАГОЛОВКОВ ВЫРЕЗОК | 2012 |
|
RU2549168C1 |
Изобретение относится к обработке видео для временного полуавтоматического дополнения видео, такого как назначение информации глубины для преобразования монокулярной видеопоследовательности в стерео или назначение цветовой информации для преобразования полутонового видео в цветное. Изобретение может быть применено к ротоскопированию объектов посредством временного распространения маски сегментации объекта. Техническим результатом является повышение точности дополнения видеокадров. Предложен способ дополнения видеокадров посредством распространения пиксельной информации, который содержит: представление входного видеокадра и обоих дополненных опорных видеокадров как низкочастотных пирамид (НЧП); вычисление самой грубой аппроксимации пиксельной информации путем установления плотного пиксельного соответствия между пикселями самых грубых уровней входного видеокадра и дополненных опорных видеокадров и вычисление пиксельной информации для самого грубого уровня НЧП, используя соответствие, установленное на текущем этапе; для каждого уровня НЧП, за исключением самого грубого уровня, выполнение следующих этапов: дополнение видеокадра текущего уровня НЧП пиксельной информацией из предшествующего уровня пирамиды, масштабированной с повышением до размера текущего уровня пирамиды, генерацию соответствующей пиксельной информации для текущего уровня НЧП путем установления плотного пиксельного соответствия между дополненными видеокадрами для текущего уровня пирамиды и вычисление пиксельной информации с использованием соответствия, установленного на текущем этапе; вывод пиксельной информации, полученной на упомянутом этапе, а полученная пиксельная информация подвергается постобработке. 3 н. и 8 з.п. ф-лы, 6 ил.
1. Способ дополнения видеокадров посредством распространения пиксельной информации из двух ближайших по времени дополненных опорных видеокадров, один из которых является предшествующим по времени кадром, а другой последующим по времени кадром, при этом способ содержит следующие этапы:
- представление входного видеокадра и обоих дополненных опорных видеокадров как низкочастотные пирамиды;
- вычисление самой грубой аппроксимации, для самого грубого уровня низкочастотной пирамиды, пиксельной информации путем установления плотного пиксельного соответствия между пикселями самых грубых уровней низкочастотных пирамид входного видеокадра и дополненных опорных видеокадров и вычисление пиксельной информации для самого грубого уровня низкочастотной пирамиды, используя соответствие, установленное на текущем этапе;
- для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, выполнение процедуры обработки пирамиды, содержащей:
дополнение видеокадра текущего уровня низкочастотной пирамиды пиксельной информацией из предшествующего уровня пирамиды, масштабированной с повышением до размера текущего уровня пирамиды,
генерацию соответствующей пиксельной информации для текущего уровня низкочастотной пирамиды путем установления плотного пиксельного соответствия между дополненными видеокадрами для текущего уровня пирамиды и вычисления пиксельной информации с использованием соответствия, установленного на текущем этапе,
- повторение процедуры обработки пирамиды посредством предопределенного числа итераций;
- вывод пиксельной информации, вычисленной для последнего уровня пирамиды;
- пост-обработку пиксельной информации, выведенной процедурой обработки пирамиды, чтобы вывести результирующую пиксельную информацию.
2. Способ по п.1, в котором низкочастотная пирамида конструируется путем понижающей дискретизации видеокадра и пиксельной информации некоторым положительным коэффициентом меньшим, чем 1, с использованием предопределенного числа уровней пирамид.
3. Способ по п.1, в котором для самого грубого уровня пирамиды, установление плотного пиксельного соответствия выполняется с использованием только цветовых компонент входных видеокадров.
4. Способ по п.1, в котором, для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, установление плотного пиксельного соответствия выполняется с использованием цветовых компонент входных и опорных видеокадров, а также пиксельной информации для упомянутых кадров.
5. Способ по п.1, в котором, для каждого уровня низкочастотной пирамиды, за исключением самого грубого уровня, на каждой итерации, за исключением начальной, пиксельная информация входного видеокадра использует пиксельную информацию из предыдущей итерации.
6. Способ по п.1, в котором установление плотного пиксельного соответствия достигается путем сравнения участков цветного кадра/дополненного кадра предопределенного фиксированного размера.
7. Способ по п.6, в котором участки выбираются с использованием хеш-кода участка, учитывая, что визуально подобные участки должны иметь равные хеш-коды, и/или пространственной близости входного участка и опорного участка.
8. Способ по п.7, в котором хеш-код участка вычисляется с использованием результата применения набора фильтров к видеокадру/дополненному видеокадру.
9. Способ по п.1, в котором пост-обработка пиксельной информации, выведенной посредством процедуры обработки пирамиды, содержит фильтрацию упомянутой информации способом нелинейной фильтрации.
10. Система дополнения видеокадра для осуществления способа дополнения видеокадра посредством распространения пиксельной информации из двух ближайших по времени дополненных опорных видеокадров, один из которых является предшествующим по времени кадром, а другой - последующим по времени кадром, при этом система содержит:
- устройство ввода для приема начальных данных системы;
- память для хранения исходного видео, пиксельной информации для поднабора кадров, результатов обработки видеокадров и программного кода;
- шину данных для обмена информацией; и
- процессор для управления процессом работы системы;
при этом, при исполнении упомянутым процессором, программный код побуждает упомянутый процессор выполнять способ по любому из пп.1-9.
11. Считываемый компьютером носитель, содержащий компьютерную программу, сохраненную на нем, причем программа содержит программный код, который, при исполнении процессором, побуждает упомянутый процессор выполнять способ по любому из пп.1-9.
US 2010194856 A1, 2010-08-05 | |||
ВОЗДУШНО-ЦЕНТРОБЕЖНЫЙ КЛАССИФИКАТОР ПОРОШКОВ ЦИКЛОННОГО ТИПА | 2015 |
|
RU2595116C1 |
US 2013129195 A1, 2013-05-23 | |||
УСТРОЙСТВО, СПОСОБ И ПРОГРАММА ОБРАБОТКИ ИЗОБРАЖЕНИЯ | 2009 |
|
RU2469403C2 |
JAKOB ENGEL et al, Semi-Dense Visual Odometry for a Monocular Camera, IEEE International Conference on Computer Vision (ICCV), 2013 |
Авторы
Даты
2015-08-20—Публикация
2014-07-02—Подача