Область техники
Настоящее изобретение в целом относится к области формирования изображений, а в частности - к системе синтеза промежуточных видов светового поля на основе уменьшенного количества видов светового поля.
Настоящее изобретение может быть использовано в тех случаях, когда необходимо восстановить световое поле по нескольким промежуточным видам светового поля. Настоящее изобретение может быть использовано в устройствах, создающих иллюзию трехмерного пространства, таких как очки или шлемы виртуальной реальности, смартфоны, камеры, дисплеи, квадракоптеры, и в других устройствах, генерирующих видео контент и/или позволяющих его воспроизводить.
Предшествующий уровень техники
В последние годы стала популярной технология светового поля, т.е. получение набора изображений сцены, сдвинутых в пространстве относительно друг друга, которая используется в камерах и 3D дисплеях.
В настоящее время разрабатывается технология синтеза видов световых полей, которая обеспечивает увеличение пространственно-углового разрешения световых полей и эффективное сжатие световых полей.
Один пример такой технологии раскрыт в статье Nima Khademi Kalantari et al. «Learning-Based View Synthesis for Light Field Cameras», University of California, 2016, ACM Trans. Graph. 35, 6, Article 193, November 2016, 10 pages. DOI: https://doi.org/10.1145/2980179.2980251). В статье раскрыта модель для синтеза промежуточных видов светового поля на основе имеющихся угловых видов, т.е. видов в углах массива видов сцены, светового поля с использованием нейронной сети. Однако, использование только угловых видов светового поля в качестве входных, как показали исследования, является не лучшей конфигурацией входных видов, кроме того, предложенная в указанном документе реализация и особенности обучения модели предполагают наличие у синтезированных видов специфических артефактов, характерных для синтеза новых видов. Также известное решение не рассматривается в качестве техники сжатия световых полей и не подходит для использования на мобильных устройствах в силу большой вычислительной сложности предложенного метода.
Известно также техническое решение, раскрытое в документе US 2016/0360177 A1, дата публикации 08.12.2016. В указанном документе описан способ синтеза недостающих видов светового поля на основе информации о глубине сцены для дальнейшего использования светового поля в 3D дисплее. Качество изображения, полученного предложенным способом, зависит от качества оценки диспаратности. Однако, современные методы оценки диспаратности недостаточно точны на границах внутри изображения, что влечет за собой появление специфичных артефактов в синтезированных видах.
Современные устройства, поддерживающие технологию светового поля, представляют собой либо специализированные камеры для генерации светового поля (пленоптические камеры), либо 3D дисплеи, использующие световые поля. Такие устройства обладают рядом недостатков для рядового пользователя: во-первых, пленоптическая камера - это дорогое и узкоспециализированное устройство, поскольку может снимать лишь массивы видов светового поля. Во-вторых, пленоптические камеры предоставляют компромисс между пространственным и угловым разрешением, иными словами, чем больше видов светового поля можно получить с помощью камеры, тем меньше разрешение каждого отдельного вида. Наконец, световые поля содержат огромное количество избыточной информации, и для хранения световых полей на устройствах воспроизведения необходимо эффективно сжимать световые поля.
Таким образом, существует потребность в системе синтеза промежуточных видов светового поля, способной формировать изображения высокого качества и высокого разрешения из малого количества видов входного светового поля. Желательно, чтобы такая система синтеза видов светового поля могла работать как на мобильных устройствах, например, смартфонах, устройствах дополненной и виртуальной реальности, так и на устройствах с высокой производительностью, например, на стационарных 3D дисплеях или персональных компьютерах.
Сущность изобретения
В основу настоящего изобретения поставлена задача уменьшения числа видов, необходимых для восстановления трехмерного изображения сцены, чтобы сделать технологию светового поля повсеместной, обеспечить ее использование и сделать более доступной для пользователя, а также уменьшения количества артефактов при синтезе видов светового поля и повышения качества изображения сцены.
Поставленная задача решается путем создания способа синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, содержащий этапы, на которых выбирают конфигурацию заданных входных видов светового поля, полученных с помощью по меньшей мере одного устройства захвата светового поля, причем конфигурация определяется координатами входных видов матрицы светового поля, захватываемого устройством захвата; задают требуемые координаты промежуточных видов, которые необходимо синтезировать, подают выбранную конфигурацию заданных входных видов светового поля и требуемые координаты промежуточных видов, которые необходимо синтезировать, в нейронную сеть; с помощью нейронной сети: синтезируют промежуточные виды на основе диспаратности сцены, конфигурации заданных входных видов светового поля и требуемых координат промежуточных видов. Причем конфигурация заданных входных видов в матрице светового поля размером МхМ определяется координатами, которые соответствуют средней, если М - нечетное число, или ближайшей к средней, если М - четное число, позиции в каждой из первой и последней строки и в каждом из первого и последнего столбца матрицы светового поля. Требуемые координаты промежуточных видов можно задавать как целые или дробные числа. В одном варианте вычисляют карту признаков светового поля на основе выбранной конфигурации заданных входных видов светового поля, диспаратность вычисляют в нейронной сети сцены на основе вычисленной карты признаков сцены. В другом варианте диспаратность предварительно оценивают по показаниям датчика глубины. В третьем варианте синтезируют промежуточные виды с помощью предобученной нейронной сети.
В еще одном варианте воплощения предлагаемого изобретения поставленная задача решается путем создания системы синтеза промежуточных видов светового поля на основе заданных входных видов светового поля для выполнения способа синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, раскрытого выше. Предлагаемая система содержит устройство захвата видов светового поля для захвата входных видов сцены светового поля, модуль сверточной нейронной сети для синтеза промежуточных видов на основе диспаратности сцены, входных видов светового поля сцены и заданных координат промежуточных видов светового поля сцены в массиве видов светового поля сцены. Причем система может дополнительно содержать модуль для вычисления карты признаков сцены светового поля на основе входных видов сцены светового поля; модуль сверточной нейронной сети для вычисления диспаратности сцены на основе вычисленной карты признаков; модуль задания набора уровней диспаратности . Причем модуль сверточной нейронной сети используется для расчета карты диспаратности по предварительно вычисленной карте признаков. Также система содержит модуль вычисления для каждого уровня диспаратности нового вида с использованием каждого из входных видов светового поля по формуле:
(1),
где: - значение цвета пикселя, который расположен в позиции s (вектор с позициям по x и y), взятого из входного вида pi, при заданном уровне диспаратности dl, вычисленном по N входным видам. Система также содержит модуль расчета двух карт признаков: среднего значения цвета и яркости пикселя для каждого уровня диспаратности по каждому полученному виду. Также система может дополнительно содержать датчик глубины для обеспечения значений глубины, используемых для предварительной оценки диспаратности.
В еще одном варианте воплощения предлагается мобильное устройство, содержащее систему синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, выполняющую способ синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, раскрытый выше.
Еще один вариант воплощения изобретения приставляет собой способ сжатия светового поля, содержащий этапы, на которых выбирают конфигурацию заданных входных видов светового поля, полученных с помощью устройства захвата светового поля, причем конфигурация определяется координатами входных видов матрицы светового поля, захватываемого устройством захвата; синтезируют по меньшей мере один промежуточный вид светового поля согласно способу синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, описанному выше, вычисляют разницу между по меньшей мере одним промежуточным видом и входным видом, производят сжатие вычисленной разницы.
Краткое описание чертежей
Вышеописанные и другие признаки и преимущества настоящего изобретения поясняются в нижеследующем описании, иллюстрируемом прилагаемыми чертежами, на которых:
Фиг. 1 иллюстрирует известное из уровня представление светового поля в виде массива видов сцены, полученных с разных точек просмотра посредством массива камер или массива микролинз;
Фиг. 2 иллюстрирует возможность получения известным образом любого числа промежуточных видов на основе любой конфигурации входных видов на примере одной из конфигураций;
Фиг. 3 иллюстрирует систему синтеза промежуточных видов светового поля с координатами u, v с использованием уменьшенного количества видов входного светового поля с помощью нейронной сети, согласно изобретению;
Фиг. 4 иллюстрирует набор конфигураций входных видов светового поля, которые предлагаются для вариантов реализаций синтеза видов светового поля, согласно изобретению;
Фиг. 5 иллюстрирует вариант использования данного изобретения для сжатия и восстановления световых полей, согласно изобретению;
Фиг. 6а, 6b, 6с иллюстрируют варианты системы синтеза промежуточных видов.
Описание предпочтительных вариантов реализации изобретения
Чтобы сделать технологию светового поля повсеместной и обеспечить ее использование, необходимо сделать ее более доступной для обычного пользователя. Предлагаемое изобретение решает проблемы, связанные с технологией светового поля, а именно, благодаря предлагаемому изобретению происходит
- уменьшение числа видов, необходимых для восстановления трехмерного изображения сцены,
- уменьшение количества артефактов при синтезе видов светового поля.
В настоящем описании используется следующая терминология:
- Световое поле - функция, которая описывает количество света, распространяющегося в любом направлении через любую точку пространства (https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D0%B5%D1%82%D0%BE%D0%B2%D0%BE%D0%B5_%D0%BF%D0%BE%D0%BB%D0%B5). На практике, световое поле может быть представлено в виде набора видов сцены, снятых с разных точек зрения с небольшим сдвигом относительно друг друга. Следует отметить, что на практике световое поле может быть получено с использованием массива камер или микролинз, содержащихся в пленоптической камере (также известной как «камера светового поля»). При этом в наиболее распространенной конструкции пленоптической камеры перед матрицей цифрового задника (т.е. сменного модуля, предназначенного для преобразования оптического изображения в файлы цифровых фотографий) установлена пленоптическая насадка, представляющая собой множество микролинз, расположенных либо в виде квадратной матрицы либо в конфигурации пчелиных сот. Световое поле может быть также получено с помощью системы синтеза видов светового поля с использованием информации о сцене;
- Вид светового поля - это одно изображение из набора изображений сцены, вид состоит из пикселей;
- Входной вид светового поля - вид, который поступает с внешнего устройства захвата светового поля.
- Промежуточные виды светового поля или синтезированные виды светового поля получают на выходе системы синтеза, термин «промежуточный» используется в смысле «непосредственно соседствующий вид», промежуточными видами являются, например, незаштрихованные квадраты на Фиг. 4.
Если имеются два вида одной и той же сцены, то можно оценивать соответствующие различия положения образов точек сцены на этих видах. Одна и та же точка попадает в пиксели с разными положениями на цифровой фотографии, если производится съемка двумя (или более) камерами. Различие в указанных положениях называется диспаратностью. Например, для левой камеры положение пикселя определяется координатами (110, 100), для правой - (90, 100). По различиям можно рассчитать «глубину», т.е. расстояние до соответствующей точки. Такой метод вычисления обладает рядом недостатков, например, необходимо знать точное расстояние между камерами, а также находить точное соответствие пикселей одного изображения пикселям другого (см. задачу нахождения оптического потока -
https://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D1%82%D0%BE%D0%BA).
Необходимо отметить, что современные методы оценки диспаратности недостаточно точны на границах объектов внутри изображения, то есть на границах, где заканчивается один объект и начинается другой, что влечет за собой появление специфичных артефактов в промежуточных видах.
Однако, на границах объектов точная попиксельная оценка глубины практически невозможна в силу того, что растровое изображение в принципе неточно передает свойства проекции реальной сцены. Из-за этого на границах объектов к артефактам может приводить ошибка в вычислении диспаратности. К артефактам в данном случае можно отнести шумы на краях объектов с разными глубинами, шумы в областях с перекрытиями. То есть пиксели на границе могут быть перемешаны таким образом, что часть пикселей из изображения одного объекта попадает в изображение другого и наоборот.
Задача синтеза видов сцены с использованием 2-х, 4-х или 5-и наборов, предпочтительно, входных видов сцены, решается согласно изобретению при помощи карты диспаратности, которая указывает, на какое количество пикселей необходимо сдвинуть каждый пиксель входных видов сцены, чтобы получить желаемый промежуточный вид сцены.
Карта диспаратности для данного вида сцены, необходимая для получения желаемого вида сцены, генерируется с использованием информации о глубине каждого пикселя данного вида сцены. Диспаратность обратно пропорциональна глубине. Однако, классические методы оценки диспаратности оказываются неточными на границах объектов внутри вида в силу сложности корректной оценки глубины каждого пикселя вида сцены. В свою очередь, некорректная оценка глубины на границах областей внутри сцены ведет к появлению артефактов на границах объектов в синтезированном виде сцены, состоящей из промежуточных видов.
Серьезной проблемой в оценке диспаратности вида является также наличие перекрытий объектов в сценах с несколькими уровнями глубины, так как без знания природы объектов, изображенных в сцене, такие случаи не могут быть корректно обработаны традиционными алгоритмами.
На фигуре 1 показано известное из уровня техники представление светового поля в виде массива видов сцены, полученных с разных точек просмотра посредством массива камер или массива микролинз.
На фигуре 2 проиллюстрирована возможность получения любого числа промежуточных видов на основе любой конфигурации входных видов на примере одной из таких конфигураций.
В противовес традиционным методам синтеза видов, в заявленном изобретении предложен нейросетевой подход к синтезу видов. На фигуре 3 проиллюстрирована система синтеза, с помощью нейронной сети, промежуточных видов светового поля с координатами u, v с использованием уменьшенного количества видов входного светового поля. На Фиг. 3 также показан пример конфигурации входных видов светового поля. Конфигурация определяется координатами входных видов светового поля в массиве видов светового поля. Конфигурация входных видов оказывает решающее воздействие на качество синтеза видов в среднем по сцене. Правильно выбранная конфигурация обеспечивает оптимальное количество информации о глубине и объектах сцены и помогает бороться с артефактами, вызванными такими явлениями как перекрытие изображений объектов. Реальные устройства генерируют виды для фиксированного набора положений камеры. Предлагаемый способ обеспечивает синтез видов для любых возможных промежуточных положений камеры. На фиг. 3 показана схема обработки конфигураций входных видов светового поля. Вводимые пользователем дискретные данные светового поля определяют конечное количество входных видов первоначального светового поля, подаваемое на вход системы, а также на вход системы подаются координаты (u,v) требуемого промежуточного вида, который необходимо синтезировать. Все эти данные подаются в блок синтеза промежуточных видов на основе нейронной сети, на выходе которого получается требуемый промежуточный вид. Задавая различные координаты (u,v) требуемых (желаемых) промежуточных видов на выходе системы можно получить синтезированное непрерывное световое поле.
Нейросетевой подход можно использовать для корректного вычисления диспаратности. В частности, предлагается обучать сеть или часть сети, чтобы генерировать карту диспаратности таким образом, чтобы конечная ошибка синтеза видов минимизировалась.
На фиг. 3 проиллюстрирована возможность получения любого количества промежуточных видов согласно настоящему изобретению на основе любой конфигурации входных видов на примере одной из конфигураций, а именно конфигурации C2 (фиг. 4). Кроме того, фиг.3 иллюстрирует особенность предложенной системы, которая заключается в том, что синтезируемое световое поле является «пространством непрерывных видов» светового поля, тогда как световые поля, которые можно получать с помощью пленоптических камер, составляются из дискретных видов светового поля.
Понятие «промежуточный вид» можно пояснить следующим образом. Предположим, входными являются виды с координатами (1,1), (1, 7), (7,7), (7,1). Тогда любой вид светового поля, попадающий в этот квадрат, а также оказавшийся в непосредственном соседстве с ним, например, вид (4,5), будет являться «промежуточным» и может быть синтезирован. На Фиг. 4 заштрихованы входные виды светового поля, а не заштрихованы «промежуточные» виды светового поля. Термин «промежуточный» используется в смысле «непосредственно соседствующий вид», ими являются, например, незаштрихованные квадраты на Фиг. 4. Необходимо отметить, что задаваемые координаты промежуточных видов светового поля, синтезируемых нейросетью, могут иметь нецелые значения, например, (4.1, 5.2).
Сверточная нейронная сеть учитывает пространственную структуру сцены и позволяет корректно обрабатывать перекрытия объектов в видах с большим количеством уровней глубины.
Предложенное решение обеспечивает возможность синтеза любого вида в непрерывном пространстве видов с минимальными артефактами для перекрывающихся объектов, что обладает большим преимуществом по сравнению с возможностями пленоптической камеры.
Это достигается тем, что в нейросеть подаются координаты требуемого (желаемого) вида, который нужно получить в матрице видов светового поля, при этом эти координаты требуемого вида могут быть заданы произвольными, то есть выбраны из непрерывного диапазона значений координат, а не из дискретного набора координат светового поля, сформированного пленоптической камерой.
Как проиллюстрировано на фиг. 4, возможны разные конфигурации, например, С1-С7 входных видов светового поля. Были выбраны симметричные конфигурации входных видов, поскольку нейронная сеть лучше всего работает именно с симметричными конфигурациями видов, восстанавливая требуемое световое поле с наименьшим количеством артефактов.
В качестве конфигураций входных видов возможно использовать различные расположения и количество входных видов входного светового поля.
В частности, как проиллюстрировано на фиг. 4, был протестирован набор конфигураций С1 - С7 входных видов светового поля.
При этом конфигурация C1 является вариантом реализации, описанной в Nima Khademi Kalantari, Ting-Chun Wang, and Ravi Ramamoorthi. 2016. Learning-based view synthesis for light field cameras. ACM Trans. Graph. 35, 6, Article 193 (November 2016), 10 pages. DOI: https://doi.org/10.1145/2980179.2980251, однако, обнаружено, что угловые крайние точки, выбранные в такой конфигурации, в результате дают наибольшее количество артефактов.
Для заранее заданного фиксированного размера входного светового поля 9×9, возможна конфигурация С3, где входные виды располагаются на позициях (1;1), (1;9), (9,1), (9;9) и (5;5). Преимущество такой конфигурации проявляется при необходимости синтеза видов, расположенных вблизи входных видов строго внутри квадрата, образованного входными видами.
Для заранее заданного фиксированного размера входного светового поля 9×9, возможна конфигурация С4, где входные виды располагаются на позициях (5;1), (1;5), (5,9); (9;5) и (5;5).
Для заранее заданного фиксированного размера светового поля 8×8, возможна конфигурация С5, где входные виды располагаются на позициях (2;2), (2;7), (7,2) и (7;7). Преимущество такой конфигурации проявляется при необходимости синтеза видов, расположенных вблизи входных видов как внутри квадрата, образованного входными видами, так и вне его.
Для заранее заданного фиксированного размера светового поля 9×9, возможна конфигурация С6, где входные виды располагаются на позициях (2;2), (2;8), (8,2), (8;8) и (5;5). Преимущество такой конфигурации проявляется при необходимости синтеза видов, расположенных вблизи входных видов как внутри квадрата, образованного входными видами, так и вне его.
Для заранее заданного фиксированного размера светового поля 5×8, возможна конфигурация С7, где входные виды располагаются на позициях (3;3) и (3;6). Преимущество такой конфигурации проявляется при наличии только двух входных видов. Конфигурация C7 рассматривает вариант синтеза промежуточных видов светового поля на основе только двух видов исходного светового поля. Такая конфигурация может быть использована при применении, например, двух камер смартфона.
Конфигурация C2 показала лучшие результаты, по сравнению с конфигурациями С3-С5, в отношении качества синтезируемых видов среди протестированных конфигураций для световых полей размера MxM. Конфигурация входных видов оказывает решающее воздействие на качество синтеза видов в среднем по сцене: правильно выбранная конфигурация дает оптимальное количество информации о глубине и объектах сцены и помогает бороться с артефактами.
Качество синтезируемого изображения тем лучше, чем меньше расстояние, на которое нужно сместить пиксель, чтобы учесть диспаратность. Следовательно, оно определяется расстоянием от рассматриваемого вида до ближайшего входного вида. Если подсчитать эти расстояния для промежуточных видов, полученных с помощью конфигураций С1 и С2, то окажется, что С2 оказывается более выигрышной по сравнению с С1, так как для конфигурации входных видов С2 эти расстояния в среднем меньше, чем для конфигурации входных видов С1.
Таким образом, оптимальная конфигурация заданных входных видов (C2 на фиг. 4) в матрице светового поля размером МхМ определяется координатами, которые соответствуют средней, если М - нечетное число, или ближайшей к средней, если М - четное число, позиции в каждой из первой и последней строки и в каждом из первого и последнего столбца матрицы светового поля.
В одной из реализаций изобретения предложенная система синтеза промежуточных видов светового поля используется для реализации части алгоритма сжатия световых полей с целью обеспечения минимальных затрат ресурсов при передаче данных по сетям передачи данных.
На Фиг. 5 проиллюстрирован алгоритм варианта использования данного изобретения в задачах сжатия световых полей. В частности, предлагается сжимать только виды светового поля, которые соответствуют заданной конфигурации входных видов светового поля, обеспечивающей наилучшее качество (например, конфигурации С2 (фиг. 4). Таким образом, уже на этом этапе предполагается значительное уменьшение объемов данных, необходимых для восстановления входного светового поля. Входные виды, соответствующие выбранной конфигурации, подаются в блок текущих видов. Далее в блоке обработки видов синтезируется требуемый промежуточный вид светового поля с помощью предлагаемого способа синтеза промежуточных видов светового поля на основе заданных входных видов светового поля. Далее в блоке вычисления разницы происходит вычисление разницы между синтезируемым промежуточным видом и входным видом светового поля. Затем производится сжатие разницы с использованием известных преобразований, например, дискретного косинусного преобразования.
Соответствующим образом предлагается восстанавливать (либо на приемном устройстве, либо в случае хранения сжатого сигнала, например, в целях экономного места, на том же устройстве) сжатое световое поле: сжатая разница подается в блок текущей разницы, пока не будут восстановлены все входные виды светового поля, восстанавливают коэффициенты преобразования разницы между требуемым и исходным входным видом светового поля, производят обратное преобразование разницы в блоке восстановления видов и суммируют, в блоке предполагаемого вида, с видами светового поля, синтезированными нейронной сетью, получают восстановленный вид, переходят к следующему необработанному входному виду светового поля; после того, как все входные виды светового поля были восстановлены, используют систему синтеза промежуточных видов светового поля для того, чтобы восстановить все промежуточные виды светового поля на основе восстановленных входных видов светового поля.
Ниже приведено несколько вариантов реализации системы синтеза промежуточных видов светового поля с помощью нейронной сети.
В отличие от известной из Nima Khademi Kalantari et al. архитектуры нейронной сети (см. фиг 6а), в которой рассматривается конфигурация входных видов светового поля только типа С1 (фиг. 4), в заявленном изобретении рассматриваются применения конфигураций С2-С7 входных видов светового поля (фиг. 4) в такой архитектуре нейронной сети.
Система синтеза промежуточных видов светового поля в одном из вариантов изобретения содержит (Фиг. 6а):
1) модуль 1 для вычисления массива признаков сцены светового поля на основе входных видов светового поля сцены,
2) сверточную нейронную сеть 2 для вычисления диспаратности сцены на основе вычисленных признаков сцены,
3) сверточную нейронную сеть 3 для синтеза промежуточных видов на основе вычисленной диспаратности сцены, входных видов светового поля сцены и координат промежуточных видов светового поля сцены в массиве видов светового поля сцены.
В первом варианте осуществления настоящего изобретения на схеме, показанной на фиг. 6а, вычисляются признаки для восстановления диспаратности, эти признаки подсказывают нейронной сети грубую информацию о диспаратности. Этот предложенный «грубый» подход заключается в следующем: один из входных видов смещают на 1 пиксель относительно самого себя 21 раз. То же самое делают для всех остальных входных видов, т.е. эти смещения делают для всех входных видов, количество которых составляет 2 или 4 или 5 в зависимости от конфигурации, и затем из них вычисляют дисперсию и среднее (дисперсия - это отклонение от усредненного вида, усредненный вид определяется как отношение попиксельной суммы значений пикселей суммируемых видов к количеству входных видов). Усредненный вид рассчитывается следующим образом. Предположим в одном виде - два пикселя со значениями цветов (200, 200, 20) и (200, 0, 50), а в другом виде - два пикселя со значениями цветов (200, 50, 0) и (20, 100, 200). Суммируем и получаем соответственно значения цветов (400, 250, 20) и (220, 100, 250). Чтобы получить усредненный вид делим все значения пикселей на два, поскольку используется два вида, и получаем усредненный вид из двух пикселей со значениями (200, 125, 10) и (110, 50, 125).
Для сравнения, в известном подходе (Nima Khademi Kalantari et al.) осуществляют смещение каждого вида на 21 пиксель 100 раз, что требует больших вычислений. Таким образом новый предлагаемый способ работает быстрее.
В изобретении применяется сверточная нейронная сеть, часть слоев которой используется для расчета карты диспаратности по предварительно посчитанной карте признаков.
Карта признаков подсчитывается следующим образом: пусть s - вектор, содержащий координаты x и y пикселя, q - координаты u, v вектора в двухмерном пространстве, который обозначает положение промежуточного вида в матрице видов светового поля, - координаты i-го входного вида в матрице видов светового поля; тогда для пикселя s нового вида при знании карты диспаратности (карту диспаратности вычисляет нейросеть) значение цвета в пикселе, находящемся в точке s, определяют как:
Для генерации карты признаков задается набор уровней диспаратности - например, .
Для каждого уровня диспаратности вычисляется новый вид с использованием каждого из входных видов светового поля по формуле:
(1),
Где - значение цвета пикселя, который расположен в позиции s=(x, y), взятого из входного вида pi, при заданном уровне диспаратности dl.
Затем для каждого уровня диспаратности вычисляют две карты признаков: среднее значение пикселя (значение пикселя характеризует, в том числе, его цвет и яркость. Значение пикселя L означает тройку целых чисел, Lc, с принимает значения 1, 2, 3, так что L1-красный, L2-зеленый, L3-голубой, Lc меняется от 0 до 2N, где N -обычно 8) в данной позиции среди всех видов по каждому полученному виду (количество полученных новых видов для данной диспаратности равно количеству входных видов) и дисперсия по каждому полученному виду:
(2), где
изображение, полученное усреднением входных изображений после их сдвига по формуле 1.
Таким образом, - это среднее значение пикселей от N сдвинутых картинок, при этом пиксель расположен в позиции s (вектор с позициями по x и y), при заданном уровне диспаратности dl, вычисленный по N входным видам;
N - количество входных видов.
По формуле
(3),
вычисляется - стандартное отклонение (среднеквадратическое отклонение) значения цвета пикселя, который расположен в позиции s (вектор с позициям по x и y), при заданном уровне диспаратности dl, вычисленный по N входным видам.
После этого из карт и генерируется карта признаков глубиной 2L со следующей структурой: , то есть генерируются матрицы, размер которых совпадает с разрешением входных видов, состоящие из изображений, усредненных по формуле 2, и стандартных отклонений для каждого уровня диспаратности [d1,dL], L=21 (экспериментально выбранное число уровней диспаратности). На самом деле карта признаков имеет глубину 2L+1, т.к. надо учитывать и нулевой уровень.
Поскольку имеется 21 уровень диспаратности (L=21), т.е. L - число, каждое из которых соответствует сдвигу вида на соответствующее количество пикселей в положительном и в отрицательном направлениях плюс один уровень, соответствующий входным видам, т.е. видам без смещения, то на вход нейронной сети, оценивающей диспаратность сцены, подают 43 =(2×21+1) уровня, ввиду того, что имеются два признака - изображение, усредненное по всем возможным диспаратностям в соответствии с формулой 2, и стандартное отклонение, вычисленное по формуле 3.
То есть на вход нейронной сети, оценивающей диспаратность сцены (диспаратность становится известна после того как ее вычислит нейросеть), подается карта признаков, представляющая собой тензор размером (W x H x 2L), где W и H - ширина и высота вида соответственно, в пикселях.
Необходимо отметить, что карта признаков - это некий набор матриц (составляющих 3-мерный тензор), описывающий то, как «ведут» себя входные виды при сдвигах в сторону требуемого вида. Таким образом, сеть самонастраивается и сама вырабатывает необходимую иерархию абстрактных признаков (последовательности карт признаков), фильтруя маловажные детали и выделяя существенные (https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D1%91%D1%80%D1%82%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C).
Вторая часть системы, синтезирующей промежуточные виды в предложенной реализации, синтезирует желаемый промежуточный вид светового поля. Обучаются две части нейронной сети совместно.
Первая часть системы (сеть) вычисляет диспаратность.
Вторая часть системы (сеть) непосредственно синтезирует желаемый промежуточный вид. На вход второй сети подается трехмерный тензор, складываемый из набора входных видов светового поля, преобразованных по формуле (1) с учетом полученной от первой сети карты диспаратности, сама карта диспаратности и две матрицы, все элементы, одной из которых равны координате желаемого вида по оси x (обозначаемой здесь u), а все элементы второй - координаты желаемого вида по оси y (обозначаемой здесь v).
На фигуре 6b показан вариант осуществления синтеза промежуточных видов без использования признаков и, как следствие, без подсчета карты признаков. Результат по качеству получают не хуже первого варианта, и в то же время более быстро. Могут использоваться любые из конфигураций входных видов светового поля С1-С7 (фиг. 4). Суть этого варианта осуществления заключается в том, чтобы подавать на вход нейронной сети входные изображения и координаты (u; v) желаемого вида, а на выходе получать требуемый промежуточный вид. При этом предлагается оценивать диспаратность с помощью датчика глубины (на фиг.6b не указан, но как дополнительный физический элемент, он обеспечивает карту глубины), такие датчики глубины широко известны в уровне техники, например, https://ru.wikipedia.org/wiki/Kinect), а не вычислять с помощью нейронной сети. Такая система может включать в себя: сверточную нейронную сеть для синтеза промежуточных видов светового поля сцены на основе карты диспаратности сцены, полученной при помощи датчика глубины входных видов светового поля сцены, и координат промежуточных видов (u, v) в массиве видов светового поля сцены.
Таким образом, отпадает необходимость в вычислении карты признаков и использования нейронной сети для вычисления диспаратности сцены, как было описано выше в первом варианте осуществления. В остальном архитектура системы аналогична первому варианту осуществления: на вход нейронной сети, которая производит синтез желаемого вида, подают выбранные входные виды, преобразованные по формуле (1) с использованием полученной от датчика глубины карты диспаратности, сама карта диспаратности, полученная от датчика глубины, и координаты желаемого вида в виде двух матриц, в одной из которых все элементы - координата u, в другой - v.
В варианте, показанном на фигуре 6с, карта диспаратности сцены не используется. Система может включать в себя: сверточную нейронную сеть 1 для синтеза промежуточных видов светового поля сцены на основе входных видов светового поля сцены и координат промежуточных видов в массиве видов светового поля сцены (причем такая сеть предварительно обучается синтезировать промежуточные виды без карты диспаратности), и предварительно обученную нейронную сеть 2, способную классифицировать объекты на цифровом изображении (см., например,
https://machinelearningmastery.com/use-pre-trained-vgg-model-classify-objects-photographs).
Нейронная сеть 2 может представлять собой сеть VGG-16 (нейронная сеть известной архитектуры) или любую другую классифицирующую сеть. Сеть VGG-16 может идентифицировать один из 1000 возможных объектов (https://www.quora.com/What-is-the-VGG-neural-network), причем сеть VGG-16 используется при обучении предложенной нейронной сети 1.
На первом этапе, на этапе обучения сети 1, на вход сети 1 (фиг. 6с) подают входные виды светового поля и координаты (u, v) желаемого промежуточного вида. Cеть 1 синтезирует требуемый промежуточный вид. Затем синтезированный промежуточный вид поступает на вход сети 2. Также на вход сети 2 подается эталонный вид, который имеет те же координаты что и желаемый промежуточный вид, синтезированный сетью 1. Эталонный вид получают заранее, он представляет собой не синтезированный, а оригинальный вид, который изначально присутствует в наборе данных для обучения (получить его можно, например, с помощью пленоптической камеры). Сеть 2 переводит желаемый промежуточный вид, синтезированный сетью 1, и эталонный вид в пространство таких признаков вида, которые позволяют сделать вычисление ошибки в этом пространстве более эффективным с точки зрения восприятия человека. На выходе сети 2 получаются две карты признаков вида, под «картой признаков вида» в данном случае подразумевается выход одного или нескольких слоев классифицирующей нейронной сети, карта признаков вида в данном варианте используется для вычисления функции ошибки. Сеть 2 выдает две карты признаков одинаковой размерности для желаемого промежуточного вида и эталонного, на основе этих карт считается ошибка, для чего используют известные технологии. Например, известная технология Perceptual loss, описанная в «Perceptual Losses for Real-Time Style Transfer and Super-Resolution», Justin Johnson, Alexandre Alahi, Li Fei-Fei, 2016, https://arxiv.org/pdf/1603.08155.pdf. Суть ее заключается в том, что синтезированный промежуточный синтезируемый сетью 1, и эталонный промежуточный виды пропускаются через ряд слоев нейронной сети 2 для классификации изображений (например, VGG-16 «Very Deep Convolutional Networks for Large-Scale Image Recognition», Karen Simonyan, Andrew Zisserman, 2015, https://arxiv.org/pdf/1409.1556.pdf). Полученные две карты признаков (https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D1%91%D1%80%D1%82%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C) сравниваются по L2 норме Фробениуса
(https://en.wikipedia.org/wiki/Matrix_norm#Frobenius_norm). В результате получается величина, характеризующая «расстояние» между картами признаков синтезированного сетью 1 вида и эталонного вида, чем эта величина больше, тем хуже сработала сеть. То есть полученная величина представляет собой ошибку вычисления желаемого промежуточного вида, синтезированного сетью 1.
Таким образом, вместо того, чтобы требовать от сети 1, чтобы она синтезировала вид, как можно более близкий к эталонному в смысле попиксельной разницы, как это делается в варианте, показанном на фиг. 6а, в варианте на фиг. 6c после получения величины ошибки, обучают сеть 1, чтобы она минимизировать величину ошибки. Обучение сети 1 проводится на основе известных технологий. Причем первый этап повторяется до тех пор, пока не будут достигнуты желаемые показатели синтеза промежуточных видов сетью 1 по сравнению с эталонными видами.
На втором этапе, после обучения и достижения желаемых показателей синтеза, сеть 1 готова для синтеза желаемых промежуточных видов с минимальной ошибкой.
Предлагаемое изобретение также может быть реализовано посредством мобильного устройства с по меньшей мере одной камерой.
Пользователь делает быструю серию снимков, не меняя положение камеры, при этом малые сдвиги камеры, происходящие за счет движения руки пользователя, достаточны для того, чтобы формировать необходимое количество входных видов светового поля. Лучшее качество может быть получено, если взять все снимки, но предпочтительно требуется взять то количество, которое предопределено заранее выбранной конфигурацией видов. Полученные входные виды передаются в модуль обработки, то есть в часть мобильного устройства, которая ответственна за синтез промежуточных видов. Опционально в этом модуле может присутствовать подмодуль, получающий карту диспаратности с датчика глубины. Далее выполняется синтез промежуточных видов светового поля; промежуточные виды светового поля сцены передаются в память устройства, а затем выводятся на дисплей мобильного устройства.
Каждый вид полученного светового поля будет иметь высокое разрешение вследствие высокого разрешения камер на современных мобильных устройствах. Такой эффект решает проблему компромисса между угловым и пространственным разрешением, типичную для пленоптических камер.
Хотя изобретение описано в связи с некоторыми иллюстративными вариантами осуществления, следует понимать, что сущность изобретения, не ограничивается этими конкретными вариантами осуществления. Напротив, предполагается, что сущность изобретения включает в себя все альтернативы, коррекции и эквиваленты, которые могут быть включены в сущность и объем формулы изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ОБУЧЕНИЯ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ВОССТАНОВЛЕНИЯ ИЗОБРАЖЕНИЯ И СИСТЕМА ДЛЯ ФОРМИРОВАНИЯ КАРТЫ ГЛУБИНЫ ИЗОБРАЖЕНИЯ (ВАРИАНТЫ) | 2018 |
|
RU2698402C1 |
НЕЙРОННАЯ ТОЧЕЧНАЯ ГРАФИКА | 2019 |
|
RU2729166C1 |
СПОСОБ ПОЛУЧЕНИЯ ИЗОБРАЖЕНИЙ ВЫСОКОГО ПРОСТРАНСТВЕННОГО РАЗРЕШЕНИЯ ОПТИКО-ЭЛЕКТРОННЫМ СРЕДСТВОМ НАБЛЮДЕНИЯ ЗА УДАЛЕННЫМИ ОБЪЕКТАМИ | 2022 |
|
RU2806249C1 |
Способ создания многослойного представления сцены и вычислительное устройство для его реализации | 2021 |
|
RU2787928C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ЗАХВАТА ИЗОБРАЖЕНИЯ И ОДНОВРЕМЕННОГО ИЗВЛЕЧЕНИЯ ГЛУБИНЫ | 2014 |
|
RU2595759C2 |
Способ получения набора объектов трехмерной сцены | 2019 |
|
RU2803287C1 |
ГЕНЕРАТОРЫ ИЗОБРАЖЕНИЙ С УСЛОВНО НЕЗАВИСИМЫМ СИНТЕЗОМ ПИКСЕЛЕЙ | 2021 |
|
RU2770132C1 |
Спортивный хронометраж на основе системы камер | 2020 |
|
RU2813497C1 |
Способ и электронное устройство для обнаружения трехмерных объектов с помощью нейронных сетей | 2021 |
|
RU2776814C1 |
Способ синтеза двумерного изображения сцены, просматриваемой с требуемой точки обзора, и электронное вычислительное устройство для его реализации | 2020 |
|
RU2749749C1 |
Изобретение относится к области формирования изображений, а именно к системе синтеза промежуточных видов светового поля на основе уменьшенного количества видов светового поля. Технический результат заключается в повышении качества изображения сцены. Предлагается способ синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, содержащий этапы, на которых выбирают конфигурацию заданных входных видов светового поля, полученных с помощью по меньшей мере одного устройства захвата светового поля, причем конфигурация определяется координатами входных видов матрицы светового поля, захватываемого устройством захвата, задают требуемые координаты промежуточных видов, которые необходимо синтезировать, подают выбранную конфигурацию заданных входных видов светового поля и требуемые координаты промежуточных видов, которые необходимо синтезировать, в нейронную сеть, с помощью нейронной сети синтезируют промежуточные виды на основе диспаратности сцены, конфигурации заданных входных видов светового поля и требуемых координат промежуточных видов. 4 н. и 7 з.п. ф-лы, 8 ил.
1. Способ синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, содержащий этапы, на которых
выбирают конфигурацию заданных входных видов светового поля, полученных с помощью по меньшей мере одного устройства захвата светового поля, причем конфигурация определяется координатами входных видов матрицы светового поля, захватываемого устройством захвата;
задают требуемые координаты промежуточных видов, которые необходимо синтезировать,
подают выбранную конфигурацию заданных входных видов светового поля и требуемые координаты промежуточных видов, которые необходимо синтезировать, в нейронную сеть;
с помощью нейронной сети:
синтезируют промежуточные виды на основе диспаратности сцены, конфигурации заданных входных видов светового поля и требуемых координат промежуточных видов.
2. Способ по п. 1, причем конфигурация заданных входных видов в матрице светового поля размером М×М определяется координатами, которые соответствуют средней, если М - нечетное число, или ближайшей к средней, если М - четное число, позиции в каждой из первой и последней строк и в каждом из первого и последнего столбцов матрицы светового поля.
3. Способ по п. 1, в котором требуемые координаты промежуточных видов задают как целые или дробные числа.
4. Способ по п. 1, в котором вычисляют карту признаков светового поля на основе выбранной конфигурации заданных входных видов светового поля, диспаратность вычисляют в нейронной сети сцены на основе вычисленной карты признаков сцены.
5. Способ по п. 1, в котором диспаратность предварительно оценивают по показаниям датчика глубины.
6. Способ по п. 4, в котором синтезируют промежуточные виды с помощью предобученной нейронной сети.
7. Система синтеза промежуточных видов светового поля на основе заданных входных видов светового поля для выполнения способа по п. 1, содержащая
устройство захвата видов светового поля для захвата входных видов сцены светового поля,
модуль сверточной нейронной сети для синтеза промежуточных видов на основе диспаратности сцены, входных видов светового поля сцены и заданных координат промежуточных видов светового поля сцены в массиве видов светового поля сцены.
8. Система по п. 7, дополнительно содержащая:
модуль для вычисления карты признаков сцены светового поля на основе входных видов сцены светового поля;
модуль сверточной нейронной сети для вычисления диспаратности сцены на основе вычисленной карты признаков;
модуль задания набора уровней диспаратности ,
причем модуль сверточной нейронной сети используется для расчета карты диспаратности по предварительно вычисленной карте признаков,
модуль вычисления для каждого уровня диспаратности нового вида с использованием каждого из входных видов светового поля по формуле:
(1),
где: - значение цвета пикселя, который расположен в позиции s (вектор с позициями по x и y), взятого из входного вида pi, при заданном уровне диспаратности dl, вычисленном по N входным видам,
модуль расчета двух карт признаков: среднего значения цвета и яркости пикселя для каждого уровня диспаратности по каждому полученному виду.
9. Система по п. 7, дополнительно содержащая датчик глубины для обеспечения значений глубины, используемых для предварительной оценки диспаратности.
10. Мобильное устройство, содержащее систему синтеза промежуточных видов светового поля на основе заданных входных видов светового поля, выполняющую способ синтеза промежуточных видов светового поля на основе заданных входных видов светового поля по любому из пп. 1-6.
11. Способ сжатия светового поля, содержащий этапы, на которых
выбирают конфигурацию заданных входных видов светового поля, полученных с помощью устройства захвата светового поля, причем конфигурация определяется координатами входных видов матрицы светового поля, захватываемого устройством захвата;
синтезируют по меньшей мере один промежуточный вид светового поля согласно способу по любому из пп. 1-6;
вычисляют разницу между по меньшей мере одним промежуточным видом и входным видом;
производят сжатие вычисленной разницы.
CN 107430782 A, 01.12.2017 | |||
WO 2010037512 A1, 08.04.2010 | |||
US 9712759 B2, 18.07.2017 | |||
US 20130215108 A1, 22.08.2013 | |||
ПОСТРОЕННЫЙ НА ПРИНЦИПЕ ИЗМЕРЕНИЯ | 0 |
|
SU164158A1 |
СПОСОБ И УСТРОЙСТВО ОТОБРАЖЕНИЯ СТЕРЕОСКОПИЧЕСКОГО ИЗОБРАЖЕНИЯ, СПОСОБ ДЛЯ СОЗДАНИЯ ДАННЫХ 3D ИЗОБРАЖЕНИЯ ИЗ ВХОДНЫХ ДАННЫХ 2D ИЗОБРАЖЕНИЯ И УСТРОЙСТВО ДЛЯ СОЗДАНИЯ ДАННЫХ 3D ИЗОБРАЖЕНИЯ ИЗ ВХОДНЫХ ДАННЫХ 2D ИЗОБРАЖЕНИЯ | 2006 |
|
RU2411690C2 |
US 20140232822 A1, 21.08.2014. |
Авторы
Даты
2019-06-05—Публикация
2018-08-21—Подача