Область техники, к которой относится изобретение

Предлагаемое изобретение может быть использовано в области реконструкции и анимации фотореалистичных 3D-моделей людей для приложений виртуальной и дополненной реальности. В частности, предлагаемое изобретение может быть использовано для создания полноразмерных 3D-моделей человека с использованием моделей глубокого обучения.

Описание предшествующего уровня техники

В последнее время наблюдается повышенный интерес к реконструкции и анимации фотореалистичных 3D-моделей людей для приложений виртуальной и дополненной реальности. Наиболее успешные из доступных в настоящее время способов обучаются в течение нескольких минут или нескольких часов.

Также наблюдается растущий интерес [31, 34, 2, 9, 37, 38, 13, 11] к цифровым реконструкциям статических и динамических сцен с приложениями в дополненной и виртуальной реальности, телеприсутствии, 3D-графике и мобильных устройствах [3]. Стандартный процесс получения персонализированных 3D-моделей является дорогостоящим и включает в себя видеосъемку с помощью многокамерных установок с точной калибровкой и ручную настройку 3D-моделей для анимации.

Чтобы снизить эти затраты, было предложено множество подходов, основанных на параметрических моделях, которые устраняют необходимость ручной настройки и анимации 3D-моделей. Некоторые из этих подходов требуют на входе только монокулярные видео [3, 14, 23, 5, 45, 14], что значительно снижает затраты. С другой стороны, эти подходы, хотя и упрощают этап получения данных, все же требуют значительных затрат времени на обучение. При рассмотрении практической применимости способа не менее важно учитывать время предварительной обработки данных, но оно часто не указывается.

Было предложено множество способов, основанных на нейронных представлениях, которые позволяют моделировать сложные статические и динамические сцены [29, 15, 25, 16, 6, 27, 33]. Некоторые из этих способов основаны на мощных нейронных полях излучения (NeRF) [25], которые требуют на входе многоракурсных или монокулярных видео. Несмотря на то, что эти подходы позволяют получать реалистичные реконструкции, большинство из них требуют многочасового обучения и часто страдают от артефактов рендеринга в сложных позах 3D-моделей людей.

Например, InstantAvatar [14] использует несколько инженерных приемов, таких как хэш-таблицы (Instant-NGP [26]) и модуль пропуска пустого пространства, которые значительно сокращают необходимое время обучения. Однако, будучи способом, основанным на точках, InstantAvatar очень чувствителен к точности оценки параметров SMPL [24] и использует отдельный этап оптимизации для этих параметров, что значительно увеличивает общее время вычислений, необходимое для создания 3D-модели человека.

В последнее время был достигнут прогресс в способах объемного сплющивания, которые используют 3D-гауссианы для моделирования сцены и позволяют быстро обучать модели и быстро выполнять рендеринг [20, 23, 22, 19, 22, 21, 47, 35, 48]. В оригинальной статье [17] было предложено использовать 3D-гауссианы для моделирования статических сцен, и этот подход был применен к динамическим сценам, таким как 3D-модели людей.

Animatable 3D Gaussian расширяет 3D-гауссианы на динамические сцены с людьми, моделируя 3D-модели людей в каноническом пространстве и деформируя их в пространство наблюдения с использованием параметров позы. Хотя этот подход обеспечивает высококачественный рендеринг и требует всего нескольких минут на обучение, он очень чувствителен к оценке параметров SMPL и часто не справляется с рендерингом 3D-моделей в сложных позах.

Отложенный нейронный рендеринг (BNR) [44] (https://arxiv.org/abs/1904.12356) использовался во многих работах, связанных с трехмерными моделями человека [43, 9, 3, 32, 39], и его главными преимуществами являются высокая скорость рендеринга и реалистичность. Кроме того, он требует в качестве входных данных только грубой трехмерной геометрии, что значительно повышает практичность этого подхода, поскольку получение высокоточной трехмерной геометрии является дорогостоящим. Нейронный рендерер часто реализуется в виде сверточной сети, что упрощает перенос системы на мобильные устройства. BINAR [43] - это однопроходная система, которая принимает в качестве входных данных одно изображение и способна анимировать трехмерные модели человека в новых ракурсах и позах. В ней используется сеть диффузионного закрашивания [12] для заполнения отсутствующих текстур, которые отсутствуют в исходном ракурсе. MoRF [3] предлагает модуль деформации нейронной текстуры, который направлен на компенсацию несоответствий при подгонке сетки и создает четкие текстуры.

Предлагаемый способ основан на подходе отложенного нейронного рендеринга (DNR), который обеспечивает быстрый рендеринг трехмерных моделей и способствует высокой реалистичности, и следует работам предыдущих способов [43, 3, 14, 5, 9, 30] по созданию трехмерных моделей человека и использует параметрическую модель тела SMPL-X [28] в качестве грубой трехмерной геометрии.

Сущность изобретения

Предлагается система для генерации видео реконструированной фотореалистичной трехмерной модели человека, содержащая функционально связанные между собой:

модуль предварительной обработки видео, сконфигурированный для:

a) выборки кадров для дальнейшей обработки из входного видеоролика с человеком, вращающимся перед камерой, с указанием опорного кадра в выбранных кадрах;

для каждого выбранного кадра:

b) детектирования человека,

c) сегментации изображения человека;

d) определения на сегментированном изображении местоположения опорных точек, в которых находятся суставы тела человека с позой и формой тела;

e) получения параметров позы тела человека, формы тела человека и параметров камеры на основе данных, включающих в себя сегментированное изображение человека и найденные местоположения опорных точек;

f) прогнозирования 3D-сетки человека на основе параметров позы тела, формы тела и параметров камеры;

модуль извлечения текстуры, сконфигурированный для:

для каждого выбранного кадра:

а) растеризации 3D-сетки и соответствующих параметров камеры, получения UV-карты, выполнения с помощью UV-карты сопоставления точек на 3D-сетке с пикселями выбранного кадра путем обработки выбранного кадра, сегментированного изображения человека, 3D-сетки и параметров камеры,

для получения:

3D-изображения человека, в котором пиксели, видимые на данном выбранном кадре, имеют цвет на результирующем 3D-изображении человека, а пиксели, которые не видны и, следовательно, не имеют цвета, заполняются интерполированными цветами,

первой двоичной маски, содержащей информацию о том, какие пиксели имеют цвет,

второй двоичной маски, содержащей информацию о том, какие пиксели не имели цвета, но имеют интерполированные цвета;

b) прогнозирования с помощью обученных нейронных сетей нейронной текстуры для сегментированного изображения человека на основе выбранного кадра и сегментированного изображения человека;

c) объединения 3D-изображения человека, первой двоичной маски, второй двоичной маски и предсказанной нейронной текстуры, в результате чего получается стек текстур;

модуль слияния текстур, сконфигурированный для: для каждого обработанного выбранного кадра:

a) назначения каждому пикселю каждого стека текстур его весового коэффициента в зависимости от направления нормали пикселя относительно оси объектива камеры;

b) выбора из всех стеков текстур тех двух стеков текстур, которые отвечают за переднюю часть тела человека и заднюю часть тела человека; и

c) слияния выбранных двух стеков текстур с заполнением пробелов, образованных пикселями, не относящимися к выбранным двум стекам текстур, теми пикселями из невыбранных стеков текстур, которые имеют наибольшие весовые коэффициенты, для получения объединенной текстуры;

результирующий модуль, сконфигурированный для:

- при настройке системы:

a) растеризации объединенной текстуры и UV-карты опорного кадра;

b) рендеринга результата растеризации для получения реконструированного 3D-изображения;

c) сравнения с помощью дискриминаторной нейронной сети реконструированного 3D-изображения с изображением человека из опорного кадра;

d) обратного распространения ошибки для настройки нейронных сетей и рендерера,

при этом настройка системы повторяется до тех пор, пока разница между реконструированным 3D-изображением и изображением человека из выбранного опорного кадра не перестанет уменьшаться;

- при работе системы:

для каждого кадра из выбранных кадров:

a) растеризации произвольной желаемой UV-карты и объединенной текстуры,

b) рендеринга результата растеризации для получения реконструированного 3D-изображения;

c) отображения реконструированного 3D-изображения человека на экране компьютерного устройства пользователя;

при этом описанные выше действия повторяются для всех выбранных кадров для формирования видео с реконструированной фотореалистичной 3D-моделью человека на экране компьютерного устройства пользователя.

Также предлагается способ настройки предлагаемой системы, который включает в себя следующие этапы:

с помощью модуля предварительной обработки видео:

a) выборку кадров для дальнейшей обработки из входного видеоролика с человеком, вращающимся перед камерой, с указанием опорного кадра в выбранных кадрах;

для каждого выбранного кадра:

b) детектирование человека,

c) сегментацию изображения человека;

d) определение на сегментированном изображении местоположения опорных точек, в которых находятся суставы тела человека с позой и формой тела;

e) получение параметров позы тела человека, формы тела человека и параметров камеры на основе данных, включающих в себя сегментированное изображение человека и найденные местоположения опорных точек;

f) прогнозирование 3D-сетки человека на основе параметров позы тела, формы тела и параметров камеры;

с помощью модуля извлечения текстуры: для каждого выбранного кадра:

а) растеризацию 3D-сетки и соответствующих параметров камеры, получение UV-карты, выполнение с помощью UV-карты сопоставления точек на 3D-сетке с пикселями выбранного кадра путем обработки выбранного кадра, сегментированного изображения человека, 3D-сетки и параметров камеры, для получения:

3D-изображения человека, в котором пиксели, видимые на данном выбранном кадре, имеют цвет на результирующем 3D-изображении человека, а пиксели, которые не видны и, следовательно, не имеют цвета, заполняются интерполированными цветами,

первой двоичной маски, содержащей информацию о том, какие пиксели имеют цвет,

второй двоичной маски, содержащей информацию о том, какие пиксели не имели цвета, но имеют интерполированные цвета;

b) прогнозирование с помощью обученных нейронных сетей нейронной текстуры для сегментированного изображения человека на основе выбранного кадра и сегментированного изображения человека;

c) объединение 3D-изображения человека, первой двоичной маски, второй двоичной маски и предсказанной нейронной текстуры, в результате чего получается стек текстур;

для всех обработанных выбранных кадров с помощью модуля слияния текстур:

a) назначение каждому пикселю каждого стека текстур его весового коэффициента в зависимости от направления нормали пикселя относительно оси объектива камеры;

b) выбор из всех стеков текстур тех двух стеков текстур, которые отвечают за переднюю часть тела человека и заднюю часть тела человека; и

c) слияние выбранных двух стеков текстур с заполнением пробелов, образованных пикселями, не относящимися к выбранным двум стекам текстур, теми пикселями из невыбранных стеков текстур, которые имеют наибольшие весовые коэффициенты, для получения объединенной текстуры;

с помощью результирующего модуля:

a) растеризацию объединенной текстуры и UV-карты опорного кадра;

b) рендеринг результата растеризации для получения реконструированного 3D-изображения;

c) сравнение с помощью дискриминаторной нейронной сети реконструированного 3D-изображения с изображением человека из опорного кадра;

d) обратное распространение ошибки для настройки нейронных сетей и рендерера,

при этом настройка системы повторяется до тех пор, пока разница между реконструированным 3D-изображением и изображением человека из выбранного опорного кадра не перестанет уменьшаться.

При этом этапы (а) и (b) в модуле извлечения текстуры выполняются параллельно.

Также предлагается способ генерации видео

реконструированной фотореалистичной 3D-модели человека с использованием системы по п. 1, включающий в себя следующие этапы:

с помощью модуля предварительной обработки видео:

a) выборку кадров для дальнейшей обработки из входного видеоролика с человеком, вращающимся перед камерой;

для каждого выбранного кадра:

b) детектирование человека,

c) сегментацию изображения человека;

d) определение на сегментированном изображении местоположения опорных точек, в которых находятся суставы тела человека с позой и формой тела;

e) получение параметров позы тела человека, формы тела человека и параметров камеры на основе данных, включающих в себя сегментированное изображение человека и найденные местоположения опорных точек;

f) прогнозирование 3D-сетки человека на основе параметров позы тела, формы тела и параметров камеры;

с помощью модуля извлечения текстуры: для каждого выбранного кадра:

а) растеризацию 3D-сетки и соответствующих параметров камеры, получение UV-карты, выполнение с помощью UV-карты сопоставления точек на 3D-сетке с пикселями выбранного кадра путем обработки выбранного кадра, сегментированного изображения человека, 3D-сетки и параметров камеры,