Область техники, к которой относится изобретение
[0001] Настоящее изобретение относится, в общем, к области искусственного интеллекта и, в частности, к способу генерирования и предоставления потока обоев на вычислительном устройстве с использованием глубокой генеративной нейросети, а также к вычислительному устройству, реализующему данный способ.
Описание предшествующего уровня техники
[0002] Обои составляют большую часть того, что видит пользователь на различных устройствах, включая смартфоны, интеллектуальные телевизоры, ноутбуки и т.п. В настоящее время для регулярного получения новых эстетически приятных обоев пользователи могут подписаться на обновления в режиме онлайн, то есть на сервисы (например, Unsplash), регулярно отправляющие новые обои на пользовательское устройство через Интернет-соединение. К недостаткам этого метода относится, по меньшей мере, необходимость подключения к Интернету, а также потребление трафика и полосы пропускания.
[0003] Современные генеративные нейросети способны синтезировать высокореалистичные 2D-изображения, 3D-изображения и видео. Следовательно, такие сети можно обучить генерировать изображения реалистичных эстетически приятных обоев. После обучения многие из этих моделей (самым широко используемым классом которых являются генеративные состязательные сети) могут генерировать бесконечное количество самых разнообразных обоев, принимая в качестве ввода произвольный высокоразмерный вектор и генерируя оригинальное изображение для этого вектора. Включение нового вектора приведет к получению существенно отличающегося изображения.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0004] Предложено альтернативное технические решение, которое позволяет регулярно обновлять обои пользовательского устройства без использования Интернета. Согласно первому аспекту настоящего изобретения предложен способ локального генерирования и предоставления вычислительному устройству потока обоев, заключающийся в том, что: генерируют на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство, и устанавливают на вычислительном устройстве по меньшей мере одни первые обои в качестве обоев данного вычислительного устройства. Поскольку приемлемые обои синтезируются на самом вычислительном устройстве, т.е. не загружаются из сети Интернет, отсутствуют описанные выше недостатки, и изобретение позволяет уменьшить/исключить потребление трафика и полосы пропускания, которые требовались в известных аналогах для загрузки.
[0005] Согласно второму аспекту настоящего изобретения предложено вычислительное устройство, содержащее процессор и устройство хранения, на котором хранится обученная глубокая генеративная нейросеть для локального генерирования и предоставления потока обоев посредством выполнения способа согласно первому аспекту при выполнении процессором обученной глубокой генеративной нейросети.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Описанные выше и другие аспекты, признаки и преимущества настоящего изобретения будут более понятны из следующего подробного описания в совокупности с прилагаемыми чертежами, на которых:
фиг. 1 - последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев в соответствии с вариантом осуществления изобретения, раскрытым в данном документе;
фиг. 2 - последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев в соответствии с другим вариантом осуществления изобретения, раскрытым в данном документе;
фиг. 3 - блок-схема вычислительного устройства согласно варианту осуществления изобретения, раскрытому в данном документе.
[0007] В дальнейшем описании, если не указано иное, одинаковые ссылочные обозначения используются для одних и тех же элементов, изображенных на разных чертежах, и их параллельное описание может быть опущено.
ПОДРОБНОЕ ОПИСАНИЕ
[0008] На фиг. 1 показана последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев согласно варианту осуществления изобретения, раскрытому в данном документе. Способ заключается в следующем: генерируют S105 на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство. Под генерированием подразумевается искусственный синтез обоев глубокой генеративной нейросетью. В зависимости от типа контента в коллекции высококачественных изображений/видео, который использовался на этапе обучения глубокой генеративной нейросети, глубокая генеративная нейросеть при обучении на такой коллекции конфигурируется для генерирования типа обоев подобного данному контенту. Например, если коллекция высококачественных изображений содержит изображения пейзажей, то глубокая генеративная нейросеть при обучении на этой коллекции будет сконфигурирована для генерирования пейзажных обоев и т.д. Однако настоящее изобретение не ограничено пейзажными обоями, поскольку на этапе обучения глубокой генеративной нейросети можно использовать коллекцию высококачественных изображений/видео с любым другим типом контента. Кроме того, если на этапе обучения глубокой генеративной нейросети использовалась коллекция высококачественных видео, то глубокая генеративная нейросеть при обучении на такой коллекции будет настроена на генерирование видеообоев с типом контента, соответствующим типу контента обучающей коллекции высококачественных видео. Под потоком обоев подразумевается одно или несколько изображений, которые могут быть статическими, динамическими или интерактивными, и/или одним или несколькими видео. При обучении глубокой генеративной нейросети, ее можно загрузить в вычислительное устройство вместе с весовыми коэффициентами и другими параметрами заранее, то есть до фазы использования (inference). Глубокая генеративная нейросеть может храниться в устройстве хранения, таком как память вычислительного устройства. При генерировании по меньшей мере одних первых обоев глубокой генеративной нейросетью способ включает в себя этап установки S110 в вычислительном устройстве этих по меньшей мере одних первых обоев в качестве обоев вычислительного устройства. Генерируемые обои могут быть предназначены для любого типа пользовательского интерфейса, например, генерируемые обои могут быть обоями для основного рабочего стола, для экрана блокировки, для пустой страницы браузера, и так далее без ограничений. Генерируемые обои можно использовать в качестве экранной заставки вычислительного устройства.
[0009] Как показано на фиг. 1, способ дополнительно содержит этап определения S115, выполняется ли условие или нет. Эта проверка на выполнение условия используется для определения, следует ли обновить первые обои вторыми обоями. Условие включает в себя, без ограничения, одно или несколько из следующих условий: (i) на вычислительном устройстве получен пользовательский ввод, при этом пользовательский ввод представляет то, выражает ли пользователь вычислительного устройства неодобрение обоям, установленным в данный момент в качестве обоев вычислительного устройства, или нет; (ii) истек преднастроенный период времени; (iii) изменилось местоположение GPS вычислительного устройства, причем местоположение GPS вычислительного устройства может быть зарегистрировано блоком GPS, имеющемся в данном вычислительном устройстве. Если пользователь выразил неодобрение текущим установленным обоям, то можно адаптировать способ для генерирования других обоев. На основании информации таких одобрений/неодобрений (likes/dislikes) система может научиться генерировать обои, которые будут нравиться пользователю. Если определено, что данное условие удовлетворено (т.е. получено неодобрение на этапе S115), способ обновляет обои, установленные в данный момент в качестве обоев вычислительного устройства, выполняя следующие действия: генерируют S120 на вычислительном устройстве по меньшей мере одни вторые обои потока обоев, используя глубокую генеративную нейросеть; устанавливают S125 на вычислительном устройстве эти по меньшей мере одни вторые обои в качестве обоев вычислительного устройства. Описанное обновление обоев может выполняться автоматически в фоновом режиме. Например, пользователь может включить функцию генерирования новых обоев каждое утро. Термины "первый" и "второй" применительно к термину "обои" используются в целях их различия и не должны истолковываться как термины, представляющие какие-либо порядковые отношения между указанными обоями или этапами способа. По меньшей мере одни вторые обои отличаются от по меньшей мере одних первых обоев. В альтернативном варианте осуществления способа (не проиллюстрирован) этап определения S115, выполняется ли условие или нет, может выполняться перед генерированием и установкой каждых последующих обоев, включая случай, когда этап определения S115 выполняется перед описанными выше этапами S105 и S110. Поэтому должно быть понятно, что ссылочные номера используются только в целях иллюстрации и не должны истолковываться как представляющие какие-либо порядковые отношения между этапами способа.
[0010] На фиг. 2 показана блок-схема способа локального генерирования и предоставления вычислительному устройству потока обоев согласно другому варианту осуществления изобретения, раскрытому в данном документе. Вариант осуществления способа, показанный на фиг. 2, отличается от варианта осуществления способа, показанного на фиг. 1, тем, что он дополнительно содержит этапы индивидуализации S95 глубокой генеративной нейросети для пользователя вычислительного устройства путем использования произвольного ввода в качестве параметра глубокой генеративной нейросети, обеспечивающего, что данная глубокая генеративная нейросеть сконфигурирована для генерирования уникальных обоев для данного пользователя вычислительного устройства, и персонализации S100 глубокой генеративной нейросети для пользователя вычислительного устройства, обеспечивающей, что обои, генерируемые данной глубокой генеративной нейросетью, персонализированы для данного пользователя. Этапы S105-S125, показанные на фиг. 2, могут быть аналогичны этапам S105-S125, показанным на фиг. 1, за исключением того, что по меньшей мере одни первые обои и по меньшей мере одни вторые обои, генерируемые и установленные в варианте по фиг. 2, индивидуализированы и персонализированы. Таким образом, каждый пользователь получает каждый раз свои собственные уникальные обои.
[0011] Персонализация S100 может быть основана, но без ограничения, на одном или нескольких из следующих параметров персонализации: одно или несколько пользовательских предпочтений, один или несколько пользовательских входов, одна или несколько настроек вычислительного устройства, текущее время суток, текущее время года, текущее местоположение GPS вычислительного устройства, контент пользовательской галереи, хранящейся в данный момент на вычислительном устройстве, содержимое истории браузера, хранящейся в данный момент на вычислительном устройстве, текущая погода и прогноз погоды, положение и цвета иконок и виджетов на экране устройства. Текущее положение и цвета иконок и виджетов на экране устройства могут определяться и использоваться в данном способе для синтеза обоев, которые не сливаются с иконками и виджетами. В этом случае текущее положение и цвета иконок и виджетов на экране устройства можно ввести в глубокую генеративную нейросеть перед генерированием/синтезом обоев в качестве соответствующих параметров, чтобы оказать соответствующее воздействие на вывод глубокой генеративной нейросети. Способ может дополнительно включать в себя (не показано) этапы анализа содержимого пользовательской галереи, логического вывода, что пользователь увлекается фотографией гор, и адаптации глубокой генеративной нейросети для генерирования большего количества изображений/видео/интерактивных обоев гор. Несмотря на то, что на фиг. 2 показано, что этапы S95 и S100 выполняются перед этапами S105 и S110, это не следует рассматривать как ограничение, поскольку при необходимости эти этапы можно выполнить в другом порядке, например, один или оба этапа S95 и S100 можно выполнять перед генерированием и установкой каждых последующих обоев, включая случай, когда один или оба этапа S95 и S100 выполняются перед описанными выше этапами S120 и S125. Таким образом, должно быть понятно, что ссылочные номера используются только в целях иллюстрации и не должны истолковываться как представляющие какие-либо порядковые отношения между этапами способа.
[0012] Глубокая генеративная нейросеть обучается с использованием состязательного процесса обучения вместе с одной или несколькими дискриминантными сетями. Обучение выполняется на высокопроизводительном компьютере или вычислительном кластере на большом наборе данных изображений и/или видео, имеющих качество обоев. Глубокая генеративная нейросеть может иметь одну или несколько из следующих переменных: векторные переменные, латентные переменные в форме двумерной матрицы или набора двумерных матриц. В одном варианте осуществления латентные переменные могут быть получены из единичных нормальных распределений (unit normal distributions). Персонализацию можно выполнять отдельной сетью кодировщика, обученной отображать параметры персонализации в параметры пространственных распределений латентных переменных, такие как среднее значение и ковариация нормального распределения Гаусса, из которых извлекаются латентные переменные для глубокой генеративной нейросети. Когда конфиденциальная информация пользователя, например, одно или несколько пользовательских предпочтений, один или несколько пользовательских вводов, одна или несколько настроек вычислительного устройства, текущее местоположение GPS вычислительного устройства, контент пользовательской галереи, хранящейся в данный момент на вычислительном устройстве, содержимое истории браузера, хранящееся в данный момент на вычислительном устройстве, обрабатывается в качестве параметра (параметров) персонализации, должно быть понятно, что такая конфиденциальная информация пользователя не компрометируется, так как вся обработка указанной конфиденциальной информации пользователя выполняется процессором вычислительного устройства пользователя, а также отдельной сетью кодировщика и глубокой генеративной нейросетью, хранящимися в устройстве хранения вычислительного устройства пользователя. Другими словами, предпочтительно, чтобы конфиденциальная информация пользователя не покидала вычислительное устройство для обработки.
[0013] В альтернативном варианте осуществления способа (не проиллюстрирован) этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этапы синтеза изображения и модификации изображения и этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки модифицированного изображения в качестве по меньшей мере одних первых обоев. В еще одном варианте осуществления (не проиллюстрирован) способа этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этапы синтеза изображения и анимации изображения и этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки анимированного изображения в качестве по меньшей мере одних первых обоев. Благодаря отсутствию ограничений на пропускную способность и по существу бесплатному получению контента можно генерировать с помощью соответствующей модели бесплатные динамические обои (видео с высоким разрешением). Кроме динамических обоев можно генерировать интерактивные обои. Обои на смартфоне могут менять внешний вид в ответ на проведение пальцем пользователя по экрану, наклон телефона или некоторые события интерфейса. Например, смахивание к другой вкладке на экране Android может внести некоторое изменение в изображение (например, переместить облака на изображении в направлении смахивания). Согласно другому альтернативному варианту осуществления предложенного способа глубокая генеративная нейросеть может быть адаптирована для генерирования не только реалистичных и правдоподобных изображений, но также гиперреалистичных изображений, которые могут иметь, например, преувеличенные признаки, такие как чрезвычайно насыщенные краски заката, преувеличенные геометрические пропорции объектов (деревьев, зданий) и т.п. Некоторые пользователи могут пожелать и предпочесть такие гиперреалистичные обои. Большинство генеративных моделей (например, обученные состязательно генеративные нейросети) могут позволить каждому пользователю установить собственный предпочтительный компромисс между реализмом и гиперреализмом. В еще одном варианте осуществления способа этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этап применения сверхвысокого разрешения к синтезированному изображению, а этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки изображения, имеющего сверхвысокое разрешение, в качестве по меньшей мере одних первых обоев. Конкретные методы модификации изображения, применения к изображению сверхвысокого или гиперразрешения известны в данной области техники.
[0014] На фиг. 3 показана блок-схема вычислительного устройства 200 согласно одному варианту осуществления изобретения, раскрытого в данном документе. Вычислительное устройство 200 содержит процессор 205 и устройство хранения 210. Процессор 205 выполнен с возможностью выполнения задач обработки и вычислений, связанных с работой вычислительного устройства и операциями согласно предложенному способу. В устройстве хранения хранится обученная глубокая генеративная нейросеть 210.1 для локального генерирования и предоставления потока обоев посредством выполнения предложенного способа при выполнении обученной глубокой генеративной нейросети 210.1 процессором 205. В устройстве хранения 210 могут также храниться исполняемые процессором инструкции, побуждающие процессор выполнять один или несколько из описанных выше этапов способа. Процессор 205 и устройство хранения 210 могут быть взаимосвязаны функционально. Процессор 205 и устройство хранения 210 могут быть также связаны с другими компонентами (не показаны) вычислительного устройства. Другой компонент может включать в себя, без ограничения, один или несколько дисплеев, сенсорный экран, клавиатуру, малую клавиатуру, блок связи, динамик, микрофон, камеру, блок Bluetooth, блок NFC (связи ближнего действия), блок RF (радиочастотный), блок GPS, средства ввода/вывода, а также необходимые электрические провода и соединения и т.д. Процессор 205 может быть реализован, но без ограничения, в виде универсального процессора, специализированной интегральной схемы (ASIC), программируемой пользователем вентильной матрицы (FPGA) или системы на кристалле (SoC). Устройство хранения 210 может включать в себя, без ограничения, RAM, ROM и так далее. Таким образом, вычислительное устройство может быть, без ограничения, вычислительным устройством пользователя, таким как смартфон, планшет, ноутбук, лэптоп, интеллектуальный телевизор, информационно-развлекательная система в автомобиле и т.д.
Другие детали реализации
[0015] Любая часть следующей информации не должна рассматриваться в качестве ограничения настоящего изобретения. Напротив, последующая информация представлена для того, чтобы специалист смог применить на практике описанные варианты и чтобы доказать достаточность данного раскрытия. Любые конкретные значения любых параметров, указанных ниже, не следует рассматривать как ограничивающие.
[0016] Архитектура модели. Архитектура модели может быть основана на StyleGAN. Модель выдает изображения с разрешением 256×256 (или 512×512) и имеет четыре набора латентных переменных:
- вектор , который кодирует цвета и общий план сцены;
- вектор , который кодирует глобальное освещение (например, время суток);
- набор квадратных матриц , , которые кодируют формы и детали статических объектов при N=7 различных разрешений между 4×4 and 256×256 (N=8 для 512×512);
- набор квадратных матриц , , которые кодируют формы и детали динамических объектов при соответствующих разрешениях.
[0017] Генератор имеет два компонента: многослойный персептрон M и сверточный генератор G. Персептрон M берет конкатенированный вектор и преобразует его в вектор стиля . Сверточный генератор G имеет N=7 (или 8) блоков. Внутри каждого блока за сверткой следуют два поэлементных сложения двух тензоров, полученных из and с помощью обучаемого поканального масштабирования. И наконец, применяется преобразование AdaIN с использованием поканальных масштабов и смещений, полученных из W с помощью обучаемого линейного преобразования. В каждом блоке эта последовательность шагов повторяется дважды, а затем следует повышающая дискретизация и сверточные слои.
[0018] Далее будет упоминаться следующий набор входных латентных переменных:
}
в качестве исходных вводов (или исходных латентных переменных). Как и в StyleGAN, сверточный генератор может использовать отдельные векторы W при каждом разрешении (смешивание стилей). Набор всех векторов стилей будет обозначаться И наконец, набор всех пространственных случайных вводов генератора будет обозначаться как
.
[0019] Обучение модели. Модель обучается на двух источниках данных: наборе данных статических изображений пейзажей и наборе данных таймлапсовых видео пейзажей . Большой набор данных статических изображений собрать относительно легко, кроме того, авторы приложили максимальные усилия для сбора нескольких сотен видео, которые не охватывают все разнообразие пейзажей. Таким образом, оба источника данных можно использовать для построения модели с улучшенными характеристиками. Для этого предлагаемую генеративную модель (глубокую генеративную нейросеть) обучают состязательным методом с двумя разными дискриминаторами.
[0020] Статический дискриминатор имеет такие же выборы архитектуры и дизайна как и в StyleGAN. Он рассматривает изображения из как реальные, а фиктивные экземпляры генерируются моделью. Парный дискриминатор рассматривает пары изображений. Он дублирует архитектуру , за исключением первого сверточного блока, который применяется отдельно к каждому кадру. Реальная пара изображений получается путем выборки видео из , и последующей выборки двух произвольных кадров (произвольно удаленных друг от друга) из него. Фиктивная пара получается путем выборки общих статичных латентных переменных и , а затем индивидуальных динамичных латентных переменных , , и , . Затем два изображения получаются как и . Все экземпляры берутся из единичных нормальных распределений.
[0021] Модель обучается в рамках метода GAN с ненасыщающими потерями с регуляризацией R1. Во время каждого обновления генератора производится выборка пакета фиктивных изображений, к которым применяется статический дискриминатор, или выборка пакета пар изображений, к которому применяется парный дискриминатор. Пропорции статического дискриминатора и парного дискриминатора выбираются от 0,5/0,5 до 0,9/0,1 соответственно на каждой фазе перехода разрешения, а затем сохраняются фиксированными на уровне 0,1. Это помогает генератору научиться заблаговременно разделять статические и динамические латентные переменные для каждого разрешения и предотвращает переобучение парного генератора на относительно небольшом наборе данных видео, используемом для обучения.
[0022] Во время обучения целью парного дискриминатора является фокусировка на несоответствиях в каждой паре, а целью статического дискриминатора – фокусировка на визуальном качестве. Кроме того, поскольку парный дискриминатор видит только реальные кадры, выбранные из ограниченного количества видео, он может быть склонен к переобучению на этом ограниченном наборе и фактически перестать вносить вклад в процесс обучения (в то время как статический дискриминатор, наблюдающий более разнообразный набор сцен, продолжает улучшать разнообразие модели). Оказалось, что обе проблемы (сосредоточение на качестве изображения, а не на парной согласованности, переобучение на ограниченном разнообразии видео) можно решить простым методом. Он заключается в том, что фиктивный набор кадров дополняется парами фрагментов изображений, взятых из одного видеокадра, но из разных мест. Поскольку эти фрагменты имеют такое же визуальное качество, как изображения в реальных кадрах, и поскольку они получены из тех же видео, что и изображения в реальных парах, парный дискриминатор фактически перестает обращать внимание на качество изображения, не может просто переобучиться на статистике сцен в наборе данных видео, и должен сфокусироваться на поиске парных несоответствий в фиктивных парах. Этот метод выборки можно использовать для значительного улучшения качества модели.
[0023] Выборка видео из модели. Модель не пытается обучиться полной временной динамике видео, а фокусируется на парной согласованности кадров, которые генерируются при повторной выборке динамических латентных переменных. В частности, парный дискриминатор в модели не производит выборку реальных кадров последовательно. Процедура выборки для фиктивных пар также не пытается генерировать смежные кадры. Одной из причин, почему описанная фаза обучения не пытается обучиться непрерывности, заключается в том, что обучающий набор данных содержит видео с широко варьирующимися временными коэффициентами, что делает фактически бессмысленным понятие временной близости для пары кадров.
[0024] По этой причине предложенный процесс генерации не зависит от модели движения. Генератор вынужден генерировать правдоподобные кадры независимо от изменений и . В ходе экспериментов было обнаружено, что для генерирования привлекательных видео достаточно описанной ниже простой модели движения. В частности, для выборки видео можно выбрать один статический вектор из единичного нормального распределения, а затем интерполировать динамический латентный вектор между двумя единичными нормально распределенными выборками и . Для пространственных отображений также можно выбрать и из единичного нормального распределения, а затем непрерывно деформировать тензор, используя преобразование гомографии, параметризованное смещениями двух верхних углов и двух точек на горизонте. Направление гомографии выбирается произвольно, скорость выбирается в соответствии со средней скоростью облаков в наборе обучающих данных. Гомография транспонируется по вертикали для положений ниже горизонта, чтобы имитировать процесс отражения. Для получения можно сделать композицию из идентичных преобразований, а затем применить ее к . По мере интерполяции/деформации латентных переменных они проходят через обученную модель для получения плавных видео. Следует отметить, что описываемая модель не требует пользовательского ввода для конкретного изображения.
[0025] Анимация реальных изображений пейзажа с помощью модели. Стадия использования. Чтобы анимировать определенное изображение пейзажа , выводится набор латентных переменных, которые генерируют такое изображение в генераторе. Отыскиваются расширенные латентные параметры и , так чтобы После этого можно применить ту же процедуру, что и выше, для анимации данного изображения.
[0026] Латентное пространство генератора является высокоизбыточным, и для получения хорошей анимации необходимо гарантировать, что латентные переменные происходят примерно из того же распределения, что и во время обучения модели (что наиболее важно, должна принадлежать выходному многообразию ). Без такого предварительного распределения латентные переменные, которые генерируют хорошую реконструкцию, могли бы все же привести к неправдоподобной анимации (или ее отсутствию). Следовательно, вывод можно реализовать, используя следующую трехэтапную процедуру:
1. Этап 1: прогнозируется набор векторов стиля используя сеть кодировщика прямого распространения. Кодировщик имеет архитектуру ResNet-152 и обучен на 200000 синтетических изображениях со средней абсолютной потерей на ошибки. предсказывается двухслойным персептроном с ReLU на основе конкатенации признаков с нескольких слоев ResNet, агрегированных глобальным усредняющим пулингом.
2. Этап 2: начиная с ' и нулевого , все латентные параметры оптимизируются для уменьшения ошибки реконструкции. Кроме того, назначаются штрафы на отклонение от прогнозируемого (с коэффициентом 0,01) и отклонение S от нуля (путем снижения скорости обучения). Оптимизация выполняется в процессе вплоть до 500 шагов с ADAM и большой начальной скоростью обучения (0,1), которая уменьшается вдвое каждый раз, когда потери не улучшаются в течение 20 итераций. В одном варианте метода, который оценивался отдельно, используется двоичная маска сегментации, полученная с помощью предварительно обученной сети сегментации ADE20k. Эта маска определяет динамические (небо + вода) и остальные (статические) части сцены. В данном варианте (соответственно, ) сохраняются нулевыми для динамических (соответственно, статических) частей изображения.
3. Этап 3: замораживаются латентные параметры, и производится тонкая настройка весов для дальнейшего уменьшения ошибки на реконструкцию. Этот этап необходим, так как даже после оптимизации остается расхождение между реконструкцией и введенным изображением. Во время тонкой настройки минимизируется комбинация попиксельной средней абсолютной ошибки и потери восприятия, причем последняя имеет гораздо больший вес (10х). Выполняется 500 шагов с ADAM и =0,001.
[0027] Манипулирование освещением. Во время обучения модели используется для отображения в Осуществляется повторная выборка , чтобы учесть изменения освещения, погоды и т.п. и чтобы описывала только статические атрибуты (землю, строения, форму горизонта и т.д.). Для изменения освещения в реальном изображении необходимо изменить , а затем использовать MLP для получения новых стилей . Однако описанная процедура вывода выдает только и было обнаружено, что очень сложно инвертировать и получить
Для решения этой проблемы отдельную нейросеть обучают аппроксимировать локальные динамические параметры . Пусть и тогда оптимизируется следующим образом: , где - коэффициент интерполяции между и . Таким образом, с=0 соответствует , так что ; c=1 соответствует , так что .
[0028] Это реализуется комбинацией L1 потери и относительной потери направления . Общий критерий оптимизации: . обучается с ADAM до схождения. Во время тестирования сеть позволяет сделать выборку случайной цели и обновить в соответствии с ней путем увеличения коэффициента интерполяции по мере продвижения анимации.
[0029] Суперразрешение (SR). Поскольку модели обучаются при среднем разрешении (например, 256×256), можно получить мелкие детали из данного изображения, подлежащего анимации, с помощью отдельной процедуры суперразрешения. Основная идея метода суперразрешения состоит в том, чтобы как можно больше позаимствовать из исходного изображения с высоким разрешением (которое подвергается субдискретизации для анимации с помощью ). Для этого анимации придается суперразрешение, и она смешивается с исходным изображением с помощью стандартного метода получения суперразрешения изображения. Можно использовать ESRGANx4, обученный на специальном наборе данных, который генерируется следующим образом. Чтобы получить пару (высокое разрешение, низкое разрешение), берется кадр из набора данных видео в качестве изображения с высоким разрешением, затем кадр подвергается субдискретизации, выполняются первые два этапа логического вывода и получается изображение с низким разрешением (неидеальное). Таким образом, сеть обучается на более сложной задаче, чем суперразрешение.
[0030] После получения видео с суперразрешением динамические части (небо и вода) переносятся из него в окончательный результат. Статические части получаются путем запуска направляемого фильтра на кадрах с суперразрешением при использовании введенного изображения высокого разрешения в качестве ориентира. Такая процедура эффективно передает детали с высоким разрешением из ввода, сохраняя при этом изменение освещения, вызванное манипуляцией освещением.
[0031] По меньшей мере один из множества модулей, узлов, компонентов, этапов, подэтапов можно реализовать в модели искусственного интеллекта (ИИ)). Функцию, связанную с ИИ, можно выполнять с использованием энергонезависимой памяти, энергозависимой памяти и процессора. Процессор может включать в себя один или несколько процессоров. При этом один или несколько процессоров могут быть процессором общего назначения, например, центральным процессором (ЦП), процессором приложений (ПП) или т.п., блоком обработки только графики, таким как графический процессор (ГП), процессор визуальной информации (ПВИ) и/или специализированный процессор ИИ, такой как нейронный процессор (НП). Один или несколько процессоров управляют обработкой входных данных в соответствии с заранее определенным рабочим правилом или моделью искусственного интеллекта (ИИ), хранящейся в энергонезависимой памяти и энергозависимой памяти. Заранее определенное рабочее правило или модель искусственного интеллекта предоставляется посредством обучения. В данном контексте предоставление посредством обучения означает, что предварительно определенное рабочее правило или модель ИИ с желаемой характеристикой генерируется посредством применения алгоритма обучения к множеству обучающих данных. Обучение может выполняться на самом устройстве, в котором реализуется ИИ согласно варианту осуществления, и/или может быть реализовано через отдельный сервер/систему.
[0032] Модель ИИ может состоять из множества слоев нейронной сети. Каждый слой имеет множество значений весов и выполняет работу слоя путем вычисления предыдущего слоя и работы с множеством весов. Примеры нейронных сетей включают в себя, без ограничения перечисленным, сверточную нейросеть (CNN), глубокую нейросеть (DNN), рекуррентную нейросеть (RNN), ограниченную машину Больцмана (RBM), глубокую сеть доверия (DBN), двунаправленную рекуррентную глубокую нейросеть (BRDNN), генеративные состязательные сети (GAN) и глубокие Q-сети. Алгоритмом обучения является метод обучения заранее определенного целевого устройства (например, робота) с использованием множества обучающих данных для того, чтобы побудить, разрешать или контролировать целевое устройство для выполнения определения или прогнозирования. Примеры алгоритмов обучения включают в себя, без ограничения, обучение с учителем, обучение без учителя, обучение c частичным привлечением учителя или обучение с подкреплением.
[0033] Следует четко понимать, что нет необходимости использовать все технические эффекты, упомянутые в данном документе, во всех и каждом варианте осуществления настоящего способа. Например, варианты осуществления могут быть реализованы без использования пользователем некоторых из этих технических эффектов, а другие варианты могут быть реализованы с использованием других технических эффектов или вообще без них.
[0034] Модификации и усовершенствования описанных выше реализаций предложенного способа могут быть очевидными для специалистов в данной области техники. Приведенное выше описание предназначено скорее для примера, чем для ограничения. Таким образом, объем настоящего изобретения ограничивается только объемом прилагаемой формулы изобретения.
[0035] Хотя представленные выше варианты осуществления были описаны и показаны со ссылкой на конкретные этапы, выполняемые в определенном порядке, следует понимать, что эти этапы можно объединить, разделить на части или изменить порядок их выполнения, не выходя за рамки объема настоящего изобретения. Соответственно, порядок и группировка этапов не являются ограничением предложенного способа.
название | год | авторы | номер документа |
---|---|---|---|
Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон | 2019 |
|
RU2720361C1 |
СПОСОБ И СЕРВЕР ДЛЯ ГЕНЕРИРОВАНИЯ ВОЛНОВОЙ ФОРМЫ | 2021 |
|
RU2803488C2 |
НЕЙРОСЕТЕВОЙ РЕНДЕРИНГ ТРЕХМЕРНЫХ ЧЕЛОВЕЧЕСКИХ АВАТАРОВ | 2021 |
|
RU2775825C1 |
СПОСОБ И СИСТЕМА ОБУЧЕНИЯ СИСТЕМЫ ЧАТ-БОТА | 2023 |
|
RU2820264C1 |
СПОСОБ И УСТРОЙСТВО ГЕНЕРИРОВАНИЯ ВИДЕОКЛИПА ПО ТЕКСТОВОМУ ОПИСАНИЮ И ПОСЛЕДОВАТЕЛЬНОСТИ КЛЮЧЕВЫХ ТОЧЕК, СИНТЕЗИРУЕМОЙ ДИФФУЗИОННОЙ МОДЕЛЬЮ | 2024 |
|
RU2823216C1 |
МОДЕЛИРОВАНИЕ ЧЕЛОВЕЧЕСКОЙ ОДЕЖДЫ НА ОСНОВЕ МНОЖЕСТВА ТОЧЕК | 2021 |
|
RU2776825C1 |
СПОСОБ ВИЗУАЛИЗАЦИИ 3D ПОРТРЕТА ЧЕЛОВЕКА С ИЗМЕНЕННЫМ ОСВЕЩЕНИЕМ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ НЕГО | 2021 |
|
RU2757563C1 |
СЕГМЕНТАЦИЯ И ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ ПАТТЕРНОВ ШЛЕЙФОВ НИЗКОГО УРОВНЯ | 2020 |
|
RU2783420C1 |
Способ предоставления рекомендаций на платформе для онлайн-торговли | 2021 |
|
RU2824340C2 |
СПОСОБ ГЕНЕРАЦИИ АНИМАЦИОННОЙ МОДЕЛИ ГОЛОВЫ ПО РЕЧЕВОМУ СИГНАЛУ И ЭЛЕКТРОННОЕ ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО, РЕАЛИЗУЮЩЕЕ ЕГО | 2019 |
|
RU2721180C1 |
Изобретение относится к способу и устройству для генерирования обоев локально на вычислительном устройстве. Технический результат заключается в генерировании обоев с учетом текущих отображаемых данных устройства. В способе генерируют на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство, и устанавливают на вычислительном устройстве по меньшей мере одни первые обои в качестве обоев данного вычислительного устройства, причем способ дополнительно содержит этап, на котором определяют текущие положения и цвета иконок и виджетов на экране устройства и используют определенные текущие положения и цвета иконок и виджетов в качестве дополнительных параметров глубокой генеративной нейросети при генерировании обоев. 2 н. и 11 з.п. ф-лы, 3 ил.
1. Способ генерирования обоев локально на вычислительном устройстве и отображения этих обоев на этом вычислительном устройстве, заключающийся в том, что:
генерируют (S105) на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство, и
устанавливают (S110) на вычислительном устройстве по меньшей мере одни первые обои в качестве обоев данного вычислительного устройства,
причем способ дополнительно содержит этап, на котором определяют текущие положения и цвета иконок и виджетов на экране устройства и используют определенные текущие положения и цвета иконок и виджетов в качестве дополнительных параметров глубокой генеративной нейросети при генерировании обоев.
2. Способ по п. 1, дополнительно содержащий следующие этапы, выполняемые при удовлетворении условия (S115):
генерируют (S120) на вычислительном устройстве по меньшей мере одни вторые обои потока обоев, используя глубокую генеративную нейросеть, причем по меньшей мере одни вторые обои отличаются от по меньшей мере одних первых обоев;
устанавливают (S125) на вычислительном устройстве по меньшей мере одни вторые обои в качестве обоев данного вычислительного устройства.
3. Способ по п. 2, в котором упомянутое условие включает в себя одно или несколько из следующих условий:
на вычислительном устройстве получен пользовательский ввод, при этом пользовательский ввод представляет то, выражает ли пользователь вычислительного устройства неодобрение обоям, установленным в данный момент в качестве обоев вычислительного устройства, или нет;
истек преднастроенный период времени;
изменилось местоположение GPS вычислительного устройства, причем местоположение GPS вычислительного устройства регистрируется блоком GPS, содержащимся в данном вычислительном устройстве.
4. Способ по п. 1, дополнительно содержащий один или оба из следующих этапов:
индивидуализируют (S95) глубокую генеративную нейросеть для пользователя вычислительного устройства, используя произвольный ввод в качестве параметра глубокой генеративной нейросети, обеспечивая тем самым, что данная глубокая генеративная нейросеть настроена на генерирование уникальных обоев для данного пользователя вычислительного устройства;
персонализируют (S100) глубокую генеративную нейросеть для пользователя вычислительного устройства, обеспечивая тем самым, что обои, генерируемые глубокой генеративной нейросетью, персонализированы для данного пользователя, причем персонализация основана на одном или нескольких из следующих параметров персонализации: одном или нескольких предпочтениях пользователя, одном или нескольких вводах пользователя, одной или нескольких настройках вычислительного устройства, текущем времени дня, текущем времени года, текущем местоположении GPS вычислительного устройства, контенте пользовательской галереи, хранящейся в данный момент на вычислительном устройстве, содержимом истории браузера, хранящемся в данный момент на вычислительном устройстве, текущей погоде и прогнозе погоды, расположении и цветах иконок и виджетов на экране устройства.
5. Способ по п. 1 или 2, в котором обои, генерируемые глубокой генеративной нейросетью, являются статическими, динамическими или интерактивными.
6. Способ по п. 1, в котором глубокая генеративная нейросеть имеет одну или несколько из следующих переменных: векторные переменные, латентные переменные, имеющие форму двумерной матрицы или набора двумерных матриц.
7. Способ по п. 6, в котором латентные переменные извлекаются из единичных нормальных распределений.
8. Способ по любому из пп. 4 или 6, в котором персонализацию выполняет отдельная сеть кодировщик, обученная отображать параметры персонализации в параметрах пространственных распределений латентных переменных, таких как среднее значение и ковариация нормального распределения Гаусса, из которых извлечены латентные переменные.
9. Способ по п. 1 или 2, в котором этап генерирования по меньшей мере одних обоев дополнительно включает в себя этапы синтеза изображения и модификации изображения, и
этап установки по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки модифицированного изображения в качестве по меньшей мере одних первых обоев.
10. Способ по п. 1 или 2, в котором этап генерирования по меньшей мере одних обоев дополнительно содержит этапы синтеза изображения и анимации изображения, и
этап установки по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки анимированного изображения в качестве по меньшей мере одних первых обоев.
11. Способ по п. 6, в котором глубокую генеративную нейросеть обучают, используя процесс состязательного обучения вместе с одной или несколькими дискриминантными сетями.
12. Вычислительное устройство (200), содержащее процессор (205) и устройство хранения (210), хранящее обученную глубокую генеративную нейросеть (210.1) для генерирования обоев локально на вычислительном устройстве, причем процессор выполнен с возможностью осуществления способа по любому из пп. 1-11.
13. Вычислительное устройство (200) по п. 12, отличающееся тем, что вычислительное устройство (200) представляет собой пользовательское вычислительное устройство, являющееся одним из следующих устройств: смартфон, планшет, лэптоп, ноутбук, интеллектуальный телевизор.
DE 102019102279 A1, 14.08.2019 | |||
CN 106354385 B, 13.03.2020 | |||
JP 2004357176 A, 16.12.2004 | |||
CN 107817999 A, 20.03.2018 | |||
US 20120023425 A1, 26.01.2012 | |||
US 20150205498 A1, 23.07.2015 | |||
ОПТИМИЗАЦИЯ ЗАДЕРЖКИ ПРИ ПЕРЕДАЧЕ ОБСЛУЖИВАНИЯ | 2010 |
|
RU2696338C2 |
US 6202083 B1, 13.03.2001. |
Авторы
Даты
2022-03-24—Публикация
2020-10-07—Подача