ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области вычислительной техники, в частности, к способам генераций изображений.
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известно решение, выбранное в качестве наиболее близкого аналога, US 2012231425 (А1), опубл. 13.09.2012. Решение характеризует способ предоставления рекомендаций по проектированию ландшафтного дизайна, включающий: получение захваченного изображения ландшафтной территории для ландшафтного дизайна; создание каталога данных, относящихся к ландшафтной области, причем каталог содержит информацию о местоположении в ландшафтной области, причем информация основана на природных характеристиках местоположения в ландшафтной области; получение информации о продукте с мобильного устройства, при этом продукты должны быть встроены в ландшафтную зону; сопоставление информации о продукте с каталогом данных, относящихся к местам в ландшафтной зоне, посредством использования устройства обработки, при этом сопоставление продукта с местоположением в ландшафтной зоне основано, по меньшей мере частично, на природных характеристиках местоположения на ландшафтной территории и природных характеристик продукции; и представление продуктов и показателей, связанных с продуктами, в видеопотоке в реальном времени на мобильном устройстве, в рекомендуемом месте в ландшафтной зоне, рекомендуемое местоположение основано, по крайней мере частично, на сопоставлении информации о продукте с каталогом данных, касающихся местоположения в пределах ландшафтной территории.
Предлагаемое техническое решение направлено на устранение недостатков современного уровня техники и отличается от известных ранее тем, что предложенное решение качественно и ресурсоемко осуществляет генерирование изображений ландшафтного дизайна на основе вектора пользовательских предпочтений.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической задачей, на решение которой направлено заявленное решение, является создание способа генераций изображений.
Технический результат заключается в реализации назначения заявленного способа.
Заявленный технический результат достигается за счет осуществления способа генераций изображений, включающего этапы, на которых: осуществляется первоначальное обучение нейронной сети и текстовая разметка элементов на изображении, за счет загрузки датасета из нескольких изображений одного элемента, при этом, осуществляется построение связей с онтологией; изображения поступают на вход нейронной сети CLIP (Contrastive Language-Image Pre-training) для разметки, где осуществляется параллельный анализ изображения и текстового описания, за счет чего создается вектор признаков, содержащий текстовое описание изображения; осуществляется анализ загруженных изображений за счет сегментирования изображения в несколько итераций, путем выделения крупных объектов, и при необходимости выделение более маленьких сегментов изображения; за счет предыдущего этапа формируется маска с сегментированным изображением, где пиксели одного сегмента помечены одинаковой меткой и образуют связную область; далее, посредством нейронной сети, осуществляется классификация выделенных объектов; параллельно с определением объектов осуществляется тэгирование изображения; на финальном этапе осуществляется генерация изображений на основе существующей библиотеки изображений, причем каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции, при этом процесс генерации изображения состоит из следующих шагов: составляется фактологическое описание картины; формируется координатная решетка, к узлам которой осуществляется привязка объектов; происходит генерация пула вариантов, где исходными данными является набор объектов, которые необходимо разместить на решетке, причем генерируемый вариант размещения проверяется на соответствие посредством базы правил.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемым чертежом, который представлен для пояснения сути изобретения и никоим образом не ограничивает область изобретения. К заявке прилагается следующий чертеж:
Фиг. 1 иллюстрирует процессы в блоке первоначального обучения.
Фиг. 2 иллюстрирует блок анализа изображений.
Фиг.3 иллюстрирует блок демонстрации и работы с текстовыми данными.
Фиг. 4 иллюстрирует блок генерации.
Фиг. 5 иллюстрирует функциональную модель интеллектуальной системы поддержки принятия решений с генерацией изображений на основе анализа пользовательских предпочтений.
Фиг. 6 иллюстрирует модель потоков данных между основными элементами системы.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее техническое решение относится к сфере генерации фотореалистичных изображений с помощью алгоритмов машинного обучения в сфере дизайна, в частности, в сфере ландшафтного дизайна и благоустройства территорий. Решение может быть использовано как самостоятельно, так и с использованием аппаратного комплекса с камерой, что обеспечивает быстрое принятие решения о формировании ландшафтных объектов.
Сервисы по генерации изображений, работающие по принципу "text-to-picture", такие как Midjourney, Dall-E, могут создавать изображения ландшафтного дизайна, но при этом не учитываются предпочтения пользователя, его предыдущий выбор, параметры зоны, в которой необходимо разместить объекта, а также не учитывается какие именно объекты должны быть размещены. Также необходимо отметить, что предлагаемый в решении подход совмещения глубокого анализа предпочтений пользователя, основанный на эмоциональном и подсознательном выборе, с генерацией изображений, основанных на этом анализе применен впервые.
На данный момент не существует решений, генерирующих изображения ландшафтного дизайна на основе вектора пользовательских предпочтений, получаемого из анализа графической информации, вводимых фактологических данных и неструктурированного текста.
Известно несколько подходов к генерации изображений.
Генеративно-состязательная сеть (Generative adversarial network, GAN).
«GAN» состоит из двух сетей:
1. Генератор, способный генерировать изображения по входному вектору шума;
2. Дискриминатор, который различает настоящую картину и "поддельную". Модели генерации, использующие «GAN», имеют несколько существенных недостатков:
- Высокие требования к вычислительным мощностям;
- Низкая скорость генерации;
- Проблема «переобучения» - возможна ситуация, когда генератор будет выдавать практически одинаковые изображения на дискриминатор.
При этом более предпочтительным оказалось использование метода обратной диффузии. Данный метод используют: DALLE 2, Midjourney, Imagen и др.
Диффузионные модели используются для создания данных, подобных тем данным, на которых они обучаются.
Обучение диффузионной модели:
1. Используется изображение реального или нарисованного объекта;
2. Добавляется гауссовский шум в необходимой мере для того, чтобы итоговое изображение имело необходимое количество сходных черт с исходным;
3. Происходит обучение модели шумоподавлению для создания результата. Была протестирована сеть Stable Diffusion, созданая StabilityAl (https://stablediffusionweb.com). Stable Diffusion основывается на работе по синтезу изображений с высоким разрешением с использованием моделей скрытой диффузии Ромбаха и др.
Полная архитектура стабильной диффузии состоит из трех моделей:
1. Кодировщик текста, который принимает текстовое приглашение и обеспечивает преобразование текста в векторы признаков;
2. U-Net - диффузионная модель, отвечающая за генерацию изображений. Архитектура показана на Рисунке 19.
3. Вариационный автоэнкодер, состоящий из модели кодера и декодера.
Кодировщик используется для уменьшения размеров изображения, с которыми и работает диффузионная модель UNet. Затем декодер отвечает за восстановление изображения, сгенерированного диффузионной моделью, до его первоначального размера.
Из-за итеративного характера процесса распространения процесс обучения и генерации более стабилен, чем в GAN. В диффузионных моделях переходы от чистого шума к изображению делаются в несколько шагов, а в GAN за один шаг, что является одним из источников нестабильного обучения GAN.
Предлагаемое техническое решение позволяет в несколько раз сократить анализ предпочтений, при этом дополнительно на выходе формируются готовые фотореалистичные изображения, а также дополнительная документация, необходимая для проектов ландшафтного дизайна.
Важной особенностью заявленного технического решения является возможность использования, как в виде самостоятельной системы, так и совместно с камерами. В последнем случае, возможна генерация непосредственно сразу после фотографирования земельного участка.
Преимуществом заявленного технического решения является цифровизация процессов по определению предпочтений пользователя для создания уникальных дизайн-проектов среды, согласно предпочтениям и потребностям пользователя в таких сложных областях, как различные виды дизайна (интерьерный, ландшафтный, дизайн вещей, архитектурный), где значительную роль играет выбор на основе подсознательных решений и неструктурированной информации. Для проработки моделей и дальнейшего апробирования было выбрано направление ландшафтного дизайна и благоустройства, которое является одним из самых сложных с точки зрения создания полноценных проектов. Разработанное решение может быть применено к различным областям дизайна вещей и среды.
Стандартным подходом к созданию ландшафтного дизайна, при работе специалиста - дизайнера, является демонстрация клиенту изображений, с различными готовыми проектами, фотографии садов, клумб и так далее, а также проведение опросов: какие растения нравятся какие элементы дизайна должны быть, какое расположение их должно быть на участке и так далее. Полученную информацию дизайнер анализирует, и на основе визуальных предпочтений пользователя, а также на основе профессиональных знаний относительно норм и правил, специалист создает проект, который должен быть уникальным для каждого пользователя.
Однако, в настоящем изобретении были использованы методы быстрой и автоматической оценки пользовательских предпочтений с использованием различных информационных технологий, а также предложена оригинальная модель оценки на основе анализа демонстрируемых изображений.
Рассмотрим более подробно основные блоки, с помощью которых реализуется заявленный способ.
1. Определение или оценка пользовательских предпочтений;
2. Генерация изображений на основе определенных предпочтений пользователя.
Модель определения пользовательских предпочтений состоит из двух взаимодополняющих контуров анализа:
1. Анализ стилистических предпочтений (общий стиль ЛД, стили отдельных элементов ландшафтного дизайна (ЛД));
2. Анализ предпочтений типов объектов.
Основой анализа является:
- Использование размеченных фотографий различных стилей ЛД;
- Использование библиотек объектов;
- Использование специальной онтологии;
- Обученная сверточная нейронная сеть.
Размеченные фотографии стилей и отдельных объектов позволяют системе научиться «понимать» какие именно объекты вызывают интерес пользователя.
Работа модели строится на следующих блоках:
1. Блок первоначального обучения;
2. Блок анализа изображений ЛД;
3. Блок демонстрации и работы с текстовыми данными.
Рассмотрим их подробнее.
Блок первоначального обучения.
В данном блоке проходит первоначальное обучение нейронной сети и текстовая разметка (тэгирование) элементов ЛД. Под элементами ЛД понимаются - любые объекты классов растения, МАФ и так далее. При этом элемент может быть составным, например, объект типа «клумба» должен распознаваться на комплексных изображениях ЛД, при этом, он должен отдельно быть распознан по составляющим его частям.
Процесс распознавания элементов.
Осуществляется загрузка датасета из нескольких фотографий одного элемента (не менее 100, используются подготовленные датасеты из iNaturalist или ImageNet). При этом, должна быть простроена связь с онтологией - т.е. при загрузке фиксируется к какому классу относятся данные экземпляры. Для данной модели была разработана собственная онтология, которая описывает все элементы и объекты ландшафтного дизайна, со всеми возможными свойствами и атрибутами. Для разных типов объектов сформированы перечни возможных атрибутов (признаков). Объекты и признаки являются частями онтологии.
Изображения поступают на вход нейронной сети.
Для разметки используется нейронная сеть под названием CLIP (Contrastive Language-Image Pre-training), которая позволяет значительно ускорить процесс предобработки графических объектов и их классификацию (тэгирование).Основной принцип работы - параллельный анализ как изображения, так и текстового описания, что позволяет создать вектор признаков, содержащее текстовое описание изображения (цветок, соцветие белого цвета, стебель гладкий, листья темно-зеленые, стреловидные). Фактически происходит автоматизация классификации изображений и при этом изображение тэгируется. В нашем случае, полученные тэги сверяются с онтологией и тем самым конкретная фотография привязывается как экземпляр класса.
Блок анализа изображений ЛД.
В данном блоке анализируются сложные комплексные изображения с использованием нейронной сети, обученной ранее на библиотеке элементов.
Алгоритм действий.
Автоматически загружается фотография ЛД.
Далее изображение сегментируется, при этом в несколько итераций - т.е. сначала выделяются крупные объекты, например, дома, МАФы, объекты ЛД, и только потом, сегментируется все на более мелкие сегменты. В результате работы алгоритма мы получаем маску с сегментированным изображением, где пиксели одного сегмента помечены одинаковой меткой и образуют связную область. Алгоритм отлично себя показывает для решения задачи первичного выделения границ интересующих объектов на изображении (Watershed boxing). Варьируя начальные настройки алгоритма, среди которых порог чувствительности, а также ограничения на размер объектов, можно получить релевантную подборку объектов для дальнейшей обработки.
Далее, с использованием нейронной сети, из блока первоначального обучения осуществляется классификация выделенных объектов. Если объект не распознан автоматически - то он должен быть выделен и направлен аналитику для ручной классификации и сохранения в БД элементов.
Параллельно с определением объектов осуществляется тэгирование изображение - т.е., автоматическое добавление служебной информации к изображению стиля.
Таким образом, на входе блока изображение с ЛД, а на выходе вектор признаков изображения, включающий в себя:
Стиль ЛД (определен по итогам обучения);
Перечень найденных объектов, с иерархией включения (т.е. если это цветок, то он входит в клумбу и так далее);
Свойства объектов.
Описание модели генерации изображений.
Предложена следующая модель генерации, основные процессы которой проиллюстрированы на фигуре 4.
Используется последовательный подход работы с генерацией:
1. Упрощенная (быстрая) генерация;
2. Полнофункциональная генерация. Быстрая генерация.
1. При достаточном наборе данных задаются параметры генерации:
- Стиль;
- Типы объектов;
- Количество объектов;
- Свойства объектов (класс, атрибуты);
- Расположения объектов.
2. Далее, с помощью нейронной сети, создается план расположения объектов с учетом заданных параметров.
Генерация изображений осуществляется на основе существующей библиотеки изображений. Каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции. Процесс построения изображения состоит из следующих шагов:
1. Составляется фактологическое описание картины, которое включает в себя:
- стиль композиции;
- набор обязательных объектов (и их количество);
- набор предпочтений, влияющих на правила размещения объектов.
2. Формируется координатная решетка, к узлам которой будет осуществляться привязка объектов. Выбор размера решетки влияет, с одной стороны, на быстродействие алгоритма, с другой - на визуальные эффекты
3. Происходит генерация пула вариантов. Исходными данными является набор объектов, которые необходимо разместить на решетке. Генерируемый вариант размещения проверяется на соответствие базе правил, выбранных из базы данных применительно к композиции. Правила могут быть выражены как в декларативном, так и в нечетком виде, допускающем размытое толкование.
4. Для ускорения процесса подбора вариантов, удовлетворяющих правилам, используется реализация генетического алгоритма.
При генерации работают правила типа С, в частности С21 ('Хвойные деревья одной породы рядом нежелательны'), заданное с 80% точностью. Заданные для координатной решетки параметры минимального и максимального расстояния между цветами и деревьями также определяют характер размещения объектов
Для более точного удовлетворения запроса пользователя, при генерации возможно использование фона в виде фотографий, загруженных ранее.
После того, как пользователь останавливает демонстрацию, для отобранных им изображений, созданных с использованием простой генерации, включается механизм полнофункциональной генерации.
Архитектура системы.
1. Функциональная модель системы.
Рассмотренные модели по определению пользовательских предпочтений и генерации изображений представляют из себя систему взаимосвязанных функциональных компонентов. Для выстраивания концептуального видения работы системы, организации видения информационных потоков сформулирована функциональная модель работы системы по аналогии с нотацией IDEF0.
Управляющее воздействие на все функциональные модули оказывают элементы онтологии и правил ландшафтного дизайна, а также размеченные изображения с вектором присвоенных признаков.
Модель потоков данных системы состоит из следующих элементов:
- сущностей проектируемой системы, включая технические функциональные модули, а также модули, взаимодействующие с внешней средой;
- хранилищ и накопителей данных (баз данных);
- потоков данных между сущностями;
- процессов;
- субъектов, задействованных в процессах;
- внешних объектов (устройств).
Для генерации изображений ландшафтного дизайна в соответствии с пользовательскими предпочтениями обучена специальная диффузионная модель с условием. Для обучения модели из открытых источников были собраны 102 000 изображений ландшафтного дизайна. Данные изображения были приведены к единому размеру (512x512 рх) и проанализированы Детектором с целью извлечения вектора признаков. На входы дииффузионной модели в процессе ее обучения подавалась одновременно информация о признаках изображений и сами изображения. Для генерации изображений ландшафтного дизайна выбрана технология стабильной диффузии (библиотека diffusers). Для ускорения процесса генерации используется подготовка моделью семейства Unet скрытого слоя, из которого затем автоэнкодер восстанавливает целевое изображение. Т.к. система производит генерацию по условию, выбрана модель Unet2dConditionModel.
Тренировка диффузионной модели специально для генерации изображений ландшафтного дизайна позволило сократить время генерации изображений с 3.5 с до 1 с на GPU Nvidia Т4, а также повысить разнообразие объектов и сцен на сгенерированных изображениях.
Решение позволяет детектировать растения на сгенерированном изображении и подобрать похожие изображения в базе данных сервиса с учетом зимостойкости, освещенности и бюджета для последующего их заказа в питомниках.
Алгоритм подбора растений.
1. Получая запрос на подбор из основного операционного блока, осуществляется отправка http-запроса в сервис детекции.
2. Сервис детекции, получив указанный запрос, анализирует сгенерированное изображение и возвращает бинарный поток сериализованных данных: метка класса обнаруженного растения, координаты ограничивающей рамки, а также само графическое содержимое.
3. Сервис подбора растений, получив данные от сервиса детекции, выделяет векторы признаков изображений (эмбеддинги) растений и сравнивает их с векторами растений из базы данных сервиса, вычисляя коссинусное расстояние между ними. В целях извлечения эмбеддингов изображений предварительно обучена модель машинного обучения - автоэнкодер архитектуры DINOv2. Данная модель была обучена на изображениях, используемых для обучения сервиса детекции изображений и впоследствии обработанных сервисом детекции.
4. Информация о подобранных таким образом растениях представляется пользователю.
Сгенерированные изображения сохраняются в объектное хранилище S3, а информация о них заносится в Базу данных для дальнейшего использования в рамках подбора растений, генерации ракурсов и встраивания пользовательских объектов в изображение.
Полученная диффузионная модель машинного обучения справляется с задачей генерации изображения на видеоускорителе Nvidia Р100 за 1.2 с и занимает 1.5 Гб видеопамяти, что существенно ниже показателей стандартных моделей семейства Stable Diffusion общего назначения. Качество полученных изображений практически совпадает с фотографиями реальных объектов. Сервис имеет информацию для подключения к стороннему S3-хранилищу и производит предобработку и последующую отправку изображений в хранилище, а также отправку запроса на регистрацию информации об изображении в Базе данных приложения. Сервис в процессе своей работы использует сервис детекции объектов для получения информации о загружаемом изображении, а также бэкенд приложения для сохранения этой информации. Данный сервис в свою очередь использует сервис генерации приложений для сохранения результатов своей работы.
Вычислительная система, способная обеспечивать обработку данных, необходимую для реализации заявленного решения, в общем случае, содержат такие компоненты как: один или более процессоров, по меньшей мере одну память, средство хранения данных, интерфейсы ввода/вывода, средство ввода, средства сетевого взаимодействия.
При исполнении машиночитаемых команд, содержащихся в оперативной памяти, конфигурируют процессор устройства для выполнения основных вычислительных операций, необходимых для функционирования устройства или функциональности одного, или более его компонентов.
Память, как правило, выполнена в виде ОЗУ, куда загружается необходимая программная логика, обеспечивающая требуемый функционал. При осуществлении работы предлагаемого решения выделяют объем памяти, необходимый для осуществления предлагаемого решения.
Средство хранения данных может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти и т.п. Средство позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей/пассажиров, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.
Интерфейсы представляют собой стандартные средства для подключения и работы периферийных и прочих устройств, например, USB, RS232, RJ45, СОМ, HDMI, PS/2, Lightning и т.п.
Выбор интерфейсов зависит от конкретного исполнения устройства, которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств ввода данных в любом воплощении системы, реализующей описываемый способ, может использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств ввода данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.
Компоненты устройства сопряжены посредством общей шины передачи данных.
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
название | год | авторы | номер документа |
---|---|---|---|
СИСТЕМА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЯ: BEORG SMART VISION | 2020 |
|
RU2777354C2 |
СИСТЕМА ДЛЯ ПОДДЕРЖКИ ПРИНЯТИЯ ВРАЧЕБНЫХ РЕШЕНИЙ | 2020 |
|
RU2752792C1 |
РАСПОЗНАВАНИЕ СОБЫТИЙ НА ФОТОГРАФИЯХ С АВТОМАТИЧЕСКИМ ВЫДЕЛЕНИЕМ АЛЬБОМОВ | 2020 |
|
RU2742602C1 |
Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | 2017 |
|
RU2720363C2 |
Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов | 2017 |
|
RU2703679C2 |
СПОСОБ ПОЛУЧЕНИЯ НИЗКОРАЗМЕРНЫХ ЧИСЛОВЫХ ПРЕДСТАВЛЕНИЙ ПОСЛЕДОВАТЕЛЬНОСТЕЙ СОБЫТИЙ | 2020 |
|
RU2741742C1 |
МЕТОД ПОИСКА ТЕРАПЕВТИЧЕСКИ ЗНАЧИМЫХ МОЛЕКУЛЯРНЫХ МИШЕНЕЙ ДЛЯ ЗАБОЛЕВАНИЙ ПУТЕМ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ К КОМБИНИРОВАННЫМ ДАННЫМ, ВКЛЮЧАЮЩИМ ГРАФЫ СИГНАЛЬНЫХ ПУТЕЙ, ОМИКСНЫЕ И ТЕКСТОВЫЕ ТИПЫ ДАННЫХ | 2022 |
|
RU2798897C1 |
СПОСОБ И СИСТЕМА КЛАССИФИКАЦИИ ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ В ТЕКСТЕ | 2019 |
|
RU2755606C2 |
СПОСОБ ТЕКСТОГЕНЕРАЦИИ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ | 2023 |
|
RU2821835C1 |
ЦИФРОВАЯ КОМПЬЮТЕРНО-РЕАЛИЗУЕМАЯ ПЛАТФОРМА ДЛЯ СОЗДАНИЯ МЕДИЦИНСКИХ ПРИЛОЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И СПОСОБ ЕЁ РАБОТЫ | 2020 |
|
RU2742261C1 |
Изобретение относится к способам генераций изображений. Техническим результатом является повышение качества генерирования изображений. Результат достигается тем, что осуществляется первоначальное обучение нейронной сети и текстовая разметка элементов на изображении за счет загрузки датасета из нескольких изображений одного элемента, при этом осуществляется построение связей с онтологией; изображения поступают на вход нейронной сети CLIP для разметки, где осуществляется параллельный анализ изображения и текстового описания, за счет чего создается вектор признаков; осуществляется анализ загруженных изображений за счет сегментирования изображения в несколько итераций, путем выделения крупных объектов; формируется маска с сегментированным изображением; посредством нейронной сети осуществляется классификация выделенных объектов; параллельно с определением объектов осуществляется тэгирование изображения; на финальном этапе осуществляется генерация изображений на основе существующей библиотеки изображений, причем каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции. 6 ил.
Способ генераций изображений, включающий этапы, на которых: осуществляется первоначальное обучение нейронной сети и текстовая разметка элементов на изображении за счет загрузки датасета из нескольких изображений одного элемента, при этом осуществляется построение связей с онтологией; изображения поступают на вход нейронной сети CLIP (Contrastive Language-Image Pre-training) для разметки, где осуществляется параллельный анализ изображения и текстового описания, за счет чего создается вектор признаков, содержащий текстовое описание изображения; осуществляется анализ загруженных изображений за счет сегментирования изображения в несколько итераций, путем выделения крупных объектов, и при необходимости выделение более маленьких сегментов изображения; за счет предыдущего этапа формируется маска с сегментированным изображением, где пиксели одного сегмента помечены одинаковой меткой и образуют связную область; далее, посредством нейронной сети, осуществляется классификация выделенных объектов; параллельно с определением объектов осуществляется тэгирование изображения; на финальном этапе осуществляется генерация изображений на основе существующей библиотеки изображений, причем каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции, при этом процесс генерации изображения состоит из следующих шагов: составляется фактологическое описание картины; формируется координатная решетка, к узлам которой осуществляется привязка объектов; происходит генерация пула вариантов, где исходными данными является набор объектов, которые необходимо разместить на решетке, причем генерируемый вариант размещения проверяется на соответствие посредством базы правил.
ДАВЛЕТГАРЕЕВА А.Р | |||
и др | |||
"Нейронная сеть для генерации изображений на основе текста песен с применением моделей OpenAI и CLIP", 28.09.2023, Найдено в: "https://rdl-journal.ru/article/view/790/861" | |||
JIAXU WANG et al | |||
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. | 1921 |
|
SU3A1 |
Авторы
Даты
2024-01-30—Публикация
2023-11-07—Подача