СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ Российский патент 2024 года по МПК G06F17/40 G06F40/00 

Описание патента на изобретение RU2831408C2

Область техники, к которой относится изобретение

[001] Настоящая технология относится к способам и системам формирования обучающих данных для алгоритма машинного обучения (MLA, Machine-Learning Algorithm) и, в частности, к способам и системам, предназначенным для уточнения порождающей модели машинного обучения, предварительно обученной формированию изображений на основе их текстовых описаний.

Уровень техники

[002] Некоторые порождающие модели машинного обучения (GMLM, Generative Machine-Learning Model) могут быть обучены формированию элементов медиаконтента, таких как аудиопотоки, изображения или видеоклипы, на основе текстовых описаний таких элементов медиаконтента. Например, модель GMLM, такая как модель GMLM DALL-E™ или модель GMLM CLIP™, может быть обучена формированию изображения объекта, исходя из текстового описания, предоставленного пользователем. В частности, пользователь может предоставить модели GMLM запрос «cat in the old cartoon drawing style» («кот в стиле старых мультфильмов»), «cat in a Disney cartoon style» («кот в стиле мультфильмов Диснея») или «black cat on a white background in a pastel drawing» («черный кот на белом фоне на рисунке пастелью»), а модель GMLM в ответ может сформировать соответствующее изображение кота, согласно требуемым командам визуализации.

[003] Тем не менее, несмотря на обучение на сравнительно больших обучающих наборах данных, такая модель GMLM может игнорировать некоторые категории качества, связанные с формируемыми изображениями. Например, модель GMLM может не содержать информации о степени визуальной привлекательности сформированных изображений для пользователей, запросивших эти изображения. В результате пользователи, считающие некоторые сформированные изображения неприемлемыми с точки зрения визуальной привлекательности, т.е. не получившие ожидаемого эстетического удовольствия от этих изображений, могут оказаться неудовлетворенными моделью GMLM в целом.

[004] Для решения описанной выше технической проблемы предложены некоторые известные подходы.

[005] В патенте CN 113140020B «Method for generating image based on text of countermeasure network generated by accompanying supervision» (University of Electronic Science and Technology of China, выдан 14 октября 2022 г.) описан способ формирования антагонистической сетью изображения на основе текста, где формирование выполняется с контролем, применяемым в области условного формирования изображений с целью устранения проблем со сложной структурой сети и чрезмерными вычислительными затратами в известных решениях. Согласно этому способу, модель изображения формируется на основе текста с иерархически вложенной структурой и сопутствующим контролем, где дискриминаторы косвенно связаны с тремя промежуточными скрытыми уровнями однопоточного формирователя, а процесс формирования изображения подвергается явному антагонистическому контролю, при этом существенно повышается прозрачность процесса формирования и сокращается путь распространения ошибки. Способ позволяет избежать накопления множества сформированных конфронтационных сетей, значительно уменьшить сложность и количество параметров модели и повысить скорость обучения.

Раскрытие изобретения

[006] Целью настоящего изобретения является устранение по меньшей мере одного недостатка известных решений.

[007] Разработчики настоящей технологии установили, что модель GMLM, предварительно обученная формированию изображений на основе их текстовых описаний, может быть дополнительно уточнена для оценивания категории визуальной привлекательности сформированных изображений и таким образом может быть обучена формированию более визуально привлекательных изображений.

[008] В частности, разработчики разработали системы и способы, способные: (а) получать для текстового описания тестового объекта набор ключевых слов (например, таких как «яркие цвета», «подробный» или «высокое разрешение»), формирующих дополненные текстовые описания тестового объекта; (б) вводить дополненные текстовые описания в модель GMLM с целью формирования набора изображений-кандидатов тестового объекта; (в) определять степень визуальной привлекательности каждого изображения из набора изображений-кандидатов; и (г) уточнять модель GMLM на основе сформированных таким образом изображений-кандидатов тестовых объектов и степеней их визуальной привлекательности с целью формирования более визуально привлекательных изображений объектов.

[009] В некоторых не имеющих ограничительного характера вариантах осуществления данной технологии настоящие способы и системы дополнительно предназначены для (а) определения ключевых слов, связанных с наибольшими степенями визуальной привлекательности соответствующих изображений-кандидатов, и (б) использования этих ключевых слов в качестве рекомендаций при формировании текстовых описаний других объектов.

[010] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, степени визуальной привлекательности каждого изображения из набора изображений-кандидатов могут определяться оценщиками-людьми, например, путем отправки соответствующей задачи на краудсорсинговую платформу, такую как краудсорсинговая платформа Amazon Mechanical Turk™ или краудсорсинговая платформа Toloka™. В частности, в такой задаче могут содержаться указания оценщикам-людям краудсорсинговой платформы выполнять попарное сравнение предоставленных изображений-кандидатов с точки зрения их субъективной визуальной привлекательности. Затем степень визуальной привлекательности изображения-кандидата может определяться как количество случаев, когда это изображение-кандидат было выбрано оценщиками из числа всех выполнявших задачу оценщиков-людей как более визуально привлекательное, чем другое предоставленное изображение-кандидат.

[011] Таким образом, описанные здесь способы и системы способствуют улучшению выходных данных модели GMLM с точки зрения визуальной привлекательности, что в результате позволяет повысить удовлетворенность пользователей модели GMLM.

[012] В частности, согласно первому аспекту настоящей технологии реализован компьютерный способ уточнения модели GMLM для формирования более визуально привлекательных изображений объектов. Модель GMLM обучена формированию изображений объектов на основе их текстовых описаний. Способ выполняется сервером, имеющим доступ к модели GMLM. Способ включает в себя: получение сервером текстового описания тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении; получение сервером набора связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении; формирование на основе набора ключевых слов набора дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов; ввод сервером в модель GMLM каждого описания из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта; передачу сервером набора изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов; определение сервером для изображения-кандидата степени визуальной привлекательности, соответствующей количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов; формирование сервером обучающего набора данных, содержащего множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание тестового объекта, (б) его изображение-кандидат и (в) связанную с ним степень визуальной привлекательности; ввод сервером множества обучающих цифровых объектов в модель GMLM и уточнение таким образом модели GMLM для формирования более визуально привлекательных изображений объектов.

[013] В некоторых вариантах осуществления способа по меньшей мере одна команда визуализации указывает на признак изображения-кандидата обучающего объекта, содержащий (а) стилистический признак изображения-кандидата и/или (б) метапризнак изображения-кандидата.

[014] В некоторых вариантах осуществления способа стилистический признак содержит по меньшей мере одно из следующего: (а) цветовое оформление изображения-кандидата; (б) интенсивность по меньшей мере одного цвета изображения-кандидата; (в) художественный стиль изображения-кандидата; и (г) признаки, связанные с по меньшей мере одним элементом композиции изображения-кандидата.

[015] В некоторых вариантах осуществления способа по меньшей мере один элемент композиции включает в себя текстуру изображения-кандидата, симметричность изображения-кандидата, несимметричность изображения-кандидата, глубину пространства изображения-кандидата, линии на изображении-кандидате, кривые на изображении-кандидате, рамки изображения-кандидата, контрастность изображения-кандидата, ракурс обучающего объекта на изображении-кандидате, долю негативного пространства на изображении-кандидате, долю заполненного пространства на изображении-кандидате, передний план изображения-кандидата, задний план изображения-кандидата и визуальное напряжение изображения-кандидата.

[016] В некоторых вариантах осуществления способа метапризнак изображения-кандидата содержит (а) разрешение изображения-кандидата и/или (б) размер изображения-кандидата и/или (в) формат изображения-кандидата.

[017] В некоторых вариантах осуществления способа уточнение модели GMLM включает в себя: обучение сервером модели GMLM на первом этапе уточнения определению значения, указывающего на изображение-кандидат из пары изображений-кандидатов тестового объекта, связанное с большей степенью визуальной привлекательности; обучение сервером модели GMLM на втором этапе уточнения, следующим за первым этапом уточнения, формированию более визуально привлекательных изображений объектов путем максимизации суммарного значения, определенного как сочетание соответствующих значений.

[018] В некоторых вариантах осуществления способа ввод обучающего набора данных в модель GMLM включает в себя: ввод сервером в модель GMLM на первом этапе уточнения для обучающего цифрового объекта (а) текстового описания тестового объекта, (б) его изображения-кандидата и (в) связанной с ним степени визуальной привлекательности; и ввод сервером в модель GMLM на втором этапе уточнения для обучающего объекта текстового описания, использованного для формирования изображения-кандидата.

[019] В некоторых вариантах осуществления способа он перед обучением дополнительно включает в себя добавление в модель GMLM слоя нейронной сети прямого распространения.

[020] В некоторых вариантах осуществления способа максимизация суммарного значения включает в себя применение алгоритма проксимальной оптимизации политики.

[021] В некоторых вариантах осуществления способа он дополнительно включает в себя использование модели GMLM для формирования более визуально привлекательных изображений объектов. Это использование включает в себя получение сервером от пользовательского электронного устройства текстового описания этапа использования для объекта этапа использования и ввод сервером в модель GMLM текстового описания этапа использования с целью формирования изображения этапа использования для объекта этапа использования.

[022] В некоторых вариантах осуществления способа модель GMLM содержит диффузионную модель машинного обучения (MLM, Machine-Learning Model).

[023] Согласно второму аспекту настоящей технологии реализован компьютерный способ формирования ключевых слов с целью формирования дополненных текстовых описаний объектов для модели GMLM. Модель GMLM обучена формированию изображений объектов на основе их текстовых описаний. Способ выполняется сервером, имеющим доступ к модели GMLM. Способ включает в себя: получение сервером текстового описания тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении; получение сервером набора связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении; формирование на основе набора ключевых слов набора дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов; ввод сервером в модель GMLM каждого описания из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта; передачу сервером набора изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов; определение сервером для изображения-кандидата степени визуальной привлекательности, соответствующей количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов; ранжирование сервером набора изображений-кандидатов согласно связанным с ними степеням визуальной привлекательности; определение сервером в качестве эталонных ключевых слов тех слов из набора ключевых слов, которые входят в состав описаний из набора дополненных текстовых описаний, связанных с заранее заданным количеством изображений-кандидатов с наибольшим рангом; и вывод сервером эталонных ключевых слов в качестве кандидатов для формирования дополненных текстовых описаний других объектов для модели GMLM.

[024] Согласно третьему аспекту настоящей технологии реализован сервер для уточнения модели GMLM, обученной формированию изображений объектов на основе их текстовых описаний, с целью формирования более визуально привлекательных изображений объектов. Сервер содержит: процессор и машиночитаемый физический носитель информации, хранящий команды. Процессор при исполнении команд способен: получать текстовое описание тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении; получать набор связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении; формировать на основе набора ключевых слов набор дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов; вводить в модель GMLM каждое описание из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта; передавать набор изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов; определять для изображения-кандидата степень визуальной привлекательности, соответствующую количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов; формировать обучающий набор данных, содержащий множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание тестового объекта, (б) его изображение-кандидат и (в) связанную с ним степень визуальной привлекательности; вводить множество обучающих цифровых объектов в модель GMLM и уточнять таким образом модель GMLM для формирования более визуально привлекательных изображений объектов.

[025] В некоторых вариантах осуществления сервера по меньшей мере одна команда визуализации указывает на признак изображения-кандидата обучающего объекта, содержащий (а) стилистический признак изображения-кандидата и/или (б) метапризнак изображения-кандидата.

[026] В некоторых вариантах осуществления сервера для уточнения модели GMLM процессор способен: обучать модель GMLM на первом этапе уточнения определению значения, указывающего на изображение-кандидат из пары изображений-кандидатов тестового объекта, связанное с большей степенью визуальной привлекательности; обучать модель GMLM на втором этапе уточнения, следующим за первым этапом уточнения, формированию более визуально привлекательных изображений объектов путем максимизации суммарного значения, определенного как сочетание соответствующих значений.

[027] В некоторых вариантах осуществления сервера процессор способен вводить обучающий набор данных в модель GMLM путем: ввода в модель GMLM на первом этапе уточнения для обучающего цифрового объекта (а) текстового описания тестового объекта, (б) его изображения-кандидата и (в) связанной с ним степени визуальной привлекательности; и ввода в модель GMLM на втором этапе уточнения для обучающего объекта текстового описания, использованного для формирования изображения-кандидата.

[028] В некоторых вариантах осуществления сервера процессор перед обучением модели GMLM на первом этапе уточнения дополнительно способен добавлять в модель GMLM слой нейронной сети прямого распространения.

[029] В некоторых вариантах осуществления сервера процессор для максимизации суммарного значения способен применять алгоритм проксимальной оптимизации политики.

[030] В некоторых вариантах осуществления сервера процессор дополнительно способен использовать модель GMLM для формирования более визуально привлекательных изображений объектов путем получения от пользовательского электронного устройства текстового описания этапа использования для объекта этапа использования и ввода в модель GMLM текстового описания этапа использования для формирования изображения этапа использования для объекта этапа использования.

[031] В некоторых вариантах осуществления сервера модель GMLM содержит диффузионную модель MLM.

[032] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от клиентских устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая конкретная задача принимается, выполняется или запускается одним и тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».

[033] В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов, либо шагов любого описанного здесь способа.

[034] В контексте настоящего описания термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средств для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.

[035] В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д., но не ограничивается ими.

[036] В контексте настоящего описания выражение «компонент» включает в себя обозначение программного обеспечения (подходящего для определенных аппаратных средств), необходимого и достаточного для выполнения определенной функции или нескольких функций.

[037] В контексте настоящего описания выражение «пригодный для использования в компьютере носитель информации» означает носители любого рода и вида, включая оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-накопители, твердотельные накопители, накопители на магнитных лентах и т.д.

[038] В контексте настоящего описания числительные «первый», «второй», «третий» и т.д. используются лишь для указания на различие между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает наличие «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях - разные программные и/или аппаратные средства.

[039] Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или к одному из вышеупомянутых аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.

[040] Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, на приложенных чертежах и в формуле изобретения.

Краткое описание чертежей

[041] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.

[042] На фиг. 1 представлена схема примера компьютерной системы для реализации некоторых не имеющих ограничительного характера вариантов осуществления систем и/или способов согласно настоящей технологии.

[043] На фиг. 2 представлена сетевая вычислительная среда, способная формировать набор уточняющих данных для уточнения модели GMLM, размещенной на сервере из этой сетевой вычислительной среды, с целью формирования более визуально привлекательных изображений объектов согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[044] На фиг. 3 приведено схематическое изображение графического интерфейса пользователя (GUI, Graphical User Interface) модели GMLM, размещенной на сервере из сетевой вычислительной среды, представленной на фиг. 2, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[045] На фиг. 4 приведено схематическое изображение процедуры формирования обучающих данных для формирования сервером из сетевой вычислительной среды, представленной на фиг. 2, набора уточняющих данных согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[046] На фиг. 5 приведено схематическое изображение интерфейса GUI краудсорсингового приложения, выполняемого на сервере из сетевой вычислительной среды, представленной на фиг. 2, для выполнения типовой цифровой задачи одним из оценщиков с целью формирования набора уточняющих данных согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[047] На фиг. 6 приведено схематическое изображение модифицированного интерфейса GUI модели GMLM, содержащего рекомендации для формирования более визуально привлекательных изображений, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[048] На фиг. 7 приведена блок-схема первого способа уточнения модели GMLM, размещенной на сервере из сетевой вычислительной среды, представленной на фиг. 2, для формирования более визуально привлекательных изображений объектов согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[049] На фиг. 8 приведена блок-схема второго способа формирования ключевых слов для формирования дополненных текстовых описаний объектов для модели GMLM, размещенной на сервере из сетевой вычислительной среды, представленной на фиг. 2, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

Осуществление изобретения

[050] Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.

[051] Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области техники должно быть понятно, что другие варианты осуществления настоящей технологии могут быть значительно сложнее.

[052] В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объема или границ настоящей технологии. Представленный перечень модификаций не является исчерпывающим, и специалист в данной области техники может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.

[053] Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть понятно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих основы настоящей технологии. Также должно быть понятно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.

[054] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором и/или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), ПЗУ для хранения программного обеспечения, ОЗУ и/или энергонезависимое запоминающее устройство. Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.

[055] Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.

[056] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.

Компьютерная система

[057] На фиг. 1 представлена компьютерная система 100, пригодная для использования в некоторых вариантах осуществления настоящей технологии. Компьютерная система 100 содержит различные аппаратные элементы, включая один или несколько одноядерных или многоядерных процессоров, обобщенно представленных процессором 110, графический процессор 111, твердотельный накопитель 120, ОЗУ 130, интерфейс 140 дисплея и интерфейс 150 ввода-вывода.

[058] Связь между различными элементами компьютерной системы 100 может обеспечиваться через одну или несколько внутренних и/или внешних шин 160 (таких как шина PCI, шина USB, шина FireWire стандарта IEEE 1394, шина SCSI, шина Serial-ATA и т.д.), с которыми различные аппаратные элементы соединены электронным образом.

[059] Интерфейс 150 ввода-вывода может соединяться с сенсорным экраном 190 и/или с одной или несколькими внутренними и/или внешними шинами 160. Сенсорный экран 190 может входить в состав дисплея. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сенсорный экран 190 сам представляет собой дисплей. Сенсорный экран 190 может также называться экраном 190. В представленных на фиг. 1 вариантах осуществления изобретения сенсорный экран 190 содержит сенсорные средства 194 (например, чувствительные к нажатию ячейки, встроенные в слой дисплея и позволяющие обнаруживать физическое взаимодействие между пользователем и дисплеем) и контроллер 192 сенсорных средств ввода-вывода, который обеспечивает связь с интерфейсом 140 дисплея и/или с одной или несколькими внутренними и/или внешними шинами 160. В некоторых вариантах осуществления изобретения интерфейс 150 ввода-вывода может соединяться с клавиатурой (не показана), мышью (не показана) или сенсорной площадкой (не показана), которые обеспечивают взаимодействие пользователя с компьютерной системой 100 в дополнение к сенсорному экрану 190 или вместо него.

[060] Следует отметить, что в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии некоторые элементы компьютерной системы 100 могут отсутствовать. Например, может отсутствовать сенсорный экран 190, в частности, если компьютерная система реализована в виде сервера (но не ограничиваясь этим).

[061] Согласно вариантам осуществления настоящей технологии, твердотельный накопитель 120 хранит программные команды, пригодные для загрузки в ОЗУ 130 и исполнения процессором 110 и/или графическим процессором 111. Программные команды могут, например, входить в состав библиотеки или приложения.

Сетевая вычислительная среда

[062] На фиг. 2 представлена схема сетевой вычислительной среды 200, пригодной для использования с некоторыми не имеющими ограничительного характера вариантами осуществления систем и/или способов согласно настоящей технологии. Сетевая вычислительная среда 200 содержит сервер 202, соединенный через сеть 208 связи с электронным устройством 204. В не имеющих ограничительного характера вариантах осуществления настоящей технологии электронное устройство 204 может быть связано с пользователем 206.

[063] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии электронное устройство 204 может представлять собой любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Электронное устройство 204 может содержать некоторые или все элементы компьютерной системы 100, представленной на фиг. 1. Таким образом, в качестве некоторых не имеющих ограничительного характера примеров электронного устройства 204 можно привести персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты. Должно быть понятно, что в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии электронное устройство 204 может быть не единственным электронным устройством, связанным с пользователем 206, который может быть связан с другими электронными устройствами (не показаны на фиг. 2) без выхода за границы настоящей технологии.

[064] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 реализован в виде традиционного компьютерного сервера и может содержать некоторые или все элементы компьютерной системы 100, представленной на фиг. 1. В конкретном не имеющем ограничительного характера примере сервер 202 реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™, но он также может быть реализован с использованием любых других подходящих аппаратных средств, прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленных не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 представляет собой один сервер. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии (не показаны) функции сервера 202 могут быть распределены между несколькими серверами.

[065] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, на сервере 202 может быть размещена модель 210 GMLM. В общем случае модель 210 GMLM может быть обучена формированию изображений объектов на основе их текстовых описаний, предоставленных пользователями модели 210 GMLM, такими как пользователь 206. Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, модель 210 GMLM может быть доступна пользователю 206 в онлайн-режиме через сеть 208 связи. Например, пользователь 206 может отправлять универсальный указатель ресурсов (URL, Universal Resource Locator) сервера 202 в адресной строке выполняемого электронным устройством 204 браузерного приложения (отдельно не обозначено), которое может отображать интерфейс GUI модели 210 GMLM на экране электронного устройства 204.

[066] На фиг. 3 представлен первый интерфейс 300 GUI модели 210 GMLM, отображаемый браузерным приложением электронного устройства 204 (см. фиг. 2), согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[067] Как показано на фиг. 3, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии первый интерфейс 300 GUI модели 210 GMLM может содержать строку запроса (отдельно не обозначена) для получения пользовательских запросов и элемент управления, такой как кнопка «Generate» («Сформировать») (отдельно не обозначена), для отправки пользовательских запросов модели 210 GMLM. Таким образом, пользователь 206 может отправлять модели 210 GMLM запрос 212, содержащий текстовое описание, которое может включать в себя (а) название объекта на естественном языке (таком как русский или английский), изображение которого хотел бы получить пользователь 206, например, «fluffy kitten» («пушистый котенок»), как показано на фиг. 3, и в некоторых случаях (б) по меньшей мере одну команду визуализации, задающую требуемый пользователю 206 стиль формирования объекта на изображении, например, «in the Dali style» («в стиле Дали»). В ответ модель 210 GMLM может формировать изображение 214 запрошенного объекта согласно по меньшей мере одной команде визуализации.

[068] На реализацию модели 210 GMLM не накладывается ограничений. Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии модель 210 GMLM может быть реализована в виде модели GMLM на основе модели контрастивного предварительного обучения «язык-изображение» (CLIP, Contrastive Language-Image Pretraining), обучение и использование которой подробно описано, например, в работе «Learning transferable visual models from natural language supervision» (Radford et al., опубликована 26 февраля 2021 г. компанией OpenAI Inc.), содержание которой полностью включено в настоящий документ посредством ссылки.

[069] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии модель 210 GMLM может быть реализована в виде диффузионной модели, обученной постепенному снижению уровня шума в обучающих изображениях, в которые предварительно добавлен случайный шум, например, случайный гауссов шум. В общем случае диффузионная модель содержит: (а) кодер, способный формировать для обучающего изображения его векторное представление изображения в латентном пространстве векторных представлений; (б) диффузионный алгоритм, способный последовательно вносить некоторое количество случайного шума в векторное представление изображения для обучающего изображения и таким образом формировать по меньшей мере одно зашумленное векторное представление изображения для обучающего изображения; (в) текстовый кодер, способный формировать векторное представление текста для обучающего текстового описания, связанного с обучающим изображением; (г) алгоритм условного шумоподавления, который может определять количество случайного шума, внесенного диффузионным алгоритмом в по меньшей мере одно зашумленное векторное представление изображения, а также определяет соответствие между векторным представлением текста и по меньшей мере одним зашумленным векторным представлением изображения, определяя таким образом скрытые взаимосвязи между ними; и (д) декодер, способный восстанавливать обучающее изображение на основе его очищенного от шума векторного представления, сформированного алгоритмом шумоподавления.

[070] В конкретном не имеющем ограничительного характера примере алгоритм условного шумоподавления (являющийся основой диффузионной модели) может быть реализован в виде нейронной сети (NN, Neural Network) с временными условиями на основе сети UNet. В этом примере для определения скрытых взаимосвязей между векторным представлением текста и по меньшей мере одним зашумленным векторным представлением изображения, связанным с обучающим изображением, диффузионная модель может отображать вектор текста на промежуточные слои сети NN на основе сети UNet через слои перекрестного внимания. Кроме того, в конкретном не имеющем ограничительного характера примере текстовый кодер может быть реализован в виде модели машинного обучения на основе трансформера, предварительно обученной определению контекстных и грамматических взаимосвязей между лингвистическими единицами, такими как слова, предложения или даже абзацы текста на естественном языке.

[071] Таким образом, модель 210 GMLM может быть обучена генерации (выделению) изображений объектов из случайного шума путем (а) ввода в диффузионную модель обучающего набора данных, содержащего обучающие изображения и связанные с ними соответствующие текстовые описания, и (б) оптимизации различия между входными данными (обучающими изображениями) и выходными данными (сформированными изображениями ) диффузионной модели. В частности, после оптимизации различия между входными и выходными данными диффузионной модели на каждой итерации обучения в отношении диффузионной модели может применяться алгоритм обратного распространения и могут корректироваться веса узлов диффузионной модели. Различие может выражаться функцией потерь, такой как функция потерь кросс-энтропии. Тем не менее, также возможны и другие варианты реализации функции потерь, включая функцию потерь среднеквадратичной ошибки, функцию потерь по Губеру, кусочно-линейную функцию потерь и т.д.

[072] Возможная реализация диффузионной модели согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии более подробно описана, например, в работе «High-resolution image synthesis with latent diffusion models» (Rombach et al., опубликована 13 апреля 2022 г. университетом Ludwig Maximilian University of Munich), содержание которой полностью включено в настоящий документ посредством ссылки. Должно быть понятно, что другие модели MLM и их архитектуры также могут использоваться для реализации модели 210 GMLM без выхода за границы настоящей технологии.

[073] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии модель 210 GMLM может обучаться сервером 202. В этих вариантах осуществления изобретения сервер 202 может, например, получать обучающий набор данных от электронных устройств пользователей модели 210 GMLM, таких как электронное устройство 204 пользователя 206. В частности, сервер 202 может: (а) обращаться к журналу просмотра веб-страниц и/или к истории поиска пользователя 206, хранящимся в электронном устройстве 204; (б) выполнять парсинг журнала просмотра веб-страниц и/или истории поиска пользователя 206 с целью определения прошлых поисковых запросов относительно изображений; и (в) сохранять в базе данных обучения (не показана) прошлые поисковые запросы, связанные с соответствующими им изображениями. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать обучающий набор данных от стороннего ресурса, такого как банк изображений (например, банк изображений GettyImages™, банк изображений ShutterStock™ и т.п.), хранящего различные изображения с их текстовыми описаниями.

[074] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии модель 210 GMLM может обучаться, как описано выше, сторонним сервером (не показан), а серверу 202 может быть предоставлен доступ к модели 210 GMLM удаленно через сеть 208 связи или локально.

[075] Предполагается, что модель 210 GMLM, обученная, как описано выше, может оказаться неспособной оценивать некоторые абстрактные категории сформированных таким образом изображений, таких как изображение 214, оцененное людьми, что в результате может негативно влиять на удовлетворенность пользователя 206. Иными словами, модель 210 GMLM может быть неспособной определять, воспринимается изображение 214, сформированное в ответ на запрос 212, пользователем 206 как визуально привлекательное или нет. Таким образом, если пользователь 206 считает изображение 214 визуально непривлекательным, т.е. пользователь 206 не получил ожидаемого эстетического удовольствия от просмотра изображения 214, то пользователь 206 может остаться в целом не удовлетворенным моделью 210 GMLM.

[076] Таким образом, настоящие способ и системы предназначены для решения этой проблемы путем уточнения модели 210 GMLM с использованием специального обучающего набора уточняющих данных, содержащего (а) обучающие изображения, (б) соответствующие им запросы, используемые для формирования обучающих изображений, и (в) степени визуальной привлекательности обучающих изображений для пользователей модели 210 GMLM. Сервер 202 с использованием такого обучающего набора данных способен уточнять модель 210 GMLM для формирования более визуально привлекательных изображений в ответ на запросы пользователей. В результате настоящие способы и системы способствуют повышению удовлетворенности пользователей модели 210 GMLM от взаимодействия с ней.

[077] Ниже со ссылкой на фиг. 3-6 описано формирование сервером 202 обучающего набора уточняющих данных, включая определение степеней визуальной привлекательности обучающих изображений, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

Сеть связи

[078] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 208 связи представляет собой сеть Интернет. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 208 связи может быть реализована в виде любой подходящей локальной сети (LAN, Local Area Network), глобальной сети (WAN, Wide Area Network), частной сети связи и т.п. Очевидно, что варианты осуществления сети связи приведены лишь в иллюстративных целях. Реализация линий связи (отдельно не обозначены) между сервером 202 и электронным устройством 204 с одной стороны и сетью 208 связи с другой стороны зависит, среди прочего, от реализации сервера 202 и электронного устройства 204. Лишь в качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, где электронное устройство 204 содержит устройство беспроводной связи, линия связи может быть реализована в виде беспроводной линии связи. Примеры беспроводных линий связи включают в себя канал сети связи 3G, канал сети связи 4G и т.д. В сети 208 связи также может использоваться беспроводное соединение с сервером 202.

Формирование набора уточняющих данных

[079] На фиг. 4 представлена схема процедуры 400 формирования обучающих данных, выполняемой сервером 202 с целью формирования обучающего набора уточняющих данных для уточнения модели 210 GMLM, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[080] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 202 может формировать обучающий набор уточняющих данных путем: (а) получения текстового описания 402 обучающего объекта для формирования его обучающего изображения; (б) получения набора 404 ключевых слов для обучающего объекта; (в) формирования набора дополненных текстовых описаний обучающего объекта с использованием набора 404 ключевых слов; (г) ввода набора дополненных текстовых описаний в модель 210 GMLM для формирования набора 406 изображений-кандидатов; и (д) определения для каждого изображения из набора 406 изображений-кандидатов степени его визуальной привлекательности для пользователей модели 210 GMLM.

[081] Кроме того, сервер 202 может формировать набор уточняющих данных, содержащий множество обучающих цифровых объектов уточнения, каждый из которых может содержать: (а) текстовое описание 402 обучающего объекта; (б) изображение-кандидат обучающего объекта из набора 406 изображений-кандидатов; и (в) степень визуальной привлекательности, определенную для этого изображения-кандидата.

[082] В дополнительных не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может (а) определять ключевые слова из набора 404 ключевых слов, связанных с изображениями-кандидатами с наибольшими степенями визуальной привлекательности из набора 406 изображений-кандидатов, и (б) выдавать эти ключевые слова в качестве рекомендаций для формирования дополненных текстовых описаний этапа использования для объекта этапа использования с целью их последующей отправки модели 210 GMLM.

[083] Очевидно, что обучающий объект может представлять собой любой элемент, который может быть описан с помощью существительных на естественном языке. В контексте настоящего описания обучающий объект может представлять собой (а) живое существо, такое как человек или животное, или (б) неодушевленный предмет, такой как растение (например, дерево или цветок), предмет мебели, транспортное средство и т.п. Таким образом, текстовое описание 402 обучающего объекта содержит его описание на естественном языке, т.е. описание того, чем является обучающий объект.

[084] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, на получение сервером 202 текстового описания 402 обучающего объекта для формирования набора уточняющих данных не накладывается ограничений. Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии текстовое описание 402 обучающего объекта может быть выбрано из заранее заданного списка текстовых описаний обучающих объектов, которые сервер 202 может, например, получать через сеть 208 связи от стороннего сервера, такого как сторонний веб-сервер. В другом примере заранее заданный список текстовых описаний обучающих объектов может быть загружен на сервер 202 оператором модели 210 GMLM.

[085] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать текстовое описание 402 обучающего объекта путем обхода различных веб-ресурсов сети 208 связи, таких как справочные веб-ресурсы (онлайн-энциклопедия Wikipedia™, онлайн-энциклопедия Britannica™ и т.п.), социальные сети (социальная сеть vk.com™, социальная сеть Мой Мир™ и т.п.), платформы потокового аудио и видео (такие как платформа потокового видео Kinopoisk™, платформа потокового видео ivi.ru™ и т.п.) и т.д. В частности, путем обхода сервер 202 может определять существительные или выражения, указывающие на названия объектов, для наполнения базы данных объектов (не показана) сервера 202, способного хранить различные текстовые описания обучающих объектов для последующего использования при формировании набора уточняющих данных.

[086] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать текстовые описания обучающих объектов из прошлых запросов, отправленных модели 210 GMLM ее пользователями. В этих вариантах осуществления изобретения сервер 202 может предварительно сохранять прошлые запросы в базе данных прошлых запросов (не показана) сервера 202 для последующего определения в них (например, путем парсинга) существительных и выражений, указывающих на названия объектов, и наполнения базы данных объектов (не показана).

[087] Кроме того, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может выполнять алгоритм понимания естественного языка (NLU, Natural Language Understanding), способный устранять неоднозначности для семантически схожих текстовых описаний обучающих объектов. Например, с использованием алгоритма NLU сервер 202 может определить, что текстовые описания «cat» («кот»), «Mr. Mittens» («мистер Миттенс») и «kitty» («котенок») указывают на один обучающий объект.

[088] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, ключевое слово из набора 404 ключевых слов может содержать слово или выражение, указывающее на соответствующую команду визуализации обучающего объекта на обучающем изображении. Подобно получению текстового описания в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, сервер 202 может получать набор 404 ключевых слов для текстового описания 402 обучающего объекта от стороннего сервера (не показан) или от оператора модели 210 GMLM. Кроме того, в других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать набор 404 ключевых слов из прошлых запросов, отправленных модели 210 GMLM.

[089] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать набор 404 ключевых слов для текстового описания 402 обучающего объекта из модели обработки естественного языка (NLP, Natural Language Processing) (не показана). В общем случае модель NLP представляет собой модель машинного обучения, обученную читать, понимать и формировать элементы естественного языка. Иными словами, можно сказать, что модель NLP может выполнять два разных процесса: (а) процесс понимания естественного языка, например, для понимания текстового описания 402 обучающего объекта, и (б) процесс формирования естественного языка для формирования на основе структурированных данных ключевых слов для включения в состав набора 404 ключевых слов.

[090] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии модель NLP может быть реализована на основе сети NN, такой как сеть NN с долгой краткосрочной памятью или рекуррентная сеть NN. Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, модель NLP может быть реализована в виде модели NN на основе трансформера. Обучение и использование модели NLP более подробно описано, например, в патентной заявке этого же заявителя US17081634 «Method and system for recognizing a user utterance» (подана 14 декабря 2022 г.), содержание которой полностью включено в настоящий документ посредством ссылки.

[091] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии набор 404 ключевых слов может зависеть от обучающего объекта, т.е. может применяться только для данного обучающего объекта и подобных ему объектов. Например, в этих вариантах осуществления изобретения, если текстовое описание 402 обучающего объекта содержит слово «cat» («кот»), то набор 404 ключевых слов может содержать выражения «playing with yarn» («играющий с пряжей») или («grooms itself») («умывается») и т.п. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии набор 404 ключевых слов может быть не зависящим от обучающего объекта, т.е. может применяться для разных объектов, а не только для данного обучающего объекта. В этих вариантах осуществления изобретения, относящихся к описанному выше примеру, если текстовое описание 402 обучающего объекта представляет собой слово «cat» («кот»), то набор 404 ключевых слов может содержать выражения «digital art» («цифровое искусство») или «high definition» («высокое разрешение») и т.п.

[092] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии ключевое слово из набора 404 ключевых слов может указывать на требуемый признак изображения-кандидата из набора 406 изображений-кандидатов, которое должно быть сформировано моделью 210 GMLM в ответ на запрос, содержащий это ключевое слово. Например, требуемый признак может включать в себя (а) стилистический признак изображения-кандидата и/или (б) метапризнак изображения-кандидата.

[093] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, стилистический признак может содержать по меньшей мере одно из следующего: (а) цветовое оформление изображения-кандидата, такое как одноцветное оформление, оформление в подобных цветах, оформление в дополнительных цветах и т.д.; (б) интенсивность по меньшей мере одного цвета изображения-кандидата, например, яркий или тусклый; (в) художественный стиль изображения-кандидата, такой как импрессионизм, сюрреализм, социальный реализм и т.п., либо называемый по имени художника стиль, например, стиль Дали, стиль Кандинского, стиль Саврасова и т.п.; и (г) признаки, связанные с по меньшей мере одним элементом композиции изображения-кандидата.

[094] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, по меньшей мере один элемент композиции изображения-кандидата может, среди прочего, содержать по меньшей мере одно из следующего: интересующий объект на изображении-кандидате, текстура изображения-кандидата, симметричность изображения-кандидата, несимметричность изображения-кандидата, глубина изображаемого пространства изображения-кандидата, линии на изображении-кандидате, кривые на изображении-кандидате, рамки изображения-кандидата, контрастность изображения-кандидата, ракурс обучающего объекта на изображении-кандидате, доля негативного пространства на изображении-кандидате, доля заполненного пространства на изображении-кандидате, передний план изображения-кандидата, задний план изображения-кандидата и визуальное напряжение изображения-кандидата.

[095] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии метапризнак изображения-кандидата может содержать по меньшей мере одно из следующего: (а) разрешение изображения-кандидата, например, 100 пикселов на дюйм (ppi, pixels per inch), 300 ppi или 600 ppi и т.п.; (б) размер изображения-кандидата, например, 5 мегабайт, 10 мегабайт или 1 гигабайт и т.п.; и (в) формат изображения-кандидата, например, JPG, PNG, PSD и т.п.

[096] Таким образом, путем объединения текстового описания 402 обучающего объекта и каждого ключевого слова из набора 404 ключевых слов, связанных с ним, сервер 202 может формировать набор дополненных текстовых описаний обучающего объекта. В примере, где текстовое описание 402 обучающего объекта представляет собой слово «cat» («кот»), первое выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, old cartoon drawing» («кот, рисунок в стиле старого мультфильма»), второе выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, Disney drawing, monochromatic scheme» («кот, рисунок в стиле Диснея, одноцветный»), третье выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, anime drawing, vivid colors» («кот, рисунок в стиле аниме, яркие цвета») и т.д. Должно быть понятно, что эти примеры приведены лишь для иллюстрации, а не для ограничения объема изобретения.

[097] Кроме того, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии количество ключевых слов в наборе 404 ключевых слов, определяющее количество дополненных текстовых описаний в наборе дополненных текстовых описаний обучающего объекта, может быть заранее заданным, например, равным 10, 20 или 50. В частности, в тех вариантах осуществления изобретения, где сервер 202 может получать набор 404 ключевых слов из прошлых запросов, сервер 202 может получать N наиболее часто используемых ключевых слов (а) для формирования прошлых запросов изображений в общем случае либо (б) в сочетании с текстовым описанием 402 обучающего объекта. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может использовать все ключевые слова, определенные из прошлых запросов, для формирования набора дополненных текстовых описаний обучающего объекта.

[098] С использованием сформированного набора дополненных текстовых описаний обучающего объекта сервер 202 может вводить каждое описание из набора дополненных текстовых описаний в модель 210 GMLM и формировать таким образом набор 406 изображений-кандидатов обучающего объекта.

[099] Кроме того, как описано выше, сервер 202 может определять для каждого изображения из набора изображений-кандидатов степень его визуальной привлекательности для пользователей модели 210 GMLM. Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 202 может определять степень визуальной привлекательности изображения-кандидата из набора 406 изображений-кандидатов на основе входных данных от оценщиков-людей.

[0100] С этой целью в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может выполнять краудсорсинговое приложение (не показано). Например, краудсорсинговое приложение может быть реализовано в виде краудсорсинговой платформы, такой как Toloka™ либо другой проприетарной или коммерчески доступной краудсорсинговой платформы. Кроме того, сервер 202 может содержать базу данных оценщиков (не показана), содержащую данные множества оценщиков-людей 410 (или осуществлять доступ к ней иным образом).

[0101] Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база данных оценщиков может управляться и/или администрироваться поставщиком краудсорсинговых услуг. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии база данных оценщиков может эксплуатироваться другой организацией.

[0102] Таким образом, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может передавать набор 406 изображений-кандидатов вместе с цифровой задачей 412 электронным устройствам множества оценщиков-людей 410. Очевидно, что каждое электронное устройство множества оценщиков-людей 410 может быть реализовано подобно электронному устройству 204, связанному с пользователем 206.

[0103] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, цифровая задача 412 может включать в себя попарное сравнение набора 406 изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения из набора 406 изображений-кандидатов для оценщика-человека из множества оценщиков-людей 410. На фиг. 5 приведено схематическое изображение второго интерфейса 500 GUI краудсорсингового приложения сервера 202, отображаемого на экране электронного устройства оценщика-человека из множества оценщиков-людей 410, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0104] Как показано на фиг. 5, второй интерфейс 500 GUI содержит текстовое описание цифровой задачи 412 и пару изображений-кандидатов из набора 406 изображений-кандидатов, содержащую первое изображение-кандидат 502 и второе изображение-кандидат 504, подлежащие сравнению оценщиком-человеком. Второй интерфейс 500 GUI также может содержать элементы 506 выбора интерфейса GUI, позволяющие выбрать первое или второе изображения-кандидаты 502, 504. В представленных на фиг. 5 вариантах осуществления изобретения элементы 506 выбора интерфейса GUI представляют собой радиокнопки. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии элементы 506 выбора интерфейса GUI могут, например, представлять собой флажки. Кроме того, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии второй интерфейс 500 GUI может дополнительно содержать элемент 508 управления интерфейса GUI, такой как кнопка «Submit» («Отправить»), для подтверждения выбора изображения из числа первого или второго изображений-кандидатов 502, 504.

[0105] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии пара изображений-кандидатов может быть представлена для сравнения оценщику-человеку без их дополненных текстовых описаний. Иными словами, оценщик-человек должен выбрать изображение из числа первого и второго изображений-кандидатов 502, 504 на основе визуальной привлекательности для него каждого изображения из пары изображений-кандидатов, не имея информации об использованных для их формирования ключевых словах из набора 404 ключевых слов. Это может способствовать повышению объективности оценщика-человека в процессе сравнения.

[0106] После выбора оценщиком-человеком, например, первого изображения-кандидата 502 из пары изображений кандидатов, второе изображение-кандидат 504 заменяется другим изображением-кандидатом (не показано) из набора 406 изображений-кандидатов и другая пара изображений-кандидатов, содержащая первое изображение-кандидат 502 и другое изображение-кандидат, предоставляется оценщику-человеку с использованием второго интерфейса 500 GUI. Затем оценщик-человек осуществляет еще один выбор из другой пары изображений-кандидатов. Этот процесс продолжается, пока оценщику-человеку по меньшей мере один раз не будет представлено каждое изображение-кандидат из набора 406 изображений-кандидатов.

[0107] Следует отметить, что для реализации настоящей технологии возможны и другие способы сравнения. Например, для ускорения процедуры сравнения сервер 202 может предоставлять оценщику-человеку три или даже пять изображений-кандидатов в одной цифровой задаче.

[0108] Кроме того, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 202 может определять степень визуальной привлекательности изображения-кандидата из набора 406 изображений-кандидатов как количество случаев выбора всеми оценщиками из множества оценщиков-людей 410 изображения-кандидата при попарном сравнении в качестве более визуально привлекательного, чем другое изображение-кандидат.

[0109] Кроме того, сервер 202 может применять описанную выше процедуру 400 формирования обучающих данных в отношении множества обучающих объектов, содержащего, например, сотни, тысячи или даже сотни тысяч объектов, схожих с данным обучающим объектом, и таким образом формировать набор уточняющих данных. Как описано выше, в результате сервер 202 может формировать набор уточняющих данных, содержащий множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание 402 обучающего объекта, (б) изображение-кандидат обучающего объекта из набора 406 изображений-кандидатов и (в) степень визуальной привлекательности, определенную для этого изображения-кандидата, как описано выше.

[0110] Затем сервер 202 может использовать сформированный таким образом набор уточняющих данных с целью уточнения модели 210 GMLM для формирования более визуально привлекательных изображений объектов. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии уточнение модели 210 GMLM может включать в себя два этапа уточнения: (а) на первом этапе уточнения сервер 202 может обучать модель 210 GMLM определению изображения-кандидата из пары изображений-кандидатов обучающего объекта с большей степенью визуальной привлекательности; (б) на втором этапе уточнения, следующим за первым этапом уточнения, сервер 202 с использованием обучения с подкреплением может обучать модель 210 GMLM формированию более визуально привлекательных изображений объектов.

[0111] В частности, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для выполнения первого этапа уточнения сервер 202 может добавлять в модель 210 GMLM слой нейронной сети прямого распространения, которую сервер 202 дополнительно способен обучать сравнению пары изображений-кандидатов обучающего объекта с точки зрения визуальной привлекательности. С этой целью сервер 202 сначала может определять первую часть набора уточняющих данных так, что обучающий объект из нее содержит (а) текстовое описание 402 обучающего объекта, (б) изображение-кандидат обучающего объекта из набора 406 изображений-кандидатов и (в) степень визуальной привлекательности, определенную для этого изображения-кандидата. Затем сервер 202 может попарно вводить в модель 210 GMLM обучающие цифровые объекты из первой части набора уточняющих данных, связанной с обучающим объектом, чтобы обучать модель 210 GMLM так, чтобы ее слой нейронной сети прямого распространения формировал значение, указывающее на то, превышает ли степень визуальной привлекательности, связанная с первым обучающим цифровым объектом из пары обучающих цифровых объектов, степень визуальной привлекательности, связанную со вторым обучающим цифровым объектом из пары обучающих цифровых объектов. Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии это значение может представлять собой бинарное значение «1» (или «true» («истина»)), если степень визуальной привлекательности у первого обучающего цифрового объекта больше, чем у второго обучающего цифрового объекта, или значение «0» (или «false» («ложь»)) в противном случае.

[0112] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для выполнения второго этапа уточнения сервер 202 может определять вторую часть набора уточняющих данных так, что обучающий цифровой объект из нее содержит только текстовое описание 402, используемое для формирования изображения-кандидата обучающего объекта. Затем сервер 202 может вводить в модель 210 GMLM каждый обучающий цифровой объект из второй части набора уточняющих данных для формирования изображений-кандидатов, максимизируя суммарное значение (также называется совокупным вознаграждением), определенное как сочетание (например, сумма) значений, сформированных на каждой итерации обучения слоем нейронной сети прямого распространения модели 210 GMLM. Для максимизации суммарного значения сервер 202 может, например, применять алгоритм проксимальной оптимизации политики (Proximal Policy Optimization). Тем не менее, для максимизации суммарного значения без выхода за границы настоящей технологии могут использоваться и другие алгоритмы оптимизации, например, алгоритм глубокого детерминированного градиента политики (Deep Deterministic Policy Gradient algorithm), алгоритм оптимизации политики доверительной области (Trust Region Policy Optimization algorithm) или алгоритм двойного глубокого детерминированного градиента политики с задержкой (Twin Delayed Deep Deterministic Policy Gradient).

[0113] В результате сервер 202 может уточнять модель 210 GMLM для формирования более визуально привлекательных изображений объектов. Таким образом, в ответ на получение текстового описания этапа использования для объекта этапа использования от пользователя 206 модель 210 GMLM может формировать изображение этапа использования, более визуально привлекательное для пользователя 206, чем изображение, сформированное на основе того же текстового описания этапа использования до уточнения модели 210 GMLM, описанного выше.

[0114] Должно быть понятно, что в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может использовать набор уточняющих данных для первоначального обучения модели 210 GMLM.

[0115] В других вариантах осуществления изобретения сервер 202 может использовать степени визуальной привлекательности, определенные на основе входных данных от множества оценщиков-людей 410, для инициирования формирования моделью 210 GMLM более визуально привлекательных изображений объектов без уточнения модели 210 GMLM. В частности, в этих вариантах осуществления изобретения сервер 202 может (а) ранжировать набор 406 изображений-кандидатов согласно связанным с ними степеням визуальной привлекательности, (б) выбирать N изображений-кандидатов с наибольшим рангом, связанных с наибольшими степенями визуальной привлекательности, (в) определять в качестве эталонных ключевых слов из набора 404 ключевых слов ключевые слова, использованные для формирования N изображений-кандидатов с наибольшим рангом, (г) выдавать эталонные ключевые слова в качестве рекомендаций для формирования текстовых описаний более визуально привлекательных изображений объектов, таких как рекомендации 602, схематически показанные в первом интерфейсе 300 GUI модели GMLM на фиг. 6, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0116] Возможны различные варианты реализации рекомендаций 602. Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рекомендации 602 могут представлять собой «перетаскиваемые» (drag and drop) элементы интерфейса GUI, расположенные под строкой запроса модели 210 GMLM в первом интерфейсе 300 GUI (см. фиг. 6). Таким образом, при формировании другого запроса после ввода текстового описания другого объекта пользователь 206 может выбрать требуемое ключевое слово и путем перетаскивания поместить его непосредственно в строку запроса модели 210 GMLM рядом с текстовым описанием. Затем требуемое ключевое слово дополняет текстовое описание путем предоставления соответствующей команды визуализации для отображения другого объекта на изображении, которое должно быть сформировано. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии (не показаны) рекомендации 602 могут, например, быть представлены пользователю 206 в меню, раскрывающемся под строкой запроса модели 210 GMLM при вводе пользователем 206 текстового описания другого объекта.

[0117] Как и в случае набора 404 ключевых слов в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, рекомендации 602 могут зависеть от другого объекта и, следовательно, сервер 202 может выдавать рекомендации 602 в ответ на получение текстового описания другого объекта, определяя класс объекта для другого объекта. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии рекомендации 602 могут не зависеть от объекта и поэтому могут выдаваться в первом интерфейсе 300 GUI модели 210 GMLM до ввода пользователем 206 текстового описания другого объекта.

[0118] Таким образом, путем использования ключевых слов, связанных с большими степенями визуальной привлекательности изображений-кандидатов обучающих объектов, пользователь 206 может получать более визуально привлекательные изображения других объектов.

Первый способ

[0119] Описанные выше архитектура и примеры позволяют выполнять способ уточнения модели GMLM, такой как модель 210 GMLM. На фиг. 7 представлена блок-схема первого способа 700, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 700 может выполняться сервером 202, содержащим компьютерную систему 100.

[0120] Как описано выше со ссылкой на фиг. 2, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, модель 210 GMLM может быть реализована в виде диффузионной модели MLM или модели MLM на основе алгоритма CLIP.

Шаг 702: получение сервером текстового описания тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении.

[0121] Первый способ 700 начинается с шага 702, на котором сервер 202 способен получать текстовое описание 402 («cat» («кот»)) обучающего объекта. Как описано выше со ссылкой на фиг. 4, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать текстовое описание 402 от стороннего сервера (не показан). В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать текстовое описание 402 путем обхода различных веб-ресурсов сети 208 связи. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать текстовое описание 402 из прошлых запросов, отправленных модели 210 GMLM ее пользователями.

[0122] Затем первый способ 700 продолжается на шаге 704.

Шаг 704: получение сервером набора связанных с текстовым описанием ключевых слов.

[0123] На шаге 704 сервер 202 может получать набор 404 ключевых слов для текстового описания 402 обучающего объекта.

[0124] Как описано выше со ссылкой на фиг. 4, ключевое слово из набора 404 ключевых слов может содержать слово или выражение, указывающее на команду визуализации для отображения обучающего объекта на обучающем изображении. Подобно получению текстового описания в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, сервер 202 может получать набор 404 ключевых слов для текстового описания 402 обучающего объекта от стороннего сервера (не показан) или от оператора модели 210 GMLM. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать набор 404 ключевых слов из прошлых запросов, отправленных модели 210 GMLM.

[0125] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать набор 404 ключевых слов для текстового описания 402 обучающего объекта из модели NLP.

[0126] Затем первый способ 700 переходит к шагу 706.

Шаг 706: формирование на основе набора ключевых слов набора дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов.

[0127] На шаге 706 сервер 202 может формировать набор дополненных текстовых описаний обучающего объекта путем объединения полученного на шаге 702 текстового описания 402 обучающего объекта и каждого ключевого слова из полученного на шаге 704 набора 404 ключевых слов, связанных с ним. В примере, где текстовое описание 402 обучающего объекта представляет собой слово «cat» («кот»), первое выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, old cartoon drawing» («кот, рисунок в стиле старого мультфильма»), второе выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, Disney drawing, monochromatic scheme» («кот, рисунок в стиле Диснея, одноцветный»), третье выражение из набора дополненных текстовых выражений может представлять собой выражение «cat, anime drawing, vivid colors» («кот, рисунок в стиле аниме, яркие цвета») и т.д.

[0128] Затем первый способ 700 продолжается на шаге 708.

Шаг 708: ввод сервером в модель GMLM каждого описания из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта.

[0129] Как описано выше со ссылкой на фиг. 3, на шаге 708 сервер 202 может вводить каждое описание из набора дополненных текстовых описаний в модель 210 GMLM с целью формирования набора 406 изображений-кандидатов обучающего объекта.

[0130] Затем первый способ 700 продолжается на шаге 710.

Шаг 710: передача сервером набора изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов, и определение сервером для изображения-кандидата степени визуальной привлекательности, соответствующей количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов.

[0131] На шаге 710 сервер 202 может определять степень визуальной привлекательности для каждого изображения из сформированного на шаге 708 набора 406 изображений-кандидатов. Как подробно описано выше со ссылкой на фиг. 5, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 202 может определять степень визуальной привлекательности изображения-кандидата из набора 406 изображений-кандидатов на основе входных данных от множества оценщиков-людей 410.

[0132] Затем первый способ 700 продолжается на шаге 712.

Шаг 712: формирование сервером обучающего набора данных, содержащего множество обучающих цифровых объектов, каждый из которых содержит (а) указание на тестовый объект, (б) его изображение-кандидат, (в) дополненное текстовое описание, использованное для формирования изображения-кандидата, и (г) связанную с ним степень визуальной привлекательности.

[0133] На шаге 712 на основе определенных на шаге 710 степеней визуальной привлекательности, связанных с каждым изображением из набора 406 изображений-кандидатов, сервер 202 может формировать набор уточняющих данных для уточнения модели 210 GMLM с целью формирования более визуально привлекательных изображений объектов. Как описано выше, набор уточняющих данных содержит множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание 402 обучающего объекта, (б) изображение-кандидат обучающего объекта из набора 406 изображений-кандидатов и (в) степень визуальной привлекательности, определенную для этого изображения-кандидата, как описано выше.

[0134] Затем первый способ 700 продолжается на шаге 714.

Шаг 714: ввод сервером множества обучающих цифровых объектов в модель GMLM и уточнение таким образом модели GMLM для формирования более визуально привлекательных изображений объектов.

[0135] На шаге 714 сервер 202 может использовать сформированный таким образом набор уточняющих данных для уточнения модели 210 GMLM с целью формирования более визуально привлекательных изображений объектов. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии уточнение модели 210 GMLM может включать в себя два этапа уточнения: первый и второй этапы уточнения, описанные выше.

[0136] В частности, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для выполнения первого этапа уточнения сервер 202 может добавлять в модель 210 GMLM слой нейронной сети прямого распространения, которую сервер 202 дополнительно способен обучать сравнению пары изображений-кандидатов обучающего объекта с точки зрения визуальной привлекательности. С этой целью сервер 202 сначала может определять первую часть набора уточняющих данных так, что обучающий объект из нее содержит (а) текстовое описание 402 обучающего объекта, (б) изображение-кандидат обучающего объекта из набора 406 изображений-кандидатов и (в) степень визуальной привлекательности, определенную для этого изображения-кандидата. Затем сервер 202 может попарно вводить в модель 210 GMLM обучающие цифровые объекты из первой части набора уточняющих данных, связанной с обучающим объектом, для обучения модели 210 GMLM так, чтобы ее слой нейронной сети прямого распространения формировал значение, указывающее на то, превышает ли степень визуальной привлекательности, связанная с первым обучающим цифровым объектом из пары обучающих цифровых объектов, степень визуальной привлекательности, связанную со вторым обучающим цифровым объектом из пары обучающих цифровых объектов.

[0137] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для выполнения второго этапа уточнения сервер 202 может определять вторую часть набора уточняющих данных так, что обучающий цифровой объект из нее содержит только текстовое описание 402, используемое для формирования изображения-кандидата обучающего объекта. Затем сервер 202 может вводить в модель 210 GMLM каждый обучающий цифровой объект из второй части набора уточняющих данных для формирования изображений-кандидатов, максимизируя суммарное значение, определенное как сочетание (например, сумма) значений, сформированных на каждой итерации обучения слоем нейронной сети прямого распространения модели 210 GMLM. Для максимизации суммарного значения сервер 202 может, например, применять алгоритм проксимальной оптимизации политики.

[0138] В результате сервер 202 может уточнять модель 210 GMLM для формирования более визуально привлекательных изображений объектов. Таким образом, в ответ на получение текстового описания этапа использования для объекта этапа использования от пользователя 206 модель 210 GMLM может формировать изображение этапа использования, более визуально привлекательное для пользователя 206, чем изображение, сформированное на основе того же текстового описания этапа использования до уточнения модели 210 GMLM, описанного выше.

На этом выполнение первого способа 700 завершается.

[0140] Таким образом, благодаря некоторым вариантам осуществления первого способа 700 возможно уточнение модели 210 GMLM для формирования более визуально привлекательных изображений объектов, что позволяет повысить общую удовлетворенность пользователя 206 от модели 210 GMLM.

Второй способ

[0141] Описанные выше архитектура и примеры позволяют выполнять способ формирования ключевых слов для формирования дополненных текстовых описаний объектов для модели GMLM, такой как модель 210 GMLM. На фиг. 8 представлена блок-схема второго способа 800 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 800 может выполняться сервером 202, содержащим компьютерную систему 100.

[0142] Как показано на фиг. 8, шаги 802, 804, 806, 808 и 810 второго способа 800 идентичны шагам 702, 704, 706, 708 и 710 первого способа 700. Поэтому описание второго способа 800 начинается с шага 812.

Шаг 812: ранжирование сервером набора изображений-кандидатов согласно связанным с ними степеням визуальной привлекательности.

[0143] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, на шаге 812 сервер 202 может ранжировать набор 406 изображений-кандидатов согласно связанным с ними степеням визуальной привлекательности, определенным на шаге 810.

[0144] Затем второй способ 800 продолжается на шаге 814.

Шаг 814: определение сервером в качестве эталонных ключевых слов тех слов из набора ключевых слов, которые входят в состав описаний из набора дополненных текстовых описаний, связанных с заранее заданным количеством изображений-кандидатов с наибольшим рангом.

[0145] Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, на шаге 814 сервер 202 может (а) выбирать N изображений-кандидатов с наибольшим рангом, связанных с наибольшими степенями визуальной привлекательности, и (б) определять в качестве эталонных ключевых слов из набора 404 ключевых слов те ключевые слова, что были использованы для формирования N изображений-кандидатов с наибольшим рангом.

[0146] Затем второй способ 800 продолжается на шаге 816.

Шаг 816: вывод сервером эталонных ключевых слов в качестве кандидатов для формирования дополненных текстовых описаний других объектов для модели GMLM.

[0147] На шаге 816 сервер 202 может выдавать эталонные ключевые слова в качестве рекомендаций для формирования текстовых описаний более визуально привлекательных изображений объектов, таких как рекомендации 602, схематически показанные на фиг. 6, согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0148] На этом выполнение второго способа 800 завершается.

[0149] Таким образом, некоторые не имеющие ограничительного характера варианты осуществления второго способа 800 позволяют использовать степени визуальной привлекательности с целью определения ключевых слов для инициирования формирования моделью 210 GMLM более визуально привлекательных изображений объектов без уточнения модели 210 GMLM. Это также способствует повышению удовлетворенности пользователя 206 от взаимодействия с моделью 210 GMLM.

[0150] Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте осуществления настоящей технологии.

[0151] Для специалиста в данной области техники могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в иллюстративных целях, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.

Похожие патенты RU2831408C2

название год авторы номер документа
СИСТЕМА И СПОСОБ ОБУЧЕНИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА 2023
  • Боймель Александр Алексеевич
  • Гусев Даниил Владимирович
  • Кулунчаков Андрей Сергеевич
  • Миронов Артем Владимирович
RU2829065C1
СПОСОБ И СИСТЕМА ДЛЯ ПРОВЕРКИ МЕДИАКОНТЕНТА 2022
  • Горб Роман Викторович
  • Юдин Сергей Михайлович
  • Зобнин Алексей Игоревич
  • Орешин Павел Евгеньевич
RU2815896C2
СПОСОБ И СИСТЕМА ДЛЯ РАНЖИРОВАНИЯ ЦИФРОВЫХ ОБЪЕКТОВ НА ОСНОВЕ СВЯЗАННОЙ С НИМИ ЦЕЛЕВОЙ ХАРАКТЕРИСТИКИ 2019
  • Устименко Алексей Иванович
  • Воробьев Александр Леонидович
  • Гусев Глеб Геннадьевич
  • Сердюков Павел Викторович
RU2757174C2
Способ и система для формирования метки цифровой задачи алгоритмом машинного обучения 2022
  • Павличенко Никита Витальевич
  • Цейтлин Борис Александрович
  • Усталов Дмитрий Алексеевич
RU2829151C2
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ ФОРМИРОВАНИЮ ТЕКСТОВОЙ ВЫХОДНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 2020
  • Петров Алексей Сергеевич
  • Губанов Сергей Дмитриевич
  • Гайдаенко Сергей Александрович
RU2798362C2
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ СТЕПЕНИ УХУДШЕНИЯ ЛИДАРНЫХ ДАННЫХ 2021
  • Данилюк Кирилл Евгеньевич
  • Точилкин Дмитрий Сергеевич
RU2826476C1
СПОСОБ И СИСТЕМА ДЛЯ ОБРАБОТКИ ПОЛЬЗОВАТЕЛЬСКОГО РАЗГОВОРНОГО РЕЧЕВОГО ФРАГМЕНТА 2019
  • Алипов Вячеслав Вячеславович
  • Садовников Олег Александрович
  • Зубков Никита Владимирович
RU2757264C2
МНОГОЭТАПНОЕ ОБУЧЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА 2021
  • Боймель Александр Алексеевич
  • Соболева Дарья Михайловна
RU2824338C2
СПОСОБЫ И СИСТЕМЫ ФОРМИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ НЕЙРОННОЙ СЕТИ 2020
  • Орлов Всеволод Николаевич
RU2763215C2
Способ и система классификации пользователя электронного устройства 2021
  • Алиев Владимир Андреевич
  • Каргальцев Степан Александрович
  • Бабенко Артем Валерьевич
RU2795152C2

Иллюстрации к изобретению RU 2 831 408 C2

Реферат патента 2024 года СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении визуальной привлекательности изображений, сформированных посредством предварительно обученной порождающей моделью машинного обучения (моделью GMLM). Технический результат достигается за счет этапов, на которых выполняют: получение текстового описания тестового объекта для формирования его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении; получение связанных с текстовым описанием ключевых слов, каждое из которых указывает на команду визуализации для отображения тестового объекта на тестовом изображении; формирование на основе ключевых слов дополненных текстовых описаний изображения; ввод в модель GMLM каждого дополненного текстового описания для формирования изображений-кандидатов объекта; передачу изображений-кандидатов множеству оценщиков-людей для их попарного сравнения; определение степени визуальной привлекательности для изображения-кандидата на основе результатов попарного сравнения; и использование степени визуальной привлекательности для уточнения модели GMLM. 3 н. и 17 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 831 408 C2

1. Компьютерный способ уточнения порождающей модели машинного обучения (GMLM), обученной формированию изображений объектов на основе их текстовых описаний, для формирования более визуально привлекательных изображений объектов, выполняемый сервером, имеющим доступ к модели GMLM, и включающий в себя:

- получение сервером текстового описания тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении;

- получение сервером набора связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении;

- формирование на основе набора ключевых слов набора дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов;

- ввод сервером в модель GMLM каждого описания из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта;

- передачу сервером набора изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов;

- определение сервером для изображения-кандидата степени визуальной привлекательности, соответствующей количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов;

- формирование сервером обучающего набора данных, содержащего множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание тестового объекта, (б) его изображение-кандидат и (в) связанную с ним степень визуальной привлекательности; и

- ввод сервером множества обучающих цифровых объектов в модель GMLM и уточнение таким образом модели GMLM для формирования более визуально привлекательных изображений объектов.

2. Способ по п. 1, отличающийся тем, что по меньшей мере одна команда визуализации указывает на признак изображения-кандидата обучающего объекта, содержащий (а) стилистический признак изображения-кандидата и/или (б) метапризнак изображения-кандидата.

3. Способ по п. 2, отличающийся тем, что стилистический признак содержит по меньшей мере одно из следующего: (а) цветовое оформление изображения-кандидата; (б) интенсивность по меньшей мере одного цвета изображения-кандидата; (в) художественный стиль изображения-кандидата; и (г) признаки, связанные с по меньшей мере одним элементом композиции изображения-кандидата.

4. Способ по п. 3, отличающийся тем, что по меньшей мере один элемент композиции включает в себя: текстуру изображения-кандидата, симметричность изображения-кандидата, несимметричность изображения-кандидата, глубину пространства изображения-кандидата, линии на изображении-кандидате, кривые на изображении-кандидате, рамки изображения-кандидата, контрастность изображения-кандидата, ракурс обучающего объекта на изображении-кандидате, долю негативного пространства на изображении-кандидате, долю заполненного пространства на изображении-кандидате, передний план изображения-кандидата, задний план изображения-кандидата и визуальное напряжение изображения-кандидата.

5. Способ по п. 2, отличающийся тем, что метапризнак изображения-кандидата содержит по меньшей мере одно из следующего: (а) разрешение изображения-кандидата; (б) размер изображения-кандидата; и (в) формат изображения-кандидата.

6. Способ по п. 1, отличающийся тем, что уточнение модели GMLM включает в себя:

- обучение сервером модели GMLM на первом этапе уточнения определению значения, указывающего на изображение-кандидат из пары изображений-кандидатов тестового объекта, связанное с большей степенью визуальной привлекательности; и

- обучение сервером модели GMLM на втором этапе уточнения, следующим за первым этапом уточнения, формированию более визуально привлекательных изображений объектов путем максимизации суммарного значения, определенного как сочетание соответствующих значений.

7. Способ по п. 6, отличающийся тем, что ввод обучающего набора данных в модель GMLM включает в себя:

- ввод сервером в модель GMLM на первом этапе уточнения для обучающего цифрового объекта (а) текстового описания тестового объекта, (б) его изображения-кандидата и (в) связанной с ним степени визуальной привлекательности; и

- ввод сервером в модель GMLM на втором этапе уточнения для обучающего объекта текстового описания, использованного для формирования изображения-кандидата.

8. Способ по п. 6, отличающийся тем, что он перед обучением дополнительно включает в себя добавление в модель GMLM слоя нейронной сети прямого распространения.

9. Способ по п. 6, отличающийся тем, что максимизация суммарного значения включает в себя применение алгоритма проксимальной оптимизации политики.

10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя использование модели GMLM для формирования более визуально привлекательных изображений объектов, при этом использование включает в себя:

- получение сервером от пользовательского электронного устройства текстового описания этапа использования для объекта этапа использования; и

- ввод сервером в модель GMLM текстового описания этапа использования для формирования изображения этапа использования для объекта этапа использования.

11. Способ по п. 1, отличающийся тем, что модель GMLM содержит диффузионную модель машинного обучения.

12. Компьютерный способ формирования ключевых слов для формирования дополненных текстовых описаний объектов для модели GMLM, обученной формированию изображений объектов на основе их текстовых описаний, выполняемый сервером, имеющим доступ к модели GMLM, и включающий в себя:

- получение сервером текстового описания тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении;

- получение сервером набора связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении;

- формирование на основе набора ключевых слов набора дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов;

- ввод сервером в модель GMLM каждого описания из набора дополненных текстовых описаний для формирования набора изображений-кандидатов тестового объекта;

- передачу сервером набора изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов;

- определение сервером для изображения-кандидата степени визуальной привлекательности, соответствующей количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов;

- ранжирование сервером набора изображений-кандидатов согласно связанным с ними степеням визуальной привлекательности;

- определение сервером в качестве эталонных ключевых слов тех слов из набора ключевых слов, которые входят в состав описаний из набора дополненных текстовых описаний, связанных с заранее заданным количеством изображений-кандидатов с наибольшим рангом; и

- вывод сервером эталонных ключевых слов в качестве кандидатов для формирования дополненных текстовых описаний других объектов для модели GMLM.

13. Сервер для уточнения модели GMLM, обученной формированию изображений объектов на основе их текстовых описаний, для формирования более визуально привлекательных изображений объектов, содержащий машиночитаемый физический носитель информации, хранящий команды, и процессор, способный при исполнении команд:

- получать текстовое описание тестового объекта для формирования моделью GMLM его тестового изображения, при этом текстовое описание на естественном языке указывает на то, что должно быть изображено на тестовом изображении;

- получать набор связанных с текстовым описанием ключевых слов, каждое из которых указывает на по меньшей мере одну команду визуализации для отображения тестового объекта на тестовом изображении;

- формировать на основе набора ключевых слов набор дополненных текстовых описаний изображения, каждое из которых содержит сочетание текстового описания и ключевого слова из набора ключевых слов;

- вводить в модель GMLM каждое описание из набора дополненных текстовых описаний для формирования набора изображений-кандидатов объекта;

- передавать набор изображений-кандидатов тестового объекта множеству оценщиков-людей для попарного сравнения изображения-кандидата из набора изображений-кандидатов с другим изображением-кандидатом из набора изображений-кандидатов с точки зрения визуальной привлекательности каждого изображения-кандидата и другого изображения-кандидата для оценщика-человека из множества оценщиков-людей, у которых отсутствует информация о наборе ключевых слов, использованных для формирования набора изображений-кандидатов;

- определять для изображения-кандидата степень визуальной привлекательности, соответствующую количеству случаев, когда это изображение-кандидат было определено оценщиками из множества оценщиков-людей как более визуально привлекательное, чем другое изображение-кандидат из набора изображений-кандидатов;

- формировать обучающий набор данных, содержащий множество обучающих цифровых объектов, каждый из которых содержит (а) текстовое описание тестового объекта, (б) его изображение-кандидат и (в) связанную с ним степень визуальной привлекательности; и

- вводить множество обучающих цифровых объектов в модель GMLM и уточнять таким образом модель GMLM для формирования более визуально привлекательных изображений объектов.

14. Сервер по п. 13, отличающийся тем, что по меньшей мере одна команда визуализации указывает на признак изображения-кандидата обучающего объекта, содержащий (а) стилистический признак изображения-кандидата и/или (б) метапризнак изображения-кандидата.

15. Сервер по п. 13, отличающийся тем, что для уточнения модели GMLM процессор способен:

- обучать модель GMLM на первом этапе уточнения определению значения, указывающего на изображение-кандидат из пары изображений-кандидатов тестового объекта, связанное с большей степенью визуальной привлекательности; и

- обучать модель GMLM на втором этапе уточнения, следующим за первым этапом уточнения, формированию более визуально привлекательных изображений объектов путем максимизации суммарного значения, определенного как сочетание соответствующих значений.

16. Сервер по п. 15, отличающийся тем, что процессор способен вводить обучающий набор данных в модель GMLM путем:

- ввода в модель GMLM на первом этапе уточнения для обучающего цифрового объекта (а) текстового описания тестового объекта, (б) его изображения-кандидата и (в) связанной с ним степени визуальной привлекательности; и

- ввода в модель GMLM на втором этапе уточнения для обучающего объекта текстового описания, использованного для формирования изображения-кандидата.

17. Сервер по п. 15, отличающийся тем, что процессор дополнительно способен добавлять в модель GMLM слой нейронной сети прямого распространения перед обучением модели GMLM на первом этапе уточнения.

18. Сервер по п. 15, отличающийся тем, что процессор способен применять алгоритм проксимальной оптимизации политики для максимизации суммарного значения.

19. Сервер по п. 13, отличающийся тем, что процессор дополнительно способен использовать модель GMLM для формирования более визуально привлекательных изображений объектов путем:

- получения от пользовательского электронного устройства текстового описания этапа использования для объекта этапа использования; и

- ввода в модель GMLM текстового описания этапа использования для формирования изображения этапа использования для объекта этапа использования.

20. Сервер по п. 13, отличающийся тем, что модель GMLM содержит диффузионную модель MLM.

Документы, цитированные в отчете о поиске Патент 2024 года RU2831408C2

CN 109271537 B, 23.11.2021
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
US 10074200 B1, 11.09.2018
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса 1924
  • Шапошников Н.П.
SU2015A1
СИСТЕМА И СПОСОБ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ, СОДЕРЖАЩИХ ТЕКСТ 2019
  • Петричкович Ярослав Ярославович
  • Миллер Станислав Юрьевич
  • Хамухин Анатолий Владимирович
  • Оводов Илья Геннадьевич
RU2717787C1

RU 2 831 408 C2

Авторы

Павличенко Никита Витальевич

Усталов Дмитрий Алексеевич

Даты

2024-12-05Публикация

2023-03-10Подача