ОБЛАСТЬ ТЕХНИКИ
[01] Настоящая технология относится к системам и способам для генерирования моделей машинного обучения. В частности, настоящая технология направлена на способ и систему для определения обучающего набора для обучения алгоритма машинного обучения (MLA).
УРОВЕНЬ ТЕХНИКИ
[02] Алгоритмы машинного обучения (MLA) используются для удовлетворения многочисленных потребностей в реализуемых компьютером технологиях. Обычно MLA используются для генерирования прогноза на основе предоставленных ему данных. В данной области известно много различных типов MLA, которые обычно группируются в три группы: MLA, основанные на обучении с учителем, MLA, основанные на обучении без учителя, и MLA, основанные на обучении с подкреплением.
[03] Одним примером MLA для обучения с учителем являются модели «дерева принятия решений». В этом типе MLA используется дерево принятия решений для перехода от наблюдений за некоторым элементом (представляемых в ветвях) к выводам о целевом значении этого элемента (представляемом в листьях). Для того, чтобы основанный на дереве принятия решений MLA работал, его необходимо «построить» или обучить с использованием обучающего набора объектов, содержащего большое множество обучающих объектов (таких как документы, события или подобное).
[04] Некоторые MLA именуются «классификаторами» и обычно выполняются с возможностью классификации объектов по одному или более классам. Другими словами, некоторые MLA сконфигурированы для решения проблемы идентификации того, к какому набору категорий (подгрупп) принадлежит некоторое новое наблюдение, эти MLA были обучены на основе обучающего набора данных, содержащего наблюдения (или экземпляры), категориальная принадлежность которых известна.
[05] Полученный в результате спрогнозированный класс может использоваться в качестве дополнительной информации о некотором определенном объекте для предоставления потребителям более качественных электронных онлайн-служб. Например, информация, получаемая в результате классификации объектов, может использоваться службами поисковой системы (например, классификацией документов), службами рекомендации контента (например, классификацией контента), службами электронной почты (например, классификацией сообщений электронной почты), службами электронной коммерции (например, классификацией пользователей) и подобными.
[06] Например, классификатор может быть обучен на наборе обучающих данных, связанном с объектом и содержащем информацию, связанную с объектом, и истинный класс этого объекта. Классификатор обучается тому, какая информация об объекте с большей вероятностью указывает истинный класс обучающих объектов. Затем классификатор используется для определения спрогнозированного класса некоторого используемого (in-use) объекта на основе информации, доступной для этого используемого объекта.
[07] Неправильная классификация объектов может привести к систематической ошибке во время дальнейшей обработки объектов и, как правило, пагубно сказывается на качестве онлайн-служб, требующих такой классификации.
[08] Патент США № 8,572,071, озаглавленный «Systems and methods for data transformation using higher order learning» («Системы и способы для преобразования данных с использованием обучения более высокого порядка») и опубликованный 29 октября 2013 года, раскрывает способ и устройство для преобразования данных в векторную форму. Каждый вектор составляется из набора атрибутов, которые либо являются булевыми, либо были отображены в булевую форму. Векторы могут попадать или не попадать в категории, назначенные экспертом в предметной области (SME). Если категории существуют, категориальные метки делят векторы на подмножества. Первое преобразование вычисляет априорную вероятность для каждого атрибута на основе связей между атрибутами в каждом подмножестве векторов. Второе преобразование вычисляет новое числовое значение для каждого атрибута на основе связей между атрибутами в каждом подмножестве векторов. Третье преобразование оперирует векторами, которые не были категоризированы. Основываясь на автоматическом выборе категорий из атрибутов, такое преобразование вычисляет новое числовое значение для каждого атрибута на основе связей между атрибутами в каждом подмножестве векторов.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[09] Варианты осуществления настоящей технологии были разработаны на основе понимания разработчиками по меньшей мере одной технической проблемы, связанной с подходами в предшествующем уровне техники к методикам машинного обучения с учителем.
[10] Разработчики настоящей технологии определили один или более недостатков реализуемых компьютером методик для обучения алгоритмов машинного обучения (MLA). Одна из существующих проблем с обучением MLA называется «чрезмерная подгонка» или «переобучение». Вообще говоря, чрезмерно подогнанная модель прогнозирования дает относительно низкие ошибки прогнозирования на обучающих данных, но дает относительно высокие ошибки на используемых данных (то есть данных, которые она не наблюдала во время фазы обучения). Другими словами, чрезмерная подгонка происходит, когда модель прогнозирования начинает в некотором смысле «запоминать» обучающие данные, а не учиться делать обобщения на основе некоторой тенденции. Чрезмерная подгонка обычно возникает, когда модель прогнозирования сложна, например, когда у нее слишком много параметров по сравнению с количеством наблюдений. Разработчики настоящей технологии разработали способы и системы, чтобы потенциально избегать чрезмерной подгонки при обучении моделей прогнозирования. В некоторых вариантах осуществления можно сказать, что раскрытые здесь способы и системы могут, по меньшей мере, снизить риск и/или влияние чрезмерной подгонки во время фазы использования модели прогнозирования.
[11] Как будет описано более подробно ниже, разработчики настоящей технологии разработали способы и системы для генерирования «обучающих признаков», которые подлежат использованию для обучения модели дерева принятия решений с учителем.
[12] Обучающие признаки, генерируемые в контексте настоящей технологии, могут содержать одни или и те, и другие из «текстовых признаков» и «основанных на векторном представлении признаков». Предполагается, что некоторый определенный текстовый признак может быть сгенерирован для соответствующего цифрового объекта на основе (i) текстовой информации о соответствующем цифровом объекте и (ii) текстовой информации о по меньшей мере одном «предыдущем цифровом объекте» относительно соответствующего цифрового объекта. Также предполагается, что некоторый определенный основанный на текстовом представлении признак может быть сгенерирован для соответствующего цифрового объекта на основе (i) основанной на векторном представлении информации о соответствующем цифровом объекте и (ii) основанной на векторном представлении информации о по меньшей мере одном «предыдущем цифровом объекте» относительно соответствующего цифрового объекта.
[13] В контексте настоящей технологии обучающие объекты, используемые во время фазы обучения модели классификации, «упорядочиваются» в последовательность обучающих объектов. В некоторых вариантах осуществления обучающие объекты могут быть упорядочены случайным образом. В других вариантах осуществления обучающие объекты могут быть упорядочены на основе одной или нескольких «присущих объекту» характеристик. Например, обучающие объекты могут быть упорядочены на основе временной информации об обучающих объектах.
[14] После того, как текстовые и/или основанные на векторном представлении признаки сгенерированы таким образом для соответствующих обучающих объектов, модель прогнозирования может быть обучена для обучения классифицировать объекты. Разработчики настоящей технологии осознали, что генерирование текстовых и/или основанных на векторном представлении обучающих признаков для обучающих объектов (i) с учетом информации о предыдущих обучающих объектах в последовательности и (ii) без учета информации о последующих обучающих объектах в последовательности может повысить классификационные характеристики модели. Можно сказать, что генерирование таким образом текстовых и/или основанных на векторном представлении признаков для соответствующих наборов обучающих данных может позволить, по меньшей мере, уменьшить чрезмерную подгонку модели классификации.
[15] Следует отметить, что алгоритм градиентного бустинга может использоваться для обучения модели классификации на основе наборов обучающих данных, содержащих соответствующие текстовые и/или основанные на векторном представлении обучающие признаки. В некоторых вариантах осуществления настоящей технологии методика градиентного бустинга может быть реализована как часть библиотеки CatBoost. Библиотека CatBoost и дополнительная информация об алгоритмах градиентного бустинга доступна на https://catboost.ai. Таким образом, можно сказать, что по меньшей мере некоторые варианты осуществления настоящей технологии могут быть реализованы в соответствии со структурой CatBoost.
[16] Следует отметить, что в по меньшей мере некоторых моделях, основанных на дереве принятия решений, например, при использовании в сочетании с методиками градиентного бустинга, листья деревьев могут содержать числовые значения, а ветви представляют собой конъюнкции признаков. Числовые значения можно комбинировать и сравнивать с одним или более пороговыми значениями, например, для классификации объекта.
[17] В первом широком аспекте настоящей технологии обеспечен способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов. Способ является исполняемым посредством сервера. Сервер исполняет MLA. Способ содержит получение сервером множества обучающих примеров для обучения MLA. Определенный обучающий пример включает в себя текстовые данные, связанные с соответствующим объектом, и указание истинного класса соответствующего объекта. Способ содержит упорядочивание сервером упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров. Упомянутый определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности. Способ содержит генерирование сервером текстового признака для упомянутого определенного обучающего примера на основе текстовых данных в упомянутом определенном обучающем примере, а также текстовых данных и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах. Способ содержит определение сервером обучающего набора для MLA на основе упомянутого определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя текстовый признак, а метка представляет истинный класс соответствующего объекта.
[18] В некоторых вариантах осуществления способа обучающие входные данные дополнительно включают в себя текстовые данные соответствующего объекта, текстовые данные для ввода с текстовым признаком в MLA.
[19] В некоторых вариантах осуществления способа способ дополнительно содержит обучение сервером MLA на основе обучающего набора. MLA обучается использовать входные данные для генерирования соответствующих спрогнозированных классов.
[20] В некоторых вариантах осуществления способа объектом является цифровой документ, предоставляемый в качестве результата поиска в ответ на поисковый запрос.
[21] В некоторых вариантах осуществления способа объектом является цифровой элемент, рекомендуемый пользователю системы рекомендаций контента.
[22] В некоторых вариантах осуществления способа объектом является сообщение электронной почты, предназначенное пользователю платформы электронной почты.
[23] В некоторых вариантах осуществления способа способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих примеров, в хранилище.
[24] В некоторых вариантах осуществления способа генерирование текстового признака содержит применение сервером по меньшей мере одной из: наивной байесовской функции, функции частоты слова - обратной частоты документа (TF-IDF) и функции лучшего совпадения 25 (BM25).
[25] В некоторых вариантах осуществления способа способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих наборов, в хранилище. Множество обучающих наборов включает в себя обучающий набор.
[26] В некоторых вариантах осуществления способа способ дополнительно содержит получение сервером некоторого определенного используемого примера для MLA, при этом упомянутый определенный используемые пример включает в себя текстовые данные, связанные с соответствующим используемым объектом. Способ дополнительно содержит генерирование сервером используемого текстового признака для упомянутого определенного используемого примера на основе текстовых данных в упомянутом определенном используемом примере и текстовых данных, хранящихся в хранилище. Способ дополнительно содержит ввод сервером некоторых определенных входных данных в MLA, причем упомянутые определенные используемые входные данные включают в себя используемый текстовый признак, MLA выполнен с возможностью определения спрогнозированного класса соответствующего используемого объекта.
[27] В некоторых вариантах осуществления способа упомянутые определенные используемые входные данные дополнительно содержат текстовые данные соответствующего используемого объекта.
[28] В некоторых вариантах осуществления способа MLA обучается выполнять двоичную классификацию объектов.
[29] В некоторых вариантах осуществления способа MLA обучается выполнять многоклассовую классификацию объектов.
[30] В некоторых вариантах осуществления способа MLA имеет тип дерева принятия решений.
[31] Во втором широком аспекте настоящей технологии обеспечен сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов. Сервер исполняет MLA. Сервер выполнен с возможностью получения множества обучающих примеров для обучения MLA. Определенный обучающий пример включает в себя текстовые данные, связанные с соответствующим объектом, и указание истинного класса соответствующего объекта. Сервер выполнен с возможностью упорядочивания упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров. Упомянутый определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности. Сервер выполнен с возможностью генерирования текстового признака для упомянутого определенного обучающего примера на основе текстовых данных в упомянутом определенном обучающем примере, а также текстовых данных и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах. Сервер выполнен с возможностью определения обучающего набора для MLA на основе упомянутого определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя текстовый признак. Метка представляет истинный класс соответствующего объекта.
[32] В некоторых вариантах осуществления сервера обучающие входные данные дополнительно включают в себя текстовые данные соответствующего объекта, и эти текстовые данные подлежат вводу сервером с текстовым признаком в MLA.
[33] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью обучения MLA на основе обучающего набора. MLA обучается использовать входные данные для генерирования соответствующих спрогнозированных классов.
[34] В некоторых вариантах осуществления сервера объектом является цифровой документ, предоставляемый в качестве результата поиска в ответ на поисковый запрос.
[35] В некоторых вариантах осуществления сервера объектом является цифровой элемент, рекомендуемый пользователю системы рекомендаций контента.
[36] В некоторых вариантах осуществления сервера объектом является сообщение электронной почты, предназначенное пользователю платформы электронной почты.
[37] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих примеров, в хранилище.
[38] В некоторых вариантах осуществления сервера генерирование текстового признака содержит применение сервером по меньшей мере одной из: наивной байесовской функции, функции частоты слова - обратной частоты документа (TF-IDF) и функции лучшего совпадения 25 (BM25).
[39] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих наборов, в хранилище, причем множество обучающих наборов включает в себя упомянутый обучающий набор.
[40] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью получения некоторого определенного используемого примера для MLA, при этом упомянутый определенный используемый пример включает в себя текстовые данные, связанные с соответствующим используемым объектом. Сервер дополнительно выполнен с возможностью генерирования используемого текстового признака для упомянутого определенного используемого примера на основе текстовых данных в упомянутом определенном используемом примере и текстовых данных, хранящихся в хранилище. Сервер дополнительно выполнен с возможностью ввода некоторых определенных используемых входных данных в MLA. Упомянутые определенные используемые входные данные включают в себя используемый текстовый признак. MLA выполнен с возможностью определения спрогнозированного класса соответствующего используемого объекта.
[41] В некоторых вариантах осуществления сервера упомянутые определенные используемые входные данные дополнительно содержат текстовые данные соответствующего используемого объекта.
[42] В некоторых вариантах осуществления сервера MLA обучается выполнять двоичную классификацию объектов.
[43] В некоторых вариантах осуществления сервера MLA обучается выполнять многоклассовую классификацию объектов.
[44] В некоторых вариантах осуществления сервера, MLA имеет тип дерева принятия решений.
[45] В третьем широком аспекте настоящей технологии обеспечен способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем способ является исполняемым посредством сервера. Сервер исполняет MLA. Способ содержит получение сервером множества обучающих примеров для обучения MLA. Определенный обучающий пример включает в себя векторное представление, связанное с соответствующим объектом, и указание истинного класса соответствующего объекта. Способ содержит упорядочивание сервером множества обучающих примеров в упорядоченную последовательность обучающих примеров. Упомянутый определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности. Способ содержит генерирование сервером основанного на векторном представлении признака для упомянутого определенного обучающего примера на основе векторного представления в упомянутом определенном обучающем примере, а также векторных представлений и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета векторных представлений в последующих обучающих примерах. Способ содержит определение сервером обучающего набора для MLA на основе упомянутого определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя основанный на векторном представлении признак. Метка представляет истинный класс соответствующего объекта.
[46] В некоторых вариантах осуществления способа обучающие входные данные дополнительно включают в себя векторное представление соответствующего объекта, и это векторное представление предназначено для ввода с основанным на векторном представлении признаком в MLA.
[47] В некоторых вариантах осуществления способа способ дополнительно содержит обучение сервером MLA на основе обучающего набора. MLA обучается использовать входные данные для генерирования соответствующих спрогнозированных классов.
[48] В некоторых вариантах осуществления способа объектом является цифровой документ, предоставляемый в качестве результата поиска в ответ на поисковый запрос.
[49] В некоторых вариантах осуществления способа объектом является цифровой элемент, рекомендуемый пользователю системы рекомендаций контента.
[50] В некоторых вариантах осуществления способа объектом является сообщение электронной почты, предназначенное пользователю платформы электронной почты.
[51] В некоторых вариантах осуществления способа способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих примеров, в хранилище.
[52] В некоторых вариантах осуществления способа генерирование основанного на векторном представлении признака содержит определение сервером по меньшей мере одного из: косинусного расстояния между упомянутым векторным представлением и средним векторным представлением для некоторого определенного класса предыдущих обучающих примеров, евклидова расстояния между упомянутым векторным представлением и ближайшими соседями в количестве K из упомянутого определенного класса предыдущих обучающих примеров.
[53] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером векторного представления для упомянутого определенного обучающего примера на основе текстовых данных, связанных с упомянутым определенным объектом.
[54] В некоторых вариантах осуществления способа векторное представление генерируется посредством применения по меньшей мере одного из: алгоритма word2vec, алгоритма fastText и алгоритма GloVe.
[55] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером векторного представления для упомянутого определенного обучающего примера на основе данных изображения, связанных с упомянутым определенным объектом.
[56] В некоторых вариантах осуществления способа способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих наборов, в хранилище, и причем множество обучающих наборов включает в себя упомянутый обучающий набор.
[57] В некоторых вариантах осуществления способа способ дополнительно содержит получение сервером некоторого определенного используемого примера для MLA, при этом упомянутый определенный используемый пример включает в себя используемое векторное представление, связанное с соответствующим используемым объектом. Способ дополнительно содержит генерирование сервером используемого основанного на векторном представлении признака для упомянутого определенного используемого примера на основе используемого векторного представления в упомянутом определенном используемом примере и основанных на векторном представлении данных, хранящихся в хранилище. Способ дополнительно содержит ввод сервером некоторых определенных используемых входных данных в MLA, причем упомянутые определенные используемые входные данные включают в себя используемый основанный на векторном представлении признак. MLA выполнен с возможностью определения спрогнозированного класса соответствующего используемого объекта.
[58] В некоторых вариантах осуществления способа используемые входные данные дополнительно включают в себя используемое векторное представление, связанное с используемым объектом.
[59] В некоторых вариантах осуществления способа MLA обучается выполнять двоичную классификацию объектов.
[60] В некоторых вариантах осуществления способа MLA обучается выполнять многоклассовую классификацию объектов.
[61] В некоторых вариантах осуществления способа MLA имеет тип дерева принятия решений.
[62] В четвертом широком аспекте настоящей технологии обеспечен сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов. Сервер исполняет MLA. Сервер выполнен с возможностью получения множества обучающих примеров для обучения MLA. Определенный обучающий пример включает в себя векторное представление, связанное с соответствующим объектом, и указание истинного класса соответствующего объекта. Сервер выполнен с возможностью упорядочивания упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров. Упомянутый определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности. Сервер выполнен с возможностью генерирования основанного на векторном представлении признака для упомянутого определенного обучающего примера на основе векторного представления в упомянутом определенном обучающем примере, а также векторных представлений и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета векторных представлений в последующих обучающих примерах. Сервер выполнен с возможностью определения обучающего набора для MLA на основе упомянутого определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя основанный на векторном представлении признак. Метка представляет истинный класс соответствующего объекта.
[63] В некоторых вариантах осуществления сервера обучающие входные данные дополнительно включают в себя векторное представление соответствующего объекта, и это векторное представление подлежит вводу с основанным на векторном представлении признаком в MLA.
[64] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью обучения MLA на основе обучающего набора. MLA обучается использовать входные данные для генерирования соответствующих спрогнозированных классов.
[65] В некоторых вариантах осуществления сервера объектом является цифровой документ, предоставляемый в качестве результата поиска в ответ на поисковый запрос.
[66] В некоторых вариантах осуществления сервера объектом является цифровой элемент, рекомендуемый пользователю системы рекомендаций контента.
[67] В некоторых вариантах осуществления сервера объектом является сообщение электронной почты, предназначенное пользователю платформы электронной почты.
[68] В некоторых вариантах осуществления сервера сервер выполнен с возможностью сохранения данных, указывающих множество обучающих примеров, в хранилище.
[69] В некоторых вариантах осуществления сервера генерирование основанного на векторном представлении признака содержит определение сервером по меньшей мере одного из: косинусного расстояния между упомянутым векторным представлением и средним векторным представлением для некоторого определенного класса предыдущих обучающих примеров, евклидова расстояния между упомянутым векторным представлением и ближайшими соседями в количестве K из упомянутого определенного класса предыдущих обучающих примеров.
[70] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования векторного представления для упомянутого определенного обучающего примера на основе текстовых данных, связанных с упомянутым определенным объектом.
[71] В некоторых вариантах осуществления способа векторное представление генерируется посредством применения по меньшей мере одного из: алгоритма word2vec, алгоритма fastText и алгоритма GloVe.
[72] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования векторного представления для упомянутого определенного обучающего примера на основе данных изображения, связанных с упомянутым определенным объектом.
[73] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих наборов, в хранилище, и причем множество обучающих наборов включает в себя упомянутый обучающий набор.
[74] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью получения некоторого определенного используемого примера для MLA, при этом упомянутый определенный используемый пример включает в себя используемое векторное представление, связанное с соответствующим используемым объектом. Сервер дополнительно выполнен с возможностью генерирования используемого основанного на векторном представлении признака для упомянутого определенного используемого примера на основе используемого векторного представления и основанных на векторном представлении данных, хранящихся в хранилище. Сервер выполнен с возможностью ввода некоторых определенных используемых входных данных в MLA, при этом упомянутые определенные используемые входные данные включают в себя основанные на векторном представлении данные соответствующего используемого объекта и используемый основанный на векторном представлении признак. MLA выполнен с возможностью определения спрогнозированного класса соответствующего используемого объекта.
[75] В некоторых вариантах осуществления сервера упомянутые определенные используемые входные данные дополнительно включают в себя используемое векторное представление, связанное с соответствующим используемым объектом.
[76] В некоторых вариантах осуществления сервера MLA обучается выполнять двоичную классификацию объектов.
[77] В некоторых вариантах осуществления сервера MLA обучается выполнять многоклассовую классификацию объектов.
[78] В некоторых вариантах осуществления сервера, MLA имеет тип дерева принятия решений.
[79] В еще одном широком аспекте настоящей технологии обеспечен способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов. Способ является исполняемым посредством сервера. Сервер исполняет MLA. Способ содержит получение сервером множества обучающих примеров для обучения MLA. Определенный обучающий пример включает в себя характерные для объекта данные, связанные с соответствующим цифровым объектом, и указание истинного класса соответствующего объекта. Способ содержит упорядочивание сервером множества обучающих примеров в упорядоченную последовательность обучающих примеров. Упомянутый определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности. Способ содержит кластеризацию сервером предыдущих обучающих примеров в по меньшей мере два кластера предыдущих обучающих примеров в многомерном пространстве. Предыдущие обучающие примеры в определенном кластере связаны с первым истинным классом. Способ содержит генерирование сервером признака подобия для упомянутого определенного обучающего примера на основе расстояния между упомянутым определенным кластером и упомянутым определенным обучающим примером в многомерном пространстве. Признак подобия указывает подобие между упомянутым определенным обучающим примером и предыдущими обучающими примерами первого истинного класса. Способ содержит определение сервером обучающего набора для MLA на основе упомянутого определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя признак подобия. Метка представляет истинный класс соответствующего объекта.
[80] В некоторых вариантах осуществления способа определенный кластер связан с соответствующим центром кластера. Расстояние представляет собой расстояние между центром кластера собственно упомянутого определенного кластера и упомянутым определенным обучающим примером.
[81] В некоторых вариантах осуществления способа признак подобия представляется по меньшей мере двумя признаками подобия.
[82] В некоторых вариантах осуществления способа количество признаков подобия среди упомянутых по меньшей мере двух признаков подобия равно общему количеству истинных классов.
[83] В некоторых вариантах осуществления способа MLA обучается выполнять двоичную классификацию цифровых объектов, и при этом общее количество истинных классов равно двум.
[84] В некоторых вариантах осуществления способа MLA обучается выполнять многоклассовую классификацию цифровых объектов, и при этом общее количество истинных классов больше двух.
[85] В контексте настоящего описания, если явно не указано иное, «электронное устройство», «электронное устройство», «сервер», «удаленный сервер» и «компьютерная система» представляют собой любое аппаратное обеспечение и/или программное обеспечение, подходящее для соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного обеспечения и/или программного обеспечения включают компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и т.д.) и/или их комбинацию.
[86] В контексте настоящего описания, если прямо не предусмотрено иное, выражение «считываемый компьютером носитель» и «память» предназначены для охвата носителей любого типа и вида, неограничивающие примеры которых включают в себя RAM, ROM, диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-ключи, карты флэш-памяти, твердотельные накопители и ленточные накопители.
[87] В контексте настоящего описания, если прямо не предусмотрено иное, «указание» информационного элемента может быть самим информационным элементом или указателем, ссылкой, гиперссылкой или другим опосредованным механизмом, позволяющим получателю такого указания определить местоположение в сети, памяти, базе данных или другом считываемом компьютером носителе, из которого информационный элемент может быть извлечен. Например, указание документа может включать в себя сам документ (т.е. его содержимое), или оно может быть уникальным дескриптором документа, идентифицирующим файл относительно некоторой конкретной файловой системы, или некоторым другим средством направления получателя такого указания в местоположение в сети, адрес памяти, таблицу базы данных или иное местоположение, в котором можно осуществить доступ к файлу. Специалист в данной области поймет, что степень точности, требуемая в таком указании, зависит от степени какого-либо предварительного понимания того, какая интерпретация будет дана информации, обмениваемой между отправителем и получателем такого указания. Например, если до связи между отправителем и получателем понимается, что указание информационного элемента будет иметь форму ключа базы данных для записи в некоторой конкретной таблице предопределенной базы данных, содержащей информационный элемент, то отправка ключа базы данных является всем, что требуется для эффективной передачи информационного элемента получателю, даже если сам информационный элемент не был передан между отправителем и получателем такого указания.
[88] В контексте настоящего описания, если прямо не предусмотрено иное, слова «первый», «второй», «третий» и т. д. использовались в качестве прилагательных только для того, чтобы позволить отличать существительные, которые они модифицируют, друг от друга, а не для описания какой-либо особой взаимосвязи между такими существительными. Таким образом, например, следует понимать, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) таких серверов, равно как и их использование (само по себе) не означает, что какой-либо «второй сервер» должен обязательно существовать в любой определенной ситуации. Кроме того, как обсуждается в других контекстах данного документа, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут быть одним и тем же программным обеспечением и/или аппаратным обеспечением, в других случаях они могут представлять собой разное программное обеспечение и/или аппаратное обеспечение.
[89] Каждая из реализаций настоящей технологии обладает по меньшей мере одним из вышеупомянутых аспектов и/или цели, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, которые возникли в попытке достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или удовлетворять другим целям, которые не описаны в данном документе явным образом. Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут очевидными из нижеследующего описания, сопроводительных чертежей и приложенной формулы изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[90] Для лучшего понимания настоящей технологии, а также других аспектов и ее дополнительных признаков, ссылка приводится на нижеследующее описание, которое должно использоваться в сочетании с сопроводительными чертежами, на которых:
[91] Фигура 1 представляет собой схематичную иллюстрацию системы в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
[92] Фигура 2 иллюстрирует представление упорядоченной последовательности обучающих примеров, генерируемых системой с Фигуры 1, в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
[93] Фигура 3 иллюстрирует представление того, как текстовый обучающий признак и основанный на векторном представлении обучающий признак генерируются для некоторого определенного обучающего примера сервером с Фигуры 1, в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
[94] Фигура 4 иллюстрирует представление одной итерации обучения алгоритма машинного обучения (MLA), исполняемой сервером с Фигуры 1 на основе набора обучающих данных, включающего в себя текстовый обучающий признак и основанный на векторном представлении обучающий признак, в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
[95] Фигура 5 иллюстрирует представление одной итерации использования MLA с Фигуры 4 на основе набора используемых данных, содержащего текстовый используемый признак и используемый основанный на векторном представлении признак, в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
[96] Фигура 6 является представлением блок-схемы способа для определения набора обучающих данных с Фигуры 4 сервером с Фигуры 1, как это предусмотрено в по меньшей мере некоторых неограничивающих вариантах осуществления настоящей технологии.
[97] Фигура 7 является представлением блок-схемы способа для определения набора обучающих данных с Фигуры 4 сервером с Фигуры 1, как это предусмотрено в по меньшей мере некоторых неограничивающих вариантах осуществления настоящей технологии.
[98] Фигура 8 иллюстрирует представление того, как обучающие признаки подобия генерируются для некоторого определенного обучающего примера сервером с Фигуры 1 в соответствии с по меньшей мере некоторыми неограничивающими вариантами осуществления настоящей технологии.
ПОДРОБНОЕ ОПИСАНИЕ
[99] Приведенные в данном документе примеры и условные формулировки призваны главным образом помочь читателю понять принципы настоящей технологии, а не ограничить ее объем такими конкретно приведенными примерами и условиями. Должно быть понятно, что специалисты в данной области смогут разработать различные механизмы, которые, хоть и не описаны в данном документе явным образом, тем не менее воплощают принципы настоящей технологии и включаются в ее суть и объем.
[100] Кроме того, нижеследующее описание может описывать реализации настоящей технологии в относительно упрощенном виде для целей упрощения понимания. Специалисты в данной области техники поймут, что различные реализации настоящей технологии могут иметь большую сложность.
[101] В некоторых случаях также могут быть изложены примеры модификаций настоящей технологии, которые считаются полезными. Это делается лишь для содействия понимаю и, опять же, не для строгого определения объема или очерчивания границ настоящей технологии. Эти модификации не являются исчерпывающим списком, и специалист в данной области может осуществлять другие модификации, все еще оставаясь при этом в рамках объема настоящей технологии. Кроме того, случаи, когда примеры модификаций не приводятся, не следует толковать так, что никакие модификации не могут быть осуществлены и/или что описанное является единственным способом реализации такого элемента настоящей технологии.
[102] Кроме того, все содержащиеся в данном документе утверждения, в которых указываются принципы, аспекты и реализации настоящей технологии, а также их конкретные примеры, призваны охватить как структурные, так и функциональные эквиваленты, вне зависимости от того, известны ли они в настоящее время или будут разработаны в будущем. Таким образом, например, специалисты в данной области осознают, что любые блок-схемы в данном документе представляют концептуальные виды иллюстративной схемы, воплощающей принципы настоящей технологии. Аналогичным образом, будет понятно, что любые блок-схемы, схемы последовательности операций, схемы изменения состояний, псевдокоды и подобное представляют различные процессы, которые могут быть по сути представлены на считываемых компьютерам носителях и исполнены компьютером или процессором вне зависимости от того, показан такой компьютер или процессор явным образом или нет.
[103] Функции различных элементов, показанных на фигурах, в том числе любого функционального блока, помеченного как «процессор» или «графический процессор», могут быть обеспечены с помощью специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного исполнять программное обеспечение и связанного с надлежащим программным обеспечением. При обеспечении процессором функции могут быть обеспечены одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут быть совместно используемыми. В некоторых вариантах осуществления настоящей технологии процессор может быть процессором общего назначения, таким как центральный процессор (CPU) или процессор, выделенный для конкретной цели, например графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно истолковываться как относящееся исключительно к аппаратному обеспечению, способному исполнять программное обеспечение, и может в неявной форме включать в себя, без ограничения, аппаратное обеспечение цифрового сигнального процессора (DSP), сетевой процессор, интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянную память (ROM) для хранения программного обеспечения, оперативную память (RAM) и энергонезависимое хранилище. Другое аппаратное обеспечение, традиционное и/или специализированное, также может быть включено в состав.
[104] Программные модули, или просто модули, в качестве которых может подразумеваться программное обеспечение, могут быть представлены в настоящем документе как любая комбинация элементов блок-схемы последовательности операций или других элементов, указывающих выполнение этапов процесса и/или текстовое описание. Такие модули могут выполняться аппаратным обеспечением, которое показано явно или неявно.
[105] Учитывая эти основополагающие вещи, рассмотрим некоторые неограничивающие примеры, чтобы проиллюстрировать различные реализации аспектов настоящей технологии.
[106] Со ссылкой на Фигуру 1 проиллюстрировано схематичное представление системы 100, причем система 100 подходит для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что изображенная система 100 является лишь иллюстративной реализацией настоящей технологии. Таким образом, нижеследующее описание предназначено лишь для того, чтобы использоваться в качестве описания иллюстративных примеров настоящей технологии.
[107] В проиллюстрированном примере система 100 может быть применена для предоставления одной или более онлайн-служб определенному пользователю. С этой целью система 100 содержит, среди прочего, электронное устройство 102, связанное с пользователем 101, сервер 106, множество 108 серверов ресурсов и систему 150 баз данных.
[108] В одном неограничивающем примере система 100 может быть применена для предоставления служб поисковой системы. В этом примере пользователь 101 может отправить определенный поисковый запрос через электронное устройство 102 на сервер 106, который, в ответ, выполнен с возможностью предоставления результатов поиска пользователю 101. Сервер 106 генерирует эти результаты поиска на основе информации, которая была извлечена из, например, множества 108 серверов ресурсов и сохранена в системе 150 баз данных. Эти результаты поиска, предоставляемые системой 100, могут быть релевантны отправленному поисковому запросу. Можно сказать, что сервер 106 может быть выполнен с возможностью размещения поисковой системы 120.
[109] Как станет очевидно из приведенного ниже описания, в дополнение к (или вместо) предоставлению служб поисковой системы пользователю 101 могут быть предоставлены другие онлайн-службы, такие как службы рекомендаций контента, служба электронной почты, электронная коммерция и подобные. Например, сервер 106 может быть выполнен с возможностью размещения одной или более из множества 160 онлайн-служб, включающего в себя поисковую систему 120, платформу 130 электронной коммерции и платформу 140 электронной почты.
[110] В контексте настоящей технологии система 100, предоставляющая одну или более онлайн-служб, выполнена с возможностью выполнения двоичной и/или многоклассовой классификации «цифровых объектов», связанных с одной или более онлайн-службами. Суть цифровых объектов и цель их классификации для различных онлайн-служб будут более подробно описаны в данном документе ниже.
Электронное устройство
[111] Как упомянуто выше, система 100 содержит электронное устройство 102, связанное с пользователем 101. Таким образом, электронное устройство 102 или просто «устройство» 102 иногда может именоваться «клиентским устройством», «устройством конечного пользователя» или «клиентским электронным устройством». Следует отметить, что связь электронного устройства 102 с пользователем 101 не обязательно предполагает или подразумевает какой-либо режим работы - например необходимость входа в систему, необходимость регистрации или подобное.
[112] В контексте настоящего описания, если не указано иное, «электронное устройство» или «устройство» представляет собой любое компьютерное аппаратное обеспечение, которое способно выполнять программное обеспечение, подходящее для соответствующей рассматриваемой задачи. Таким образом, некоторые неограничивающие примеры устройства 102 включают в себя персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны, планшеты и подобное. Устройство 102 содержит аппаратное обеспечение и/или программное обеспечение и/или микропрограммное обеспечение (или их комбинацию), которое известно в данной области техники, для исполнения некоторого определенного приложения браузера (не проиллюстрировано).
[113] Вообще говоря, назначением определенного приложения браузера является предоставление пользователю 101 возможности доступа к одному или более веб-ресурсам. Реализация определенного приложения браузера особым образом не ограничена. Один пример определенного приложения браузера, которое является исполняемым посредством устройства 102, может быть воплощен в браузере Яндекс™. Например, пользователь 101 может использовать определенное приложение браузера для (i) перехода к некоторому определенному веб-сайту поисковой системы и (ii) отправки поискового запроса, в ответ на который ему должны быть предоставлены релевантные результаты поиска. В другом примере пользователь 101 может использовать определенное приложение браузера для (i) перехода на веб-сайт электронной коммерции и (ii) покупки и/или продажи продукта или услуги. В дополнительном примере пользователь 101 может использовать определенное приложение браузера для (i) перехода на веб-сайт электронной почты и (ii) доступа к своей учетной записи электронной почты для просмотра сообщений электронной почты, связанных с его учетной записью.
[114] Устройство 102 выполнено с возможностью генерирования запроса 180 для связи с сервером 106. Запрос 180 может принимать форму одного или более пакетов данных, содержащих информацию, указывающую, в одном примере, поисковый запрос, обеспеченный пользователем 101. Устройство 102 также выполнено с возможностью приема ответа 190 от сервера 106. Ответ 190 может принимать форму одного или более пакетов данных, содержащих информацию, указывающую, в одном примере, результаты поиска, которые релевантны обеспеченному поисковому запросу, и считываемые компьютером инструкции для отображения определенного приложения браузера пользователю 101 этих результатов поиска.
Сеть связи
[115] Система 100 содержит сеть 110 связи. В одном неограничивающем примере сеть 110 связи может быть реализована как Интернет. В других неограничивающих примерах сеть 110 связи может быть реализована по-другому, например, как любая глобальная сеть связи, локальная сеть связи, частная сеть связи и подобная. Фактически, то, как реализуется сеть 110 связи, не является ограничением и будет зависеть, среди прочего, от того, как реализуются другие компоненты системы 100.
[116] Назначение сети 110 связи состоит в соединении с возможностью связи по меньшей мере некоторых компонентов системы 100, таких как устройство 102, множество 108 серверов ресурсов и сервер 106. Например, это означает, что множество 108 серверов ресурсов доступно через сеть 110 связи для устройства 102. В другом примере, это означает, что множество 108 серверов ресурсов доступно через сеть 110 связи для сервера 106. В еще одном примере, это означает, что сервер 106 доступен через сеть 110 связи для устройства 102.
[117] Сеть 110 связи может быть использована для передачи пакетов данных между устройством 102, множеством 108 серверов ресурсов и сервером 106. Например, сеть 110 связи может использоваться для передачи запроса 180 от устройства 102 на сервер 106. В другом примере, сеть 110 связи может использоваться для передачи ответа 190 от сервера 106 на устройство 102.
Множество серверов ресурсов
[118] Как упомянуто выше, к множеству 108 серверов ресурсов можно осуществить доступ через сеть 110 связи. Множество 108 серверов ресурсов могут быть реализованы как традиционные компьютерные серверы. В неограничивающем примере варианта осуществления настоящей технологии некоторый определенный сервер из упомянутого множества 108 серверов ресурсов может быть реализован как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Определенный сервер из упомянутого множества 108 серверов ресурсов также может быть реализован в любом другом подходящем аппаратном обеспечении и/или программном обеспечении и/или микропрограммном обеспечении или в их комбинации.
[119] Множество 108 серверов ресурсов выполнены с возможностью размещения (веб)ресурсов, доступ к которым может быть осуществлен устройством 102 и/или сервером 106. То, какой тип ресурсов упомянутое множество 108 серверов ресурсов размещает, не является ограничением. Однако в некоторых вариантах осуществления настоящей технологии ресурсы могут содержать цифровые документы или просто «документы», которые представляют веб-страницы.
[120] Например, множество 108 серверов ресурсов может размещать веб-страницы, что означает, что множество 108 серверов ресурсов может хранить документы, представляющие веб-страницы и доступные для устройства 102 и/или сервера 106. Определенный документ может быть написан на языке разметки и может содержать, среди прочего, (i) контент соответствующей веб-страницы и (ii) считываемые компьютером инструкции для отображения соответствующей веб-страницы (ее контента).
[121] Доступ к определенному одному из множества 108 серверов ресурсов может быть осуществлен устройством 102 для того, чтобы извлечь определенный документ, хранящийся в определенном одном из множества 108 серверов ресурсов. Например, пользователь 101 может ввести веб-адрес, связанный с определенной веб-страницей, в определенном приложении браузера устройства 102, а в ответ устройство 102 может осуществить доступ к определенному серверу ресурсов, на котором размещена данная веб-страница, для того, чтобы извлечь документ, представляющий данную веб-страницу, для отображения контента этой веб-страницы через данное приложение браузера.
[122] Доступ к определенному одному из множества 108 серверов ресурсов может быть осуществлен сервером 106 для того, чтобы извлечь определенный документ, хранящийся в определенном одном из множества 108 серверов ресурсов. Назначение доступа и извлечения документов сервером 106 из множества 108 серверов ресурсов будет описано более подробно ниже в данном документе.
Система баз данных
[123] Сервер 106 соединен с возможностью связи с системой 150 баз данных. Вообще говоря, система 150 баз данных выполнена с возможностью получения данных с сервера 106, сохранения данных и/или предоставления данных на сервер 106 для дальнейшего использования.
[124] В некоторых вариантах осуществления система 150 баз данных может быть выполнена с возможностью сохранения информации, связанной с одной или более онлайн-службами, размещенными на сервере 106. Например, в случае, когда на сервере 106 размещается поисковая система 120, система 150 баз данных может хранить информацию о ранее выполненных поисковой системой 120 поисках, информацию о ранее отправленных на сервер 106 поисковых запросах и о документах, которые были предоставлены поисковой системой 120 сервера 106 в качестве результатов поиска.
[125] В этом примере предполагается, что система 150 баз данных может хранить данные поисковых запросов, связанные с соответствующими поисковыми запросами, отправленными в поисковую систему 120. Данные поискового запроса, связанные с определенным поисковым запросом, могут быть разных типов и не представляют собой какого-либо ограничения. Например, система 150 баз данных может хранить данные поисковых запросов для соответствующих поисковых запросов, например, но без ограничения:
- популярность определенного поискового запроса;
- частоту отправки данного поискового запроса;
- количество кликов, связанных с данным поисковым запросом;
- указания других отправленных поисковых запросов, связанных с данным поисковым запросом;
- указания документов, связанных с данным поисковым запросом;
- другие статистические данные, связанные с данным поисковым запросом;
- искомые термины, связанные с данным поисковым запросом;
- количество символов в данном поисковом запросе; и
- другие присущие поисковому запросу характеристики данного поискового запроса.
[126] В этом примере система 150 баз данных также может хранить данные документов, связанные с соответствующими документами. Данные документа, связанные с определенным документом, могут быть разных типов и не представляют собой какого-либо ограничения. Например, система 150 баз данных может хранить данные документов для соответствующих документов, например, но без ограничения:
- популярность определенного документа;
- кликабельность для данного документа;
- время на клик, связанное с данным документом;
- указаний поисковых запросов, связанных с данным документом;
- другие статистические данные, связанные с данным документом;
- текст, связанный с данным документом;
- размер файла данного документа; и
- другие присущие документу характеристики данного документа.
[127] В этом примере система 150 баз данных также может хранить пользовательские данные, связанные с соответствующими пользователями. Пользовательские данные, связанные с определенным пользователем, могут быть разных типов и не представляют собой какого-либо ограничения. Например, система 150 баз данных может хранить пользовательские данные для соответствующих пользователей, например, но без ограничения:
- данные веб-сессии;
- данные отправленных поисковых запросов;
- историю "кликов";
- данные взаимодействия; и
- пользовательские предпочтения.
[128] В по меньшей мере некоторых вариантах осуществления настоящей технологии предполагается, что система 150 баз данных может быть выполнена с возможностью хранения данных, связанных с определенной «сущностью» или «объектом» определенной онлайн-службы. Можно сказать, что система 150 баз данных может быть выполнена с возможностью хранения «характерных для объекта» данных. Предполагается, что сервер 106 может быть выполнен с возможностью хранения данных о различных объектах определенной онлайн-службы на объектно-зависимой основе, не выходя за рамки настоящей технологии.
[129] Например, в случае сервера 106, на котором размещается поисковая система 120, система 150 баз данных может быть выполнена с возможностью хранения данных, связанных с ее соответствующими пользователями (первый тип цифровых объектов или сущностей, связанных со службами серверной (поисковой) системы). Следовательно, в этом примере система 150 баз данных может быть выполнена с возможностью хранения характерных для пользователя данных на основе «по каждому пользователю». В другом примере, в случае сервера 106, на котором размещается поисковая система 120, система 150 баз данных может быть выполнена с возможностью хранения данных, связанных с ее соответствующими цифровыми документами, которые использовались в качестве результатов поиска (второй тип цифровых объектов или сущностей, связанных со службами серверной системы). Следовательно, в этом примере система 150 баз данных может быть выполнена с возможностью хранения характерных для документа данных на основе «по каждому документу».
[130] В дополнительном примере, в случае сервера 106, на котором размещается платформа 140 электронной почты, система 150 баз данных может быть выполнена с возможностью хранения данных, связанных с ее соответствующими пользователями (первый тип цифровых объектов или сущностей, связанных со службой электронной почты). Следовательно, в этом примере система 150 баз данных может быть выполнена с возможностью хранения характерных для пользователя данных на основе «по каждому пользователю». В еще одном примере, в случае сервера 106, на котором размещается платформа 140 электронной почты, система 150 баз данных может быть выполнена с возможностью хранения данных, связанных с соответствующими сообщениями электронной почты (второй тип цифровых объектов или сущностей, связанных со службой электронной почты). Следовательно, в этом примере система 150 баз данных может быть выполнена с возможностью хранения характерных для сообщения электронной почты данных на основе «по каждому сообщению электронной почты».
[131] Следовательно, можно сказать, что система 150 баз данных может быть выполнена с возможностью хранения различных характерных для объекта данных в зависимости, среди прочего, от типов онлайн-служб(ы), размещенных на сервере 106, а также типов объектов, связанных с этими онлайн-службами(службой).
[132] Как станет очевидно из приведенного ниже в данном документе описания, сервер 106 выполнен с возможностью исполнения модели 170 классификации, которая выполнена с возможностью выполнения двоичной и/или многоклассовой классификации цифровых объектов из одной или более онлайн-служб, предоставляемых сервером 106.
[133] В по меньшей мере некоторых вариантах осуществления настоящей технологии система 150 баз данных может быть выполнена с возможностью сохранения «помеченных» характерных для объекта данных. Например, помеченные характерные для объекта данные для определенного цифрового объекта могут включать в себя данные метки, указывающие «истинный» класс определенного цифрового объекта. То, как данные меток собираются и/или генерируются, а затем сохраняются в системе 150 баз данных, конкретным образом не ограничено. В некоторых случаях данные меток могут быть собраны людьми-оценщиками, которым было поручено «проставить метки» соответствующим объектам.
[134] Следует отметить, что характерные для объекта данные, хранящиеся для соответствующего цифрового объекта, могут содержать, среди прочего, текстовые данные, основанные на векторном представлении данные, категориальные данные и подобное. Например, текстовые данные, хранящиеся в связи с соответствующим документом, могут представлять текст, включенный в соответствующий документ.
[135] Основанные на векторном представлении данные, хранящихся в связи с соответствующим документом, могут содержать одно или более «векторных представлений», сгенерированных для соответствующего документа. Вообще говоря, «векторное представление» - это общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, когда слова или фразы из словаря отображаются в векторы действительных чисел. Концептуально эта операция включает математическое вложение из пространства с множеством измерений на слово в непрерывное векторное пространство с гораздо меньшей размерностью. Векторное представление упрощает машинное обучение на таких больших входных данных, как, например, разреженные вектора, представляющие слова. В некоторых вариантах осуществления можно сказать, что одно или более векторных представлений, сохраненных для определенного документа, могут быть сгенерированы на основе слов (например, текстовых данных), связанных с данным документом. В одном примере векторное представление захватывает некоторую семантику входных данных, помещая семантически схожие входные данные близко друг к другу в пространстве векторного представления. Также предполагается, что векторные представления могут изучаться и повторно использоваться между разными моделями.
[136] Сервер 106 может быть выполнен с возможностью генерирования основанных на векторном представлении данных различными способами. В одном примере сервер 106 может использовать «слой векторного представления» нейронной сети (NN) для генерирования одного или более векторных представлений. В другом примере сервер 106 может использовать алгоритм «Word2Vec», известный в данной области техники, для эффективного обучения векторным представлениям слов из текстового корпуса. В дополнительном примере сервер 106 может использовать алгоритм «GloVe», который объединяет глобальную статистику методик матричной факторизации с основанным на локальном контексте обучением, используемым в методиках word2vec. В некоторых вариантах осуществления сервер 106 может использовать библиотеку «fastText» для обучения векторным представлениям слов. В других вариантах осуществления сервер 106 может использовать глубокую нейронную сеть, обученную на наборе данных ImageNet, например, для генерирования основанных на изображении векторных представлений.
[137] Следует отметить, что характерные для объекта данные могут быть использованы для генерирования наборов обучающих данных для обучения модели 170 классификации. Более конкретно, характерные для объекта данные могут быть использованы сервером 106 для генерирования обучающих признаков, подлежащих использованию для обучения модели 170 классификации. Следует также отметить, что характерные для объекта данные могут быть использованы для генерирования наборов используемых данных для модели 170 классификации. В частности, характерные для объекта данные могут быть использованы сервером 106 для генерирования используемых признаков, которые подлежат использованию моделью 170 классификации для выполнения классификации соответствующего используемого объекта.
[138] То, как характерные для объекта данные могут использоваться сервером 106 во время обучения модели 170 классификации, будет дополнительно описано в данном документе ниже со ссылкой на Фигуры 3 и 4, при этом то, как характерные для объекта данные могут использоваться сервером 106 во время фазы использования модели 170 классификации, будет описано в данном документе ниже со ссылкой на Фигуру 5.
Сервер
[139] Система 100 содержит сервер 106, который может быть реализован как традиционный компьютерный сервер. В примере варианта осуществления настоящей технологии сервер 106 может быть реализован как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Само собой разумеется, что сервер 106 может быть реализован в любом другом подходящем аппаратном обеспечении и/или программном обеспечении и/или микропрограммном обеспечении или в их комбинации. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии сервер 106 является единственным сервером. В альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 106 могут быть распределены и могут быть реализованы посредством многочисленных серверов.
[140] Как показано на Фигуре 1, сервер 106 может быть выполнен с возможностью размещения множества 160 онлайн-служб. Например, сервер 106 может размещать поисковую систему 120 для предоставления служб поисковой системы, платформу 130 электронной коммерции для предоставления служб электронной коммерции и платформу 140 электронной почты для предоставления служб электронной почты. Теперь будет описано то, как поисковая система 120, платформа 130 электронной коммерции и платформа 140 электронной почты могут быть реализованы в по меньшей мере некоторых вариантах осуществления настоящей технологии.
[141] В некоторых вариантах осуществления сервер 106 может находиться под контролем и/или управлением поставщика поисковой системы (не проиллюстрирован), например оператора поисковой системы Яндекс™. Таким образом, сервер 106 может быть выполнен с возможностью размещения поисковой системы 120 для выполнения одного или более поисков в ответ на поисковые запросы, отправленные пользователями поисковой системы 120.
[142] Например, сервер 106 может принимать запрос 180 от устройства 102, указывающий поисковый запрос, отправленный пользователем 101. Сервер 106 может выполнять поиск в ответ на отправленный поисковый запрос для генерирования результатов поиска, которые релевантны отправленному поисковому запросу. В результате сервер 106 может быть выполнен с возможностью генерирования ответа 190, указывающего результаты поиска, и может передавать ответ 190 устройству 102 для отображения результатов поиска пользователю 101, например, через определенное приложение браузера.
[143] Результаты поиска, сгенерированные для отправленного поискового запроса, могут принимать многочисленные формы. Однако в одном неограничивающем примере настоящей технологии результаты поиска, генерируемые сервером 106, могут указывать документы, которые релевантны отправленному поисковому запросу. То, как сервер 106 выполнен с возможностью определения и извлечения документов, которые релевантны отправленному поисковому запросу, станет очевидным из приведенного в данном документе описания.
[144] Сервер 106 также может быть выполнен с возможностью исполнения приложения-обходчика (не проиллюстрировано). Вообще говоря, приложение-обходчик может использоваться сервером 106, чтобы «посещать» ресурсы, доступные через сеть 110 связи, и извлекать/загружать их для дальнейшего использования. Например, приложение-обходчик может использоваться сервером 106 для доступа к множеству 108 серверов ресурсов и для извлечения/загрузки документов, представляющих веб-страницы, размещенные на множестве 108 серверов ресурсов.
[145] Предполагается, что приложение-обходчик может периодически исполняться сервером 106 для того, чтобы извлечь/загрузить документы, которые были обновлены и/или стали доступными по сети 110 связи с момента предыдущего исполнения приложения-обходчика.
[146] В некоторых вариантах осуществления сервер 106 может находиться под контролем и/или управлением поставщика электронной торговой площадки (не проиллюстрирован), например оператора платформы электронной коммерции Яндекс.Маркет™. Таким образом, сервер 106 может быть выполнен с возможностью размещения платформы 130 электронной коммерции для предложения одного или более товаров и/или услуг для покупки или продажи пользователями платформы 130 электронной коммерции.
[147] Вообще говоря, платформа электронной коммерции относится к одному или более реализуемым компьютером алгоритмам, которые позволяют серверу 106 предоставлять службы электронной коммерции для пользователя 101 электронного устройства 102. Например, пользователь 101 может быть клиентом платформы 130 электронной коммерции. Пользователь 101 может ввести URL, связанный с платформой 130 электронной коммерции, в интерфейсе командной строки приложения браузера и может осуществить доступ к своей учетной записи с помощью платформы 130 электронной коммерции.
[148] Следует отметить, что сервер 106 может быть выполнен с возможностью сбора информации о клиентах и продуктах, доступных на платформе 130 электронной коммерции. В одном примере сервер 106 может быть выполнен с возможностью сбора характерной для клиента информации, касающейся взаимодействий клиента с различными продуктами. В этом примере сервер 106 может собирать для определенного клиента информацию о просмотренных продуктах, продуктах, по которым был произведен клик, купленных продуктах, рекомендуемых продуктах и подобном. В другом примере сервер 106 может быть выполнен с возможностью сбора характерной для продукта информации, касающейся различных продуктов. В этом примере сервер 106 может быть выполнен с возможностью сбора для определенного продукта информации, касающейся просмотров, кликов, покупок, покупателей и подобного.
[149] В некоторых вариантах осуществления предполагается, что сервер 106 может быть выполнен с возможностью сбора текстовых данных, связанных с клиентами и продуктами платформы 130 электронной коммерции. Например, текстовые данные, связанные с определенным клиентом, могут включать в себя один или более отзывов клиента о купленных продуктах. В другом примере текстовые данные, связанные с определенным продуктом, могут включать в себя описание продукта и/или один или более отзывов о продукте от клиентов платформы 130 электронной коммерции.
[150] В дополнительных вариантах осуществления сервер 106 может находиться под контролем и/или управлением поставщика службы электронной почты (не проиллюстрирован), например оператора службы электронной почты Яндекс.Почта™. Таким образом, сервер 106 может быть выполнен с возможностью размещения платформы 140 электронной почты для предоставления служб электронной почты пользователям платформы 140 электронной почты.
[151] Вообще говоря, платформа 140 электронной почты относится к одному или более реализуемым компьютером алгоритмам, которые позволяют серверу 106 предоставлять службы электронной почты для пользователя 101 электронного устройства 102. Например, пользователь 101 может иметь учетную запись электронной почты, связанную с платформой 140 электронной почты. Пользователь 101 может ввести URL, связанный с платформой 140 электронной почты, в интерфейсе командной строки приложения браузера и может осуществить доступ к своей учетной записи с помощью платформы 140 электронной почты.
[152] В некоторых вариантах осуществления настоящей технологии, в дополнение к упомянутому или вместо упомянутого, электронное устройство 104 может быть выполнено с возможностью исполнения приложения электронной почты на стороне устройства (не показано), связанного с платформой 140 (на стороне сервера). Вообще говоря, назначением приложения электронной почты на стороне устройства является обеспечение возможности пользователю 101: просматривать список сообщений электронной почты (как непрочитанных, так и прочитанных), читать сообщения электронной почты, открывать вложения, составлять новые сообщения электронной почты, отвечать на сообщения электронной почты, пересылать сообщения электронной почты, удалять сообщения электронной почты, управлять нежелательными сообщениями электронной почты, назначать категории сообщениям электронной почты, организовывать сообщения электронной почты в папки, создавать и осуществлять доступ к адресной книге и тому подобное.
[153] Независимо от того, использует ли пользователь 101 приложение просмотра и/или приложение электронной почты на стороне устройства для осуществления доступа к своей учетной записи электронной почты, предполагается, что пользователю 101 может быть предоставлен интерфейс электронной почты (не показан) для выполнения одного или более действий с сообщениями электронной почты в своей учетной записи электронной почты. Функциональные возможности платформы 140 электронной почты будут более подробно описаны ниже в данном документе.
[154] Вообще говоря, назначение интерфейса электронной почты состоит в том, чтобы обеспечить возможность пользовательского взаимодействия между определенным пользователем платформы 140 (например, пользователем 101) и сообщениями электронной почты в своей учетной записи электронной почты. В одном неограничивающем примере интерфейс электронной почты может содержать одну или более панелей, одно или более меню, одну или более кнопок, а также может обеспечивать другие функциональные возможности для обеспечения пользовательского взаимодействия с сообщениями электронной почты. Следует отметить, что в контексте настоящей технологии можно представить себе множество интерфейсов электронной почты.
[155] Например, интерфейс электронной почты может содержать боковую панель, указывающую одну или более папок электронной почты (предварительно определенных и/или персонализированных), связанных с определенной учетной записью электронной почты, например, но без ограничения: папку «входящие», папку «исходящие», папку «черновики», папку «спам» или «нежелательные», папку «удаленные» и подобные. В другом примере интерфейс электронной почты может содержать одну или более кнопок для выполнения различных действий с сообщениями электронной почты, например, но без ограничения упомянутым: кнопку «создать» для создания нового сообщения электронной почты, кнопку «отправить» для отправки определенного сообщения электронной почты, кнопку «сохранить» для сохранения текущей версии определенного сообщения электронной почты, кнопку «прочитано» для указания того, что определенное сообщение электронной почты было прочитано или просмотрено определенным пользователем, кнопку «не прочитано» для указания того, что определенное сообщение электронной почты не прочитано или не просмотрено определенным пользователем, кнопку «спам» или «нежелательные» для указания того, что определенное сообщение электронной почты должно быть отнесено к категории спам-сообщения электронной почты и/или для указания того, что определенное сообщение электронной почты должно быть передано/перемещено в папку «спам», кнопку «удалено» для указания того, что определенное сообщение электронной почты должно быть удалено и/или что определенное сообщение электронной почты должно быть перенесено/перемещено в папку «удаленные» и им подобные. В еще одном примере интерфейс электронной почты может допускать другие типы пользовательского взаимодействия с сообщениями электронной почты, например, но без ограничения, функциональную возможность «перетаскивания» для того, чтобы позволить определенному пользователю выбирать определенное сообщение электронной почты из первой папки и легко переносить/перемещать данное сообщение электронной почты во вторую папку.
[156] В некоторых вариантах осуществления предполагается, что сервер 106 может быть выполнен с возможностью сбора текстовых данных, связанных с сообщениями электронной почты платформы 130 электронной почты. Например, текстовые данные, связанные с сообщением электронной почты, могут включать в себя текст сообщения электронной почты. Следует отметить, что текстовые данные, связанные с сообщениями электронной почты, могут быть классифицированы по различным классам, таким как основной текст, текст вложения, текст подписи и тому подобное. В по меньшей мере некоторых вариантах осуществления предполагается, что текстовые данные, связанные с сообщениями электронной почты платформы 130 электронной почты, могут быть обезличены, не выходя за рамки объема настоящей технологии.
[157] В контексте настоящей технологии сервер 106 выполнен с возможностью исполнения модели 170 классификации. Вообще говоря, модель 170 классификации выполнена с возможностью использования данных, хранящихся в связи с цифровым объектом определенной онлайн-службы, и выполнения двоичной и/или многоклассовой классификации этого цифрового объекта. Теперь будет описано в свою очередь то, как сервер 106 выполняется с возможностью генерирования наборов обучающих данных (таких как набор 360 обучающих данных, показанный на Фигурах 3 и 4) и обучения модели 170 классификации, и то, как сервер 106 выполняется с возможностью использования модели 170 классификации во время ее фазы использования.
[158] В некоторых вариантах осуществления настоящей технологии сервер 106 может извлекать «обучающие примеры» из системы 150 баз данных, каждый из которых содержит характерные для объекта данные и метку, связанную с соответствующим цифровым объектом.
[159] Со ссылкой на Фигуру 2 проиллюстрировано представление 200 характерных для объекта данных, хранящихся в системе 150 баз данных. Вообще говоря, характерные для объекта данные могут быть связаны с соответствующими цифровыми объектами и, можно сказать, представляют множество 250 обучающих «примеров», которые подлежат использованию в целях обучения. Можно сказать, что определенный обучающий пример соответствует соответствующему цифровому объекту, который подлежит использованию для обучения модели 170 классификации.
[160] Сервер 106 выполнен с возможностью получения множества 250 обучающих примеров из системы 150 баз данных и упорядочивания этого множества 250 обучающих примеров в упорядоченную последовательность 270 обучающих примеров. Как показано, сервер 106 упорядочивает множество 250 обучающих примеров в упорядоченную последовательность 270, которая включает в себя: (i) подпоследовательность 280 обучающих примеров, (ii) обучающие примеры 210, 220 и 230, и (iii) подпоследовательность 290 обучающих примеров, в таком порядке.
[161] Можно сказать, что определенный обучающий пример содержит текстовые данные, связанные с соответствующим объектом, основанные на векторном представлении данные, связанные с соответствующим объектом, и указание истинного класса соответствующего объекта. В по меньшей мере некоторых вариантах осуществления настоящей технологии предполагается, что определенный обучающий пример может содержать по меньшей мере одно из (i) текстовых данных, связанных с соответствующим объектом, и (ii) основанных на векторном представлении данных, связанных с соответствующим объектом.
[162] Исключительно для простоты предположим, что обучающий пример содержит текстовые данные, связанные с соответствующим документом, основанные на векторном представлении данные, связанные с соответствующим документом, и указание истинного класса соответствующего документа. Однако характер цифровых объектов, связанных с множеством 250 обучающих примеров, зависит, среди прочего, от различных реализаций настоящей технологии.
[163] Например, как это видно на Фигуре 2:
- обучающий пример 210 содержит текстовые данные 214, связанные с первым документом, основанные на векторном представлении данные 216 (например, одно или более векторных представлений), связанные с первым документом, и метку 218, указывающую истинный класс первого документа;
- обучающий пример 220 содержит текстовые данные 224, связанные со вторым документом, основанные на векторном представлении данные 226 (например, одно или более векторных представлений), связанные со вторым документом, и метку 228, указывающую истинный класс второго документа; и
- обучающий пример 230 содержит текстовые данные 234, связанные с третьим документом, основанные на векторном представлении данные 236 (например, одно или более векторных представлений), связанные с третьим документом, и метку 228, указывающую истинный класс третьего документа.
[164] Предполагается, что обучающие примеры в подпоследовательности обучающих примеров 280 и в подпоследовательности обучающих примеров 290 могут быть реализованы аналогично тому, как реализованы обучающие примеры 210, 220 и 230. В некоторых вариантах осуществления определенный обучающий пример может включать в себя данные о соответствующих цифровых документах, например различные характерные для документа признаки, категориальные признаки и подобное, в дополнение к данным, которые указаны выше в неисчерпывающем списке.
[165] Как упомянуто выше, сервер 106 выполнен с возможностью упорядочивания множества 250 обучающих примеров в упорядоченную последовательность 270 обучающих примеров. В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью случайного упорядочивания множества 250 обучающих примеров, то есть упорядоченная последовательность 270 обучающих примеров может иметь случайно определенный порядок обучающих примеров. В других вариантах осуществления сервер 106 может быть выполнен с возможностью упорядочивания множества 250 обучающих примеров на основе одной или более «присущих объектам» характеристик, связанных с соответствующими объектами. Например, сервер 106 может быть выполнен с возможностью использования даты создания соответствующих цифровых документов для упорядочивания множества 250 обучающих примеров. Таким образом, упорядоченная последовательность 270 обучающих примеров может быть последовательностью обучающих примеров, упорядоченных от «самого старого» цифрового документа к «самому новому» цифровому документу, или наоборот, в зависимости, среди прочего, от конкретной реализации настоящей технологии.
[166] Предполагается, что сервер 106 может быть выполнен с возможностью назначения позиционного указателя каждому обучающему примеру в упорядоченной последовательности 270 обучающих примеров для идентификации того, какие обучающие примеры предшествуют определенному обучающему примеру и какие обучающие примеры следуют за определенным обучающим примером. Например, сервер 106 может использовать такие позиционные указатели для определения того, что в упорядоченной последовательности 270 обучающих примеров обучающие примеры из подпоследовательности 180 обучающих примеров и обучающий пример 210 являются предыдущими обучающими примерами относительно обучающего примера 220, тогда как обучающий пример 230 и подпоследовательность 290 обучающих примеров являются последующими (или следующими) обучающими примерами относительно обучающего примера 220.
[167] Следует отметить, что сервер 106 может использовать такую позиционную информацию относительно соответствующих обучающих примеров в упорядоченной последовательности 270 обучающих примеров при генерировании обучающих признаков для соответствующих обучающих примеров.
[168] Со ссылкой на Фигуру 3 показано представление 300 (сверху) того, как сервер 106 выполняется с возможностью генерирования текстового обучающего признака 330 для обучающего примера 220, и представление 350 (снизу) того, как сервер выполняется с возможностью генерирования основанного на векторном представлении обучающего признака 340 для обучающего примера 220.
[169] Можно сказать, что сервер 106 выполнен с возможностью исполнения одного или более реализуемых компьютером алгоритмов, которые в данном документе именуются «генератором 310 текстовых признаков». Вообще говоря, генератор 310 текстовых признаков выполнен с возможностью генерирования текстового обучающего признака для определенного обучающего примера из упорядоченной последовательности 270 обучающих примеров на основе текстовых данных, связанных с конкретной подпоследовательностью обучающих примеров из упорядоченной последовательности 270 обучающих примеров, и функции 315 текстового анализа. Как станет очевидно из описания, приведенного ниже в данном документе, следует отметить, что генератор 310 текстовых признаков также может использоваться во время фазы использования модели 170 классификации для генерирования текстовых используемых признаков для соответствующих используемых примеров, не выходя за рамки объема настоящей технологии.
[170] Для генерирования набора 360 обучающих данных для обучающего примера 220, как показано на Фигуре 3, сервер 106 выполнен с возможностью определения того, какие обучающие примеры из упорядоченной последовательности 270 обучающих примеров являются предыдущими обучающими примерами относительно упомянутого обучающего примера 220. Например, основываясь на позиционной информации в упорядоченной последовательности сервер 106 может определить, что подпоследовательность 280 обучающих примеров и обучающий пример 210 являются предыдущими обучающими примерами относительно обучающего примера 220.
[171] Сервер 106 может быть выполнен с возможностью предоставления текстовых данных 224, связанных с обучающим примером 220, текстовых данных, связанных с соответствующими предыдущими обучающими примерами (текстовых данных 284, связанных с обучающими примерами из подпоследовательности 280 обучающих примеров, и текстовых данных 214 из обучающего примера 210), и меток, связанных с соответствующими предыдущими обучающими примерами (меток, связанных с обучающими примерами из подпоследовательности 280 обучающих примеров, и метки 218 для обучающего примера 210), в генератор 310 текстовых признаков.
[172] Также предполагается, что для генерирования набора 360 обучающих данных для обучающего примера 220, сервер 106 также может быть выполнен с возможностью определения того, какие обучающие примеры из упорядоченной последовательности 270 обучающих примеров являются последующими обучающими примерами относительно упомянутого обучающего примера 220. Можно сказать, что сервер 106 также может быть выполнен с возможностью исключения текстовых данных, связанных с последующими обучающими примерами, из процесса генерирования текстового обучающего признака 330.
[173] Как показано, генератор 310 текстовых признаков содержит функцию 315 текстового анализа. Вообще говоря, функция 315 текстового анализа представляет собой реализуемую компьютером функцию, которая выполнена с возможностью осуществления операции извлечения информации в отношении набора текстовых данных. В некоторых вариантах осуществления функция 315 текстового анализа может быть выполнена с возможностью вычисления одной или более статистических признаков в отношении набора текстовых данных. Например, функция 315 текстового анализа может быть выполнена с возможностью вычисления одного или более статистических признаков для текстовых данных 224, связанных с обучающим примером 220, и одного или более статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами. Предполагается, что сервер 106 может быть выполнен с возможностью генерирования текстового обучающего признака 330 в качестве комбинации одного или более статистических признаков для текстовых данных 224 и одного или более статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами.
[174] Следует отметить, что функция 315 текстового анализа может быть настроена оператором сервера 106 для вычисления одного или более предопределенных типов статистических признаков на основе текстовых данных. В некоторых вариантах осуществления предполагается, что функция 315 текстового анализа может быть выполнена с возможностью вычисления одного или более предопределенных типов статистических признаков на основе текстовых данных, так что, когда один или более предопределенных типов статистических признаков для текстовых данных 224 и один или более предопределенных типов статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами, объединяются сервером 106, результирующий текстовый обучающий признак 330 имеет по меньшей мере один из, но без ограничения упомянутыми: наивного байесовского типа (например, вероятности K классов с учетом текста образца), типа TF-IDF (например, частота слова - обратная частота документа), типа BM25 (например, оценки для каждого из K классов, где D используется для набора текстов из предыдущих обучающих примеров, а Q используется для текста определенного обучающего примера).
[175] Предполагается, что один или более предопределенных типов статистических признаков, вычисленных на основе текстовых данных, связанных с соответствующими предыдущими обучающими примерами, могут быть характерными для класса статистическими признаками. Например, статистические признаки, вычисленные на основе текстовых данных, связанных с соответствующими предыдущими обучающими примерами, могут содержать: (i) первый статистический признак, вычисленный на основе текстовых данных, связанных с первым подмножеством предыдущих обучающих примеров, принадлежащих к первому классу (указанному соответствующими метками), и (ii) второй статистический признак, вычисленный на основе текстовых данных, связанных со вторым подмножеством предыдущих обучающих примеров, принадлежащих ко второму классу (указанному соответствующими метками).
[176] Предполагается, что сервер 106 может быть выполнен с возможностью кластеризации предыдущих обучающих примеров на основе их соответствующих меток, так что предыдущие обучающие примеры одного и того же истинного класса являются частью одного и того же кластера. После того, как предыдущие обучающие примеры кластеризованы таким образом в по меньшей мере два кластера, сервер 106 может быть выполнен с возможностью определения первого характерного для класса признака на основе текстовых данных 224 и текстовых данных предыдущих обучающих примеров, принадлежащих к первому кластеру. Сервер 106 также может определять второй характерный для класса признак на основе текстовых данных 224 и текстовых данных предыдущих обучающих примеров, принадлежащих ко второму кластеру.
[177] Предполагается, что текстовый признак может быть числовым значением, сгенерированным сервером 106 на основе текстовых данных определенного обучающего примера, а также текстовых данных и меток соответственно предыдущих обучающих примеров. В некоторых вариантах осуществления определенный характерный для класса текстовый признак может указывать подобие между текстовыми данными в определенном обучающем примере и текстовыми данными в предыдущих обучающих примерах, которые относятся к определенному классу.
[178] Следует отметить, что независимо от конкретной реализации функции 315 текстового анализа и конкретных предопределенных типов статистических признаков, вычисленных на основе текстовых данных, текстовый обучающий признак 330 генерируется на основе текстовых данных, связанных с соответствующим обучающим примером 220, и текстовых данных и данных меток, связанных с соответствующими предыдущими обучающими примерами в упорядоченной последовательности 270 обучающих примеров, и без учета текстовых обучающих данных, связанных с соответствующими последующими обучающими примерами в этой упорядоченной последовательности обучающих примеров.
[179] Можно сказать, что сервер 106 выполнен с возможностью генерирования определенного текстового обучающего признака на основе соответствующего обучающего примера, «смотря назад» на предыдущие примеры в упорядоченной последовательности и не «смотря вперед» на последующие примеры в этой упорядоченной последовательности. Не желая быть привязанными к какой-либо конкретной теории, разработчики настоящей технологии осознали, что генерирование таким образом текстовых обучающих признаков для соответствующих наборов обучающих данных для обучения модели 170 классификации может позволить снизить риск и/или влияние переобучения на качество прогнозирования модели 170 классификации во время фазы ее использования.
[180] Как показано на Фигуре 3 сервер 106 выполнен с возможностью исполнения одного или более реализуемых компьютером алгоритмов, которые в данном документе именуются «генератором 320 основанных на векторном представлении признаков». Вообще говоря, генератор 320 основанных на векторном представлении признаков выполнен с возможностью генерирования основанного на векторном представлении признака для определенного обучающего примера из упорядоченной последовательности 270 обучающих примеров на основе (i) основанных на векторном представлении данных, связанных с конкретной подпоследовательностью обучающих примеров из упорядоченной последовательности 270 обучающих примеров, и функции 325 анализа векторного представления.
[181] Для генерирования набора 360 обучающих данных для обучающего примера 220, как показано на Фигуре 3, сервер 106 выполнен с возможностью определения того, какие обучающие примеры из упорядоченной последовательности 270 обучающих примеров являются предыдущими обучающими примерами относительно упомянутого обучающего примера 220. Например, основываясь на позиционной информации в упорядоченной последовательности сервер 106 может определить, что подпоследовательность 280 обучающих примеров и обучающий пример 210 являются предыдущими обучающими примерами относительно обучающего примера 220.
[182] Сервер 106 может быть выполнен с возможностью предоставления основанных на векторном представлении данных 226, связанных с обучающим примером 220, основанных на векторном представлении данных, связанных с предыдущими обучающими примерами (основанных на векторном представлении данных 286, связанных с обучающими примерами из подпоследовательности 280 обучающих примеров, и основанных на векторном представлении данных 216 из обучающего примера 210), и меток, связанных с соответствующими предыдущими обучающими примерами (меток, связанных с обучающими примерами из подпоследовательности 280 обучающих примеров, и метки 218 для обучающего примера 210), в генератор 320 основанных на векторном представлении признаков.
[183] Также предполагается, что для генерирования набора 360 обучающих данных для обучающего примера 220, сервер 106 может быть выполнен с возможностью определения того, какие обучающие примеры из упорядоченной последовательности 270 обучающих примеров являются последующими обучающими примерами относительно упомянутого обучающего примера 220. Можно сказать, что сервер 106 также может быть выполнен с возможностью исключения основанных на векторном представлении данных, связанных с последующими обучающими примерами, из процесса генерирования основанного на векторном представлении обучающего признака 340.
[184] Как показано, генератор 320 основанных на векторном представлении признаков содержит функцию 325 анализа векторного представления. Вообще говоря, функция 325 анализа векторного представления представляет собой реализуемую компьютером функцию, которая выполнена с возможностью осуществления операции извлечения информации в отношении набора основанных на векторном представлении данных (например, множества векторных представлений). Например, функция 325 анализа векторного представления может быть выполнена с возможностью вычисления одного или более статистических признаков для основанных на векторном представлении данных 226, связанных с обучающим примером 220, и одного или более статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами. Предполагается, что сервер 106 может быть выполнен с возможностью генерирования основанного на векторном представлении обучающего признака 340 в качестве комбинации одного или более статистических признаков для основанных на векторном представлении данных 226 и одного или более статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами.
[185] Следует отметить, что функция 325 анализа векторного представления может быть настроена оператором сервера 106 для вычисления одного или более предопределенных типов статистических признаков на основе данных, основанных на векторном представлении. В некоторых вариантах осуществления предполагается, что функция 325 анализа векторного представления может быть выполнена с возможностью вычисления одного или более предопределенных типов статистических признаков на основе основанных на векторном представлении данных, так что, когда один или более предопределенных типов статистических признаков для основанных на векторном представлении данных 226 и один или более предопределенных типов статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами, объединяются сервером 106, результирующим основанным на векторном представлении обучающим признаком 340 является по меньшей мере одно из, но без ограничения упомянутыми: расстояния между определенным векторным представлением для обучающего примера 220 и центром кластера, вычисленным для векторных представлений из предыдущих обучающих примеров, которые относятся к тому же классу, что и данный обучающий пример, и расстояния между определенным векторным представлением для обучающего примера 220 и центром другого кластера, вычисленным для векторных представлений из предыдущих обучающих примеров, которые относятся к другому классу, чем обучающий пример 220.
[186] Следует отметить, что сервер 106, применяющий функцию 325 анализа векторного представления, может быть выполнен с возможностью определения ряда основанных на векторном представлении признаков подобия. Например, предполагается, что сервер 106 может быть выполнен с возможностью определения основанного на векторном представлении признака подобия, который указывает по меньшей мере одно из: (i) косинусного или L2-расстояния от векторного представления образца до среднего векторного представления некоторого конкретного класса, L2-расстояния до ближайшего или k-го ближайшего соседа из некоторого конкретного класса, значения линейного дискриминантного анализа и подобного.
[187] Предполагается, что сервер 106 может быть выполнен с возможностью кластеризации предыдущих обучающих примеров на основе их соответствующих меток, так что предыдущие обучающие примеры одного и того же истинного класса являются частью одного и того же кластера. После того, как предыдущие обучающие примеры кластеризованы таким образом в по меньшей мере два кластера, сервер 106 может быть выполнен с возможностью определения первого характерного для класса признака на основе основанных на векторном представлении данных 226 и основанных на векторном представлении данных предыдущих обучающих примеров, принадлежащих к первому кластеру. Сервер 106 также может определять второй характерный для класса признак на основе основанных на векторном представлении данных 226 и основанных на векторном представлении данных предыдущих обучающих примеров, принадлежащих ко второму кластеру.
[188] Предполагается, что основанный на векторном представлении признак может быть числовым значением, сгенерированным сервером 106 на основе основанных на векторном представлении данных определенного обучающего примера, а также основанных на векторном представлении данных и меток соответственно предыдущих обучающих примеров. В некоторых вариантах осуществления определенный характерный для класса основанный на векторном представлении признак может указывать подобие между основанными на векторном представлении данными в определенном обучающем примере и основанными на векторном представлении данными в предыдущих обучающих примерах, которые относятся к определенному классу.
[189] Следует отметить, что независимо от конкретной реализации функции 325 анализа векторного представления и конкретных предопределенных типов статистических признаков, вычисленных на основе основанных на векторном представлении данных, основанный на векторном представлении обучающий признак 340 генерируется на основе основанных на векторном представлении данных, связанных с соответствующим обучающим примером 220, и основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами в упорядоченной последовательности 270 обучающих примеров, и без учета основанных на векторном представлении обучающих данных, связанных с соответствующими последующими обучающими примерами в этой упорядоченной последовательности обучающих примеров.
[190] Можно сказать, что сервер 106 выполнен с возможностью генерирования определенного основанного на векторном представлении обучающего признака на основе соответствующего обучающего примера, «смотря назад» на предыдущие примеры в упорядоченной последовательности и не «смотря вперед» на последующие примеры в этой упорядоченной последовательности. Не желая быть привязанными к какой-либо конкретной теории, разработчики настоящей технологии осознали, что генерирование таким образом основанных на векторном представлении обучающих признаков для соответствующих наборов обучающих данных для обучения модели 170 классификации может позволить снизить риск и/или влияние переобучения на качество прогнозирования модели 170 классификации во время фазы ее использования.
[191] Следует отметить, что сервер 106 может быть выполнен с возможностью генерирования текстовых и/или основанных на векторном представлении признаков для других из упорядоченной последовательности 270 обучающих примеров аналогично тому, как сервер 106 выполнен с возможностью генерирования текстового обучающего признака 330 и/или основанного на векторном представлении обучающего признака 340 для обучающего примера 220.
[192] В по меньшей мере некоторых вариантах осуществления настоящей технологии можно сказать, что сервер 106 может быть выполнен с возможностью генерирования одного или более «признаков подобия» для определенного обучающего примера. Со ссылкой на Фигуру 8 проиллюстрировано представление 800 того, как сервер 106 выполнен с возможностью генерирования некоторого количества признаков подобия для определенного цифрового объекта.
[193] Сервер 106 может быть выполнен с возможностью генерирования упорядоченной последовательности 870 обучающих примеров, содержащей подпоследовательность 880, обучающий пример 810, обучающий пример 820, обучающий пример 830 и подпоследовательность 890, в таком порядке. Сервер 106 может быть выполнен с возможностью генерирования упорядоченной последовательности 870 обучающих примеров аналогично тому, как сервер 106 выполнен с возможностью генерирования упорядоченной последовательности 270 обучающих примеров.
[194] Следует отметить, что (i) обучающий пример 810 содержит характерные для объекта данные 814, связанные с соответствующим цифровым объектом, и метку 818, указывающую истинный класс соответствующего цифрового объекта, (ii) обучающий пример 820 содержит характерные для объекта данные 824, связанные с соответствующим цифровым объектом, и метку 828, указывающую истинный класс соответствующего цифрового объекта, и (iii) обучающий пример 830 содержит характерные для объекта данные 834, связанные с соответствующим цифровым объектом, и метку 838, указывающую истинный класс соответствующего цифрового объекта.
[195] В некоторых вариантах осуществления характерные для объекта данные в определенном обучающем примере из упорядоченной последовательности 870 обучающих примеров могут содержать текстовые данные. В других вариантах осуществления характерные для объекта данные в определенном обучающем примере из упорядоченной последовательности 870 обучающих примеров могут содержать основанные на векторном представлении данные. В дополнительных вариантах осуществления характерные для объекта данные в определенном обучающем примере из упорядоченной последовательности 870 обучающих примеров могут содержать одно или более векторных представлений, сгенерированных для данного обучающего примера на основе текстовых данных, связанных с определенным объектом, данных изображения, связанных с определенным объектом, и подобного, а также могут зависеть, среди прочего, от конкретной реализации настоящей технологии. Предполагается, что характерные для объекта данные в определенном обучающем примере могут содержать один или более векторов, представляющих набор предопределенных характерных для объекта признаков, которые были ранее сохранены в системе 150 баз данных.
[196] В дополнительных вариантах осуществления характерные для объекта данные в определенном обучающем примере из упорядоченной последовательности 870 обучающих примеров могут содержать фотографии или любые другие цифровые объекты, которые, как можно сказать, связаны с «признаком расстояния», т.е. их можно проанализировать на предмет подобия на основе близости в виртуальном пространстве, когда они в него спроецированы.
[197] Сервер 106 может быть выполнен с возможностью генерирования некоторого количества признаков подобия для цифрового объекта, связанного с обучающим примером 828. Сервер 106 может быть выполнен с возможностью кластеризации соответственно предыдущих обучающих примеров в по меньшей мере два кластера предыдущих обучающих примеров.
[198] Как видно на Фигуре 8 сервер 106 может быть выполнен с возможностью использования характерных для объекта данных, связанных с соответственно предыдущими обучающими примерами (обучающим примером 810 и подпоследовательностью 880 обучающих примеров) для отображения соответственно предыдущих обучающих примеров в многомерное пространство 900, реализуемое сервером 106. То, как многомерное пространство 900 реализуется сервером 106, конкретным образом не ограничивается. Однако следует отметить, что многомерное пространство 900 может быть основано на типах данных в характерных для объекта данных и, среди прочего, конкретных реализациях настоящей технологии.
[199] Сервер 106 может быть выполнен с возможностью использования одного или более алгоритмов кластеризации, известных в данной области техники, для кластеризации соответственно предыдущих обучающих примеров в первый кластер 910, второй кластер 920 и третий кластер 930. Следует отметить, что количество получаемых в результате кластеров после процедуры кластеризации может быть предопределено на основе общего количества истинных классов, связанных с обучающими примерами. В проиллюстрированном примере истинные классы могут включать в себя три класса (например, многоклассовая классификация), однако в других вариантах осуществления может быть более трех классов или может быть два класса (например, двоичная классификация).
[200] Следует отметить, что первый кластер 910 содержит первое подмножество 915 предыдущих обучающих примеров из предыдущих обучающих примеров, которые относятся к первому истинному классу, второй кластер 920 содержит второе подмножество 925 предыдущих обучающих примеров из предыдущих обучающих примеров, которые относятся ко второму истинному классу, а третий кластер 930 содержит третье подмножество 935 предыдущих обучающих примеров из предыдущих обучающих примеров, которые относятся к третьему истинному классу.
[201] В некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью определения центров кластеров у соответствующих кластеров в многомерном пространстве 900. Например, сервер 106 может быть выполнен с возможностью определения центра 918 первого кластера для первого кластера 910, связанного с первым истинным классом, центра 928 второго кластера для второго кластера 920, связанного со вторым истинным классом, и центра 938 третьего кластера для третьего кластера 910, связанного с третьим истинным классом.
[202] Сервер 106 может быть выполнен с возможностью использования характерных для объекта данных, связанных с обучающим примером 820, для отображения этого обучающего примера 820 в многомерное пространство 900. Например, сервер 106 может отображать обучающий пример 820 в местоположение 950 в многомерном пространстве 900.
[203] Сервер 106 может быть выполнен с возможностью генерирования определенного признака подобия для обучающего примера 820 на основе определенного расстояния между обучающим примером 850 и соответствующим кластером. Например, сервер 106 может быть выполнен с возможностью определения первого расстояния 941 между центром 918 первого кластера и местоположением 950, второго расстояния 942 между центром 928 второго кластера и местоположением 950 и третьего расстояния 943 между центром 938 третьего кластера и местоположением 950.
[204] Тип расстояния(й), определяемого сервером 106 в многомерном пространстве 900, зависит, среди прочего, от различных реализаций настоящей технологии. В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью определения евклидовых расстояний.
[205] Сервер 106 может быть выполнен с возможностью генерирования соответствующих признаков подобия на основе первого расстояния 941, второго расстояния 942 и третьего расстояния 943. Следует отметить, что первое расстояние 941 указывает подобие между обучающим примером 820 и предыдущими обучающими примерами первого истинного класса (первым подмножеством 915 обучающих примеров), второе расстояние 942 указывает подобие между обучающим примером 820 и предыдущими обучающими примерами второго истинного класса (вторым подмножеством 925 обучающих примеров), а третье расстояние 943 указывает подобие между обучающим примером 820 и предыдущими обучающими примерами третьего истинного класса (третьим подмножеством 935 обучающих примеров). Следовательно, можно сказать, что определенный признак подобия указывает подобие между определенным обучающим примером и предыдущими обучающими примерами определенного класса.
[206] Сервер 106 может быть выполнен с возможностью применения определенных таким образом признаков подобия для генерирования соответствующего обучающего набора для обучающего примера 820. В этом случае три признака подобия могут быть включены в обучающие входные данные соответствующего обучающего набора для обучения модели 170 классификации.
[207] Как упоминалось ранее, сервер 106 выполнен с возможностью применения одного или более MLA для поддержки ряда служб поисковой системы. В по меньшей мере некоторых вариантах осуществления настоящей технологии сервер 106 выполнен с возможностью исполнения MLA, основанного на дереве принятия решений, для реализации модели 170 классификации.
[208] В контексте настоящей технологии MLA, основанный на дереве принятия решений, может быть обучен определять, во время использования, прогнозное значение для определенного набора используемых данных, которое является одним из дискретного набора прогнозных значений. Например, модель 170 классификации может быть обучена определять, во время использования, для определенного документа, является ли данный документ новостной статьей или научной статьей. По этой причине MLA, основанный на дереве принятия решений, может быть воплощен как MLA дерева «классификации», в отличие от MLA дерева «регрессии», поскольку они обучаются выполнять задачу классификации над определенным объектом. Само собой разумеется, что сервер 106 может использовать решения классификации объектов многими способами для предоставления пользователю 102 лучших онлайн-служб.
[209] Таким образом, модель 170 классификации сначала «строится» (или обучается) с использованием набора обучающих данных, содержащего обучающие объекты и соответствующие целевые значения (метки). Поскольку модель 170 классификации обучена для выполнения задачи классификации, определенная метка для определенного обучающего объекта может указывать истинный класс, связанный с определенным обучающим объектом.
[210] Подводя итог, можно сказать, что реализацию модели 170 классификации сервером 106 можно в общем разделить на две фазы - фазу обучения и фазу использования. Сначала модель 170 классификации обучается во время фазы обучения. Затем, как только модель 170 классификации построена на основе обучающих данных, модель 170 классификации фактически применяется сервером 106 с использованием используемых данных во время фазы использования. Теперь, в свою очередь, будет описано то, как модель 170 классификации может обучаться на основе определенного набора обучающих данных и использоваться во время фазы ее использования.
[211] Сервер 106 выполнен с возможностью обучения модели 170 классификации на основе наборов обучающих данных, содержащих, среди прочего, набор 360 обучающих данных, сгенерированный для обучающего примера 220. Со ссылкой на Фигуру 4 проиллюстрирована одна итерация обучения модели 170 классификации на основе набора 360 обучающих данных.
[212] Сервер 106 выполнен с возможностью предоставления набора 360 обучающих данных модели 170 классификации. Например, сервер 106 может быть выполнен с возможностью ввода текстовых данных 224, основанных на векторном представлении данных 226, а также текстового обучающего признака 330 и основанного на векторном представлении обучающего признака 340 в модель 170 классификации для выполнения прогнозирования класса. Таким образом, модель 170 классификации выполняется с возможностью вывода прогнозного значения 450, указывающего спрогнозированный класс документа, связанного с набором 360 обучающих данных.
[213] Сервер 106 выполнен с возможностью сравнения метки 228, указывающей истинный класс документа, связанного с набором 360 обучающих данных, с прогнозным значением 450, указывающим класс этого документа, спрогнозированный моделью 170 классификации. Сервер 106 выполняется с возможностью «подстройки» модели 170 классификации на основе разницы между меткой 228 и прогнозным значением 450 (истина в сравнении с прогнозом).
[214] Как говорилось ранее, сервер 106 может выполнять подстройку модели 170 классификации различными способами. Например, сервер 106 может быть выполнен с возможностью реализации методики градиентного бустинга для подстройки модели 170 классификации. В другом примере сервер 106 может быть выполнен с возможностью реализации штрафной функции, которая выполняется с возможностью подстройки модели 170 классификации на основе разницы между меткой 228 и прогнозным значением 450. Излишне говорить, что способ, согласно которому сервер 106 может быть выполнен с возможностью реализации методики градиентного бустинга и/или штрафной функции, может зависеть от того, обучается ли модель 170 классификации для выполнения двоичной классификации цифровых объектов или многоклассовой классификации цифровых объектов.
[215] Со ссылкой на Фигуру 5 проиллюстрирована одна итерация использования во время фазы использования (обученной) модели 170 классификации. Естественно, фаза использования модели 170 классификации может содержать большое количество итераций использования, которые выполняются аналогично упомянутой одной итерации использования, проиллюстрированной на Фигуре 5. Вообще говоря, во время определенной итерации использования в модель 170 классификации вводятся используемые данные об определенном используемом объекте. Например, определенным используемым объектом может быть документ. В другом примере, определенным используемым объектом может быть пара документ-поисковый запрос. Независимо от характера используемого объекта, используемые данные могут указывать один или более признаков, представляющих определенный используемый объект.
[216] Предположим, что сервер 106 должен классифицировать определенный используемый документ, связанный с используемыми данными 500, содержащими текстовые данные 502, связанные с упомянутым определенным используемым документом, и основанные на векторном представлении данные 504, связанные с упомянутым определенным используемым документом.
[217] Сервер 106 выполнен с возможностью осуществления доступа к системе 150 баз данных и извлечения текстовых данных 540 и основанных на векторном представлении данных 545, связанных с упорядоченной последовательностью 270 обучающих примеров. Следует отметить, что сервер 106 может быть выполнен с возможностью извлечения текстовых данных 540 и основанных на векторном представлении данных 545 для генерирования текстового используемого признака 520 и основанного на векторном представлении используемого признака 530.
[218] Предполагается, что генератор 310 текстовых признаков, включающий в себя функцию 315 текстового анализа, и генератор 320 основанных на векторном представлении признаков, включающий в себя функцию 325 анализа векторного представления, может быть применен для генерирования, соответственно, текстового используемого признака 520 и основанного на векторном представлении используемого признака 530, аналогично тому, как они применяются сервером 106, для генерирования, соответственно, текстовых обучающих признаков и основанных на векторном представлении обучающих признаков. Однако следует отметить, что текстовые данные 540 и основанные на векторном представлении данные 545, которые подлежат использованию для генерирования, соответственно, текстового используемого признака 520 и основанного на векторном представлении используемого признака 530, связаны со всеми обучающими примерами в упорядоченной последовательности 270 обучающих примеров. Другими словами, можно сказать, что для генерирования определенного текстового используемого признака для определенного используемого объекта все обучающие объекты, которые были использованы для обучения, рассматриваются как объекты, предшествующие этому определенному используемому объекту.
[219] Сервер 106 выполнен с возможностью генерирования набора 510 используемых данных для определенного используемого документа, содержащего текстовые данные 502, основанные на векторном представлении данные 504, текстовый используемый признак 520 и основанный на векторном представлении используемый признак 530. Сервер 106 выполнен с возможностью ввода набора 510 используемых данных в (уже обученную) модель 170 классификации. В ответ модель 170 классификации выполнена с возможностью генерирования используемого прогнозного значения 550, указывающего спрогнозированный класс определенного используемого документа.
[220] Со ссылкой на Фигуру 6, в некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью исполнения способа 600 определения определенного обучающего набора для обучения модели 170 классификации. Теперь будут описаны различные этапы способа 600.
ЭТАП 602: получение множества обучающих примеров для обучения MLA
[221] Способ 600 начинается на этапе 602, на котором сервер 106, выполнен с возможностью получения множества 250 обучающих примеров для обучения MLA (модели 170 классификации). Как упоминалось выше, обучающие примеры связаны с соответствующими цифровыми объектами и содержат информацию о соответствующих цифровых объектах.
[222] Следует отметить, что определенный обучающий пример может содержать текстовые данные, связанные с соответствующим объектом, и указание истинного класса соответствующего объекта. Например, цифровой объект может быть цифровым документом, предоставляемым в качестве результата поиска в ответ на поисковый запрос, такой как поисковый запрос, отправляемый в определенную поисковую систему. В этом примере текстовые данные в соответствующем обучающем примере могут содержать текст заголовка, основной текст, текст нижнего колонтитула, HTML-файл и подобное, связанное с определенным цифровым документом. В другом примере объектом может быть цифровой элемент, рекомендуемый пользователю определенной системы рекомендаций контента. В этом примере текстовые данные в соответствующем обучающем примере могут содержать описание элемента, пользовательские отзывы и подобное, связанное с определенным цифровым элементом. В этом примере цифровой элемент может быть цифровой рекламой, а текстовые данные в соответствующем обучающем примере могут содержать один или более текстов, связанных с определенной цифровой рекламой. В дополнительном примере цифровым объектом может быть сообщение электронной почты, предназначенное пользователю определенной платформы электронной почты. В этом примере текстовые данные в соответствующем обучающем примере могут содержать текст в теле сообщения электронной почты, в заголовке сообщения электронной почты, в одном или более приложениях и подобном, связанном с определенным сообщением электронной почты.
[223] Следует отметить, что MLA подлежит обучению для выполнения классификации цифровых объектов. В одном примере модель 170 классификации может быть обучена выполнять двоичную классификацию цифровых объектов, например определять, является ли определенное сообщение электронной почты «спамом» или «не спамом». В другом примере модель 170 классификации может быть обучена выполнять многоклассовую классификацию объектов, например определять, связан ли определенный цифровой документ с «новостями», «наукой», «политикой» или «спортом». Выбор классов может выполняться оператором сервера 106 и может зависеть, среди прочего, от конкретных реализаций настоящей технологии. Предполагается, что модель 170 классификации может быть реализована множеством способов. В по меньшей мере одном варианте осуществления моделью 170 классификации может быть MLA типа дерева принятия решений.
ЭТАП 604: упорядочивание множества обучающих примеров в упорядоченную последовательность обучающих примеров
[224] Способ 600 переходит на этап 604, на котором сервер 106 выполнен с возможностью упорядочивания множества 250 обучающих примеров в упорядоченную последовательность 270 обучающих примеров. Следует отметить, что определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в этой упорядоченной последовательности.
[225] В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью случайного упорядочивания множества 250 обучающих примеров, то есть упорядоченная последовательность 270 обучающих примеров может иметь случайно определенный порядок обучающих примеров. В других вариантах осуществления сервер 106 может быть выполнен с возможностью упорядочивания множества 250 обучающих примеров на основе одной или более «присущих объектам» характеристик, связанных с соответствующими объектами. Например, сервер 106 может быть выполнен с возможностью использования даты создания соответствующего цифрового документа для упорядочивания множества 250 обучающих примеров. Таким образом, упорядоченная последовательность 270 обучающих примеров может быть последовательностью обучающих примеров, упорядоченных от «самого старого» цифрового документа к «самому свежему» цифровому документу. В другом примере, сервер 106 может быть выполнен с возможностью использования даты покупки соответствующих цифровых документов для упорядочивания множества 250 обучающих примеров. Таким образом, упорядоченная последовательность 270 обучающих примеров может быть последовательностью обучающих примеров, упорядоченных от купленного «последним» цифрового элемента к купленному «ранее» цифровому элементу.
ЭТАП 606: генерирование текстового признака для определенного обучающего примера
[226] Способ 600 переходит на этап 606, на котором сервер 106 выполнен с возможностью генерирования сервером текстового признака 330 для обучающего примера 220 на основе текстовых данных 224 из обучающего примера 220 и текстовых данных и меток только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах (то есть текстовых данных 284 и меток соответствующих обучающих примеров, а также текстовых данных 214 и метки 218).
[227] В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью вычисления одного или более статистических признаков по текстовым данным 224 и по текстовым данным 284 и 214. Например, сервер 106 может быть выполнен с возможностью вычисления одного или более статистических признаков для текстовых данных 224, связанных с обучающим примером 220, и одного или более статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами. Предполагается, что сервер 106 может быть выполнен с возможностью генерирования текстового обучающего признака 330 в качестве комбинации одного или более статистических признаков для текстовых данных 224 и одного или более статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами.
[228] Один или более предопределенных типов статистических признаков, которые подлежат вычислению сервером 106, могут быть определены оператором сервера 106. Предполагается, что сервер 106 может быть выполнен с возможностью вычисления одного или более предопределенных типов статистических признаков на основе текстовых данных, так что, когда один или более предопределенных типов статистических признаков для текстовых данных 224 и один или более предопределенных типов статистических признаков для текстовых данных, связанных с соответствующими предыдущими обучающими примерами, объединяются сервером 106, результирующим текстовым обучающим признаком 330 является определенный признак подобия между текстовыми данными 224 и текстовыми данными предыдущих обучающих примеров.
[229] Предполагается, что один или более предопределенных типов статистических признаков, вычисленных на основе текстовых данных, связанных с соответствующими предыдущими обучающими примерами, могут быть характерными для класса статистическими признаками. Например, статистические признаки, вычисленные на основе текстовых данных, связанных с соответствующими предыдущими обучающими примерами, могут содержать: (i) первый статистический признак, вычисленный на основе текстовых данных, связанных с первым подмножеством предыдущих обучающих примеров, принадлежащих к первому классу (указанному соответствующими метками), и (ii) второй статистический признак, вычисленный на основе текстовых данных, связанных со вторым подмножеством предыдущих обучающих примеров, принадлежащих ко второму классу (указанному соответствующими метками).
[230] В по меньшей мере некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью генерирования более одного текстового признака для определенного обучающего примера 220 аналогично тому, как сервер 106 выполнен с возможностью генерирования текстового признака 330. Например, текстовые признаки в количестве более одного могут быть сгенерированы сервером 106 в качестве соответствующих комбинаций статистических признаков из текстовых данных 224 и статистических признаков из текстовых данных, связанных с соответствующими предыдущими обучающими примерами.
ЭТАП 608: определение обучающего набора для MLA на основе определенного обучающего примера
[231] Способ 600 переходит на этап 608, на котором сервер 106 выполнен с возможностью определения определенного обучающего набора для MLA на основе определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя текстовый признак 330 (или множество текстовых признаков, сгенерированных аналогично тому, как генерируется текстовый признак 330), а метка представляет истинный класс соответствующего объекта. В некоторых вариантах осуществления настоящей технологии следует отметить, что обучающие входные данные могут дополнительно включать в себя текстовые данные соответствующего объекта.
[232] Сервер 106 также может быть выполнен с возможностью генерирования множества обучающих наборов для обучающих примеров в упорядоченной последовательности 270 обучающих примеров аналогично тому, как сервер 106 выполнен с возможностью генерирования определенного обучающего набора для обучающего примера 220. Предполагается, что данные, которые сервер 106 выполнен с возможностью определять/генерировать во время процесса генерирования множества обучающих наборов, могут сохраняться в системе 150 баз данных.
[233] Предполагается, что сервер 106 может быть выполнен с возможностью обучения модели 170 классификации на основе определенного таким образом обучающего набора. Например, сервер 106 может предоставить MLA обучающие входные данные для генерирования соответствующих спрогнозированных классов, чтобы они соответствовали соответствующим истинным классам.
[234] Сервер 106 также может быть выполнен с возможностью использования обученной таким образом модели 170 классификации во время фазы ее использования для классификации одного или более цифровых объектов множества 160 онлайн-служб. Например, сервер 106 может получать определенный используемый пример для модели 170 классификации, включающий в себя текстовые данные, связанные с используемым объектом, и может генерировать один или более используемых текстовых признаков для этого определенного используемого примера. Сервер 106 может генерировать один или более используемых текстовых признаков на основе текстовых данных определенного используемого примера и текстовых данных, хранящихся в системе 150 баз данных. В одном примере сервер 106 может использовать текстовые данные, связанные с соответствующими данными из упорядоченной последовательности 270 обучающих примеров. Сервер 106 может затем вводить текстовые данные соответствующего используемого объекта и соответствующий один или более используемых текстовых признаков в модель 170 классификации, которая в ответ определяет спрогнозированный класс используемого объекта.
[235] Со ссылкой на Фигуру 7, в некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью исполнения способа 700 определения определенного обучающего набора для обучения модели 170 классификации. Теперь будут описаны различные этапы способа 700.
ЭТАП 702: получение множества обучающих примеров для обучения MLA
[236] Способ 700 начинается на этапе 702, на котором сервер 106, выполнен с возможностью получения множества 250 обучающих примеров для обучения MLA (модели 170 классификации). Как упоминалось выше, обучающие примеры связаны с соответствующими цифровыми объектами и содержат информацию о соответствующих цифровых объектах.
[237] Следует отметить, что определенный обучающий пример может содержать основанные на векторном представлении данные, связанные с соответствующим объектом, и указание истинного класса соответствующего объекта. Например, цифровой объект может быть цифровым документом, предоставляемым в качестве результата поиска в ответ на поисковый запрос, такой как поисковый запрос, отправляемый в определенную поисковую систему. В этом примере основанные на векторном представлении данные в соответствующем обучающем примере могут содержать одно или более векторных представлений (векторов), сгенерированных на основе текста заголовка, основного текста и/или текста нижнего колонтитула, связанных с определенным цифровым документом. В другом примере объектом может быть цифровой элемент, рекомендуемый пользователю определенной системы рекомендаций контента. В этом примере основанные на векторном представлении данные в соответствующем обучающем примере могут содержать одно или более векторных представлений, сгенерированных на основе описания элемента и/или пользовательских отзывов, связанных с определенным цифровым элементом.
[238] Сервер 106 может быть выполнен с возможностью генерирования основанных на векторном представлении данных, применяя по меньшей мере одно из: слоя векторного представления обученной NN, алгоритма word2vec и алгоритма GloVe. Предполагается, что сервер 106 может использовать другие методики генерирования векторного представления, известные в данной области техники.
ЭТАП 704: упорядочивание множества обучающих примеров в упорядоченную последовательность обучающих примеров
[239] Способ 700 переходит на этап 704, на котором сервер 106 выполнен с возможностью упорядочивания множества 250 обучающих примеров в упорядоченную последовательность 270 обучающих примеров. Следует отметить, что определенный обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в этой упорядоченной последовательности.
[240] В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью случайного упорядочивания множества 250 обучающих примеров, то есть упорядоченная последовательность 270 обучающих примеров может иметь случайно определенный порядок обучающих примеров. В других вариантах осуществления сервер 106 может быть выполнен с возможностью упорядочивания множества 250 обучающих примеров на основе одной или более «присущих объектам» характеристик, связанных с соответствующими объектами. Например, сервер 106 может быть выполнен с возможностью использования даты создания соответствующего цифрового документа для упорядочивания множества 250 обучающих примеров. Таким образом, упорядоченная последовательность 270 обучающих примеров может быть последовательностью обучающих примеров, упорядоченных от «самого старого» цифрового документа к «самому свежему» цифровому документу. В другом примере, сервер 106 может быть выполнен с возможностью использования даты покупки соответствующих цифровых документов для упорядочивания множества 250 обучающих примеров. Таким образом, упорядоченная последовательность 270 обучающих примеров может быть последовательностью обучающих примеров, упорядоченных от купленного «последним» цифрового элемента к купленному «ранее» цифровому элементу.
ЭТАП 706: генерирование основанного на векторном представлении признака для определенного обучающего примера
[241] Способ 700 переходит на этап 706, на котором сервер 106 выполнен с возможностью генерирования сервером основанного на векторном представлении признака 340 для обучающего примера 220 на основе основанных на векторном представлении данных 226 из обучающего примера 220 и основанных на векторном представлении данных (векторных представлений) и соответствующих меток только предыдущих обучающих примеров в упорядоченной последовательности без учета основанных на векторном представлении данных в последующих обучающих примерах (то есть основанных на векторном представлении данных 286 и меток соответствующих обучающих примеров, а также основанных на векторном представлении данных 216 и метки 218).
[242] Сервер 106 может быть выполнен с возможностью выполнения операции извлечения информации в отношении набора основанных на векторных представлениях данных (например, множества векторных представлений). Например, сервер 106 может быть выполнен с возможностью вычисления одного или более статистических признаков для основанных на векторном представлении данных 226, связанных с обучающим примером 220, и одного или более статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами. Предполагается, что сервер 106 может быть выполнен с возможностью генерирования основанного на векторном представлении обучающего признака 340 в качестве комбинации одного или более статистических признаков для основанных на векторном представлении данных 226 и одного или более статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами.
[243] В некоторых вариантах осуществления сервер 106 может быть выполнен с возможностью вычисления одного или более предопределенных типов статистических признаков на основе основанных на векторном представлении данных, так что, когда один или более предопределенных типов статистических признаков для основанных на векторном представлении данных 226 и один или более предопределенных типов статистических признаков для основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами, объединяются сервером 106, результирующим основанным на векторном представлении обучающим признаком 340 является по меньшей мере одно из, но без ограничения упомянутым: расстояния между определенным векторным представлением для обучающего примера 220 и центром кластера, вычисленным для векторных представлений из предыдущих обучающих примеров, которые относятся к тому же классу, что и данный обучающий пример, и расстояния между определенным векторным представлением для обучающего примера 220 и центром другого кластера, вычисленным для векторных представлений из предыдущих обучающих примеров, которые относятся к другому классу, чем обучающий пример 220.
[244] Следует отметить, что сервер 106 может быть выполнен с возможностью определения ряда основанных на векторном представлении признаков подобия. Например, предполагается, что сервер 106 может быть выполнен с возможностью определения основанного на векторном представлении признака подобия, который указывает по меньшей мере одно из: (i) косинусного или L2-расстояния от векторного представления образца до среднего векторного представления некоторого конкретного класса, L2-расстояния до ближайшего или k-го ближайшего соседа из некоторого конкретного класса, значения линейного дискриминантного анализа и подобного.
[245] В по меньшей мере некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью генерирования более одного основанного на векторном представлении признака для определенного обучающего примера 220 аналогично тому, как сервер 106 выполнен с возможностью генерирования основанного на векторном представлении признака 340. Например, основанные на векторном представлении признаки в количестве более одного могут быть сгенерированы сервером 106 в качестве соответствующих комбинаций статистических признаков из основанных на векторном представлении данных 226 и статистических признаков из основанных на векторном представлении данных, связанных с соответствующими предыдущими обучающими примерами.
ЭТАП 708: определение обучающего набора для MLA на основе определенного обучающего примера
[246] Способ 700 переходит на этап 708, на котором сервер 106 выполнен с возможностью определения определенного обучающего набора для MLA на основе определенного обучающего примера. Обучающий набор имеет обучающие входные данные и метку. Обучающие входные данные включают в себя основанный на векторном представлении признак 340 (или множество основанных на векторном представлении признаков, сгенерированных аналогично тому, как генерируется основанный на векторном представлении признак 340), а метка представляет истинный класс соответствующего объекта. В некоторых вариантах осуществления настоящей технологии обучающие входные данные могут дополнительно включать в себя основанные на векторном представлении данные соответствующего объекта.
[247] Сервер 106 также может быть выполнен с возможностью генерирования множества обучающих наборов для обучающих примеров в упорядоченной последовательности 270 обучающих примеров аналогично тому, как сервер 106 выполнен с возможностью генерирования определенного обучающего набора для обучающего примера 220. Предполагается, что данные, которые сервер 106 выполнен с возможностью определять/генерировать во время процесса генерирования множества обучающих наборов, могут сохраняться в системе 150 баз данных.
[248] Предполагается, что сервер 106 может быть выполнен с возможностью обучения модели 170 классификации на основе определенного таким образом обучающего набора. Например, сервер 106 может предоставить MLA обучающие входные данные для генерирования соответствующих спрогнозированных классов, чтобы они соответствовали соответствующим истинным классам.
[249] В некоторых вариантах осуществления настоящей технологии сервер 106 может быть выполнен с возможностью генерирования одного или более текстовых используемых признаков и одного или более основанных на векторном представлении используемых признаков для определенного используемого цифрового объекта аналогично тому, что было описано выше. Сервер 106 также может быть выполнен с возможностью использования одного или более текстовых используемых признаков и и одного или более основанных на векторном представлении используемых признаков для классификации определенного используемого цифрового объекта.
[250] Следует четко понимать, что не все технические эффекты, упомянутые в настоящем документе, должны быть реализованы в каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут быть реализованы без осуществления для пользователя некоторых из этих технических эффектов, в то время как другие варианты осуществления могут быть реализованы с осуществлением для пользователя других технических эффектов или вообще без них.
[251] Некоторые из этих этапов и отправка-прием сигналов хорошо известны в данной области техники и, как таковые, были опущены в некоторых частях этого описания для простоты. Сигналы могут отправляться-приниматься с использованием оптических средств (например, оптоволоконного соединения), электронных средств (например, используя проводное или беспроводное соединение), а также механических средств (например, средств, основанных на давлении, на температуре, или на основе любого другого подходящего физического параметра).
[252] Модификации и улучшения вышеописанных реализаций настоящей технологии могут стать очевидными для специалистов в данной области техники. Предшествующее описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому предполагается, что объем настоящей технологии ограничен лишь объемом прилагаемой формулы изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СЕРВЕР ДЛЯ ПОВТОРНОГО ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2019 |
|
RU2743932C2 |
СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2021 |
|
RU2819647C2 |
СПОСОБЫ И СЕРВЕРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ЗАВИСЯЩИХ ОТ МЕТРИКИ ПОРОГОВ, ИСПОЛЬЗУЕМЫХ СО МНОЖЕСТВОМ ВЛОЖЕННЫХ МЕТРИК ДЛЯ БИНАРНОЙ КЛАССИФИКАЦИИ ЦИФРОВОГО ОБЪЕКТА | 2020 |
|
RU2795202C2 |
СПОСОБ И СИСТЕМА ПОСТРОЕНИЯ ПОИСКОВОГО ИНДЕКСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2018 |
|
RU2720954C1 |
СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ПРИЗНАКА ДЛЯ РАНЖИРОВАНИЯ ДОКУМЕНТА | 2018 |
|
RU2733481C2 |
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ ПЕРЕВОДУ | 2020 |
|
RU2770569C2 |
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ РАНЖИРОВАНИЮ ОБЪЕКТОВ | 2020 |
|
RU2782502C1 |
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ ФОРМИРОВАНИЮ ТЕКСТОВОЙ ВЫХОДНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ | 2020 |
|
RU2798362C2 |
Способы и серверы для ранжирования цифровых документов в ответ на запрос | 2020 |
|
RU2775815C2 |
МАШИННОЕ ОБУЧЕНИЕ | 2005 |
|
RU2391791C2 |
Изобретение относится к способу и серверу определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов. Технический результат заключается в повышении надежности модели прогнозирования за счет снижения риска и влияния переобучения во время фазы использования модели прогнозирования. В способе выполняют получение сервером множества обучающих примеров для обучения MLA, обучающий пример включает в себя текстовые данные, связанные с соответствующим цифровым объектом, и указание истинного класса соответствующего объекта; упорядочивание сервером упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров, упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности; генерирование сервером текстового признака для упомянутого обучающего примера на основе текстовых данных в упомянутом обучающем примере, а также текстовых данных и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах; определение сервером обучающего набора для MLA на основе упомянутого обучающего примера, причем обучающий набор имеет обучающие входные данные и метку, обучающие входные данные включают в себя текстовый признак, метка представляет истинный класс соответствующего объекта, при этом цифровым объектом является любое из: цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос, цифрового элемента, рекомендуемого пользователю системы рекомендаций контента, сообщения электронной почты, предназначенного пользователю платформы электронной почты. 5 н. и 51 з.п. ф-лы, 8 ил.
1. Способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем способ исполняется сервером, сервер исполняет упомянутый MLA, причем способ содержит:
получение сервером множества обучающих примеров для обучения MLA,
обучающий пример включает в себя текстовые данные, связанные с соответствующим цифровым объектом, и указание истинного класса соответствующего объекта;
упорядочивание сервером упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров,
упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности;
генерирование сервером текстового признака для упомянутого обучающего примера на основе текстовых данных в упомянутом обучающем примере, а также текстовых данных и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах;
определение сервером обучающего набора для MLA на основе упомянутого обучающего примера,
причем обучающий набор имеет обучающие входные данные и метку,
обучающие входные данные включают в себя текстовый признак, метка представляет истинный класс соответствующего объекта,
при этом цифровым объектом является любое из:
цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос,
цифрового элемента, рекомендуемого пользователю системы рекомендаций контента,
сообщения электронной почты, предназначенного пользователю платформы электронной почты.
2. Способ по п. 1, в котором обучающие входные данные дополнительно включают в себя текстовые данные соответствующего объекта, текстовые данные для ввода с текстовым признаком в MLA.
3. Способ по п. 1, при этом способ дополнительно содержит обучение сервером MLA на основе обучающего набора, причем MLA обучается использовать входные данные для генерирования соответствующих прогнозируемых классов.
4. Способ по п. 1, при этом способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих примеров, в хранилище.
5. Способ по п. 1, в котором генерирование текстового признака содержит применение сервером по меньшей мере одной из: наивной байесовской функции, функции частоты слова - обратной частоты документа (TF-IDF) и функции лучшего совпадения 25 (BM25).
6. Способ по п. 1, при этом способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих наборов, в хранилище, причем множество обучающих наборов включает в себя упомянутый обучающий набор.
7. Способ по п. 6, при этом способ дополнительно содержит:
получение сервером используемого примера для MLA,
причем упомянутый используемый пример включает в себя текстовые данные, связанные с соответствующим используемым объектом;
генерирование сервером используемого текстового признака для упомянутого используемого примера на основе текстовых данных в упомянутом используемом примере и текстовых данных, хранящихся в хранилище;
ввод сервером используемых входных данных в MLA, причем упомянутые используемые входные данные включают в себя используемый текстовый признак,
MLA выполнен с возможностью определения прогнозируемого класса соответствующего используемого объекта.
8. Способ по п. 7, в котором упомянутые используемые входные данные дополнительно включают в себя текстовые данные соответствующего используемого объекта.
9. Способ по п. 1, в котором MLA обучается выполнять двоичную классификацию объектов.
10. Способ по п. 1, в котором MLA обучается выполнять многоклассовую классификацию объектов.
11. Способ по п. 1, в котором MLA имеет тип дерева принятия решений.
12. Сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем сервер исполняет MLA, сервер выполнен с возможностью:
получения множества обучающих примеров для обучения MLA,
обучающий пример включает в себя текстовые данные, связанные с соответствующим цифровым объектом, и указание истинного класса соответствующего объекта;
упорядочивания упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров,
упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности;
генерирования текстового признака для упомянутого обучающего примера на основе текстовых данных в упомянутом обучающем примере, а также текстовых данных и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета текстовых данных в последующих обучающих примерах;
определения обучающего набора для MLA на основе упомянутого обучающего примера,
причем обучающий набор имеет обучающие входные данные и метку,
обучающие входные данные включают в себя текстовый признак, метка представляет истинный класс соответствующего объекта,
при этом цифровым объектом является любое из:
цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос,
цифрового элемента, рекомендуемого пользователю системы рекомендаций контента,
сообщения электронной почты, предназначенного пользователю платформы электронной почты.
13. Сервер по п. 12, в котором обучающие входные данные дополнительно включают в себя текстовые данные соответствующего объекта, текстовые данные, которые подлежат вводу сервером с текстовым признаком в MLA.
14. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью обучения MLA на основе обучающего набора, причем MLA обучается использовать входные данные для генерирования соответствующих прогнозируемых классов.
15. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих примеров, в хранилище.
16. Сервер по п. 12, в котором генерирование текстового признака содержит применение сервером по меньшей мере одной из наивной байесовской функции, функции частоты слова - обратной частоты документа (TF-IDF) и функции лучшего совпадения 25 (BM25).
17. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих наборов, в хранилище, причем множество обучающих наборов включает в себя упомянутый обучающий набор.
18. Сервер по п. 17, при этом сервер дополнительно выполнен с возможностью:
получения используемого примера для MLA,
причем упомянутый используемый пример включает в себя текстовые данные, связанные с соответствующим используемым объектом;
генерирования используемого текстового признака для упомянутого используемого примера на основе текстовых данных в упомянутом используемом примере и текстовых данных, хранящихся в хранилище;
ввода используемых входных данных в MLA, причем упомянутые используемые входные данные включают в себя используемый текстовый признак,
MLA выполнен с возможностью определения прогнозируемого класса соответствующего используемого объекта.
19. Сервер по п. 18, в котором упомянутые используемые входные данные дополнительно включают в себя текстовые данные соответствующего используемого объекта.
20. Сервер по п. 12, в котором MLA обучается выполнять двоичную классификацию объектов.
21. Сервер по п. 12, в котором MLA обучается выполнять многоклассовую классификацию объектов.
22. Сервер по п. 12, в котором MLA имеет тип дерева принятия решений.
23. Способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем способ исполняется сервером, сервер исполняет упомянутый MLA, причем способ содержит:
получение сервером множества обучающих примеров для обучения MLA,
обучающий пример включает в себя векторное представление, связанное с соответствующим объектом, и указание истинного класса соответствующего объекта;
упорядочивание сервером упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров,
упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности;
генерирование сервером основанного на векторном представлении признака для упомянутого обучающего примера на основе векторного представления в упомянутом обучающем примере, а также векторных представлений и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета векторных представлений в последующих обучающих примерах;
определение сервером обучающего набора для MLA на основе упомянутого обучающего примера, причем обучающий набор имеет обучающие входные данные и метку,
обучающие входные данные включают в себя основанный на векторном представлении признак, метка представляет истинный класс соответствующего объекта,
при этом цифровым объектом является любое из:
цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос,
цифрового элемента, рекомендуемого пользователю системы рекомендаций контента,
сообщения электронной почты, предназначенного пользователю платформы электронной почты.
24. Способ по п. 23, в котором обучающие входные данные дополнительно включают в себя векторное представление соответствующего объекта, векторное представление для ввода с основанным на векторном представлении признаком в MLA.
25. Способ по п. 23, при этом способ дополнительно содержит обучение сервером MLA на основе обучающего набора, причем MLA обучается использовать входные данные для генерирования соответствующих прогнозируемых классов.
26. Способ по п. 23, при этом способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих примеров, в хранилище.
27. Способ по п. 23, в котором генерирование основанного на векторном представлении признака содержит определение сервером по меньшей мере одного из: косинусного расстояния между упомянутым векторным представлением и средним векторным представлением для некоторого класса предыдущих обучающих примеров, евклидова расстояния между упомянутым векторным представлением и ближайшими соседями в количестве K из упомянутого класса предыдущих обучающих примеров.
28. Способ по п. 23, при этом способ дополнительно содержит генерирование сервером векторного представления для упомянутого обучающего примера на основе текстовых данных, связанных с упомянутым объектом.
29. Способ по п. 28, в котором векторное представление генерируется с применением по меньшей мере одного из: алгоритма word2vec, алгоритма fastText и алгоритма GloVe.
30. Способ по п. 23, при этом способ дополнительно содержит генерирование сервером векторного представления для упомянутого обучающего примера на основе данных изображения, связанных с упомянутым объектом.
31. Сервер по п. 23, при этом способ дополнительно содержит сохранение сервером данных, указывающих множество обучающих наборов, в хранилище, причем множество обучающих наборов включает в себя упомянутый обучающий набор.
32. Способ по п. 31, при этом способ дополнительно содержит:
получение сервером используемого примера для MLA,
причем упомянутый используемый пример включает в себя используемое векторное представление, связанное с соответствующим используемым объектом;
генерирование сервером используемого основанного на векторном представлении признака для упомянутого используемого примера на основе используемого векторного представления в упомянутом используемом примере и основанных на векторном представлении данных, хранящихся в хранилище;
ввод сервером используемых входных данных в MLA, причем упомянутые используемые входные данные включают в себя используемый основанный на векторном представлении признак,
MLA выполнен с возможностью определения прогнозируемого класса соответствующего используемого объекта.
33. Способ по п. 32, в котором упомянутые используемые входные данные дополнительно включают в себя используемое векторное представление, связанное с соответствующим используемым объектом.
34. Способ по п. 23, в котором MLA обучается выполнять двоичную классификацию объектов.
35. Сервер по п. 23, в котором MLA обучается выполнять многоклассовую классификацию объектов.
36. Способ по п. 23, в котором MLA имеет тип дерева принятия решений.
37. Сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем сервер исполняет MLA, сервер выполнен с возможностью:
получения множества обучающих примеров для обучения MLA,
обучающий пример включает в себя векторное представление, связанное с соответствующим объектом, и указание истинного класса соответствующего объекта;
упорядочивания упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров,
упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности;
генерирования основанного на векторном представлении признака для упомянутого обучающего примера на основе векторного представления в упомянутом обучающем примере, а также векторных представлений и истинных классов только предыдущих обучающих примеров в упорядоченной последовательности без учета векторных представлений в последующих обучающих примерах;
определения обучающего набора для MLA на основе упомянутого обучающего примера, причем обучающий набор имеет обучающие входные данные и метку,
обучающие входные данные включают в себя основанный на векторном представлении признак, метка представляет истинный класс соответствующего объекта,
при этом цифровым объектом является любое из:
цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос,
цифрового элемента, рекомендуемого пользователю системы рекомендаций контента,
сообщения электронной почты, предназначенного пользователю платформы электронной почты.
38. Сервер по п. 37, в котором обучающие входные данные дополнительно включают в себя векторное представление соответствующего объекта, векторное представление, которое подлежит вводу с основанным на векторном представлении признаком в MLA.
39. Сервер по п. 37, при этом сервер дополнительно выполнен с возможностью обучения MLA на основе обучающего набора, причем MLA обучается использовать входные данные для генерирования соответствующих прогнозируемых классов.
40. Сервер по п. 37, при этом сервер выполнен с возможностью сохранения данных, указывающих множество обучающих примеров, в хранилище.
41. Сервер по п. 37, в котором генерирование основанного на векторном представлении признака содержит определение сервером по меньшей мере одного из: косинусного расстояния между упомянутым векторным представлением и средним векторным представлением для некоторого класса предыдущих обучающих примеров, евклидова расстояния между упомянутым векторным представлением и ближайшими соседями в количестве K из упомянутого класса предыдущих обучающих примеров.
42. Сервер по п. 37, при этом сервер дополнительно выполнен с возможностью генерирования векторного представления для упомянутого обучающего примера на основе текстовых данных, связанных с упомянутым объектом.
43. Сервер по п. 42, в котором векторное представление генерируется посредством применения по меньшей мере одного из: алгоритма word2vec, алгоритма fastText и алгоритма GloVe.
44. Сервер по п. 37, при этом сервер дополнительно выполнен с возможностью генерирования векторного представления для упомянутого обучающего примера на основе данных изображения, связанных с упомянутым объектом.
45. Сервер по п. 37, при этом сервер дополнительно выполнен с возможностью сохранения данных, указывающих множество обучающих наборов, в хранилище, причем множество обучающих наборов включает в себя упомянутый обучающий набор.
46. Сервер по п. 45, при этом сервер дополнительно выполнен с возможностью:
получения используемого примера для MLA,
причем упомянутый используемый пример включает в себя используемое векторное представление, связанное с соответствующим используемым объектом;
генерирования используемого основанного на векторном представлении признака для упомянутого используемого примера на основе используемого векторного представления и основанных на векторном представлении данных, хранящихся в хранилище;
ввода используемых входных данных в MLA, причем упомянутые используемые входные данные включают в себя используемый основанный на векторном представлении признак,
MLA выполнен с возможностью определения прогнозируемого класса соответствующего используемого объекта.
47. Сервер по п. 46, в котором упомянутые используемые входные данные дополнительно включают в себя используемое векторное представление, связанное с соответствующим используемым объектом.
48. Сервер по п. 37, в котором MLA обучается выполнять двоичную классификацию объектов.
49. Сервер по п. 37, в котором MLA обучается выполнять многоклассовую классификацию объектов.
50. Сервер по п. 37, в котором MLA имеет тип дерева принятия решений.
51. Способ определения обучающего набора для обучения алгоритма машинного обучения (MLA) для выполнения классификации цифровых объектов, причем способ исполняется сервером, сервер исполняет упомянутый MLA, причем способ содержит:
получение сервером множества обучающих примеров для обучения MLA,
обучающий пример включает в себя характерные для объекта данные, связанные с соответствующим цифровым объектом, и указание истинного класса соответствующего объекта;
упорядочивание сервером упомянутого множества обучающих примеров в упорядоченную последовательность обучающих примеров,
упомянутый обучающий пример имеет предыдущие обучающие примеры в упорядоченной последовательности и последующие обучающие примеры в упорядоченной последовательности;
кластеризацию сервером предыдущих обучающих примеров в по меньшей мере два кластера предыдущих обучающих примеров в многомерном пространстве,
предыдущие обучающие примеры в кластере связаны с первым истинным классом;
генерирование сервером признака подобия для упомянутого обучающего примера на основе расстояния между упомянутым кластером и упомянутым обучающим примером в многомерном пространстве,
причем признак подобия указывает подобие между упомянутым обучающим примером и предыдущими обучающими примерами первого истинного класса;
определение сервером обучающего набора для MLA на основе упомянутого обучающего примера,
причем обучающий набор имеет обучающие входные данные и метку,
обучающие входные данные включают в себя признак подобия, метка представляет истинный класс соответствующего объекта,
при этом цифровым объектом является любое из:
цифрового документа, предоставляемого в качестве результата поиска в ответ на поисковый запрос,
цифрового элемента, рекомендуемого пользователю системы рекомендаций контента,
сообщения электронной почты, предназначенного пользователю платформы электронной почты.
52. Способ по п. 51, в котором упомянутый кластер связан с соответствующим центром кластера, причем упомянутое расстояние представляет собой расстояние между центром кластера собственно упомянутого кластера и упомянутым обучающим примером.
53. Способ по п. 51, в котором признак подобия представляется по меньшей мере двумя признаками подобия.
54. Способ по п. 52, в котором количество признаков подобия среди упомянутых по меньшей мере двух признаков подобия равно общему количеству истинных классов.
55. Способ по п. 53, в котором MLA обучается выполнять двоичную классификацию цифровых объектов, и при этом общее количество истинных классов равно двум.
56. Способ по п. 53, в котором MLA обучается выполнять многоклассовую классификацию цифровых объектов, и при этом общее количество истинных классов больше двух.
US 10713589 B1, 14.07.2020 | |||
US 10410138 B2, 10.09.2019 | |||
US 20200320337 A1, 08.10.2020 | |||
US 20190340533 A1, 07.11.2019 | |||
US 8572071 B2, 29.10.2013 | |||
US 20090171956 A1, 02.07.2009. |
Авторы
Даты
2024-04-19—Публикация
2020-11-19—Подача