РАНЖИРАТОР РЕЗУЛЬТАТОВ ПОИСКА Российский патент 2017 года по МПК G06F17/30 

Описание патента на изобретение RU2608886C2

Область техники

Данная технология относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска.

Уровень техники

При выполнении поиска в интернете с помощью поисковой системы, например, предоставленной Яндекс™ (www.yandex.com), сервер сначала принимает поисковый запрос, введенный пользователем на пользовательском устройстве, например, компьютере, смартфоне или планшете, после чего сервер извлекает документы для данного запроса; затем с помощью ранжиратора результатов поиска документы ранжируются, а затем команды для открытия страницы результатов поиска (SERP) посылаются клиентскому устройству сервером. С помощью SERP предоставляется список ссылок на документы, а также, как правило, часть документа (или моментальный снимок, также известный как «скриншот», имеющейся в документе информации), упорядоченные в порядке релевантности.

Документы, найденные с помощью поисковой системы, могут существенно отличаться в отношении их практической ценности. Одной из основных проблем ранжирования результатов поиска является определение размещения наиболее релевантных документов в верхней части поисковой выдачи (т.е. SERP).

В некоторых поисковых системах ранжиратором результатов поиска для ранжирования результатов используется релевантность. С помощью релевантности определяется, в какой мере найденный документ соответствует поисковому запросу. Наиболее релевантным документом является тот, который располагается в самом верху. В некоторых поисковых системах релевантность вычисляется с помощью формулы ранжирования, которая является функцией множества факторов. Фактором является численная характеристика запроса, документа или пары запрос-документ, который может использоваться для оценки уместности результата в выдаче по запросу.

Примеры факторов включают количество слов поискового запроса, содержащихся в тексте документа, или принадлежность запроса к определенной категории. В некоторых случаях релевантность документа также может зависеть от пользователя, отправившего запрос.

Количество проиндексированных документов и потребности пользователей постоянно меняются. Именно поэтому формула ранжирования результатов поиска, используемая ранжиратором, должна регулярно обновляться. Для изменения формулы применяются методы машинного обучения. На основе данных экспертной оценки, предоставленных релевантностью набора известных документов для набора известных поисковых запросов, определяется зависимость между характеристиками документа и их размещением в поисковой выдаче (т.е. SERP). Определенные зависимости используются для внесения изменений в формулу.

Экспертными данными, используемыми для машинного обучения, являются оценки, описывающие, насколько уместно и корректно упорядочены документы в поисковой выдаче по конкретным запросам. Эти оценки назначаются экспертами.

Помимо использования в машинном обучении, экспертные оценки используются также для оценки качества результатов поиска, то есть степени удовлетворенности пользователей результатами поиска и их порядком следования.

При этом в случае, если необходима массовая выборка, предоставление таких экспертных оценок является непрактичным и очень сложным. Например, для такой массовой выборки необходимо персонализировать результаты поиска. Персонализация позволяет упорядочивать результаты поиска на основе личных предпочтений пользователей, тем самым улучшая качество поиска. Например, в зависимости от профиля пользователя, по запросу «zeppelin» для некоторых пользователей документы, относящиеся к типу дирижабля, будут ранжированы как документы с наивысшим рейтингом, в то время как для других пользователей документами с наивысшим рейтингом будут документы, относящиеся к группе Led Zeppelin.

С целью улучшить ранжирование для такого большого набора данных некоторые поисковые системы рассматривают взаимодействие пользователей с результатами поиска, представленными в SERP, вместо или как дополнение к экспертным данным. Эти данные иногда называются параметрами постпросмотра, которые в дальнейшем используются для улучшения формулы ранжиратора результатов поиска и, следовательно, оценок документов для будущих поисков. Примеры параметров постпросмотра включают: был ли кликнут документ; время, в течение которого пользователь просматривал документ, называемое иногда временем просмотра.

Тем не менее, документ может быть кликнут не потому, что в SERP он являлся релевантным. Аналогично, он может быть не кликнут не потому, что он нерелевантен. С помощью изучения таких параметров, как время просмотра, можно улучшить представление о релевантности документа и, таким образом, улучшить качество ранжирования. При этом величина времени просмотра нужна для определения того, является ли документ релевантным и не является ли он отчасти выбранным произвольно.

Таким образом, хотя с учетом параметров постпросмотра и можно улучшить ранжирование результатов, при этом трудно определить, какие параметры должны использоваться, и в случае параметров, значения которых взаимосвязаны, например, время просмотра сайта, значение какого должно соответствовать параметру для анализа релевантности документа для того, чтобы улучшить формулу результатов поиска ранжиратора.

Таким образом, необходим способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска.

Раскрытие изобретения

Целью данной технологии является улучшение по меньшей мере некоторых из недостатков, имеющихся в известном уровне техники.

В соответствии с одним из аспектов данной технологии предлагается реализованный на компьютере способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска. Способ включает следующие этапы: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого множества; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

В некоторых вариантах реализации данной технологии способ также включает этап выбора метрики производительности, в зависимости от параметров целевой функции.

В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, применимой ко второму набору пар запрос-документ.

В некоторых вариантах реализации данной технологии после оптимизации ранжиратора результатов поиска и перед его использованием, способ также включает этап оценки оптимизированного ранжиратора результатов поиска с помощью третьего набора пар запрос-документ.

В некоторых вариантах реализации данной технологии параметр постпросмотра содержит по меньшей мере один параметр из по меньшей мере одного параметра уровня документа и по меньшей мере один параметр уровня страницы результатов поиска (SERP).

В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня документа содержит по меньшей мере один из следующих параметров: параметр клика, отображающий, был ли документ кликнут; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика для отображения в случае, если документ был кликнут в прошлом, или если время просмотра сайта превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному, документ; и параметр пропуска выше, отображающий количество пропущенных документов.

В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня SERP содержит один из следующих параметров: параметр клика вверху, отображающий наивысшую оценку выбранных документов в рейтинге; параметр клика внизу, отображающий наименьшую оценку выбранных документов в рейтинге; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшей оценкой на SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий период времени до первого клика на SERP.

В некоторых вариантах реализации данной технологии параметры постпросмотра содержат по меньшей мере один из следующих параметров: параметр клика, отображаемый в случае, если документ был выбран; параметр просмотра, отображающий время просмотра документа; параметр длительного просмотра, отображаемый в случае, если время просмотра документа превысило заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был выбран последним; параметр первого клика, отображаемый в случае, если документ был выбран первым; параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или в случае, если время просмотра превышает заданную величину; параметр положения, отображающий исходное положение документа на SERP; параметр пропуска, отображаемый в случае, если был пропущен документ; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предыдущий по рейтингу документ; параметр пропусков выше, отображающий количество документов, предшествующих пропущенному документу в рейтинге; параметр клика вверху, отображающий наивысший рейтинг выбранных документов; параметр клика внизу, отображающий наименьшую оценку выбранных в рейтинге документов; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшим рейтингом SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий время до первого клика на SERP.

В некоторых вариантах реализации данной технологии использование ранжиратора результатов поиска включает: получение поискового запроса от клиентского устройства по меньшей мере одним сервером посредством сети передачи данных; инициализацию по меньшей мере одним сервером, поиска в соответствии с поисковым запросом; ранжирование по меньшей мере одним сервером, документов, найденных в результате поиска с помощью ранжиратора результатов поиска, включающего оптимизированную целевую функцию; отправку на клиентское устройство посредством сети передачи данных по меньшей мере одним сервером команды для инициализации отображения пользователю с помощью пользовательского интерфейса клиентского устройства страницы результатов поиска (SERP), содержащей ссылки на документы, найденные с помощью поиска, упорядоченные на SERP согласно рейтингу документов, найденных в результате поиска.

В некоторых вариантах реализации данной технологии оптимизация весовых значений весового вектора включает оптимизацию весовых значений весового вектора с помощью алгоритма градиентного спуска.

В некоторых вариантах реализации данной технологии метрика производительности является одной из следующего: значение усредненной ценности ответов (MRR) и среднее значение средней точности (MAP).

В соответствии с другим аспектом данной технологии представлена система для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска. Система содержит процессор и машиночитаемое средство для хранения информации, соединенное с процессором. На машиночитаемом средстве для хранения информации хранятся команды, инициирующие выполнение системой следующих этапов: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых значений весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

В некоторых вариантах реализации данной технологии на машиночитаемом средстве для хранения информации также хранятся команды, инициирующие выполнение системой этапа выбора метрики производительности, в зависимости от параметров целевой функции.

В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.

В соответствии с другим аспектом данной технологии представлено машиночитаемое средство для хранения информации, на котором хранятся команды для оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска. Выполнение команд компьютером инициирует выполнение операций, включающих: извлечение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерацию весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизацию весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

В некоторых вариантах реализации данной технологии операции дополнительно включают выбор метрики производительности, в зависимости от параметров целевой функции.

Некоторые варианты реализации данной технологии отличаются тем, что оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.

В контексте данного описания под «сервером» подразумевается компьютерная программа, выполняемая с помощью соответствующего аппаратного обеспечения, выполненного с возможностью получения запросов (от клиентских устройств) по сети передачи данных и выполнения этих запросов или инициирования их выполнения. С физической точки зрения оборудование может представлять собой один компьютер или компьютерную систему, но ни то, ни другое не является обязательным для реализации данной технологии. В контексте данной технологии использование определения «по меньшей мере, один сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована для выполнения одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных средств может быть задействовано для приема/передачи, выполнения или инициирования выполнения любого запроса или последовательности любых запросов, связанных с клиентским устройством, и все эти программные и аппаратные средства могут быть одним или несколькими серверами, оба из которых включаются в определение «по меньшей мере, один сервер».

В контексте данного описания под «клиентским устройством» подразумевается аппаратное устройство, выполненное с возможностью работы с программным обеспечением, соответствующим решению соответствующей задачи. Примерами клиентских устройств, среди прочего, являются персональные компьютеры (настольные компьютеры, ноутбуки и т.д.), смартфоны и планшеты.

В контексте данного описания под «базой данных» подразумевается структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения для управления базами данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом становятся доступными для использования. В данном контексте база данных находится в «функциональном взаимодействии» в случае, если она является доступной для использования как часть системы управления базой данных, которая подключена к доступной сети передачи данных.

В контексте данного описания под «машиночитаемым средством для хранения информации» подразумевается носитель любого типа и принципа действия, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.

В контексте данной заявки определения «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что при использовании терминов «первый сервер» и «третий сервер» не подразумевается какой-либо порядок, принадлежность к определенному типу, хронологии, иерархии или ранжированию (например) серверов или между серверами, равно как и их использование (отдельно) не предполагает, что обязательно должен существовать в той или иной ситуации некий «второй сервер».

Каждый вариант реализации данной технологии включает по меньшей мере одну из вышеупомянутых целей и/или аспектов, но не обязательно наличие их всех.

Следует иметь в виду, что некоторые аспекты данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут не удовлетворять эту цель и/или могут удовлетворять другие цели, не указанные отдельно в данной заявке.

Дополнительные и/или альтернативные параметры, аспекты и преимущества вариантов реализации данной технологии станут очевидными из последующего описания, прилагаемых фигур, а также прилагаемой формулы изобретения.

Технический результат, достигаемый с помощью описанного в заявке изобретения, - повышение релевантности результатов поиска, а также ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов.

Краткое описание фигур

Для лучшего понимания данной технологии, а также других аспектов и параметров выполнена ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми фигурами, на которых:

На Фиг. 1 проиллюстрировано схематическое изображение компьютерной системы, являющейся вариантом реализации данной технологии.

На Фиг. 2 представлена блок-схема способа предоставления пользователю результатов поиска;

На Фиг. 3 представлено типовое изображение страницы результатов поиска (SERP); и

На Фиг. 4 представлена блок-схема реализованного на компьютере способа оптимизации ранжирования результатов поиска.

В конце данного описания предоставлено приложение, которое содержит копию еще не опубликованной статьи под названием "Learning Personalization Targets Extracted from User Interaction with Search Engine Results" и копию еще не опубликованного документа под названием «Обучение весов примеров (confidence))) (что переводится как «Teaching Weights Examples (confidence)*). Эти статья и документ предоставляют дополнительную информацию, описание вариантов реализации данной технологии и примеры. Данные статья и документ полностью включены в данную заявку посредством ссылки для всех стран и территорий.

Осуществление изобретения

На Фиг. 1 представлена компьютерная система 10, включающая варианты реализации данной технологии. Следует ясно понимать, что компьютерная система 10 является лишь одним из вариантов реализации данной технологии. Представленное описание предназначается исключительно в целях предоставления наглядного примера данной технологии. Это описание не предназначается для определения объема и границ данной технологии. Некоторые полезные примеры модификаций компьютерной системы 10 также могут быть охвачены нижеследующим описанием. Таким образом, нижеследующее описание не предназначается для определения объема или границ данной технологии. Эти модификации не являются исчерпывающими и, как будет понятно специалистам в данной области техники, другие модификации также возможны. Кроме того, не следует истолковывать то, что не реализовано (т.е. там, где не были приведены примеры модификации), таким образом, что никакие изменения не возможны, и/или описанное является единственным способом реализации этого элемента в данное время. Специалистам в данной области техники будет понятно, что это не так. Кроме того, должно быть понятно, что компьютерная система 10 предоставляет простую реализацию данной технологии, представленной таким образом для облегчения понимания. Специалистам в данной области техники будет понятно, что большинство вариантов реализации данной технологии будут более сложными.

Компьютерная система 10 содержит клиентское устройство 12, используемое пользователем 14. Клиентское устройство 12 может быть любым из трех клиентских устройств 12, изображенных на Фиг.1, а именно настольным компьютером 12А, например iMac™, смартфоном 12В, например iPhone™ 4S™, и планшетным компьютером 12С, например iPad™. В других вариантах реализации клиентские устройства 12 могут включать другие марки и/или модели смартфона, планшетного компьютера, электронной книги, портативного компьютера, настольного компьютера, КПК или другого устройства, подключенного к Интернету.

Клиентское устройство 12 подключено к Интернету 16 (которое может быть подключено, в зависимости от конкретных обстоятельств, посредством мобильной телефонной сети, сети Wi-Fi, или Bluetooth™ соединения). На клиентском устройстве 12 установлено приложение веб-браузера, например Safari™, являющееся частью пользовательского интерфейса клиентского устройства 12. Предполагается, что на клиентском устройстве также могут быть установлены другие веб-браузеры и/или другие приложения, функционирующие через Интернет. Несмотря на то что представлено лишь одно клиентское устройство 12 (пользователь 14 использует только одно из клиентских устройств 12А, 12В или 12С), следует помнить, что в системе 10 также могут использоваться несколько клиентских устройств.

Компьютерная система 10 также содержит множество серверов 18, подключенных к Интернету 16. Для облегчения понимания показаны только три сервера 18, но следует понимать, что предполагается больше (и меньше), чем три сервера 18. Например, предполагается, что система 10 может содержать любой из серверов 18, подключенных к Интернету 16. Также предполагается, что система 10 может содержать только серверы 18, находящиеся в конкретном географическом месте. Каждый из серверов 18 может являться хостом для одной или нескольких веб-страниц, доступ к которым клиентское устройство 12 может получить через Интернет 16.

Компьютерная система 10 также содержит сервер поисковой системы 20. Для облегчения понимания показан только один сервер поисковой системы 20, но следует понимать, что предполагается больше чем один сервер поисковой системы 20. Как видно, сервер поисковой системы 20 взаимодействует с Интернетом 16. Следует понимать, что вместо передачи данных через Интернет 16 клиентское устройство 12 и серверы 18, 20, 24 могут взаимодействовать с помощью сети передачи данных другого типа. Примерами вариантов сетей передачи данных, среди прочего, могут быть локальная вычислительная сеть (ЛВС), глобальная вычислительная сеть и интранет. Хотя это не показано, сервер поисковой системы 20 также взаимодействует с базой данных индексации, содержащей информацию индексирования для множества документов, находящихся на серверах 18 (т.е. вебстраниц, изображений, видео и т.д.). Эту информацию получают, например, с помощью поисковых роботов (не показаны).

Сервер поисковой системы 20 также обменивается данными с обучающим сервером 22 по сети (отдельно не пронумерована). В альтернативных вариантах реализации сервер поисковой системы 20 может обмениваться данными с обучающим сервером 22 по сети Интернет 16.

С целью облегчения понимания показан только один обучающий сервер 22, но следует понимать, что предполагается более одного обучающего сервера 22. Как будет описано ниже, обучающий сервер 22 используется с целью оптимизации ранжиратора результатов поиска, используемого сервером поисковой системы 20 для ранжирования результатов поиска. Предполагается, что функции сервера поисковой системы 20 и обучающего сервера 22 могут быть объединены или могут быть дополнительно разделены для выполнения более чем двумя серверами.

Обучающий сервер 22 обменивается данными с базой данных пар запрос-документ (3-Д) 24. С целью облегчения понимания показана только одна база данных пар 3-Д 24, но следует понимать, что предполагается более чем одна база данных пар 3-Д 24. Как следует из названия, база данных пар 3-Д 24 содержит данные для набора пар запроса, а также соответствующие документы (т.е. пары 3-Д). Документ каждой пары 3-Д является документом, ранее полученным сервером поисковой системы 20 для запроса пары 3-Д. Хотя это не показано, база данных пар 3-Д 24 также обменивается данными с сервером поисковой системы 20. Следует понимать, что база данных пар 3-Д 24 может обмениваться данными с ранее упомянутой базой данных индексации. Также предполагается, что база данных пар 3-Д 24 может объединяться с ранее упомянутой базой данных индексации. По меньшей мере, некоторые из этих пар 3-Д упорядочены в наборы. Для облегчения понимания показаны четыре набора 3-Д 26, 28, 30, 32, но следует понимать, что предполагается больше или меньше четырех наборов 3-Д.

Перейдем к Фиг. 2, на которой представлен способ, в котором для предоставления результатов поиска в ответ на запрос пользователя используется сервер поисковой системы 20. Способ начинается с этапа 100, когда пользователь 14 вводит поисковый запрос с помощью пользовательского интерфейса клиентского устройства 12. Пользователь 14 вводит запрос с помощью типового пользовательского интерфейса, представленного на Фиг. 3, путем ввода поискового запроса в поле поиска 50, в этом случае «Яндекс», и затем нажимает кнопку поиска 52 для того, чтобы начать поиск. На этапе 102 сервер поисковой системы 20 получает поисковый запрос от пользовательского устройства 12 через Интернет 16.

На этапе 104, сервер поисковой системы 20 выполняет поиск для запроса и получает релевантные документы и/или информацию относительно релевантных документов. Сервер поисковой системы 20 может искать серверы 18, используя Интернет 16 и/или базы данных индексации и/или базы данных пар 3-Д для соответствующих запросов. Подразумевается, что способ, с помощью которого сервер поисковой системы 20 осуществляет поиск, идентификацию и извлечение соответствующих документов (или информации, касающейся соответствующих документов), может выполняться различным образом, как предполагается, хорошо известными специалистами в данной области.

Затем на этапе 106 с помощью сервера поисковой системы 20 найденные документы ранжируются в порядке их релевантности. Для ранжирования документов сервером поисковой системы 20 используется ранжиратор результатов поиска. Ранжиратор результатов поиска является алгоритмом, в котором используются параметры предпросмотра, связанные с документами, для оценки релевантности каждого документа и дальнейшей сортировки документов по оценкам. Параметры предпросмотра являются параметрами, которые могут вычисляться на основе данных, имеющихся в наличии до того, как пользователю 14 будет показана страница результатов поиска. Параметры предпросмотра содержат, но не ограничиваются этим, взаимосвязь между текстом документа и запросом, метаданные документа, специфичную для пользователя популярность документа и соответствие между текстом документа и профилем пользовательского интереса.

Несмотря на то что сервер поисковой системы 20 описывается как использующий параметры предпросмотра, связанные с документами, для ранжирования документов как часть этапа 106, в альтернативных вариантах реализации технологии документы могут быть ранжированы по параметрам предпросмотра, а также параметрам предпросмотра, связанным со взаимодействиями других пользователей с SERP, предоставленными в ответ на такие, практически такие или аналогичные поисковые запросы, отправленные другими пользователями ранее. Отображение параметров постпросмотра может хранится в журнале (не показан), доступном для сервера поисковой системы 20. В некоторых вариантах реализации технологии отображение параметров постпросмотра может быть анонимным (т.е. не связанным с идентификаторами последних пользователей, которые осуществляли такие, практически такие или аналогичные поиски). Подробная информация о различных вариантах реализации параметров постпросмотра будет представлена ниже.

Затем на этапе 108 с помощью сервера поисковой системы 20 через Интернет 16 посылаются команды на клиентское устройство 12 для отображения SERP, например показанного на Фиг. 3. Клиентское устройство 12 принимает эти команды и отображает SERP пользователю 14 на экране клиентского устройства 12. SERP содержит ссылку и связанное с ней краткое описание или фрагмент документа 54 (Фиг. 3) для документов, являющихся результатом поискового запроса.

Ссылки 54 ранжируются в порядке от наибольшей к наименьшей релевантности, начиная с верхней части SERP, как определено ранжиратором результатов поиска. В примере, представленном на Фиг. 3, ссылка 54А, находящаяся в верхней части SERP ссылок на документ, ранжирована ранжиратором результатов поиска как наиболее релевантная, ссылка 54В упорядочена как вторая наиболее релевантная и так далее.

На этапе 110 сервером поисковой системы 110 фиксируется взаимодействие пользователя 14 с результатами поиска, отображаемыми на SERP, которое сохраняется в базе данных пар 3-Д 24. Каждый документ, приведенный на SERP, образует пару 3-Д для определенного запроса, и взаимодействие пользователя с документами пар 3-Д записывается как параметры постпросмотра для этих определенных пар 3-Д. Примеры взаимодействия включают, но не ограничиваются этим, какие документы были просмотрены пользователем 14 (или «кликнуты»), как долго просматривался документ, какой документ был просмотрен первым и какой был просмотрен последним. Затем эти данные используются сервером поисковой системы 20 для оптимизации ранжиратора результатов поиска, как будет описано ниже.

Используемый сервером поисковой машины 20 способ предоставления результатов поиска в ответ на запрос пользователя завершается этапом 112 в случае, если пользователь 14 инициирует новый поиск, причем способ начинается снова с этапа 100 для нового поиска в случае, если к SERP не обращались в течение определенного периода времени, или если пользователь 14 закрывает пользовательский интерфейс. Также предполагается, что к завершению способа могут привести и другие действия.

На Фиг. 4 представлен способ оптимизации ранжиратора результатов поиска. Посредством оптимизации ранжиратора результатов поиска ранжирование результатов поиска таким оптимизированным ранжиратором поиска также является оптимизированным.

Способ начинается этапом 200 с копирования на обучающий сервер 22 ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20. Предполагается, что вместо копирования ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20, этот способ может выполняться на любом ранжираторе результатов поиска, который затем может быть сравнен с ранжиратором поиска, используемым в данный момент сервером поисковой системы 20, и если этот новый оптимизированный ранжиратор поиска предоставляет более высокий рейтинг, этот новый оптимизированный ранжиратор поиска может загружаться на сервер поисковой системы для замены ранжиратора результатов поиска, используемого в настоящее время сервером поисковой системы 20, как описывается ниже применительно к этапу 218. Последующие этапы с 202 до 218 могут выполняться обучающим сервером 22 автономно (т.е. без подключения к Интернету 16 или серверу поисковой системы 20), но подключением посредством сети передачи данных к базе данных пар 3-Д 24.

На этапе 202 обучающий сервер 22 получает от базы данных пар 3-Д 24 наборы пар 3-Д, которые в данном случае являются четырьмя наборами пар 3-Д 26, 28, 30, 32. Предполагается, что может использоваться больше или меньше, чем четыре набора пар 3-Д. Каждый набор 3-Д содержит ряд пар 3-Д. Каждая пара 3-Д имеет связанные с ней параметры предпросмотра и постпросмотра. Примеры параметров предпросмотра приводятся выше. Параметры постпросмотра соответствуют реакции пользователя 14 на список и ранжирование документов (Д) для конкретного запроса 3 пары 3-Д. Существует два типа параметров постпросмотра: параметры уровня документа и параметры уровня SERP.

Примеры параметров постпросмотра уровня документа содержат, но не являются ограничивающими: параметр клика, отображающий, был ли нажат документ; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика, отображаемый в случае, если документ был кликнут в прошлом, или если время просмотра документа превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному документ; и параметр пропуска выше, отображающий количество пропущенных документов.

Все эти параметры являются двоичными, то есть они имеют значение 0 или 1, за исключением параметра просмотра, параметра положения и параметра пропуска выше. Для недвоичных параметров (т.е. просмотра, положения и пропуска выше) возможные значения этих параметров делятся на несколько уровней дискретизации, каждый из которых является двоичным.

Например, если в типовой SERP, представленной на Фиг. 3 документ 54А не выбран пользователем и документ 54В является первым документом, выбранным на SERP, но пользователь быстро вернулся к SERP из-за несоответствия документа тому, что он искал, и после этого были кликнуты другие документы, в таком случае для документа 54В, клик имеет значение 1, первый уровень дискретизации параметров просмотра (т.е. от 0 до короткого периода времени) имеет значение 1, и все последующие уровни дискретизации (т.е. диапазоны более длительных периодов времени) имеют значение 0, длительный просмотр имеет значение 0, последний клик имеет значение 0, первый клик имеет значение 1, удовлетворенный клик имеет значение 0, первый уровень дискретизации положения соответствует верхней позиции на SERP и имеет значение 0, второй уровень дискретизации положения, соответствующий второму положению на SERP, имеет значение 1, последующие уровни дискретизации положения имеют значение 0, пропуск имеет значение 0, предыдущий пропуск имеет значение 1, уровень дискретизации первого пропущенного выше, соответствующий тому, что нет пропущенных выше документов, имеет значение 0, уровень дискретизации второго пропущенного выше документа, соответствующий тому, что один документ пропущен выше, имеет значение 1, и последующие уровни дискретизации пропущенного выше документа имеют значение 0.

Примеры параметров постпросмотра уровня SERP включают, но не ограничиваются ими: параметр клика вверху, отображающий наивысшую оценку выбранных документов в рейтинге; параметр клика внизу, отображающий самую низкую оценку выбранных документов в рейтинге; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшей оценкой на SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запрос, отображающий последний запрос в поисковой сессии; и параметр времени рассмотрения, отображающий время до первого клика на SERP.

Из всех параметров только последний запрос является двоичным параметром. Все остальные перечисленные выше параметры уровня SERP являются недвоичными параметрами, и их возможные значения были разделены на несколько уровней дискретизации, каждый из которых является двоичным.

Предполагается, что каждая пара 3-Д может иметь большее или меньшее количество параметров постпросмотра, отличающееся от перечисленного выше. Также предполагается, что каждая пара 3-Д может иметь параметры постпросмотра, отличающиеся от перечисленных выше. Также предполагается, что в последующих этапах способа можно использовать только некоторые из параметров постпросмотра, представленных для каждой пары 3-Д.

Также предполагается, что каждая пара 3-Д может иметь параметры постпросмотра, являющиеся комбинацией других параметров постпросмотра. Один из таких параметров соответствует документу пары 3-Д, который был пропущен и не был кликнут. Другой такой параметр соответствует документу, предшествующему документу пропущенной пары 3-Д, и документу выбранной пары 3-Д. Также предполагаются другие комбинации параметров постпросмотра.

Таким образом, для каждой пары 3-Д есть вектор параметров постпросмотра. Вектором параметров постпросмотра является М-мерный вектор-строка параметров постпросмотра, где Μ соответствует количеству параметров постпросмотра и уровням дискретизации параметров постпросмотра, связанным с парой 3-Д.

После этапа 202, на этапе 204 обучающий сервер 22 генерирует весовой вектор. Весовой вектор является М-мерным вектором-столбцом весовых значений. Таким образом, количество весовых значений в весовом векторе соответствует числу параметров постпросмотра и уровням дискретизации параметра постпросмотра, соответствующим парам 3-Д наборов 3-Д или парам 26, 28, 30, 32 (т.е. существует Μ весовых значений).

Затем на этапе 206 обучающий сервер 22 генерирует целевую функцию с помощью весового вектора и векторов параметра постпросмотра пар 3-Д, например, набора пар 3-Д 26. В целевой функции каждый параметр постпросмотра имеет соответствующее весовое значение. Как описано в следующих этапах, путем оптимизации или подбора величины этих весовых значений можно определить относительную релевантность каждого параметра постпросмотра при определении релевантности документа. Параметры постпросмотра, являющиеся более релевантными, будут иметь большее весовое значение. В упрощенном виде целевая функция является линейной функцией. Тем не менее, также предполагаются нелинейные целевые функции.

На этапе 208 выбирается метрика производительности (показатель производительности), которая будет использоваться для оптимизации целевой функции на этапе 210. Метрика производительности является статистической мерой, используемой для оценки целевой функции. Существует множество различных типов метрики производительности. Примеры включают, но не ограничиваются ими, значение усредненной ценности ответов (MRR), среднее значение средней точности (MAP), приведенную суммарную эффективность релевантности (DCG) и нормализованную приведенную суммарную эффективность релевантности (NDCG). В зависимости от параметров постпросмотра, учитываемых целевой функцией, некоторые метрики производительности могут быть более подходящими, нежели другие.

Затем на этапе 210 обучающий сервер 22 использует метрику, выбранную на этапе 208 и целевую функцию, сгенерированную на этапе 206 с набором пар 3-Д 26 для оптимизации весовых значений целевой функции, результатом чего является оптимизированная целевая функция. Весовые значения оптимизированы с помощью итеративного процесса.

В данном варианте реализации технологии, оптимизация весовых значений достигается путем использования алгоритма градиентного спуска. Предполагается, что могут использоваться другие алгоритмы оптимизации на основе градиента. После завершения определенного количества итераций или уменьшения величины весовых значений меньше заданного значения, обучающий сервер переходит к этапу 212.

Предполагается, что в оптимизацию целевой функции могут быть включены другие параметры весовых значений. Эти другие параметры весовых значений используются при оценке функции ошибки и представляют собой уровень достоверности в значениях целевой функции. Затем при выполнении процедуры оптимизации подбираются эти другие весовые значения с целью снижения уровня ошибок для дальнейшего улучшения полученной оптимизированной целевой функции.

На этапе 212 обучающий сервер 22 оценивает оптимизированную целевую функцию, полученную на этапе 210, путем применения этой функции к набору пар 3-Д 28. Оценка проводится с использованием метрики производительности, выбранной на этапе 208, применимой к оптимизированной целевой функции и полученной на этапе 210.

Если оптимизированная целевая функция, полученная на этапе 210, должным образом выполняется на наборе пар 3-Д 28, например, предоставляя лучшие результаты, по сравнению с целевой функцией этапа 206, применимой к набору пар 3-Д 28, то обучающий сервер 22 переходит к этапу 214. Если оптимизированная целевая функция не выполняется должным образом, то способ возвращается к этапу 202 и выполняется с использованием другого набора пар 3-Д для создания новой целевой функции.

С другой стороны, если оптимизированная целевая функция не выполняется должным образом, то способ может вернуться к этапу 208 для выбора другой метрики производительности, а затем к выполнению этапа 210 с этой новой метрикой, или же может вернуться к этапу 210 для использования другого алгоритма оптимизации. Предполагается, что в качестве альтернативы на этапе 212 обучающим сервером 22 может оцениваться целевая функция, полученная при каждой итерации целевой функции на этапе 210, и может быть выбрана целевая функция, обеспечивающая наилучшую производительность.

После определения на этапе 212 оптимизированной целевой функции, на этапе 214 обучающим сервером 22 оптимизируется ранжиратор результатов поиска с помощью оптимизированной целевой функции с набором пар 3-Д 30. Документы пар 3-Д набора 30 ранжируются обучающим сервером 22 с помощью ранжиратора результатов поиска, оценивающего релевантность документов с точки зрения их параметров предпросмотра, связанных с парами 3-Д, и этот рейтинг сравнивается с рейтингом полученной оптимизированной целевой функции, которая ранжирует документы пар 3-Д с точки зрения их параметров постпросмотра, связанных с парами 3-Д.

Затем обучающий сервер 22 использует алгоритмы машинного обучения для оптимизации ранжиратора результатов поиска с целью более точного соответствия рейтингу, полученному с помощью оптимизированной целевой функции. Например, ранжиратор результатов поиска может быть оптимизирован с помощью метрики производительности и процесса оптимизации, подобного описанному выше, на этапе 210 для оптимизации целевой функции. Предполагается, что вместо использования всех параметров оптимизированной целевой функции для ранжирования документов из пар 3-Д, в зависимости от параметров постпросмотра, могут использоваться только параметры, имеющие наибольшие весовые значения или только один параметр, имеющий наибольшее весовое значение.

На этапе 216 обучающий сервер 22 оценивает оптимизированный ранжиратор результатов поиска из этапа 214 путем применения к набору пар 3-Д 32. Оценка выполняется так же, как и при использовании для оценки оптимизированной целевой функции на этапе 212 или с помощью любого другого известного способа. Если оптимизированный ранжиратор результатов поиска, полученный на этапе 216, должным образом выполняется на наборе пар 3-Д 32, например, предоставляя лучшие результаты, по сравнению с ранжиратором результатов поиска, полученным на этапе 200 и применяемым к набору пар 3-Д 32, то обучающий сервер 22 переходит к этапу 218.

Если ранжиратор результатов поиска не выполняется должным образом, то способ возвращается к этапу 202 и переходит к использованию другого набора пар 3-Д для создания новой целевой функции, полученной в новом оптимизированном ранжираторе результатов поиска. С другой стороны, если ранжиратор результатов поиска не выполняется должным образом, то способ может возвратиться к этапу 208 для выбора другой метрики производительности, а затем к выполнению этапа 210 с этой новой метрикой, или может возвратиться к этапу 210 для использования другого алгоритма оптимизации целевой функции, или может возвратиться к этапу 216 для использования другого алгоритма оптимизации ранжиратора результатов поиска. Предполагается, что в качестве альтернативы на этапе 216 обучающим сервером 22 может оцениваться ранжиратор результатов поиска, полученный при каждой итерации ранжиратора результатов поиска на этапе 214, и выбирается тот, который обеспечивает наилучшую производительность.

После подтверждения оптимизированного ранжиратора результатов поиска на этапе 216, на этапе 218 обучающим сервером 22 на сервер поисковой системы 20 выгружается оптимизированный ранжиратор результатов поиска. Оптимизированный ранжиратор результатов поиска заменяет ранжиратор результатов поиска, предварительно сохраненный на обучающем сервере 22. Затем оптимизированный ранжиратор результатов поиска используется сервером поисковой системы 20 для ранжирования документов в 106 описанным выше способом.

Затем на этапе 220 способ завершается. Порядок этапов с 200 по 220 повторяется циклически, поскольку количество пар 3-Д постоянно растет и с течением времени потребности пользователей возрастают.

Команды для описанного выше порядка этапов с 100 по 112 хранятся на одном или более машиночитаемых средствах для хранения информации и взаимодействуют с одним или более процессорами сервера поисковой системы 20. С целью реализации способа эти команды выполняются одним или более процессорами.

Кроме того, описанные выше команды для выполнения порядка этапов с 200 по 220 хранятся на одном или нескольких машиночитаемых средствах для хранения информации и взаимодействуют с одним или более процессоров на обучающем сервере 22. С целью реализации способа эти команды выполняются одним или более процессоров. Предполагается, что для хранения команд для выполнения последовательности этапов с 100 по 112 и последовательности этапов с 200 по 220 может использоваться одно или более общее машиночитаемое средство для хранения информации.

Модификации и усовершенствования вышеописанных вариантов реализации данной технологии могут стать очевидными специалистам в данной области техники. Вышеприведенное описание приводится с целью пояснения, а не ограничения объема технологии. Таким образом, объем данной технологии должен ограничиваться исключительно объемом прилагаемой формулы изобретения.

Похожие патенты RU2608886C2

название год авторы номер документа
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ РАНЖИРОВАНИЮ ОБЪЕКТОВ 2020
  • Устименко Алексей Иванович
RU2782502C1
СПОСОБ И СЕРВЕР ГЕНЕРИРОВАНИЯ МЕТА-ПРИЗНАКА ДЛЯ РАНЖИРОВАНИЯ ДОКУМЕНТОВ 2018
  • Сафронов Александр Валерьевич
  • Плошихин Виктор Витальевич
  • Белотелов Иван Иванович
RU2721159C1
СПОСОБ И СИСТЕМА ОБРАБОТКИ ПОИСКОВОГО ЗАПРОСА 2015
  • Воробьев Александр Леонидович
  • Сердюков Павел Викторович
  • Лефортье Дамьен Реймон Жан-Франсуа
  • Гусев Глеб Геннадьевич
RU2640639C2
СПОСОБ И СИСТЕМА ПОСТРОЕНИЯ ПОИСКОВОГО ИНДЕКСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2018
  • Филонов Егор Андреевич
  • Коростелев Иван Владимирович
  • Акулов Ярослав Викторович
RU2720954C1
СПОСОБ И СИСТЕМА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО РЕЙТИНГОВАНИЯ 2019
  • Анохина Марина Александровна
  • Статьев Сергей Вячеславович
RU2776034C2
СПОСОБ И СИСТЕМА СОЗДАНИЯ ВЕКТОРОВ АННОТАЦИИ ДЛЯ ДОКУМЕНТА 2017
  • Гусаков Алексей Юрьевич
  • Дроздовский Андрей Дмитриевич
  • Дужик Валерий Иванович
  • Калинин Павел Владимирович
  • Найдин Олег Павлович
  • Сафронов Александр Валерьевич
RU2720074C2
Система и способ формирования обучающего набора для алгоритма машинного обучения 2018
  • Сафронов Александр Валерьевич
  • Антонова Александра Александровна
  • Мисюрев Алексей Владимирович
  • Платонов Владимир Александрович
  • Волынец Эдуард Мечиславович
RU2744029C1
СПОСОБ И СИСТЕМА ВЫБОРА ДЛЯ РАНЖИРОВАНИЯ ПОИСКОВЫХ РЕЗУЛЬТАТОВ С ПОМОЩЬЮ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2018
  • Дужик Валерий Иванович
  • Дроздовский Андрей Дмитриевич
  • Найдин Олег Павлович
RU2731658C2
СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ПРИЗНАКА ДЛЯ РАНЖИРОВАНИЯ ДОКУМЕНТА 2018
  • Сафронов Александр Валерьевич
  • Завьялов Василий Владимирович
RU2733481C2
СПОСОБ И СИСТЕМА ДЛЯ РАСШИРЕНИЯ ПОИСКОВЫХ ЗАПРОСОВ С ЦЕЛЬЮ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА 2018
  • Готманов Александр Николаевич
  • Гречников Евгений Александрович
  • Сафронов Александр Валерьевич
RU2720905C2

Иллюстрации к изобретению RU 2 608 886 C2

Реферат патента 2017 года РАНЖИРАТОР РЕЗУЛЬТАТОВ ПОИСКА

Изобретение относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска. Техническими результатами являются повышение релевантности результатов поиска, ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов. В способе оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска, получают первый набор пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра. Генерируют весовой вектор, имеющий количество весовых значений, соответствующее количеству параметров постпросмотра в каждом из векторов параметров постпросмотра первого набора. Генерируют целевую функцию с использованием весового вектора и векторов параметров постпросмотра первого набора. Оптимизируют весовые значения весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией. Оптимизируют ранжиратор результатов поиска с помощью оптимизированной целевой функции и используют оптимизированный ранжиратор результатов поиска для ранжирования результатов поиска. 3 н. и 14 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 608 886 C2

1. Способ, реализованный на компьютере для оптимизации рейтинга результатов поиска, полученных от ранжиратора результатов поиска, включающий:

получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;

генерирование весового вектора, который имеет количество весовых значений, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;

генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;

оптимизацию весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;

оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; и

использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

2. Способ по п. 1, дополнительно включающий выбор метрики производительности на основе параметров целевой функции.

3. Способ по п. 1, в котором оптимизация ранжиратора результатов поиска с использованием оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с использованием оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.

4. Способ по п. 3, который после оптимизации ранжиратора результатов поиска и перед использованием ранжиратора результатов поиска дополнительно включает:

оценку оптимизированного ранжиратора результатов поиска с использованием третьего набора пар запрос-документ.

5. Способ по п. 1, в котором параметры постпросмотра содержат, по меньшей мере, один параметр уровня документа и, по меньшей мере, один параметр уровня страницы результатов поиска (SERP).

6. Способ по п. 5, в котором, по меньшей мере, один параметр уровня документа содержит, по меньшей мере, одно из:

параметр клика, отображаемый в случае, если документ был выбран;

параметр просмотра, отображающий время просмотра документа;

параметр длительного просмотра, отображаемый в случае, если время просмотра документа превышает заранее определенную величину;

параметр последнего клика, отображаемый в случае, если документ был выбран последним;

параметр первого клика, отображаемый в случае, если документ был выбран первым;

параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или если время ожидания превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP;

параметр пропуска, отображаемый в случае, если документ был пропущен;

параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой предыдущий по рейтингу документ; и

параметр пропуска выше, отображающий количество предыдущих в рейтинге пропущенных документов.

7. Способ по п. 5, в котором, по меньшей мере, один параметр уровня SERP содержит, по меньшей мере, один из следующих параметров:

параметр клика вверху, отображающий наибольший рейтинг выбранных в рейтинге документов;

параметр клика внизу, отображающий наименьший рейтинг выбранных в рейтинге документов;

параметр количества кликов, отображающий количество кликов на SERP;

параметр количества кликов на первую тройку, отображающий количество кликов на три документа на SERP с наибольшим рейтингом;

параметр количества пропусков, отображающий количество пропущенных на SERP документов;

параметр последнего запроса, отображающий последний запрос в поисковой сессии; и

параметр времени просмотра, отображающий время до первого клика на SERP.

8. Способ по п. 1, в котором параметры постпросмотра содержат, по меньшей мере, один из следующих параметров:

параметр клика, отображаемый в случае, если документ был выбран;

параметр просмотра, отображающий время просмотра документа;

параметр длительного просмотра, отображаемый в случае, если время просмотра документа превышает заранее определенную величину;

параметр последнего клика, отображаемый в случае, если документ был выбран последним;

параметр первого клика, отображаемый в случае, если документ был выбран первым;

параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или если время ожидания превышает заданную величину;

параметр положения, отображающий исходное положение документа в SERP;

параметр пропуска, отображаемый в случае, если документ был пропущен;

параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой документ, находящийся выше по рейтингу;

параметр пропуска выше, отображающий количество пропущенных документов, предыдущих в рейтинге;

параметр клика вверху, отображающий наибольший рейтинг выбранных в рейтинге документов;

параметр клика внизу, отображающий наименьший рейтинг выбранных в рейтинге документов;

параметр количества кликов, отображающий количество кликов на SERP;

параметр количества кликов на первую тройку, отображающий количество кликов на три документа на SERP с наибольшим рейтингом;

параметр количества пропусков, отображающий количество пропущенных на SERP документов;

параметр последнего запроса, отображающий последний запрос в поисковой сессии; и

параметр времени просмотра, отображающий время до первого клика на SERP.

9. Способ по п. 1, в котором используемый ранжиратор результатов поиска, включает:

получение поискового запроса от клиентского устройства, по меньшей мере, одним сервером с помощью сети передачи данных;

выполнение, по меньшей мере, одним сервером поиска в соответствии с поисковым запросом;

ранжирование, по меньшей мере, одним сервером, документов, найденных в результате поиска, с использованием ранжиратора результатов поиска, включающего оптимизированную целевую функцию;

отправку на клиентское устройство посредством сети передачи данных, по меньшей мере, одним сервером команд для инициализации отображения пользователю с помощью пользовательского интерфейса клиентского устройства страницы результатов поиска (SERP), включая ссылки на документы, найденные с помощью поиска, ранжированные ссылки на SERP, согласно рейтингу документов, найденных в результате поиска.

10. Способ по п. 1, в котором оптимизация весовых значений весового вектора включает оптимизацию весовых значений весового вектора с использованием алгоритма градиентного спуска.

11. Способ по п. 1, в котором метрика производительности является или значением усредненной ценности ответов (MRR) или средним значением средней точности (MAP).

12. Система для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска, содержащая:

процессор; и

машиночитаемое средство для хранения информации, обменивающиеся данными с процессором и хранящее команды, инициирующие выполнение системой следующих этапов:

получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;

генерирование весового вектора, который имеет количество весовых коэффициентов, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;

генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;

оптимизация весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;

оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; и

использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

13. Система по п. 12, в которой на материальном машиночитаемом средстве для хранения информации также хранятся команды, инициирующие выполнение системой этапа выбора метрики производительности, в зависимости от параметров целевой функции.

14. Система по п. 12, в которой оптимизация ранжиратора результатов поиска с использованием оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с использованием оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.

15. Машиночитаемое средство для хранения информации, на котором хранятся команды для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска, причем в случае выполнения инструкций компьютером, компьютер инициализирует выполнение операций, включающих:

получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;

генерирование весового вектора, который имеет количество весовых коэффициентов, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;

генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;

оптимизацию весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;

оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; и

использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.

16. Средство для хранения информации по п. 15, в котором дополнительно содержит команды для выбора метрики производительности, в зависимости от параметров целевой функции.

17. Средство для хранения информации по п. 15, в котором оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.

Документы, цитированные в отчете о поиске Патент 2017 года RU2608886C2

Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
US 8645390 B1, 04.02.2014
Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
СБОР ДАННЫХ О ПОЛЬЗОВАТЕЛЬСКОМ ПОВЕДЕНИИ ПРИ ВЕБ-ПОИСКЕ ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ ВЕБ-ПОИСКА 2007
  • Агихтейн Евгений Е.
  • Брилл Эрик Д.
  • Дюмэ Сюзан Т.
  • Рэгно Роберт Дж.
RU2435212C2
ФУНКЦИИ РАНЖИРОВАНИЯ, ИСПОЛЬЗУЮЩИЕ МОДИФИЦИРОВАННЫЙ НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР ЗАПРОСОВ С ИНКРЕМЕНТНЫМ ОБНОВЛЕНИЕМ 2007
  • Рэмси Уилльям Д.
RU2443015C2

RU 2 608 886 C2

Авторы

Сердюков Павел Викторович

Устиновский Юрий Михайлович

Гусев Глеб Геннадьевич

Даты

2017-01-25Публикация

2014-06-30Подача