СПОСОБ ОПРЕДЕЛЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТИ ПРОСМОТРА ВЕБ-СТРАНИЦ И СЕРВЕР, ИСПОЛЬЗУЕМЫЙ В НЕМ Российский патент 2017 года по МПК G06F17/30 

Описание патента на изобретение RU2634218C2

Область техники, к которой относится изобретение

Данная технология относится к способу и системе посещения (просмотра) веб-ресурса поисковым ботом.

Уровень техники

Всемирная сеть Интернет разрослась с целью предоставления пользователям доступа к большому объему информации - от ознакомления с последними новостями, просмотра фильмов он-лайн, проверки баланса банковского счета через сервис онлайн-банкинга до заказа авиабилетов или еды на вынос из Китайского ресторанчика на углу. В некоторых ситуациях, пользователь знает конкретный веб-сайт, доступ к которому он желает получить. Например, когда пользователь желает воспользоваться услугами онлайн банкинга, предоставляемыми Королевским банком Канады, он знает, что для реализации своей цели ему нужно воспользоваться веб-сайтом www.rbc.com. В других обстоятельствах, пользователь может не знать о существовании того или иного веб-сайта, который мог бы удовлетворить его потребности, и ему, возможно, потребуется выполнить действие, известное под названием веб-поиск, используя одну из поисковых систем, таких как Яндекс, Google, Yahoo! и т.п. Как известно, пользователь вводит поисковый запрос, и поисковая система предоставляет список веб-ресурсов, реагирующих на конкретный поисковый запрос в виде страницы, которая известна под названием Страница Результатов Поиска или SERP, для краткости.

Как также известно, в данной области, для того, чтобы иметь возможность включить отдельный веб-ресурс в SERP, поисковая система должна "посетить" соответствующий веб-ресурс и обозначить содержащуюся на нем информацию. Этот процесс, как правило, известен в данной области техники как "посещение (просмотр) поисковым ботом", а модуль, связанный с сервером поисковой системы, ответственный за определение, как правило, называется "поисковый бот" или "робот".

Разумеется, каждый день появляются новые веб-ресурсы в постоянно возрастающем количестве. Хорошо установленным фактом является то, что ни одна из коммерчески доступных поисковых систем не способна посетить каждый веб-ресурс после его появления. Это связано с наличием ограниченных ресурсов на каждой из поисковых систем - в конце концов, каждая поисковая система является коммерческим предприятием и должна выполнять свои функции разумным и экономически эффективным способом - таким образом, это означает, что такого понятия, как неограниченное предоставление вычислительных ресурсов/ оборудования в любой поисковой системе, не существует.

Тот факт, что содержание веб-ресурсов меняется время от времени, как правило, усугубляет указанную проблему. Частота такого изменения информации может меняться от одного веб-ресурса к другому- это может происходить относительно быстро (например, новостной портал может обновлять содержимое веб-ресурса несколько раз в течение дня) или относительно медленно (например, домашняя страница крупного банка может обновляться достаточно редко, и даже когда вносятся обновления, они имеют в основном поверхностный характер), но, тем не менее, изменения продолжают вноситься.

Таким образом, в данной области техники известны случаи создания таблицы просмотра, которой руководствуется поисковый бот при осуществления поиска на новых ресурсах или при осуществлении повторного поиска на ранее посещенных веб-ресурсах для осуществления поиска обновленного содержания. В общем, поисковая таблица представляет собой стратегию поискового бота по выбору URL с целью посещения (или повторного посещения) из поисковой очереди. Как таковая, поисковая очередь, как известно, предписывает поисковому боту: когда осуществлять загрузку вновь найденных веб-страниц, не представленных в индексе поисковой системы, и когда обновлять копии страниц, которые могут иметь важные обновления и, следовательно, изменяться в зависимости от содержания, хранимого в индексе поисковой системы.

В патенте США №7899807, опубл. 1.03.2011, описана улучшенная систему и способ упорядочения поиска, осуществляемого поисковым ботом, путем оказания влияния на поисковые результаты поисковой системы. Существует возможность получения независящих от содержания особенностей непросмотренных веб-страниц, а также произведена оценка влияния не посещенных веб-страниц на запросы какой-либо рабочей нагрузки с использованием контент-независимых функций. Воздействие непросмотренных веб-страниц может быть оценено в отношении запросов путем вычисления ожидаемой отметки воздействия для непросмотренных веб-страниц, соответствующих необходимым запросам. В отношении подмножества запросов могут создаваться конспекты запросов путем вычисления ожидаемой отметки воздействия для просмотренных веб-страниц и непросмотренных веб-страниц, соответствующих определенным запросам. С помощью комбинированной оценки на основе запросов и независящей от запросов оценки влияния воздействия выбранных веб-страниц на результаты поисковых запросов, могут быть выбраны соответствующие веб-страницы.

В патенте США №7672943 опубл. 2.032010 описана система, которая обучает систему поискового бота, использующую желаемый подход, увеличивать вероятность загрузки веб-страниц желаемого вида или категории. Указанная система использует множество URL зачетных метрик, генерирующих отдельные результаты для исходящих URL-адресов, содержащихся в загружаемой странице. Для каждого исходящего URL, отдельные результаты объединяются с помощью соответствующего алгоритма или формулы для генерации общего результата, представляющего приоритет загрузки для исходящих URL. Программа поисковых ботов может затем закачивать последующие веб-страницы в порядке, находящемся под влиянием приоритетов загрузки.

В патентной заявке США №2012/0303606, опубл. 29.11.2012 описаны принципы осуществления веб-поиска, создающихся на основе пользовательской статистики просмотра веб-страниц. Пользовательская статистика просмотров обобщается в детализации моделей идентификаторов ресурса (например, шаблонов URL), обозначающих группы ресурсов в пределах определенного домена или веб-сайта, разделяющих синтаксис на определенном уровне детализации. Принципы веб-поиска ранжируют модели идентификатора ресурса в соответствии с сопряженной обобщенной статистикой пользовательского просмотра данных. Упорядочение веб-поиска с помощью принципов веб-поиска используется для загрузки и открытия новых ресурсов в пределах домена или сайта.

Раскрытие изобретения

Таким образом, целью настоящей технологии является улучшение по меньшей мере некоторых недостатков, присутствующих в известном уровне техники. Техническим результатом является определение последовательности просмотра новых веб-страниц и ускорение просмотра более релевантных новых веб-страниц, имеющих больший приоритет в соответствии с полученной последовательностью просмотра.

Варианты осуществления настоящей технологии были разработаны на основе оценки, сделанной разработчиками, что не все веб-ресурсы создается одинаково - некоторые из них могут считаться более важными или релевантными к общей массе потенциальных пользователей веб-ресурсов, чем другие. Например, один из основных национальных новостных веб-порталов может считаться, в общем, более релевантным, чем блог пользователя под фиктивным именем "Джо Смит". По существу, для поискового бота может представляться более важным осуществлять поиск на некоторых вновь созданных веб-ресурсах быстрее, чем некоторых других вновь созданных веб-ресурсах. Поэтому потенциально более важные (или популярные) страницы должны просматриваться с более высоким приоритетом.

Существует несколько способов измерения важности страницы, каждый из которых может привести к различным принципам упорядоченности поиска и способам осуществления просмотра. Одним естественным средством измерения важности страницы является количество пользовательских посещений. Однако, для вновь обнаруженных URL-адресов вновь созданных веб-ресурсов, оценка популярности может представлять сложность для поискового бота.

Популярность вновь выявленных URL-адресов в настоящее время не наблюдается, и, следовательно, должна быть предсказана на основе особенностей, доступных на момент выявления таких URL-адресов. Авторы проанализировали проблему прогноза популярности новой веб-страницы, в частности, они сравнили краткосрочную и долгосрочную популярность новых URL-адресов. В целом, авторы разработали модель определения поисковой стратегии, принимающей во внимание как краткосрочную, так и долгосрочную популярность новых URL-адресов. Варианты осуществления настоящей технологии используют алгоритм машинного обучения, посредством которого какая-либо модель обучается на основе функций различных источников. Алгоритм машинного обучения используется для прогнозирования темпов снижения популярности, что может основываться на краткосрочной популярности соответствующих веб-страниц. Под краткосрочной популярностью авторами понимается число посещений веб-страницы в течение определенного времени после создания веб-страницы - например, в течение нескольких часов, дней и т.п. Под снижением популярности понимается временная динамика популярности веб-страницы или, другими словами, как быстро она увеличивается (например, с момента ее появления до момента достижения популярности), а затем, как быстро снижаться (т.е. от момента достижения популярности, до момента потери популярности).

Вообще говоря, авторами разработана поисковая стратегия, учитывающая предсказанный уровень потери популярности в отношении веб-страниц, подлежащих просмотру, и эффективно повторно переранжирующая веб-страницы для просмотра в строке просмотра в соответствии с динамикой популярности.

Авторами настоящей технологии обнаружено, что большинство подходов, используемых в предыдущих уровнях техники, не подходят для выполнения поставленной задачи - прогнозирования популярности и снижения популярности вновь созданных веб-страниц. Это связано с тем, что большинство подходов, используемых в предшествующем уровне техники, предсказывают будущую популярность на основе предшествующего опыта - например, предсказывая будущую популярность заданной пары запрос-документ на основе прошлого поведения, обуславливающего посещения, касательно конфетной пары запрос-документ. Этот метод не применим к вновь созданным веб-страницам, так как отсутствует информация о прошлом поведении в связи с коротким периодом времени, прошедшим после создания новой веб-страницы.

Некоторые из решений, используемых в известных технических решениях, ориентируются на предсказании долгосрочной популярности основываясь на предшествующей популярности домена, в котором располагаются новые веб-ресурсы. Однако эти модели не учитывают специфические характеристики такой веб-страницы. В сегодняшних доменных структурах, какой-либо установленный домен может содержать очень разные веб-страницы, разнящиеся своими характеристиками и уровнем популярности. Например, на новостном портале, содержащем разделы "последние новости" и "декоративно-прикладное искусство", после значительной природной катастрофы и поступления соответствующие новостей, данные о популярности и снижении популярности ленты новостей, связанных с катастрофой в разделе последних новостей, будет сильно отличаться от новостей в разделе, посвященном декоративно-прикладному искусству. В соответствии с первым вариантом осуществления настоящей технологии, заявляется способ определения последовательности просмотра веб-страниц, который осуществляется на поисковом сервере, при том, что поисковый сервер соединен с коммуникационной сетью, а коммуникационная сеть выполнена с возможностью связываться с первым сервером веб-ресурса и вторым сервером веб-ресурса, при этом способ включает в себя: оценку первой новой веб-страницы, связанной с первым сервером веб-ресурса; оценку второй новой веб-страницы, связанной со вторым сервером веб-ресурса; определение первого параметра полезности просмотра, связанного с первой новой веб-страницей, при этом первый параметр полезности просмотра основывается на параметре ожидаемой популярности и параметре ожидаемого снижения популярности первой новой вебстраницы; определение второго параметра полезности просмотра, связанного со второй новой веб-страницей, при этом второй параметр полезности просмотра основывается на параметре ожидаемой популярности и параметре ожидаемого снижения популярности второй новой веб-страницы; определение последовательности просмотра для первой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра.

Возможен вариант осуществления способа, в котором дополнительно выполняют оценку первой старой веб-страницы, связанной с одним из первых серверов веб-ресурса и вторым сервером веб-ресурса, при этом первая старая веб-страница уже была ранее просмотрена.

Возможен вариант осуществления способа, в котором дополнительно выполняют определение какого-либо третьего параметра полезности просмотра, связанного с первой старой веб-страницей, при этом третий параметр полезности просмотра основывается на ожидаемом параметре популярности и параметре ожидаемого снижения популярности по меньшей мере одного изменения, связанного с первой старой веб-страницей.

Возможен вариант осуществления способа, в котором дополнительно выполняют определение порядка просмотра для первой новой веб-страницы, второй новой веб-страницы и повторного просмотра первой старой веб-страницы, на основе первого параметра полезности просмотра, второго параметра полезности просмотра и третьего параметра полезности просмотра.

Возможен вариант осуществления способа, в котором дополнительно выполняют оценку соответствующего параметра ожидаемой популярности и параметра ожидаемого снижения популярности, связанных с первой новой веб-страницей и второй новой веб-страницей с использованием алгоритма машинного обучения, выполняемого поисковым сервером.

Возможен вариант осуществления способа, в котором дополнительно выполняют обучение алгоритма машинного обучения.

Возможен вариант осуществления способа, в котором обучение основывается по меньшей мере на одном из признаков, выбранном из списка: количество переходов ко всем URL-адресам в шаблоне Р: Vin(P); среднее количество переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р; количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; среднее количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; часть количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

Возможен вариант осуществления способа, в котором обучение основывается по меньшей мере на одном из признаков, выбранном из списка: количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P); среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P)=|P|; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов .

Возможен вариант осуществления способа, в котором указанное обучение основывается на шаблоне |Р|.

Возможен вариант осуществления способа, в котором по меньшей мере один признак, используемый для указанного обучения имеет весовой коэффициент.

Возможен вариант осуществления способа, в котором каждый из первых параметров полезности просмотра и вторых параметров полезности просмотра вычисляют с использованием уравнения:

.

Возможен вариант осуществления способа, в котором для указанного определения последовательности просмотра применяют алгоритм планирования просмотров.

Возможен вариант осуществления способа, в котором алгоритм планирования просмотров выбирают из списка возможных алгоритмов планирования просмотров, выполненных с возможностью принятия во внимание ожидаемого параметра популярности и ожидаемого параметра снижения популярности.

Возможен вариант осуществления способа, в котором соответствующий ожидаемый параметр снижения популярности свидетельствует об изменениях уровня ожидаемого параметра популярности на протяжении какого-либо временного промежутка.

Возможен вариант осуществления способа, в котором временной промежуток представляет собой предопределенный промежуток времени с момента создания соответствующей первой новой веб-страницы и второй новой веб-страницы.

Возможен вариант осуществления способа, в котором способ дополнительно включает использование времени, когда соответствующая первая новая веб-страница и вторая веб-страница были оценены поисковым приложением в качестве замены определенного дня создания.

В соответствии с другим вариантом осуществления настоящей технологии заявляется сервер. Сервер выполнен с возможностью соединения посредством коммуникационной сети, с первым сервером веб-ресурса и вторым сервером веб-ресурса, при том, что сервер содержит: коммуникационный интерфейс для организации связи с электронным устройством через коммуникационную сеть; процессор функционально соединенный с коммуникационным интерфейсом, при этом, процессор выполнен с возможностью: реализации оценки первой новой веб-страницы, связанной с сервером первого веб-ресурса; реализации оценки второй новой веб-страницы, связанной с сервером второго веб-ресурса; определения первого параметра полезности просмотра, связанного с первой новой веб-страницей; определения второго параметра полезности просмотра, связанного со второй новой веб-страницей; определения последовательности просмотра для первой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью оценки первой старой веб-страницы, связанной с одним из серверов первого веб-ресурса и серверов второго веб-ресурса.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью определения третьего параметра полезности просмотра, связанного с первой старой веб-страницей.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью определения последовательности просмотра для первой новой веб-страницы, второй новой веб-страницы и повторного просмотра первой старой веб-страницы на основе первого параметра полезности просмотра, второго параметра полезности просмотра и третьего параметра полезности просмотра.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью оценки соответствующего параметра ожидаемой популярности и параметра ожидаемого снижения популярности, связанных с первой новой веб-страницей и второй новой веб-страницей с использованием алгоритма машинного обучения, выполняемого поисковым сервером.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью обучения алгоритма машинного обучения.

Возможен вариант осуществления сервера, в котором выполнен с возможностью обучения на основе по меньшей мере одного из признаков, выбранных из списка: количество переходов ко всем URL-адресам в шаблоне Р: Vin(P); среднее количество переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р; количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; среднее количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; часть количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

Возможен вариант осуществления сервера, в котором процессор выполнен с возможностью обучения на основе по меньшей мере одного из признаков, выбранных из списка: количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P); среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге ; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов .

Возможен вариант осуществления сервера, в котором процессор выполнен с возможностью обучения основываясь на шаблоне |Р|.

Возможен вариант осуществления сервера, в котором по меньшей мере один признак, использованный в указанном обучении, имеет весовой коэффициент.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью применения алгоритма планирования просмотров при определении последовательности просмотров.

Возможен вариант осуществления сервера, в котором процессор дополнительно выполнен с возможностью использования времени, когда соответствующая первая новая веб-страница и вторая веб-страница были оценены поисковым приложением в качестве замены определенного дня создания.

В контексте настоящего подробного описания, если иное прямо не установлено, «сервер» означает компьютерную программу, работающую на соответствующем оборудовании, и которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Аппаратное обеспечение может представлять собой один отдельный физический компьютер или одну отдельную физическую компьютерную систему, но ни один вариант не является обязательным в отношении настоящей технологии. В контексте настоящей технологии использование выражения «сервер» не означает, что каждая задача (например, полученные инструкции или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в получение / передачу, выполнение или инициирование выполнения любой задачи или запроса, или последствия любой задачи или запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».

В контексте настоящего описания, если иное прямо не установлено, термин "клиентское устройство" означает любые компьютерные аппаратные средства, которые способны управлять соответствующим программным обеспечением для выполнения поставленных задач. Таким образом, некоторыми примерами (не имеющими ограничительного характера) клиентских устройств могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что какое-либо устройство, ведущее себя как клиентское устройство в настоящем контексте, может вести себя как сервер по отношению к другим клиентским устройствам. Использование выражения «клиентское устройство» не исключает возможности использования множества клиентских устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного способа.

В контексте настоящего описания, если иное прямо не установлено, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, или аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, которое выполняет процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или же она может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов.

В контексте настоящего описания, если иное прямо не установлено, термин «информация» включает информацию любого рода или типа, которая может храниться в базе данных. Таким образом, информация включает, среди прочего: аудиовизуальные произведения (изображения, видео, звукозаписи, презентации и т.д.), данные (данные о местоположении, цифровые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, таблицы и т.д.

В контексте настоящего подробного описания, если иное прямо не установлено, термин «компонент» подразумевает под собой программное обеспечение (соответствующее конкретному аппаратному контексту), которые являются необходимыми и достаточными для выполнения конкретной(ых) указанной(ых) функции(й).

В контексте настоящего описания, если иное прямо не установлено, термин «используемый компьютером носитель информации» означает носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.

В контексте настоящего описания, если иное прямо не установлено, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что использование терминов "первый сервер" и "третий сервер" не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. Дополнительно, как указано в настоящем документе, в других контекстах, упоминание "первого" элемента и "второго" элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, "первый" сервер и "второй" сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

Каждый вариант реализации настоящей технологии включает по меньшей мере одну из вышеупомянутых целей. Следует иметь в виду, что некоторые объекты данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.

Дополнительные и/или альтернативные характеристики, и преимущества вариантов осуществления настоящей технологии станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.

Краткое описание чертежей

Для лучшего понимания настоящей технологии, а также других его вариантов осуществления сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

На Фиг. 1 показано схематическое изображение системы 100, реализованной в соответствии с вариантом осуществления настоящей технологии.

На Фиг. 2 показана блок-схема последовательности операций способа 200, причем способ выполняется в системе 100, и выполняется в соответствии с неограничивающими вариантами осуществления настоящей технологии.

Осуществление изобретения

На Фиг. 1 показана схема системы 100, при этом система 100 является пригодной для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что система 100 изображена только в качестве иллюстративного примера осуществления технологии. Таким образом, последующее описание предназначается исключительно для описания иллюстрирующих примеров технологии. Это описание не предназначается для определения объема или изложения границ настоящей технологии. В некоторых случаях ниже также могут излагаться, как полагается, полезные примеры изменений системы 100. Указанное осуществляется в целях оказания помощи в понимании, и, опять же, не для определения сферы или установления границ данной технологии. Эти изменения не являются исчерпывающим перечнем, и, как поймет специалист в данной области техники, внесение других изменений также возможно. Кроме того, ситуации, в которых последнее не было осуществлено (т.е. там, где не были изложены примеры изменений), не следует толковать как таковые, в которых изменения не возможны и/или, что описанное является единственным способом реализации этого элемента в соответствии с настоящей технологией. Как будет понятно специалисту в данной области техники, указанное, скорее всего, не так. Кроме того, необходимо понимать, что система 100 может обеспечивать в определенных случаях простые варианты осуществления технологии, и что там, где дело обстоит именно так, они были представлены в качестве вспомогательного средства для улучшенного понимания. Как будет понятно специалистам в данной области техники, различные варианты осуществления технологии могут быть представлены с использованием большего уровня сложности.

Система 100 содержит электронное устройство 102. Электронное устройство 102, как правило, связанное с пользователем (не показано) и, таким образом, иногда может упоминаться как "клиентское устройство". Следует отметить, что тот факт, что электронное устройство 102 связано с пользователем, не предполагает или подразумевает какого-либо специального режима работы - например, необходимости зайти на сайт, необходимости быть зарегистрированным и т.п.

Варианты осуществления электронного устройства 102 не являются ограничивающими, но в качестве примера, электронное устройство 102 может быть реализовано в виде персонального компьютера (настольного ПК, ноутбука, планшетного ПК и т.д.), электронного устройства беспроводной связи (сотового телефона, смартфона, планшета и т.п.), а также сетевого оборудования (маршрутизатора, коммутатора или шлюза). Исключительно в целях иллюстрации электронное устройство 102 выполнено в виде устройства беспроводной связи (смартфон), например, смартфон iPhone 5, использующий IOS 6 (т.е. заводскую настроенную операционную систему), предоставленную компанией Apple Corporation. Электронное устройство 102 включает в себя аппаратные средства и/или программное обеспечение и/или прошивку (или их сочетание) для выполнения поискового приложения 106. В целом, целью поискового приложения 106 является, обеспечение возможности пользователю (не показан) осуществлять веб-поиск с помощью поисковой системы. Способы осуществления поискового приложения 106 конкретно не ограничены. В качестве одного из примеров осуществления поискового приложения 106 оно может быть воплощено в виде пользовательского доступа к веб-сайту, связанному с поисковой системой для получения доступа к поисковому приложению 106. Например, доступ к поисковому приложению можно получить, набрав в URL-адрес, связанный с поисковой системой Яндекс на www.yandex.ru. Следует четко понимать, что доступ к поисковому приложению 106 можно получить с помощью любой другой коммерчески доступной или служебной поисковой системы. В альтернативных неограниченных вариантах осуществления настоящей технологии, поисковое приложение 106 может быть реализовано в виде приложения браузера на портативном устройстве (например, беспроводном электронном устройстве). Следует четко понимать, что любые другие коммерчески доступные, либо собственные приложения браузера могут быть использованы для реализации неограничивающих вариантов осуществления настоящей технологии.

Как правило, поисковое приложение 106 выполняется с возможностью приема от пользователя (не показан) запроса ("поисковой строки") и обеспечения результатов поиска, реагирующих на запрос пользователя. Способы обработки пользовательских запросов, как и способы отображения результатов поиска, как правило, известны в данной области и, таким образом, не будут описаны здесь подробно.

Электронное устройство 102 соединяется с коммуникационной сетью 114 посредством канала связи 112. В некоторых неограничивающих вариантах осуществления настоящей технологии, коммуникационная сеть 114 может быть реализована в виде сети Интернет. В других вариантах осуществления настоящей технологии, коммуникационная сеть 114 может быть реализована в другом виде, например, в виде любой глобальной коммуникационной сети, локальной коммуникационной сети, частной коммуникационной сети и подобных им сетях.

Способы реализации коммуникационной линии 112 особенно не ограничиваются и будут зависеть от способа осуществления электронного устройства 102. Со ссылкой на то, что электронное устройство 102 может быть реализовано, в этом примере, в виде смартфона, канал связи 112 может быть беспроводным (например, Wireless Fidelity, или WiFi® для краткости, Bluetooth® или тому подобное).

Следует четко понимать, что способы осуществления электронного устройства 102, канала связи 112 и коммуникационной сети 114 предоставляются исключительно в целях демонстрации. Таким образом, специалистам в данной области техники будет легко оценить другие конкретные возможные для внедрения детали, касающиеся электронного устройства 102, канала связи 112 и коммуникационной сети 114 как таковой. Примеры, приведенные выше в настоящем описании, ни в коем случае, не предназначены для ограничения объема данной технологии.

С целью обеспечения выполнения поиска пользователем электронного устройства 102 с помощью поискового приложения 106, коммуникационная сеть 114 соединяется с сервером поисковой системы 116. Сервер поисковой системы 116 может быть выполнен в виде обычного компьютерного сервера. В качестве примера варианта осуществления настоящей технологии сервер поисковой системы 116 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы сервера Microsoft™ Windows Server™. Само собой разумеется, что сервер поисковой системы 116 может быть реализован в любом другом подходящем варианте использования аппаратных средств и/или программного обеспечения и/или микропрограммного обеспечения или их сочетания. В изображенном неограничивающем варианте осуществления настоящей технологии, сервер поисковой системы 116 реализован в виде одного сервера. В альтернативных неограниченных вариантах осуществления настоящей технологии, функциональность сервера поисковой системы 116 может быть распределена и реализована с помощью нескольких серверов.

Сервер поисковой системы 116 выполнен с возможностью доступа к индексу 118. В приведенном варианте осуществления, сервер поисковой системы 116 соединен с индексом 118 через выделенный канал (не пронумерован). В качестве альтернативы, сервер поисковой системы 116 может получить доступ к индексу 118 через коммуникационную сеть 114. Тем не менее, в других вариантах осуществления настоящей технологии, индекс 118 может быть реализован как часть сервера поисковой системы 116.

Сервер поисковой системы 116 может быть выполнен с возможностью выполнения поиска в Интернете. Функционирование сервера поисковой системы 116 известно, но кратко говоря, сервер поисковой системы 116 выполняется с возможностью: получения поискового запроса от электронного устройства 102; обработки поискового запроса (нормализации поискового запроса, и т.д.); выполнения поиска веб-ресурсов, реагирующих на поисковый запрос путем обращения к индексу 118, при этом индекс 118 содержит индекс посещенных веб-ресурсов; и возврата ранжированного списка результатов поиска к электронному устройству 102 для поискового приложения для вывода пользователю SERP-содержащих ссылки на веб-ресурсы, в ответ на конкретный поисковый запрос.

Сервер поисковой системы 116 также выполнен с возможностью выполнения функции посещения и, с этой целью, включает в себя поисковое приложение 120.

В целях демонстрации, пусть предполагается, что в пределах системы 100 предоставляется сервер первого веб-ресурса 122, сервер второго веб-ресурса 124 и сервер третьего веб-ресурса 126. Главным образом по типу сервера поисковой системы 116, каждый из серверов: первого веб-ресурса 122, второго веб-ресурса 124 и третьего веб-ресурса 126 может быть реализован в виде обычного компьютерного сервера. В качестве примера реализации варианта осуществления настоящей технологии, каждый из серверов первого веб-ресурса 122, второго веб-ресурса 124, и третьего веб-ресурса 126 может быть реализован в виде сервера Dell™ PowerEdge™ под управлением операционной системы Microsoft™ Windows Server™.

Излишне говорить, что каждый из серверов первого веб-ресурса 122, второго веб-ресурса 124, и третьего веб-ресурса 126 может быть реализован в виде любого другого подходящего аппаратного средства и/или программного обеспечения и/или микропрограммного обеспечения или их сочетания. Кроме того, конкретный сервер первого веб-ресурса 122, второго веб-ресурса 124 и третьего веб-ресурса 126 может быть реализован в виде, отличном от другого или всех других серверов сервера первого веб-ресурса 122, сервера второго веб-ресурса 124 и сервера третьего веб-ресурса 126.

Кроме того, в изображенном неограничивающем варианте осуществления настоящей технологии, каждый из серверов первого веб-ресурса 122, второго веб-ресурса 124, и третьего веб-ресурса 126 представлен в виде отдельного сервера. В альтернативных неограниченных вариантах осуществления настоящей технологии, функциональность каждого из серверов: сервера первого веб-ресурса 122, сервера второго веб-ресурса, 124 и сервера третьего веб-ресурса 126 может быть распределена и реализована с помощью нескольких серверов.

Каждый из серверов: первого веб-ресурса 122, второго веб-ресурса 124, и третьего веб-ресурса 126 выполнен с возможностью размещения соответствующих веб-ресурсов, доступных с помощью электронного устройства 102 через коммуникационную сеть 114. Как уже упоминалось ранее, соответствующие веб-ресурсы могут быть доступны с помощью электронного устройства 102 с помощью ввода URL-адреса или выполнения веб-поиска с помощью сервера поисковой системы 116.

В изображенном варианте осуществления настоящей технологии первый веб-ресурс 122 вмещает первый старый веб-ресурс 128, а также первый новый веб-ресурс 130. Второй веб-ресурс 124 вмещает второй старый веб-ресурс 132 и второй новый веб-ресурс 134. Третий веб-ресурс 126 вмещает третий старый веб-ресурс 136 и третий новый веб-ресурс 138.

В контексте настоящей технологии термин «старый веб-ресурс» обозначает веб-ресурс, который был просмотрен с помощью поискового приложения 120 сервера поисковой системы 116. Иными словами, содержание «старого веб-ресурса» было просмотрено, индексировано, а представляющая его информация была сохранена в индексе 118. С другой стороны, термин «новый веб-ресурс» обозначает веб-ресурс, который не был ранее просмотрен поисковым приложением 120 сервера поисковой системы 116. Следует отметить, однако, что термин «старый веб-ресурс» не исключает ситуации, когда содержание старого веб-ресурса было обновлено, и поэтому, просмотренная версия веб-сайта и текущая версия веб-сайта могут в действительности отличаться.

В некоторых вариантах осуществления поисковое приложение 120 выполняется с возможностью определения типа и очередности посещения первого нового веб-ресурса 130, второго старого веб-ресурса 132, и третьего нового веб-ресурса 138. В дополнительных вариантах осуществления настоящей технологии поисковое приложение 120 может определить тип и очередность повторного просмотра первого старого веб-ресурса 128, второго старого веб-ресурса 132, и третьего старого веб-ресурса 136. В других дополнительных вариантах осуществления настоящей технологии, поисковое приложение 120 выполняется с возможностью распределения имеющихся ресурсов между просмотром новых ресурсов (например, первого нового веб-ресурса 130, второго старого веб-ресурса 132 и третьего нового веб-ресурса 138) и повторного посещения старого (или ранее просмотренного) ресурса (например, первого старого веб-ресурса 128, второго старого веб-ресурса 132 и третьего старого веб-ресурса 136).

В некоторых вариантах осуществления настоящей технологии, как часть выполнения функции просмотра, поисковое приложение 120 выполняет следующие процедуры. Следует отметить, что способы обнаружения новых веб-ресурсов (таких как первый новый веб-ресурс 130, второй старый веб-ресурс 132 и третий новый веб-ресурс 138) не являются ограничивающими и может использоваться любой из ранее доступных способов, известных в данном уровне техники. Касательно представления всех нижеприведенных примеров предполагается, что поисковому приложению 120 знакомы новые веб-ресурсы (например, первый новый веб-ресурс 130, второй старый веб-ресурс 132 и третий новый веб-ресурс 138, а также все другие, ставшие доступными веб-ресурсы, которые подлежат просмотру).

Кроме того, для целей нижеприведенных примеров предполагается, что затраты ресурсов, необходимых для просмотра и повторного просмотра являются одинаковыми, независимо от того, какая веб-страница просматривается. Таким образом, можно сделать вывод, что загрузка поисковым приложением 120 любой данной страницы из нового ресурса для просмотра (например, первого нового веб-ресурса 130, второго старого веб-ресурса 132 и третьего нового веб-ресурса 138) занимает такое же время Тпросмотра, что и просмотр старого веб-ресурса с целью осуществления повторного просмотра (например, первого старого веб-ресурса 128, второго старого веб-ресурса 132 и третьего старого веб-ресурса 136).

В некоторых вариантах осуществления поисковое приложение 120 выполняется с возможностью прогнозирования параметров популярности р(u) данной веб-страницы и параметра снижения популярности λ(u) указанной страницы - т.е. одной из недавно созданных веб-страниц (например, первого нового веб-ресурса 130, второго старого веб-ресурса 132, и третьего нового веб-ресурса 138) или одной из старых веб-страниц, которые потенциально нуждаются в повторном посещении (например, первый старый веб-ресурс 128, второй старый веб-ресурс 132 и третий старый веб-ресурс 136).

Оценка параметра полезности просмотра поиска, основанного на ожидаемом параметре популярности и параметре ожидаемого снижения популярности

В целом, параметр популярности р(u) представляет собой общее количество посещений данной веб-страницы. В некоторых вариантах осуществления, распределение количества посещений по всем веб-страницам в данном наборе данных может иметь утяжеленный хвост. В этих обстоятельствах (но без ограничения этими обстоятельствами), поисковое приложение 120 может предсказать логарифм параметра популярности р(u), а не фактическое значения параметра популярности р(u). Это основано на том, что при больших значениях параметра популярности р(u) точное значение может не быть критическим, а для поискового приложения 120 скорее может представлять важность величина параметра популярности р(u).

Поисковое приложение 120 затем определяет параметр популярности р(u) для заранее определенного интервала времени после обнаружения URL-адреса, а именно - популярность с течением временного параметра pt(u). В некоторых вариантах осуществления настоящей технологии, поисковое приложение 120 может определить точную дату создания данной веб-страницы. В других вариантах осуществления, поисковое приложение 120 использует дату и время, когда данная веб-страница была «обнаружена» поисковым приложением 120 в качестве замены даты и времени, касающихся того момента, когда был создан данный веб-ресурс. В других дополнительных вариантах осуществления поисковое приложение 120 может использовать один из известных алгоритмов для определения даты создания и/или времени данного веб-ресурса.

Алгоритм машинного обучения, используемый поисковым приложением 120, (будет объяснен ниже) с целью предсказания доли общих посещений, происходящих в пределах заранее определенного интервала времени (например, в пределах предопределенных t часов после создания веб-страницы) с помощью:

Поисковое приложение 120 затем оценивает параметр популярности снижения λ(U). Из формулы:

Следует:

Таким образом

Используя логарифм, мы получаем log(1-а2)=-λ(u)t и, таким образом, поисковое приложение 120 может оценивать параметр снижения популярности λ(u) как:

Таким образом, оценка ожидаемой пользы просмотра данного ресурса u с задержкой Δt после ее появления является:

Где в уравнении 6,

- а1 является оценкой общего количества посещений (р);

- а2 является оценкой pt(u)/p(u) или, другими словами, оценкой соотношения количества посещений в течение времени t после создания в общей численности посещений;

- t представляет собой заранее определенный интервал времени после создания веб-ресурса;

- Δt - текущий срок существования веб-ресурса или, другими словами, промежуток времени между созданием веб-страницы и текущим временем.

Таким образом, оцениваемую ожидаемую пользу просмотра, оцененного с помощью Уравнения 6, можно рассматривать как параметр преимущества просмотра, основанного на параметре ожидаемой популярности и параметре снижения популярности.

Особенности, используемые для реализации машинного обучения

Как уже упоминалось выше, поисковое приложение 120 использует алгоритм машинного обучения для реализации модели (а именно, для прогнозирования параметров a1 и а2). Как известно специалистам в данной области, алгоритм машинного обучения должен быть «обучен». Как также известно специалистам в данной области техники, алгоритм машинного обучения использует набор функций подлежащих обучению.

Для каждого известного домена, поисковое приложение 120 строит дерево шаблонов для организации URL-адресов на основе их структуры синтаксиса. Существует несколько методов предшествующего уровня техники для реализации этого шага, и конкретная реализация данного способа не имеет особых ограничений.

Для каждого URL-адреса и, поисковое приложение 120 анализирует соответствующий шаблон Р (т.е. соответствующий узел в дереве шаблонов). В некоторых вариантах осуществления настоящей технологии, поисковое приложение 120 может отслеживать и собирать один или более из:

Переходы к шаблонам:

- Количество переходов ко всем URL-адресам в шаблоне Р: Vin(P).

- Среднее количество переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р.

- Количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

- Среднее количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

- Часть количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

Переходы от шаблонов:

- Количество случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P);

- Среднее количество случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена Vout(P)=|P|;

- Среднее количество случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

- Среднее количество случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

- Части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов .

В некоторых вариантах осуществления настоящей технологии, поисковое приложение 120 дополнительно принимает во внимание размер шаблона |Р|.

Особенности в пределах первой группы, перечисленные выше, соответствуют популярности связанных страниц. Например, с целью применения поискового приложения 120 для прогнозирования общей популярности данной веб-страницы, поисковое приложение 120 может вычислить популярность «подобных» URL-адресов, взятых из соответствующего шаблона. Точно так же, временная ценность считается соотносящейся с а2= pt (u)/p(u).

Вторая группа функций соответствует важности страниц, определенных как количество переходов от страниц. Существует соотношение между количеством переходов от страниц и их популярностью в плане посещений, так как для того, чтобы перейти от страницы p1 к странице р2, пользователь должен посетить р1.

В некоторых вариантах, особенности первой группы могут иметь больший вес, чем особенности второй группы.

Следует четко понимать, что примеры функций, которые могут быть использованы для представленного выше обучения, не является исчерпывающими. Таким образом, может быть использован целый ряд альтернативных или дополнительных функций. Они включают, без ограничения: источник, который был использован для обнаружения URL-адреса из недавно обнаруженных веб-страниц; количество заранее определенных внешних носителей, относящихся к URL-адресам, таким как количество «твитов», например, общее число известных входящих ссылок на URL-адреса; количество пользовательских переходов к URL-адресам и т.п.

Примеры и эксперимент

Все проведенные эксперименты были основаны на полностью анонимных посещениях веб-страниц, зафиксированных панелью инструментов поискового браузера, используемого миллионами людей в разных странах. В частности, исследователи извлекли все записи, сделанные в 2-месячный период с 1 июля 2013 года по 31 августа 2013 года. Из множества всех страниц Р, зарегистрированных в журналах в течение этого времени, Авторы извлекли страницы, имеющие ненулевые посещения на первый или в последний день, чтобы сосредоточиться только на новых страницах, которые пользуются популярностью в течение рассматриваемого периода времени. Авторы получили меньший набор страниц Р'

Пусть D представляет множество всех соответствующих областей. В связи с ограниченностью ресурсов испытаний, Авторы удалили все домены с более чем 50000 страниц из D и получил новый набор D'. Авторы удалили крупные домены из набора данных, так как эксперименты проводились не в производственной среде и без использования оборудования промышленного уровня и, следовательно, алгоритм построения древа шаблонов был бы сложным в вычислительном смысле для целей эксперимента с использованием оборудования уровня данного эксперимента. Наконец, авторы использовали случайное подмножество 100 доменов из множества D'.

В результате, окончательный набор данных, отобранных авторами, состоял из 100 случайных областей и всех страниц этих областей с ненулевым количеством посещений в первый или в последний день оцениваемого временного периода. URL-адреса, которые были посещены в июле, но не были посещены в июне или августе, были использованы для обучения модели прогнозирования популярности. URL-адреса, которые были посещены в августе, но не были посещены в июле или сентябре, были использованы для оценки эффективности алгоритмов. Каждый из этих двух наборов содержит 650000 URL. В Таблице 1 ниже воспроизводится важность используемых функций.

Таблица 1. Долгосрочный прогноз популярности

Во-первых, авторы проанализировали модель прогнозирования популярности. В частности, авторы сравнили различные упорядочения страниц, основанные на их прогнозируемой популярности. Было отмечено, и в целом определено, что точное упорядочение страниц в соответствии с их долгосрочной популярностью значительно улучшает качество работы поискового приложения 120. Для целей экспериментов, вышеописанный алгоритм использовался для предсказания как фактического значения популярности, так и уровня снижения популярности ранжирования URL-адресов.

Для проведения экспериментов, авторы взяли период времени t=24 часа. Была использована важность функций, приведенных в Таблице 1. Авторы сортировали функции в соответствии с взвешенным вкладом, внесенным в модели прогнозирования. Последнее измеряет взвешенное улучшение функции потерь в отношении всех применений особенностей в процессе обучения. Как показано в Таблице 1, наиболее важными функциями является средняя долгосрочная популярность URL-адреса в шаблоне и средняя краткосрочная популярность URL-адреса в шаблоне.

Сравнение стратегий поиска

Авторы протестировали представленный здесь алгоритм по сравнению с несколькими подходами, известными ранее в данной области техники.

Ранжирование по Среднему Количеству Посещений. В соответствии с этим алгоритмом, на каждом шаге просматривается веб-страница с самой высокой общей популярностью. Общая популярность прогнозируется в соответствии со способом ранжирования по среднему количеству посещений, известному специалистам в данной области техники. Другими словами, на каждом шагу, поисковое приложение 120 делает выбор в пользу просмотра веб-страницы, который имеет наибольшее значение среднего числа переходов к URL-адресам, в структуре соответствующих рассматриваемых URL-адресов.

Ранжирование по a1 На каждом шаге просматривается веб-страница с самой высокой общей популярностью, в результате чего общая популярность предсказывается с помощью описанных здесь алгоритмов машинного обучения.

Экспоненциальный метод (ожидаемый а2). В этом случае поисковое приложение 120 принимает во внимание динамику популярности, как это было описано выше. Оба параметра a1 и а2 предсказываются алгоритмом машинного обучения.

Экспоненциальный метод (идеальное значение а2, также называемое здесь, время от времени, как "Oracle а2"). Этот метод похож на предыдущий, но вместо прогнозируемого а2, поисковое приложение 120 считает фактическое значение для прогнозируемого значения популярности и прогнозируемое значение затухания популярность, то есть, а2= pt(u)/p(u).

С результатами, полученными вследствие проведенных экспериментов можно ознакомиться в Таблице 2. Здесь авторы сравнили все алгоритмы с разной скоростью посещения. Следует отметить, что CR=0:1 позволяет просматривать около половины всех веб-страниц в экспериментальном наборе данных в течение рассматриваемого месяца. Из Таблицы 2 следует, что лучшее предсказание популярности, полученное с помощью алгоритма машинного обучения, осуществляемого в соответствии с неограничивающими вариантами осуществления настоящей технологии, позволяет значительно улучшить качество работы поискового приложения 120.

Таблица 2. Сравнение стратегии посещений: доля посещений, охватываемых при разных скоростях посещений

Следует четко понимать, что могут использоваться и другие методы прогнозирования снижения интереса. После ознакомления с преимуществами данного способа, специалисты в данной области смогут выбрать подходящие поисковые алгоритмы планирования, принимающие в расчет ожидаемый параметр популярности и ожидаемый параметр снижения популярности, как было раскрыто в соответствии с вариантами осуществления данной технологии.

Учитывая архитектуру системы 100, показанную на Фиг. 1 и вышеприведенные примеры, возможно осуществление способа определения последовательности просмотра веб-страниц. Этот способ может выполняться на сервере поисковой системы 116. Следует напомнить, что сервер поисковой системы 116 может выполнять поисковое приложение 120 и, таким образом, он может иногда упоминаться под названием «поисковый сервер».

Следует напомнить, что сервер поисковой системы 116 соединяется с коммуникационной сетью 114, и что коммуникационная сеть 114 также связывается с первым сервером веб-ресурсов 122 и вторым сервером веб-ресурсов 124 (представляющих несколько серверов веб-ресурсов, потенциально соединенных с коммуникационной сетью 114).

На Фиг. 2 изображена блок-схема последовательности операций способа 200, причем способ выполняется в соответствии с неограничивающими вариантами осуществления настоящей технологии.

Шаг 202 - оценка первой новой веб-страницы, связанной с первым сервером веб-ресурса

Способ начинается на шаге 202, где сервер поисковой системы 116 оценивает первую новую веб-страницу, связанную с первым сервером веб-ресурса 122. Как уже упоминалось выше, обнаружение данной веб-страницы для просмотра может быть реализовано любым известным способом.

Шаг 204 - оценка второй новой веб-страницы, связанной с сервером второго веб-ресурса

На шаге 204, сервер поисковой системы 116 оценивает вторую новую веб-страницу, связанную со вторым сервером веб-ресурсов. Как уже упоминалось выше, обнаружение данной веб-страницы для просмотра может быть реализовано любым известным способом.

Шаг 206 - определение первого параметра полезности просмотра, связанного с первой новой веб-страницей, при этом первый параметр полезности просмотра основывается на ожидаемом параметре популярности и ожидаемом параметре снижения популярности первой новой веб-страницы

Далее, на шаге 206, сервер поисковой системы 116 поисковой определяет первый параметр полезности просмотра, связанный с первой новой веб-страницей, при этом первый параметр полезности просмотра основывается на ожидаемом параметре популярности и ожидаемом параметре снижения популярности первой новой веб-страницы.

В некоторых вариантах осуществления способа 200, первый параметр полезности просмотра вычисляется с помощью уравнения:

Шаг 208 - определение второго параметра полезности просмотра, связанного со второй новой веб-страницей, при этом второй параметр полезности просмотра основывается на ожидаемом параметре популярности и ожидаемом параметре снижения популярности второй новой веб-страницы

На этапе 208, сервер поисковой системы 116 определяет второй параметр полезности просмотра, связанный со второй новой веб-страницей, при этом второй параметр полезности просмотра основывается на ожидаемом параметре популярности и ожидаемом параметре снижения популярности второй новой веб-страницы.

В некоторых вариантах осуществления способа данной технологии 200, второй параметр полезности просмотра вычисляется с помощью уравнения:

В некоторых вариантах осуществления способа, соответствующий ожидаемый параметр снижения популярности (соответственно, связанный с первой новой веб-страницей или второй новой веб-страницей) указывает на изменения ожидаемого параметра популярности за какой-либо интервал времени.

В некоторых вариантах осуществления способа, интервал времени является предопределенным временным интервалом, с момента создания соответствующей первой новой веб-страницы и второй новой веб-страницы.

Как уже упоминалось выше, способ может дополнительно включать в себя использование времени, когда соответствующая первая новая веб-страница, и вторая веб-страница были оценены с помощью поискового приложения в качестве замены дня создания данных веб-страниц.

В некоторых вариантах осуществления настоящей технологии, перед выполнением шагов 206 и 208, сервер поисковой системы 116 сначала оценивает соответствующий ожидаемый параметр популярности и ожидаемый параметр снижения популярности, связанные с первой новой веб-страницей и второй новой веб-страницей с использованием алгоритма машинного обучения выполняемого поисковым сервером.

В некоторых вариантах осуществления способа 200, способ дополнительно включает в себя подготовку алгоритма машинного обучения, который может быть выполнен перед этапом 202, например. Обучение может быть основано на по меньшей мере одной функции, выбранной из списка: количестве переходов ко всем URL-адресам в шаблоне Р: Vin(P); среднем количестве переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р;

количестве переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; среднем количестве переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ; части количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

В качестве альтернативы или в дополнение к указанному, обучение может быть основано на по меньшей мере на одной функции, выбранной из списка: количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P); среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P)=|P|; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ; части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов ;

В некоторых вариантах осуществления настоящей технологии, обучение дополнительно основывается на шаблоне |Р|. В других вариантах осуществления настоящей технологии взвешивается по меньшей мере одна особенность используемая для реализации обучения.

Шаг 210 - определение последовательности просмотра для первой новой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра.

На шаге 210, сервер поисковой системы 116, на основе первого параметра полезности просмотра и второго параметра полезности просмотра, определяет последовательность просмотра на первой новой веб-странице и на второй новой веб-странице.

В некоторых вариантах осуществления настоящей технологии, в качестве части выполнения этапа 210, поисковый сервер 116 предоставляет приоритет веб-странице с более высоким параметром полезности просмотра по сравнению с веб-страницей с более низким параметром полезности просмотра.

В некоторых вариантах осуществления способа 200, этап определения порядка просмотра может включать использование алгоритма просмотра. Как уже было описано выше, алгоритм просмотра выбирается из списка возможных алгоритмов планирования просмотров, выполненных с возможностью учета ожидаемого параметра популярности и ожидаемого параметра снижения популярности.

Дополнительные способы оптимизации способа 200

В некоторых вариантах осуществления настоящей технологий, способ 200 может применяться для согласования ресурсов поискового приложения 120 между просмотром вновь обнаруженных веб-страниц и повторным просмотром старых веб-страниц - то есть веб-страниц, которые были ранее просмотрены и могли быть изменены (и, следовательно, возможно, должны быть повторно просмотрены и переиндексированы для правильного отображения при проведении поиска).

С этой целью, способ 200 может дополнительно включать в себя этап оценки первой старой веб-страницы, связанной с одним из первых серверов веб-ресурса 122 и вторым сервером веб-ресурса 124 (или любым другим сервером веб-ресурсов, которые могут присутствовать в архитектуре Фиг. 1). Первая старая веб-страница была ранее просмотрена с помощью поискового приложения 120 и могла (или не могла) быть изменена с момента реализации первой операции просмотра.

В некоторых вариантах осуществления способа 200, способ дополнительно включает в себя определение третьего параметра полезности просмотра, связанного с первой старой веб-страницей, при этом третий полезный поисковый параметр основывается на ожидаемом параметре популярности и ожидаемом параметре снижения популярности по меньшей мере одного изменения, связанного с первой старой веб-страницей. Основываясь на первом параметре полезности просмотра, способ 200 дополнительно включает в себя второй параметр полезности просмотра и третий параметр полезности просмотра, определение последовательности просмотра первой новой веб-страницы, второй новой веб-страницы и повторного просмотра первой старой веб-страницы.

Вносимые изменения и усовершенствования в вышеописанные варианты осуществления настоящей технологии могут стать очевидными специалистам в данной области техники. Вышеприведенное описание предоставлено в целях демонстрации и не имеет ограничивающего характера. Объем настоящей технологии, таким образом, должен ограничиваться исключительно объемом прилагаемой формулы изобретения.

Похожие патенты RU2634218C2

название год авторы номер документа
Способ и система для формирования карточки объекта 2018
  • Акулов Ярослав Викторович
RU2739554C1
Способ и сервер прогнозирования популярности элемента содержимого 2015
  • Гусев Глеб Геннадьевич
  • Друца Алексей Валерьевич
  • Сердюков Павел Викторович
RU2635905C2
СПОСОБ И УСТРОЙСТВО ДЛЯ СОЗДАНИЯ РЕКОМЕНДАЦИЙ СОДЕРЖИМОГО В СИСТЕМЕ РЕКОМЕНДАЦИЙ 2016
  • Тихонов Алексей Викторович
RU2632132C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫБОРА СЕТЕВОГО РЕСУРСА В КАЧЕСТВЕ ИСТОЧНИКА СОДЕРЖИМОГО ДЛЯ СИСТЕМЫ РЕКОМЕНДАЦИЙ 2016
  • Ламбурт Виктор Григорьевич
  • Лифарь Игорь Игоревич
RU2636702C1
Способ и система для формирования рекомендаций цифрового контента 2018
  • Ламбурт Виктор Григорьевич
  • Ушанов Дмитрий Валерьевич
  • Иванычев Сергей Дмитриевич
RU2731335C2
СПОСОБ И СЕРВЕР ДЛЯ ИНДЕКСИРОВАНИЯ ВЕБ-СТРАНИЦЫ В ИНДЕКСЕ 2018
  • Мельник Сергей Васильевич
  • Филонов Егор Андреевич
  • Коростелев Иван Владимирович
RU2714601C1
СПОСОБ И СЕРВЕР ДЛЯ ВЫБОРА ЭЛЕМЕНТОВ РЕКОМЕНДАЦИЙ ДЛЯ ПОЛЬЗОВАТЕЛЯ 2017
  • Данильченко Андрей Петрович
  • Животворев Дмитрий Сергеевич
RU2693323C2
СПОСОБ И СЕРВЕР ДЛЯ КЛАССИФИКАЦИИ ВЕБ-РЕСУРСА 2017
  • Ковалев Андрей Валентинович
RU2658878C1
ВЕБ-КРОЛИНГ НА ОСНОВЕ ТЕОРИИ СТАТИСТИЧЕСКИХ РЕШЕНИЙ И ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИЯ ВЕБ-СТРАНИЦЫ 2005
  • Кэди Карл М.
  • Мик Кристофер А.
RU2405197C2
СИСТЕМА, СПОСОБ И УСТРОЙСТВО ДЛЯ ОЦЕНКИ СЕАНСОВ ПРОСМОТРА 2013
  • Жуковский Максим Евгеньевич
  • Гусев Глеб Геннадьевич
RU2592390C2

Иллюстрации к изобретению RU 2 634 218 C2

Реферат патента 2017 года СПОСОБ ОПРЕДЕЛЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТИ ПРОСМОТРА ВЕБ-СТРАНИЦ И СЕРВЕР, ИСПОЛЬЗУЕМЫЙ В НЕМ

Изобретение относится к способу и серверу определения последовательности просмотра веб-страниц. Технический результат заключается в определении последовательности просмотра новых веб-страниц и ускорении просмотра более релевантных новых веб-страниц. Способ включает оценку первой новой веб-страницы, связанной с первым сервером веб-ресурса, оценку второй новой веб-страницы, связанной со вторым сервером веб-ресурса, обнаружение данных веб-страниц для просмотра, оценку параметра ожидаемой популярности и параметра ожидаемого снижения популярности первой новой и второй новой веб-страниц, определение первого и второго параметров полезности просмотра первой новой и второй новой веб-страниц, основанных на параметре ожидаемой популярности и параметре ожидаемого снижения популярности первой новой и второй новой веб-страниц соответственно, определение последовательности просмотра для первой новой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра, при этом сервер предоставляет приоритет веб-странице с более высоким параметром полезности просмотра, просмотр веб-страниц с более высоким приоритетом. 2 н. и 28 з.п. ф-лы, 2 ил.

Формула изобретения RU 2 634 218 C2

1. Способ определения последовательности просмотра веб-страниц, который осуществляется на поисковом сервере, при том что поисковый сервер соединен с коммуникационной сетью, а коммуникационная сеть выполнена с возможностью связываться с первым сервером веб-ресурса и вторым сервером веб-ресурса, при этом способ включает в себя:

оценку первой новой веб-страницы, связанной с первым сервером веб-ресурса;

оценку второй новой веб-страницы, связанной со вторым сервером веб-ресурса,

причем на упомянутом этапе оценки упомянутой первой новой веб-страницы и упомянутой второй новой веб-страницы выполняют обнаружение данной веб-страницы для просмотра;

оценку параметра ожидаемой популярности и параметра ожидаемого снижения популярности упомянутой первой новой веб-страницы и упомянутой второй новой веб-страницы;

определение первого параметра полезности просмотра, связанного с первой новой веб-страницей, при этом первый параметр полезности просмотра основан на параметре ожидаемой популярности и параметре ожидаемого снижения популярности первой новой веб-страницы;

определение второго параметра полезности просмотра, связанного со второй новой веб-страницей, при этом второй параметр полезности просмотра основан на параметре ожидаемой популярности и параметре ожидаемого снижения популярности второй новой веб-страницы;

определение последовательности просмотра для первой новой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра,

причем на упомянутом этапе определения последовательности просмотра сервер предоставляет приоритет веб-странице с более высоким параметром полезности просмотра по сравнению с веб-страницей с более низким параметром полезности просмотра;

просмотр веб-страниц с более высоким приоритетом.

2. Способ по п. 1, в котором дополнительно выполняют оценку первой старой веб-страницы, связанной с одним из первых серверов веб-ресурса и вторым сервером веб-ресурса, при этом первая старая веб-страница уже была ранее просмотрена.

3. Способ по п. 2, в котором дополнительно выполняют определение какого-либо третьего параметра полезности просмотра, связанного с первой старой веб-страницей, при этом третий параметр полезности просмотра основан на ожидаемом параметре популярности и параметре ожидаемого снижения популярности по меньшей мере одного изменения, связанного с первой старой веб-страницей.

4. Способ по п. 3, в котором дополнительно выполняют определение порядка просмотра для первой новой веб-страницы, второй новой веб-страницы и повторного просмотра первой старой веб-страницы на основе первого параметра полезности просмотра, второго параметра полезности просмотра и третьего параметра полезности просмотра.

5. Способ по п. 1, в котором дополнительно выполняют оценку соответствующего параметра ожидаемой популярности и параметра ожидаемого снижения популярности, связанных с первой новой веб-страницей и второй новой веб-страницей, с использованием алгоритма машинного обучения, выполняемого поисковым сервером.

6. Способ по п. 5, в котором дополнительно выполняют обучение алгоритма машинного обучения.

7. Способ по п. 6, в котором обучение основывается по меньшей мере на одном из признаков, выбранном из списка:

количество переходов ко всем URL-адресам в шаблоне Р: Vin(P);

среднее количество переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р;

количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ;

среднее количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ;

часть количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

8. Способ по п. 6, в котором обучение основывается по меньшей мере на одном из признаков, выбранном из списка:

количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P);

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P)=|P|;

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: .

9. Способ по любому из пп. 7, 8, в котором указанное обучение основывается на шаблоне |P|.

10. Способ по любому из пп. 7, 8, в котором по меньшей мере один признак, используемый для указанного обучения, имеет весовой коэффициент.

11. Способ по п. 1, в котором каждый из первых параметров полезности просмотра и вторых параметров полезности просмотра определяют как

,

где a1 является оценкой общего количества посещений (p);

а2 является оценкой pt(u)/p(u) или, другими словами, оценкой соотношения количества посещений в течение времени t после создания в общей численности посещений;

t представляет собой заранее определенный интервал времени после создания веб-ресурса;

Δt - промежуток времени между созданием веб-страницы и текущим временем.

12. Способ по п. 1, в котором для указанного определения последовательности просмотра применяют алгоритм планирования просмотров.

13. Способ по п. 12, в котором алгоритм планирования просмотров выбирают из списка возможных алгоритмов планирования просмотров, выполненных с возможностью принятия во внимание ожидаемого параметра популярности и ожидаемого параметра снижения популярности.

14. Способ по п. 1, в котором соответствующий ожидаемый параметр снижения популярности свидетельствует об изменениях уровня ожидаемого параметра популярности на протяжении какого-либо временного промежутка.

15. Способ по п. 14, в котором временной промежуток представляет собой предопределенный промежуток времени с момента создания соответствующей первой новой веб-страницы и второй новой веб-страницы.

16. Способ по п. 15, в котором способ дополнительно включает использование времени, когда соответствующая первая новая веб-страница и вторая веб-страница были оценены поисковым приложением в качестве замены определенного дня создания.

17. Сервер для определения последовательности просмотра веб-страниц, выполненный с возможностью соединения посредством коммуникационной сети с первым сервером веб-ресурса и вторым сервером веб-ресурса, при том что сервер содержит:

коммуникационный интерфейс для организации связи с электронным устройством через коммуникационную сеть; процессор, функционально соединенный с коммуникационным интерфейсом, при этом процессор выполнен с возможностью:

реализации оценки первой новой веб-страницы, связанной с сервером первого веб-ресурса;

реализации оценки второй новой веб-страницы, связанной с сервером второго веб-ресурса,

причем при реализации оценки упомянутой первой новой веб-страницы и упомянутой второй новой веб-страницы выполняют обнаружение данной веб-страницы для просмотра;

оценку параметра ожидаемой популярности и параметра ожидаемого снижения популярности упомянутой первой новой веб-страницы и упомянутой второй новой веб-страницы;

определения первого параметра полезности просмотра, связанного с первой новой веб-страницей, при этом первый параметр полезности просмотра основан на параметре ожидаемой популярности и параметре ожидаемого снижения популярности первой новой веб-страницы;

определения второго параметра полезности просмотра, связанного со второй новой веб-страницей, при этом второй параметр полезности просмотра основан на параметре ожидаемой популярности и параметре ожидаемого снижения популярности второй новой веб-страницы;

определения последовательности просмотра для первой веб-страницы и второй новой веб-страницы на основе первого параметра полезности просмотра и второго параметра полезности просмотра,

причем на упомянутом этапе определения последовательности просмотра сервер предоставляет приоритет веб-странице с более высоким параметром полезности просмотра по сравнению с веб-страницей с более низким параметром полезности просмотра;

просмотр веб-страниц с более высоким приоритетом.

18. Сервер по п. 17, в котором процессор дополнительно выполнен с возможностью оценки первой старой веб-страницы, связанной с одним из серверов первого веб-ресурса и серверов второго веб-ресурса.

19. Сервер по п. 18, в котором процессор дополнительно выполнен с возможностью определения третьего параметра полезности просмотра, связанного с первой старой веб-страницей.

20. Сервер по п. 19, в котором процессор дополнительно выполнен с возможностью определения последовательности просмотра для первой новой веб-страницы, второй новой веб-страницы и повторного просмотра первой старой веб-страницы на основе первого параметра полезности просмотра, второго параметра полезности просмотра и третьего параметра полезности просмотра.

21. Сервер по п. 17, в котором процессор дополнительно выполнен с возможностью оценки соответствующего параметра ожидаемой популярности и параметра ожидаемого снижения популярности, связанных с первой новой веб-страницей и второй новой веб-страницей с использованием алгоритма машинного обучения, выполняемого поисковым сервером.

22. Сервер по п. 21, в котором процессор дополнительно выполнен с возможностью обучения алгоритма машинного обучения.

23. Сервер по п. 22, в котором выполнен с возможностью обучения на основе по меньшей мере одного из признаков, выбранных из списка:

количество переходов ко всем URL-адресам в шаблоне Р: Vin(P);

среднее количество переходов на какой-либо URL-адрес в шаблоне Vin(P)=|P|, где |Р| является количеством URL-адресов в Р;

количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ;

среднее количество переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: ;

часть количества переходов ко всем URL-адресам в шаблоне Р в течение первых t часов: .

24. Сервер по п. 22, в котором процессор выполнен с возможностью обучения на основе по меньшей мере одного из признаков, выбранных из списка:

количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P);

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в браузинге Vout(P)=|P|;

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

среднем количестве случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: ;

части количества случаев, когда URL-адреса в шаблоне выступают в качестве ссылающегося домена в течение первых t часов: .

25. Сервер по любому из пп. 23, 24, в котором процессор выполнен с возможностью обучения, основываясь на шаблоне |Р|.

26. Сервер по любому из пп. 23, 24, в котором по меньшей мере один признак, использованный в указанном обучении, имеет весовой коэффициент.

27. Сервер по п. 17, в котором процессор выполнен с возможностью определения каждого из первых параметров полезности посещения и вторых параметров полезности посещения как

,

где a1 является оценкой общего количества посещений (p);

а2 является оценкой pt(u)/p(u) или, другими словами, оценкой соотношения количества посещений в течение времени t после создания в общей численности посещений;

t представляет собой заранее определенный интервал времени после создания веб-ресурса;

Δt - промежуток времени между созданием веб-страницы и текущим временем.

28. Сервер по п. 17, в котором процессор дополнительно выполнен с возможностью применения алгоритма планирования просмотров при определении последовательности просмотра.

29. Сервер по п. 28, в котором процессор выполнен с возможностью выбора алгоритма планирования посещений из списка возможных алгоритмов планирования посещений, выполненных с возможностью принятия во внимание ожидаемого параметра популярности и ожидаемого параметра снижения популярности.

30. Сервер по п. 17, в котором процессор дополнительно выполнен с возможностью использования времени, когда соответствующая первая новая веб-страница и вторая веб-страница были оценены поисковым приложением в качестве замены определенного дня создания.

Документы, цитированные в отчете о поиске Патент 2017 года RU2634218C2

Пломбировальные щипцы 1923
  • Громов И.С.
SU2006A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
СИСТЕМЫ, АППАРАТ И СПОСОБЫ СОЗДАНИЯ РЕКОМЕНДАЦИЙ 2008
  • О'Доноху Хью
  • Корриган Шон
  • Кроу Шон
  • Пигам Эндрю
  • Лилли-Уайт Курт Дэвид
RU2451986C2

RU 2 634 218 C2

Авторы

Лефортье Дамьен Реймон Жан-Франсуа

Остроумова Людмила Александровна

Самосват Егор Александрович

Сердюков Павел Викторович

Богатый Иван Семеонович

Челноков Арсений Андреевич

Даты

2017-10-24Публикация

2014-07-24Подача