СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ВРЕМЕНИ СОЗДАНИЯ ВЕБ-РЕСУРСА Российский патент 2018 года по МПК G06F17/30 

Описание патента на изобретение RU2651424C2

ПЕРЕКРЕСТНАЯ ССЫЛКА

[0001] Отсутствует

ОБЛАСТЬ ТЕХНИКИ

[0002] Настоящее техническое решение относится к способам и системам определения времени создания веб-ресурса.

УРОВЕНЬ ТЕХНИКИ

[0003] Через сеть Интернет доступны колоссальные объемы информации. Доступная информация включает в себя множество типов контента, например, фото, видео и так далее, и относится к широкому спектру тематик, например, среди прочего, новости, погода, развлечения, финансы и так далее. Существующие веб-страницы продолжают обновляться для добавления новой информации, а новые веб-страницы, содержащие новую информацию, продолжают создаваться и становиться доступными через сеть Интернет.

[0004] Доступ к информации может осуществляться с использованием широкого спектра электронных устройств, например, стационарных компьютеров, ноутбуков, смартфонов, планшетов и так далее. Пользователь может перейти к конкретному вебсайту напрямую, используя адрес веб-ресурса, к которому он(а) хочет получить доступ. Например, если пользователь хочет совершить банковские операции онлайн в Королевском Банке Канады, пользователь может получить доступ к веб-сайту www.rbc.com. В других обстоятельствах, пользователь, который ищет информацию, может не знать о конкретном веб-ресурсе, на котором может быть найдена информация, или о его местоположении, и может выполнять веб-поиск с помощью поисковой системы, например YANDEX, GOOGLE, YAHOO! и так далее. Как известно, пользователь вводит поисковый запрос, и поисковая система предоставляет список веб-ресурсов, которые отвечают поисковому запросу, в виде того, что известно как страница результатов поиска (SERP).

[0005] Для быстрого и эффективного получения информации через сеть Интернет, часто бывает важно знать, когда был создан веб-ресурс. Время создания веб-ресурсов часто используется во множестве задач, относящихся к извлечению информации, например, планирование поискового робота, ранжирование результатов поиска, сортировка результатов поиска и так далее. Следовательно, существует потребность в способе и системе для точного определения времени создания для веб-ресурсов.

РАСКРЫТИЕ

[0006] Таким образом, задачей предлагаемого технического решения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[0007] Первым объектом настоящего технического решения является способ определения времени создания множества целевых страниц. Способ выполняется на сервере, который соединен с сетью передачи данных. Способ включает в себя создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок. Каждая ссылка из множества ссылок обладает исходной страницей и конечной страницей. Каждая из исходных страниц и конечных страниц является одной из множества страниц. Каждая страница из множества страниц является одной из исходных страниц или конечных страниц, по меньшей мере для одной из множества ссылок. Каждая страница из множества страниц обладает соответствующим временем создания. Время создания для каждой страницы является либо известным либо неизвестным. Время создания каждой целевой страницы из множества целевых страниц является неизвестным. Каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы. Для любой страницы, которая обладает соответствующим временем создания, соответствующее известное время создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. По меньшей мере одна страница без известного времени создания анализируется для нахождения в ней временного выражения. Извлекается значение для времени создания страницы, которое соответствует найденному временному выражению в соответствующей странице, значение, которое извлекается для времени создания соответствующей страницы, является извлеченным значением времени создания. Для любой страницы, которая обладает соответствующим извлеченным значением временем создания, соответствующее извлеченное значение времени создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Известные показатели времени создания и извлеченные значения времени создания воспроизводятся за множество итераций, для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания, и связываются с помощью цепи ссылок, которая включает в себя одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известным временем создания. Для любой страницы, которая обладает соответствующим воспроизведенным значением времени создания, соответствующее воспроизведенное значение времени создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, заранее определенное значение назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Первоначальные значения соответствующих параметров Т времени создания множества целевых страниц одновременно изменяются для максимизации вероятности Рсети сети страниц. Вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей. Соответствующие показатели времени создания каждой целевой страницы из множества целевых страниц определяются таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[0008] Одним объектом настоящего технического решения является сервер, соединенный с электронным устройством пользователя и по меньшей мере одним хостом через сеть передачи данных. По меньшей мере один хост размещает множество страниц. Сервер включает в себя модуль обработки, который выполнен с возможностью осуществлять создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок. Каждая ссылка из множества ссылок обладает исходной страницей и конечной страницей. Каждая из исходных страниц и конечных страниц является одной из множества страниц. Каждая страница из множества страниц является одной из исходных страниц или конечных страниц, по меньшей мере для одной из множества ссылок. Каждая страница из множества страниц обладает соответствующим временем создания. Время создания каждой страницы является либо известным либо неизвестным. Время создания каждой целевой страницы из множества целевых страниц является неизвестным. Каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы. Для любой страницы, которая обладает соответствующим временем создания, модуль обработки выполнен с возможностью назначать соответствующее известное время создания как первоначальное значение параметра Т времени создания соответствующей страницы. Модуль обработки выполнен с возможностью осуществлять анализ по меньшей мере одной страницы без известного времени создания для нахождения в ней временного выражения, и извлечение значения для времени создания страницы в ответ на нахождение временного выражения в соответствующей странице, значение, которое извлекается для времени создания соответствующей страницы, является извлеченным значением времени создания. Для любой страницы, которая обладает соответствующим извлеченным значением временем создания, соответствующее извлеченное значение времени создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Модуль обработки дополнительно выполнен с возможностью осуществлять воспроизведение, за множество итераций, известных показателей времени создания и извлеченных значений времени создания для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания, и связанной с помощью цепи ссылок, которая включает одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известным временем создания. Для любой страницы, которая обладает соответствующим воспроизведенным значением времени создания, соответствующее воспроизведенное значение времени создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, модуль обработки дополнительно выполнен с возможностью осуществлять назначение заранее определенного значения как первоначального значения параметра Т времени создания соответствующей страницы. Модуль обработки дополнительно выполнен с возможностью одновременно осуществлять изменение первоначальных значений соответствующих параметров Т времени создания множества целевых страниц одновременно для максимизации вероятности Рсети сети страниц. Вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей. Соответствующие показатели времени создания каждой целевой страницы из множества целевых страниц определяются таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[0009] Другим объектом настоящего технического решения является способ определения времени создания множества целевых страниц, способ выполняется сервером, соединенным с сетью передачи данных. Способ включает в себя создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок. Каждая ссылка из множества ссылок обладает исходной страницей и конечной страницей, каждая из исходной страницы и конечной страницы является одной из множества страниц. Каждая страница из множества страниц является одной из исходных страниц или конечных страниц, по меньшей мере для одной из множества ссылок. Каждая страница из множества страниц обладает соответствующим временем создания. Время создания для каждой страницы является либо известным либо неизвестным. Время создания каждой целевой страницы из множества целевых страниц является неизвестным. Каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы. Первоначальное значение назначается параметру Т времени создания для каждой страницы в сети страниц. Первоначальное значение, назначаемое параметру Т времени создания для любой страницы, которая обладает известным временем создания, является соответствующим известным временем созданием. Первоначальные значения соответствующих параметров Т времени создания множества целевых страниц одновременно изменяются для максимизации вероятности Рсети сети страниц, с помощью способа градиентного спуска. Вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей. Критерий остановки применяется для способа градиентного спуска на основе хоста, размещающего множество страниц из сети страниц. Соответствующие показатели времени создания каждой целевой страницы из множества целевых страниц определяются таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[0010] Другим объектом настоящего технического решения является сервер, соединенный с электронным устройством пользователя и по меньшей мере одним хостом через сеть передачи данных. По меньшей мере один хост размещает множество страниц. Сервер включает в себя модуль обработки, который выполнен с возможностью осуществлять создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок. Каждая ссылка из множества ссылок обладает исходной страницей и конечной страницей, каждая из исходной страницы и конечной страницы является одной из множества страниц. Каждая страница из множества страниц является одной из исходных страниц или конечных страниц, по меньшей мере для одной из множества ссылок. Каждая страница из множества страниц обладает соответствующим временем создания. Время создания для каждой страницы является либо известным либо неизвестным. Время создания каждой целевой страницы из множества целевых страниц является неизвестным. Каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы. Модуль обработки выполнен с возможностью назначать первоначальное значение параметру Т времени создания для каждой страницы в сети страниц. Первоначальное значение, которое назначается параметру Т времени создания для любой страниц, которая обладает известным временем создания, является соответствующим известным временем созданием. Модуль обработки дополнительно выполнен с возможностью одновременно осуществлять изменение первоначального значения соответствующих параметров Т времени создания множества целевых страниц одновременно для максимизации вероятности Рсети сети страниц с помощью способа градиентного спуска. Вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей. Модуль обработки дополнительно выполнен с возможностью применять критерий остановки для способа градиентного спуска на основе хоста, размещающего множество страниц из сети страниц. Модуль обработки дополнительно выполнен с возможностью определять соответствующие показатели времени создания каждой целевой страницы из множества целевых страниц, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[0011] В контексте настоящего описания, если конкретно не указано иное, «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данной технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».

[0012] В контексте настоящего описания, если конкретно не указано иное, «электронное устройство» подразумевает под собой аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, примерами электронных устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что устройство, ведущее себя как электронное устройство в настоящем контексте, может вести себя как сервер по отношению к другим электронным устройствам. Использование выражения «электронное устройство» не исключает возможности использования множества электронных устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного метода.

[0013] В контексте настоящего описания, если конкретно не указано иное, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. В контексте настоящего описания слова «первый», «второй», «третий» и и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными.

[0014] В контексте настоящего описания, если конкретно не указано иное, «информация» включает в себя любую информацию любого типа, которую можно хранить в базе данных. Таким образом, информация включает в себя, среди прочего, аудиовизуальные произведения (изображения, видео, звукозаписи, презентации и т.д.), данные (данные о местоположении, цифровые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, таблицы и т.д.

[0015] В контексте настоящего описания «веб-ресурс» подразумевает под собой любые данные или набор данных, которые могут предоставлены издателем через сеть, и которые связаны с адресом веб-ресурса. Неограничивающие примеры веб-ресурсов включают в себя веб-страницы, тексты, документы, файлы изображений, видеофайлы, аудиофайлы и так далее. Веб-ресурсы могут включать в себя контент, такой, например, как слова, фразы, изображения, видео, аудио и так далее и/или встроенную информацию, например, мета-данные, гиперссылки и/или встроенные инструкции (например, на Java-скрипте).

[0016] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной передачи данных между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[0017] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов, но наличие всех не является обязательным. Следует иметь в виду, что некоторые объекты данной технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или могут удовлетворять другим целям, отдельно не указанным здесь.

[0018] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0019] Для лучшего понимания настоящего технического решения, а также других ее аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[0020] На Фиг. 1 представлена принципиальная схема сетевой среды 100, выполненной в соответствии с вариантом осуществления настоящего технического решения;

[0021] На Фиг. 2 блок-схема, иллюстрирующая способ определения времени создания веб-страницы в соответствии с вариантом осуществления настоящего технического решения;

[0022] На Фиг. 3 представлена принципиальная схема примера сети страниц, выполненной в соответствии с вариантом осуществления настоящего технического решения; и

[0023] На Фиг. 4 представлен способ назначения первоначальных значений для показателей времени создания в некоторых вариантах осуществления способа определения времени создания, показанного на Фиг. 2.

ОСУЩЕСТВЛЕНИЕ

[0024] На Фиг. 1 представлена принципиальная схема принципиальная схема сетевой среды 100, подходящей для выполнения неограничивающих вариантов осуществления настоящего технического решения. Важно иметь в виду, что сетевая среда 100 представлена только в целях иллюстрации варианта осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения.

[0025] Некоторые полезные примеры модификаций сетевой среды 100 также могут быть охвачены нижеследующим описанием. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что сетевая среда 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях представлена здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[0026] Сетевая среда 100 включает в себя электронное устройство 102 и сеть 110 передачи данных. Электронное устройство 102 соединено с сетью 110 передачи данных через линию 103 передачи данных. Электронное устройство 102 обычно связано с пользователем (не показан) и, таким образом, иногда может упоминаться как «пользовательское электронное устройство» и «клиентское устройство». В приведенном примере электронное устройство 102 является ноутбуком. Однако варианты осуществления электронного устройства 102 не ограничиваются ноутбуком 102. В качестве примера, электронное устройство 102 может быть реализовано как персональный компьютер (настольный компьютер, ноутбук, нетбук и т.п.), беспроводное электронное устройство (мобильный телефон, смартфон, планшет и т.п.), а также сетевое оборудование (маршрутизатор, коммутатор или шлюз). Общий вариант осуществления электронного устройства 102 известен в области техники, и поэтому не будет здесь подробно описан.

[0027] Несмотря на то, что в настоящем описании сделана ссылка на сетевую среду 100, в которой есть одно электронное устройство 102, следует иметь в виду, что сетевая среда 100 может включать в себя более одного электронного устройства 102.

[0028] Электронное устройство 102 включает в себя пользовательский интерфейс ввода (например, клавиатуру, мышь, сенсорную панель, сенсорный экран, микрофон и так далее) для получения пользовательских вводов. Электронное устройство 102 также включает в себя пользовательский интерфейс вывода (например, экран, динамик, принтер и так далее) для предоставления визуального, слухового или тактильного вывода пользователю. Электронное устройство 102 включает в себя интерфейс сетевой передачи данных (например, модем, сетевую карту и так далее) для двустороннего обмена данными по сети 110 передачи данных через линию 103 передачи данных. Электронное устройство 102 также включает в себя процессор, соединенный с пользовательским интерфейсом ввода, пользовательским интерфейсом вывода и интерфейсом сетевой передачи данных. Процессор выполнен с возможностью исполнять различные способы, включая те, что будут описаны ниже. С этой целью процессор может сохранять или иметь доступ к машиночитаемым командам, выполнение которых инициирует процессор выполнять различные описанные здесь способы. Электронное устройство 102 содержит аппаратное и/или прикладное программное, и/или системное программное обеспечение, как известно в данной области техники, чтобы выполнять разнообразные приложения. Некоторые из приложений выполнены с возможностью получать и передавать информацию через сеть 110 передачи данных. Примеры таких приложений включают в себя браузерное приложение, поисковое приложение, музыкальное потоковое приложение, приложение обмена фотографиями и так далее.

[0029] В представленном варианте осуществления настоящего технического решения, сеть 110 передачи данных представляет собой Интернет. В других вариантах осуществления настоящего технического решения, сеть 110 передачи данных может быть реализована иначе - в виде глобальной сети передачи данных, локальной сети передачи данных, частной сети передачи данных и так далее.

[0030] Линия 103 передачи данных также обладает различными неограничивающими вариантами осуществления, и конкретные варианты осуществления линии 103 передачи данных для электронного устройства 102 будут зависеть от того, как именно реализовано электронное устройство 102. В представленном варианте осуществления настоящего технического решения, в котором электронное устройство 102 реализовано как ноутбук, линия 103 передачи данных для первого электронного устройства 102 может быть либо беспроводной (например, Wireless Fidelity или коротко WiFi®, Bluetooth® и т.п.) или проводной (например, соединение на основе универсальной последовательной шины (USB)). Кроме того, линия 103 передачи данных, которая соединяет электронное устройство 102 с сетью 110 передачи данных может включать в себя более одного типа линий. Например, в этом примерном варианте осуществления технического решения, ноутбук 102 может быть соединен с сетью 110 передачи данных через беспроводное или проводное соединение.

[0031] Важно иметь в виду, что варианты осуществления электронного устройства 102, линии 103 передачи данных и сети 110 передачи данных даны исключительно в иллюстрационных целях. Таким образом, специалисты в данной области техники смогут понять подробности других конкретных вариантов осуществления электронного устройства 102, линии связи 103 и сети связи 110. То есть, представленные здесь примеры не ограничивают объем настоящего технического решения.

[0032] Электронное устройство 102 включает в себя аппаратное и/или прикладное программное, и/или системное программное обеспечение (или их комбинацию), как известно в данной области техники, для использования поискового приложения 104. В общем случае, целью поискового приложения 104 является предоставление возможности пользователю (не показан) выполнять поиск, с помощь вышеупомянутого сервера 120 поисковой системы.

[0033] Осуществление поискового приложения 104 никак конкретно не ограничено. Один из примеров поискового приложения 104 может быть реализован в вызове пользователем веб-сайта, соответствующего поисковой системе, для получения доступа к поисковому приложению 104. Например, поисковое приложение может быть вызвано путем ввода URL, связанного с поисковой системой по адресу http://www.search.example. Важно иметь в виду, что поисковое приложение 104 может быть доступно с помощью любой другой коммерчески доступной или собственной поисковой системы. Таким образом, в данном примерном варианте осуществления технического решения, поисковое приложение 104 выполняется с помощью браузерного приложения.

[0034] В общем случае, поисковое приложение 104 включает в себя интерфейс 106 запроса 106 и интерфейс результатов 108 поиска. Основной задачей интерфейса 106 запроса является предоставление возможности пользователю (не показан) вводить поисковый запрос или «поисковый вопрос». Основной задачей интерфейса результатов поиска 108 является предоставление результатов поиска, отвечающих запросу пользователя, который был введен в интерфейс 106 запроса. Обработка поискового запроса и представление поисковых результатов будут более подробно описаны ниже.

[0035] Также к сети 110 передачи данных соединен сервер 120 поисковой системы, который проводит поиски в ответ на поисковые запросы, полученные сервером 120 поисковой системы. Сервер 120 поисковой системы соединен с электронным устройством 102 по сети 110 передачи данных. Сервер 120 поисковой системы может быть также соединен с другими серверами, например, среди прочего, с серверами сетевой конфигурации, серверами сетевого ресурса, серверами приложений, серверами сетевой конфигурации через сеть 110 передачи данных.

[0036] Веб-сервер 120 поисковой системы может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 120 поисковой системы может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Сервер 120 поисковой системы может быть также реализован в виде сетевого оборудования других типов, например, среди прочего, маршрутизатор, коммутатор, шлюз, базовая станция и так далее. Сервер 120 поисковой системы может быть реализован на любом подходящем аппаратном и/или прикладном программном, и/или системном программном обеспечении или их комбинации. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 120 поисковой системы является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих ее объем, функциональность сервера 120 поисковой системы может быть разделена, и может выполняться с помощью нескольких серверов.

[0037] Вариант осуществления сервера 120 поисковой системы хорошо известен. Тем не менее, вкратце, сервер 120 поисковой системы содержит сетевой интерфейс связи (не показан), который настроен и выполнен с возможностью устанавливать соединение с электронным устройством 102 и другими устройствами, присоединенными к сети 110 передачи данных. Сервер 120 поисковой системы дополнительно включает в себя один или несколько пунктов из следующего: компьютерный процессор (не показан), функционально соединенный с интерфейсом связи и настроенный и выполненный с возможностью выполнять различные способы, описанные здесь. Для этой цели у процессора есть память (в виде оперативной памяти (ОЗУ), флэш-памяти и так далее) и/или он функционально соединен с памятью, которая хранит машиночитаемые инструкции, инициирующие при выполнении выполнение процессором разнообразных описанных здесь способов. Сервер 120 поисковой системы может дополнительно быть соединен (или иначе обладает доступом к) одному или нескольким модулями, например, среди прочего, модулю поискового робота, модулю сортировки и модулю ранжирования, как известно в данной области техники.

[0038] Сервер 120 поисковой системы может быть выполнен с возможностью выполнять веб поиски. Функциональность сервера 120 поисковой системы общеизвестна, но, излагая коротко, сервер 120 поисковой системы выполнен с возможностью осуществлять: (i) получение поискового запроса от электронного устройства 102; (ii) обработку поискового запроса (нормирование поискового запроса, и т.д.); (iii) выполнение поиска для веб-ресурсов, которые соответствуют поисковому запросу, и (iv) выводить ранжированный список результатов поиска электронному устройству 102 для поискового приложения, чтобы выводить пользователю страницу результатов поиска (SERP), которая содержит ссылки на веб-ресурсы, соответствующие поисковому запросу.

[0039] Сервер 120 поисковой системы функционально соединен с поисковым кластером 122 (или иным образом имеет к нему доступ). Основной задачей поискового кластера 122 является выполнение поиска в ответ на запрос пользователя, введенный с помощью интерфейса 106 запроса, и вывод результатов поиска для представления их пользователю с помощью интерфейса 108 результатов поиска. Далее следует описание варианта осуществления поискового кластера 122, не ограничивающего объем настоящего технического решения. Тем не менее, следует иметь в виду, что существуют другие варианты осуществления поискового кластера 122, не ограничивающие объем технического решения. Важно иметь в виду, что для упрощения нижеследующего описания конфигурация поискового кластера 122 была сильно упрощена. Считается, что специалисты в данной области техники смогут понять подробности реализации поискового кластера 122 и его компонентов, которые могли быть опущены в описании с целью упрощения.

[0040] В общем случае задачей поискового кластера 122 является (i) проведение поиска; (И) проведение анализа результатов поиска и ранжирование результатов поиска; (iii) группировка результатов и компиляция страницы результатов поиска (SERP) для вывода на электронное устройство 102. Конфигурация поискового кластера 122 для выполнения поисков никак конкретно не ограничена. Специалистам в данной области техники будут понятны некоторые способы и средства для выполнения поиска с помощью поискового кластера 122 и, соответственно, некоторые структурные компоненты поискового кластера 122 будут описаны только на поверхностном уровне.

[0041] В некоторых вариантах осуществления поискового кластера 122, не ограничивающих объем настоящего технического решения, поисковый кластер 118 включает в себя модуль 124 обработки. Модуль 124 обработки может выполнять несколько типов поиска, включая, среди прочего, общий поиск, вертикальный поиск, метапоиск, многоуровневый поиск и так далее. Конкретные подробности различных типов поиска не будут здесь описаны, поскольку данное описание не ограничивается каким-либо типом поиска. Любой тип поиска с помощью способа или средства любого типа, как будет понятно специалисту, может быть использован для проведения описанных поисков. С этой целью модуль 124 обработки содержит (или иным образом имеет доступ к) модуль 126 поиска.

[0042] Модуль 126 поиска обладает доступом к базе 128 данных для проведения веб-поиска(ов). Несмотря на то, что база 128 данных представлена здесь схематически как одиночный элемент, подразумевается, что база 128 данных может быть реализована в распределенном виде, например, база 128 данных может обладать различными компонентами, каждый компонент выполнен с возможностью выполнять конкретный вид поиска. Также подразумевается, что модуль 126 поиска может обладать доступом ко множеству баз 128 данных. Несмотря на то, что модуль 126 поиска показан здесь как соединенный с одиночной базой 128 данных, настоящее техническое решение не ограничивается одиночной базой 128 данных.

[0043] Сетевая среда 100 также включает в себя первый хост 130 веб-ресурса и второй хост 132 веб-ресурса. Первый хост 130 веб-ресурса размещает множество веб-ресурсов, которые доступны при соединении с первым хостом 130 веб-ресурса через сеть 110 передачи данных. Второй хост 132 веб-ресурса размещает множество веб-ресурсов, которые доступны при соединении со вторым хостом 132 веб-ресурса через сеть 110 передачи данных. Первый и второй хосты 130, 132 веб-ресурса также могут быть соединены друг с другом через сеть 110 передачи данных или даже напрямую.

[0044] В представленном примере, каждый из хостов 130, 132 веб-ресурса реализован как отдельный сервер. Аналогично серверу 120 поисковой системы, каждый из хостов 130, 132 веб-ресурса может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения каждый из хостов 130, 132 веб-ресурса может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Каждый из хостов 130, 132 веб-ресурса также может быть реализован на любом подходящем аппаратном и/или прикладном программном, и/или системном программном обеспечении или их комбинации. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, каждый из хостов 130 веб-ресурса 132 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих ее объем, функциональность каждого из хостов 130, 132 веб-ресурса может быть разделена, и может выполняться с помощью нескольких серверов. Также подразумевается, что хосты 130, 132 веб-ресурса могут быть реализованы тем же самым сервером.

[0045] Также следует иметь в виду, что хосты 130, 132 веб-ресурса и веб-ресурсы, размещенные на хостах 130, 132 веб-ресурса представлены здесь в качестве примера. В настоящем описании, термин «хост веб-ресурса» используется взаимозаменяемо с термином «хост» для удобства. Сетевая среда 100 может включать в себя любое число и любой тип сервером сетевого ресурса, и каждый сервер сетевого ресурса может размещать любое число и любой тип сетевых ресурсов. Для удобства описания, веб-ресурсы упоминаются здесь и далее как веб-страницы или, попросту, «страницы». Тем не менее, следует иметь в виду, что настоящее техническое решение не ограничивается веб-страницами, и может быть реализовано для любого типа веб-ресурсов.

[0046] Каждый из хостов 130, 132 веб-ресурса размещает множество веб-страниц, как было упомянуто ранее. Каждая веб-страница создается в данное время, которое упоминается как время создания страницы. Время создания веб-страницы определяется как время, в которое веб-страницы загружается на хост 130, 132 веб-ресурса в первый раз, и, следовательно, становится доступной в первый раз через сеть 110 передачи данных с электронного устройства 102, которое расположено удаленно от хостов 130, 132 веб-ресурса. Веб-страница, естественно, может обновляться после своего создания, чтобы включать дополнительную информацию и затем заново загружаться на хост 130, 132 веб-ресурса. Для целей способов 500, 600, которые описаны ниже, время создания веб-страницы считается оригинальным временем создания, когда оригинальная версия веб-страницы была впервые загружена и стала доступной через сеть 110 передачи данных.

[0047] Следует также иметь в виду, что время создания может подразумевать дату (дату создания), когда веб-страница была загружена, включая или не включая более точную информацию о фактическом времени загрузки веб-страницы в отношении даты создания. Таким образом, термин «время создания» используется здесь взаимозаменяемо с термином «дата создания».

[0048] Как было упомянуто ранее, часто является желательным обладать точной и конкретной информацией, относящейся ко времени создания веб-страниц. Например, время создания веб-ресурсов используется во множестве задач, относящихся к извлечению информации, например, планирование поискового робота, ранжирование результатов поиска, сортировка результатов поиска и так далее.

Способ Определения Времени Создания Веб-Страницы

[0049] Способ 500 определения времени создания веб-страницы далее будет описан со ссылкой на Фиг. 2.

[0050] Способ 500 является основанным на ссылке способом определения времени создания веб-страницы. Было уже упомянуто, что вероятность появления ссылки с исходной страницы на конечную страницу является функцией соответствующих показателей времени создания исходной страницы и конечной страницы. В способе 500, описанном далее, эта зависимость вероятности ссылки от показателей времени создания веб-страниц используется для определения времени создания веб-страниц(ы).

[0051] Способ 500 является основанным на ссылке, который используется, когда время создания страницы либо является неизвестным, либо доступная информация о времени создания веб-страницы является ненадежной и/или приблизительной, например, включает в себя только месяц и/или год, без указания дня и/или времени создания.

[0052] Способ 500 выполняется на сервере, например, сервере 120 поисковой системы, соединенном с сетью 110 передачи данных. Веб-страница с неизвестным, ненадежным или приблизительным временем создания упоминается здесь как целевая страница. Несмотря на то, что способ 500 описан далее со ссылкой на одиночную целевую страницу, следует иметь в виду, что сервер 120 поисковой системы может принимать во вниманием более одной целевой страницы. Способ 500 также может быть реализован для определения показателей времени создания для множества веб-страниц.

[0053] На этапе 520 представление 300 сети 200 страниц включает в себя создание множества страниц и множества ссылок между ними. Представление 300 сети страниц является представлением фактической сети 200 страниц, включая существующие страницы и фактически существующие ссылки между ними. Например, сеть 200 страниц может включать в себя все страницы, просмотренные поисковым роботом, или их подмножество. Каждая веб-страница обладает временем создания, которое может быть известным или неизвестным, как будет более подробно описано далее, способ 500 реализуется для определения неизвестных показателей времени создания.

[0054] На Фиг. 3 показано примерное представление 300 сети страниц примерной сети 200 страниц. Пример представления 300 сети страниц в форме диаграммы с вебстраницами А, В, С, D, Е и F, которые представлены как узлы (указаны крестиками) и линии, соединяющие узлы, которые указываются на ссылки между соответствующими страницами. В этом примерном представлении 300 сети страниц, узлы (веб-страницы) А, В, С, D, Е и F сети 200 страниц организованы последовательно в порядке времени их создания, вне зависимости от того, точно оно известно или подсчитано приблизительно. В этом примерном представлении 300 сети страниц, узлы (веб-страницы) А, В, С, D, Е расположены равномерно, вне зависимости от фактических различий между показателями времени их создания. Тем не менее, подразумевается, что промежутки между последовательными узлами (веб-страницами) могут указывать на временную разницу между их показателями времени создания. Также следует иметь в виду, что представление 300 сети страниц является примерным и представлено только для целей иллюстрации. Представление 300 сети 200 страниц может быть представлено в других формах, например, среди прочего, изобразительной, векторной, матричной, графической и так далее.

[0055] Со ссылкой на Фиг. 3, способ 500 будет описан с помощью примерного сценария сети 200 страниц, который включает в себя шесть страниц А, В, С, D, Е и F. Примерная сеть 200 страниц, показанная на Фиг. 3 также обладает восемью ссылками LCA, LFA, LCB, LEB, LDC, LFA, LFC, и LFE, которые соединяют друг с другом страницы А, В, С, D, Е и F. Следует иметь в виду, что способ 500 может быть реализован в сети 200 страниц, которая обладает числом страниц, отличным от того, показано здесь, и обладать структурой ссылок, отличной от того, что показано здесь. Сеть 200 страниц и представление 300 сети страницы показаны здесь только в качестве примера и упрощены для целей иллюстрации, и способ 500 ни коим образом не ограничен примером сети 200 страниц, показанным здесь.

[0056] В описанном неограничивающем варианте осуществления способа 500 каждая из страниц А, В, С, D, Е и F, которая включена в сеть 200 страниц, связана по меньшей мере с одной другой страницей А, В, С, D, Е и F сети 200 страниц с помощью ссылки L. Следовательно, каждая страница А, В, С, D, Е и F, которая включена в сеть страниц, обладает по меньшей мере одной исходящей и входящей ссылкой. Каждая из ссылок L, которая включена в сеть 200 страниц, исходит из одной из страниц сети 200 страниц, и ссылается на другую страницу А, В, С, D, Е и F в сети 200 страниц. Другими словами, для каждой ссылки L, которая включена в сеть 200 страниц, которая создается на этапе 520, исходная страница и конечная страница включены в сеть страниц. Таким образом, в этом неограничивающем варианте осуществления технического решения, любые ссылки от страницы А, В, С, D, Е и F сети 200 страниц к странице, которая не включена в сеть 200 страниц, опускаются. Также опускаются все самореферентные ссылки, т.е. ссылки, которые начинаются и заканчиваются на одной и той же странице, даже если эта эта страница включена в сеть 200 страниц. Дополнительно, сеть 200 страниц, которая создается на этапе 520, включает в себя все ссылки между любой из страниц А, В, С, D, Е и F из сети 200 страниц с другой страницей А, В, С, D, Е и F из сети страниц.

[0057] В неограничивающем варианте осуществления технического решения, все страницы А, В, С, D, Е и F, включенные в сеть 200 страниц, размещены на одном и том же хосте, например, на хосте 130, 132. Тем не менее, подразумевается, что способ 500 может быть реализован с помощью сети 200 страниц, которая включает в себя страницы более чем с одного хоста.

[0058] Каждая из страниц А, В, С, D, Е и F связана с соответствующим параметром времени создания ТА, ТВ, ТС, TD, ТЕ и TF, который указывает на соответствующее время создания страницы.

[0059] На этапе 540, первоначальное значение назначается параметру Т времени создания для каждой страницы в сети 200 страниц. Если время создания страницы известно, известное время создания назначается как первоначальное значение параметра Т времени создания соответствующей страницы. Если время создания страницы неизвестно (т.е. страница является целевой страницей), первоначальное значение, которое назначается параметру Т времени создания для целевой страницы, может быть основано на оценке времени создания. Как будет описано далее, параметр Т времени создания для страниц, связанных с известным временем создания, фиксируется на этапе 560 способа 500, и параметр Т времени создания для страниц, не связанных с известным временем создания, становится переменной на этапе 560 способа 500.

[0060] Подразумевается, что время создания одной или нескольких страниц в сети 200 страниц может быть известно. Например, знание времени создания для конкретной страницы может быть получено во время анализа другой сети страниц, которая также содержит конкретную страницу. Для этих страниц, обладающих известным временем создания, время создания известно до начала способа 500, известное время создания назначается как первоначальное значение соответствующего параметра Т времени создания.

[0061] В некоторых вариантах осуществления технического решения, первоначальное значение, которое назначается параметру времени создания страницы, основывается на информации о времени создания, которая получена путем текстуального анализа страницы. Таким образом, в некоторых вариантах осуществления технического решения, на этапе 540, одна или несколько страниц сети 200 страниц анализируются для извлечения из нее информации о времени создания. Как было использовано здесь, текстовый анализ веб-страницы включает в себя анализ URL и исходного кода документа (например, HTML документа) для веб-страницы. Время создания вебстраницы может быть извлечено путем анализа URL (универсальный указатель ресурса) веб-страницы для извлечения из нее временных выражений. Например, URL страницы для рецепта блинчиков на новостном сайте The Guardian™ представляет собой http://www.theguardian.com/lifeandstyle/2013/feb/10/nigel-slater-pancake-recipes", включает в себя временное выражение "2013/feb/10" («2013/фев/10»). В другом примере, время создания веб-страницы может быть извлечено путем анализа HTML документа веб-страницы. Время создания также может быть извлечено путем анализа отображаемого содержимого веб-страницы, например, текста, изображений и тому подобного. Аналогично, отображаемое содержимое страницы может включать в себя временное выражение в виде временной метки «Февраль 10, 2013» внизу отображаемой страницы, которая указывает на время создания страницы. Извлеченное временное выражение обрабатывается соответствующим образом, чтобы извлечь возможное значение показателя времени создания страницы. Следовательно, значение времени создания страницы получено путем извлечения временного выражения со страницы (включая URL и ее исходный код) и обработки извлеченного временного выражения, которое упоминается здесь как извлеченное значение времени создания. Для извлечения временного выражения из различных мест веб-страницы и для получения возможных значений времени создания из извлеченных временных выражений могут быть использованы различные машинно-обученные алгоритмы, алгоритмы анализа шаблонов, HTML сегментаторы и так далее.

[0062] Для любой страницы, связанной с извлеченным значением времени создания, которое было получено путем текстового анализа страницы, как было описано выше на этапе 540, извлеченное значение времени создания назначается как первоначальное значение для параметра Т времени создания этой страницы. В этом примерном сценарии, текстовый анализ веб-страниц А, В, D, Е и F получает извлеченные значения показателей времени создания соответствующей веб-страницы. Соответствующие извлеченные значения времени создания назначаются как первоначальное значение для соответствующих параметров времени создания ТА, ТВ, TD, ТЕ и TF.

[0063] В некоторых вариантах осуществления технического решения, значение времени создания, которое извлекается из страницы путем ее текстового анализа, считается фактическим временем создания, и считается, что соответствующая страница обладает известным временем создания. Таким образом, в этих вариантах осуществления технического решения, любая страница, которая связана с извлеченным значением времени создания, не считается целевой страницей.

[0064] В некоторых вариантах осуществления технического решения, надежность извлеченного значения времени создания также рассматривается как указатель на фактическое время создания. Считается, что страница обладает известным временем создания, если извлеченное значение времени создания, которое было извлечено путем анализа страницы, считается надежным. Если извлеченное значение не считается надежным, веб-страница считается целевой страницей, которая обладает неизвестным временем создания в рамках способа 500. Надежность извлеченного значения времени создания основывается на одном или нескольких факторах, таких как место, из которого было извлечено временное выражение, совпадение с другими значениями, извлеченными из страницы, и так далее. Надежность извлеченного значения времени создания будет более подробно описана ниже со ссылкой на способ 600.

[0065] В примерном сценарии, извлеченные значения показателей времени создания, которые получены от каждой из страниц А, В, D, Е и F считаются надежными, т.е. извлеченное значение времени создания для каждой из страниц А, В, D, Е и F считается фактическим значением времени создания соответствующей страницы. Таким образом, страницы А, В, D, Е и F считаются обладающими известным временем создания. Соответствующие первоначальные значения, назначенные каждому из параметров времени создания ТА, ТВ, TD, ТЕ и TF фиксируются (не изменяются) на этапе 560, как будет более подробно описано далее. Подразумевается, тем не менее, что извлеченное значение времени создания одной или нескольких страниц А, В, D, Е и F может быть определено как ненадежное, и соответствующая страница может считаться целевой страницей, где соответствующий параметр Т времени создания будет переменной для анализа на этапе 560, как будет более подробно описано далее. Далее подразумевается, что извлеченное значение времени создания страницы включает в себя только приблизительную или грубую информацию (например, только год), и соответствующая страница может считаться целевой страницей, где соответствующий параметр Т времени создания будет переменной для анализа на этапе 560, как будет более подробно описано далее.

[0066] В представленном варианте осуществления технического решения, на этапе 540, для любой страницы, связанной с извлеченным значением времени создания, извлеченное значение назначается как первоначальное значение параметра Т времени создания для соответствующей страницы, вне зависимости от того является ли извлеченное значение надежным. В представленном варианте осуществления технического решения, извлеченное значение времени создания, которое считается ненадежным, используется как первоначальная оценка времени создания, и эта первоначальная оценка времени создания дополнительно уточняется на этапе 560 путем изменения изначальное оценки соответствующего параметра Т времени создания, как будет описано далее. Тем не менее, подразумевается, что на этапе 540 извлеченное значение времени создания, которое не считается надежным, не может быть назначено как первоначальное значение параметра Т времени создания для соответствующей страницы (целевой страницы).

[0067] В некоторых вариантах осуществления технического решения, на этапе 540, первоначальное значение, назначенное параметру времени создания для целевой страницы, было получено путем воспроизведения извлеченных значений показателей времени создания и/или ставших известными каким-либо иным путем показателей времени создания веб-страниц сети 200 страниц, которые обладают ссылками от/на целевую страницу с неизвестным временем создания. Значение времени создания, которое оценивается путем воспроизведения, упоминается здесь как воспроизведенное значение времени создания.

[0068] В этом примерном сценарии при анализе веб-страницы С в ней не было найдено каких-либо временных выражений, и время создания страницы С не становится известно каким-либо другим путем. Следовательно, страница С является целевой страницей. В этом примерном сценарии на Фиг. 3, целевая страница С обладает двумя исходящими ссылками, LCA и LCB, на страницы А и В соответственно, и двумя входящими ссылками LDC и LFC, со страниц D и F соответственно. Ссылка, для которой целевая страница С является исходной (исходящая ссылка со страницы С), или ссылка, для которой целевая страница С является конечной (входящая ссылка на целевую страницу С) уминаются здесь и далее для удобства как ссылки целевой страницы. В примерном сценарии на Фиг. 3, ссылки LCA, LCB, LFC, и LDC являются ссылками целевой страницы. В этом примерном сценарии, с учетом исходящих ссылок целевой страницы LCA и LCB, где страница В обладает более поздним временем создания, чем страница С, время создания целевой страницы С может быть оценено как не более раннее, чем время создания страницы В. Аналогично, с учетом входящих ссылок LDC и LFC, где страница D обладает самой ранней датой создания из всех конечных страниц, время создания целевой страницы С может быть оценено как не более позднее, чем время создание страницы D. На основе вышеприведенного анализа, время создания страницы С может быть оценено в диапазоне RC между показателями времени создания страниц В и D. В этом примерном варианте осуществления технического решения, время посередине диапазона RC определено как воспроизведенное значение времени создания страницы С, и, соответственно, оно назначается как первоначальное для параметра Тс времени создания на странице 540.

[0069] В общем случае, воспроизведенное значение времени создания является функцией показателей времени создания веб-страниц, связанных с целевой страницей С. Воспроизведенные значения для значений времени создания будут описаны далее более подробно со ссылкой на способ 600.

[0070] Как было упомянуто выше, несмотря на то, что способ 500 описан здесь для удобства с учетом предположения о том, что сеть 200 страниц обладает только одной целевой страницей С с неизвестным временем Тс создания, способ 500 не ограничивается этим предположением. Сеть 200 страниц может обладать более чем одной целевой страницей с неизвестным временем создания.

[0071] Также подразумевается, что для некоторых страниц сети 200 страниц, время создания не может быть извлечено путем анализа веб-страниц, и время создания не может быть получено путем воспроизведения извлеченных и/или известных значений времени создания других связанных веб-страниц. Например, конкретное подмножество взаимосвязанных веб-страниц в сети 200 страниц может не быть связано с любой другой веб-страницей, которая обладает известным и/или извлеченным значением для времени создания.

[0072] В некоторых вариантах осуществления технического решения, для целевой страницы, которая не связана с извлеченным или воспроизведенным значением времени создания, параметр Т времени создания может быть назначен как первоначальное значение на основе других факторов, таких как время первого обновления, время первого посещения веб-страницы пользователем, который получает доступ к вебстранице через сеть 110 передачи данных, и так далее. В некоторых вариантах осуществления технического решения, для страницы, которая не связана с извлеченным или воспроизведенным значением времени создания, параметр Т времени создания может быть назначен как первоначальное значение, которое заранее определяется для сети 200 страниц. Таким образом, на этапе 540, первоначальное значение было назначено параметру Т времени создания, связанному с каждой страницей в сети 200 страниц. Для страниц, связанных с известным временем создания (известных путем текстового анализа или как-либо иначе), первоначальным значением назначается известное время создания. Для целевых страниц, первоначальным значением назначается параметр Т времени создания, который является вычисленным временем создания, полученным путем текстового анализа страницы, воспроизведения других известных/извлеченных значений времени создания, или определенным на основе других факторов. После того, как первоначальное значение было назначено на этапе 540 параметру Т времени создания для каждой страницы в сети 200 страниц, на этапе 560 первоначальные значения параметра Т времени создания целевых страниц уточняются для определения фактического времени создания для каждой целевой страницы. Страницы с известным временем значения упоминаются здесь как опорные страницы, и соответствующие параметры Т времени создания опорных страниц фиксируются на этапе 560.

[0073] На этапе 560 первоначальные значения параметра Т времени создания целевой веб-страницы меняются для максимизации вероятности РсеТи появления сети 200 страниц.

[0074] Как было упомянуто раннее, сеть 200 страниц обладает множеством страниц и множеством связывающих их ссылок. Вероятность Р появления ссылки от исходной страницы в сети 200 страниц на конечную страницу в сети 200 страниц основывается на соответствующих показателях времени создания, т.е. соответствующих параметрах Т времени создания исходной страницы и конечной страницы для ссылки.

[0075] Вероятность Рсети появления всей сети 200 страниц со множеством ссылок на них зависит от соответствующих вероятностей индивидуальных ссылок для каждой ссылки в сети 200 страниц. В примере сети 200 страниц, показанном на Фиг. 3, которая обладает восемью ссылками LCA, LFA, LCB, LEB, LDC, LFA, LFC, и LFE, вероятность Рсети сети страниц представляется собой результат соответствующих восьми индивидуальных вероятностей ссылок PCA, PFA, PCB, PEB, PDC, PFA, PFC, и PFE. Вероятность Рсети сети страниц, следовательно, является функцией параметров Т времени создания всех страниц в сети 200 страниц.

[0076] Эта зависимость вероятности Рсети ото всех показателей времени создания используется для определения неизвестных показателей времени создания целевых страниц в сети 200 страниц.

[0077] В некоторых вариантах осуществления способа 500, предполагается, что вероятность Р для ссылки от исходной страницы к конечной странице зависит от возрастной разницы аисхкон между исходной страницей и конечной страницей, где Тисх - параметр времени создания исходной страницы, Ткон - параметр времени создания конечной страницы, и Тисх относится к более позднему времени, чем Ткон. Например, предположим, что страница С была создана позже, чем страница В, вероятность PCB наличия ссылки со страницы С на страницу В зависит от возрастной разницы аСВ между их соответствующими показателями времени создания, где аСВ=(ТВС).

[0078] В представленном варианте осуществления технического решения, вероятность Р появления ссылки с исходной страницы на конечную страницу находится в обратной экспоненциальной зависимости от возрастной разницы а:

для а>0

[0079] Таким образом, например, вероятность PCB ссылки со страницы С на страницу В пропорциональна . Другими словами, вероятность PCB ссылки со страницы С на страницу В экспоненциально уменьшается в соответствии с возрастной разницей (ТВС). Константа τ является параметром убывания, a Q является параметром качества, который связан с конечной страницей, как будет более подробно описано ниже.

[0080] В некоторых вариантах осуществления технического решения, предполагается, что ссылки начинаются на исходной странице, которая была создана в более поздний момент времени, чем конечная страница ссылки. Таким образом, в этих вариантах осуществления технического решения вероятность Р ссылки считается равной 0 для отрицательной возрастной разницы, т.е. для а<0.

[0081] В некоторых вариантах осуществления технического решения, вероятность ссылки между исходной страницей и конечной страницей пропорциональна

для всех а

[0082] где S является сигмоидной функцией. Предполагается, что зависимость вероятности Р ссылки по сигмоиде S(a) позволяет вероятности ссылки изменяться, и соответственно снижать число операций, выполняемых для максимизации вероятности Рсети.

[0083] В некоторых вариантах осуществления технического решения, сигмоидная функция S представляет собой:

для a≥0; и

для а<0,

[0084] где с является параметром сигмоидной функции. В некоторых вариантах осуществления технического решения, значение параметра с сигмоидной функции известно и заранее определено. В некоторых вариантах осуществления технического решения, определение значения параметра сигмоидной функции будет описано далее.

[0085] Таким образом, в некоторых вариантах осуществления технического решения, вероятность ссылки между исходной страницей и конечной страницей пропорциональна

для а≥0; и

для а<0

[0086] Следует иметь в виду, что сигмоидная функция S(a) или вероятность ссылки Р не ограничивается тем, что описано здесь.

[0087] На этапе 560 значение параметра Т времени создания целевой страницы меняется для определения значения параметра Т времени создания, которое максимизирует вероятность Рсети появления сети 200 страниц.

[0088] На этапе 580 неизвестное время создания целевой веб-страницы в сети 200 страниц определяется путем определения значения параметра Т времени создания для целевой страницы, которое максимизирует вероятность Рсети появления сети 200 страниц.

[0089] В некоторых вариантах осуществления технического решения, на этапе 560 множество различных гипотетических значений времени создания назначаются параметру Т времени создания, и вероятность Рсети сети страниц определяется для каждого из назначенных гипотетических значений, для определения того, какое из гипотетических значений времени создания предоставляет наиболее значение общей вероятности Рсети для сети 200 страниц. Например, в примере сети 200 страниц на Фиг. 3, параметру ТС времени создания для целевой страницы С первоначально назначается значение ТС0, для которого вычисляется вероятность Рсети сети страниц. Параметру ТС времени далее последовательно назначается множество гипотетических значений ТС1, ТС2, и т.д. в диапазоне между показателями времени создания страниц В и D, и вероятность Рсети сети страницы вычисляется для каждого из назначенных гипотетических значений параметров времени создания TC1, ТС2 и т.д., чтобы определить, какое из значений ТС0, ТС1, ТС2 и т.д. соответствует наибольшему значению вероятности Рсети сети страниц.

[0090] Как было упомянуто выше, несмотря на то, что способ 500 описан выше для удобства с учетом предположения о том, что сеть 200 страниц обладает только одной целевой страницей С с неизвестным временем ТС создания, способ 500 не ограничивается этим предположением. Сеть 200 страниц также обладает более чем одной целевой страницей с неизвестным временем создания, и способ 500 может быть использован для одновременного определения неизвестных показателей времени создания для множества веб-страниц сети 200 страницы.

[0091] Когда сеть 200 страниц обладает целевыми страницами, вероятность Рсети сети страниц изменяется как функция для каждого из соответствующих параметров Т времени создания множества целевых страниц. Таким образом, сеть 200 страниц обладает множеством целевых страниц, соответствующие показатели времени создания множества целевых страниц определяются путем идентификации общего максимума вероятности Рсети сети страниц в n-мерном пространстве, где n - число целевых страниц в сети 200 страниц. В этом n-мерном пространстве время создания для каждой целевой страницы соответствует значению соответствующего параметра Т времени создания на общем максимуме вероятности Рсети сети страниц. Таким образом, в некоторых вариантах осуществления технического решения, когда сеть 200 страниц обладает множеством целевых страниц, соответствующие параметры Т времени создания множества целевых страниц изменяются одновременно и соответствующие показатели времени создания множества целевых страниц определяются одновременно.

[0092] В некоторых неограничивающих вариантах осуществления способа 500, алгоритм градиентного спуска используется для определения значения(й) параметра Т времени создания для одной или нескольких целевых страниц, которое(ые) максимизирует(ют) вероятность Рсети сети страниц. В представленном варианте осуществления технического решения, параметр Т времени создания для каждой из целевых страниц изменяется с шагом +1 или -1 день для поиска значения, которое максимизирует вероятность Рсети сети страниц. Следует иметь в виду, что шаг параметра Т времени создания может отличаться от 1 дня, и в общем случае будет зависеть от желаемой точности и конкретности определения неизвестного времени создания, и/или диапазона известных показателей времени создания. Например, если известные показатели времени создания распределены на 5-летнем периоде, шаг, который будет использоваться для параметров Т может быть больше, чем если известные показатели времени создания распределены на 5-месячном периоде. Способ 500, тем не менее, не ограничен никаким конкретным способом определения максимума вероятности Рсети сети страниц, как функции параметра Т времени создания целевой(ых) страниц(ы) для определения фактического времени создания целевой(ых) страниц(ы).

[0093] Также подразумевается, что все страницы в сети 200 страниц могут быть целевыми страницами, время создания которых неизвестно (или известно только приблизительно), и что способ 500 может применяться для определения показателей времени создания целевых страниц. Тем не менее, если ни одна из страниц в сети 200 страниц не обладает известным временем создания, показатели времени создания, которые определяются для всех веб-страниц, могут выходить за рамки данного периода времени в сравнении с их соответствующими фактическими показателями времени создания. Присутствие по меньшей мере одной опорной страницы с известным временем создания, которое фиксируется на этапе 560 для максимизации вероятности Рсети сети страниц, позволяет прикрепить определение неизвестных показателей времени создания к периоду времени, определенному с помощью известного времени создания, и предоставляет более конкретные значения для неизвестных показателей времени создания.

Критерий Остановки

[0094] В некоторых вариантах осуществления алгоритма градиентного спуска, критерий остановки определяется для ограничения числа шагов, за которые параметры Т времени создания изменяются для максимизации вероятности Рсети сети страниц.

[0095] В некоторых вариантах осуществления технического решения, каждый хост связан с соответствующим критерием остановки. Таким образом, критерий остановки определяется для каждого хоста в некоторых вариантах осуществления алгоритма градиентного спуска.

Параметр (τ) убывания

[0096] Как было упомянуто выше, вероятность PCB ссылки со страницы С на страницу В пропорциональна , где τ - параметр убывания конечной страницы. Следовательно, вероятность Рсети сети страниц также зависит от параметра τ убывания для каждой страницы в сети страниц. Параметр τ убывания в общем случае указывает на то, как быстро страница становится устаревшей, или скорость, с которой снижается популярность страницы. Чем больше значение параметра убывания для страницы, тем быстрее устаревает страница. В общем случае, каждая страница обладает своим характеристическим параметром τ убывания. В представленном варианте осуществления технического решения, параметр τ убывания является характеристикой хоста, и, следовательно, все страницы, размещенные на конкретном хосте, связаны с одним и тем же параметром τ убывания. В примерном сценарии, показанном на Фиг. 3, поскольку все страницы A-F сети 200 страниц принадлежат одному хосту, параметр убывания является одинаковым для всех страниц. Далее подразумевается, что параметр убывания может быть характеристикой группы хостов или конкретной сети страниц, например, сети 200 страниц.

[0097] В некоторых вариантах осуществления технического решения, параметр τ убывания определяется заранее. Например, параметр убывания может представлять собой заранее определенное значение, которое заранее определяется для всех страниц конкретного хоста.

[0098] В некоторых вариантах осуществления технического решения, параметр τ убывания определяется в момент выполнения способа 500. В некоторых вариантах осуществления технического решения, параметр τ убывания определяется с помощью страниц сети 200 страниц, которые обладают известным временем создания. В представленном варианте осуществления способа 500, ссылки между страницами в сети 200 страниц, которые обладают известным временем создания, сгруппированы следующим образом: для данного целого i, число xi ссылок между страницами, обладающим возрастной разницей между (i-1) и i дней сводится в таблицу и размечается на логарифмической шкале xi как функция от i. Параметр τ убывания далее получают из наклона линии на логарифмической шкале от (i, log xi). Тем не менее, подразумевается, что параметр τ убывания может быть определен с помощью других способов.

Параметр Качества

[0099] В некоторых вариантах осуществления технического решения, каждая из страниц А, В, С, D, Е и F обладает соответствующим параметром качества QA, QB, QC, QD, QE и QF.

[00100] В некоторых неограничивающих вариантах осуществления технического решения, вероятность Р ссылки для каждой ссылки L также основана на параметре Q качества конечной страницы ссылки L, в дополнение к возрастной разнице а между начальной страницей и конечной страницей.

[00101] Параметр Q качества страницы указывает на ее полезность или популярность. Страница, которая включает в себя информацию, которая является полезной или интересной для большого числа пользователей, обладает более высоким параметром качества, чем страница, которая включает в себя информацию, которая является менее полезной или интересной для меньшего числа пользователей. Таким образом, в общем случае, страница, которая обладает более высоким параметром качества, обладает более высоким числом входящих ссылок, чем страница, которая обладает более низким параметром качества. В некоторых неограничивающих вариантах осуществления технического решения, значение параметра качества для страницы определяется на основе числа входящих ссылок страницы.

[00102] Тем не менее, подразумевается, что в дополнении к использованию числа входящих ссылок или вместо использования числа входящих ссылок, параметр Q качества также может быть основан на другом критерии, например, среди прочего, числе просмотров страницы.

[00103] Например, страница, которая обладает информацией о рок-группе Beatles, будет обладать более высоким параметром качества и большим числом входящих ссылок, чем страница, обладающая информацией о местных выборах в Венгрии.

[00104] Параметр качества для страницы также может зависеть от других факторов, например, популярности хоста, на котором размещена страница. В некоторых вариантах осуществления технического решения, параметр Q качества определяется заранее на основе параметра Qхост качества соответствующего хоста, на котором размещена страница. В некоторых вариантах осуществления технического решения, все страницы, размещенные на конкретном хосте, могут обладать одним и тем же параметром Q качества.

[00105] В некоторых неограничивающих вариантах осуществления технического решения, вероятность ссылки для появления ссылки с исходной страницы на конечную страницу является функцией фактора Q качества конечной страницы.

[00106] В некоторых неограничивающих вариантах осуществления технического решения, вероятность ссылки для появления ссылки с исходной страницы на конечную страницу пропорциональна фактору Q качества конечной страницы в дополние к тому, что она является функцией возрастной разницы а между исходящей и конечной страницами.

[00107] В некоторых дополнительных вариантах осуществления технического решения, вероятность Р появления ссылки с исходной страницы на конечную страницу пропорциональна параметру Q качества и находится в обратной экспоненциальной зависимости от возрастной разницы а: Таким образом, как упоминалось ранее, в некоторых вариантах осуществления технического решения .

[00108] В некоторых вариантах осуществления технического решения, параметр Q качества определен заранее и известны одна или несколько страниц сети 200 страниц.

[00109] В некоторых вариантах осуществления технического решения, параметр Q качества для одной или нескольких страниц сети 200 страниц является неизвестным и, следовательно, определяется при выполнении способа 500. Поскольку вероятность Р для каждой ссылки является функцией параметра Q качества конечной страницы ссылки, вероятность сети страниц Рсеть является функцией параметра Q качества каждой из страниц сети 200 страниц.,

[00110] Отношение между вероятностью ссылки Р и параметром Q качества также может быть использовано для определения параметра качества для одной или нескольких страниц сети 200 страниц. В общем случае, фактический параметр качества для страниц является тем, который максимизирует вероятность Рсети сети страниц.

[00111] В некоторых вариантах осуществления технического решения, параметр Q качества, связанный с каждой страницей в сети 200 страниц, является неизвестным, и все неизвестные параметры Q качества определяются в момент выполнения способа 500. В некоторых неограничивающих вариантах осуществления технического решения, гипотетическое первоначальное значение назначается параметру Q качества для каждой страницы сети 200 страниц. Например, первоначальное значение параметра Q качества для страницы может быть назначено первоначально на основе числа входящих ссылок страницы. Подразумевается, что первоначальное значение параметра Q качества может быть назначено на основе критерия, отличного от числа входящих ссылок. Вероятность Рсети сети страниц далее определяется на основе первоначальных значений, которые предполагаются для параметра Q качества для каждой из страниц сети 200 страниц. Значение параметра(ов) Q качества одной или нескольких страниц далее может быть настроено для максимизирования вероятности Рсети сети страниц. Фактическое значение параметра Q качества соответствует значению, которое максимизирует вероятность Рсети сети страниц. Как было описано выше для определения времени создания множества целевых страниц, если существует множество страниц с неизвестными параметрами Q качества, неизвестные параметры Q качества изменяются одновременно для одновременного определения их фактических значений.

[00112] Как было описано выше для определения времени создания, значение параметра качества, основанное на максимуме функции вероятности Рсети сети страниц, может быть определено с помощью способа, например, способа градиентного спуска. Способ 500, тем не менее, не ограничивается каким-либо конкретным способом определения значения параметра Q качества для одной или нескольких страниц, которые максимизируют вероятность Рсети сети страниц.

[00113] В неограничивающем варианте осуществления технического решения, параметры времени создания для всех страниц, которые обладают неизвестными показателями времени создания (целевых страниц), и параметр Q качества для всех страниц, которые обладают неизвестными параметрами Q качества, определяется одновременно путем изменения их соответствующих значений для максимизирования вероятности Рсети сети страниц. Тем не менее, подразумевается, что параметр Q качества для некоторых страниц может быть определен отдельно от показателей времени создания некоторых страниц.

Дополнительные параметры

[00114] Следует иметь в виду, что вероятность Рсети сети страниц может зависеть от других параметров в дополнение к показателю времени Т создания, параметра τ убывания и параметра Q качества для каждой страницы сети 200 страниц. Подразумевается, что некоторые из дополнительных параметров могут обладать известными значениями или значениями, которые могут быть определены вне способа 500. Также подразумевается, что значения некоторых дополнительных параметров могут быть определены во время выполнения способа 500. Например, в конкретном варианте осуществления технического решения (описано выше), где вероятность ссылки определяется как:

для a≥0; и

для a<0

[00115] Значение параметра с сигмоидной функции может быть определено в способе 500. Первоначальное значение может быть назначено сигмоидной функцией с на этапе 540 и на этапе 560, значение с может изменяться для максимизирования вероятности Рсети сети страниц, оптимальное значение сигмоидной функции с является значением, которое максимизирует вероятность Рсети сети страниц.

[00116] В некоторых вариантах осуществления технического решения, значение параметра с сигмоидной функции определяется одновременно с неизвестными показателями времени создания целевых страниц в сети 200 страниц и/или с неизвестными параметрами Q качества страниц сети 200 страниц. В некоторых вариантах осуществления технического решения, значение параметра сигмоидной функции определяется отдельно от неизвестных показателей времени создания целевых страниц в сети 200 страниц и/или неизвестных параметров Q качества страниц сети 200 страниц.

Представление чисел

[00117] В некоторых вариантах осуществления технического решения, где вероятность Р ссылки является экспоненциальной функцией одного или нескольких параметров, например, возрастной разницы а, параметра сигмодиной функции с, вычисление вероятности Рсети включает в себя вычисление сумм нескольких экспонент. Точное вычисление сумм экспонент иногда требует представления экспонент в виде чисел четверной точности. Как известно, процессоры, которые могут вместить большие числа с высокими показателями точности, являются физически большими, дорогими и потребляют больше мощности, чем процессоры, которые созданы для меньших показателей точности.

[00118] В некоторых вариантах осуществления способа 500, каждое число R представлено как два числа X и Y, таким образом

R=XeY

[00119] Путем представления числа R как XeY, вычисление сумм экспонент может быть выполнено точно без сохранения каждого числа в процессоре в виде чисел четверной точности, что позволяет снизить физический размер, стоимость и потребление энергии процессором сервера 120 поисковой системы, которая реализует способ 500.

Способ Назначения Первоначальных Значений Параметру Времени Создания

[00120] Точность показателей времени создания определяется с помощью способа 500, и количество времени и ресурсов (числа операций, этапов итераций для изменения параметров Т времени создания одной или нескольких страниц), которые требуются для определения фактических показателей времени создания, зависит от первоначальных значений, назначенных параметрам времени создания страниц в сети 200 страниц. Способ 600 назначения первоначальных значений параметрам Т времени создания всех веб-страниц в сети 200 страниц будет описан далее. Способ 600 выполняется как часть этапа 540 в некоторых вариантах осуществления способа 500, который был описан выше. Способ 600 выполняется сервером, например, сервером 120 поисковой системы, который выполняет способ 500.

[00121] На этапе 610, для каждой страницы, которая связана с известным временем создания, соответствующее известное время создания назначается как первоначальное значение параметра Т времени создания страницы. Как было упомянуто выше, некоторые из веб-страниц в сети 200 страниц могут обладать известным временем создания, причем время создания известно до начала способа 500 определения неизвестных показателей времени создания одной или нескольких страниц, например, из предыдущего анализа другой сети страниц, которая включает в себя рассматриваемую веб-страницу.

[00122] На этапе 540, одна или несколько страниц сети 200 страниц анализируются для извлечения из нее временных выражений. В некоторых вариантах осуществления технического решения, анализируются все страницы сети страниц. В некоторых вариантах осуществления технического решения, анализируется только подмножество страниц сети 200 страниц. Например, в некоторых вариантах осуществления технического решения, веб-страницы, для которых время создания уже известно, могут не анализироваться для извлечения из них показателей времени создания.

[00123] Как было упомянуто выше, текстовый анализ веб-страницы включает в себя анализ URL и исходного кода документа (например, HTML документа, связанного с веб-страницей. Текстовый анализ веб-страницы выполняется с помощью различных способов, например, машинное обучение, анализ шаблонов, сегментация HTML, и другие способы извлечения временных выражений из различных мест страницы (например, URL, HTML метаданные и отображаемое содержимое веб-страницы).

[00124] На этапе 630, для каждой проанализированной страницы, которая обладает временным выражением в URL и/или исходном коде документа, извлеченное значение времени создания было получено из извлеченного временного выражения.

[00125] В некоторых вариантах осуществления технического решения, URL и HTML документа, связанные с веб-страницей, включают в себя множество временных выражений. Следовательно, в некоторых вариантах осуществления технического решения, путем анализа веб-страницы множество возможных значений времени создания извлекаются из URL и HTML документа, связанного с веб-страницей. Множество возможных значений времени создания анализируются для отбрасывания заведомо неверных показателей времени, например тех, которые относятся к будущим датам или датам из отдаленного прошлого. Извлеченное значение времени создания, связанное со страницей, далее выбирается как одно из оставшихся возможных значений времени создания или как функция одного или нескольких оставшихся возможных значений времени создания. Например, назначенное первоначальное значение может быть наиболее ранним из оставшихся извлеченных значений.

[00126] В некоторых вариантах осуществления технического решения, рассматривается надежность извлеченного значения времени создания. Если извлеченное значение считается надежным, время создания для этой страницы считается известным, и первоначальное значение назначается параметру Т времени создания для этой страницы и далее фиксируется для анализа этапа 560 способа 500 выше. Если извлеченное значение не считается надежным, время создания для этой веб-страницы считается неизвестным, веб-страница считается целевой страницей для целей способа 500, который описан выше, и, таким образом, первоначальное значение назначается параметру Т времени создания для этой страницы меняется для анализа на этапе 560, как было описано выше.

[00127] В некоторых вариантах осуществления технического решения, надежность извлеченного значения определяется на основе места, из которого было извлечено временное выражение, содержащее извлеченное значение.

[00128] В некоторых вариантах осуществления технического решения, извлеченное значение времени создания, которое было извлечено из URL, считается надежным индикатором фактического времени создания веб-страницы, и извлеченное значение времени создания, которое было получено из URL, считается фактическим временем создания веб-страницы. Таким образом, время создания веб-страницы, связанное с извлеченным значением времени создания, извлеченное из URL, считается известным.

[00129] В некоторых вариантах осуществления технического решения, извлеченное значение времени создания, которое было извлечено из URL, считается более надежным индикатором фактического времени создания веб-страницы, чем извлеченное значение времени создания, которое было извлечено из HTML документа.

[00130] В некоторых вариантах осуществления технического решения, извлеченное значение времени создания, которое было извлечено путем анализа HTML документа, считается надежным на основе того, откуда из HTML документа было извлечено временное выражение, содержащее извлеченное значение. Как известно, HTML документ состоит из различных частей. HTML документ включает в себя тело, которое относится к основному содержимому, представленному пользователю (на пользовательском устройстве вывода), когда пользователь получает доступ к вебстранице. HTML документ также включает в себя метаданные, включая информацию, относящуюся к HTML документу, например, описание документа, автор, заголовок, ключевые слова, время последнего изменения и так далее. Метаданные могут подвергаться анализу (парсингу) машиной для дальнейшего использования браузерным приложением, приложением поисковой системы и так далее, но не отображаются пользователю (на пользовательском устройстве вывода), когда пользователь получает доступ к веб-странице. Метаданные в HTML документе могут быть расположены над HTML телом, под ним или в обоих местах. В некоторых вариантах осуществления технического решения, извлеченное значение времени создания считается фактическим временем создания веб-страниц на основе места, откуда было извлечено значение. Например, веб-страница, связанная с извлеченным значением времени создания, которое было извлечено из даты, находящейся в метаданных, может считаться обладающей известным временем создания, а страница, связанная с извлеченным значением времени создания, которое было извлечено из даты, находящейся в HTML теле, может считаться обладающей неизвестным временем создания.

[00131] В некоторых вариантах осуществления технического решения, извлеченное значение времени создания, которое было извлечено из части HTML документа над HTML телом, считается надежным индикатором фактического времени создания веб-страницы и, следовательно, считается фактическим временем создания веб-страницы. Таким образом, время создания веб-страницы, связанное с извлеченным значением времени создания, извлеченное из части HTML документа над HTML телом, считается известным.

[00132] В некоторых вариантах осуществления технического решения, извлеченное значение времени создания, которое было извлечено из HTML документа, считается надежным индикатором фактического времени создания веб-страницы, если оно было извлечено из заголовка. Таким образом, время создания веб-страницы, связанное с извлеченным значением времени создания, извлеченное из заголовка HTML документа, считается известным.

[00133] В некоторых вариантах осуществления технического решения, различные места веб-страницы ранжируются как показано ниже по степени надежности показателя времени создания, которое было извлечено из них:

[00134] (1) URL страницы;

[00135] (2) Заголовок страницы HTML документа;

[00136] (3) часть HTML документа над HTML телом и отличная от заголовка;

[00137] (4) часть HTML документа под HTML телом и отличная от заголовка;

[00138] (5) HTML тело в HTML документе.

[00139] В контексте вышесказанного, термин «HTML тело» относится к части HTML документа, которая относится к главному содержимому веб-страницы, т.е. содержимому, которое представлено пользователю устройства вывода, когда пользователь получает доступ к веб-странице. Например, HTML тело относится к части HTML документа между тегами «<body>» и «</body>».

[00140] Заголовок относится к заголовку веб-страницы, который отображается на веб-странице, обычно наверху окна браузера, когда пользователь получает доступ к вебстранице. Например, заголовок определяется текстом между тегами «<title>» и «</title>».

[00141] Следует иметь в виду, что, несмотря на то, что представленное описание описывает исходный код веб-страницы как «HTML документ», объем настоящего технического решения не ограничивается исходным HTML кодом.

[00142] В конкретном варианте осуществления технического решения, представленном выше, время создания, которое извлекается из любого из мест (1), (2) и (3), считается фактическим временем создания и, соответственно, веб-страница считается обладающей известным временем создания, если время создания может быть извлечено из URL, заголовка или любой другой части HTML документа над HTML телом.

[00143] В некоторых вариантах осуществления технического решения, страница анализируется для ранжирования (1)-(5) для нахождения временного выражения. Таким образом, сначала URL страницы рассматривается для поиска временного выражения, далее - заголовок HTML документа, и так далее. В некоторых вариантах осуществления технического решения, анализ страницы для ранжирования (1)-(5), упомянутый выше, останавливается в момент нахождения временного выражения.

[00144] Подразумевается, что ранжирование мест в соответствии с надежностью извлеченных из них показателей времени создания, может отличаться от того, что представлено выше, или же другие места веб-страницы могут быть рассмотрены для извлечения показателей времени создания.

[00145] Таким образом, суммируя все вышесказанное, на этапе 630, в результате текстового анализа веб-страницы (ее URL и HTML документа), как описано выше, возможные значения времени создания (извлеченные значения) извлекаются для некоторых страниц в сети 200 страниц. В некоторых вариантах осуществления технического решения, некоторые из извлеченных значений считаются надежными и, следовательно, известными показателями времени создания, а оставшиеся извлеченные значения считаются неизвестными показателями времени создания, которые необходимо проверить для целей способа 500.

[00146] На этапе 640, для каждой страницы, которая связана с извлеченным значением времени создания, соответствующее извлеченное время создания назначается как первоначальное значение параметра Т времени создания соответствующей веб-страницы.

[00147] В представленном варианте осуществления технического решения, на этапе 640, для любой страницы, связанном с извлеченным значением времени создания, извлеченное значение назначается как первоначальное значение параметра Т времени создания для соответствующей страницы, вне зависимости от того является ли извлеченное значение надежным. Тем не менее, подразумевается, что на этапе 540 извлеченное значение времени создания, которое не считается надежным, не может быть назначено как первоначальное значение параметра Т времени создания для соответствующей страницы (целевой страницы).

[00148] Таким образом, в общем случае, к концу этапа 630 сеть 200 страниц может обладать одной или несколькими страницами с известными и/или извлеченными значениями времени создания. Веб-страницы, которые обладают известными и/или извлеченными значениями времени создания, упоминаются здесь для удобства как датированные страницы. Веб-страница, для которой не была извлечена информация о времени создания путем текстового анализа веб-страницы, и для которой время создания не может стать известным каким-либо другим путем, упоминается здесь для удобства как недатированная страница.

[00149] Если все веб-страницы в сети 200 страниц являются датированными страницами после выполнения этапа 630, способ 600 заканчивается после выполнения этапа 640.

[00150] Если в сети 200 страниц остаются недатированным страницы после выполнения этапа 630, и если какая-либо из оставшихся недатированных страниц обладает ссылками, ведущими с/на нее, выполняется этап 650 способа 600 для оценки показателей времени создания для недатированных страниц.

Воспроизведение Времени Создания

[00151] На этапе 650 время создания оценивается для любой недатированной страницы в сети 200 страниц, которая связана с датированной страницей посредством цепи ссылок, включающую в себя одну или несколько ссылок.

[00152] Если недатированная страница обладает исходящей ссылкой на датированную страница или входящей ссылкой с датированной страницы, недатированная страница связывается с датированной страницей с помощью одиночной цепи ссылок, и недатированная страница находится на первом уровне разделения от датированной страницы. Все датированные страницы, которые обладают ссылкой с другой недатированной страницы или на нее, обладающей ссылкой с датированной страницы или на нее, связаны с датированной страницей путем двойной цепи ссылок и считаются находящимися на втором уровне разделения от датированной страницы. Как будет понятно, недатированная веб-страница может быть связана с датированной страницей с помощью цепи ссылок, содержащей любое число ссылок, число ссылок в цепи определяет уровень разделения между недатированной страницей и датированной страницей.

[00153] На этапе 650, воспроизведение времени создания используется для оценки времени создания недатированной страницы путем воспроизведения времени создания датированной страницы с помощью цепи страниц, соединяющей датированную и недатированную страницы. Время создания, которое оценивается путем воспроизведения известных и/или извлеченных значений показателей времени создания одной или нескольких датированных страниц, упоминается здесь как воспроизведенное значение времени создания.

[00154] Воспроизведенные значения времени создания могут быть получены путем воспроизведения известных и/или извлеченных значений за одну итерацию или несколько итераций, как будет описано далее.

[00155] В первой итерации воспроизведения времени создания, показатели времени создания оцениваются для недатированных веб-страниц на первом уровне разделения от датированной страницы. Для каждой недатированной страницы на первом уровне разделения по меньшей мере от одной датированной веб-страницы, воспроизведенное значение времени создания является функцией соответствующих известных и/или извлеченных значений времени создания одной или нескольких датированных веб-страниц, связанных с помощью исходящей/входящей ссылки.

[00156] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания недатированной страницы находится между последним показателем времени создания датированных веб-страниц, обладающих входящей ссылкой с недатированной веб-страницы, и наиболее ранним показателем времени создания датированных веб-страниц, обладающих исходящей ссылкой на недатированную страницу.

[00157] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа среднего воспроизведения, в котором воспроизведенное значение является средним из известных и/или извлеченных значений времени создания всех датированных веб-страниц, обладающих входящей ссылкой с недатированной вебстраницы или исходящей ссылкой на недатированную веб-страницу.

[00158] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа среднего входящего воспроизведения, в котором воспроизведенное значение является средним из известных и/или извлеченных значений времени создания всех датированных веб-страниц, с которых имеется входящая ссылка на недатированную веб-страницу.

[00159] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа среднего ссылающегося воспроизведения, в котором воспроизведенное значение является средним из известных и/или извлеченных значений времени создания всех датированных веб-страниц, на которые ведет исходящая ссылка с недатированной веб-страницы.

[00160] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа медианного воспроизведения, в котором воспроизведенное значение является медианным из известных и/или извлеченных значений времени создания всех датированных веб-страниц, обладающих входящей ссылкой с датированной веб-страницы или исходящей ссылкой на датированную веб-страницу.

[00161] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа медианного входящего воспроизведения, в котором воспроизведенное значение является медианным из известных и/или извлеченных значений времени создания всех датированных веб-страниц, с которых имеется входящая ссылка на недатированную веб-страницу.

[00162] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы получено с помощью способа медианного ссылающегося воспроизведения, в котором воспроизведенное значение является медианным из известных и/или извлеченных значений времени создания всех датированных веб-страниц, на которые ведет исходящая ссылка с недатированной веб-страницы.

[00163] В некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы было получено на основе способа q-квантильного воспроизведения. Предполагается, что квантиль q является некоторым значением между 0 и 1 включительно, 0≤q≤1, и воспроизведенное значение времени создания выбирается посередине между q-квантилью известных и/или извлеченных значений времени создания всех датированных веб-страниц, от которых на недатированную страницу ведет входящая ссылка, и (1-q)-квантилью известных и/или извлеченных значений времени создания всех датированных веб-страниц, на которые с недатированной страницы ведет исходящая ссылка.

[00164] Воспроизведенное значение времени создания, которое было получено описанным выше способом, для недатированной страницы находится на первом уровне разделения от датированной страницы, путем воспроизведения за одну итерацию известных и/или извлеченных значений времени создания датированных веб-страниц, упоминается здесь как воспроизведенное значение первого порядка. Для данной недатированной страниц, обладающей ссылкой от/на одну или несколько недатировнных страниц, которые обладают воспроизведенным значением первого порядка (т.е. находятся на втором уровне разделения от датированной страницы), воспроизведенное значение времени создания является функцией от соответствующих воспроизведенных значений времени создания первого порядка тех недатированных веб-страниц, которые обладают ссылкой от/на данную недатированную веб-страницу. Например, в некоторых вариантах осуществления технического решения, воспроизведенное значение времени создания для данной недатированной веб-страницы является средним из воспроизведенным значений первого порядка всех недатированных веб-страниц, которые обладают воспроизведенным значением первого порядка, и которые обладают входящей ссылкой с недатированной веб-страницы или исходящей ссылкой на недатированную веб-страницу.

[00165] Воспроизведенное значение времени создания недатированной веб-страницы, которое получено путем воспроизведения воспроизведенных значений времени создания первого порядка, упоминается здесь как воспроизведенное значение второго порядка. Таким образом, все недатированные веб-страницы на втором уровне разделения по меньшей мере от одной датированной страницы, являются связанными с воспроизведенным значением времени создания второго порядка.

[00166] Воспроизведенное значение времени создания второго порядка может быть получено от одного или нескольких воспроизведенных значений первого порядка с помощью любого из способов, упомянутых выше, такого как входящее воспроизведение, ссылающееся воспроизведение, среднее воспроизведение, медианное воспроизведение, q-квантильное воспроизведение, и так далее для получения воспроизведенного значения первого порядка.

[00167] В общем случае, после первой итерации воспроизведения, на каждой последующей итерации воспроизведения, воспроизведенное значение времени создания получают путем взятия функции от одного или нескольких воспроизведенных значений времени создания, которые были получены на предыдущих итерациях воспроизведения.

[00168] Воспроизведение показателей времени создания заканчивается либо когда не остается недатированных веб-страниц, либо когда нет других недатированных веб-страниц, которые связаны с датированной веб-страницей с помощью цепи ссылок. По завершении воспроизведения времени создания, все недатированные веб-страницы, которые связаны с датированной веб-страницей любым уровнем разделения, обладают воспроизведенным значением времени создания.

[00169] По окончании этапа 650, каждая недатированная веб-страница на любом уровне разделения от датированной веб-страницы обладает соответствующим воспроизведенным значением времени создания.

[00170] На этапе 660, для каждой недатированной веб-страницы на любом уровне разделения от датированной веб-страницы, соответствующее воспроизведенное значение времени создания, связанное с недатированной веб-страницей, назначается как первоначальное значение для соответствующего параметра Т времени создания.

[00171] Как было упомянуто выше, воспроизведенное значение времени создания не может быть получено для некоторых недатированных веб-страниц, поскольку они не связаны с датированной страницей цепью ссылок.

[00172] На этапе 670 первоначальное значение назначается параметру Т времени создания для любой веб-страницы, которая не обладает известным временем создания, извлеченным значением времени создания или воспроизведенным значением времени создания. В некоторых вариантах осуществления технического решения, первоначальное значение времени создания, которое назначается недатированной веб-странице без воспроизведенного времени создания, основано на других факторах, например, времени первого визита на веб-страницу, времени первого просмотра поисковым роботом и так далее. В некоторых вариантах осуществления технического решения, для недатированной страницы, которая не связана с извлеченным или воспроизведенным значением времени создания, параметр Т времени создания назначается как первоначальное значение, которое заранее определяется для сети 200 страниц.

[00173] Таким образом, на этапе 670, первоначальное значение было назначено параметру Т времени создания каждой страницей в сети 200 страниц.

[00174] Следует иметь в виду, что способы 500, 600, описанные выше, не ограничиваются только определением времени создания веб-страниц, но также могут быть использованы для определения времени создания других типов веб-ресурсов, например, фотографий, видео, музыки и так далее с помощью ссылочной структуры, с помощью которой данный веб-ресурс связан с другими веб-страницами и/или веб-ресурсами.

[00175] Способ 500,600, описанный выше, путем предоставления дополнительной или более точной информации в отношении времени создания веб-страниц, позволяет поставщикам сервиса, например, поисковой системы и тому подобного, предоставить более релевантные результаты поиска пользователям. Пользователям веб-ресурсов и веб-сервисов, следовательно, будет предоставлен улучшенный опыт просмотра веб-страниц с большей эффективностью использования собственного времени и большим числом доступных сетевых ресурсов. Способ 500, 600, описанный выше, также полезен для поставщиков сервиса, например, поисковой системы, поисковых роботов и сервисов-хостов, поскольку позволяет более эффективно распределять сетевые и аппаратные ресурсы.

[00176] Пункт 1. Способ (500, 600) определения времени создания множества целевых страниц, способ выполняется на сервере (120), соединенном с сетью (110) передачи данных, способ (500, 600) включает в себя:

[00177] создание (520) сети (200) страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

[00178] каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

[00179] каждая страница из множества страниц обладает соответствующим временем создания,

[00180] время создания для каждой страницы является либо известным либо неизвестным,

[00181] время создания каждой целевой страницы из множества целевых страниц является неизвестным,

[00182] каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

[00183] для любой страницы, которая обладает соответствующим временем создания, назначение (610) соответствующего известного времени создания как первоначального значения параметра Т времени создания соответствующей страницы;

[00184] анализ (620) по меньшей мере одной страницы без известного времени создания для нахождения в ней временного выражения;

[00185] извлечение (630) значения для времени создания страницы, которое соответствует найденному временному выражению в соответствующей странице, значение, которое извлекается для времени создания соответствующей страницы, является извлеченным значением времени создания;

[00186] для любой страницы, которая обладает соответствующим извлеченным значением времени создания, назначение (640) соответствующего извлеченного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

[00187] воспроизведение (650), за множество итераций, известных показателей времени создания и извлеченных значений времени создания для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания, и связанной с помощью цепи ссылок, которая включает одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известным временем создания;

[00188] для любой страницы, которая обладает воспроизведенным значением времени создания, назначение (660) воспроизведенного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

[00189] для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, назначение (670) заранее определенного значения как первоначального значения параметра Т времени создания соответствующей страницы.

[00190] одновременное изменение (560) первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц,

[00191] вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей; и

[00192] определение (580) соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[00193] Пункт 2. Сервер (120) функционально соединен с пользовательским электронным устройством (102) и по меньшей мере одним хостом (130, 132) через сеть (110) передачи данных, по меньшей мере один хост (130, 132) размещает множество страниц, сервер (120) включает в себя модуль обработки, который выполнен с возможностью осуществлять:

[00194] создание (510) сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

[00195] каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

[00196] каждая страница из множества страниц обладает соответствующим временем создания,

[00197] время создания для каждой страницы является либо известным либо неизвестным,

[00198] время создания каждой целевой страницы из множества целевых страниц является неизвестным,

[00199] каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

[00200] для любой страницы, которая обладает соответствующим временем создания, назначение (610) соответствующего известного времени создания как первоначального значения параметра Т времени создания соответствующей страницы;

[00201] анализ (620) по меньшей мере одной страницы без известного времени создания для нахождения в ней временного выражения;

[00202] извлечение (630) значения для времени создания страницы, которое соответствует найденному временному выражению в соответствующей странице, значение, которое извлекается для времени создания соответствующей страницы, является извлеченным значением времени создания;

[00203] для любой страницы, которая обладает соответствующим извлеченным значением времени создания, назначение (640) соответствующего извлеченного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

[00204] воспроизведение (650), за множество итераций, известных показателей времени создания и извлеченных значений времени создания для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания, и связанной с помощью цепи ссылок, которая включает одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известным временем создания;

[00205] для любой страницы, которая обладает воспроизведенным значением времени создания, назначение (660) воспроизведенного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

[00206] для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, назначение (670) заранее определенного значения как первоначального значения параметра Т времени создания соответствующей страницы.

[00207] одновременное изменение (560) первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц,

[00208] вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей; и

[00209] определение (580) соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[00210] Пункт 3. Способ (500) определения времени создания множества целевых страниц, способ выполняется на сервере (120), соединенном с сетью (110) передачи данных, способ (500) включает в себя:

[00211] создание (520) сети (200) страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

[00212] каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

[00213] каждая страница из множества страниц обладает соответствующим временем создания,

[00214] время создания для каждой страницы является либо известным либо неизвестным,

[00215] время создания каждой целевой страницы из множества целевых страниц является неизвестным,

[00216] каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

[00217] назначение (540) первоначального значения параметру Т времени создания для каждой страницы в сети страниц,

[00218] первоначальное значение, которое назначается параметру Т времени создания для любой страниц, которая обладает известным временем создания, является соответствующим известным временем созданием;

[00219] одновременное изменение (560) первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц с использованием способа градиентного спуска,

[00220] вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей;

[00221] применение критерия остановки для способа градиентного спуска на основе хоста (130, 132) множества страниц из сети (200) страниц; и

[00222] определение (580) соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[00223] Пункт 4. Сервер (120) функционально соединен с пользовательским электронным устройством (102) и по меньшей мере одним хостом (130, 132) через сеть (110) передачи данных, по меньшей мере один хост (130, 132) размещает множество страниц, сервер (120) включает в себя модуль обработки, который выполнен с возможностью осуществлять:

[00224] создание (520) сети (200) страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

[00225] каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

[00226] каждая страница из множества страниц обладает соответствующим временем создания,

[00227] время создания для каждой страницы является либо известным либо неизвестным,

[00228] время создания каждой целевой страницы из множества целевых страниц является неизвестным,

[00229] каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

[00230] назначение (540) первоначального значения параметру Т времени создания для каждой страницы в сети страниц,

[00231] первоначальное значение, которое назначается параметру Т времени создания для любой страниц, которая обладает известным временем создания, является соответствующим известным временем созданием;

[00232] одновременное изменение (560) первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц с использованием способа градиентного спуска,

[00233] вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана, по меньшей мере частично, на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу между исходной страницей и конечной страницей;

[00234] применение критерия остановки для способа градиентного спуска на основе хоста (130, 132) множества страниц из сети (200) страниц; и

[00235] определение соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц таким образом, чтобы представлять собой соответствующее значение параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

[00236] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.

Похожие патенты RU2651424C2

название год авторы номер документа
УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ВРЕМЕНИ СОЗДАНИЯ ВЕБ-РЕСУРСА 2014
  • Остроумова Людмила Александровна
  • Самосват Егор Александрович
  • Прохоренков Петр Владиславович
RU2577479C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫБОРА СЕТЕВОГО РЕСУРСА В КАЧЕСТВЕ ИСТОЧНИКА СОДЕРЖИМОГО ДЛЯ СИСТЕМЫ РЕКОМЕНДАЦИЙ 2016
  • Ламбурт Виктор Григорьевич
  • Лифарь Игорь Игоревич
RU2636702C1
Способ и сервер прогнозирования популярности элемента содержимого 2015
  • Гусев Глеб Геннадьевич
  • Друца Алексей Валерьевич
  • Сердюков Павел Викторович
RU2635905C2
СПОСОБ И УСТРОЙСТВО ДЛЯ СОЗДАНИЯ РЕКОМЕНДАЦИЙ СОДЕРЖИМОГО В СИСТЕМЕ РЕКОМЕНДАЦИЙ 2016
  • Тихонов Алексей Викторович
RU2632132C1
СПОСОБ ПРОВЕРКИ ВЕБ-СТРАНИЦ НА СОДЕРЖАНИЕ В НИХ ЦЕЛЕВОГО АУДИО И/ИЛИ ВИДЕО (AV) КОНТЕНТА РЕАЛЬНОГО ВРЕМЕНИ 2013
  • Орел Денис Олегович
  • Фомичев Алексей Николаевич
RU2530671C1
ГЛУБИННЫЕ ССЫЛКИ ДЛЯ НАТИВНЫХ ПРИЛОЖЕНИЙ 2015
  • Чанг, Лоуренс
  • Сюй, Хой
RU2774319C2
СПОСОБ ОПРЕДЕЛЕНИЯ МЕДИА ПОТОКОВ, ВЕЩАНИЕ КОТОРЫХ ОСУЩЕСТВЛЯЕТСЯ В МАСШТАБЕ РЕАЛЬНОГО ВРЕМЕНИ, И СИСТЕМА ДЛЯ РЕАЛИЗАЦИИ СПОСОБА 2013
  • Орел Денис Олегович
  • Фомичев Алексей Николаевич
RU2549102C2
ГЛУБИННЫЕ ССЫЛКИ ДЛЯ НАТИВНЫХ ПРИЛОЖЕНИЙ 2015
  • Чанг Лоуренс
  • Сюй Хой
RU2668726C2
Способ и сервер для передачи персонализированного сообщения на пользовательское электронное устройство 2017
  • Дьяченко Юрий Игоревич
  • Кузьмин Михаил Николаевич
  • Чернилевский Денис Александрович
  • Шаблинский Евгений Александрович
RU2739720C2
СПОСОБ, ЭЛЕКТРОННОЕ УСТРОЙСТВО И СЕРВЕР ОРГАНИЗАЦИИ ИСТОРИИ БРАУЗЕРА 2015
  • Романенко Федор Сергеевич
  • Стыскин Андрей Игоревич
RU2640299C2

Иллюстрации к изобретению RU 2 651 424 C2

Реферат патента 2018 года СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ВРЕМЕНИ СОЗДАНИЯ ВЕБ-РЕСУРСА

Изобретение относится к определению времени создания веб-ресурсов. Технический результат – повышение точности определения времени создания веб-ресурсов. Способ определения времени создания множества целевых страниц, в котором создается сеть множества страниц, которая включает в себя множество целевых страниц и множество ссылок между ними. Каждая страница является исходной или конечной страницей по меньшей мере для одной ссылки, каждая страница обладает временем создания и параметром времени создания, назначается первоначальное значение параметру времени создания для каждой страницы, параметр времени создания каждой из целевых страниц одновременно изменяется для максимизации вероятности сети страниц, которая основана на вероятности ссылки для каждой ссылки, которая основана, по меньшей мере частично, на разнице между параметрами времени создания исходной и конечной страниц, время создания целевой страницы определяется как значение параметра времени ее создания, которое максимизирует вероятность сети страниц. 4 н.п. ф-лы, 4 ил.

Формула изобретения RU 2 651 424 C2

1. Способ определения времени создания множества целевых страниц, способ выполняется на сервере, соединенном с сетью передачи данных, способ включает в себя:

создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

каждая страница из множества страниц обладает соответствующим временем создания,

время создания для каждой страницы является либо известным, либо неизвестным,

время создания каждой целевой страницы из множества целевых страниц является неизвестным,

каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

для любой страницы, которая обладает соответствующим временем создания, назначение соответствующего известного времени создания как первоначального значения параметра Т времени создания соответствующей страницы;

анализ по меньшей мере одной страницы без известного времени создания для нахождения в ней временного выражения;

извлечение значения для времени создания страницы, которое соответствует найденному временному выражению в соответствующей странице, значение, извлекаемое для времени создания соответствующей страницы, является извлеченным значением времени создания;

для любой страницы, которая обладает соответствующим извлеченным значением времени создания, назначение соответствующего извлеченного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

воспроизведение, за множество итераций, известных показателей времени создания и извлеченных значений времени создания для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания, и связанной с помощью цепи ссылок, которая включает одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известного времени создания;

для любой страницы, которая обладает воспроизведенным значением времени создания, назначение воспроизведенного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, назначение заранее определенного значения как первоначального значения параметра Т времени создания соответствующей страницы;

одновременное изменение первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц,

вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана по меньшей мере частично на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу а между исходной страницей и конечной страницей; и

определение соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц для представления соответствующего значения параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

2. Сервер для определения времени создания множества целевых страниц, функционально соединенный с пользовательским электронным устройством и по меньшей мере одним хостом через сеть передачи данных, по меньшей мере один хост размещает множество страниц, сервер включает в себя модуль обработки, который выполнен с возможностью осуществлять:

создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

каждая ссылка из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

каждая страница из множества страниц обладает соответствующим временем создания,

время создания для каждой страницы является либо известным, либо неизвестным,

время создания каждой целевой страницы из множества целевых страниц является неизвестным,

каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

для любой страницы, которая обладает соответствующим временем создания, назначение соответствующего известного времени создания как первоначального значения параметра Т времени создания соответствующей страницы;

анализ по меньшей мере одной страницы без известного времени создания для нахождения в ней временного выражения;

извлечение значения для времени создания страницы, которое соответствует найденному временному выражению в соответствующей странице, значение, извлекаемое для времени создания соответствующей страницы, является извлеченным значением времени создания;

для любой страницы, которая обладает соответствующим извлеченным значением времени создания, назначение соответствующего извлеченного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

воспроизведение, за множество итераций, известных показателей времени создания и извлеченных значений времени создания для получения воспроизведенного значения времени создания для каждой страницы без извлеченных значений времени создания и известного времени создания и связанной с помощью цепи ссылок, которая включает одну или несколько ссылок, со страницей, которая обладает любым одним из извлеченного значения времени создания и известного времени создания;

для любой страницы, которая обладает воспроизведенным значением времени создания, назначение воспроизведенного значения времени создания как первоначального значения параметра Т времени создания соответствующей страницы; и

для любой страницы, которая не обладает хотя бы одним из известного времени создания, извлеченного значения времени создания и воспроизведенного значения времени создания, назначение заранее определенного значения как первоначального значения параметра Т времени создания соответствующей страницы;

одновременное изменение первоначальных значений соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц,

вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана по меньшей мере частично на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу а между исходной страницей и конечной страницей; и

определение соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц для представления соответствующего значения параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

3. Способ определения времени создания множества целевых страниц, способ выполняется на сервере, соединенном с сетью передачи данных, способ включает в себя:

создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

каждая страница из множества страниц обладает соответствующим временем создания,

время создания для каждой страницы является либо известным, либо неизвестным,

время создания каждой целевой страницы из множества целевых страниц является неизвестным,

каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

назначение первоначального значения параметру Т времени создания для каждой страницы в сети страниц,

первоначальное значение, которое назначается параметру Т времени создания для любой страницы, которая обладает известным временем создания, является соответствующим известным временем создания;

одновременное изменение первоначального значения соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц с использованием способа градиентного спуска,

вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана по меньшей мере частично на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу а между исходной страницей и конечной страницей;

применение критерия остановки для способа градиентного спуска на основе хоста множества страниц из сети страниц; и

определение соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц для представления соответствующего значения параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

4. Сервер для определения времени создания множества целевых страниц, функционально соединенный с пользовательским электронным устройством и по меньшей мере одним хостом через сеть передачи данных, по меньшей мере один хост размещает множество страниц, сервер включает в себя модуль обработки, который выполнен с возможностью осуществлять:

создание сети страниц, которая содержит множество страниц, включая множество целевых страниц и множество ссылок,

каждая из множества ссылок обладает исходной страницей и конечной страницей, каждая исходная и конечная страница является одной из множества страниц, каждая страница из множества страниц представляет собой одну из исходных страниц или конечных страниц по меньшей мере для одной из множества ссылок,

каждая страница из множества страниц обладает соответствующим временем создания,

время создания для каждой страницы является либо известным, либо неизвестным,

время создания каждой целевой страницы из множества целевых страниц является неизвестным,

каждая страница из множества страниц связана с соответствующим параметром Т времени создания, который указывает на соответствующее время создания страницы,

назначение первоначального значения параметру Т времени создания для каждой страницы в сети страниц,

первоначальное значение, которое назначается параметру Т времени создания для любой страницы, которая обладает известным временем создания, является соответствующим известным временем создания;

одновременное изменение первоначального значения соответствующих параметров Т времени создания множества целевых страниц для максимизации вероятности Рсети сети страниц с использованием способа градиентного спуска,

вероятность Рсети сети страниц основана на вероятности Р ссылки для каждой ссылки из множества ссылок, вероятность Р ссылки для каждой ссылки основана по меньшей мере частично на разнице между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки, разница представляет собой возрастную разницу а между исходной страницей и конечной страницей;

применение критерия остановки для способа градиентного спуска на основе хоста множества страниц из сети страниц; и

определение соответствующих показателей времени создания каждой целевой страницы из множества целевых страниц для представления соответствующего значения параметра Т времени создания, когда вероятность Рсети сети страниц максимизирована как функция всех параметров Т времени создания всех целевых страниц из множества целевых страниц.

Документы, цитированные в отчете о поиске Патент 2018 года RU2651424C2

Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор 1923
  • Петров Г.С.
SU2005A1
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
RU 2014125439 A, 27.12.2015.

RU 2 651 424 C2

Авторы

Прохоренкова Людмила Александровна

Прохоренков Петр Владиславович

Самосват Егор Александрович

Сердюков Павел Викторович

Даты

2018-04-19Публикация

2015-12-28Подача