ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0001] Настоящая технология относится к способам определения исходной ссылки.
УРОВЕНЬ ТЕХНИКИ
[0002] Обычные новостные агрегаторы выполнены с возможностью собирать данные и представлять большое количество информации об опубликованных объектах с определенной тематикой.
[0003] Вместе с ростом доступности Интернета происходит постоянный рост числа публикуемых в нем объектов. В Интернет-медиа, при публикации объекта обычно указывается его тематика/тема, и периодически объект вторично публикуется третьими лицами. В некоторых случаях, после серии вторичных публикаций объекта, содержимое объекта может быть изменено таким образом, что оригинальное содержимое первоначального объекта может быть нарушено.
[0004] С учетом этого, новостные агрегаторы могут демонстрировать пользователям различные опубликованные объекты, относящиеся к одной теме, но обладающие некоторыми различиями в содержимом.
[0005] Таким образом, неточное отображение последующих опубликованных объектов, например, опубликованных объектов, которые не полностью соответствуют оригинальному объекту, может увеличить число повторных поисков, что приводит к увеличению потребления энергии и увеличению использования пропускной способности канала.
[0006] Патентная заявка US 8,707,459 описывает способ процесса определения происхождения содержимого. Анализируется по меньшей мере один фактор происхождения, относящийся к содержимому, причем фактор происхождения является независимым от времени, когда было обнаружено содержимое. На основе анализа по
меньшей мере одного фактора происхождения, происходит автоматический процесс определения. Результат определения выводится пользователю.
[0007] Патентная заявка US 8,577,866 описывает способы, системы и устройства, включая компьютерные программные продукты для определения оригинального содержимого. В одном варианте описанный способ включает в себя извлечение множества частей содержимого коллекции документов, причем каждая часть содержимого появляется в одном или нескольких документах из коллекции документов. Каждый документ в коллекции документов связан с временем и автором. Первый документ в коллекции документов идентифицируется, идентифицированный первый документ является наиболее ранним документом, в котором есть вхождение первой части содержимого. Первый автор, связанный с первым документом, ранжируется на основе числа документов, которые содержат по меньшей мере одно вхождение части содержимого, и которые связаны с автором, отличным от первого автора.
[0008] Патентная заявка US 8,396,876 относится к определению авторитетных источников мультимедийного содержимого, используемого в ранжируемых результатах поискового запроса мультимедийного поиска, зависящих от класса. В одном варианте осуществления технологии, модель цитирования используется для измерения или иного определения степени авторитетности источника содержимого. В одном варианте осуществления технологии, ориентированный граф строится через сеть источников, основанных на тенденции одного источника «цитировать» материалы, предоставляемые другим источником. В одном варианте осуществления технологии, может происходить случайное блуждание среди сетевых источников для поиска авторитетных оценок для каждого источника в сети. В другом варианте осуществления технологии, алгоритм машинного обучения может быть использован для нахождения авторитетных оценок. Авторитетные оценки могут далее применяться для ранжирования, например, поисковых результатов, и/или для целей извлечения.
[0009] Патентная заявка US 8,996,529 относится к сетевой компьютерной системе, которая идентифицирует, оптимизирует и рекомендует содержимое для пользователей. Источники содержимого могут быть использованы для предоставления новостных лент, поисковых
результатов и так далее, с учетом объема полезного содержимого, которое поступило от подобных источников по сравнению с другими источниками.
РАСКРЫТИЕ
[00010] Задачей предлагаемой технологии является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.
[00011] Настоящее описание основано на предположении разработчиков о том, что недоступность исходной ссылки, связанной с исходным объектом может приводить к неудовольствию пользователя, если он(а) желает найти оригинальный объект в том виде, в котором он был опубликован, в случае, когда ему(ей) демонстрируется множество опубликованных объектов с одинаковой темой, но различающихся по некоторым аспектам. Одним из технических результатов настоящего технического решения является снижение повторных поисков и, как следствие, уменьшение потребления энергии и повышение эффективности использования пропускной способности канала.
[00012] В одном аспекте настоящей технологии, предлагается способ определения исходной ссылки, исходная ссылка является сетевым адресом, связанным с исходным объектом, который обладает оригинальной тематикой, из которой была взяла тематика множества впоследствии опубликованных объектов, способ выполняется на сервере, сервер связан с сетью, способ включает в себя: получение сервером множества опубликованных объектов, каждый из множества опубликованных объектов доступен через сеть с соответствующим сетевым адресом; анализ соответствующей тематики каждого из множества опубликованных объектов для создания множества тематических кластеров; извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, причем по меньшей мере одна потенциальная исходная ссылка является сетевым адресом исходного объекта; создание, на основе по меньшей мере одной извлеченной потенциальной исходной ссылки и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой, по меньшей мере одной пары ссылка-кластер, создание для каждой пары ссылка-кластер набора характеристик, представляющих свойство пары ссылка-кластер; на основе набора характеристик,
связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной исходной ссылки; и связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
[00013] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, в ответ на запрос на доступ электронным устройством, через сеть, к данному опубликованному объекту из множества опубликованных объектов, извлечение данного опубликованного объекта и одновременную передачу указания на исходную ссылку.
[00014] В другом варианте осуществления способа, множество опубликованных объектов получают из базы данных поискового робота.
[00015] В другом варианте осуществления способа, анализ соответствующей тематики включает в себя анализ соответствующего содержимого множества опубликованных объектов, содержимое включает в себя по меньшей мере одно из (i) названия и (ii) тела текста.
[00016] В другом варианте осуществления способа, по меньшей мере одна потенциальная исходная ссылка на данный опубликованный объект включает в себя по меньшей мере одну исходящую ссылку, содержащуюся в данном опубликованном объекте.
[00017] В другом варианте осуществления способа, исходный объект включен во множество опубликованных объектов в данном тематическом кластере.
[00018] В другом варианте осуществления способа, исходный объект не включен во множество опубликованных объектов в данном тематическом кластере.
[00019] В другом варианте осуществления способа, до этапа извлечения по меньшей мере одной потенциальной исходной ссылки из данного опубликованного объекта, определение числа входящих ссылок для данного опубликованного объекта, число
входящих ссылок представляет число исходящих ссылок в опубликованных объектах из данного тематического кластера, ведущих на данный опубликованный объект.
[00020] В другом варианте осуществления способа, извлечение по меньшей мере одной потенциальной исходной ссылки выполняется для опубликованных объектов, обладающих заранее определенным числом входящих ссылок.
[00021] В другом варианте осуществления способа, набор характеристик включает в себя по меньшей мере одно из: характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации данного опубликованного объекта, содержащего извлеченную потенциальную исходную ссылку, и средним временем публикации для других опубликованных объектов, содержащихся в этом же тематическом кластере; характеристику репутации источника публикации, которая связана с опубликованным объектом, содержащим извлеченную потенциальную исходную ссылку; характеристику репутации конечного пункта для источника, связанную с конечным пунктом извлеченной потенциальной исходной ссылки; характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная потенциальная исходная ссылка; нормализованную характеристику, представляющую число опубликованных объектов, связанных с извлеченной потенциальной исходной ссылкой, которые нормализованы по числу опубликованных объектов, содержащихся в тематическом кластере; характеристику разницы, представляющую наличие других извлеченных потенциальных исходных ссылок внутри тематического кластера; характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в содержимом опубликованных объектов, которые содержатся в тематическом кластере; характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом опубликованного объекта, связанного с парой ссылка-кластер; и характеристику ссылки, представляющую наличие идентификатора источника публикации, который связан с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся внутри тематического кластера.
[00022] В другом варианте осуществления способа, репутация источника публикации, связанного с опубликованным объектом, который содержит потенциальную исходную ссылку, и репутация исходной публикации, связанная с потенциальной исходной ссылкой, являются заранее определенными параметрами.
[00023] В другом варианте осуществления способа, определение исходной ссылки выполняется с помощью алгоритма машинного обучения.
[00024] В другом варианте осуществления способа, алгоритм машинного обучения выполнен с возможностью получать набор характеристик в качестве вводной характеристики.
[00025] В другом варианте осуществления способа, он дополнительно включает в себя обучение алгоритма машинного обучения.
[00026] В другом варианте осуществления способа, определение исходной ссылки выполняется без получения доступа к исходному объекту.
[00027] В другом аспекте настоящей технологии, предлагается сервер, выполненный с возможностью определять исходную ссылку, исходная ссылка является сетевым адресом, связанным с исходным объектом, который обладает оригинальной тематикой, от которой произошла тематика множества последующих опубликованных объектов, сервер соединен с сетью, сервер включает в себя: по меньшей мере один компьютерный процессор, выполненный с возможностью осуществлять: получение сервером множества опубликованных объектов, каждый из множества опубликованных объектов доступен через сеть с соответствующим сетевым адресом; анализ соответствующей тематики каждого из множества опубликованных объектов для создания множества тематических кластеров; извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, причем по меньшей мере одна потенциальная исходная ссылка является сетевым адресом исходного объекта; создание, на основе по меньшей мере одной извлеченной потенциальной исходной ссылки и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой, по меньшей мере одной пары
ссылка-кластер, создание для каждой пары ссылка-кластер набора характеристик, представляющих свойство пары ссылка-кластер; на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной исходной ссылки; и связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
[00028] В другом варианте осуществления сервера, процессор дополнительно выполнен с возможностью, в ответ на запрос на доступ электронным устройством, через сеть, к данному опубликованному объекту из множества опубликованных объектов, осуществлять извлечение данного опубликованного объекта и одновременно передавать указание на исходную ссылку.
[00029] В другом варианте осуществления сервера, множество опубликованных объектов получают из базы данных поискового робота.
[00030] В другом варианте осуществления сервера, анализ соответствующей тематики включает в себя анализ соответствующего содержимого множества опубликованных объектов, содержимое включает в себя по меньшей мере одно из (i) названия и (ii) тела текста.
[00031] В другом варианте осуществления сервера, по меньшей мере одна потенциальная исходная ссылка на данный опубликованный объект включает в себя по меньшей мере одну исходящую ссылку, содержащуюся в данном опубликованном объекте.
[00032] В другом варианте осуществления сервера, исходный объект включен во множество опубликованных объектов в данном тематическом кластере.
[00033] В другом варианте осуществления сервера, исходный объект не включен во множество опубликованных объектов в данном тематическом кластере.
[00034] В другом варианте осуществления сервера, до этапа извлечения по меньшей мере одной потенциальной исходной ссылки из данного опубликованного объекта,
определение числа входящих ссылок для данного опубликованного объекта, число входящих ссылок представляет число исходящих ссылок внутри опубликованных объектов из данного тематического кластера, ведущих на данный опубликованный объект.
[00035] В другом варианте осуществления сервера, извлечение по меньшей мере одной потенциальной исходной ссылки выполняется для опубликованных объектов, обладающих заранее определенным числом входящих ссылок.
[00036] В другом варианте осуществления сервер, набор характеристик включает в себя по меньшей мере одну из следующего: характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации данного опубликованного объекта, содержащего извлеченную потенциальную исходную ссылку, и средним временем публикации для других опубликованных объектов, содержащихся в этом же тематическом кластере; характеристику репутации источника публикации, которая связана с опубликованным объектом, содержащим извлеченную потенциальную исходную ссылку; характеристику репутации конечного пункта для источника, связанную с конечным пунктом извлеченной потенциальной исходной ссылки; характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная потенциальная исходная ссылка; нормализованную характеристику, представляющую число опубликованных объектов, связанных с извлеченной потенциальной исходной ссылкой, которые нормализованы по числу опубликованных объектов, содержащихся в тематическом кластере; характеристику разницы, представляющую наличие других извлеченных потенциальных исходных ссылок внутри тематического кластера; характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в содержимом опубликованных объектов, которые содержатся в тематическом кластере; характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом опубликованного объекта, связанного с парой ссылка-кластер; и характеристику ссылки, представляющую наличие идентификатора источника публикации, который связан с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся внутри тематического кластера.
[00037] В другом варианте осуществления сервера, репутация источника публикации, связанного с опубликованным объектом, который содержит потенциальную исходную ссылку, и репутация исходной публикации, связанная с потенциальной исходной ссылкой, являются заранее определенными параметрами.
[00038] В другом варианте осуществления сервера, определение исходной ссылки выполняется с помощью алгоритма машинного обучения.
[00039] В другом варианте осуществления сервера, алгоритм машинного обучения выполнен с возможностью получать набор характеристик в качестве вводной характеристики.
[00040] В другом варианте осуществления сервера, процессор дополнительно выполнен с возможностью осуществлять обучение алгоритма машинного обучения..
[00041] В другом варианте осуществления сервера, определение исходной ссылки выполняется без получения доступа к исходному объекту.
[00042] В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данной технологии. В контексте настоящей технологии использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».
[00043] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной передачи данных между этими существительными. Так, например, следует иметь в виду, что использование терминов "первый сервер" и "третий сервер " не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.
[00044] В контексте настоящего описания, если конкретно не указано иное, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, выполняющем процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или же она может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[00045] Для лучшего понимания настоящей технологии, а также других ее аспектов
и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:
[00046] На Фиг. 1 представлено схематичное изображение системы, выполненной в соответствии с неограничивающими вариантами осуществления настоящей технологии определения исходной ссылки.
[00047] На Фиг. 2 представлена блок-схема, представляющая архитектуру сервера системы, показанной на Фиг. 1, которая представляет пример процесса тематической кластеризации.
[00048] На Фиг. 3 представлена блок-схема, представляющая архитектуру сервера системы, показанной на Фиг. 1, которая представляет пример процесса извлечения ссылки.
[00049] На Фиг. 4 представлена блок-схема, представляющая архитектуру сервера системы, показанной на Фиг. 1, которая представляет пример процесса прогнозирования исходной ссылки.
[00050] На Фиг. 5 представлена блок-схема примерного способа определения исходной ссылки.
ОСУЩЕСТВЛЕНИЕ
[00051] На Фиг. 1 представлена принципиальная схема системы 100, выполненной в соответствии с вариантами осуществления настоящей технологии, не ограничивающими ее объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание показательных вариантов осуществления настоящей технологии. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящей технологии. Это описание не предназначено для определения объема или установления границ настоящей технологии. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящей технологии. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящей технологии. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет
собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящей технологии, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящей технологии будут обладать гораздо большей сложностью.
[00052] Система 100 включает в себя электронное устройство 102. Электронное устройство 102 обычно связано с пользователем (не показан) и, таким образом, иногда может упоминаться как «клиентское устройство». Следует отметить, что тот факт, что электронное устройство 102 связано с пользователем, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, быть зарегистрированным, или чего-либо подобного.
[00053] В контексте настоящего описания, если конкретно не указано иное, «электронное устройство» подразумевает под собой аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, примерами электронных устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что устройство, ведущее себя как электронное устройство в настоящем контексте, может вести себя как сервер по отношению к другим электронным устройствам. Использование выражения «электронное устройство» не исключает возможности использования множества электронных устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного метода.
[00054] Электронное устройство 102 содержит аппаратное и/или прикладное программное, и/или системное программное обеспечение (или их комбинацию), как известно в области техники, чтобы выполнять браузерное приложение 104 и/или мобильное приложение 106. В некоторых вариантах осуществления настоящей технологии, каждое браузерное приложение 104 и мобильное приложение 106 выполнено с возможностью
запрашивать объект (описан ниже) с новостного агрегатора, предоставляемого сервером 102, как будет более подробно описано ниже.
[00055] Реализация браузерного приложения 104 никак конкретно не ограничена.
Например, браузерное приложение 104 может быть реализовано как Яндекc. Браузер™. Реализация браузерного приложения 104 хорошо известна в данной области техники, и поэтому не будет описана подробно.
[00056] В общем, мобильное приложение 106 представляет собой компьютерную программу, выполненную для запуска электронного устройства 102, и достаточно сказать, что мобильное приложение 106 может быть заранее загружено или не загружено и/или установлено на электронном устройстве 102. В некоторых неограничивающих вариантах осуществления настоящей технологии, мобильное приложение 106 представляет собой запатентованное мобильное приложение, предоставляемое поставщиком, связанным с сервером 120.
[00057] Электронное устройство 102 соединено с сетью связи 112 через линию связи 110. В некоторых вариантах осуществления настоящей технологии, не ограничивающих ее объем, сеть 112 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящей технологии, сеть 112 передачи данных может быть реализована иначе - в виде глобальной сети связи, локальной сети связи, частной сети связи и т.п.
[00058] Реализация линии связи 110 не ограничена, и будет зависеть от того, какое электронное устройство 102 используется. В качестве примера, но не ограничения, в данных вариантах осуществления настоящей технологии, когда электронное устройство 102 представляет собой беспроводное устройство связи (например, смартфон), линия 110 передачи данных представляет собой беспроводную сеть передачи данных (например, среди прочего, линия передачи данных сети 3G, линия передачи данных сети 4G, беспроводной интернет Wireless Fidelity или коротко WiFi®, Bluetooth® и т.п.).
[00059] Важно иметь в виду, что варианты осуществления электронного устройства 102, линии 110 передачи данных и сети 112 передачи данных даны исключительно в иллюстрационных целях. Таким образом, специалисты в данной области техники смогут
понять подробности других конкретных вариантов осуществления электронного устройства 102, линии 110 передачи данных и сети 112 передачи данных. То есть, представленные здесь примеры не ограничивают объем настоящей технологии.
[00060] Система 100 далее включает в себя первый сервер 115 хостинга объектов и второй сервер 118 хостинга объектов, соединенные с сетью 112 передачи данных. Каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов, может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящей технологии, каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов может представлять собой сервер Dell™ PowerEdge™ на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном неограничивающем варианте осуществления настоящей технологии, каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов является одиночным сервером. В других вариантах осуществления настоящей технологии, не ограничивающих ее объем, функциональность первого сервера 115 хостинга объектов и/или второго сервера 118 хостинга объектов может быть разделена, и может выполняться с помощью нескольких серверов.
[00061] В некоторых вариантах осуществления настоящей технологии, и в общем случае, каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов функционирует как хранилище для одного или нескольких опубликованных объектов (например, первого опубликованного объекта 114 и второго опубликованного объекта 116 соответственно), и находится под контролем и/или управлением поставщика хостинга объекта (не показан), например, оператора Jiji Press™ (новостное агентство), BuzzFeed™ (развлекательное новостное агентство), WordPress™ (платформа для блогов), и так далее.
[00062] В некоторых вариантах осуществления настоящей технологии, первый сервер 115 хостинга объектов размещает первый опубликованный объект 114, а второй
сервер 118 хостинга объектов размещает второй опубликованный объект 116. Каждый из первого опубликованного объекта 114 и второго опубликованного объекта 116 представляет веб-ресурс, доступный (некоторыми или всеми из: электронного устройства 102, сервера 120) через сеть 112 передачи данных.
[00063] В контексте настоящего описания термин «объект» относится к любой вебстраницу, которая визуально может быть представлена на электронном устройстве 102, связанную с конкретным адресом веб-ресурса (например, Единый указатель ресурса (URL)). Таким образом, объект может включать в себя написанный текст, а также изображения, графику, анимацию, видео и так далее. Подразумевается, что содержимое объекта может включать в себя текстовую часть - например, заголовок, тело, область комментариев (если таковые имеются), и так далее. Каждый из первого опубликованного объекта 114 и второго опубликованного объекта 116 доступен электронному устройству 102 через сеть 112 передачи данных, например, посредством ввода пользователем URL в браузерное приложение 104 или путем выполнения веб-поиска с помощью поискового приложения (не показано) на электронном устройстве 102.
[00064] Как было описано ранее, каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов находится под контролем и/или управлением поставщика хостинга объекта (не показан). Например, если поставщик хостинга объекта является онлайн новостным агентством, например, VICE News™, первый опубликованный объект 114 может представлять собой новостную статью. С другой стороны, если поставщик хостинга объекта второго сервер 118 хостинга объекта, который размещает второй опубликованный объект 116, является сервисом для блогов, как, например, Blogger™, второй опубликованный объект 116 может представлять собой пост в блоге. Но опять же следует иметь в виду, что приведенные выше примеры служат только для целей иллюстрации, и не являются ограничивающими.
[00065] В некоторых вариантах осуществления настоящей технологии, первый опубликованный объект 114 и второй опубликованный объект 116 обладают одинаковой тематикой. В настоящем описании термин «тематика» относится к сюжету, предмету, теме, связанной с содержимым опубликованного объекта. В некоторых вариантах осуществления
настоящей технологии, второй опубликованный объект 116 является «репостом», последующей публикацией, например, первого опубликованного объекта 114. Например, первый опубликованный объект 114 может представлять собой оригинальную статью, а второй опубликованный объект может быть связан с ним и/или быть производным от первого опубликованного объекта 114. В данном конкретном примере, первый опубликованный объект 114 упоминается как «исходный объект», а второй опубликованный объект 116 упоминается как «последующий опубликованный объект».
[00066] В некоторых вариантах осуществления настоящей технологии, каждый из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов включает в себя один или несколько объектных баз 108 данных, которые функционируют для хранения первого опубликованного объекта 114 и второго опубликованного объекта 116, которые могут быть получены и отображены на электронном устройстве 102. В общем случае, каждый опубликованный объект (например, первый опубликованный объект 114 и второй опубликованный объект 116), размещенный на каждом из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов, обладает назначенным сервером именем файла, который уникально идентифицирует опубликованный объект (например, первый опубликованный объект 114 и второй опубликованный объект 116) в объектной базе 108 данных. Каждая объектная база 108 данных включает в себя, для каждого опубликованного объекта (например, первого опубликованного объекта 114 и второго опубликованного объекта 116), индексные данные, с помощью которых каждый опубликованный объект (например, первый опубликованный объект 114 и второй опубликованный объект 116) может быть идентифицирован и выборочно получен из объектной базы 108 данных.
[00067] Несмотря на то, что объектная база 108 данных представлена как отдельная от каждого из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов, к которому она относится через соответствующую ссылку (не пронумерована), объектная база 108 данных может быть реализована как часть каждого из первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов.
[00068] В общем случае, когда поставщик хостинга объекта (не показан) загружает (или публикует) в сети новый объект, создается новый опубликованный объект (например, аналогичный первому опубликованному объекту 114 и/или второй опубликованный объект 116), обладающий уникальным URL, и URL сохраняется в объектной базе 108 данных. Например, если статья публикуется онлайн новостным агентством в Монреале LaPresse™, опубликованный объект, который обладает уникальной ссылкой (например, URL), будет сохранен в объектной базе 108 данных.
[00069] В некоторых неограничивающих вариантах осуществления настоящей технологии, первый опубликованный объект 114 и второй опубликованный объект 116 может содержать одну или несколько исходящих ссылкой (описано ниже). Способ, в соответствии с которым содержится исходящая ссылка в опубликованном объекте, никак конкретно не ограничен, и она может содержаться в содержимом опубликованного объекта, например, в разделе заголовка опубликованного объекта, в теле опубликованного объекта, в разделе комментариев и так далее. Также подразумевается, что исходящая ссылка может содержаться в метаданных опубликованного объекта. Также подразумевается, что исходящая ссылка может представлять собой URL, который ведет на исходный объект или на последующий опубликованный объект. Подразумевается, что исходный объект может представлять собой, например, уже опубликованную новостную статью, пост в блоге, рекламу, пост в социальной сети (например, Twitter™, Facebook™ и так далее).
[00070] С сетью 112 передачи данных также соединен сервер 120. Достаточно сказать, что сервер 120 может (но не должен) быть реализован по аналогии с первым сервером 115 хостинга объектов и/или вторым сервером 118 хостинга объектов. В представленном варианте осуществления настоящей технологии, не ограничивающем ее объем, сервер 120 является одиночным сервером. В других вариантах осуществления настоящей технологии, не ограничивающих ее объем, функциональность сервера 120 может быть разделена, и может выполняться с помощью нескольких серверов.
[00071] Вариант осуществления сервера 120 хорошо известен. Тем не менее, сервер 120 содержит интерфейс передачи данных (не показан), который настроен и выполнен с возможностью обмениваться данными с различными элементам (например, электронным
устройством 102) через сеть 112 передачи данных. Сервер 120 дополнительно включает в себя один или несколько пунктов из следующего: компьютерный процессор (не показан), функционально соединенный с интерфейсом связи и настроенный и выполненный с возможностью выполнять различные процессы, описанные здесь.
[00072] В некоторых вариантах осуществления настоящей технологии, сервер 120 находится под контролем и/или управлением поставщика сервиса новостного агрегатора (не показан), например, оператора Yandex News™, Google News™ и так далее. Например, сервер 120 размещает главную страницу новостного агрегатора (не показано), доступную электронному устройству 102 посредством ввода/копирования/нажатия на URL с помощью браузерного приложения 104 или запуска мобильного приложения 106. Сервер 120 далее выполнен с возможностью осуществлять один или несколько запросов от мобильного приложения 106 и/или браузерного приложения, например, отрисовку запрошенного объекта, связанного с сервисом новостного агрегатора. Исключительно в качестве примера, запрос от мобильного приложения 106 и/или браузерного приложения 104 может представлять собой нажатия пользователем на ссылку, связанную с опубликованным объектом (например, первым опубликованным объектом 114 и/или вторым опубликованным объектом 116), ссылка, связанная с опубликованным объектом отображается на главной странице новостного агрегатора.
[00073] Таким образом, сервер 120 также выполнен с возможностью выполнять функцию поискового робота для сбора опубликованных объектов (например, первого опубликованного объекта 114 и второго опубликованного объекта 116) с первого сервера 115 хостинга объектов и второго сервера 118 хостинга объектов (и других серверов хостинга, которые потенциально могут присутствовать в системе 100) и, поэтому может содержать приложение 122 поискового робота. Несмотря на то что приложение 122 представлено как содержащееся на сервере 120, в альтернативном варианте осуществления технологии, функциональность приложения 122 поискового робота может быть распределена и выполняться несколькими серверами.
[00074] В общем случае, приложение 122 поискового робота выполнено с возможностью периодически получать доступ к первому серверу 115 хостинга объектов и
второму серверу 118 хостинга объектов и другим серверам хостинга, который потенциально присутствуют в системе 100, для идентификации и получения объектов, расположенных на первом сервере 115 хостинга объектов и втором сервере 118 хостинга объектов (например, первому опубликованному объекту 114 и второму опубликованному объекту 116).
[00075] Приложение 122 поискового робота соединено через соответствующую ссылку (не показано) с базой 124 данных поискового робота. Как будет более подробно указано далее, что указание на просмотренные объекты индексируется и сохраняется в базе 124 данных поискового робота. В общем случае, база 124 данных поискового робота также содержит записи для каждого просмотренного объекта, такие как дата последнего просмотра или получения доступа, которые могут быть использованы приложением 122 поискового робота для поддержания базы 124 данных в актуальном состоянии, что способствует оптимизации процесса просмотра веб-страниц. Несмотря на то, что база 124 данных представлена как отдельная от сервера 120 и соединенная с ним с помощью соответствующей линии (не пронумерована), она может быть реализована как часть сервера 120.
[00076] Сервер 120 также включает в себя модуль 126 кластеризации для кластеризации просмотренных объектов в соответствии с их тематикой. В общем случае, термин «кластеризация» относится к классификации просмотренных объектов на различные группы (например, кластеры) таким образом, что объекты в каждом кластере обладали одной и той же общей темой. Несмотря на то что модуль 126 кластеризации представлено как часть сервера 120, в альтернативном варианте осуществления технологии, функциональность модуля 126 кластеризации может быть распределена и выполняться несколькими серверами. Достаточно сказать, что модуль 126 кластеризации выполнен с возможностью получать доступ к просмотренным объектам и кластеризовать просмотренные объекты из базы 124 данных поискового робота на группы, обладающие одинаковой темой, на основе их соответствующего содержимого (например, тела текста и/или заголовка). Способ, в соответствии с которым выполняется кластеризация, никак конкретно не ограничен, и может быть выполнен с помощью модели набора слов (англ. «bag-of-words model»), модели латентного размещения Дирихле и так далее.
[00077] Как будет более подробно указано далее, кластеризованные объекты индексируются и сохраняются в базе 128 данных кластеризации. Несмотря на то, что база 128 данных кластеризации представлена как отдельная от сервера 120 и соединенная с ним с помощью соответствующей линии (не пронумерована), она может быть реализована как часть сервера 120.
[00078] Сервер 120 далее включает в себя модуль 130 экстрактора ссылки. Несмотря на то, что модуль 130 экстрактора ссылки представлен как часть сервера 120, модуль 130 экстрактора ссылки может быть представлен как отдельный элемент сервера 120. Как будет более подробно описано далее, модуль 130 экстрактора ссылки выполнен с возможностью извлекать одну или несколько исходящих ссылок, содержащихся в каждом из кластеризованных объектов, которые содержатся в базе 128 данных кластеризации.
[00079] Сервер 120 также выполнен с возможностью выполнять алгоритм 132 прогнозирования исходной ссылки. Как будет более подробно описано далее, алгоритм 132 прогнозирования исходной ссылки выполнен с возможностью анализировать одну или несколько извлеченных исходящих ссылок, содержащихся в каждом из кластеризованных объектов, которые содержатся в базе 128 данных кластеризации. В контексте настоящего описания термин «исходная ссылка» относится к адресу веб-ресурса (URL), ведущему к исходному объекту. Несмотря на то что алгоритм 132 прогнозирования исходной ссылки представлен как часть сервера 120, функциональность алгоритма 132 прогнозирования исходной ссылки может быть распределена и выполняться несколькими серверами.
[00080] На Фиг. 2 представлена схематическая диаграмма, показывающая архитектуру 200 сервера 120, которая иллюстрирует пример процесса тематической кластеризации, архитектура 200 включает в себя сервер 120, содержащий приложение 122 поискового робота и модуль 126 кластеризации, в соответствии с некоторыми вариантами осуществления технологии.
[00081] Как кратко было описано выше, приложение 122 поискового робота выполнено с возможностью периодически получать доступ к первому серверу 115 хостинга объектов и второму серверу 118 хостинга объектов (и другим серверам хостинга, который потенциально присутствуют в системе 100), для идентификации и получения
опубликованных объектов, которые на них расположены (например, первого опубликованного объекта 114 и второго опубликованного объекта 116). Приложение 122 поискового робота далее выполнено с возможностью создавать индекс для набора просмотренных элементов 202 в базе 124 данных поискового робота. Например, подразумевается, что база 124 данных поискового робота содержит указание для каждого просмотренного объекта 202, например, его соответствующий URL. Несмотря на то, что в представленном варианте набор просмотренных объектов 202 содержит три просмотренных объекта, это сделано исключительно в качестве примера, и не является ограничением.
[00082] В некоторых вариантах осуществления настоящей технологии, база 124 данных поискового робота и/или приложение 122 поискового робота передает пакет 203 данных модулю 126 кластеризации. Пакет 203 данных включает в себя указание на просмотренные объекты 202 (например, URL), которые будут кластеризованы модулем 126 кластеризации.
[00083] При получении пакета 203 данных, модуль 126 кластеризации кластеризует набор просмотренных объектов 202 по тематике. Как было указано ранее, способ, в соответствии с которым выполняется кластеризация, никак не ограничен, и может быть выполнен путем анализа содержимого (например, заголовка, тела, области комментариев, метаданных или их комбинации) просмотренных объектов 202 с помощью любого известного способа кластеризации.
[00084] Каждый кластеризованный объект далее индексируется и сохраняется в базе 124 данных кластеризации. Например, база 128 данных кластеризации включает в себя первый тематический кластер 204, второй тематический кластер 206 и третий тематический кластер 208. Каждый из трех тематических кластеров (т.е. первый тематический кластер 204, второй тематический кластер 206 и третий тематический кластер 208) относится к различной тематике, которые отличаются друг от друга.
[00085] Как было показано на Фиг. 2, первый тематический кластер 204 включает в себя набор кластеризованных объектов 210, содержащий четыре кластеризованных объекта (индивидуально 210-1, 210-2, 210-3 и 210-4), второй тематический кластер 206 включает в
себя набор кластеризованных объектов 212, содержащий три кластеризованных объекта (индивидуально 212-1, 212-2 и 212-3), и третий тематический кластер 208 включает в себя набор кластеризованных объектов 214, содержащий два кластеризованных объекта (индивидуально 214-1 и 214-2). Важно иметь в виду, что число тематических кластеров и число кластеризованных объектов, содержащихся в них, представлено только в качестве примера и не является ограничивающим.
[00086] На Фиг. 3 представлена схематическая диаграмма, показывающая архитектуру 300 сервера 120, которая иллюстрирует пример процесса извлечения ссылки, архитектура 300 включает в себя сервер 120, содержащий модуль 126 кластеризации и модуль 130 экстрактора ссылки, в соответствии с некоторыми вариантами осуществления технологии.
[00087] Как было заявлено ранее, набор просмотренных объектов 202 кластеризован на тематические кластеры (например, первый тематический кластер 204, второй тематический кластер 206 и третий тематический кластер 208). С учетом кластеризации, база 128 данных кластеризации и/или модуль 126 кластеризации передает пакет 302 данных модулю 130 экстрактора ссылки. Пакет 302 данных включает в себя указание кластеризованных объектов (например, URL), содержащихся в конкретном тематическом кластере. Например, пакет 302 данных может включать в себя указание на набор кластеризованных объектов 210, содержащихся в первом тематическом кластере 204.
[00088] При получении пакета 302 данных, модуль 130 экстрактора ссылки анализирует набор кластеризованных объектов 210 для идентификации исходящих ссылок, содержащихся в каждом кластеризованном объекте 210-1, 210-2, 210-3, и 210-4. Способ, которым модуль 130 экстрактора ссылки идентифицирует исходящие ссылки, никак конкретно не ограничен, например, он может выполняться путем анализа содержимого, анализа метаданных, и/или использования программного обеспечения экстрактора ссылки, например экстрактор ссылки IWebTool™, и так далее. В некоторых вариантах осуществления настоящей технологии, во время выполнения процесса просмотра объектов, приложение 122 поискового робота выполнено с возможностью идентифицировать исходящие ссылки, содержащиеся в каждом из опубликованных объектов из набора
просмотренных объектов 202, например, указание на идентифицированные ссылки может содержаться в пакете 302 данных. В некоторых вариантах осуществления настоящей технологии, модуль 130 экстрактора ссылки может организовать базу 306 данных счета ссылок, которая идентифицирует число исходящих ссылок 308 и входящих ссылок 310 для каждого кластеризованного объекта, содержащегося в пакете 302 данных.
[00089] В контексте настоящего описания термин «исходящая ссылка» относится к одной или нескольким ссылкам, которые содержатся в данном кластеризованном объекте. Подразумевается, что ссылка может содержаться в содержимом данном кластеризованном объекте, например, заголовке и/или теле и/или комментарии, и/или метаданных данного кластеризованного объекта. Таким образом, ссылка, которая содержится в кластеризованном объекте 210-1, ведущая к другому опубликованному объекту (например, кластеризованному объекту 210-2, или некластеризованному/непросмотренному объекту, но опубликованному объекту), упоминается как «исходящая ссылка».
[00090] В контексте настоящего описания термин «входящая ссылка» относится к одной или нескольким исходящим ссылкам, которые содержатся в наборе кластеризованных объектов 210, указывающих на данный кластеризованный объект, содержащийся в наборе кластеризованных объектов 210. Например, если в кластеризованном объекте 210-2 содержится исходящая ссылка, направленная на кластеризованный объект 210-1, ссылка будет считаться «входящей ссылкой» по отношению к кластеризованному объекту 210-1.
[00091] Как показано на Фиг. 3, модуль 130 экстрактора ссылки идентифицирует, для каждого кластеризованного объекта 210-1, 210-2, 210-3 и 210-4 число исходящих ссылок 308, содержащихся в нем. Продолжая с настоящим примером, пакет 302 данных включает в себя набор кластеризованных объектов 210, содержащихся в первом тематическом кластере 204, модуль 130 экстрактора ссылки может идентифицировать, что для кластеризованного объекта 210-1 есть 2 исходящие ссылки; для кластеризованного объекта 210-2 есть 1 исходящая ссылка; для кластеризованного объекта 210-3 есть 3 исходящих ссылки; и для кластеризованного объекта 210-4 нет исходящих ссылок. В сумме, есть 6 исходящих ссылок, которые содержатся в наборе кластеризованных объектов 210.
[00092] При идентификации исходящих ссылок 308, содержащихся в наборе кластеризованных объектов 210, модуль 130 экстрактора ссылки далее идентифицирует, ведет ли каждая исходящая ссылка 308 на один из кластеризованных объектов из набора кластеризованных объектов 210. С учетом вышеприведенного, модуль 130 экстрактора ссылки может идентифицировать, что из шести исходящих ссылок 308 пять считаются входящими в набор кластеризованных объектов 210, который организован следующим образом: кластеризованные объекты 210-1 не являются конечным пунктом для какой-либо из шести исходящих ссылок 308; кластеризованный объект 210-2 является конечным пунктом одной из шести исходящих ссылок 308; кластеризованный объект 210-3 является конечным пунктом двух из шести исходящих ссылок 308; кластеризованный объект 210-4 является конечным пунктом для двух из шести исходящих ссылок 308. В конкретном примере, пять из шести исходящих ссылок 308 являются «учтенными», а оставшаяся одна исходящая ссылка 308 является «неучтенной». Неучтенная ссылка 308 может вести к опубликованному объекту, который не был кластеризован в первый тематический кластер 204, или не был просмотрен приложением 122 поискового робота.
[00093] Модуль 130 экстрактора ссылки далее выполнен с возможностью извлекать исходящие ссылки 308 из каждого кластеризованного объекта из набора кластеризованных объектов 210. В некоторых вариантах осуществления настоящей технологии, модуль 130 экстрактора ссылки выполнен с возможностью извлекать исходящие ссылки 308 из каждого кластеризованного объекта из набора кластеризованных объектов 210, который удовлетворяет заранее определенному критерию. В некоторых вариантах осуществления настоящей технологии, заранее определенный критерий представляет собой пороговое значение, основанное на числе входящих ссылок 310, которые ведут на данный кластеризованный объект.Например, без установления ограничений, модуль 130 экстрактора ссылки может быть выполнен с возможностью извлекать одну или несколько исходящих ссылок 308 для каждого кластеризованного объекта из набора кластеризованных объектов 210, которые обладают по меньшей мере одной входящей ссылкой 310. Продолжая с вышеприведенным примером, было определено, что кластеризованные объекты 210-1 не являются конечным пунктом какой-либо из исходящих ссылок 308, и кластеризованные объекты 210-2, 210-3 и 210-4 являются конечными пунктами по меньшей мере одной исходящей ссылки 308. Таким образом, модуль 130
экстрактора ссылки извлекает 4 ссылки из кластеризованных объектов 210-2 и 210-3 (следует отметить, что кластеризованный объект 210-4 не обладает никакими исходящими ссылками 308). Важно иметь в виду, что пороговое значение, основанное на числе входящих ссылок, представлено только в качестве примера, и подразумевается, что могут быть использованы другие пороговые значения.
[00094] В некоторых вариантах осуществления настоящей технологии, модуль 130 экстрактора ссылки создает базу 312 данных извлеченных ссылок, которая содержит исходящие ссылки 308. Набор извлеченных ссылок 314 включает в себя 6 извлеченных ссылок из набора кластеризованных объектов 210, конкретнее, первую ссылку 314-1, вторую ссылку 314-2, третью ссылку 314-3, четвертую ссылку 314-4, пятую ссылку 314-5 и шестую ссылку 314-6. После идентификации набора извлеченных ссылок 314, модуль 130 экстрактора ссылки выполнен с возможностью создавать набор пар 316 ссылка-кластер, причем для каждой из извлеченных ссылок 314-1-314-6 создается соответствующая пара ссылка-кластер 316-1-316-6.
[00095] В рамках настоящего описания термин «пара ссылка-кластер» относится к связи между данной извлеченной ссылкой и тематическим кластером, содержащим просмотренный объект, который связан с данной извлеченной ссылкой.
[00096] В некоторых вариантах осуществления настоящей технологии, модуль 130 экстрактора ссылки выполнен с возможностью вычислять набор характеристик для каждой пары 316-1-316-6 ссылка-кластер, которые содержатся в пакете 318 данных. В некоторых вариантах осуществления настоящей технологии, набор характеристик представляет собой свойства каждой пары ссылка-кластер (например, пар 316-1-316-6 ссылка-кластер) В некоторых вариантах осуществления настоящей технологии, набор характеристик, вычисленная для каждой пары 316-1-316-6 ссылка-кластер, может включать в себя, без установления ограничений:
(i) характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации кластеризованного объекта, содержащего извлеченную ссылку, и средним временем публикации для других кластеризованных объектов, содержащихся в этом же тематическом кластере;
(ii) характеристику репутации источника публикации, который связан с кластеризованным объектом, содержащим извлеченную ссылку;
(iii) характеристику репутации источника, связанную с конечным пунктом извлеченной ссылки;
(iv) характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная ссылка;
(v) нормализованную характеристику, представляющую число кластеризованных объектов, связанных с извлеченной ссылкой, которые нормализованы по числу кластеризованных объектов, содержащихся в тематическом кластере;
(vi) характеристику разницы, представляющую наличие других извлеченных ссылок в тематическом кластере;
(vii) характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной ссылкой в соответствующем содержимом кластеризованных объектов, которые содержатся в тематическом кластере;
(viii) характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом кластеризованного объекта, связанного с парой ссылка-кластер; и
(ix) характеристику ссылки, представляющую наличие идентификатора источника публикации, который связан с извлеченной ссылкой в соответствующем содержимом кластеризованных объектов, которые содержатся внутри тематического кластера.
[00097] Каждая из вышеупомянутых характеристик далее будет описана более подробно.
[00098] (i) Характеристика разницы во времени, характеристика разницы во времени связана с разницей во времени публикации кластеризованного объекта, содержащего извлеченную ссылку, и средним временем публикации для других кластеризованных объектов, содержащихся в этом же тематическом кластере.
[00099] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика разницы во времени вычисляется с помощью разницы во времени публикации (например, поста) кластеризованного объекта, который содержит извлеченную ссылку 314-1, и средним временем публикации остальных кластеризованных объектов, которые содержат извлеченные ссылки 314-2-314-6.
[000100] (ii) Характеристика репутации источника публикации, который связан с кластеризованным объектом, содержащим извлеченную ссылку.
[000101] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика репутации источника вычисляется на основе репутации источника публикации, связанного с кластеризованных объектом, который содержит извлеченную ссылку 314-1.
[000102] В контексте настоящего описания термин «исходящая ссылка» относится к одной или нескольким ссылкам, которые содержатся в данном кластеризованном объекте. Например, если извлеченная ссылка 314-1 была извлечена из кластеризованного объекта 210-1, который доступен по URL www.cnn.com/story123, источником публикации является CNN™. Способ определения источника публикации никак не ограничен, и, среди прочего, может основываться на имени хоста URL.
[000103] В контексте настоящего описания термин «репутация» относится к надежности источника. Способ определения репутации источника публикации никак конкретно не ограничен, и определение может быть осуществлено с помощью различных способов, например, алгоритма PageRank, числа объектов, опубликованных источником публикации, среднего числа объектов, опубликованных источником публикации, оценки, определенной поставщиком или менеджером сервера 120, или же комбинацией выше перечисленного, и так далее.
[000104] (iii) Характеристика репутации источника, связанная с конечным пунктом извлеченной ссылки.
[000105] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика репутации конечного пункта вычисляется на основе репутации источника публикации, связанного с конечным пунктом извлеченной ссылки 314-1.
[000106] Например, извлеченная ссылка 314-1 может быть связана с конкретным опубликованным объектом (содержащимся или не содержащимся в первом тематическом кластере 204), с URL www.facebook.com/iohn.doe/post123. Модуль 130 выполнен с возможностью идентифицировать Facebook™ как источник публикации, связанный с конечным пунктом извлеченной ссылки 314-1. Модуль 130 экстрактора ссылки далее выполнен с возможностью вычислять репутацию сервиса FaceBook™, например, на основе алгоритма PageRank, числа объектов, опубликованных источником публикации, среднего числа объектов, опубликованных источником публикации, оценки, определенной поставщиком или менеджером сервера 120, или же комбинацией всего выше перечисленного, и так далее.
[000107] (iv) Характеристика агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная ссылка.
[000108] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика агрегированной репутации вычисляется на основе агрегированной репутации источников публикаций в пером тематическом кластере 204, который содержит извлеченную ссылку 314-1.
[000109] Например, если определено, что URL извлеченной ссылки 314-1 является извлеченной ссылкой для кластеризованных объектов 210-1 и 2102, модуль 130 экстрактора ссылки выполнен с возможностью вычислять характеристику агрегированной репутации публичных источников, связанных с кластеризованным объектом 210-1 и 210-2.
[000110] (v) Нормализованная характеристика, представляющая число кластеризованных объектов, связанных с извлеченной ссылкой, которые нормализованы по числу кластеризованных объектов, содержащихся в тематическом кластере.
[000111] Рассматривая как пример пару 316-1 ссылка-кластер, нормализованная характеристика вычисляется на основе числа кластеризованных объектов, которые обладают извлеченной ссылкой 314- 1 в первом тематическом кластере 204.
[000112] Например, если определено, что первый тематический кластер 204 включает в себя четыре кластеризованных объекта, и два из всех кластеризованных объектов определены как обладающие извлеченной ссылкой 314-1, модуль 130 экстрактора ссылки выполнен с возможностью вычислять, что 50% кластеризованных объектов, содержащихся в первом тематическом кластере 204, включены в извлеченную ссылку 314-1. На основе этой информации, модуль 130 экстрактора ссылки выполнен с возможностью вычислять характеристику нормализации.
[000113] (vi) Характеристика разницы, представляющая наличие других извлеченных ссылок в тематическом кластере.
[000114] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика разницы основывается, среди прочего, на количестве извлеченных ссылок, отличных от извлеченной ссылки 314-1, которые содержатся в первом тематическом кластере 204.
[000115] Например, если было определено, что первый тематический кластер 204 содержит 6 извлеченных ссылок (соответственно, 314-1, 314-2, 314-3, 314-4, 314-5 и 314-6) и что только извлеченная ссылка 314-1 ведет на первый опубликованный объект 114, модуль 130 экстрактора ссылки может определять, что пять из шести извлеченных ссылок не ведут на первый опубликованный объект 114. На основе этой информации, модуль 130 экстрактора ссылки выполнен с возможностью вычислять характеристику разницы.
[000116] (vii) характеристика наличия, представляющая наличие идентификатора источника публикации, связанного с извлеченной ссылкой в соответствующем содержимом кластеризованных объектов, которые содержатся в тематическом кластере;
[000117] Рассматривая в качестве примера пару 316-1 ссылка-кластер, характеристика наличия вычисляется на основе числа кластеризованных объектов в первом тематическом кластере 204, который в своем содержимом содержит идентификатор источника публикации, связанный с извлеченной ссылкой 314-1.
[000118] Например, если был определено, что извлеченная ссылка 314-1 ведет на первый опубликованный объект 114, и источником публикации первого опубликованного
объекта 114 является CNN™, модуль 130 экстрактора ссылки выполнен с возможностью выполнять идентификацию того, сколько кластеризованных объектов в первом тематическом кластере 204 содержат идентификатор источника публикации "CNN" в своем содержимом. На основе этой информации, модуль 130 экстрактора ссылки выполнен с возможностью вычислять характеристику наличия.
[000119] (viii) Характеристика содержимого, представляющая наличие одного или нескольких идентификаторов источников публикации в содержимом кластеризованного объекта, связанного с парой ссылка-кластер.
[000120] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика содержимого вычисляется на основе наличия одного или нескольких идентификаторов источника публикации в содержимом кластеризованного объекта, связанного с парой 316-1 ссылка-кластер.
[000121] Например, если кластеризованный объект, который связан с парой 316-1 ссылка-кластер, обладает источником публикации TheGazette™ со следующим заголовком "Bloomberg: Snowstorm Approaching in East Coast" (англ. «Блумберг: Снежная буря приближается к Восточному побережью»), модуль 130 экстрактора ссылки выполнен с возможностью идентифицировать Bloomberg™ как идентификатор источника публикации. Способ, которым выполняется идентификация модулем 130 экстрактора ссылки одного или нескольких идентификаторов источника публикации, никак конкретно не ограничен, и может, например, выполняться путем синтаксического анализа (парсинга) содержимого кластеризованного объекта, связанного с парой 316-1 ссылка-кластер и установления перекрестных ссылок между заранее определенными идентификаторами источника публикации, которые хранятся в базе данных (не показано), соединенной с сервером 120. На основе этой информации, модуль 130 экстрактора ссылки выполнен с возможностью вычислять характеристику содержимого.
[000122] (ix) характеристика ссылки, представляющая наличие идентификатора источника публикации, который связан с извлеченной ссылкой в соответствующем содержимом кластеризованных объектов, которые содержатся внутри тематического кластера.
[000123] Рассматривая как пример пару 316-1 ссылка-кластер, характеристика наличия будет основана на наличии идентификатора источника публикации, связанного с извлеченной ссылкой 314-1 в содержимом первого тематического кластера 204.
[000124] Например, если извлеченная ссылка 314-1 ведет на первый опубликованный объект 114, который представляет собой статью Bloomberg™, модуль 130 экстрактора ссылки выполнен с возможностью идентифицировать, содержится ли идентификатор источника публикации "Bloomberg" в содержимом кластеризованных объектов 210-1-210-4. На основе этой информации, модуль 130 экстрактора ссылки далее выполнен с возможностью вычислять характеристику ссылки.
[000125] Важно иметь в виду, что представленный выше набор характеристик не является ограничивающим и, как будет понятно специалисту в данной области техники, могут быть использованы и другие типы характеристик или модификаций.
[000126] На Фиг. 4 представлена схематическая диаграмма, показывающая архитектуру 400 сервера 120, которая иллюстрирует пример процесса прогнозирования исходной ссылки, архитектура 400 включает в себя алгоритм 132 прогнозирования исходной ссылки, в соответствии с некоторыми вариантами осуществления технологии.
[000127] Модуль 130 экстрактора ссылки выполнен с возможностью передавать пакет 402 данных алгоритму 132 прогнозирования исходной ссылки. Пакет 402 данных включает в себя набор характеристик, связанный с одной или несколькими парами 316 ссылка-кластер. В некоторых вариантах осуществления настоящей технологии, алгоритм 132 прогнозирования исходной ссылки является алгоритмом машинного обучения, который выполнен с возможностью определять, какая из извлеченных ссылок, представляющих собой набор извлеченных ссылок 314, является исходной ссылкой. Таким образом, можно утверждать, что дополучения алгоритма 132 прогнозирования исходной ссылки, каждая из извлеченных ссылок, представляющих собой набор извлеченных ссылок 314, является исходной ссылкой.
[000128] С помощью списка характеристик для каждой пары ссылка-кластер (например, пар 316-1-316-6 ссылка-кластер), содержащейся в пакете 402 данных в виде
вводной характеристики, алгоритм 132 прогнозирования исходной ссылки обучается для определения исходной ссылки, связанной с данным тематическим кластером. В некоторых вариантах осуществления настоящей технологии, исходная ссылка может вести к одному или нескольким кластеризованным объектам, содержащимся в соответствующем тематическом кластере. В дополнительном варианте осуществления технологии, исходная ссылка может вести к опубликованному объекту, который не был кластеризован в данный тематический кластер. Например, исходная ссылка, связанная с первым тематическим кластером 204, может вести на опубликованный объект, который не был кластеризован в первый тематический кластер 204, или который не был просмотрен ранее, например, пост в социальных медиа.
[000129] В некоторых вариантах осуществления настоящей технологии, алгоритм 132 прогнозирования исходной ссылки связан с исходной базой 404 данных. В некоторых вариантах осуществления настоящей технологии, исходная база 404 данных сохраняет исходную ссылку, связанную с каждым из тематических кластеров. В примере, связанным с первым тематическим кластером 204, может быть определено благодаря алгоритму 132 прогнозирования исходной ссылки, на основе анализа одной или нескольких пар 316 ссылка-кластер, что извлеченная ссылка 314-3 является исходной ссылкой. Таким образом, в исходной базе 404 данных, первый тематический кластер 204 связан с извлеченной ссылкой 314-3. Опять же важно иметь в виду, что пример, приведенный здесь, является иллюстративным и не ограничивает объект настоящей технологии.
[000130] Также на Фиг. 4 показан пакет 406 данных, передаваемый электронным устройством 102 серверу 120. В некоторых вариантах осуществления настоящей технологии, пакет 406 данных является запросом от электронного устройства 102 на доступ к конкретному объекту, связанному с сервисом новостного агрегатора. Например, пользователь электронного устройства 102 может запрашивать конкретную статью путем нажатия на ссылку, предоставленную на главной странице новостного агрегатора.
[000131] В общем случае, при получении пакета 406 данных сервер 120 выполнен с возможностью извлекать из базу 124 данных поискового робота пакет 408 данных, который
включает в себя указание на запрошенный опубликованный объект для отображения на электронном устройстве 102.
[000132] В некоторых вариантах осуществления настоящей технологии, сервер 120 выполнен с возможностью определения того, был ли заранее кластеризован содержащийся в пакете 408 данных запрошенный опубликованный объект, и или альтернативно, была ли определена исходящая ссылка. При определении того, что запрошенный опубликованный объект был заранее кластеризован, сервер 120 далее выполнен с возможностью получать из исходной базы 404 данных исходную ссылку, связанную с данным тематическим кластером.
[000133] В дополнительном варианте осуществления технологии, при извлечении исходной ссылки, связанной с данным тематическим кластером, сервер 120 выполнен с возможностью инициировать электронное устройство 102 представлять одновременно с запрошенным объектом опубликованным объектом, исходную ссылку, при отображении на электронном устройстве 102. Способ, которым отображается исходная ссылка на электронном устройстве 102, никак конкретно не ограничивается, и может быть представлен в части браузерного приложения 104, или части мобильного приложения 106. Также подразумевается, что исходная ссылка может отображаться не на части браузерного приложения 104 или части мобильного приложения 106, а быть всплывающим окном или чем-то подобным.
[000134] С учетом архитектуры, описанной со ссылкой на Фиг. 1-4, и приведенных выше примеров, возможно реализовать способ определения исходной ссылки на исходный объект с помощью сервера 120. На Фиг. 5 представлена блок-схема способа 500, реализованного в соответствии с вариантами осуществления настоящей технологии, не ограничивающими ее объем. Следует отметить, что некоторые этапы способа 500 могут выполняться параллельно или в различной последовательности, и что блок-схема, представленная на Фиг. 5, служит только для иллюстрационных целей.
[000135] Этап 502 - получение сервером множества опубликованных объектов, каждый из множества опубликованных объектов доступен через сеть на соответствующем сетевом адресе;
[000136] Способ 500 начинается на этапе 502, на котором сервер 120 получает из базы 124 данных поискового робота набор просмотренных объектов 202 через пакет 203 данных. Набор просмотренных объектов 202 включает в себя один или несколько опубликованных объектов (например, первый опубликованный объект 114 и второй опубликованный объект 116), просмотренные приложением 122 поискового робота. Этап 502 выполняется в ответ на то, что приложение 122 поискового робота просматривает первый сервер 115 хостинга объектов и/или второй сервер 118 хостинга объектов для извлечения опубликованных объектов (например, первого опубликованного объекта 114 и второго опубликованного объекта 116) и индексирования их в базе 124 данных поискового робота. Этап 502 также может быть выполнен в ответ на определение того, что тематическая кластеризация набора просмотренных объектов 202 еще не была выполнена.
[000137] Способ 500 будет описан ниже со ссылкой на один сценарий. Важно иметь в виду, что сценарий, который представлен ниже, служит только для целей иллюстрации, и настоящая технология никаким образом не ограничивается представленным ниже сценарием.
[000138] Сценарий 1:: Сервер 120 получает из базы 124 данных поискового робота набор просмотренных объектов 202. Набор поисковых объектов 202 включает в себя множество опубликованных объектов, обладающих своей соответствующей тематикой (т.е. темой) и своим соответствующим сетевым адресом (например, URL).
[000139] Этап 504 - анализ соответствующей тематики каждого из множества опубликованных объектов для создания множества тематических кластеров.
[000140] На этапе 504, в ответ на получение пакета 203 данных, сервер 120 создает тематические кластеры из набора просмотренных объектов 202 с помощью модуля 126 кластеризации. Модуль 126 кластеризации выполнен с возможностью анализировать содержимое каждого опубликованного объекта в наборе просмотренных объектов 202 и сохранять их в тематическом кластере (например, первом тематическом кластере 204, втором тематическом кластере 206, третьем тематическом кластере 208), который далее сохраняется в базе 128 данных кластеризации.
[000141] Сценарий 1: При получении пакета 203 данных, модуль 126 кластеризации получает доступ к содержимому каждого просмотренного объекта. Модуль 126 кластеризации создает 3 тематических кластера:
- 4 опубликованных объекта, относящихся к истории о собаке, которая научилась делать трюк на скейтборде (первый тематический кластер 204);
- 3 опубликованных объекта, относящихся к акуле-убийце, которая подружилась с рыбаком (второй тематический кластер 206).
- 2 опубликованных объекта, относящимся к пожару в Тауматафакатангихангакоауауотаматеатурипукакапикимаунгахоронукупокаифенуакитана таху, Новая Зеландия (третий тематический кластер 208).
[000142] База 128 данных кластеризации сохраняет первый тематический кластер 204 с набором связанных кластеризованных объектов 210 (т.е. 4 опубликованных объекта). База 128 данных кластеризации сохраняет второй тематический кластер 206 с набором связанных кластеризованных объектов 212 (т.е. 3 опубликованных объекта). База 128 данных кластеризации сохраняет третий тематический кластер 208 с набором связанных кластеризованных объектов 214 (т.е. два опубликованных объекта).
[000143] Этап 506 - извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, по меньшей мере одна потенциальная исходная ссылка является потенциальным сетевым адресом исходного объекта;
[000144] На этапе 506, после заполнения базы 128 данных кластеризации, сервер 120 извлекает из каждого из кластерных объектов исходящие ссылки 308, через модуль 130 экстрактора ссылки, и заполняет базу 312 данных извлеченных ссылок. Как было упомянуто ранее, до получения алгоритма 132 прогнозирования исходной ссылки, каждая из извлеченных ссылок, представляющих собой набор извлеченных ссылок 314, является потенциальной исходной ссылкой.
[000145] Этап 506 выполняется в ответ на то, что модуль 130 экстрактора ссылки получает пакет 302 данных из базы 128 данных кластеризации или, альтернативно, от модуля 126 кластеризации.
[000146] Сценарий 1: В отношении первого тематического кластера 204, модуль 130 экстрактора ссылки извлекает 6 исходящих ссылок 308. Как видно далее, 2 из 6 ссылок ведут на специализированное новостное агентство и обладают идентичными сетевыми адресами, 2 из 6 ссылок ведут на пост в социальной сети и обладают одинаковым сетевым адресом, 1 из 6 ссылок ведет на пост в блоге, и оставшаяся 1 ссылка ведет на новостное агенство, следующим образом:
- www.dognews.com/dog-does-a-flip-so-cool/ (специализированное новостное агентство)
- www.friendconnect.com/notes123/iohn.doe123/ (социальная сеть)
- www.dognews.com/dog-does-a-flip-so-cool/ (специализированное новостное агентство)
- www.friendconnect.com/notes123/john.doe123/ (социальная сеть)
- www.lovemelikevoulikeyourdog.com/postl23 (блог)
- www.dognews.com/dog-does-a-flip-so-cool/ (новостное агентство)
[000147] В отношении второго тематического кластера 206, модуль экстрактора извлекает 5 исходящих ссылок 308. Как видно далее, 4 из пяти ссылок ведут на новостные агентства, и оставшаяся 1 ссылка ведет на пост в блоге следующим образом:
- www.thelocalnewspaper.com/human-flesh-eating-shark-befriends-salmon-fisherman/ (новостное агентство)
- www.thefisherman.com/fisherman-tickles-shark-without-becoming-armless/ (новостное агентство)
- www.fishermanjoeblog.com/post123/how-i-became-bff-with-a-shark/ (блог)
- www.mayonews.ca/to-be-eaten-or-to-befriend-that-is-the-question-for-lucky-fisherman/ (новостное агентство)
- www.randomnews.com/instead-of-blood-the-sea-was-filled-with-bromance-between-two-species/ (новостное агентство)
[000148] В отношении третьего тематического кластера 208, модуль экстрактора извлекает 2 исходящих ссылок 308. Как будет видно далее, обе ссылки ведут на новостные агентства, следующим образом:
- www.newzealandnews.com/fire-fire-fire-everywhere-in-unpronounciable-hill (новостное агентство)
- www.bhutannews.com/fire-in-new-zealand (новостное агентство)
[000149] Этап 508 - создание на основе по меньшей мере одной извлеченной потенциальной исходной ссылки и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой, по меньшей мере одной пары ссылка-кластер;
[000150] На этапе 508 сервер создает с помощью модуля 130 экстрактора ссылки, для каждой извлеченной ссылки 314, пару 316 ссылка-кластер.
[000151] Сценарий 1: Сервер 120 с помощью модуля 130 экстрактора ссылки создается 6 пары ссылка-кластер в отношении 6 извлеченных ссылок из первого тематического кластера 204.
[000152] Сервер 120 с помощью модуля 130 экстрактора ссылки создается 5 пары ссылка-кластер в отношении 5 извлеченных ссылок из второго тематического кластера 206.
[000153] Сервер 120 с помощью модуля 130 экстрактора ссылки создается 2 пары ссылка-кластер в отношении 2 извлеченных ссылок из третьего тематического кластера 208.
[000154] Этап 510 - создание для каждой пары ссылка-кластер, набора характеристик, представляющих свойства пары ссылка-кластер;
[000155] На этапе 510 сервер 120 создает для каждой пары 316 ссылка-кластер, набор характеристик, представляющих свойства пары 316 ссылка-кластер.
[000156] Сценарий 1: Сервер 120, через модуль 130 экстрактора ссылки вычисляет набор характеристик для каждой из 6 пар ссылка-кластер, связанных с первым тематическим кластером 204.
[000157] Сервер 120, через модуль 130 экстрактора ссылки вычисляет набор характеристик каждой из 5 пар ссылка-кластер, связанных со вторым тематическим кластером 206.
[000158] Сервер 120, через модуль 130 экстрактора ссылки вычисляет набор характеристик каждой из 2 пар ссылка-кластер, связанных с третьим тематическим кластером 208.
[000159] Этап 512 - на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной ссылки;
[000160] На этапе 512 сервер 120 определяет с помощью алгоритма 132 прогнозирования исходной ссылки, исходную ссылку, связанную с исходным объектом для данного тематического кластера.
[000161] С помощью списка характеристик для каждой пары ссылка-кластер (например, пар 316-1-316-6 ссылка-кластер), содержащейся в пакете 402 данных в виде вводной характеристики, алгоритм 132 прогнозирования исходной ссылки обучается для определения исходной ссылки, связанной с данным тематическим кластером.
[000162] Этап 512 выполняется в ответ на получение пакета 402 данных с помощью алгоритма 132 прогнозирования исходной ссылки и модуля 130 экстрактора ссылки.
[000163] Сценарий 1: На основе набора характеристик 6 пары ссылка-кластер, прогнозируется алгоритмом 132 прогнозирования исходной ссылки, что следующая ссылка является исходной ссылкой, связанной с исходным объектом для первого тематического кластера 204: www.friendconnect.com/notes123/john.doe 123/.
[000164] На основе набора характеристик 5 пары ссылка-кластер, прогнозируется алгоритмом 132 прогнозирования исходной ссылки, что следующая ссылка является исходной ссылкой, связанной с исходным объектом для второго тематического кластера 206: - www.fishermanjoeblog.com/post123/how-i-became-bff-with-a-shark/.
[000165] На основе набора характеристик 2 пары ссылка-кластер, прогнозируется алгоритмом 132 прогнозирования исходной ссылки, что следующая ссылка является исходной ссылкой, связанной с исходным объектом для третьего тематического кластера 208: y-www.newzealandnews.com/fire-fire-fire-everywhere-in-unpronounciable-hill/.
[000166] Этап 514 - связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
[000167] На этапе 514 сервер 120 связывает исходную ссылку с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере 404.
[000168] Сценарий 1: Со ссылкой на первый тематический кластер 204 сервер 120 связывает ссылку www.friendconnect.com/notes123/iohn.doe123/ как исходную ссылку с каждым из объектов, который в нем содержится.
[000169] Со ссылкой на второй тематический кластер 206 сервер 120 связывает ссылку www.friendconnect.com/notes123/john.doe123/ как исходную ссылку с каждым из объектов, который в нем содержится.
[000170] Со ссылкой на третий тематический кластер 208 сервер 120 связывает ссылку www.newzealandnews.com/fire-fire-fire-everywhere-in-unprunciable-hill/ как исходную ссылку с каждым из объектов, который в нем содержится.
[000171] Затем способ 500 завершается.
[000172] Одним из основных вариантов применения процесса прогнозирования исходной ссылки является правильный прогноз исходного объекта для любых опубликованных объектов. Например, в условиях настоящей технологии нет необходимости просматривать и/или кластеризовать исходный объект. Например, в случаях, когда исходный объект является опубликованным в социальных медиа, или на другой платформе, которую может не просмотреть приложение 122 поискового робота сервера 120, настоящая технология способна определять исходную ссылку. Таким образом, можно утверждать, что исходный объект определяется без необходимости получить сервером 120 доступ к исходному объекту. В альтернативном варианте осуществления технологии, при определении исходной ссылки, сервер 120 выполнен с возможностью получать доступ к исходному объекту на основе определенной исходной ссылки для определения того, является ли исходная ссылка действительным сетевым адресом.
[000173] Важно иметь в виду, что могут быть использованы и другие способы прогнозирования ссылки. Специалисты в данной области техники, обладающие преимуществами от прочтения описания настоящей технологии, будут способны выбрать правильные алгоритмы прогнозирования исходной ссылки, которые бы учитывали набор характеристик из пар ссылка-кластер, как было описано в соответствии с вариантами осуществления настоящей технологии.
[000174] Модификации и улучшения вышеописанных вариантов осуществления настоящей технологии будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящей технологии ограничен только объемом прилагаемой формулы изобретения.
[000175] Варианты осуществления настоящей технологии можно изложить следующим образом, в виде пронумерованных пунктов:
[000176] ПУНКТ 1 Способ (500) определения исходной ссылки, исходная ссылка является сетевым адресом, связанным с исходным объектом, который обладает
оригинальной тематикой, из которой была получена тематика множества опубликованных объектов (114; 116), способ выполняется на сервере (120), сервер (120) связан с сетью (112), способ (500) включает в себя:
a. получение (502) сервером множества опубликованных объектов (114; 116), каждый из множества опубликованных объектов (114; 116) доступен через сеть (112) с соответствующим сетевым адресом;
b. анализ (504) соответствующей тематики каждого из множества опубликованных объектов (114; 116) для создания множества тематических кластеров (204; 206; 208);
c. извлечение (506) из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки (314), по меньшей мере одна потенциальная исходная ссылка (314) является потенциальным сетевым адресом исходного объекта;
d. создание (508), на основе по меньшей мере одной извлеченной потенциальной исходной ссылки (314) и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой (314), по меньшей мере одной пары ссылка-кластер,
e. создание (510) для каждой пары (316) ссылка-кластер набора характеристик, представляющих свойство пары (316) ссылка-кластер;
f. на основе набора характеристик, связанных с каждой парой (316) ссылка-кластер, определение (512) исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной ссылки (314); и
g. связывание (514) исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
[000177] ПУНКТ 2 Способ по п. 1, который дополнительно включает в себя, в ответ на запрос на доступ электронным устройством (102), через сеть (112), к данному опубликованному объекту из множества опубликованных объектов (114; 116), извлечение
данного опубликованного объекта и одновременную передачу указания на исходную ссылку.
[000178] ПУНКТ 3 Способ по любому из пп. 1-2, в котором множество опубликованных объектов (114; 116) получают из базы (124) данных поискового робота.
[000179] ПУНКТ 4 Способ по любому из пп. 1-3, в котором анализ соответствующей тематики включает в себя анализ соответствующего содержимого множества опубликованных объектов (114; 116), содержимое включает в себя по меньшей мере одно из (i) названия и (ii) тела текста.
[000180] ПУНКТ 5 Способ по любому из пп. 1-4, в котором по меньшей мере одна потенциальная исходная ссылка (314) на данный опубликованный объект включает в себя по меньшей мере одну исходящую ссылку (308), содержащуюся в данном опубликованном объекте.
[000181] ПУНКТ 6 Способ по любому из пп. 1-5, в котором исходный объект включен во множество опубликованных объектов (114; 116) в данном тематическом кластере.
[000182] ПУНКТ 7 Способ по любому из пп. 1-5, в котором исходный объект не включен во множество опубликованных объектов (114; 116) в данном тематическом кластере.
[000183] ПУНКТ 8 Способ по любому из пп. 1-7, в котором до этапа извлечения по меньшей мере одной потенциальной исходной ссылки (314) из данного опубликованного объекта, определение числа входящих ссылок (310) для данного опубликованного объекта, число входящих ссылок (310) представляет число исходящих ссылок (308) внутри опубликованных объектов (114; 116) из данного тематического кластера, ведущих на данный опубликованный объект.
[000184] ПУНКТ 9 Способ по п. 8, в котором извлечение по меньшей мере одной потенциальной исходной ссылки (314) выполняется для опубликованных объектов, обладающих заранее определенным числом входящих ссылок (310).
[000185] ПУНКТ 10 Способ по любому из пп. 1-9, в котором набор характеристик включает в себя по меньшей мере одно из:
(i) характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации опубликованного объекта, содержащего извлеченную потенциальную исходную ссылку, и средним временем публикации для других опубликованных объектов, содержащихся в этом же тематическом кластере;
(ii) характеристику репутации источника публикации, которая связана с опубликованным объектом, содержащим извлеченную потенциальную исходную ссылку;
(iii) характеристику репутации источника, связанную с конечным пунктом извлеченной потенциальной исходной ссылки;
(iv) характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная потенциальная исходная ссылка;
(v) нормализованную характеристику, представляющую число опубликованных объектов, связанных с извлеченной потенциальной исходной ссылкой, которые нормализованы по числу опубликованных объектов, содержащихся в тематическом кластере;
(vi) характеристику разницы, представляющую наличие других извлеченных потенциальных исходных ссылок в тематическом кластере;
(vii) характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере;
(viii) характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом опубликованного объекта, связанного с парой ссылка-кластер; и
(ix) характеристику ссылки, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере.
[000186] ПУНКТ 11 Способ по п. 10, в котором репутация источника публикации, связанного с опубликованным объектом, который содержит потенциальную исходную ссылку, и репутация исходной публикации, связанная с потенциальной исходной ссылкой (314), являются заранее определенными параметрами.
[000187] ПУНКТ 12 Способ по любому из пп. 1-11, в котором определение исходной ссылки (318-3) выполняется с помощью алгоритма (132) машинного обучения.
[000188] ПУНКТ 13 Способ по п. 12, в котором алгоритм (132) машинного обучения выполнен с возможностью получать набор характеристик в качестве вводной характеристики.
[000189] ПУНКТ 14 Способ по п. 12, включающий в себя обучение алгоритма (132) машинного обучения.
[000190] ПУНКТ 15 Способ по любому из пп. 1-14, в котором определение исходной ссылки (318-3) выполняется без получения доступа к объекту.
[000191] ПУНКТ 16 Сервер (120) выполнен с возможностью определения исходной ссылки, исходная ссылка является сетевым адресом, связанным с исходным объектом, который обладает оригинальной тематикой, из которой была получена тематика множества последующих опубликованных объектов, сервер (120) связан с сетью (112), сервер (120) включает в себя:
по меньшей мере один компьютерный процессор, который выполнен с возможностью выполнять способ по любому из пп. 1-15.
Изобретение относится к определению исходной ссылки. Технический результат - уменьшение потребления энергии и повышение эффективности использования пропускной способности канала. Способ определения исходной ссылки, исходная ссылка связана с исходным объектом, способ выполняется на сервере, способ включает в себя получение множества опубликованных объектов, создание множества тематических кластеров путем кластеризации опубликованных объектов, исходя из их соответствующей тематики, извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, создание по меньшей мере одной пары ссылка-кластер, причем для каждой пары ссылка-кластер создается набор характеристик, представляющих свойство пары ссылка-кластер, на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера; и связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере. 2 н. и 28 з.п. ф-лы, 5 ил.
1. Способ определения исходной ссылки, исходная ссылка является сетевым адресом, связанным с исходным объектом, который обладает оригинальной тематикой, из которой была получена тематика множества опубликованных объектов, способ выполняется на сервере, сервер связан с сетью, способ включает в себя:
получение сервером множества опубликованных объектов, каждый из множества опубликованных объектов доступен через сеть на соответствующем сетевом адресе;
анализ соответствующей тематики каждого из множество опубликованных объектов для создания множества тематических кластеров;
извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, по меньшей мере одна потенциальная исходная ссылка является потенциальным сетевым адресом исходного объекта;
создание на основе по меньшей мере одной извлеченной потенциальной исходной ссылки и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой, по меньшей мере одной пары ссылка-кластер,
создание для каждой пары ссылка-кластер набора характеристик, представляющих свойство пары ссылка-кластер;
на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной ссылки; и
связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
2. Способ по п. 1, который дополнительно включает в себя, в ответ на запрос на доступ электронным устройством, через сеть, к данному опубликованному объекту из множества опубликованных объектов, извлечение данного опубликованного объекта и одновременную передачу указания на исходную ссылку.
3. Способ по п. 1, в котором множество опубликованных объектов получают из базы данных поискового робота.
4. Способ по п. 1, в котором анализ соответствующей тематики включает в себя анализ соответствующего содержимого множества опубликованных объектов, содержимое включает в себя по меньшей мере одно из (i) названия и (ii) тела текста.
5. Способ по п. 1, в котором по меньшей мере одна потенциальная исходная ссылка на данный опубликованный объект включает в себя по меньшей мере одну исходящую ссылку, содержащуюся в данном опубликованном объекте.
6. Способ по п. 1, в котором исходный объект включен во множество опубликованных объектов в данном тематическом кластере.
7. Способ по п. 1, в котором исходный объект не включен во множество опубликованных объектов в данном тематическом кластере.
8. Способ по п. 1, в котором до этапа извлечения по меньшей мере одной потенциальной исходной ссылки из данного опубликованного объекта выполняется определение числа входящих ссылок для данного опубликованного объекта, число входящих ссылок представляет число исходящих ссылок внутри опубликованных объектов из данного тематического кластера, ведущих на данный опубликованный объект.
9. Способ по п. 8, в котором извлечение по меньшей мере одной потенциальной исходной ссылки выполняется для опубликованных объектов, обладающих заранее определенным числом входящих ссылок.
10. Способ по п. 1, в котором набор характеристик включает в себя по меньшей мере одно из:
(i) характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации опубликованного объекта, содержащего извлеченную потенциальную исходную ссылку, и средним временем публикации для других опубликованных объектов, содержащихся в этом же тематическом кластере;
(ii) характеристику репутации источника публикации, которая связана с опубликованным объектом, содержащим извлеченную потенциальную исходную ссылку;
(iii) характеристику репутации источника, связанную с конечным пунктом извлеченной потенциальной исходной ссылки;
(iv) характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная потенциальная исходная ссылка;
(v) нормализованную характеристику, представляющую число опубликованных объектов, связанных с извлеченной потенциальной исходной ссылкой, которые нормализованы по числу опубликованных объектов, содержащихся в тематическом кластере;
(vi) характеристику разницы, представляющую наличие других извлеченных потенциальных исходных ссылок в тематическом кластере;
(vii) характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере;
(viii) характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом опубликованного объекта, связанного с парой ссылка-кластер; и
(ix) характеристику ссылки, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере.
11. Способ по п. 10, в котором репутация источника публикации, связанного с опубликованным объектом, который содержит потенциальную исходную ссылку, и репутация исходной публикации, связанная с потенциальной исходной ссылкой, являются заранее определенными параметрами.
12. Способ по п. 1, в котором определение исходной ссылки выполняется с помощью алгоритма машинного обучения.
13. Способ по п. 12, в котором алгоритм машинного обучения выполнен с возможностью получать набор характеристик в качестве вводной характеристики.
14. Способ по п. 12, включающий в себя обучение алгоритма машинного обучения.
15. Способ по п. 1, в котором определение исходной ссылки выполняется без получения доступа к исходному объекту.
16. Сервер для определения исходной ссылки, которая является сетевым адресом, связанным с исходным объектом, обладающим оригинальной тематикой, из которой была получена тематика множества опубликованных объектов, сервер, связанный с сетью, сервер, включающий в себя:
по меньшей мере один компьютерный процессор, выполненный с возможностью осуществлять:
получение сервером множества опубликованных объектов, каждый из множества опубликованных объектов доступен через сеть на соответствующем сетевом адресе;
анализ соответствующей тематики каждого из множество опубликованных объектов для создания множества тематических кластеров;
извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, по меньшей мере одна потенциальная исходная ссылка является потенциальным сетевым адресом исходного объекта;
создание на основе по меньшей мере одной извлеченной потенциальной исходной ссылки и тематического кластера, связанного по меньшей мере с одной извлеченной потенциальной исходной ссылкой, по меньшей мере одной пары ссылка-кластер,
создание для каждой пары ссылка-кластер набора характеристик, представляющих свойство пары ссылка-кластер;
на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера, исходная ссылка является одной из по меньшей мере одной извлеченной потенциальной ссылки; и
связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере.
17. Сервер по п. 16, в котором процессор выполнен с возможностью, в ответ на запрос на доступ электронным устройством, через сеть, к данному опубликованному объекту из множества опубликованных объектов, осуществлять извлечение данного опубликованного объекта и одновременно передавать указание на исходную ссылку.
18. Сервер по п. 16, в котором процессор выполнен с возможностью получать множество опубликованных объектов из базы данных поискового робота.
19. Сервер по п. 16, в котором процессор выполнен с возможностью проводить анализ соответствующей тематики, включающий в себя анализ соответствующего содержимого множества опубликованных объектов, содержимое включает в себя по меньшей мере одно из (i) названия и (ii) тела текста.
20. Сервер по п. 16, в котором процессор выполнен с возможностью обрабатывать по меньшей мере одну потенциальную исходную ссылку на данный опубликованный объект включающую в себя по меньшей мере одну исходящую ссылку, содержащуюся в данном опубликованном объекте.
21. Сервер по п. 16, в котором процессор выполнен с возможностью обрабатывать исходную ссылку, связанную с исходным объектом, который включен во множество опубликованных объектов в данном тематическом кластере.
22. Сервер по п. 16, в котором процессор выполнен с возможностью обрабатывать исходную ссылку, связанную с исходным объектом, который не включен во множество опубликованных объектов в данном тематическом кластере.
23. Сервер по п. 16, в котором процессор выполнен с возможностью до этапа извлечения по меньшей мере одной потенциальной исходной ссылки из данного опубликованного объекта выполнять определение числа входящих ссылок для данного опубликованного объекта, число входящих ссылок представляет число исходящих ссылок внутри опубликованных объектов из данного тематического кластера, ведущих на данный опубликованный объект.
24. Сервер по п. 23, в котором процессор выполнен с возможностью выполнять извлечение по меньшей мере одной потенциальной исходной ссылки для опубликованных объектов, обладающих заранее определенным числом входящих ссылок.
25. Сервер по п. 16, в котором процессор выполнен с возможностью обрабатывать набор характеристик, включающий в себя по меньшей мере одно из:
(i) характеристику разницы во времени, характеристика разницы во времени связана с разницей во времени публикации опубликованного объекта, содержащего извлеченную потенциальную исходную ссылку, и средним временем публикации для других опубликованных объектов, содержащихся в этом же тематическом кластере;
(ii) характеристику репутации источника публикации, которая связана с опубликованным объектом, содержащим извлеченную потенциальную исходную ссылку;
(iii) характеристику репутации источника, связанную с конечным пунктом извлеченной потенциальной исходной ссылки;
(iv) характеристику агрегированной репутации для источников публикации в том же тематическом кластере, в котором находится извлеченная потенциальная исходная ссылка;
(v) нормализованную характеристику, представляющую число опубликованных объектов, связанных с извлеченной потенциальной исходной ссылкой, которые нормализованы по числу опубликованных объектов, содержащихся в тематическом кластере;
(vi) характеристику разницы, представляющую наличие других извлеченных потенциальных исходных ссылок в тематическом кластере;
(vii) характеристику наличия, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере;
(viii) характеристику содержимого, представляющую наличие одного или нескольких идентификаторов источников публикации в содержимом опубликованного объекта, связанного с парой ссылка-кластер; и
(ix) характеристику ссылки, представляющую наличие идентификатора источника публикации, связанного с извлеченной потенциальной исходной ссылкой в соответствующем содержимом опубликованных объектов, которые содержатся в тематическом кластере.
26. Сервер по п. 25, в котором процессор выполнен с возможностью обрабатывать репутацию источника публикации, связанного с опубликованным объектом, который
содержит потенциальную исходную ссылку, и репутацию исходной публикации, связанной с потенциальной исходной ссылкой, которые являются заранее определенными параметрами.
27. Сервер по п. 16, в котором процессор выполнен с возможностью выполнять определение исходной ссылки с помощью алгоритма машинного обучения.
28. Сервер по п. 27, в котором процессор выполнен с возможностью исполнять алгоритм машинного обучения, который выполнен с возможностью получать набор характеристик в качестве вводной характеристики.
29. Сервер по п. 27, в котором процессор дополнительно выполнен с возможностью осуществлять обучение алгоритма машинного обучения.
30. Сервер по п. 16, в котором процессор выполнен с возможностью выполнять определение исходной ссылки без получения доступа к исходному объекту.
Способ приготовления лака | 1924 |
|
SU2011A1 |
US 8577866 B1, 05.11.2013 | |||
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем | 1924 |
|
SU2012A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
RU 2014125439 A, 27.12.2015. |
Авторы
Даты
2018-07-06—Публикация
2016-04-07—Подача