Область техники, к которой относится изобретение
[001] Настоящая технология относится к рекомендательным системам в целом и, в частности, к способу и системе для формирования карточки объекта.
Уровень техники
[002] Различные глобальные и локальные сети (Интернет, World Wide Web, локальные сети и т.д.) обеспечивают пользователю доступ к огромному объему информации. Эта информация включает в себя множество контекстно-зависимых тем, таких как новости и текущие события, карты, информация о компаниях, финансовая информация и ресурсы, информация о дорожном движении, информация об играх и развлечениях и т.д. Пользователи применяют разнообразные клиентские устройства (настольный компьютер, ноутбук, смартфон, планшет и т.д.) для получения доступа к богатому информационному содержимому (изображениям, аудиоматериалам, видеоматериалам, анимации и другому мультимедийному контенту из таких сетей).
[003] Объем информации, доступной на различных Интернет-ресурсах, в течение последних нескольких лет растет экспоненциально. Для помощи типичному пользователю в поиске необходимой информации был разработан ряд решений. Одним из примеров таких решений является поисковая система. В качестве примера можно привести поисковые системы GOOGLE™, YANDEX™, YAHOO!™ и т.д. Пользователь может получать доступ к интерфейсу поисковой системы и отправлять поисковый запрос, связанный с информацией, которую требуется найти в сети Интернет. В ответ на поисковый запрос поисковая система выдает ранжированный список результатов поиска. Ранжированный список результатов поиска формируется на основе различных алгоритмов ранжирования, применяемых конкретной поисковой системой, используемой пользователем для поиска. Общая цель таких алгоритмов ранжирования заключается в представлении наиболее релевантных результатов поиска в верхней части ранжированного списка, тогда как менее релевантные результаты поиска могут располагаться в ранжированном списке на менее заметных местах (т.е. наименее релевантные результаты поиска находятся в нижней части ранжированного списка).
[004] Обычно поисковые системы обеспечивают хороший инструментарий для обработки поискового запроса, когда пользователь заранее знает, что требуется найти. Иными словами, если пользователь заинтересован в получении информации о наиболее популярных местах в Испании (т.е. если известна тема поиска), он может отправить поисковый запрос: «Наиболее популярные места в Испании?». В ответ поисковая система выдает ранжированный список Интернет-ресурсов, потенциально релевантных поисковому запросу. Пользователь может просмотреть ранжированный список результатов поиска, чтобы получить требуемую информацию, касающуюся мест для посещения в Испании. Если пользователь по какой-либо причине не удовлетворен полученными результатами поиска, он может выполнить повторный поиск, например, с более точным поисковым запросом, в частности, «Наиболее популярные места в Испании летом?», «Наиболее популярные места на юге Испании?», «Наиболее популярные места для гастрономического туризма в Испании?».
[005] Был предложен и другой подход, позволяющий пользователю обнаруживать контент и, в частности, быть в курсе последних событий. Например, весьма полезен сервис агрегатора новостей (такой как Yandex.News™), поскольку позволяет пользователям легко просматривать новостные статьи на одной платформе.
[006] Интерес к технологиям в сфере агрегирования цифровых новостей постоянно растет. Новости представляют собой очень важную часть повседневной жизни, например, биржевого брокера, юриста или амбициозного политика. Благодаря сервису агрегирования новостей пользователь может быть в курсе самых свежих новостей без частого посещения большого количества отдельных веб-сайтов (например, связанных с отдельными новостными агентствами или с отдельными газетами) для проверки обновлений контента.
[007] Очень часто пользователь, читающий конкретную новостную статью, желает узнать больше об объекте (таком как упоминаемый человек) из статьи. Согласно традиционному подходу, пользователь для получения дополнительных сведений об объекте должен покинуть связанную с новостной статьей веб-страницу и выполнить поиск информации об этом объекте. Очевидно, что такой подход не только утомителен, но и требует дополнительных затрат времени пользователя и вычислительных ресурсов.
[008] В патентной заявке US 20160070742 A1 «Optimized Narrative Generation and Fact Checking Method and System Based on Language usage» (Myslinski L., опубликована 10 марта 2016 г.) описана оптимизированная система проверки фактов, которая анализирует и определяет фактическую точность информации и/или характеристики информации путем сравнения этой информации с исходной информацией. Оптимизированная система проверки фактов автоматически контролирует информацию, обрабатывает информацию, проверяет информацию на наличие фактических ошибок оптимизированным образом и/или сообщает состояние информации. В некоторых вариантах осуществления изобретения оптимизированная система проверки фактов формирует, агрегирует и/или обобщает контент.
[009] В патентной заявке US 20110320437 А1 «Infinite Browse» (Yahoo! Inc., опубликована 29 декабря 2011 г.) описана интерактивная статья, усовершенствованная для отображения совместно со статьей дополнительного контента, который включает в себя извлеченные из статьи элементы и/или элементы, связанные с извлеченными из статьи элементами. Дополнительный контент также содержит информацию о каждом из элементов. Информацию об элементе возможно получать путем поиска элемента в одном или нескольких доступных для поиска репозиториях данных. Например, дополнительный контент для каждого элемента может включать в себя видеоматериал, изображение, а также результаты веб-поиска и/или поиска новостей. Дополнительный контент может также содержать информацию, такую как котировки акций, рефераты, карты, оценки и т.д. Элементы выбираются с использованием различных способов анализа и ранжирования на основе контекстно-зависимых факторов, таких как характерная для пользователя информация, зависящие от времени тенденции популярности, грамматические признаки, качество результатов поиска и т.д. Кроме того, эти элементы могут быть выбраны с целью получения дохода от рекламы.
[0010] В патентной заявке CN 106649780 A «Information Providing Method and Device Based on Artificial Intelligence» (Beijing Baidu Netcom Science and Technology Co., Ltd., опубликована 10 мая 2017 г.) описаны способ и устройство для предоставления информации на основе искусственного интеллекта. Способ включает в себя следующие шаги: определение интересующих пользователя признаков в соответствии с записями предыстории доступа пользователя; отображение пользователю через интерфейс отображения информации информационной карточки, которая соответствует интересующим признакам и содержит основной контент новостей, определенный после проведения анализа новостей в базе данных и соответствующий интересующим признакам. Таким образом пользователь может непосредственно получать интересующий его основной контент новостей, при этом сокращаются трудозатраты пользователя, экономится время пользователя, повышается эффективность получения информации пользователем, уменьшается интенсивность использования пользовательского приложения и сокращаются расходы пользователя.
Раскрытие изобретения
[0011] Целью настоящего изобретения является создание усовершенствованных способа и системы для формирования карточки объекта.
[0012] Безотносительно какой-либо конкретной теории, варианты осуществления настоящей технологии разработаны на основе предположения, что путем анализа взаимосвязи между объектами, поиск которых пользователь дополнительно выполнял после просмотра статьи, и ее характеристик можно прогнозировать вероятность дополнительных поисков объекта, представленного в новостной статье. Варианты осуществления настоящей технологии основываются на предположении, что сервер поисковой системы имеет доступ к большому количеству информации о прошлых поисках пользователя. Таким образом, если сервису агрегатора новостей доступна история просмотра и история поиска, связанные с одним или несколькими электронными устройствами, то можно прогнозировать вероятность выполнения дополнительных поисков такого объекта пользователем. В общем случае алгоритм машинного обучения (MLA, Machine Learning Algorithm) на основе обучающего набора обучается прогнозировать вероятность выполнения пользователем поиска объекта, указывающую на необходимость или целесообразность отображения карточки объекта, связанной с этим объектом. Обучающий набор для обучения алгоритма MLA формируется путем анализа прошлых сеансов таким образом, что на основе сочетания доступа пользователя к новостной статье с некоторым объектом и выполнения пользователем поиска с этим объектом в качестве поискового термина в пределах заранее заданного интервала времени (например, в течение одного сеанса просмотра) обучающий набор формируется путем добавления этого объекта и метки, указывающей на целесообразность отображения карточки объекта.
[0013] Согласно первому аспекту настоящей технологии реализован способ формирования карточки объекта. Способ выполняется сервером, соединенным через сеть связи с электронным устройством, связанным с пользователем. Сервер дополнительно связан с источником множества цифровых новостных статей и с базой данных объектов, содержащей указание на множество объектов и информационные данные, связанные с каждым объектом из этого множества объектов. Способ включает в себя: получение от электронного устройства запроса на цифровую новостную статью; извлечение запрошенной цифровой новостной статьи, содержащей корпус текста; разбор корпуса текста с целью идентификации содержащегося в нем объекта, соответствующего одному объекту из множества объектов; определение для этого объекта набора признаков объекта, содержащего набор статистических признаков, указывающих на статистическую характеристику этого объекта в запрошенной цифровой новостной статье и/или во множестве цифровых новостных статей; формирование для этого объекта алгоритмом MLA значения оценки, представляющего вероятность выполнения пользователем веб-поиска с целью обнаружения дополнительной информации, относящейся к этому объекту; формирование карточки объекта, содержащей этот объект и связанные с ним информационные данные, если значение оценки превышает заранее заданный порог; и передачу карточки объекта и запрошенной цифровой новостной статьи электронному устройству для отображения карточки объекта совместно с запрошенной цифровой новостной статьей.
[0014] В некоторых вариантах осуществления способа алгоритм MLA представляет собой нейронную сеть, а способ дополнительно включает в себя обучение нейронной сети с использованием обучающего набора данных до получения запроса на цифровую новостную статью.
[0015] В некоторых вариантах осуществления способа сервер дополнительно связан с журналом просмотра, хранящим указание на множество паттернов переходов в ходе сеансов навигации, каждый из которых содержит одну или несколько веб-страниц, к которым обращалось электронное устройство. Сервер также связан с обучающими наборами данных, содержащими по меньшей мере обучающий набор признаков объекта, связанных с обучающим объектом, и метку, связанную с обучающим объектом и указывающую количество паттернов переходов в ходе сеансов навигации, каждый из которых включает в себя первую веб-страницу, связанную с обучающей цифровой новостной статьей, содержащей обучающий объект, и вторую веб-страницу, связанную со страницей результатов поисковой системы, содержащей обучающий объект в качестве поискового термина.
[0016] В некоторых вариантах осуществления способа обучающий набор признаков объекта содержит обучающий набор статистических признаков, указывающих на статистические характеристики обучающего объекта в обучающей цифровой новостной статье и/или во множестве цифровых новостных статей, а метка содержит долю упомянутого количества паттернов переходов в ходе сеансов навигации из множества паттернов переходов в ходе сеансов навигации.
[0017] В некоторых вариантах осуществления способа обращение к первой веб-странице и ко второй веб-странице осуществлялось в течение заранее заданного периода времени в каждом паттерне из этого количества паттернов переходов в ходе сеансов навигации.
[0018] В некоторых вариантах осуществления способа обучение нейронной сети включает в себя ввод обучающего набора признаков объекта, связанных с обучающим объектом, в качестве входных данных, ввод метки, связанной с обучающим объектом, определение для набора признаков объекта и для метки набора признаков, представляющих свойство обучающего объекта, и обучение на основе набора признаков обучающего объекта определению обучающего значения оценки, указывающего на большую вероятность или на меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к обучающему объекту, после получения обучающей статьи.
[0019] В некоторых вариантах осуществления изобретения электронное устройство связано с идентификатором пользователя, каждый паттерн из упомянутого количества паттернов переходов в ходе сеансов навигации связан с идентификатором пользователя, а значение оценки представляет собой соответствующую вероятность выполнения пользователем, связанным с электронным устройством, веб-поиска для обнаружения дополнительной информации, относящейся к объекту.
[0020] В некоторых вариантах осуществления изобретения набор статистических признаков содержит по меньшей мере один из следующих признаков: количество вхождений указания на объект в запрошенной цифровой новостной статье; размер корпуса текста; среднее количество объектов в каждой статье из множества цифровых новостных статей; профиль, связанный с объектом, а набор признаков объекта дополнительно содержит связанный с объектом набор признаков профиля, при этом признак профиля представляет собой набор векторов, представляющих профиль текстового объекта, и/или признак популярности, указывающий на популярность объекта в качестве поискового термина в поисковой системе.
[0021] В некоторых вариантах осуществления изобретения набор признаков профиля формируется путем анализа веб-страницы, связанной с объектом (например, статьи Википедии), а признак популярности формируется путем анализа журнала поиска или журнала вертикального поиска, связанного с поисковой системой.
[0022] В некоторых вариантах осуществления изобретения способ дополнительно включает в себя разбор множества цифровых новостных статей по темам и определение подмножества из множества цифровых новостных статей, имеющих ту же тему, что и запрошенная цифровая новостная статья, при этом набор признаков объекта дополнительно содержит по меньшей мере количество цифровых новостных статей в этом подмножестве, содержащих этот объект.
[0023] В некоторых вариантах осуществления изобретения информационные данные представляют собой изображение и/или текст и/или видеоматериал.
[0024] Согласно другому аспекту настоящей технологии реализована система формирования карточки объекта. Система содержит сервер, соединенный через сеть связи с электронным устройством, связанным с пользователем, источник множества цифровых новостных статей и базу данных объектов, содержащую указание на множество объектов и информационные данные, связанные с каждым объектом из этого множества объектов. Сервер содержит процессор, выполненный с возможностью: получения от электронного устройства запроса на цифровую новостную статью; извлечения запрошенной цифровой новостной статьи, содержащей корпус текста; разбора корпуса текста с целью идентификации содержащегося в нем объекта, соответствующего одному объекту из этого множества объектов; определения для этого объекта набора признаков объекта, содержащего набор статистических признаков, указывающих на статистическую характеристику объекта в запрошенной цифровой новостной статье и/или во множестве цифровых новостных статей; формирования алгоритмом MLA для этого объекта значения оценки, представляющего вероятность выполнения пользователем веб-поиска с целью обнаружения дополнительной информации, относящейся к этому объекту; формирования карточки объекта, содержащей объект и связанные с ним информационные данные, если значение оценки превышает заранее заданный порог; и передачи карточки объекта и запрошенной цифровой новостной статьи электронному устройству для отображения карточки объекта совместно с запрошенной цифровой новостной статьей.
[0025] В некоторых вариантах осуществления изобретения алгоритм MLA представляет собой нейронную сеть, а процессор дополнительно способен обучать эту нейронную сеть с использованием обучающего набора данных до получения запроса на цифровую новостную статью.
[0026] В некоторых вариантах осуществления изобретения сервер дополнительно связан с журналом просмотра, хранящим указание на множество паттернов переходов в ходе сеансов навигации, каждый из которых содержит одну или несколько веб-страниц, к которым обращалось электронное устройство, и с обучающими наборами данных, содержащими по меньшей мере обучающий набор признаков объекта, связанных с обучающим объектом, и метку, связанную с обучающим объектом и указывающую количество паттернов переходов в ходе сеансов навигации, каждый из которых включает в себя первую веб-страницу, связанную с обучающей цифровой новостной статьей, содержащей обучающий объект, и вторую веб-страницу, связанную со страницей результатов поисковой системы, содержащей обучающий объект в качестве поискового термина.
[0027] В некоторых вариантах осуществления изобретения обучающий набор признаков объекта содержит обучающий набор статистических признаков, указывающих на статистические характеристики обучающего объекта в обучающей цифровой новостной статье и/или во множестве цифровых новостных статей, а метка содержит долю упомянутого количества паттернов переходов в ходе сеансов навигации во множестве паттернов переходов в ходе сеансов навигации.
[0028] В некоторых вариантах осуществления изобретения обращение к первой веб-странице и ко второй веб-странице осуществлялось в течение заранее заданного периода времени в каждом паттерне из упомянутого количества паттернов переходов в ходе сеансов навигации.
[0029] В некоторых вариантах осуществления изобретения для обучения нейронной сети процессор выполнен с возможностью ввода обучающего набора признаков объекта, связанных с обучающим объектом, в качестве входных данных, ввода метки, связанной с обучающим объектом, определения для набора признаков объекта и для метки набора признаков, представляющих свойство обучающего объекта, и обучения на основе набора признаков обучающего объекта определению обучающего значения оценки, указывающего на большую вероятность или на меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к обучающему объекту, после получения обучающей статьи.
[0030] В некоторых вариантах осуществления изобретения электронное устройство связано с идентификатором пользователя, каждый паттерн из упомянутого количества паттернов переходов в ходе сеансов навигации связан с идентификатором пользователя, а значение оценки представляет соответствующую вероятность выполнения пользователем, связанным с электронным устройством, веб-поиска для обнаружения дополнительной информации, относящейся к объекту.
[0031] В некоторых вариантах осуществления изобретения набор статистических признаков содержит по меньшей мере одно из следующего: количество вхождений указания на объект в запрошенной цифровой новостной статье; размер корпуса текста; среднее количество объектов в каждой статье из множества цифровых новостных статей; и профиль, связанный с объектом, а набор признаков объекта дополнительно содержит связанный с объектом набор признаков профиля, при этом признак профиля представляет собой набор векторов, представляющих профиль текстового объекта, и/или признак популярности, указывающий на популярность объекта в качестве поискового термина в поисковой системе.
[0032] В некоторых вариантах осуществления изобретения набор признаков профиля формируется путем анализа веб-страницы, связанной с объектом, а признак популярности формируется путем анализа журнала поиска или журнала вертикального поиска, связанного с поисковой системой.
[0033] В некоторых вариантах осуществления изобретения процессор дополнительно выполнен с возможностью разбора множества цифровых новостных статей по темам и определения подмножества из множества цифровых новостных статей, имеющих ту же тему, что и запрошенная цифровая новостная статья, при этом набор признаков объекта дополнительно содержит по меньшей количество цифровых новостных статей в этом подмножестве, содержащих заданный объект.
[0034] В некоторых вариантах осуществления изобретения информационные данные представляют собой изображение и/или текст и/или видеоматериал.
Краткое описание чертежей
[0035] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.
[0036] На фиг. 1 представлена схема системы, реализованной согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.
[0037] На фиг. 2 приведена схема базы данных новостей системы, представленной на фиг. 1.
[0038] На фиг. 3 приведен снимок экрана для цифрового документа, хранящегося в базе данных новостей системы, представленной на фиг. 1.
[0039] На фиг. 4 приведена структура каталога базы данных объектов системы, представленной на фиг. 1.
[0040] На фиг. 5 представлен пример процесса формирования карточки объекта.
[0041] На фиг. 6 приведена структура данных журнала навигации, которые хранятся в базе данных журналов системы, представленной на фиг. 1.
[0042] На фиг. 7 приведена схема обучения алгоритма машинного обучения, представленного на фиг. 5.
[0043] На фиг. 8 приведена структура данных журнала навигации, разобранных приложением агрегатора новостей системы, представленной на фиг. 1.
[0044] На фиг. 9 приведен снимок экрана для цифрового документа, отображаемого на электронном устройстве системы, представленной на фиг. 1.
[0045] На фиг. 10 представлена блок-схема способа формирования карточки объекта.
Осуществление изобретения
[0046] На фиг. 1 представлена схема системы 100, пригодной для реализации вариантов осуществления настоящей технологии, не имеющих ограничительного характера. Очевидно, что система 100 приведена лишь для демонстрации варианта реализации настоящей технологии. Таким образом, дальнейшее описание системы представляет собой описание примеров, иллюстрирующих данную технологию. Это описание не предназначено для определения объема или границ настоящей технологии. В некоторых случаях приводятся полезные примеры модификаций системы 100. Они способствуют пониманию, но также не определяют объема или границ данной технологии. Эти модификации не составляют исчерпывающего перечня. Как должно быть понятно специалисту в данной области, вероятно, возможны и другие модификации. Кроме того, если в некоторых случаях модификации не описаны (т.е. примеры модификаций отсутствуют), это не означает, что они невозможны и/или что это описание содержит единственный вариант реализации того или иного элемента настоящей технологии. Специалисту в данной области должно быть понятно, что это не так. Кроме того, следует понимать, что система 100 в некоторых случаях может представлять собой упрощенную реализацию настоящей технологии, и что такие варианты представлены для того, чтобы способствовать лучшему ее пониманию. Специалисту в данной области должно быть понятно, что различные варианты осуществления данной технологии могут быть значительно сложнее.
[0047] Представленные в данном описании примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники могут разработать различные способы и устройства, которые явно не описаны и не показаны, но осуществляют принципы настоящей технологии в пределах ее существа и объема. Кроме того, чтобы способствовать лучшему пониманию, следующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалисту в данной области должно быть понятно, что различные варианты осуществления данной технологии могут быть значительно сложнее.
[0048] Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены в пригодной для чтения компьютером среде и выполняться с использованием компьютера или процессора, независимо от того, показан явно такой компьютер или процессор либо нет.
[0049] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут осуществляться с использованием специализированных аппаратных средств, а также аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, его функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может, помимо прочего, подразумевать аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), ПЗУ для хранения программного обеспечения, ОЗУ и энергонезависимое ЗУ. Также могут подразумеваться другие аппаратные средства, общедоступные и/или заказные.
[0050] Учитывая вышеизложенные принципы, далее рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.
[0051] Система 100 содержит электронное устройство 102. Электронное устройство 102 обычно взаимодействует с пользователем (не показан) и иногда может называться «клиентским устройством». Следует отметить, что связь электронного устройства 102 с пользователем не означает необходимости указывать или предполагать какой-либо режим работы, например, вход в систему, регистрацию и т.п.
[0052] В контексте настоящего описания, если явно не указано другое, термин «электронное устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры электронных устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как электронное устройство, также может функционировать как сервер в отношении других электронных устройств. Использование выражения «электронное устройство» не исключает использования нескольких электронных устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов, либо шагов любого описанного здесь способа.
[0053] Электронное устройство 102 содержит энергонезависимое ЗУ 104. Энергонезависимое ЗУ 104 может содержать один или несколько носителей информации и в общем случае обеспечивает пространство для хранения компьютерных команд, которые выполняются процессором 106. Например, энергонезависимое ЗУ 104 может быть реализовано как пригодная для чтения компьютером среда, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.
[0054] Электронное устройство 102 содержит известные в данной области техники аппаратные средства и/или программное обеспечение и/или встроенное программное обеспечение (либо их сочетание) для выполнения браузерного приложения 108. В общем случае браузерное приложение 108 обеспечивает пользователю (не показан) доступ к одному или нескольким веб-ресурсам. Способ реализации браузерного приложения 108 известен в данной области техники и не описывается. Достаточно сказать, что в качестве браузерного приложения 108 может использоваться приложение Google™ Chrome™, Yandex.Browser™ или другой коммерчески доступный или проприетарный браузер.
[0055] Независимо от способа реализации, браузерное приложение 108 обычно имеет командный интерфейс 110. В общем случае пользователь (не показан) может осуществлять доступ к веб-ресурсу через сеть связи двумя основными способами. Пользователь может осуществлять доступ к конкретному веб-ресурсу непосредственно, введя адрес веб-ресурса (обычно универсальный указатель ресурсов (URL, Uniform Resource Locator), такой как www.example.com) в командном интерфейсе 110 либо перейдя по ссылке в сообщении электронной почты или в другом веб-ресурсе (это действие эквивалентно копированию и вставке в командный интерфейс 110 URL-адреса, связанного со ссылкой).
[0056] В качестве альтернативы, пользователь в соответствии со своей целью может выполнять поиск интересующего ресурса с использованием поисковой системы (не показана). Последний вариант особенно удобен, когда пользователю известна интересующая его тема, но не известен URL-адрес веб-ресурса. Поисковая система обычно выдает страницу результатов поисковой системы (SERP, Search Engine Result Page), которая содержит ссылки на один или несколько веб-ресурсов, соответствующих запросу пользователя. После перехода по одной или нескольким ссылкам на странице SERP пользователь может открыть требуемый веб-ресурс.
[0057] Электронное устройство 102 содержит интерфейс связи (не показан) для двухсторонней связи с сетью 114 связи по линии 112 связи. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии в качестве сети 114 связи может использоваться сеть Интернет. В других вариантах реализации настоящей технологии сеть 114 связи может быть реализована иначе, например, в виде любой глобальной сети связи, локальной сети связи, частной сети связи и т.п.
[0058] На реализацию линии 112 связи не накладывается каких-либо особых ограничений, она зависит от реализации электронного устройства 102. Лишь в качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, в которых электронное устройство 102 реализовано в виде беспроводного устройства связи (такого как смартфон), линия 112 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.) или проводной линии связи (такой как соединение на основе Ethernet).
[0059] Должно быть очевидно, что варианты реализации электронного устройства 102, линии 112 связи и сети 114 связи приводятся лишь для иллюстрации. Специалисту в данной области должны быть ясны и другие конкретные детали реализации электронного устройства 102, лини 112 связи и сети 114 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.
[0060] Система 100 также содержит сервер 116, соединенный с сетью 114 связи. Сервер 116 может быть реализован в виде традиционного компьютерного сервера. В примере осуществления настоящей технологии сервер 116 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 116 может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 116 реализован в виде одного сервера. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии функции сервера 116 могут быть распределены между несколькими серверами.
[0061] Сервер 116 содержит интерфейс связи (не показан), структура и настройки которого позволяют осуществлять связь с различными элементами (такими как электронное устройство 102 и другие устройства, которые могут быть связаны с сетью 114 связи) через сеть 114 связи. Сервер 116 содержит память 118 сервера, которая включает в себя один или несколько носителей информации и в общем случае обеспечивает пространство для хранения компьютерных программ, которые выполняются процессором 120 сервера. Например, память 118 сервера может быть реализована в виде машиночитаемого физического носителя информации, включая ПЗУ и/или ОЗУ. Память 118 сервера также может включать в себя одно или несколько устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.
[0062] В некоторых вариантах осуществления изобретения сервер 116 может управляться организацией, которая предоставляет описанное выше браузерное приложение 108. Например, если браузерное приложение 108 представляет собой приложение Yandex.Browser™, то сервер 116 может управляться компанией Yandex LLC (ул. Льва Толстого, 16, Москва, 119021, Россия). В других вариантах осуществления изобретения сервер 116 может управляться организацией, отличной от той, которая предоставляет описанное выше браузерное приложение 108.
[0063] В соответствии с настоящей технологией, сервер 116 способен выполнять приложение 122 агрегатора новостей, такое как Yandex.News™. Способ реализации приложения 122 агрегатора новостей подробно описан ниже. Здесь достаточно сказать, что приложение 122 агрегатора новостей способно предоставлять сервис агрегатора новостей, доступный электронному устройству 102 через сеть 114 связи, чтобы обеспечивать новостной контент из нескольких источников (не показаны).
[0064] С этой целью сервер 116 связан с базой 124 данных новостей с использованием выделенной линии связи (не обозначена). В других вариантах осуществления изобретения база 124 данных новостей может быть связана с сервером 116 с использованием сети 114 связи без выхода за границы настоящей технологии. Несмотря на то, что база 124 данных новостей схематично показана здесь в виде одного элемента, предполагается, что база 124 данных новостей может быть распределенной.
[0065] База 124 данных новостей наполнена множеством цифровых документов (не обозначены). На характер каждого документа из множества цифровых документов не накладывается каких-либо особых ограничений. В общем случае документ из числа одного или нескольких цифровых документов содержит одно или несколько предложений, изображений, видеоматериалов и т.д. Цифровой документ может представлять собой, например, новостную статью (например, статью CNN™ о текущей мировой политике).
База 124 данных новостей
[0066] На фиг. 2 представлен не имеющий ограничительного характера вариант осуществления базы 124 данных новостей, наполненной множеством цифровых документов.
[0067] На способ наполнения базы 124 данных новостей не накладывается каких-либо ограничений. Например, база 124 данных новостей может быть связана с функцией обхода, способной собирать множество цифровых документов из выбранных источников новостей, таких как веб-сайты газет, интернет-журналы, другие электронные новостные ресурсы и т.д. В качестве альтернативы база 124 данных новостей может получать множество цифровых документов непосредственно из различных источников без использования функции обхода.
[0068] В базе 124 данных новостей хранится множество цифровых документов, сгруппированных в соответствии с одной или несколькими темами или событиями. Соответственно, база 124 данных новостей имеет доступ к функции кластеризации по темам. На способ кластеризации множества цифровых документов в соответствии с одной или несколькими темами или событиями не накладывается каких-либо ограничений. Например, для этого могут использоваться традиционные способы кластеризации, такие как подходы на основе тематического моделирования или на основе ключевых слов.
[0069] Множество цифровых документов сгруппировано в один или несколько тематических кластеров 202. Например, в базе 124 данных новостей хранятся первый тематический кластер 204, второй тематический кластер (не обозначен) и третий тематический кластер (не обозначен). Первый тематический кластер 204 содержит цифровой документ 206.
Цифровой документ
[0070] На фиг. 3 приведен снимок 300 экрана для цифрового документа 206, на котором представлен отображаемый цифровой текст 302. Например, цифровой текст может представлять собой версию цифрового документа 206, отображаемую на устройстве вывода электронного устройства 102 в ответ на обращение браузерного приложения 108 к цифровому документу 206 с использованием приложения 122 агрегатора новостей. Несмотря на то, что устройство вывода не изображено на чертежах, оно может быть реализовано в виде экрана, монитора, сенсорного экрана и т.п. В некоторых вариантах осуществления изобретения новостная статья представляет собой текст, написанный на некотором естественном языке.
[0071] Цифровой текст 302 содержит заголовок 304 и корпус текста, состоящий из множества предложений 306. Во избежание сомнений следует отметить, что цифровой текст 302 (и, в частности, каждая его буква) представлен символами «X». Тем не менее, на практике отдельные предложения состоят из слов на определенном языке (например, на английском языке).
[0072] Несмотря на то, что в качестве иллюстрации представлен снимок экрана лишь для цифрового документа 206, очевидно, что каждый документ из множества цифровых документов, хранящихся в базе 124 данных новостей, также содержит соответствующие цифровые тексты.
[0073] Как показано на фиг. 1, сервер 116 дополнительно связан с базой 126 данных объектов с использованием выделенной линии связи (не обозначена). В других вариантах осуществления изобретения база 126 данных объектов может быть связана с сервером 116 с использованием сети 114 связи без выхода за границы настоящей технологии. Несмотря на то, что база 126 данных объектов схематично показана здесь в виде одного элемента, предполагается, что база 126 данных объектов может быть распределенной.
[0074] База 126 данных объектов выполняет функции репозитория каталога 128.
[0075] На фиг. 4 представлен не имеющий ограничительного характера пример каталога 128, наполненного множеством объектов и информационными данными (как описано ниже).
[0076] В представленном примере каталог 128 содержит четыре объекта: первый объект 402, второй объект 404, третий объект 406 и четвертый объект 408. Каждый из объектов представляет собой слово, термин или фразу, связанную с элементом, таким как человек, место, объект, событие и т.п. Например, первый объект 402 может представлять собой словосочетание «Tom Cruise», второй объект 404 может представлять собой слово «Yakiniku», третий объект 406 может представлять собой словосочетание «Notre dame Cathedral», а четвертый объект 408 может представлять собой выражение «Die Hard 2». Несмотря на то, что в каталоге 128 показаны лишь четыре объекта, очевидно, что каталог 128 может содержать больше или меньше четырех объектов.
[0077] Каждый из объектов связан с информационными данными. Первый объект 402 связан с информационными данными 410, второй объект 404 связан с информационными данными 412, третий объект 406 связан с информационными данными 414 и четвертый объект 408 связан с информационными данными 416. В некоторых вариантах осуществления изобретения информационные данные могут включать в себя описание высокого уровня связанного с ними объекта (как описано ниже).
[0078] В некоторых вариантах осуществления изобретения информационные данные дополнительно содержат указание на веб-ресурс (такое как URL-адрес), связанный с объектом. Например, первые информационные данные 410 могут содержать первый URL-адрес 418 страницы «Tom Cruise» энциклопедии Wikipedia™, вторые информационные данные 412 могут содержать второй URL-адрес 420, который также относится к странице энциклопедии Wikipedia™ («Yakiniku») и т.д.
[0079] В некоторых вариантах осуществления изобретения информационные данные соответствуют информации, полученной с веб-ресурса, связанного с объектом. Например, информационные данные могут соответствовать первому абзацу доступной с использованием первого URL-адреса 418 страницы «Tom Cruise» энциклопедии Wikipedia™.
[0080] На способ наполнения каталога 128 не накладывается каких-либо ограничений, например, он может наполняться вручную администратором базы 126 данных объектов.
[0081] Как показано на фиг. 1, сервер 116 дополнительно связан с базой 130 данных журналов с использованием выделенной линии связи (не обозначена). В других вариантах осуществления изобретения база 130 данных журналов может быть связана с сервером 116 с использованием сети 114 связи без выхода за границы настоящей технологии. Несмотря на то, что база 130 данных журналов схематично показана здесь как один элемент, предполагается, что база 130 данных журналов может быть распределенной.
[0082] База 130 данных журналов способна хранить ранее собранные данные, связанные с одним или несколькими электронными устройствами. В некоторых не имеющих ограничительного характера вариантах осуществления изобретения база данных журналов содержит журнал 134 поиска и журнал 132 просмотра веб-страниц.
[0083] В общем случае в журнале 134 поиска хранятся строки поиска, которые один или несколько пользователей вводят в интерфейсе поискового запроса множества электронных устройств для выполнения поиска с использованием приложений поисковых систем, таких как Google™ или Yandex™ (не показаны). В связи с этим база 130 данных журналов может быть связана с сервером поисковой системы (не показан).
[0084] С другой стороны, в журнале 132 просмотра веб-страниц хранятся данные истории просмотра веб-страниц (описание приведено ниже) одним или несколькими электронными устройствами при навигации в сети Интернет.
[0085] На способ наполнения журнала 132 просмотра веб-страниц не накладывается каких-либо ограничений. Например, база 130 данных журналов может быть связана с веб-сервером (не показан), способным выполнять (или осуществлять доступ иным образом) приложение веб-аналитики, такое как Yandex.Metrica™ или Google Analytics™. Способ реализации приложения веб-аналитики общеизвестен и поэтому подробно не описывается. Достаточно сказать, что приложение веб-аналитики способно отслеживать и сохранять в журнале 132 просмотра веб-страниц данные истории просмотра, связанные с одним или несколькими электронными устройствами (не показаны).
[0086] В качестве примеров данных истории просмотра, которые могут храниться в журнале 132 просмотра веб-страниц, среди прочего, можно привести следующее:
- указание на уникальный идентификатор браузера, связанный с браузерным приложением, обращающимся к заданному веб-серверу;
- URL-адреса посещенных веб-ресурсов, размещенных на заданном веб-сервере или на любых других веб-серверах (не показаны), обслуживаемых приложением веб-аналитики; и
- время обращения к веб-ресурсам (т.е. отметка времени).
[0087] Способ сбора данных истории просмотра приложением веб-аналитики хорошо известен и здесь не описывается.
[0088] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения предполагается, что помимо или вместо наполнения журнала 132 просмотра веб-страниц данными истории просмотра, принятыми от приложения веб-аналитики, данные истории просмотра могут приниматься непосредственно от браузерного приложения, например, при обращении к приложению 122 агрегатора новостей. В этих вариантах осуществления настоящей технологии данные истории просмотра могут собираться анонимно путем отделения данных истории просмотра от любых идентификаторов пользователя браузерного приложения 108.
[0089] На фиг. 6 представлен не имеющий ограничительного характера пример журнала 132 просмотра веб-страниц из браузерного приложения 108. Журнал 132 просмотра веб-страниц содержит (а) время 602 обращения для веб-ресурсов, к которым обращалось браузерное приложение 108, и (б) набор 604 URL-адресов для каждого веб-ресурса, отсортированных в хронологическом порядке на основе соответствующего времени 602 обращения. Несмотря на то, что журнал 132 просмотра веб-страниц показан как содержащий только время 602 обращения и набор 604 URL-адресов, объем изобретения этим не ограничивается. Он дополнительно может содержать другую информацию, полученную приложением веб-аналитики (не показано) и/или электронным устройством 102.
[0090] В представленном примере показано, что браузерное приложение 108 (связанное с уникальным идентификатором 606 браузера) обращалось по меньшей мере к 15 веб-ресурсам в течение показанного периода времени.
[0091] Очевидно, что несмотря на то, что в представленном примере журнал 132 просмотра веб-страниц содержит только данные истории просмотра, связанные с браузерным приложением 108 электронного устройства 102, объем изобретения этим не ограничивается. Предполагается, что журнал 132 просмотра веб-страниц содержит данные истории просмотра, связанные со множеством электронных устройств (не показаны).
Приложение 122 агрегатора новостей
[0092] На фиг. 5 представлена схема работы приложения 122 агрегатора новостей, реализованного согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Приложение 122 агрегатора новостей выполняет или иным способом осуществляет доступ к процедуре 502 приема, процедуре 504 разбора, процедуре 506 ранжирования и процедуре 508 формирования карточки.
[0093] В контексте настоящего описания термин «процедура» подразумевает подмножество компьютерных программных команд приложения 122 агрегатора новостей, выполняемых процессором 120 сервера с целью выполнения описанных ниже функций, связанных с различными процедурами (процедурой 502 приема, процедурой 504 разбора, процедурой 506 ранжирования и процедурой 508 формирования карточки). Во избежание сомнений, должно быть однозначно понятно, что процедура 502 приема, процедура 504 разбора, процедура 506 ранжирования и процедура 508 формирования карточки показаны по отдельности для удобства объяснения процессов, выполняемых приложением 122 агрегатора новостей. Предполагается, что некоторые или все процедуры из числа процедуры 502 приема, процедуры 504 разбора, процедуры 506 ранжирования и процедуры 508 формирования карточки могут быть реализованы в виде одной или нескольких комбинированных процедур.
[0094] Для лучшего понимания настоящей технологии ниже описаны функции и обрабатываемые или сохраняемые данные и/или информация процедуры 502 приема, процедуры 504 разбора, процедуры 506 ранжирования и процедуры 508 формирования карточки.
Процедура 502 приема
[0095] Процедура 502 приема способна принимать пакет 510 данных от электронного устройства 102. Пакет 510 данных содержит запрос на цифровой документ (такой как цифровой документ 206). В некоторых вариантах осуществления пакет 510 данных дополнительно содержит уникальный идентификатор 606 браузера, связанный с браузерным приложением 108. На способ передачи электронным устройством 102 пакета 510 данных не накладывается каких-либо ограничений. Например, передача может выполняться после того, как электронное устройство 102 обратится к приложению 122 агрегатора новостей через сеть 114 связи и выберет цифровой документ 206 для просмотра.
[0096] Процедура 502 приема способна обращаться к базе 124 данных новостей и извлекать запрошенный цифровой документ 206.
Процедура 504 разбора
[0097] После извлечения цифрового документа 206 из базы 124 данных новостей процедура 502 приема способна передавать пакет 512 данных процедуре 504 разбора. Пакет 512 данных содержит цифровой документ 206. В некоторых вариантах осуществления изобретения пакет 512 данных дополнительно содержит уникальный идентификатор 606 браузера.
[0098] Процедура 504 разбора способна выполнять следующие функции. Сначала процедура 504 разбора способна анализировать контент цифрового документа 206 с целью определения наличия объектов, хранящихся в базе 126 данных объектов (см. фиг. 4). Иными словами, процедура 504 разбора способна искать объекты в каталоге 128 с целью определения наличия одного или нескольких заданных объектов в цифровом тексте 302 (см. фиг. 3).
[0099] В цифровом тексте 302 процедура 504 разбора определила первый текстовый объект 308 (соответствующий первому объекту 402) и второй текстовый объект 310 (соответствующий второму объекту 404). Предполагается, что процедура 504 разбора может определить больше или меньше объектов в цифровом тексте 302.
Процедура 506 ранжирования
[00100] После определения объектов в цифровом тексте 302 процедура 504 разбора способна передать пакет 514 данных процедуре 506 ранжирования. Пакет 514 данных содержит первый текстовый объект 308 и второй текстовый объект 310. В некоторых вариантах осуществления изобретения пакет 514 данных дополнительно содержит уникальный идентификатор 606 браузера.
[00101] Процедура 506 ранжирования способна выполнять следующие функции.
[00102] Сначала процедура 506 ранжирования способна определить набор признаков, связанный с первым текстовым объектом 308 и со вторым текстовым объектом 310. Набор признаков указывает на одну или несколько характеристик первого текстового объекта 308 и второго текстового объекта 310, соответственно. В некоторых вариантах осуществления изобретения набор признаков может включать в себя признаки по меньшей мере одного из следующих трех видов: (а) набор признаков профиля, связанных с текстовым объектом (описан ниже); (б) признак популярности, связанный с текстовым объектом (описан ниже); (в) набор статистических признаков, связанных с текстовым объектом (описан ниже).
[00103] Процедура 506 ранжирования способна определить первый набор признаков профиля, связанных с первым текстовым объектом 308, и второй набор признаков профиля, связанных со вторым текстовым объектом 310. На реализацию первого набора признаков профиля и второго набора признаков профиля не накладывается каких-либо ограничений. Например, они могут представлять собой наборы векторов, представляющих профиль первого текстового объекта 308 и второго текстового объекта 310, соответственно.
[00104] На способ определения первого набора признаков профиля и второго набора признаков профиля не накладывается каких-либо ограничений. Например, процедура 506 ранжирования может обращаться к каталогу 128 (см. фиг. 4) и дополнительно осуществлять доступ с использованием URL-адресов, связанных с первым текстовым объектом 308 (первого URL-адреса 418, связанного с первым объектом 402 «Tom Cruise») и со вторым текстовым объектом 310 (второго URL-адреса 420, связанного со вторым объектом 404 «Yakiniku»). Процедура 506 ранжирования дополнительно может быть способной анализировать контент соответствующих веб-страниц и формировать первый набор признаков профиля и второй набор признаков профиля путем использования алгоритма машинного обучения (не показан). Например, алгоритм машинного обучения может учитывать категорию, профессию, страну происхождения и информацию другого рода, связанную с первым текстовым объектом 308 и со вторым текстовым объектом 310.
[00105] После определения первого набора признаков профиля и второго набора признаков профиля процедура 506 ранжирования дополнительно способна обратиться к журналу 134 поиска и определить признак популярности для первого текстового объекта 308 и для второго текстового объекта 310. В некоторых вариантах осуществления изобретения признак популярности указывает количество поисков в журнале 134 поиска, выполненных с использованием первого текстового объекта 308 и второго текстового объекта 310 в качестве строки поиска в течение заранее заданного периода времени, например, предыдущих 10 суток, предыдущих 24 часов и т.п. В некоторых вариантах осуществления изобретения дополнительно предполагается, что процедура 506 ранжирования имеет доступ к журналу вертикального поиска (не показан), содержащему строки поиска, которые один или несколько пользователей вводят в интерфейсе поискового запроса множества электронных устройств для выполнения вертикального поиска с использованием приложений вертикальных поисковых систем, таких как Yandex.Images™, Yandex.Video™, Youtube™ и т.п. Таким образом, первый набор признаков профиля и второй набор признаков профиля указывают количество поисков в журнале вертикального поиска, выполненных с использованием первого текстового объекта 308 и второго текстового объекта 310 в качестве строки поиска в течение заранее заданного периода времени.
[00106] В конце процедура 506 ранжирования способна определить набор статистических признаков для первого текстового объекта 308 и второго текстового объекта 310. В соответствии с настоящей технологией, набор статистических признаков может содержать статистические характеристики, связанные с каждым текстовым объектом в (а) цифровом тексте 302 и/или (б) во множестве цифровых документов, входящих в состав одного или нескольких тематических кластеров 202 (см. фиг. 2).
[00107] Например, набор статистических признаков для первого объекта 308 может содержать:
- количество вхождений первого текстового объекта 308 в цифровом тексте 302;
- размер (определяется на основе количества слов) цифрового текста 302;
- среднее количество вхождений первого текстового объекта 308 во множестве цифровых документов, представленных в одном или нескольких тематических кластерах 202; и
- количество цифровых документов в первом тематическом кластере 204, содержащих первый текстовый объект 308.
[00108] Процедура 506 ранжирования дополнительно способна выполнять алгоритм 516 MLA, обученный формировать значение оценки для первого текстового объекта 308 и второго текстового объекта 310 на основе (а) набора признаков профиля и/или (б) признаков популярности и/или (в) набора статистических признаков, связанных с первым текстовым объектом 308 и вторым текстовым объектом 310.
[00109] На способ реализации рейтинговой оценки не накладывается каких-либо ограничений. Она, например, может представлять вероятность выполнения пользователем, связанным с электронным устройством 102, веб-поиска (с использованием поисковой системы) для обнаружения дополнительной информации, относящейся к первому текстовому объекту 308 и второму текстовому объекту 310 в течение заранее заданного периода времени после получения цифрового документа 206.
[00110] В частности, алгоритм 516 MLA обучен назначать для первого тестового объекта 308 и второго текстового объекта 310 (а) первую рейтинговую оценку, представляющую большую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, или (б) вторую рейтинговую оценку, представляющую меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации. В некоторых вариантах осуществления изобретения первая рейтинговая оценка может быть равна двоичному значению 1, а вторая рейтинговая оценка может быть равна двоичному значению 0. Очевидно, что первая рейтинговая оценка и вторая рейтинговая оценка могут быть представлены в различных форматах.
Обучение алгоритма 516 MLA
[00111] На фиг. 7 представлена схема обучения алгоритма 516 MLA.
[00112] Для простоты обучение алгоритма 516 MLA описано применительно к одному обучающему объекту. Тем не менее, должно быть понятно, что алгоритм 516 MLA может быть обучен на более чем одном обучающем объекте.
[00113] Для понимания основополагающих концепций настоящей технологии следует иметь в виду, что обучение алгоритма 516 MLA можно разделить на первый, второй и третий этапы. На первом этапе формируются обучающие входные данные (описаны ниже). На втором этапе формируются обучающие выходные данные (описаны ниже). На третьем этапе алгоритм 516 MLA обучается с использованием обучающих входных данных и обучающих выходных данных. Несмотря на то, что шаги обучения алгоритма 516 MLA описаны как выполняемые процедурой 506 ранжирования, объем изобретения этим не ограничивается.
[00114] На первом этапе получается обучающий объект 702, соответствующий объекту, хранящемуся в каталоге 128. На способ получения обучающего объекта 702 не накладывается каких-либо ограничений. Например, он может быть принят администратором приложения 122 агрегатора новостей. В частности, можно предположить, что обучающий объект 702 соответствует словосочетанию «Charles Schulz» (американский художник-карикатурист).
[00115] Затем процедура 506 ранжирования способна определить обучающие входные данные 710. Обучающие входные данные 710 содержат (а) обучающий набор 704 признаков профиля и/или (б) обучающую функцию 706 популярности и/или (в) обучающий набор 708 статистических признаков, связанных с обучающим объектом 702. На способ определения обучающего набора 704 признаков профиля, обучающей функции 706 популярности и обучающего набора 708 статистических признаков не накладывается каких-либо ограничений, например, они по существу могут быть определены, как описано выше.
[00116] После определения обучающих входных данных 710 процедура 506 ранжирования способна определить обучающие выходные данные 712. Обучающие выходные данные 712 содержат метку 714, связанную с обучающим объектом 702.
[00117] Далее описан способ определения метки 714. В некоторых вариантах осуществления изобретения метка 714 указывает количество паттернов переходов в ходе сеансов навигации (описано ниже), включающих в себя веб-страницу, связанную с цифровой новостной статьей, содержащей обучающий объект 702, и страницу результатов поисковой системы, содержащую обучающий объект 702 в качестве поискового термина.
[00118] В некоторых вариантах осуществления изобретения метка 714 указывает на отношение количества паттернов переходов в ходе сеансов навигации, включающих в себя веб-страницу, связанную с цифровой новостной статьей, содержащей обучающий объект 702, и страницу результатов поисковой системы, сформированную с использованием обучающего объекта 702 в качестве поискового термина, к общему количеству паттернов переходов в ходе сеансов навигации, содержащихся в журнале 132 просмотра веб-страниц.
[00119] На способ определения метки 714 не накладывается каких-либо ограничений. Например, процедура 506 ранжирования может быть способной обратиться к журналу 132 просмотра веб-страниц браузерного приложения 108 (см. фиг. 6), выполнить сортировку набора 604 URL-адресов в хронологическом порядке и разобрать URL-адреса, образующие набор 604 URL-адресов, на один или несколько паттернов переходов в ходе сеансов навигации. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии паттерн перехода во ходе сеанса навигации указывает на взаимодействия, выполненные в ходе сеанса просмотра, определяемого периодом времени, начиная с подключения браузерного приложения 108 к сети 114 связи с целью навигации по сети Интернет и заканчивая отключением от сети 114 связи (например, путем закрытия браузерного приложения 108). На способ разбора набора 604 URL-адресов не накладывается каких-либо ограничений. Например, разбор может выполняться путем объединения в группы URL-адресов, которые имеют сходное время доступа или обращение к которым осуществлялось в течение заранее заданного интервала времени (например, путем применения маски с заранее заданным периодом времени, таким как 10 минут, к набору 604 URL-адресов).
[00120] На фиг. 8 представлен набор паттернов переходов в ходе сеансов навигации (паттерн 802 переходов первого сеанса навигации, паттерн 812 переходов второго сеанса навигации, паттерн 814 переходов третьего сеанса навигации, паттерн 816 переходов четвертого сеанса навигации и паттерн 818 переходов пятого сеанса навигации). Паттерн 802 переходов первого сеанса навигации включает в себя подмножество URL-адресов из набора 604 URL-адресов при том, что принадлежность URL-адресов из этого подмножества к одному паттерну переходов в ходе сеансов навигации определена в результате разбора. Иными словами, паттерн 802 переходов первого сеанса навигации включает в себя первый URL-адрес 804, второй URL-адрес 806, третий URL-адрес 808 и четвертый URL-адрес 810.
[00121] Можно предположить, что взятый в качестве примера паттерн 802 переходов первого сеанса навигации содержит следующие URL-адреса.
[00122] Процедура 506 ранжирования способна обратиться к новостным веб-сайтам, содержащимся в паттерне 802 переходов первого сеанса навигации (например, по второму URL-адресу 806, связанному с CNN™), и определить, присутствует ли обучающий объект 702 в цифровой статье, связанной со вторым URL-адресом 806.
[00123] Если обучающий объект 702 присутствует в цифровой статье, связанной со вторым URL-адресом 806, то процедура 506 ранжирования способна определить, имеется ли страница результатов поисковой системы, содержащая обучающий объект 702 в качестве поискового термина (например, URL-адрес 810), в рамках заранее заданного периода времени или количества веб-страниц после обращения по второму URL-адресу 806.
[00124] В этом примере четвертый URL-адрес 810 соответствует странице результатов поисковой системы, на которой обучающий объект 702 был использован в качестве поискового термина. Таким образом, процедура 506 ранжирования определяет, что паттерн 802 переходов первого сеанса навигации включает в себя веб-страницу, связанную с цифровой новостной статьей, содержащей обучающий объект 702, и страницу результатов поисковой системы, содержащую обучающий объект 702 в качестве поискового термина.
[00125] Процедура 506 ранжирования дополнительно способна выполнить описанные выше функции применительно к оставшимся сеансам навигации (в частности, к паттерну 812 переходов второго сеанса навигации, паттерну 814 переходов третьего сеанса навигации, паттерну 816 переходов четвертого сеанса навигации и паттерну 818 переходов пятого сеанса навигации), чтобы определить общее количество случаев, когда паттерны переходов в ходе сеансов навигации включают в себя веб-страницу, связанную с цифровой новостной статьей, содержащей обучающий объект 702, и страницу результатов поисковой системы, содержащую обучающий объект 702 в качестве поискового термина. Если предположить, что только паттерн 802 переходов первого сеанса навигации (из числа пяти паттернов переходов сеансов навигации) включает в себя веб-страницу, содержащую цифровую новостную статью, в которой отображается обучающий объект 702, и страницу результатов поисковой системы, сформированную с использованием обучающего объекта 702 в качестве поискового термина, то метка 714 соответствует значению 0,20 (или 1/5). Согласно некоторым не имеющим ограничительного характера вариантам осуществления настоящей технологии, чем больше значение метки 714, тем больше вероятность того, что карточка обучающего объекта 702 может оказаться полезной для пользователя. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, на основании большей вероятности может быть принято решение об отображении карточки объекта, которая может снизить необходимость в выполнении дополнительных поисков пользователем, если он заинтересован в получении дополнительной информации об объекте.
[00126] Несмотря на то, что метка 714 определена только на основе журнала 132 просмотра веб-страниц, связанного с браузерным приложением 108 электронного устройства 102, объем изобретения этим не ограничивается. Предполагается, что метка 714 может определяться на основе любого журнала просмотра, хранящегося в базе 130 данных журналов, связанной со множеством электронных устройств.
[00127] Как показано на фиг. 7, обучающие входные данные 710 и обучающие выходные данные 712 (т.е. метка 714) вводятся в алгоритм 516 MLA для обучения. В некоторых вариантах реализации изобретения алгоритм 516 MLA представляет собой нейронную сеть. Алгоритм 516 MLA содержит логику обучения для определения набора признаков, связанного с обучающими входными данными 710 и обучающими выходными данными 712. На основе набора признаков, связанного с обучающими входными данными 710 и обучающими выходными данными 712, алгоритм 516 MLA способен обучаться определению обучающего значения оценки, указывающего на большую вероятность или на меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к обучающему объекту 702.
[00128] В некоторых вариантах осуществления изобретения алгоритм 516 MLA может быть способным обучаться определению связанного с пользователем обучающего значения оценки, которое указывает на вероятность выполнения пользователем, связанным с браузерным приложением 108, дополнительных поисков, касающихся первого текстового объекта 308 и второго текстового объекта 310. Очевидно, что в этом случае алгоритм 516 MLA может обучаться исключительно на журнале 132 просмотра веб-страниц, связанном с браузерным приложением 108, и требовать уникальный идентификатор 606 браузера в качестве дополнительных входных данных.
[00129] В других вариантах осуществления изобретения алгоритм 516 MLA может быть способным обучаться определению не связанного с конкретным пользователем обучающего значения оценки, которое указывает на вероятность выполнения любым пользователем дополнительных поисков, касающихся первого текстового объекта 308 и второго текстового объекта 310. Очевидно, что в этом случае алгоритм 516 MLA должен обучаться на журналах просмотра веб-страниц, связанных со множеством электронных устройств.
[00130] Несмотря на то, что здесь представлен лишь один экземпляр процесса обучения алгоритма 516 MLA, это сделано исключительно для лучшего понимания. Очевидно, что обучение алгоритма 516 MLA выполняется итеративно с использованием множества различных обучающих объектов.
Этап использования
[00131] Ниже со ссылками на фиг. 5 приведено дальнейшее описание способа определения значений оценки для первого текстового объекта 308 и для второго текстового объекта 310.
[00132] Алгоритм 516 MLA способен назначить соответствующее значение оценки для первого текстового объекта 308 и для второго текстового объекта 310 на основе набора признаков, а именно: (а) набора признаков профиля и/или (б) признаков популярности и/или (в) набора статистических признаков, связанных с первым текстовым объектом 308 и вторым текстовым объектом 310, и/или (г) уникального идентификатора 606 браузера.
Процедура 508 формирования карточки
[00133] После определения значений оценки для первого текстового объекта 308 и для второго текстового объекта 310 процедура 506 ранжирования способна передать пакет 518 данных процедуре 508 формирования карточки. Пакет 518 данных содержит первый текстовый объект 308, второй текстовый объект 310 и соответствующие значения оценки.
[00134] Можно предположить, что первому текстовому объекту 308 назначено значение 1, соответствующее высокой вероятности выполнения пользователем веб-поиска для обнаружения дополнительной информации, связанной с первым текстовым объектом 308. Второму текстовому объекту 310 назначено значение 0, соответствующее низкой вероятности выполнения пользователем веб-поиска для обнаружения дополнительной информации. Очевидно, что значение оценки может быть выражено иным образом, например, в виде значения в некотором диапазоне (например, от 0 до 10), в виде значения в процентах и т.п.
[00135] Процедура 508 формирования карточки способна сравнить значения оценки для первого текстового объекта 308 и для второго текстового объекта 310 с пороговым значением. Определение порогового значения может осуществляться любым способом без каких-либо ограничений, например, эмпирически. В данном случае пороговое значение равно 0,5.
[00136] Поскольку в этом примере значение оценки, превышающее пороговое значение, назначено только первому текстовому объекту 308, процедура 508 формирования карточки способна сформировать карточку объекта (описана ниже), связанную с первым текстовым объектом 308. В некоторых вариантах осуществления изобретения карточка объекта содержит указание на первый текстовый объект 308, первые информационные данные 410 (см. фиг. 4), связанные с первым объектом 402, и первый URL-адрес 418.
[00137] Сформировав карточку объекта, процедура 508 формирования карточки способна передать пакет 520 данных электронному устройству 102. Пакет 520 данных содержит ранее запрошенный цифровой документ (такой как цифровой документ 206) и карточку объекта для отображения на электронном устройстве 102.
[00138] На фиг. 9 приведен снимок 900 экрана для цифрового документа 206, на котором представлен цифровой текст 302, отображаемый на электронном устройстве. Цифровой документ 206 дополнительно содержит карточку 902 объекта. Карточка 902 объекта содержит указание на первый текстовый объект 308, первые информационные данные 410 и в некоторых вариантах осуществления изобретения изображение, извлеченное по первому URL-адресу 418. В некоторых вариантах осуществления изобретения карточка 902 объекта содержит встроенную ссылку на первый URL-адрес 418 так, что после выбора пользователем любой части карточки 902 объекта путем нажатия кнопки мыши, пользователь перенаправляется на веб-страницу, связанную с первым URL-адресом 418. Предполагается, что вместо изображения карточка 902 объекта может содержать видеоматериал, связанный с первым текстовым объектом 308 и полученный по первому URL-адресу 418.
[00139] Разумеется, что карточка 902 объекта может содержать данные других видов без выхода за границы настоящей технологии.
[00140] В некоторых вариантах осуществления изобретения карточка 902 объекта не отображается рядом с цифровым документом 206, как показано на фиг. 9, но может отображаться в ответ на взаимодействие пользователя с первым текстовым объектом 308, такое как наведение курсора, выбор путем нажатия кнопки мыши и т.п. Предполагается, что первый текстовый объект 308 может отображаться с визуальным выделением (таким как выделение яркостью, подчеркиванием, жирным шрифтом и т.п.) в цифровом тексте 302.
[00141] Описанные выше архитектура и примеры позволяют выполнять компьютерный способ формирования карточки объекта. На фиг. 10 представлена блок-схема способа 1000, выполняемого согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 1000 может выполняться сервером 116.
[00142] Шаг 1002: прием от электронного устройства запроса на цифровую новостную статью.
[00143] Способ 1000 начинается с шага 1002, на котором процедура 502 приема получает от электронного устройства 102 пакет 510 данных, содержащий запрос на цифровой документ 206. На способ передачи электронным устройством 102 пакета 510 данных не накладывается каких-либо ограничений. Например, передача может выполняться после того, как электронное устройство 102 обратилось к приложению 122 агрегатора новостей через сеть 114 связи и выбрало цифровой документ 206 для просмотра.
[00144] Шаг 1004: извлечение запрошенной цифровой новостной статьи, содержащей корпус текста.
[00145] На шаге 1004 процедура 502 приема способна обращаться к базе 124 данных новостей и извлекать запрошенный цифровой документ 206.
[00146] Шаг 1006: разбор корпуса текста с целью идентификации содержащегося в нем объекта, соответствующего одному объекту из множества объектов.
[00147] На шаге 1006 процедура 502 приема способна передать пакет 512 данных процедуре 504 разбора. Пакет 512 данных содержит цифровой документ 206.
[00148] Процедура 504 разбора способна анализировать контент цифрового документа 206 с целью определения наличия любых объектов, хранящихся в базе 126 данных объектов.
[00149] Шаг 1008: определение для объекта набора признаков объекта, содержащего набор статистических признаков, указывающих на статистическую характеристику объекта в запрошенной цифровой новостной статье и/или во множестве цифровых новостных статей.
[00150] На шаге 1008 процедура 504 разбора способна передать процедуре 506 ранжирования пакет 514 данных, содержащий первый текстовый объект 308, определенный процедурой 504 разбора.
[00151] Процедура 506 ранжирования способна определить набор признаков, связанный с первым текстовым объектом 308. Этот набор признаков содержит: (а) набор признаков профиля и/или (б) признак популярности и/или (в) набор статистических признаков, связанных с первым текстовым объектом 308.
[00152] Например, набор статистических признаков для первого объекта 308 может содержать:
- количество вхождений первого текстового объекта 308 в цифровом тексте 302;
- размер (определяется на основе количества слов) цифрового текста 302;
- среднее количество вхождений первого текстового объекта 308 во множестве цифровых документов, представленных в одном или нескольких тематических кластерах 202; и
- количество цифровых документов в первом тематическом кластере 204, содержащих первый текстовый объект 308.
[00153] Шаг 1010: формирование для объекта алгоритмом MLA значения оценки, представляющего вероятность выполнения пользователем веб-поиска с целью обнаружения дополнительной информации, относящейся к этому объекту.
[00154] После определения набора статистических признаков, связанных с первым текстовым объектом 308, процедура 506 ранжирования способна ввести набор статистических признаков в алгоритм 516 MLA с целью формирования значения оценки, связанного с первым текстовым объектом 308.
[00155] В частности, алгоритм 516 MLA обучен назначать для первого тестового документа 308 и второго текстового документа 310 (а) первую рейтинговую оценку, представляющую высокую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, или (б) вторую рейтинговую оценку, представляющую низкую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации. В некоторых вариантах осуществления изобретения первая рейтинговая оценка может быть равна двоичному значению 1, а вторая рейтинговая оценка может быть равна двоичному значению 0. Очевидно, что первая рейтинговая оценка и вторая рейтинговая оценка могут быть представлены в различных форматах.
[00156] Шаг 1012: формирование карточки объекта, содержащей объект и связанные с ним информационные данные, если значение оценки превышает заранее заданный порог.
[00157] После определения значения оценки для первого текстового объекта 308 процедура 506 ранжирования способна передать пакет 518 данных процедуре 508 формирования карточки. Пакет 518 данных содержит первый текстовый объект 308 и соответствующее значение оценки.
[00158] Процедура 508 формирования карточки способна сравнить значение оценки, связанное с первым текстовым объектом 308, с заранее заданным пороговым значением. Она дополнительно способна сформировать карточку 902 объекта, если значение оценки превышает пороговое значение.
[00159] Карточка 902 объекта содержит указание на первый текстовый объект 308, первые информационные данные 410 и в некоторых вариантах осуществления изобретения изображение, извлеченное по первому URL-адресу 418. В некоторых вариантах осуществления изобретения карточка 902 объекта содержит встроенную ссылку на первый URL-адрес 418 так, что после выбора пользователем любой части карточки 902 объекта путем нажатия кнопки мыши пользователь перенаправляется на веб-страницу, связанную с первым URL-адресом.
[00160] Шаг 1014: передача карточки объекта и запрошенной цифровой новостной статьи электронному устройству для отображения карточки объекта совместно с запрошенной цифровой новостной статьей.
[00161] Сформировав карточку объекта, процедура 508 формирования карточки способна передать пакет 520 данных электронному устройству 102. Пакет 520 данных содержит ранее запрошенный цифровой документ (такой как цифровой документ 206) и карточку объекта для отображения на электронном устройстве 102.
[00162] Специалистам в данной области техники должно быть очевидно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических решений определенной технической задачи, присущей традиционным системам агрегаторов новостей - предоставления для отображения дополнительной информации об объектах, о которых пользователь может пожелать узнать больше.
[00163] Очевидно, что не все упомянутые здесь технические эффекты должны обеспечиваться в каждом варианте осуществления настоящей технологии. Например, возможны варианты осуществления настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо технический эффект отсутствует.
[00164] Для специалиста в данной области могут быть очевидными изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено исключительно в иллюстративных целях, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.
[00165] Хотя описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или их порядок может быть изменен без отклонения от настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ДЛЯ ОБНАРУЖЕНИЯ ДЕЙСТВИЙ, ПОТЕНЦИАЛЬНО СВЯЗАННЫХ С РАССЫЛКОЙ СПАМА, ПРИ РЕГИСТРАЦИИ УЧЕТНОЙ ЗАПИСИ | 2017 |
|
RU2693325C2 |
СПОСОБ И СИСТЕМА ПОСТРОЕНИЯ ПОИСКОВОГО ИНДЕКСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2018 |
|
RU2720954C1 |
СПОСОБ И СЕРВЕР ДЛЯ ВЫБОРА ЭЛЕМЕНТОВ РЕКОМЕНДАЦИЙ ДЛЯ ПОЛЬЗОВАТЕЛЯ | 2017 |
|
RU2693323C2 |
Способ и сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA) | 2020 |
|
RU2817726C2 |
Система и способ формирования обучающего набора для алгоритма машинного обучения | 2018 |
|
RU2744029C1 |
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ ПЕРЕВОДУ | 2020 |
|
RU2770569C2 |
Способы и серверы для ранжирования цифровых документов в ответ на запрос | 2020 |
|
RU2775815C2 |
СПОСОБ И СИСТЕМА КОМПЬЮТЕРНОЙ ОБРАБОТКИ ОДНОЙ ИЛИ НЕСКОЛЬКИХ ЦИТАТ В ЦИФРОВЫХ ТЕКСТАХ ДЛЯ ОПРЕДЕЛЕНИЯ ИХ АВТОРА | 2018 |
|
RU2711123C2 |
СПОСОБ И СИСТЕМА ДЛЯ ОБУЧЕНИЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ ПРОГНОЗИРОВАНАНИЮ ОЦЕНКИ ВИДИМОСТИ | 2022 |
|
RU2814079C1 |
СПОСОБ И СИСТЕМА ДЛЯ РАНЖИРОВАНИЯ ЦИФРОВЫХ ОБЪЕКТОВ НА ОСНОВЕ СВЯЗАННОЙ С НИМИ ЦЕЛЕВОЙ ХАРАКТЕРИСТИКИ | 2019 |
|
RU2757174C2 |
Группа изобретений относится к поисковым системам и может быть использована для формирования карточки объекта. Техническим результатом является формирование карточки объекта. Способ содержит получение запроса на цифровую новостную статью, извлечение запрошенной цифровой новостной статьи и определение содержащегося в ней объекта. Определяется связанный с объектом набор признаков объекта и формируется значение оценки для объекта. Значение оценки представляет вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к объекту. Если значение оценки превышает заранее заданный порог, формируется карточка объекта. Затем карточка объекта и запрошенная цифровая новостная статья передаются электронному устройству для отображения. 2 н. и 19 з.п. ф-лы, 1 табл., 10 ил.
1. Компьютерный способ формирования карточки объекта, выполняемый сервером, который соединен через сеть связи с электронным устройством, связанным с пользователем, и дополнительно соединен с источником множества цифровых новостных статей, с базой данных объектов, содержащей указание на множество объектов и информационные данные, связанные с каждым объектом из множества объектов, и включающий в себя:
- прием от электронного устройства запроса на цифровую новостную статью;
- извлечение этой цифровой новостной статьи, содержащей корпус текста;
- разбор корпуса текста с целью идентификации содержащегося в нем объекта, соответствующего одному объекту из множества объектов;
- определение для объекта набора признаков объекта, содержащего набор статистических признаков, указывающих на статистическую характеристику объекта в цифровой новостной статье и/или во множестве цифровых новостных статей;
- формирование для объекта алгоритмом машинного обучения (MLA) значения оценки, представляющего вероятность выполнения пользователем веб-поиска с целью обнаружения дополнительной информации, относящейся к объекту;
- формирование карточки объекта, содержащей объект и связанные с ним информационные данные, если значение оценки превышает заранее заданный порог;
- передачу карточки объекта и цифровой новостной статьи электронному устройству для отображения карточки объекта совместно с цифровой новостной статьей.
2. Способ по п. 1, отличающийся тем, что алгоритм MLA представляет собой нейронную сеть, а способ дополнительно включает в себя обучение нейронной сети с использованием обучающего набора данных до получения запроса на цифровую новостную статью.
3. Способ по п. 2, отличающийся тем, что сервер дополнительно связан:
- с журналом просмотра, хранящим указание на множество паттернов переходов в ходе сеансов навигации, каждый из которых содержит одну или несколько веб-страниц, к которым обращалось электронное устройство; и
- с обучающими наборами данных, содержащими по меньшей мере обучающий набор признаков объекта, связанных с обучающим объектом, и метку, связанную с обучающим объектом и указывающую количество паттернов переходов в ходе сеансов навигации, каждый из которых включает в себя первую веб-страницу, связанную с обучающей цифровой новостной статьей, содержащей обучающий объект, и вторую веб-страницу, связанную со страницей результатов поисковой системы, содержащей обучающий объект в качестве поискового термина.
4. Способ по п. 3, отличающийся тем, что обучающий набор признаков объекта содержит обучающий набор статистических признаков, указывающих на статистические характеристики обучающего объекта в обучающей цифровой новостной статье и/или во множестве цифровых новостных статей, а метка содержит долю упомянутого количества паттернов переходов в ходе сеансов навигации во множестве паттернов переходов в ходе сеансов навигации.
5. Способ по п. 3, отличающийся тем, что обращение к первой веб-странице и ко второй веб-странице в каждом паттерне из упомянутого количества паттернов переходов в ходе сеансов навигации осуществлялось в течение заранее заданного периода времени.
6. Способ по п. 5, отличающийся тем, что обучение нейронной сети включает в себя:
- ввод обучающего набора признаков объекта, связанных с обучающим объектом, в качестве входных данных;
- ввод метки, связанной с обучающим объектом;
- определение для набора признаков объекта и для метки набора признаков, представляющих свойство обучающего объекта; и
- обучение на основе набора признаков обучающего объекта определению обучающего значения оценки, указывающего на большую вероятность или на меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к обучающему объекту, после получения обучающей статьи.
7. Способ по п. 3, отличающийся тем, что электронное устройство связано с идентификатором пользователя, каждый паттерн из упомянутого количества паттернов переходов в ходе сеансов навигации связан с идентификатором пользователя, а значение оценки представляет соответствующую вероятность выполнения пользователем, связанным с электронным устройством, веб-поиска для обнаружения дополнительной информации, относящейся к объекту.
8. Способ по п. 1, отличающийся тем, что набор статистических признаков содержит по меньшей мере одно из следующего:
- количество вхождений указания на объект в цифровой новостной статье;
- размер корпуса текста;
- среднее количество объектов в каждой статье из множества цифровых новостных статей, а набор признаков объекта дополнительно содержит связанный с объектом набор признаков профиля, при этом признак профиля представляет собой набор векторов, представляющих профиль текстового объекта, и/или признак популярности, указывающий на популярность объекта в качестве поискового термина в поисковой системе.
9. Способ по п. 8, отличающийся тем, что набор признаков профиля формируется путем анализа веб-страницы, связанной с объектом, а признак популярности формируется путем анализа журнала поиска или журнала вертикального поиска, связанного с поисковой системой.
10. Способ по п. 8, отличающийся тем, что дополнительно включает в себя разбор множества цифровых новостных статей по темам и определение подмножества из множества цифровых новостных статей, имеющих ту же тему, что и упомянутая цифровая новостная статья, при этом набор признаков объекта дополнительно содержит по меньшей мере некоторое количество цифровых новостных статей в этом подмножестве, содержащих объект.
11. Способ по п. 1, отличающийся тем, что информационные данные представляют собой изображение и/или текст и/или видеоматериал.
12. Система формирования карточки объекта, содержащая сервер, соединенный через сеть связи:
- с электронным устройством, связанным с пользователем;
- с источником множества цифровых новостных статей;
- с базой данных объектов, содержащей указание на множество объектов и
информационные данные, связанные с каждым объектом из множества объектов, и содержащий процессор, выполненный с возможностью:
- приема от электронного устройства запроса на цифровую новостную статью;
- извлечения цифровой новостной статьи, содержащей корпус текста;
- разбора корпуса текста с целью идентификации содержащегося в нем объекта, соответствующего одному объекту из упомянутого множества объектов;
- определения для объекта набора признаков объекта, содержащего набор статистических признаков, указывающих на статистическую характеристику объекта в цифровой новостной статье и/или во множестве цифровых новостных статей;
- формирования для объекта алгоритмом MLA значения оценки, представляющего вероятность выполнения пользователем веб-поиска с целью обнаружения дополнительной информации, относящейся к объекту;
- формирования карточки объекта, содержащей объект и связанные с ним информационные данные, если значение оценки превышает заранее заданный порог;
- передачи карточки объекта и цифровой новостной статьи электронному устройству для отображения карточки объекта совместно с цифровой новостной статьей.
13. Система по п. 12, отличающаяся тем, что алгоритм MLA представляет собой нейронную сеть, а процессор дополнительно способен обучать нейронную сеть с использованием обучающего набора данных до получения запроса на цифровую новостную статью.
14. Система по п. 13, отличающаяся тем, что сервер дополнительно связан:
- с журналом просмотра, хранящим указание на множество паттернов переходов в ходе сеансов навигации, каждый из которых содержит одну или несколько веб-страниц, к которым обращалось электронное устройство; и
- с обучающими наборами данных, содержащими по меньшей мере обучающий набор признаков объекта, связанных с обучающим объектом, и метку, связанную с обучающим объектом и указывающую количество паттернов переходов в ходе сеансов навигации, каждый из которых включает в себя первую веб-страницу, связанную с обучающей цифровой новостной статьей, содержащей обучающий объект, и вторую веб-страницу, связанную со страницей результатов поисковой системы, содержащей обучающий объект в качестве поискового термина.
15. Система по п. 14, отличающаяся тем, что обучающий набор признаков объекта содержит обучающий набор статистических признаков, указывающих на статистические характеристики обучающего объекта в обучающей цифровой новостной статье и/или во множестве цифровых новостных статей, а метка содержит долю упомянутого количества паттернов переходов в ходе сеансов навигации во множестве паттернов переходов в ходе сеансов навигации.
16. Система по п. 14, отличающаяся тем, что обращение к первой веб-странице и ко второй веб-странице в каждом паттерне из упомянутого количества паттернов переходов в ходе сеансов навигации осуществлялось в течение заранее заданного периода времени.
17. Система по п. 16, отличающаяся тем, что для обучения нейронной сети процессор выполнен с возможностью:
- ввода обучающего набора признаков объекта, связанных с обучающим объектом, в качестве входных данных;
- ввода метки, связанной с обучающим объектом;
- определения набора признаков, представляющих свойство обучающего объекта, для набора признаков объекта и для метки; и
- обучения на основе набора признаков обучающего объекта определению обучающего значения оценки, указывающего на большую вероятность или на меньшую вероятность выполнения пользователем веб-поиска для обнаружения дополнительной информации, относящейся к обучающему объекту, после получения обучающей статьи.
18. Система по п. 14, отличающаяся тем, что:
- электронное устройство связано с идентификатором пользователя;
- каждый паттерн из упомянутого количества паттернов переходов в ходе сеансов навигации связан с идентификатором пользователя; и
- значение оценки представляет соответствующую вероятность выполнения пользователем, связанным с электронным устройством, веб-поиска для обнаружения дополнительной информации, относящейся к объекту.
19. Система по п. 12, отличающаяся тем, что набор статистических признаков содержит по меньшей мере одно из следующего:
- количество вхождений указания на объект в цифровой новостной статье;
- размер корпуса текста;
- среднее количество объектов в каждой статье из множества цифровых новостных статей,
а набор признаков объекта дополнительно содержит связанный с объектом набор признаков профиля, при этом признак профиля представляет собой набор векторов, представляющих профиль текстового объекта, и/или признак популярности, указывающий на популярность объекта в качестве поискового термина в поисковой системе.
20. Система по п. 19, отличающаяся тем, что набор признаков профиля формируется путем анализа веб-страницы, связанной с объектом, а признак популярности формируется путем анализа журнала поиска или журнала вертикального поиска, связанного с поисковой системой.
21. Система по п. 19, отличающаяся тем, что процессор дополнительно выполнен с возможностью разбора множества цифровых новостных статей по темам и определения подмножества из множества цифровых новостных статей, имеющих ту же тему, что и упомянутая цифровая новостная статья, при этом набор признаков объекта дополнительно содержит по меньшей мере некоторое количество цифровых новостных статей в этом подмножестве, содержащих объект.
СПОСОБ ОБРАБОТКИ ПОИСКОВОГО ЗАПРОСА ПОЛЬЗОВАТЕЛЯ И СЕРВЕР, ИСПОЛЬЗУЕМЫЙ В НЕМ | 2014 |
|
RU2605001C2 |
Способ и система предоставления контекстуальной информации | 2016 |
|
RU2632126C1 |
СПОСОБ И ПОИСКОВАЯ СИСТЕМА ПРЕДОСТАВЛЕНИЯ ПОИСКОВЫХ РЕЗУЛЬТАТОВ НА МНОЖЕСТВО КЛИЕНТСКИХ УСТРОЙСТВ | 2015 |
|
RU2632423C2 |
US 20110320437 A1, 29.12.2011 | |||
CN 106649780 A, 10.05.2017 | |||
US 9727545 B1, 08.08.2017. |
Авторы
Даты
2020-12-25—Публикация
2018-12-13—Подача