СБОР ДАННЫХ О ПОЛЬЗОВАТЕЛЬСКОМ ПОВЕДЕНИИ ПРИ ВЕБ-ПОИСКЕ ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ ВЕБ-ПОИСКА Российский патент 2011 года по МПК G06F17/30 

Описание патента на изобретение RU2435212C2

Уровень техники

При существующей распространенности «Всемирной паутины» и сети Internet пользователи могут получать информацию почти по любой теме из большого числа источников информации. Для поиска информации пользователи обычно применяют различные поисковые машины для решения информационно-поисковой задачи. Поисковые машины дают пользователям возможность нахождения веб-страниц, содержащих информацию или другой материал в сети Internet, который содержит конкретные слова или фразы.

В общем, поиск по ключевым словам может находить, в полную меру возможностей компьютера, все веб-сайты, которые содержат любую информацию, связанную с любыми ключевыми словами и фразами, которые заданы. Сайт поисковой машины будет содержать окно для ввода пользователями ключевых слов и кнопку для нажатия, чтобы начать поиск. Многие поисковые машины содержат рекомендации относительно того, как пользоваться ключевыми словами для эффективного поиска. Обычно упомянутые рекомендации помогают пользователям задавать узкие поисковые условия, чтобы не получать обратно постороннюю и нерелевантную информацию, и чтобы процесс поиска информации не становился беспорядочным. Подобное ручное сужение условий может подавить получение нескольких тысяч сайтов путем сортировки при просмотре определенной информации.

В некоторых случаях темы поиска предварительно организуют на тематические области и подтематические области. Например, поисковая машина «Yahoo» обеспечивает иерархически организованный заданный список возможных тем (например, бизнес, государственное управление, наука и т.п.), из которых пользователь будет выбирать в списке тему и затем дополнительно выбирать подтему. Другой пример заданных списков тем широко применяется в справочных утилитах настольных персональных компьютеров, в которых пользователю предлагается список справочных тем и относящихся к ним подтем. Хотя упомянутые заданные иерархические структуры могут быть полезны в некоторых контекстах, пользователи часто нуждаются в поиске/запросе информации, находящейся за пределами упомянутых заданных списков и/или не содержащейся в них. Следовательно, часто используют поисковые машины или другие поисковые системы для предоставления пользователям возможности прямых запросов, чтобы находить требуемую информацию. Тем не менее, во время производимого пользователями поиска получают много нерелевантных результатов, поскольку пользователи не могут быть уверены в том, как создать или построить конкретный запрос. Более того, упомянутые системы обычно требуют от пользователей неоднократного видоизменения запросов и уточнения найденных результатов поиска для получения разумного числа результатов для изучения.

Нередко случается, что в поле ввода запроса поисковой системы вводят слово или фразу и затем получают несколько миллионов результатов в качестве возможных подходящих вариантов. Чтобы разобраться с большим числом полученных подходящих вариантов, пользователю часто потребуется попробовать другие комбинации слов для дополнительного сужения списка.

В общем, поисковая система будет ранжировать результаты в соответствии с прогнозируемой релевантностью результатов относительно запроса. Ранжирование обычно основано на функции, которая объединяет много параметров, включая сходство веб-страницы с запросом, а также собственное качество документа, часто логически выводимое из информации о веб-топологии. Качество впечатлений пользователя от поиска прямо зависит от качества функции ранжирования, так как пользователь обычно не просматривает результаты низкого ранга.

В общем, поисковая система будет пробовать подбирать или находить все темы, связанные с введенным пользовательским запросом, независимо от того, имеют ли «искомые» темы какую-либо контекстную связь с тематической(ким) областью или классом, которые фактически интересуют пользователя. Например, если пользователь, который проявил интерес к астрономии, собрался ввести запрос «Сатурн» в обычную поисковую машину, то, вероятно, должны быть получены все типы нерелевантных результатов, включая результаты, относящиеся к автомобилям, автомобильным дилерам, компьютерным играм и другим сайтам, содержащим слово «Сатурн». Другая проблема реализаций обычного поиска состоит в том, что поисковые машины работают одинаковым образом для всех пользователей, независимо от различия потребностей и обстоятельств пользователей. Следовательно, если два пользователя вводят одинаковый поисковый запрос, они обычно получают одинаковые результаты, независимо от их интересов или характеристик, предыстории поиска, текущего контекста вычислений (например, открытых файлов) или контекста среды (например, местоположения, применяемой машины, времени суток, дня недели).

Настройка функций ранжирования поиска для получения релевантных результатов во главе обычно требует значительных усилий. Общий подход к современным поисковым машинам заключается в том, чтобы обучать функции ранжирования и настраивать параметры и весовые коэффициенты функций автоматически, на основе примеров результатов поиска, оцениваемых ручным способом. Ручные аннотаторы могут в явном виде оценивать набор страниц для запроса в соответствии с ощущаемой релевантностью и создавать «золотой стандарт», по которому можно настраивать и оценивать разные алгоритмы ранжирования. Однако явные ручные оценки являются дорогостоящими и сложными для получения, часто приводящими к недостаточно обученным и неоптимальным функциям ранжирования.

Сущность изобретения

Ниже представлена упрощенная сущность изобретения, чтобы обеспечить понимание основ некоторых аспектов заявленного предмета изобретения. Упомянутая сущность изобретения не дает всестороннего общего представления. Сущность изобретения не предназначена для обозначения ключевых/критических элементов или определения объема заявленного предмета изобретения. Единственной целью является представление некоторых концепций в упрощенной форме в качестве вводной части к более подробному описанию, которое приведено в дальнейшем.

Настоящее изобретение улучшает ранжирование поиска в информационно-поисковой системе путем применения компонента пользовательского поведения, который облегчает автоматическую интерпретацию коллективного пользовательского поведения, чтобы оценивать пользовательские предпочтения в отношении одной позиции по сравнению с другой позицией. Затем упомянутые предпочтения можно использовать для различных целей, например для совершенствования ранжирования результатов. Компонент пользовательского поведения может взаимодействовать с поисковой(выми) машиной(нами) и содержать возможности обратной связи, которые ослабляют шум, который обычно сопутствует пользовательскому поведению (например, злонамеренной и/или иррациональной деятельности пользователя). При использовании совокупного пользовательского поведения (например, без рассмотрения каждого пользователя как отдельного эксперта) настоящее изобретение может ослаблять шум и формировать релевантные оценки на основе обратной связи с пользователями. Компонент пользовательского поведения может использовать неявную или явную обратную связь с пользователями и их взаимодействие с результатами предшествующих запросов. Ключевые поведенческие признаки содержат презентационные признаки, которые могут помогать пользователю при определении того, является ли результат релевантным, путем просмотра заголовка и описания результата; признаки поиска и просмотра, например время, проводимое на странице, способ получения доступа к результатам поиска (например, посредством других ссылок), отклонение от среднего времени на домене и т.п.; признаки щелчка мышью, например число щелчков мышью на конкретном результате по запросу. Для данной пары запрос-результат изобретение обеспечивает несколько наблюдаемых и производных значений признаков для каждого типа признака.

Компонент пользовательского поведения может использовать управляемую данными модель пользовательского поведения. Например, компонент пользовательского поведения может моделировать пользовательское поведение при веб-поиске, как если бы оно формировалось двумя компонентами: «фоновым» компонентом (например, пользовательских беспорядочных щелчков мышью) и компонентом «релевантности», (например, поведением, обусловленным запросом, которое направляется релевантностью результата по отношению к запросу).

В соответствии с дополнительным аспектом настоящего изобретения, компонент пользовательского поведения может формировать и/или моделировать отклонения от ожидаемого пользовательского поведения. Следовательно, возможно вычисление производных признаков, при этом такие производные признаки в явном виде отражают отклонение наблюдаемого значения признака для данного результата поиска от ожидаемых значений для результата без информации, зависящей от запроса.

Кроме того, компонент пользовательского поведения в соответствии с настоящим изобретением может использовать модели, содержащие два типа признаков для описания пользовательского поведения, а именно прямой и девиационный, при этом первый тип относится к непосредственно измеренным значениям, и второй тип относится к отклонению от ожидаемых значений, оцениваемых на основе общих (не зависящих от запроса) распределений для соответствующих непосредственно наблюдаемых признаков. Соответственно, наблюдаемое значение o признака f для запроса q и результата r может быть выражено как сумма двух компонентов:

где C(r, f) означает предшествующее «фоновое» распределение для значений f, собранных по всем запросам, соответствующим r, и rel(q, r, f) означает компонент «релевантности» поведения, на который влияет релевантность результата по отношению к запросу. Например, оценка релевантности пользовательского поведения может быть получена с помощью признака щелчка мышью путем вычитания фонового распределения из наблюдаемой частоты щелчка мышью в данном положении. Для ослабления эффекта индивидуальных вариаций пользовательского поведения, в соответствии с настоящим изобретением, можно усреднять значения признаков по всем пользователям и поисковым сеансам для каждой пары запрос-результат. Такое объединение может обеспечить дополнительную надежность, при этом не полагаются на сопряженные «с шумом» индивидуальные пользовательские взаимодействия.

Соответственно, пользовательское поведение применительно к паре запрос-ответ можно представить вектором признаков, который содержит значения как непосредственно наблюдаемых признаков, так и производных, «скорректированных», признаков. Различные методы обучения машины можно также применять в сочетании с обучением алгоритмов ранжирования для информационно-поисковых систем. Например, сначала могут обеспечиваться явные ручные оценки релевантности для различных поисковых запросов и затем применяться для последующего обучения алгоритмов ранжирования.

В соответствии со связанным аспектом, коллективное поведение пользователей, взаимодействующих с поисковой машиной для веб-сайтов, можно автоматически интерпретировать для прогнозирования будущих пользовательских приоритетов; следовательно, система может адаптироваться к изменению характеров поведения пользователей и разным параметрам настройки поиска посредством автоматического переобучения системы с помощью самых последних данных о пользовательском поведении.

Для достижения вышеописанных и связанных целей некоторые наглядные аспекты заявленного предмета изобретения поясняются в настоящей заявке в связи с нижеследующим описанием и прилагаемыми чертежами. Упомянутые аспекты характеризуют различные способы, с помощью которых можно практически реализовать предмет настоящего изобретения и которые считаются находящимися в пределах объема заявленного изобретения. Другие преимущества и элементы новизны могут стать очевидными из нижеследующего подробного описания при его изучении в связи с чертежами.

Краткое описание чертежей

Фиг.1 - блок-схема компонента пользовательского поведения в соответствии с примерным аспектом настоящего изобретения.

Фиг.2 - блок-схема системы, которая включает в себя компонент пользовательского поведения и взаимодействует с моделью обучения поисковой машины, в соответствии с аспектом настоящего изобретения.

Фиг.3 - блок-схема системы, которая включает в себя компонент ранжирования, функционально соединенный с компонентом пользовательского поведения, и поисковую машину, в соответствии с примерным аспектом настоящего изобретения.

Фиг.4 - таблица признаков, которые отражают операции пользователя по поиску и просмотру, в соответствии с аспектом настоящего изобретения.

Фиг.5 - изображение автоматизированной информационно-поисковой системы, которая использует компонент обучения машины, в соответствии с аспектом настоящего изобретения.

Фиг.6 - изображение компонента пользовательского поведения, который взаимодействует с множеством системных признаков, которые отражают действия пользователя, в соответствии с конкретным аспектом настоящего изобретения.

Фиг.7 - примерная методология интерпретации пользовательского поведения для оценки пользовательских предпочтений в соответствии с аспектом настоящего изобретения.

Фиг.8 - методология реализации пользовательского поведения как части ранжирования значений в соответствии с аспектом настоящего изобретения.

Фиг.9 - примерная среда для реализации различных аспектов изобретения.

Фиг.10 - структурная схема дополнительной вычислительной среды, которую можно использовать для реализации различных аспектов изобретения.

Подробное описание

Различные аспекты изобретения описаны ниже со ссылкой на прилагаемые чертежи, на которых одинаковые позиции служат сквозными обозначениями сходных или соответствующих элементов. Однако следует понимать, что чертежи и подробное описание, относящееся к ним, не предназначены для ограничения заявленного предмета изобретения конкретным предложенным вариантом. Наоборот, изобретение должно охватывать все модификации, эквиваленты и альтернативные варианты, не выходящие за пределы сущности и объема заявленного предмета изобретения.

В целях настоящего описания, термины «компонент», «система», «признак» и т.п. предназначены также для обозначения объекта, имеющего отношение к компьютерам, либо аппаратного обеспечения, комбинации из аппаратного обеспечения и программного обеспечения, программного обеспечения или программного обеспечения в процессе исполнения. Например, компонент может быть, но не в качестве ограничения, процессом, выполняемым в процессоре, процессором, объектом, исполняемым файлом, потоком выполнения, программой и/или компьютером. В качестве иллюстрации, как приложение, выполняемое в компьютере, так и компьютер могут быть компонентом. По меньшей мере, один компонент может постоянно находиться в процессе и/или потоке выполнения, и компонент может быть локализован в одном компьютере и/или распределен между двумя или более компьютерами.

Термин «примерный» применяется в настоящей заявке для обозначения примера, отдельного случая или пояснения. Любой аспект или схему, описанные в настоящей заявке в качестве «примерных», не обязательно следует толковать как предпочтительные или выигрышные по сравнению с другими аспектами или схемами.

Кроме того, предлагаемый предмет изобретения можно реализовать в виде системы, способа, устройства или изделия, использующего стандартное программирование и/или технические методы для создания программного обеспечения, встроенных программ, аппаратного обеспечения или любой их комбинации для управления компьютером или процессорным устройством, чтобы реализовать аспекты, подробно описанные в настоящей заявке. Термин компьютерная программа, в целях настоящей заявки, предназначен для охвата компьютерной программы, которую можно выбрать из любого компьютерночитаемого устройства, носителя или среды. Например, машиночитаемые носители могут содержать, но не в качестве ограничения, магнитные запоминающие устройства (например, жесткий диск, гибкий диск, магнитные ленты…), оптические диски (например, компакт-диск (CD), цифровой универсальный диск (DVD) …), смарт-карты и устройства флэш-памяти (например, плату, карту). Кроме того, следует понимать, что можно использовать электромагнитный сигнал передачи модулированной информации для передачи машиночитаемых электронных данных, например данных, применяемых при передаче и приеме электронной почты или при доступе к сети, например сети Internet или локальной сети (LAN). Разумеется, специалисты в данной области техники смогут понять, что возможно создание множества модификаций представленной конфигурации без выхода за пределы объема или сущности заявленного предмета изобретения.

На фиг.1 представлена блок-схема системы 100, которая включает в себя компонент пользовательского поведения, который взаимодействует с поисковой машиной, в соответствии с примерным аспектом настоящего изобретения. Компонент 104 пользовательского поведения, связанный с поисковой машиной 102, может автоматически интерпретировать коллективное поведение пользователей 101, 103, 105 (1-N, где N является целым числом). Такой компонент 104 пользовательского поведения может содержать возможности обратной связи, которые ослабляют шум, который обычно сопутствует пользовательскому поведению (например, злонамеренные и/или иррациональные действия пользователя). При использовании совокупного пользовательского поведения пользователей 101, 103, 105 (например, без рассмотрения каждого пользователя как отдельного эксперта) система 100 может ослаблять шум и формировать релевантные оценки на основе обратной связи с пользователями.

Компонент 104 пользовательского поведения может взаимодействовать с компонентом ранжирования. Для данного запроса компонент 104 пользовательского поведения выбирает прогнозные данные, полученные на основе ранее обученной поведенческой модели для данного запроса, и изменяет порядок результатов для запроса так, что результаты, которые представляются релевантными для предшествующих пользователей, получают более высокий ранг. Например, для данного запроса q неявную оценку IS r можно вычислить для каждого результата r по имеющимся признакам пользовательского взаимодействия, что имеет следствием неявный ранг I r для каждого результата. Объединенную оценку SM(r) можно вычислить для r посредством объединения рангов, полученных на основе неявной обратной связи, Ir, с исходным рангом r, O r.

Весовой коэффициент является эвристически настраиваемым масштабным коэффициентом, который отражает относительную «значимость» неявной обратной связи. Результаты запроса могут упорядочиваться по уменьшающимся значениям SM(r) для получения окончательного ранжирования. Один конкретный случай подобной модели возникает при установке очень большого значения , фактически предписывающего присваивать результатам, на которых производился щелчок мышью, более высокий ранг, чем результатам, на которых не производился щелчок мышью, что является интуитивной и эффективной эвристической процедурой, которую можно применять в качестве базовой. В общем, вышеописанный подход предполагает, что не существует никаких взаимодействий между базовыми признаками, формирующими исходное ранжирование веб-поиска, и признаками неявной обратной связи. Другие аспекты настоящего изобретения смягчают упомянутое предположение путем включения признаков неявной обратной связи непосредственно в процесс ранжирования, как подробно поясняется ниже. Кроме того, следует понимать, что применимы более сложное пользовательское поведение и алгоритмы объединения средств ранжирования, и они не выходят за пределы настоящего изобретения.

На фиг.2 представлен дополнительный аспект настоящего изобретения, в котором поисковая машина 202 дополнительно содержит обучающую модель 204 в соответствии с аспектом настоящего изобретения. Обучающая модель 204 может дополнительно содержать модели дополнительных типов для описания пользовательского поведения, а именно наблюдаемый поведенческий признак 201 и производный поведенческий признак 203. Наблюдаемый поведенческий признак 201 представляет собой непосредственно измеряемые значения, и производный поведенческий признак 203 представляет собой отклонение от ожидаемых значений, оцениваемых на основе общих (не зависящих от запроса) распределений для соответствующих непосредственно наблюдаемых признаков. Соответственно, наблюдаемое значение o признака f для запроса q и результата r может быть выражено как сумма двух компонентов:

где C(r, f) означает предшествующее «фоновое» распределение для значений f, собранных по всем запросам, соответствующим r, и rel(q, r, f) означает компонент поведения, на которое влияет релевантность результатов. Например, оценку релевантности пользовательского поведения можно получить с помощью признака щелчка мышью путем вычитания фонового распределения (например, шума) из наблюдаемой частоты щелчка мышью в данном положении. Для ослабления эффекта индивидуальных вариаций пользовательского поведения, в соответствии с настоящим изобретением, возможно усреднение значений прямых признаков по всем пользователям и поисковым сеансам для каждой пары запрос-URL. Такое объединение может обеспечить дополнительную надежность, при этом не полагаются на сопряженные «с шумом» индивидуальные пользовательские взаимодействия. Соответственно, пользовательское поведение для пары запрос-URL можно отразить вектором признаков, который содержит значения как непосредственно наблюдаемых признаков, так и производных, «скорректированных», признаков.

На фиг.3 представлена блок-схема системы 300, которая включает в себя компонент 310 ранжирования, функционально соединенный с компонентом 315 пользовательского поведения, и поисковую машину 340, в соответствии с примерным аспектом настоящего изобретения. Обычно поисковая машина 340 может ранжировать результаты 350 поиска с учетом большого числа признаков, включая признаки на основе контента (например, насколько близко запрос соответствует тексту или заголовку, или тексту ссылки документа) и признаки качества страницы, не зависимые от запроса (например, PageRank (ранг страницы) документа или домена), как подробно описано ниже. Кроме того, поисковая машина 340 может применять автоматические (или полуавтоматические) способы для настройки конкретной функции ранжирования, которая объединяет значения таких признаков. Например, можно предположить, что пользователь, который подает запрос 360, будет выполнять конкретные действия. Такие действия могут содержать щелчки мышью, навигацию, введение уточнений запроса, пока не найден релевантный документ и т.п. После нахождения релевантного документа пользователь может решить, что его требование удовлетворено, и изменить поведение (например, читать документ). Настоящее изобретение позволяет разрабатывать достаточно богатый набор признаков, которые позволяли бы обнаруживать, когда пользователь удовлетворен найденным результатом. Упомянутые признаки зависят от представленных запросов и, следовательно, обусловлены запросом. Например, признаки/действия пользователя можно классифицировать на презентационные признаки, признаки поиска и просмотра и признаки щелчка мышью, что поясняется со ссылкой на фиг.4.

На фиг.4 приведена таблица признаков 400, которые представляют поисковые и просмотровые действия пользователя. Презентационные признаки 410 обычно предназначены для отражения квалификации пользователя, так как они влияют на некоторые или все аспекты поведения (например, пользователь может решиться на щелчок мышью на результате, исходя из презентационных признаков). Для моделирования такого аспекта квалификации пользователя настоящее изобретение может использовать такие признаки, как совпадение слов в заголовке и слов в запросе (TitleOverlap) и части слов, совместно используемых заголовком и резюме результата, так как упомянутые слова часто принимаются во внимание пользователями при принятии решения о том, щелкать ли мышью на резюме результата, чтобы просмотреть весь документ.

Аналогично, признак 420 поиска и просмотра может собирать и количественно выражать аспекты пользовательских взаимодействий с веб-страницей. Например, настоящее изобретение может вычислять отклонение времени выполнения операции от ожидаемого времени выполнения операции на страницу для запроса, что позволяет моделировать разброс поведения при поиске и просмотре страницы внутри запроса. Упомянутый признак может дополнительно содержать как прямые признаки, так и производные признаки, как подробно изложено выше. Аналогично, признаки 430 щелчка мышью являются примером пользовательского взаимодействия с результатами поисковой машины. Например, признаки щелчка мышью могут содержать число щелчков для пары запрос-результат или отклонение от ожидаемой вероятности щелчка.

Как показано на фиг.4, признак щелчка мышью поясняет один аспект пользовательских взаимодействий с поисковой машиной для веб-сайтов. Настоящее изобретение может использовать автоматически получаемые прогнозирующие модели пользовательского поведения. Соответственно, для данного запроса каждый результат можно представить с признаками, сведенными в таблицу на фиг.4. Затем относительные пользовательские предпочтения можно оценить с использованием обученной модели пользовательского поведения, как подробно изложено выше. Применение таких моделей пользовательского поведения позволяет поисковой машине выгодно использовать здравый смысл множества людей, взаимодействующих с результатами поиска, а также более сложные признаки, характеризующие поведение при поиске и просмотре за пределами страницы результатов поиска.

На фиг.5 представлена автоматизированная информационно-поисковая система 500, которая использует компонент 535 обучения машины, в соответствии с аспектом настоящего изобретения. Для автоматического обучения модели пользовательских приоритетов можно применить общую стратегию интерпретации с неявной обратной связью (например, вместо опоры на эвристическую процедуру или интуитивные решения). Система 500 содержит компонент 510 ранжирования, который можно обучать, например, на основе журнала 520 данных или взаимодействий с компонентом 515 пользовательского поведения. Данные в журнале 520 могут быть собраны из локальных или удаленных источников данных и содержать информацию, связанную с данными предшествующего поиска или действиями 530 множества пользователей. После обучения компонент 510 ранжирования может взаимодействовать с поисковой машиной 540 для облегчения или улучшения будущих результатов поиска, которые показаны как релевантные результаты 550. Например, один или более новый поисковый запрос 560 может быть обработан поисковой машиной 540, частично, на основе обучения по данным 530 предшествующего поиска и/или информации из компонента 515 пользовательского поведения. В общем, система 500 может использовать различные методы сбора данных для совершенствования релевантности поисковой машины. Упомянутые методы могут заключаться в использовании классификаторов релевантности в компоненте 510 ранжирования для формирования высококачественных обучающих данных для классификаторов времени выполнения, которые применяются с поисковой машиной 540 для генерации результатов 550 поиска. На фиг.6 представлен компонент 610 пользовательского поведения, который взаимодействует с множеством системных признаков, которые отражают действия пользователя. В соответствии с одним аспектом, настоящее изобретение рассматривает особенности поведения при веб-поиске как сочетание «фонового» компонента (например, шум, независимый от запроса и релевантности, в поведении пользователя и т.п.) и компонента «релевантности» (например, обусловленного запросом поведения, характеризующего релевантность результата запросу). Подобная схема может использовать преимущества совокупного пользовательского поведения, когда набор признаков состоит из непосредственно наблюдаемых признаков (вычисляемых непосредственно по наблюдениям для каждого запроса), а также зависимых от запроса, производных признаков, вычисленных как отклонение от общего, независимого от запроса распределения значений, для соответствующих значений непосредственно наблюдаемых признаков. Как показано на фиг.6, примерные системные признаки, например признак(и) 612 щелчка мышью, признак(и) 614 поиска и просмотра и презентационные признаки 616, которые можно использовать для представления пользовательских взаимодействий с результатами веб-поиска через посредство компонента 610 пользовательского поведения. Кроме того, могут также рассматриваться такие признаки, как отклонение наблюдаемого числа щелчков мышью для данной пары запрос-URL от ожидаемого числа щелчков на результате в данном положении. Кроме того, поведение при поиске и просмотре можно моделировать, например, после того, как сделан щелчок на результате, и затем среднее время выполнения операции на страницу для данной пары запрос-URL, а также его отклонение от ожидаемого (среднего) времени выполнения операции используют для такой модели. Кроме того, например, пользователи веб-поиска часто могут определять, является ли результат релевантным на основе просмотра заголовка результата, URL и резюме, при этом, во многих случаях, просмотр исходного документа обычно не обязателен. Для моделирования упомянутого аспекта квалификации пользователя можно также использовать такие признаки, как совпадение слов в заголовке и слов в запросе.

На фиг.7 представлена примерная методология 700 интерпретации пользовательского поведения для оценки пользовательских предпочтений в соответствии с аспектом настоящего изобретения. Хотя в настоящей заявке представлен и описан примерный способ в виде последовательности этапов, характеризующих различные события и/или операции, настоящее изобретение не ограничено представленным порядком упомянутых этапов. Например, некоторые операции или события могут происходить в различном порядке и/или параллельно с другими операциями или событиями, отдельно от порядка, изображенного в настоящей заявке, в соответствии с изобретением. Кроме того, не все изображенные этапы, события или операции могут потребоваться для реализации методологии в соответствии с настоящим изобретением. Кроме того, следует понимать, что примерный способ и другие способы в соответствии с изобретением могут быть реализованы в связи со способом, представленным и описанным в настоящей заявке, а также в связи с другими, не показанными и не описанными системами и устройствами. Сначала, на этапе 710, могут быть собраны данные, относящиеся к пользовательскому взаимодействию с поисковой машиной, например пользовательскому поведению после поиска. Затем, на этапе 720, пользовательское поведение может быть суммировано, например, с применением методов статистического анализа. Затем, на этапе 730, может применяться обучение машины для обучения модели пользовательских приоритетов. И затем, на этапе 740, прогнозы пользовательских предпочтений могут поставляться для результата будущих запросов.

На фиг.8 представлена методология 800 реализации пользовательского поведения как составной части ранжирования в соответствии с аспектом настоящего изобретения. Сначала, на этапе 810, могут быть собраны данные, относящиеся к пользовательскому поведению. Упомянутое пользовательское поведение можно затем использовать для обучения и/или автоматического формирования поведенческой модели на этапе 820. Затем подобную модель (например, прогнозирующую поведенческую модель) можно включать в состав поисковой машины для ранжирования результатов и/или формирования неявных оценок релевантности на основе обратной связи с пользователями, на этапе 830. Затем, на этапе 840, частично на основе сформированной и/или обученной поведенческой модели может быть ранжирована информация, найденная поисковой машиной.

Чтобы обеспечить контекст для различных аспектов предложенного предмета изобретения, фиг.9 и 10, а также нижеследующее пояснение предназначены для представления краткого общего описания подходящей среды, в которой могут быть реализованы различные аспекты предложенного предмета изобретения. Хотя предмет изобретения описан выше в общем контексте машиноисполняемых инструкций компьютерной программы, которая работает на компьютере и/или компьютерах, специалистам в данной области техники будет очевидно, что изобретение можно также реализовать в комбинации с другими программными модулями. В общем, программные модули содержат подпрограммы, программы, компоненты, структуры данных и т.п., которые выполняют конкретные задачи и/или реализуют определенные абстрактные типы данных. Кроме того, специалистам в данной области техники будет очевидно, что новые способы можно практически реализовать в компьютерных системах других конфигураций, включая однопроцессорные или многопроцессорные компьютерные системы, миникомпьютерные устройства, основные компьютеры, а также персональные компьютеры, ручные вычислительные устройства (например, персональный цифровой секретарь (PDA), телефон, часы …), микропроцессорные или программируемые бытовые или промышленные электронные устройства и т.п. Изложенные аспекты можно также практически реализовать в распределенных вычислительных средах, в которых задачи выполняются удаленными устройствами обработки, которые связаны по сетям связи. Однако некоторые, если не все, аспекты изобретения можно практически реализовать на отдельно установленных компьютерах. В распределенной вычислительной среде программные модули могут находиться как в локальных, так и в удаленных запоминающих устройствах.

Со ссылкой на фиг.9 описана примерная среда 910 для реализации различных аспектов настоящего изобретения, которая содержит компьютер 912. Компьютер 912 содержит блок 914 обработки, системную память 916 и системную шину 918. Системная шина 918 связывает системные компоненты, включая, но не в качестве ограничения, системную память 916 с блоком 914 обработки. Блок 914 обработки может быть любым из различных доступных процессоров. В качестве блока 914 обработки можно также применять сдвоенные микропроцессоры и другие мультипроцессорные архитектуры.

Системная шина 918 может относиться к любому из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину или внешнюю шину и/или локальную шину, использующих любое число разнообразных доступных шинных архитектур, включая, но не в качестве ограничения, 11-разрядную шину, архитектуру шины промышленного стандарта (ISA), микроканальную архитектуру (MSA), расширенную ISA (EISA), интеллектуальное электронное оборудование дисковых накопителей (IDE), локальную шину VESA (VLB), межсоединение периферийных компонентов (шину PCI), универсальную последовательную шину (USB), универсальный графический порт (AGP), шину по спецификации PCMCIA (Международной ассоциации производителей карт памяти для персональных компьютеров и интерфейс малых вычислительных систем (SCSI).

Системная память 916 содержит энергозависимую память 920 и энергонезависимую память 922. Базовая система ввода/вывода (BIOS), содержащая основные подпрограммы для передачи информации между элементами внутри компьютера 912, например, во время запуска, хранится в энергонезависимой памяти 922. К примеру, а не в качестве ограничения, энергонезависимая память 922 может содержать постоянную память (ROM), программируемую ROM (PROM), электрически программируемую ROM (EPROM), электрически стираемую ROM (EEPROM) или флэш-память. Энергозависимая память 920 содержит оперативную память (RAM), которая выполняет функцию внешней кэш-памяти. К примеру, а не в качестве ограничения, RAM выпускается в многочисленных формах, например синхронной RAM (SRAM), динамической RAM (DRAM), синхронной DRAM (SDRAM), SDRAM с двойной скоростью (DDR SDRAM), усовершенствованной SDRAM (ESDRAM), Synchlink DRAM (SLDRAM) и RAM с шиной прямого резидентного доступа (DRRAM).

Компьютер 912 содержит также съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители данных. На фиг.9 представлено, например, дисковое запоминающее устройство 924. Дисковое запоминающее устройство 924 содержит, но не в качестве ограничения, устройства типа магнитного дискового накопителя, накопителя на гибких дисках, накопителя на магнитной ленте, Jaz-дисковода, Zip-дисковода, дисковода LS-60, карты флэш-памяти или карты памяти. Кроме того, дисковое запоминающее устройство 924 может содержать носители данных по отдельности или в комбинации с другими носителями данных, включая, но не в качестве ограничения, оптический диск, устройство ROM на компакт-диске (CD-ROM), накопитель на записываемом CD (накопитель CD-R), накопитель на CD многократной перезаписи (накопитель CD-RW) или накопитель ROM на универсальном цифровом диске (DVD-ROM). Для облегчения подключения дисковых запоминающих устройств 924 к системной шине 918 обычно применяется съемный или несъемный интерфейс, например интерфейс 926.

Следует понимать, что на фиг.9 показано программное обеспечение, которое выполняет функцию промежуточного звена между пользователями и основными компьютерными ресурсами, описанными в подходящей операционной среде 910. Упомянутое программное обеспечение содержит операционную систему 928. Операционная система 928, которая может храниться в дисковом запоминающем устройстве 924, служит для управления и распределения ресурсов компьютерной системы 912. Системные приложения 930 используют возможности управления ресурсами операционной системы 928 посредством программных модулей 932 и данных 934 по программе, хранящихся либо в системной памяти 916, либо в дисковом запоминающем устройстве 924. Следует понимать, что различные компоненты, описанные в настоящей заявке, могут быть реализованы в различных операционных системах или комбинациях операционных систем.

Пользователь вводит команды или информацию в компьютер 912 через устройство(а) 936 ввода. Устройства 936 ввода содержат, но не в качестве ограничения, координатно-указательное устройство, например мышь, трекбол, перо, сенсорную клавиатуру, клавиатуру, микрофон, джойстик, игровой пульт, спутниковую тарелку, сканер, плату телевизионного тюнера, цифровую камеру, цифровую видеокамеру, веб-камеру и т.п. Перечисленные и другие устройства ввода соединяются с блоком 914 обработки по системной шине 918 через порт(ы) 938 интерфейса. Порт(ы) 938 интерфейса содержат, например, последовательный порт, параллельный порт, игровой порт и универсальную последовательную шину (USB). Устройство(а) 940 вывода используют некоторые из портов такого же типа, что и устройство(а) 936 ввода. Следовательно, например, порт USB можно применять для обеспечения ввода в компьютер 912 и для вывода информации из компьютера 912 в устройство 940 вывода. Выходной адаптер 942 обеспечен для демонстрации, что, кроме других устройств 940 вывода, существуют некоторые устройства 940 вывода типа мониторов, громкоговорителей и принтеров, которые нуждаются в специальных адаптерах. Выходной адаптер 942 содержит, к примеру, и не в качестве ограничения, видео и аудиоплаты, которые обеспечивают средство связи между устройством 940 вывода и системной шиной 918. Следует отметить, что возможности как ввода, так и вывода обеспечиваются другими устройствами и/или системами устройств, например удаленным(и) компьютером(ами) 944.

Компьютер 912 может работать в сетевой среде с использованием логических соединений с, по меньшей мере, одним удаленным компьютером, например удаленным(и) компьютером(ами) 944. Удаленный(е) компьютер(ы) 944 может быть персональным компьютером, сервером, маршрутизатором, сетевым PC, рабочей станцией, микропроцессорным аппаратом, равноправным устройством или другим распространенным сетевым узлом и т.п. и обычно содержит многие или все элементы, описанные в связи с компьютером 912. Для краткости, с удаленным(и) компьютером(ами) 944 показано только запоминающее устройство 946. Удаленный(е) компьютер(ы) 944 логически соединяется с компьютером 912 посредством сетевого интерфейса 948 и затем физически соединяется посредством соединений 950 связи. Сетевой интерфейс 948 охватывает сети связи, например локальные сети (LAN) и глобальные сети (WAN). Технологии LAN содержат интерфейс для доступа к распределенным данным по оптоволокну (FDDI), распределенный интерфейс передачи данных по кабельным линиям (CDDI), сеть стандарта Ethernet/IEEE 802.3, кольцевую сеть с маркерным доступом Token Ring/IEEE 802.5 и т.п. Технологии WAN содержат, но не в качестве ограничения, линии прямой связи, сети с коммутацией каналов типа цифровых сетей с интеграцией служб (ISDN) и их вариантов, сети коммутации пакетов и цифровые абонентские линии (DSL).

Соединение(ия) 950 связи означает аппаратное/программное обеспечение, применяемое для подключения сетевого интерфейса 948 к шине 918. Хотя соединение связи 950 показано, для ясности, внутри компьютера 912, оно может быть также внешним относительно компьютера 912. Аппаратное/программное обеспечение, необходимое для подключения к сетевому интерфейсу 948, содержит, только для примера, внутренние и внешние технические средства, например модемы, содержащие обычные телефонные модемы, кабельные модемы и модемы DSL, адаптеры ISDN и сетевые карты Ethernet.

В целях настоящего описания, термины «компонент», «система» и т.п. предназначены для обозначения объекта, имеющего отношение к компьютерам, либо аппаратного обеспечения, комбинации из аппаратного обеспечения и программного обеспечения, программного обеспечения или программного обеспечения в процессе исполнения. Например, компонент может быть, но не в качестве ограничения, процессом, выполняемым в процессоре, процессором, объектом, исполняемым файлом, потоком выполнения, программой и/или компьютером. В качестве иллюстрации, как приложение, выполняемое в компьютере, так и компьютер могут быть компонентом. По меньшей мере, один компонент может постоянно находиться в процессе и/или потоке выполнения, и компонент может быть локализован в одном компьютере и/или распределен между двумя или более компьютерами. Термин «примерный» применяется в настоящей заявке для обозначения примера, отдельного случая или пояснения. Любой аспект или схему, описанные в настоящей заявке в качестве «примерных», не обязательно следует толковать как предпочтительные или выигрышные по сравнению с другими аспектами или схемами.

Кроме того, предлагаемый предмет изобретения можно реализовать в виде системы, способа, устройства или изделия, использующего стандартное программирование и/или технические методы для создания программного обеспечения, встроенных программ, аппаратного обеспечения или любой их комбинации для управления компьютером или процессорным устройством, чтобы реализовать аспекты, подробно описанные в настоящей заявке. Термин компьютерная программа, в целях настоящей заявки, предназначен для охвата компьютерной программы, которую можно выбрать из любого машиночитаемого устройства, носителя или среды. Например, машиночитаемые носители могут содержать, но не в качестве ограничения, магнитные запоминающие устройства (например, жесткий диск, гибкий диск, магнитные ленты…), оптические диски (например, компакт-диск (CD), цифровой универсальный диск (DVD) …), смарт-карты и устройства флэш-памяти (например, плату, карту). Кроме того, следует понимать, что можно использовать электромагнитный сигнал передачи модулированной информации для передачи машиночитаемых электронных данных, например данных, применяемых при передаче и приеме электронной почты или при доступе к сети, например сети Internet или локальной сети (LAN). Разумеется, специалисты в данной области техники смогут понять, что возможно создание множества модификаций представленной конфигурации без выхода за пределы объема или сущности заявленного предмета изобретения.

На фиг.10 представлена структурная схема примерной вычислительной среды 1000, которую можно использовать для оценки пользовательского приоритета при посредстве компонента пользовательского поведения в соответствии с аспектом настоящего изобретения. Система 1000 содержит, по меньшей мере, одного клиента 1010. Клиент 1010 может быть аппаратным и/или программным обеспечением (например, потоками, процессами, вычислительными устройствами). Система 1000 содержит также, по меньшей мере, один сервер 1030. Сервер 1030 может быть также аппаратным и/или программным обеспечением (например, потоками, процессами, вычислительными устройствами). Серверы 1030 могут содержать потоки для выполнения преобразований, например, с использованием компонентов, описанных в настоящей заявке. Одна возможная связь между клиентом 1010 и сервером 1030 может быть в форме пакета данных, предназначенного для передачи между, по меньшей мере, двумя компьютерными процессами. Система 1000 содержит инфраструктуру 1050 связи, которую можно использовать для облегчения связи между клиентом(ами) 1010 и сервером(ами) 1030. Клиент(ы) 1010 функционально подключены к, по меньшей мере, одному или более информационному хранилищу 1060 клиента, которое можно использовать для хранения информации, локальной для клиента(ов) 1010. Аналогично, сервер(ы) 1030 функционально подключены к одному или более информационному хранилищу 1040 сервера, которое можно использовать для хранения информации, локальной для серверов 1030.

Вышеприведенное описание содержит различные примерные аспекты. Разумеется, невозможно описать каждую возможную комбинацию компонентов или способов в целях описания упомянутых аспектов, но специалист со средним уровнем компетентности в данной области сможет понять, что возможны многочисленные дополнительные комбинации и перестановки. Соответственно, аспекты, описанные в настоящей заявке, предполагают охват всех изменений, модификаций и вариантов, которые находятся в пределах сущности и объема прилагаемой формулы изобретения.

Кроме того, в том смысле, в котором термин «содержит» применяется либо в подробном описании, либо в формуле изобретения, данный термин следует понимать как включающий, аналогично термину «содержащий», когда «содержащий» истолковывается при его использовании в качестве переходного слова в пункте формулы изобретения.

Похожие патенты RU2435212C2

название год авторы номер документа
СПОСОБ И СЕРВЕР ОБРАБОТКИ ПОИСКОВОГО ПРЕДЛОЖЕНИЯ 2015
  • Кривоконь Дмитрий Сергеевич
  • Шишкин Павел Алексеевич
  • Попов Олег Сергеевич
  • Гадельшин Ильнур Флюрович
  • Сухов Михаил Александрович
  • Мельников Андрей Александрович
  • Артемов Антон Павлович
RU2609079C2
ПОСТРОЕНИЕ И ПРИМЕНЕНИЕ ВЕБ-КАТАЛОГОВ ДЛЯ ФОКУСИРОВАННОГО ПОИСКА 2005
  • Брилл Эрик Д.
  • Чен Хэрр
  • Чандрасекар Раман
  • Корстон Саймон Х.
RU2382400C2
ДЛИНА ДОКУМЕНТА В КАЧЕСТВЕ СТАТИЧЕСКОГО ПРИЗНАКА РЕЛЕВАНТНОСТИ ДЛЯ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА 2009
  • Танкович Владимир
  • Мейерзон Дмитрий
  • Тэйлор Майкл Джеймс
RU2517271C2
СПОСОБ (ВАРИАНТЫ) И СЕРВЕР РАНЖИРОВАНИЯ ПОИСКОВЫХ РЕЗУЛЬТАТОВ НА ОСНОВЕ ПАРАМЕТРА ПОЛЕЗНОСТИ 2015
  • Никулин Вадим Андреевич
RU2632138C2
ОБЪДИНЕНИЕ РЕЗУЛЬТАТОВ ПОИСКА 2010
  • Тэйлор Майкл Дж.
  • Радлински Филиип
  • Шокоухи Милад
RU2549121C2
СИСТЕМА, СПОСОБ И ИНТЕРФЕЙС ДЛЯ ОБЕСПЕЧЕНИЯ ПЕРСОНАЛИЗИРОВАННОГО ПОИСКА И ДОСТУПА К ИНФОРМАЦИИ 2005
  • Хорвиц Эрик Дж.
  • Тиван Джейм Брукс
  • Дюмэ Сузан Т.
RU2419858C2
СПОСОБ И СИСТЕМА ОБРАБОТКИ ПОИСКОВОГО ЗАПРОСА 2015
  • Воробьев Александр Леонидович
  • Сердюков Павел Викторович
  • Лефортье Дамьен Реймон Жан-Франсуа
  • Гусев Глеб Геннадьевич
RU2640639C2
ПАНЕЛЬ УПРАВЛЕНИЯ ПОИСКОВЫМ МЕХАНИЗМОМ 2007
  • Раппапорт Ален Т.
  • Адамсон Дэн
  • Ших Лео
  • Чое Тимоти Б.
RU2442213C2
СПОСОБ И СИСТЕМА РАНЖИРОВАНИЯ НАБОРА ДОКУМЕНТОВ ИЗ РЕЗУЛЬТАТА ПОИСКА 2021
  • Светлов Всеволод Александрович
  • Гущенко-Чеверда Иван Ильич
RU2821294C2
МНОГОЭТАПНОЕ ОБУЧЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА 2021
  • Боймель Александр Алексеевич
  • Соболева Дарья Михайловна
RU2824338C2

Иллюстрации к изобретению RU 2 435 212 C2

Реферат патента 2011 года СБОР ДАННЫХ О ПОЛЬЗОВАТЕЛЬСКОМ ПОВЕДЕНИИ ПРИ ВЕБ-ПОИСКЕ ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ ВЕБ-ПОИСКА

Изобретение относится к системам и способам поиска информации в сети Интернет. Техническим результатом является расширение функциональных возможностей поиска в информационно-поисковой системе путем применения компонента пользовательского поведения. Компонент пользовательского поведения, связанный с поисковой машиной, может автоматически интерпретировать коллективное поведение пользователей (например, пользователей, производящих веб-поиск). Подобный компонент обратной связи может содержать поведенческие признаки пользователей и прогнозирующие модели (например, на основе компонента пользовательского поведения), которые устойчивы к шуму, который может присутствовать в наблюдаемых пользовательских взаимодействиях с результатами поиска (например, злонамеренные и/или иррациональные действия пользователя). 4 н. и 15 з.п. ф-лы, 10 ил.

Формула изобретения RU 2 435 212 C2

1. Компьютерно-реализованная система для ранжирования результатов поиска, содержащая следующие машиноисполняемые компоненты:
компонент пользовательского поведения, который оценивает пользовательские предпочтения по отношению к результатам поиска на основе непосредственно наблюдаемых признаков пользователя и производных признаков, причем производные признаки основываются на отклонении непосредственно наблюдаемых признаков пользователя для результатов поиска от ожидаемого поведения, определенного из общего распределения множества дополнительных пользователей для результатов поиска, при этом компонент пользовательского поведения дополнительно ослабляет эффект, связанный со злонамеренными или иррациональными просмотровыми действиями, сопровождающими индивидуальное поведение при просмотре, посредством интерпретации коллективного поведения при просмотре, соответствующего упомянутому множеству дополнительных пользователей;
набор признаков, содержащий по меньшей мере одно из презентационных признаков, просмотровых признаков и признаков щелчка мышью, которыми собираются и количественно выражаются взаимодействия при просмотре Web со стороны упомянутого пользователя и упомянутого множества дополнительных пользователей, причем данный набор признаков включает в себя упомянутые непосредственно наблюдаемые признаки и производные признаки; и
поисковую машину, которая учитывает пользовательские предпочтения для определения релевантности и ранжирования полученных в ответ результатов поиска, при этом результаты поиска, связанные с ожидаемым поведением упомянутого множества дополнительных пользователей, располагаются выше при ранжировании по сравнению с результатами поиска, связанными с упомянутыми непосредственно наблюдаемыми признаками.

2. Компьютерно-реализованная система по п.1, в которой компонент пользовательского поведения дополнительно содержит фоновый компонент и компонент релевантности.

3. Компьютерно-реализованная система по п.1, дополнительно содержащая компонент обучения машины.

4. Компьютерно-реализованная система по п.1, в которой компонент пользовательского поведения дополнительно содержит управляемую данными модель пользовательского поведения.

5. Компьютерно-реализованная система по п.4, дополнительно содержащая журнал данных, который содержит данные о предшествующих поисках.

6. Компьютерно-реализованная система по п.1, в которой поисковая машина дополнительно содержит компонент ранжирования, который ранжирует результаты поиска.

7. Компьютерно-реализованная система по п.4, дополнительно содержащая компонент обучения машины, который обучает модель пользовательского поведения.

8. Компьютерно-реализуемый способ ранжирования результатов поиска, согласно которому процессор исполняет машиноисполняемые инструкции, хранящиеся на машиночитаемом носителе, для выполнения этапов способа, на которых
получают пользовательское поведение пользователя во время взаимодействия с поисковой машиной, где пользователь представляет запрос в поисковую машину;
объединяют пользовательское поведение для его анализа, при этом пользовательское поведение включает в себя непосредственно наблюдаемые признаки пользовательского поведения и производные признаки пользовательского поведения, причем производные признаки основываются на отклонении явных результатов поиска, связанных с непосредственно наблюдаемыми признаками пользовательского поведения для результата поиска, от неявных результатов поиска, связанных с ожидаемым поведением, определенным из общего распределения множества дополнительных предшествующих пользователей для этого результата поиска;
ослабляют шум, связанный с пользовательским поведением, посредством интерпретации объединенного пользовательского поведения и посредством усреднения наблюдаемых признаков взаимодействия, причем этот шум соответствует злонамеренным или иррациональным просмотровым действиям;
оценивают пользовательские предпочтения в отношении найденных результатов на основе упомянутых объединения и ослабления;
определяют ранжирование результатов на основе пользовательских предпочтений, так что при имеющихся неявных результатах поиска ранжирование представляет комбинацию явных и неявных результатов поиска, в противном случае, ранжирование представляет явные результаты поиска.

9. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап обучения модели для ранжирования найденных результатов.

10. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап автоматического формирования модели на основе пользовательского поведения.

11. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап разработки набора признаков, относящихся к пользовательскому взаимодействию с найденными результатами.

12. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап использования обучения машины для учета пользовательского поведения.

13. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап прогнозирования пользовательского поведения.

14. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап сбора данных об объединенном пользовательском поведении для ранжирования найденных результатов.

15. Компьютерно-реализуемый способ по п.8, дополнительно содержащий этап применения непосредственно наблюдаемых признаков из взаимодействий с найденными результатами для оценки пользовательских предпочтений.

16. Компьютерно-реализованная система для ранжирования результатов поиска, содержащая следующие машиноисполняемые компоненты:
средство для сбора неявной обратной связи от множества пользователей;
средство для построения набора признаков на основе этой неявной обратной связи, при этом набор признаков включает в себя наблюдаемые пользовательские поведения при просмотре и производные признаки, причем производные признаки основываются на отклонении явных результатов поиска, связанных с этими наблюдаемыми пользовательскими поведениями при просмотре для результата поиска, от неявных результатов поиска, связанных с ожидаемыми пользовательскими поведениями при просмотре, определенными из общего распределения множества дополнительных пользователей для этого результата поиска;
средство для ослабления шума, сопровождающего индивидуальное поведение при просмотре, причем данный шум соответствует злонамеренным или иррациональным просмотровым действиям; и
средство для оценки пользовательских предпочтений на основе набора признаков; и
средство для определения ранжирования результатов на основе пользовательских предпочтений, так что при имеющихся неявных результатах поиска ранжирование представляет комбинацию явных и неявных результатов поиска, к которым применены весовые коэффициенты, в противном случае, ранжирование представляет явные результаты поиска, при этом весовыми коэффициентами устанавливается то, что те результаты из неявных результатов поиска, по которым был выполнен щелчок мышью, имеют более высокий ранг, чем те результаты из неявных результатов поиска, по которым щелчок мышью выполнен не был.

17. Автоматизированный способ обеспечения улучшенного поиска и просмотра Web, согласно которому один или более процессоров исполняют машиноисполняемые инструкции, хранящиеся на машиночитаемом носителе, для выполнения этапов способа, на которых:
получают данные касаемо поведения при просмотре Web со стороны множества пользователей;
формируют модель для прогнозирования пользовательских предпочтений на основе этих данных, причем модель использует набор признаков, включающий в себя наблюдаемые признаки и производные признаки, при этом наблюдаемые признаки формируются из наблюдаемых пользовательских поведений при просмотре, а производные признаки выводятся из отклонения этих наблюдаемых признаков для результата поиска от ожидаемого поведения, определенного из общего распределения упомянутого множества пользователей для этого результата поиска, причем набор признаков содержит по меньшей мере одно из презентационных признаков, просмотровых признаков и признаков щелчка мышью, которыми собираются и количественно выражаются взаимодействия при просмотре Web со стороны пользователей, при этом при прогнозировании выполняют усреднение по признакам набора признаков для ослабления эффектов, обусловленных вариациями в поведении среди отдельных пользователей, причем презентационные признаки включают в себя долю слов, общих между запросом и по меньшей мере одним из заголовка, резюме, универсального указателя информационного ресурса (URL) и домена; и
взаимодействуют с моделью, чтобы на основе пользовательских предпочтений задать ранжирование для результатов поиска по Web, при этом результаты поиска, связанные с ожидаемым поведением упомянутого множества пользователей, располагаются выше при ранжировании по сравнению с результатами поиска, связанными с наблюдаемыми признаками.

18. Способ по п.17, дополнительно содержащий этап моделирования пользовательского поведения, соответствующего паре поисковый запрос-результат поиска, используя как наблюдаемый признак, так и производный признак.

19. Способ по п.17, дополнительно содержащий этап ранжирования результатов поиска как на основе зависящих от запроса признаков, включая то, насколько близко запрос соответствует тексту Web-документа, так и не зависящих от запроса признаков, включая ранг страницы Web-документа.

Документы, цитированные в отчете о поиске Патент 2011 года RU2435212C2

WO 2004066163 A1, 05.08.2004
СПОСОБ ПОИСКА И ВЫБОРКИ ИНФОРМАЦИИ С ПОВЫШЕННОЙ РЕЛЕВАНТНОСТЬЮ 2003
  • Баранов А.В.
RU2236699C1
US 2005165753 A1, 28.07.2005
RU 2001128643 A, 20.07.2003
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор 1923
  • Петров Г.С.
SU2005A1

RU 2 435 212 C2

Авторы

Агихтейн Евгений Е.

Брилл Эрик Д.

Дюмэ Сюзан Т.

Рэгно Роберт Дж.

Даты

2011-11-27Публикация

2007-02-08Подача