Область техники, к которой относится изобретение
Настоящее изобретение относится к объединению результатов поиска, которое необходимо, например, когда система извлечения информации выдает запрос множественным источникам и получает множественные списки результатов.
Предшествующий уровень техники
При осуществлении федеративного поиска обычно требуется объединять результаты поиска, принятые от разных поисковых механизмов, которые могут извлекать информацию из разных источников. Например, федеративный поиск может осуществляться на поисковом портале, который принимает поисковый запрос и посылает его на совокупность разных поисковых механизмов. Он собирает результаты и обычно обеспечивает пользовательский интерфейс, позволяющий осуществлять доступ к собранным результатам. Процесс отправки запроса на разные поисковые механизмы и приема результатов осуществляется автоматически без необходимости пользовательского ввода и может осуществляться "за кадром", так что пользователь может не знать о его существовании.
Таким образом, порталы федеративного поиска используются в настоящее время для поиска по многим разным публичным источникам информации, например, с использованием механизмов Интернет-поиска, публичных баз данных и других публичных собраний данных. Однако многие предприятия, образовательные учреждения и другие объекты имеют доступ к источникам информации, которые не являются публичными. В этом случае встает вопрос, как правильно обеспечить федеративный поиск, где, по меньшей мере, некоторые из источников информации являются публичными и, по меньшей мере, некоторые - нет.
Существующие системы федеративного поиска часто просто собирают списки результатов, полученные из разных источников информации, не обеспечивая никакого дополнительного “интеллекта” для представления результатов. Например, в некоторых системах федеративного поиска портал обеспечивает средство пользовательского интерфейса, пользуясь которым конечный пользователь должен вручную объединять, устранять дублирование и сортировать списки результатов из разных источников информации. Это занимает много времени и трудно, из-за чего на конечного пользователя возлагается ненужная нагрузка. Эта проблема особенно актуальна, когда конечным пользователем является новичок или ребенок, который даже не знает о существовании отдельных источников данных, по которым осуществляется поиск.
Известны другие системы извлечения информации, дающие пользователю возможность манипулировать пользовательским интерфейсом для указания, что запрос адресован совокупности разных источников, заданных пользователем. Необработанные результаты принимаются на пользовательском интерфейсе и представляются, часто совместно, чтобы пользователь мог распоряжаться ими с использованием инструментов, предусмотренных в составе пользовательского интерфейса. Такого рода поиск не столь автоматизирован, как федеративный поиск, поскольку функции управления обеспечены, в основном, на пользовательском интерфейсе, а не отдельном механизме федерального поиска. Кроме того, такого рода поисковая система подходит только для опытных пользователей, располагающих обширными знаниями о разных доступных источниках информации.
Описанные ниже варианты осуществления не ограничиваются реализациями, которые устраняют какие-либо или все недостатки известных систем извлечения информации.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Ниже в упрощенной форме представлена сущность раскрытия, позволяющая читателю понять ее основные идеи. Эта сущность не является исчерпывающим обзором раскрытия и не выявляет ключевые/критические элементы изобретения и не ограничивает объем изобретения. Ее единственной целью является представление в упрощенной форме некоторых раскрытых здесь концепций, предваряющее более подробное описание, приведенное ниже.
Объединение результатов поиска необходимо, например, когда система извлечения информации выдает запрос множественным источникам и получает множественные списки результатов. Согласно варианту осуществления поисковый механизм в корпоративном домене посылает запрос на корпоративный поисковый механизм, а также на поисковый механизм для публичного интернета. Согласно вариантам осуществления списки результатов, полученные из разных источников, объединяются с использованием модели объединения, которая обучается с использованием процесса машинного обучения и обновляется, например, при наблюдении кликовых данных. В примерах пользовательская информация, доступная в корпоративном домене, используется для внесения изменений в процесс объединения для повышения релевантности результатов. В некоторых примерах пользовательская информация используется для изменения запроса. Согласно варианту осуществления пользователь имеет возможность подменять пользователя указанной группа для улучшения конкретных результатов.
Многие дополнительные признаки станут более очевидными по ознакомлении с нижеследующим подробным описанием, проиллюстрированным прилагаемыми чертежами.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для более углубленного понимания настоящего описания следует обратиться к нижеследующему подробному описанию, проиллюстрированному прилагаемыми чертежами, в которых:
фиг. 1 - схема системы извлечения информации на предприятии, подключенной через брандмауэр к интернету;
фиг. 2 - схема системы извлечения информации, имеющей поисковый механизм одновременного охвата, на предприятии, которая подключена к интернету через брандмауэр;
фиг. 3 - логическая блок-схема способа объединения результатов в системе извлечения информации;
фиг. 4 - схема модели объединения;
фиг. 5 - схема типов ввода, предусмотренных в модели объединения;
фиг. 6 - логическая блок-схема способа, выполняемого на механизме объединения;
фиг. 7 - логическая блок-схема другого способа, выполняемого на механизме объединения;
фиг. 8-схема пользовательского интерфейса, обеспечиваемого системой извлечения информации;
фиг. 9 - логическая блок-схема способа, выполняемого в системе извлечения информации при изменении объемов поиска;
фиг. 10 - логическая блок-схема способа, выполняемого в системе извлечения информации при осуществлении выбора подменяющего пользователя;
фиг. 11 - логическая блок-схема способа, выполняемого в системе извлечения информации для изменения запроса;
фиг. 12 - иллюстративное вычислительное устройство, в котором можно реализовать варианты осуществления системы извлечения информации.
Прилагаемые чертежи снабжены сквозной системой обозначений.
ПОДРОБНОЕ ОПИСАНИЕ
Подробное описание, приведенное ниже совместно с прилагаемыми чертежами, призвано служить описанием настоящих примеров и не призвано представлять только те формы, в которых можно построить или использовать настоящий пример. В описании изложены функции примера и последовательность этапов для построения и эксплуатации примера. Однако такие же или эквивалентные функции и последовательности могут осуществляться в других примерах.
Термин “поиск одновременного охвата” используется здесь в отношении использования единичного поискового механизма для автоматического поиска по совокупности источников информации, по меньшей мере, один из которых находится в частном домене, к которому единичный поисковый механизм имеет доступ, и, по меньшей мере, другой из которых находится в публичном домене.
Хотя настоящие примеры описаны и проиллюстрированы здесь как реализуемые в системе извлечения информации для поиска одновременного охвата, описанная система обеспечена в порядке примера, но не ограничения. Специалистам в данной области техники очевидно, что, по меньшей мере, некоторые из настоящих примеров пригодны для применения в системах извлечения информации различных других типов, включая системы для поиска по совокупности разных источников информации.
На фиг. 1 показана схема системы извлечения информации на предприятии (или в другом частном домене), подключенной через брандмауэр 101 к интернету 100. Сущности слева от пунктирной линии на фиг. 1 рассматриваются здесь как часть корпоративного домена, а сущности справа от пунктирной линии находятся в публичном домене. В публичном домене обеспечен поисковый механизм 112, подключенный к интернету 100 и выполненный с возможностью обеспечивать пользовательский интерфейс 113, допускающий навигацию конечного пользователя на клиентском терминале, например, на клиентском терминале 107 в корпоративном домене. Поисковый механизм 112 имеет доступ к индексу 111 документов 110. Он выполнен с возможностью приема условий запроса 108 от конечного пользователя на клиентском терминале 107 (в публичном или частном домене) и возвращения ранжированного списка документов 109 с использованием индекса 111, как известно в технике.
Внутрисетевой поисковый механизм 105 также обеспечен в корпоративном домене и подключен к внутренней сети 102, к которой также подключен клиентский терминал 107. Внутрисетевой поисковый механизм 105 имеет доступ к индексу 104 документов 103, доступных пользователям на предприятии, но, в общем случае, не доступных вне корпоративного домена. Например, внутренняя сеть для образовательных учреждений может иметь свободный доступ к премиальному контенту, который не доступен в публичном интернете. Кроме того, внутренняя сеть государственной службы здравоохранения может иметь доступ к конфиденциальной и/или другой дорогостоящей информации, которая не подлежит свободному доступу. В другом примере группа пользователей может иметь доступ к сайту частой социальной сети, где хранится информация, которая не подлежит свободному доступу. В этом случае документы 103 и индекс 104, указанные на фиг. 1, представляют, по меньшей мере, некоторую информацию, которая, в общем случае, не подлежит свободному доступу. Внутрисетевой поисковый механизм 105 также обеспечивает пользовательский интерфейс 106, доступный клиентскому терминалу 107. Конечный пользователь на клиентском терминале 107 способен вводить условия пользовательского запроса 108 в внутрисетевой поисковый механизм пользовательский интерфейс 106 для получения ранжированного списка документов 109 из индекса 104. Таким образом, конечный пользователь может вручную направлять запросы либо на механизм интернет-поиска 112, либо на внутрисетевой поисковый механизм 105. Однако конечный пользователь часто не знает, из какого источника он, скорее всего, получит наилучшие результаты. Часто получается утомительный процесс проб и ошибок, в котором конечный пользователь посылает запрос на механизм интернет-поиска (например) и просматривает результаты, прежде чем послать тот же запрос на внутрисетевой поисковый механизм.
Другое отличие между внутрисетевым поисковым механизмом 105 и поисковым механизмом для публичного интернета 112, показанными на фиг. 1, состоит в том, что внутрисетевой поисковый механизм 105 может иметь доступ к личной пользовательской информации о пользователях внутренней сети, которая не доступна для поискового механизма для публичного интернета 112. Например, такой информацией может быть демографическая информация и/или информация, содержащая конфиденциальные детали, например, возраст пользователя, должность пользователя на предприятии (например, медсестра, врач, ученик, учитель, менеджер, разнорабочий), рабочий адрес пользователя и другие подобные детали.
Можно обеспечить поисковую систему одновременного охвата, изображенную на фиг. 2. Поисковый механизм одновременного охвата 202 подключен к внутренней сети и объединен или связан с внутрисетевым поисковым механизмом. С поисковым механизмом одновременного охвата 202 объединены или связаны механизм объединения 203 и блок оценивания 204. Внутрисетевой поисковый механизм имеет пользовательский интерфейс для поиска одновременного охвата 205.
Пользователь на клиентском терминале 107 способен вводить условия пользовательского запроса 108 в пользовательский интерфейс для поиска одновременного охвата 205 и получать ранжированный список объединенных документов 200. Поисковый механизм одновременного охвата выполнен с возможностью передачи условий запроса 108 на внутрисетевой поисковый механизм 105 и механизм интернет-поиска 112 и для приема результатов. Он выполнен с возможностью объединения результатов с использованием механизма объединения 203 и отображения ранжированного, объединенного списка результатов конечному пользователю на пользовательском интерфейсе 205. Неявная и/или явная обратная связь 201 наблюдается на пользовательском интерфейсе 205 и возвращается на поисковый механизм одновременного охвата. Эта обратная связь используется для обновления механизма объединения. Таким образом, система машинного обучения на механизме объединения позволяет ему учиться наилучшим образом объединять результаты. Блок оценивания 204 предусмотрен для периодического контроля производительности механизма объединения 203, чтобы гарантировать, что процесс обучения действует правильно. Можно использовать любой подходящий блок оценивания. Например, можно использовать процесс оценивания с перемежением, описанный в Radlinski, et al., “How does clickthrough data reflect retrieval quality” Proceedings of 17th ACM conference on Information and Knowledge management, pp 43-52, 2008, которая включена сюда в полном объеме посредством ссылки.
На фиг. 3 представлен способ, выполняющийся на поисковом механизме одновременного охвата 202. (Этот способ также применим к механизмам федеративного поиска, где множественные объемы поиска строятся на основе источников публичного домена.) Запрос принимается 300, например, от школьника на клиентском терминале 107. Школьник ищет информацию о пингвинах для выполнения домашнего задания. Школьник не знает, производить ли поиск с использованием внутрисетевого поискового механизма или с использованием веб-поиска. Поисковый механизм одновременного охвата 202 посылает 301 запрос на внутрисетевой поисковый механизм, а также на публичный поисковый механизм (см. блок 303). Это иногда может осуществляться автоматически в режиме, прозрачном для школьника, так что школьнику не требуется специальных знаний при выборе источников информации для поиска. В некоторых вариантах осуществления осуществляется процесс изменения запроса 313, в котором запрос расширяется или видоизменяется в зависимости от источника, на который он должен быть направлен, и, в необязательном порядке, с использованием информации обратной связи, поступающей из предыдущих поисков (что более подробно объяснено ниже). Это изменение запроса осуществляется автоматически и, в некоторых вариантах осуществления, в режиме, прозрачном для школьника или другого пользователя. Это облегчает работу с системой для начинающих пользователей, которые еще не научились формулировать подходящие запросы для конкретных типов объема поиска.
В некоторых вариантах осуществления можно производить поиск по более чем двум источникам информации, что обозначено блоками 305 и 306 на фиг. 3. Первый список результатов принимается 302 от внутрисетевого поискового механизма, и второй список результатов принимается 304 от механизма веб-поиска. В случае поиска по более чем двум источникам информации принимается по одному списку результатов для каждого источника информации. Списки результатов объединяются 308 с использованием модели объединения (которая хранится 307), и объединенный список результатов представляется конечному пользователю. Модель объединения также может использовать историческую информацию (например, хранилища журналов кликов) 312 и другие вводы, описанные более подробно ниже со ссылкой на фиг. 5. Обратная связь принимается 309, например, если пользователь пропускает или кликает по одному или нескольким из элементов в объединенном списке результатов, и эта обратная связь используется для обновления 310 модели объединения. Обратная связь может быть неявной обратной связью или явной обратной связью. Кроме того, обратную связь можно, в необязательном порядке, использовать для внесения изменений в процесс изменения запроса 313.
Термин “явная обратная связь” используется для обозначения проактивной обратной связи от пользователя в отношении релевантности документа, извлеченного системой извлечения информации. Например, это может быть метка, присвоенная документу пользователем-человеком, подавшим указанный запрос. Метка может предназначаться для отнесения документа к одному из совокупности классов в зависимости от того, как пользователь оценивает документ в отношении релевантности запросу. Явную обратную связь также можно рассматривать как оценивание одного или нескольких документов в ранжированном списке с учетом условий запроса, использованных для получения этого ранжированного списка. Явную обратную связь также можно именовать явной информацией релевантности.
Чтобы обратная связь была явной, требуется активный пользовательский ввод или действие пользователя в ответ на запрос или предложение к этому пользователю принять решение. Напротив, для “неявной обратной связи” (также именуемой неявной информацией релевантности) активный пользовательский ввод в ответ на предложение принять решение не требуется. Ее также можно рассматривать как пассивную обратную связь. Примеры неявной обратной связи включают в себя кликовые данные, например, пары запрос-документ. Пара запрос-документ это запрос, введенный пользователем в поисковый механизм совместно со ссылкой или другим идентификатором документа. Документ указан в ранжированном списке документов, представленном поисковым механизмом в ответ на запрос, и кликнут пользователем. Другие примеры неявной обратной связи включают в себя отсутствие активности на пользовательском интерфейсе. Например, предполагается, что событие, состоящее в том, что пользователь не обращается к документу из списка результатов, связано с нерелевантностью документа. Существует много других возможных типов неявной обратной связи. Например, время пребывания в системе (сколько времени пользователь тратит на наведение указателя пользовательского интерфейса на ссылку в списке документов). Можно предусмотреть разные степени неявной обратной связи. Например, если пользователь копирует и вставляет ссылку из списка результатов или создает закладку на ссылку, это можно считать высококачественной неявной обратной связью.
Отсюда следует, что такие разные типы информации обратной связи можно выгодно использовать для улучшения объединения результатов поиска, принятых из разных источников, чтобы сделать объединенные результаты поиска более релевантными. Например, это достигается на межзапростной основе. Таким образом, обратная связь от предыдущих запросов пользователя и/или решений блока оценивания используется для улучшения будущего объединения результатов поиска, произведенного тем же или другими пользователями.
Модель объединения, в необязательном порядке, периодически оценивается 311 и регулируется или заменяется по мере необходимости в соответствии с результатами этих оценок.
Например, модель объединения представляет собой модель событий представления результатов поиска и используется для предсказания, будет ли результат выбран (или кликнут) пользователем, а также какому источнику или объему поиска будет отдано предпочтение (посредством клика). Таким образом, наблюдаемую информацию о событии представления объединенных результатов поиска можно использовать для обновления модели объединения, и этот процесс может продолжаться, пока наблюдаются события представления объединенных результатов поиска. Таким образом, объединение является адаптивным и учится объединять результаты так, чтобы в будущем с большей вероятностью приводить к “кликам”. Можно использовать любую подходящую модель объединения, которая моделирует события представления результатов поиска и которую можно использовать для предсказания, будет ли результат выбран пользователем. Ее также можно рассматривать как модель, которая предсказывает, насколько релевантным будет результат для данного пользователя.
Например, модель объединения 400 может храниться в памяти с использованием структуры данных и может содержать совокупность переменных 401 события представления результатов поиска, каждая из которых может иметь вес с соответствующим распределением вероятности. Каждое распределение вероятности может представлять достоверность того, что вес, связанный с моделью, верен. Для данного результата в списке результатов модель можно использовать для обеспечения вероятности того, что данный результат будет кликнут (здесь это называется вероятностью клика) путем объединения переменных с учетом весов и достоверностей весов. Затем результаты можно объединять на основании этих значений вероятности клика. Например, результаты можно представлять в списке, упорядоченном по значению вероятности клика.
По мере обновления модели объединения (этап 310 на фиг. 3) веса изучаются, и достоверности этих весов уточняются. Пример подходящей модели объединения описана в US 2009/0043539A1, опубликованной 12 февраля 2009 г. от имени Microsoft Corporation и включенной сюда в полном объеме посредством ссылки.
Переменные события, используемые в модели объединения 400, описывают события представления объединенных результатов поиска, при которых пользовательский интерфейс 205 поискового механизма одновременного охвата 202 представляет конечному пользователю объединенный список результатов. Можно использовать любое подходящее количество переменных события, хотя с увеличением количества переменных возрастает потребление вычислительных ресурсов. Переменные события можно обеспечивать как значения указателя, а не как переменные с действительными значениями, для снижения требований к вычислительной мощности, и процессы отсечения можно использовать для снижения требований к памяти для модели объединения, описанной в вышеупомянутой US 2009/0043539A1.
На фиг. 5 приведен неполный список примеров переменных события, подаваемых на механизм объединения 203 для объединения конкретного результата. Можно использовать любую комбинацию одной или нескольких таких переменных события. Они включают в себя ранг или счет 500 внутрисетевого поиска для результата, текстовые признаки 501, которые внутрисетевой поисковый механизм использовал для ранжирования результата, ранг или счет 502 интернет-поиска, текстовые признаки 503, извлеченные из любого фрагмента, предоставленного для использования с результатом механизмом интернет-поиска, установил ли пользователь выбор подменяющего пользователя 504 (описанный более подробно ниже), частотность запроса 505 для запроса, который привел к результату, количество результатов 506, полученных из каждого источника для данного поиска, пользовательскую информацию 507, историю кликов 508 для результата, входящего в объединенный список и/или в необъединенный список. Другая переменная события может просто указывать, является ли результат внутрисетевым или интернет-результатом; другой вариант состоит в выводе этой информации из значений других переменных события. Например, ранг внутрисетевого поиска приравнивается нулю, если результат получен из интернета. Еще одной переменной события может быть ссылочный признак, например, ранг страницы в алгоритме анализа ссылок PageRank.
Модель объединения инициализируется стандартными весами и обучается с использованием наблюдаемых данных события с использованием любого подходящего процесса обучения. Иллюстративные процессы обучения описаны в вышеупомянутой US 2009/0043539A1. Процесс обучения может осуществляться автономно и может продолжаться в ходе использования механизма объединения в реальном времени. Таким образом, автономное обучение не является необходимым. Процесс обучения может осуществляться в порядке использования системы объединения в реальном времени.
Используя модель объединения 400, механизм объединения может формировать единый ранжированный список результатов из совокупности принятых списков результатов, что описано со ссылкой на фиг. 3. Механизм объединения, в необязательном порядке, удаляет повторы 600 из списков и, для каждого из оставшихся результатов, определяет 601 вероятность клика по этому результату с использованием модели объединения. Для данного результата, механизм объединения берет значения переменных события, принятые согласно описанному выше со ссылкой на фиг. 5. Согласно примеру, он комбинирует эти значения переменных события с учетом весов и применяет функцию связи для отображения комбинированных значений переменных в значение вероятности, описанное в вышеупомянутой US 2009/0043539A1. Механизм объединения выполнен с возможностью формирования 602 единого ранжированного списка результатов на основании определенных значений вероятности.
В некоторых вариантах осуществления механизм объединения 203 также выполнен с возможностью принятия решения, объединять ли списки результатов. Например, в ряде случаев нецелесообразно объединять список результатов, поскольку все результаты интернет-поиска (например) имеют более низкую релевантность по сравнению с результатами внутрисетевого поиска. Опишем, со ссылкой на фиг. 7, иллюстративный способ, выполняющийся на поисковом механизме одновременного охвата.
Поисковый механизм одновременного охвата принимает 700 список результатов первого объема от внутрисетевого поискового механизма (например). Он также принимает список результатов второго объема от механизма интернет-поиска (например). Он использует механизм объединения для получения 702 вероятностей кликов для результатов в обоих списках результатов согласно описанному выше. Затем он выполнен с возможностью переходить к процессу 703 принятия решения для принятия решения, представлять ли результаты в виде объединенного списка. Это решение принимается на основе правил, порогов или других критериев, заданных на поисковом механизме одновременного охвата. Например, если среднее значение вероятности клика для результатов интернет-поиска составляет в пределах 10% от соответствующего значения для результатов внутрисетевого поиска, то результаты объединяются 704. В противном случае результаты не объединяются. При этом поисковый механизм одновременного охвата переходит к выбору 705 одного из списков результатов для представления в главной части дисплея пользовательского интерфейса. Для осуществления этого выбора используются правила, пороги или другие критерии, и также принимается решение 706, использовать ли боковую панель дисплея для представления списка результатов 707 другого объема.
На фиг. 8 показан пример дисплея пользовательского интерфейса для использования пользовательским интерфейсом 205 одновременного охвата в образовательном домене. Это конкретный пример, описанный со ссылкой на применение в сфере образования. Технология также подходит для использования в других областях при соответствующей изменения дисплея пользовательского интерфейса. Он содержит главную область отображения 801 и боковую панель 802. Главная область отображения 801 содержит текстовое поле 800, позволяющее пользователю вводить запрос и направлять этот запрос на поисковый механизм одновременного охвата. Под текстовым полем 800 находятся флажки объема 803, 804, 805, позволяющие пользователю указывать, следует ли искать в внутренней сети и в интернете (флажок 803), только в внутренней сети (флажок 804) или только в интернете (флажок 805). Еще один флажок 806 позволяет пользователю подменять другого пользователя, который в этом примере является “пятилетним ребенком”, будучи школьником 10 лет отроду. Под флажками объема отображаются результаты в виде ранжированного списка 807. Совместно с каждым результатом можно обеспечить индикацию, указывающую источник, откуда был получен результат. Однако это не является необходимым. Результаты также могут отображаться в вышеупомянутой боковой панели 802.
Опишем, со ссылкой на фиг. 9, иллюстративный способ, выполняющийся на поисковом механизме одновременного охвата. Поисковый запрос принимается 900 с первым указанным объемом поиска. Например, можно указать, что поисковые механизмы должны искать как в внутренней сети, так и в интернете (в примере на фиг. 8 отмечен флажок объема 803). Поисковый механизм одновременного охвата осуществляет поиск и объединение списков результатов согласно описанному выше. Объединенный список результатов представляется 901 пользователю на пользовательском интерфейсе. При этом поисковый механизм одновременного охвата может принимать 902 пользовательский ввод, изменяющий указанный объем поиска. Например, теперь требуются только результаты внутрисетевого поиска. В примере на фиг. 8 это соответствует очистке флажка 803 и отмечанию флажка 804. Механизм объединения выполнен с возможностью обновления 903 объединенного списка результатов согласно новому указанному объему и представления обновленного списка в реальном времени, в ходе работы пользователя с поисковым механизмом. Для этого можно использовать значения вероятности клика, уже определенные, например, на этапе 601 способа, представленного на фиг. 6. Результаты, удаленные из списка, например, результаты поиска в интернете в рассматриваемом случае, можно представлять 904 в боковой панели дисплея.
В некоторых вариантах осуществления пользователь имеет возможность подменять другого пользователя для внесения изменений в обучение механизма объединения. Например, учитель может пожелать подменить ребенка для данного запроса, для продвижения выбранных результатов для последующего поиска, осуществляемого ребенком. Переменная события, именуемая “подменяющий пользователь” 504 на фиг. 5, используется совместно с флажком 806 пользовательского интерфейса или другим средством пользовательского ввода. Если переменная события подменяющего пользователя 504 задана, механизм объединения выполнен с возможностью внесения изменения в процесс обновления, показанный на фиг. 3 (этап 310), чтобы присвоить больший вес соответствующему событию представления результатов поиска по сравнению с другими событиями.
Например, согласно фиг. 10 поисковый запрос принимается 1000 совместно с пользовательским вводом, указывающим условие подменяющего пользователя. Событие представления результатов поиска наблюдается 1001, и модель объединения обновляется 1002 до более высокой степени, чем для наблюдаемых событий, не имеющих условия подменяющего пользователя.
Помимо вышеописанного примера учителя и ученика, существует много областей применения, где может быть полезен асимметричный механизм обновления, показанный на фиг. 10. Например, в медицине, инженерии, фармакологии или других областях, где может потребоваться корректировать или направлять результаты поиска для конкретных групп пользователей.
Как упомянуто выше, в внутрисетевом домене, сущностям в этом домене доступна информация, которая не подлежит свободному доступу. Например, она может включать в себя информацию об отдельных пользователях или группах пользователей в внутрисетевом или корпоративном домене. Эту информацию поисковый механизм одновременного охвата может использовать для внесения изменений в объединение результатов. Например, одна или несколько переменных события, описывающие пользовательскую информацию 507, используются механизмом объединения 203 (см. фиг. 5). Предположим, что конечным пользователем является школьник, ищущий информацию о пингвинах для выполнения своего домашнего задания. Механизм объединения может принимать переменную события, указывающую возраст этого ученика, и веса в модели объединения могут устанавливаться в ходе обучения, чтобы процесс объединения мог смещать результаты от внутрисетевого поискового механизма в этом сценарии. Кроме того, различным результатам интернет-поиска могут присваиваться разные веса в соответствии с возрастом ученика. Например, премиальный контент в виде природных видеосъемок пингвинов может быть бесплатно доступен от внутрисетевого поискового механизма. Хотя ученику неизвестно о разных поисковых механизмах и/или существовании бесплатного высококачественного контента, он может быстро, просто и эффективно осуществлять доступ к этой информации. Хотя пользовательская информация доступна только в внутрисетевом домене, она используется поисковым механизмом одновременного охвата для оказания влияния на объединение результатов из источников внутрисетевого и публичного домена.
В некоторых вариантах осуществления пользовательскую информацию можно использовать для осуществления изменения запроса, которая также может зависеть от искомого источника информации. Опишем это со ссылкой на фиг. 11. Запрос вводится пользователем (например, десятилетним ребенком, ищущим информацию о пингвинах). Запрос принимается 1101 поисковым механизмом одновременного охвата, который также принимает 1102 информацию о применимой группе для пользователя (например, десятилетнего школьника). Поисковый механизм одновременного охвата выполнен с возможностью изменения запроса на основании группы пользователей и объема поиска. Объем поиска может явно указываться пользователем путем выбора флажков, показанных на фиг. 8, или может устанавливаться по умолчанию на все доступные источники. Например, информацию о предыдущих поисках, выполненных пользователями в одной и той же группе пользователей, можно использовать для изменения запроса путем автоматического добавления, удаления или редактирования условий запроса.
Измененный запрос выдается на соответствующий поисковый механизм, и принимаются 1104 списки результатов. Списки результатов объединяются 1105 вышеописанным образом. Обратная связь также принимается 1106 вышеописанным образом и используется для обновления модели объединения 1107.
Запрос также можно изменять по-разному для каждого источника информации. Например, запрос, выдаваемый на механизм интернет-поиска, может отличаться от запроса, выдаваемого на внутрисетевой поисковый механизм.
На фиг. 12 показаны различные компоненты иллюстративного вычислительного устройства 1200, которое может быть реализовано в любой форме вычислительного и/или электронного устройства и в котором можно реализовать варианты осуществления системы извлечения информации.
Вычислительное устройство 1200 содержит один или несколько входов 1206 любого подходящего типа для приема медиаконтента, ввода интернет-протокола (IP), запросов, пользовательской информации или другого ввода. Устройство также содержит интерфейс связи 1207, позволяющий устройству осуществлять связь с другими сущностями в сети связи. Например, с механизмом интернет-поиска и интернетом, показанными на фиг. 1 и фиг. 2.
Вычислительное устройство 1200 также содержит один или несколько процессоров 1201, в качестве которых могут выступать микропроцессоры, контроллеры или процессоры любого другого подходящего типа для обработки исполняемых вычислительных инструкций для управления работой устройства для обеспечения системы извлечения информации, которая осуществляет поиск по совокупности источников информации. На вычислительном устройстве можно обеспечить программную платформу, содержащую операционную систему 1204, или любую другую подходящую программную платформу, позволяющую прикладному программному обеспечению 1203 выполняться на устройстве.
Компьютерно-выполняемые инструкции можно обеспечить с использованием любых компьютерно-считываемых носителей, например, памяти 1202. Памятью может служить запоминающее устройство любого подходящего типа, например, оперативная память (ОЗУ), дисковое запоминающее устройство любого типа, например, магнитное или оптическое запоминающее устройство, жесткий диск или привод CD, DVD или другой дисковод. Также можно использовать флэш-память, ЭППЗУ или ЭСППЗУ.
Также обеспечивается выход, например, аудио-и/или видеовыход на систему отображения, объединенную или связанную с вычислительным устройством. Дисплейный интерфейс 1205 может обеспечивать графический пользовательский интерфейс или другой пользовательский интерфейс любого подходящего типа, хотя это не является необходимым.
Термин 'компьютер' используется здесь для обозначения любого устройства с возможностями обработки, которые позволяют ему выполнять инструкции. Специалистам в данной области техники очевидно, что такими возможностями обработки обладают многие разные устройства, и поэтому термин 'компьютер' включает в себя ПК, серверы, мобильные телефоны, карманные персональные компьютеры и многие другие устройства.
Описанные здесь способы могут осуществляться программным обеспечением, размещенным в машинно-считываемой форме на материальном носителе. Программное обеспечение может быть пригодно для выполнения на параллельном процессоре или последовательном процессоре, благодаря чему этапы способа могут осуществляться в любом подходящем порядке или одновременно.
Это подтверждает, что программное обеспечение может быть ценным, отдельно продаваемым товаром. Оно призвано охватывать программное обеспечение, которое выполняется на “немом” или стандартном оборудовании или управляет им, для осуществления нужных функций. Оно также призвано охватывать программное обеспечение, которое “описывает” или задает конфигурацию оборудования, например, программное обеспечение HDL (языка описания оборудования), используемое для проектирования кремниевых чипов или для конфигурирования универсальных программируемых чипов, для осуществления нужных функций.
Специалистам в данной области техники очевидно, что запоминающие устройства, используемые для хранения программных инструкций, могут быть распределены по сети. Например, на удаленном компьютере может храниться иллюстративный процесс, описанный как программное обеспечение. Локальный или оконечный компьютер может обращаться к удаленному компьютеру и загружать частично или полностью программное обеспечение для выполнения программы. Альтернативно, локальный компьютер может загружать фрагменты программного обеспечения по мере необходимости или выполнять некоторые программные инструкции на локальном терминале, а некоторые-на удаленном компьютере (или в компьютерной сети). Специалистам в данной области техники также очевидно, что благодаря применению традиционных подходов, известных специалистам в данной области техники, программные инструкции, полностью или частично, могут осуществляться специализированной схемой, например, ЦСП, программируемой логической матрицей и т.п.
Любой приведенный здесь диапазон или значение устройства можно расширить или изменить без потери искомого эффекта, что очевидно специалисту.
Следует понимать, что вышеописанные выгоды и преимущества могут относиться к одному варианту осуществления или могут относиться к нескольким вариантам осуществления. Варианты осуществления не ограничиваются теми, которые решают какую-либо или все из поставленных задач, или теми, которые имеют какую-либо или все из указанных выгод и преимуществ. Следует также понимать, что употребление названия элемента в единственном числе подразумевает наличие одного или нескольких таких элементов.
Описанные здесь этапы способов могут осуществляться в любом подходящем порядке или одновременно, когда это целесообразно. Дополнительно, отдельные блоки можно исключить из любого способа, без отхода от сущности и объема описанного здесь изобретения. Аспекты любого из вышеописанных примеров можно комбинировать с аспектами любых других описанных примеров для формирования дополнительных примеров без потери искомого эффекта.
Термин 'содержащий' используется здесь в смысле «включающий в себя указанные блоки способа или элементы», но следует понимать, что такие блоки или элементы не образуют исчерпывающий список, и способ или устройство может содержать дополнительные блоки или элементы.
Следует понимать, что описание предпочтительного варианта осуществления приведено выше исключительно в порядке примера и что специалисты в данной области техники могут предложить различные изменения. Вышеприведенные описание изобретения, примеры и данные обеспечивают полное описание структуры и использования иллюстративных вариантов осуществления изобретения. Хотя различные варианты осуществления изобретения описаны выше с определенной степенью конкретизации или со ссылкой на один или несколько отдельных вариантов осуществления, специалисты в данной области техники могут предложить многочисленные изменения раскрытых вариантов осуществления, не выходя за рамки сущности или объема этого изобретения.
название | год | авторы | номер документа |
---|---|---|---|
УНИВЕРСАЛЬНАЯ СИСТЕМА МНОГОФУНКЦИОНАЛЬНОЙ КОММУНИКАЦИИ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ И СЕРВИСНЫХ СЛУЖБ | 2010 |
|
RU2451992C2 |
Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе | 2018 |
|
RU2692045C1 |
Способ и система для формирования рекомендаций цифрового контента | 2018 |
|
RU2731335C2 |
СПОСОБ И СИСТЕМА ПОСТРОЕНИЯ ПОИСКОВОГО ИНДЕКСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2018 |
|
RU2720954C1 |
СИСТЕМА, СПОСОБ И ИНТЕРФЕЙС ДЛЯ ОБЕСПЕЧЕНИЯ ПЕРСОНАЛИЗИРОВАННОГО ПОИСКА И ДОСТУПА К ИНФОРМАЦИИ | 2005 |
|
RU2419858C2 |
СИСТЕМЫ, УСТРОЙСТВА И СПОСОБЫ ИСПОЛЬЗОВАНИЯ КОНТЕКСТНОЙ ИНФОРМАЦИИ | 2009 |
|
RU2541890C2 |
НАКОПЛЕНИЕ СПИСКОВ И АКТИВАЦИЯ НАПОМИНАНИЯ | 2015 |
|
RU2666462C2 |
СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКОВОЙ ВЫДАЧИ | 2017 |
|
RU2643466C1 |
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ РАНЖИРОВАННЫХ ПОЗИЦИЙ ЭЛЕМЕНТОВ СИСТЕМОЙ РАНЖИРОВАНИЯ | 2020 |
|
RU2781621C2 |
СБОР ДАННЫХ О ПОЛЬЗОВАТЕЛЬСКОМ ПОВЕДЕНИИ ПРИ ВЕБ-ПОИСКЕ ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ ВЕБ-ПОИСКА | 2007 |
|
RU2435212C2 |
Изобретение относится к средствам извлечения информации. Технический результат заключается в повышении релевантности результатов. На входе, принимают запрос. На выходе, выдают этот запрос в совокупность различных источников, по меньшей мере один из которых является поисковым механизмом публичного домена и по меньшей мере один из которых является поисковым механизмом частного домена. На входе, принимают список результатов от каждого из этой совокупности различных источников. Определяют, объединять ли эти списки результатов, на основе определения релевантности с использованием модели объединения. Формируют посредством процессора полный список результатов из принятых списков результатов с использованием модели объединения. Обеспечивают представление посредством пользовательского интерфейса полного списка результатов. Наблюдают поведение пользователя в ответ на представленный полный список результатов. Используют наблюдаемое поведение пользователя для обновления модели объединения. 3 н. и 18 з.п. ф-лы, 12 ил.
1. Способ извлечения информации, реализуемый в системе извлечения информации, выполненной с возможностью извлечения результатов из совокупности различных источников, содержащий этапы, на которых:
на входе, принимают запрос;
на выходе, выдают этот запрос в совокупность различных источников, по меньшей мере один из которых является поисковым механизмом публичного домена и по меньшей мере один из которых является поисковым механизмом частного домена;
на входе, принимают список результатов от каждого из этой совокупности различных источников;
определяют, объединять ли эти списки результатов на основе определения релевантности с использованием модели объединения;
формируют посредством процессора полный список результатов из принятых списков результатов с использованием модели объединения;
обеспечивают представление посредством пользовательского интерфейса полного списка результатов;
наблюдают поведение пользователя в ответ на представленный полный список результатов; и
используют наблюдаемое поведение пользователя для обновления модели объединения.
2. Способ по п. 1, в котором упомянутый запрос принимают от пользователя, и способ дополнительно содержит этап, на котором принимают пользовательскую информацию для этого пользователя, причем модель объединения учитывает эту пользовательскую информацию.
3. Способ по п. 1, дополнительно содержащий этап, на котором сохраняют модель объединения с использованием структуры данных, содержащей совокупность взвешенных переменных события, описывающих событие представления объединенного списка результатов.
4. Способ по п. 1, в котором при формировании полного списка результатов из принятых списков результатов используют модель объединения для определения значения вероятности для каждого результата, которое является вероятностью того, что по данному результату пользователем будет выполнен клик, и используют значения вероятности для формирования объединенного списка результатов.
5. Способ по п. 1, дополнительно содержащий этап, на котором сохраняют модель объединения с использованием структуры данных, содержащей совокупность переменных события, выбранных из любого из: ранга поискового механизма, текстовых признаков, текстовых признаков, полученных из фрагмента, назначения подменяющего пользователя, частотности запроса, количества результатов из каждого источника, пользовательской информации, предыстории кликов.
6. Способ по п. 1, дополнительно содержащий этап, на котором выполняют выбор подмножества принятых списков результатов для формирования из них полного списка результатов, причем это подмножество содержит не все из принятых списков результатов.
7. Способ по п. 6, в котором упомянутый выбор выполняют, по меньшей мере, на основе значений вероятности, полученных из модели объединения.
8. Способ по п. 1, дополнительно содержащий этапы, на которых:
принимают пользовательский ввод, задающий изменение упомянутой совокупности различных источников;
обновляют полный список результатов в соответствии с этим изменением; и
обеспечивают представление посредством пользовательского интерфейса обновленного полного списка результатов.
9. Способ по п. 1, дополнительно содержащий этапы, на которых:
принимают пользовательский ввод, задающий условие подменяющего пользователя;
сохраняют модель объединения с использованием структуры данных, содержащей совокупность переменных события, включающую в себя переменную события подменяющего пользователя; и
обновляют модель объединения до более высокой степени, чем для наблюдаемого поведения пользователя, когда условие подменяющего пользователя не применяется.
10. Способ по п. 1, в котором упомянутый запрос принимают от пользователя, и способ дополнительно содержит этапы, на которых:
принимают пользовательскую информацию для этого пользователя; и
изменяют принятый запрос, по меньшей мере, на основе этой пользовательской информации до выдачи измененного запроса в упомянутую совокупность источников.
11. Способ по п. 1, дополнительно содержащий этап, на котором изменяют принятый запрос до выдачи его в упомянутую совокупность источников, причем данное изменение производится в зависимости от источника.
12. Способ по п. 1, дополнительно содержащий этапы, на которых:
обеспечивают выполнение блоком оценивания периодической оценки модели объединения; и
изменяют модель объединения на основе этой оценки.
13. Способ по п. 1, дополнительно содержащий этап, на котором сохраняют модель объединения с использованием структуры данных, содержащей переменную события предыстории кликов.
14. Способ извлечения информации, реализуемый в системе извлечения информации, выполненной с возможностью извлечения результатов из совокупности различных источников, содержащий этапы, на которых:
принимают запрос от пользователя в частном домене;
принимают информацию о пользователе, включая пользовательский ввод, задающий условие подменяющего пользователя;
выдают упомянутый запрос в совокупность источников, по меньшей мере один из которых находится в публичном домене и по меньшей мере один из которых находится в частном домене, к которому система извлечения информации имеет доступ;
принимают список результатов от каждого из совокупности источников;
формируют посредством процессора объединенный список результатов из принятых списков результатов с использованием,
модели объединения, которая учитывает упомянутую информацию о пользователе, причем при данном формировании используют модель объединения для определения значения вероятности для каждого результата, которое является вероятностью того, что по данному результату пользователем будет выполнен клик, и используют значения вероятности для формирования объединенного списка результатов;
обеспечивают представление посредством пользовательского интерфейса объединенного списка результатов;
наблюдают поведение пользователя в ответ на представленный объединенный список результатов; и
используют наблюдаемое поведение пользователя для обновления модели объединения.
15. Способ по п. 14, дополнительно содержащий этап, на котором сохраняют модель объединения с использованием структуры данных, содержащей совокупность взвешенных переменных события, описывающих событие представления объединенного списка результатов.
16. Способ по п. 14, в котором при использовании модели объединения дополнительно:
определяют, объединять ли списки результатов на основе, по меньшей мере, модели объединения; и
формируют посредством процессора полный список результатов из принятых списков результатов с использованием модели объединения.
17. Система извлечения информации, содержащая: вход, выполненный с возможностью приема запроса;
выход, выполненный с возможностью выдачи этого запроса в совокупность источников,
причем вход выполнен с возможностью приема списка результатов от каждого из совокупности источников;
память, в которой хранится модель объединения в виде структуры данных, содержащей совокупность взвешенных переменных события, описывающих событие представления объединенного списка результатов, при этом модель объединения содержит процесс принятия решения, которым определяется, объединять ли результаты на основе релевантности этих результатов, при этом процессом принятия решения принимается решение не объединять результаты, когда разность между первым показателем релевантности, соответствующим первому набору результатов, и вторым показателем релевантности, соответствующим второму набору результатов, удовлетворяет пороговому условию;
процессор, выполненный с возможностью формирования полного списка результатов из принятых списков результатов с использованием модели объединения;
пользовательский интерфейс, выполненный с возможностью представления полного списка результатов,
причем процессор также выполнен с возможностью наблюдать поведение пользователя в ответ на представленный полный список результатов и использовать наблюдаемое поведение пользователя для обновления модели объединения.
18. Система извлечения информации по п. 17, в которой процессор выполнен с возможностью наблюдать как явную, так и неявную обратную связь.
19. Система извлечения информации по п. 17, в которой источники являются независимыми друг от друга, при этом по меньшей мере один из источников находится в публичном домене и по меньшей мере один из источников находится в частном домене.
20. Система извлечения информации по п. 17, в которой вход выполнен с возможностью приема пользовательской информации, при этом модель объединения хранится в памяти так, что она учитывает эту пользовательскую информацию.
21. Система извлечения информации по п. 17, в которой процессор выполнен с возможностью изменять принятый запрос до того, как он будет выдан в упомянутую совокупность источников, причем данное изменение основывается на пользовательской информации.
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
КОМПЬЮТЕРНЫЙ ПОИСК С ПОМОЩЬЮ АССОЦИАТИВНЫХ СВЯЗЕЙ | 2004 |
|
RU2343537C2 |
Авторы
Даты
2015-04-20—Публикация
2010-05-27—Подача