СПОСОБ ПОИСКА ИНФОРМАЦИИ Российский патент 2008 года по МПК G06F17/30 

Описание патента на изобретение RU2320005C1

Изобретение относится к информационно-поисковым системам, которые производят поиск информации в базах данных текстовых документов и позволяют по запросу пользователя найти ответ в виде цитаты.

В настоящее время широкое распространение получили поисковые системы общего назначения (Google, Yahoo, Яндекс и т.д.), а также специализированные информационно-поисковые системы (Гарант, Консультант+). Назначением указанных систем является поиск информации, в частности текстовых документов по запросам пользователя. Поисковая система может позиционировать найденный текст на дисплее пользовательского монитора по местонахождению ключевых слов из запроса. Дальнейший анализ текста пользователь производит самостоятельно.

Следует отметить, что в работе поисковых систем присутствует этап извлечения цитат. Однако представленные пользователю цитаты имеют отрывочный характер и, как правило, не содержат требуемой информации, а лишь позволяют делать предположения о содержании найденных документов.

Существуют категории текстов, содержащих сильно распространенные предложения со сложной логической структурой. Например, для правовых текстов не редкость статьи размером в страницу и более. При этом такая статья синтаксически является одним предложением. Например, п.2 статьи 149 Налогового кодекса РФ занимает восемь печатных страниц. Сложность логической структуры такого предложения обусловлена, в частности, наличием придаточных предложений, а также наличием сложных композиций оборотов и сочинительных рядов. Часто такие предложения трудно понять без специальной подготовки, а иногда для понимания требуется специальное образование, например юридическое.

В то же время большая часть информации в таких предложениях избыточна по отношению к запросу пользователя. Как правило, пользователю нужна цитата - выдержка из предложения, имеющая непосредственное отношение к его запросу. Однако чтобы получить такую цитату, даже специалисту необходимо произвести нетривиальный синтаксический анализ, что приводит к значительным интеллектуальным трудозатратам. Кроме того, большой размер предложений является препятствием для доступа к текстам с мобильного устройства из-за небольшого размера экрана, тогда как интересующая пользователя выдержка из предложения может иметь приемлемый для этих целей размер.

Известен способ поиска и выборки информации из баз данных (RU 2236699, G06F 17/30, 20.09.2004), включающий формирование пользователем на своем рабочем месте по меньшей мере одного поискового запроса, передачу сформированного пользователем запроса в поисковую систему, обработку поисковой системой сформированных пользователем поисковых запросов путем выбора документов из баз данных. При этом поисковая система сортирует упомянутые выбранные документы, определяет рейтинг каждого отсортированного документа, после чего поисковая система снова сортирует упомянутые отсортированные документы с учетом рейтинга и направляет отсортированные в соответствии с окончательным рейтингом документы на рабочее место пользователя.

Известен способ поиска информации с использованием информационно-поисковой системы (RU 2266560, G06F 17/30, 20.12.2005), заключающийся в том, что терминам вектора запроса присваивают порядковые номера, затем поиск осуществляют с занесением в память компьютера номеров документов, в которых присутствует хотя бы один термин вектора запросов, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем в памяти компьютера документы сортируют по классам с равным количеством совпавших терминов.

Известные способы поиска обеспечивают только поиск текстовых документов и позиционирование текстов на ключевых словах. Выдержки из предложений текста пользователь производит самостоятельно.

Наиболее близкой по технической сущности к заявленной системе является справочная правовая система хранения и поиска данных (RU 2223537, G06F 17/30, 10.02.2004), выбранная в качестве прототипа, содержащая блок выбора вида поиска, формирователь запроса, один выход которого связан с блоком проведения поиска, вход-выход которого соединен через соответствующие шины с базами данных системы, блоком отображения и контроллером, предназначенным для управления поиском данных, блок выбора условий поиска, вход которого связан с выходом блока выбора вида поиска, первый выход связан со входом формирователя запроса, второй выход соединен со входом формирователя атрибутов фильтра, первый вход-выход которого связан со вторым входом-выходом формирователя запроса, второй вход-выход - с блоком памяти атрибутов фильтра, первый вход-выход формирователя запроса соединен с блоком памяти запросов.

Известная система не обеспечивает поиска цитаты - точной дословной выдержки из текста по запросу пользователя.

Задача, решаемая предлагаемым изобретением, - совершенствование информационно-поисковой системы.

Технический результат, получаемый в результате использования изобретения, заключается в сокращении объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя, и, как следствие, уменьшении интеллектуальных трудозатрат на анализ полученной информации и принятие решения.

Данный технический результат достигается тем, что информационно-поисковая система, включающая в себя блок формирования запроса, выход которого соединен с входом блока проведения поиска, которые соединены через шину данных и шину управления с базой данных, устройством ввода/вывода и контроллером, дополнительно снабжена блоком синтаксического анализа, блоком выбора члена предложения, блоком исключения члена предложения, блоком согласования, блоком ранжирования, морфологическим словарем, которые соединены через шину данных и шину управления с базой данных, устройством ввода/вывода, процессором и контроллером, при этом вход блока синтаксического анализа соединен с выходом блока проведения поиска, а выход блока синтаксического анализа соединен с первым входом блока выбора члена предложения, первый выход которого соединен со входом блока исключения члена предложения, выход которого соединен со входом блока согласования, выход которого соединен со вторым входом блока выбора члена предложения, второй выход которого соединен со входом блока ранжирования, выход которого соединен через шину данных с устройством ввода/вывода.

Изобретение поясняется чертежом, на котором представлена функциональная схема заявленной системы.

Схема состоит из следующих блоков: блок 1 формирования запроса, блок 2 проведения поиска, блок 3 синтаксического анализа, блок 4 выбора члена предложения, блок 5 исключения члена предложения, блок 6 согласования, блок 7 ранжирования, морфологический словарь 8, база данных 9, процессор 10, контроллер 11, блок памяти 12, устройство ввода/вывода 13, шина данных 14 и шина управления 15.

Процессор 10, контроллер 11 и блок памяти 12 связаны через шину данных 14 и шину управления 15 с блоком 1 формирования запроса, блоком 2 проведения поиска, блоком 3 синтаксического анализа, блоком 4 выбора члена предложения, блоком 5 исключения члена предложения, блоком 6 согласования, блоком 7 ранжирования, морфологическим словарем 8, базой данных 9 и устройством ввода/вывода 13. При этом выход блока 1 формирования запроса связан со входом блока 2 проведения поиска, выход которого связан со входом блока 3 синтаксического анализа, выход которого соединен с первым входом блока 4 выбора члена предложения, первый выход которого соединен со входом блока 5 исключения члена предложения, выход которого соединен со входом блока 6 согласования, выход которого соединен со вторым входом блока 4 выбора члена предложения, второй выход которого соединен со входом блока 7 ранжирования, выход которого соединен через шину данных 14 с устройством ввода/вывода 13.

Заявленная информационно-поисковая система работает следующим образом.

С помощью блока 1 формирования запроса пользователь формирует поисковый запрос, например, в виде логической формулы над ключевыми словами. Блок 1 формирования запроса может исключить незначащие слова, например предлоги, и может добавить другие ключевые слова, например синонимы. Далее запрос поступает в блок 2 проведения поиска, который по шине данных 14 и шине управления 15 имеет доступ к базе данных 9 и морфологическому словарю 8. Результатом работы блока 2 проведения поиска является множество предложений, удовлетворяющих запросу. Найденные предложения поступают на вход блока 3 синтаксического анализа.

Блок 3 синтаксического анализа производит построение грамматической структуры для каждого найденного предложения. Для этого блок 3 синтаксического анализа по шине данных 14 и шине управления 15 имеет доступ к морфологическому словарю 8. Дальнейшая обработка производится с использованием полученной информации о грамматической структуре предложений.

Далее происходит извлечение цитат из предложений, поступивших с выхода блока 3 синтаксического анализа. При этом блок 4 выбора члена предложения производит выбор члена предложения, подлежащего исключению. Одним из критериев выбора может быть следующий: если в ряду однородных членов предложения существует хотя бы один член, удовлетворяющий запросу пользователя, то выбирается член ряда, который не удовлетворяет запросу пользователя; в противном случае ни один из членов этого ряда не выбирается.

Блок 5 исключения члена предложения исключает из предложения выбранный член предложения. При этом общие для всех членов ряда компоненты исключению не подлежат и остаются в предложении. Кроме того, если после исключения в союзном ряду остается единственный член, то союз также исключается из предложения.

Если в результате исключения члена предложения произошло рассогласование по числу и/или роду в предикативной группе и/или субстантивном словосочетании, то блок 6 согласования производит согласование в предикативной группе между подлежащим и сказуемым, а также в субстантивном словосочетании между стержневым словом и его определением. Для этого блок 6 согласования по шине данных 14 и шине управления 15 имеет доступ к морфологическому словарю 8.

Если блок 4 выбора члена предложения не находит члена предложения, подлежащего исключению, то полученная цитата со второго выхода блока 4 выбора члена предложения поступает на блок 7 ранжирования. Блок 7 ранжирования производит подсчет рангов для цитат, упорядочивает цитаты в соответствии с их рангами и по шине данных 14 выдает их на устройство ввода/вывода 13.

Все перечисленные действия в системе осуществляются с помощью процессора 10 и контроллера 11, с сохранением промежуточных результатов в блоке памяти 12.

Например, одним из запросов пользователя может быть следующий. Запрос: Инвалидная коляска.

Одним из документов, найденных по ключевым словам «инвалидная» и «коляска», будут «Правила дорожного движения», которые, в частности, содержат предложение.

Предложение: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, ведущие велосипед, мопед, мотоцикл, везущие санки, тележку, детскую или инвалидную коляски.

Далее система извлекает цитату из найденного предложения. Система найдет бессоюзный ряд со стержневыми словами «передвигающиеся, ведущие, везущие». Члены ряда со стержневыми словами «передвигающиеся» и «везущие» удовлетворяют запросу. Будет выбран и исключен из предложения член ряда со стержневым словом «ведущие». При этом согласования оставшихся слов не требуется.

Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие санки, тележку, детскую или инвалидную коляски.

Затем будет найден бессоюзный ряд словоформ «санки, тележку, коляски», где запросу удовлетворяет только член ряда со стержневым словом «коляски». Члены ряда «санки» и «тележку» будут исключены. При этом согласования оставшихся слов не требуется.

Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие детскую или инвалидную коляски.

Затем будет найден союзный ряд «детскую или инвалидную». Для исключения будет выбран член ряда «детскую», который будет исключен вместе с союзом «или».

Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие инвалидную коляски.

После исключения члена ряда «детскую» произошло рассогласование по числу между оставшимся членом ряда и его главным словом, поэтому проводится согласование по числу слова «коляски» с определением «инвалидную».

Итоговый результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие инвалидную коляску.

Количественные показатели сокращения объема информации: в исходном предложении 21 слово, в обработанном - 13 слов. Процентное отношение длины обработанного предложения в символах к длине исходного предложения: 101/157*100%=64%.

Аналогично обрабатывается следующий запрос пользователя. Запрос: Остановка на мосту.

По ключевым словам «остановка» и «мост» будет найден документ «Правила дорожного движения», в нем будет найдено, в частности, предложение:

Исходное предложение: Остановка запрещается на трамвайных путях, ... в тоннелях, а также на эстакадах, мостах, ..., на пересечении проезжих частей и ближе 5 м от ... и т.д.

Из данного предложения будет извлечена цитата.

Итоговый результат: Остановка запрещается на мостах.

Отметим, что цитата получена из правила дорожного движения, полный размер которого без сокращений составляет полстраницы печатного текста. Это правило содержит описание более 10-и случаев, когда остановка запрещена, однако синтаксически оно является одним предложением. Количественные показатели сокращения объема информации: в исходном предложении 178 слов, в обработанном - 4 слова. Процентное отношение длины обработанного предложения в символах к длине исходного предложения: 28/1141*100%=2,4%.

Блок 1 формирования запроса, блок 2 проведения поиска, блок 3 синтаксического анализа, блок 7 ранжирования, блок 4 выбора члена предложения, блок 5 исключения члена предложения и блок 6 согласования могут быть выполнены, например, в виде программ для ЭВМ.

Морфологический словарь 8 представляет собой набор данных, который содержит грамматическую информацию о словах как минимум одного естественного языка, например русского, и размещен на одном или на разных машиночитаемых носителях одного или различных типов, например на жестком диске.

База данных 9 представляет собой набор текстов на одном или на разных естественных языках, например на русском, который размещен на одном или на разных машиночитаемых носителях одного или различных типов, например на жестком диске.

Процессор 10, контроллер 11, блок памяти 12, устройство ввода/вывода 13, шина данных 14 и шина управления 15 являются компонентами ЭВМ.

Информационно-поисковая система может быть реализована в виде сервера локальной вычислительной сети или же сервера сети Internet.

Таким образом, информационно-поисковая система по сравнению с прототипом обеспечивает сокращение объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя, и, как следствие, уменьшает интеллектуальные трудозатраты на анализ полученной информации и принятие решения. Использование информационно-поисковой системы обеспечивает организацию доступа к текстовой информации на принципиально новом уровне: полноценным ответом на запрос пользователя являются цитаты - точные дословные выдержки из текста.

Похожие патенты RU2320005C1

название год авторы номер документа
СПОСОБ СИНТЕЗА САМООБУЧАЮЩЕЙСЯ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВЫХ ДОКУМЕНТОВ ДЛЯ ПОИСКОВЫХ СИСТЕМ 2002
  • Насыпный Владимир Владимирович
  • Насыпная Галина Анатольевна
RU2273879C2
СИСТЕМА ДЛЯ СОЗДАНИЯ ДОКУМЕНТОВ НА ОСНОВЕ АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2016
  • Даниэлян Татьяна Владимировна
RU2639655C1
РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ИНФОРМАЦИОННОГО ПОИСКА 2015
  • Даниэлян Татьяна Владимировна
  • Инденбом Евгений Михайлович
RU2618375C2
СИСТЕМА И МЕТОД СЕМАНТИЧЕСКОГО ПОИСКА 2013
  • Зуев Константин Алексеевич
  • Даниэлян Татьяна Владимировна
  • Рахматулина Эльмира Монировна
RU2563148C2
СПОСОБ КЛАСТЕРИЗАЦИИ РЕЗУЛЬТАТОВ ПОИСКА В ЗАВИСИМОСТИ ОТ СЕМАНТИКИ 2014
  • Андреев Сергей Геннадьевич
RU2564629C1
СПОСОБ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКОГО ЯЗЫКА-ПОСРЕДНИКА 2009
  • Менде Михаэль
RU2509350C2
ИСЧЕРПЫВАЮЩАЯ АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ 2014
  • Даниэлян Татьяна Владимировна
  • Старостин Анатолий Сергеевич
  • Зуев Константин Алексеевич
  • Анисимович Константин Владимирович
  • Селегей Владимир Павлович
RU2662699C2
СПОСОБ ОЦЕНКИ СТЕПЕНИ РАСКРЫТИЯ ПОНЯТИЯ В ТЕКСТЕ, ОСНОВАННЫЙ НА КОНТЕКСТАХ, ДЛЯ ПОИСКОВЫХ СИСТЕМ 2007
  • Злыгостев Алексей Сергеевич
RU2348072C1
РАЗРЕШЕНИЕ СЕМАНТИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ ПРИ ПОМОЩИ СТАТИСТИЧЕСКОГО АНАЛИЗА 2013
  • Зуев Константин Алексеевич
  • Богданова Дарья Николаевна
RU2592395C2
РАЗРЕШЕНИЕ КОРЕФЕРЕНЦИИ В ЧУВСТВИТЕЛЬНОЙ К НЕОДНОЗНАЧНОСТИ СИСТЕМЕ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА 2008
  • Ван Ден Берг Мартин
  • Крауч Ричард
  • Салветти Франко
  • Тионе Джованни Лоренцо
  • Ан Дэвид
RU2480822C2

Реферат патента 2008 года СПОСОБ ПОИСКА ИНФОРМАЦИИ

Изобретение относится к способам поиска информации, которые производят поиск информации в базах данных текстовых документов и позволяют по запросу пользователя найти ответ в виде цитаты. Технический результат, получаемый в результате использования изобретения, заключается в сокращении объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя. Технический результат достигается за счет того, что формируют поисковый запрос, на основании запроса проводят поиск предложений, отличающийся тем, что для каждого найденного предложения производят построение грамматической структуры с использованием морфологического словаря, содержащего грамматическую информацию о словах, выбирают члены предложения, подлежащие исключению, исключают выбранные члены предложения, а при условии рассогласования предложения согласуют число и/или род членов предложения в предикативной группе и/или в субстантивном словосочетании с использованием морфологического словаря, подсчитывают ранги для предложений и упорядочивают предложения в соответствии с их рангами, выводят предложения на устройство ввода/вывода. 1 ил.

Формула изобретения RU 2 320 005 C1

Способ поиска информации, заключающийся в том, что формируют поисковый запрос, на основании запроса проводят поиск предложений, отличающийся тем, что для каждого найденного предложения производят построение грамматической структуры с использованием морфологического словаря, содержащего грамматическую информацию о словах, выбирают члены предложения, подлежащие исключению, исключают выбранные члены предложения, а при условии рассогласования предложения, согласуют число и/или род членов предложения в предикативной группе и/или в субстантивном словосочетании с использованием морфологического словаря, подсчитывают ранги для предложений и упорядочивают предложения в соответствии с их рангами, выводят предложения на устройство ввода/вывода.

Документы, цитированные в отчете о поиске Патент 2008 года RU2320005C1

СИСТЕМА ПРЕДОСТАВЛЕНИЯ ДАННЫХ И СЕРВЕР ДЛЯ ХРАНЕНИЯ И ПРЕДОСТАВЛЕНИЯ ДАННЫХ 2002
  • Изотов А.В.
RU2240596C2
УСТРОЙСТВО ПОИСКА ИНФОРМАЦИИ 2000
  • Киреев В.С.
  • Липатников В.А.
  • Лысенков Ю.Н.
  • Осипов А.Н.
  • Погорелов А.А.
  • Савицкий О.К.
RU2179334C1
US 6832218 B1, 14.12.2004.

RU 2 320 005 C1

Авторы

Окатьев Владимир Васильевич

Баркалов Константин Александрович

Даты

2008-03-20Публикация

2006-07-19Подача