Изобретение относится к информационно-поисковым системам, которые производят поиск информации в базах данных текстовых документов и позволяют по запросу пользователя найти ответ в виде цитаты.
В настоящее время широкое распространение получили поисковые системы общего назначения (Google, Yahoo, Яндекс и т.д.), а также специализированные информационно-поисковые системы (Гарант, Консультант+). Назначением указанных систем является поиск информации, в частности текстовых документов по запросам пользователя. Поисковая система может позиционировать найденный текст на дисплее пользовательского монитора по местонахождению ключевых слов из запроса. Дальнейший анализ текста пользователь производит самостоятельно.
Следует отметить, что в работе поисковых систем присутствует этап извлечения цитат. Однако представленные пользователю цитаты имеют отрывочный характер и, как правило, не содержат требуемой информации, а лишь позволяют делать предположения о содержании найденных документов.
Существуют категории текстов, содержащих сильно распространенные предложения со сложной логической структурой. Например, для правовых текстов не редкость статьи размером в страницу и более. При этом такая статья синтаксически является одним предложением. Например, п.2 статьи 149 Налогового кодекса РФ занимает восемь печатных страниц. Сложность логической структуры такого предложения обусловлена, в частности, наличием придаточных предложений, а также наличием сложных композиций оборотов и сочинительных рядов. Часто такие предложения трудно понять без специальной подготовки, а иногда для понимания требуется специальное образование, например юридическое.
В то же время большая часть информации в таких предложениях избыточна по отношению к запросу пользователя. Как правило, пользователю нужна цитата - выдержка из предложения, имеющая непосредственное отношение к его запросу. Однако чтобы получить такую цитату, даже специалисту необходимо произвести нетривиальный синтаксический анализ, что приводит к значительным интеллектуальным трудозатратам. Кроме того, большой размер предложений является препятствием для доступа к текстам с мобильного устройства из-за небольшого размера экрана, тогда как интересующая пользователя выдержка из предложения может иметь приемлемый для этих целей размер.
Известен способ поиска и выборки информации из баз данных (RU 2236699, G06F 17/30, 20.09.2004), включающий формирование пользователем на своем рабочем месте по меньшей мере одного поискового запроса, передачу сформированного пользователем запроса в поисковую систему, обработку поисковой системой сформированных пользователем поисковых запросов путем выбора документов из баз данных. При этом поисковая система сортирует упомянутые выбранные документы, определяет рейтинг каждого отсортированного документа, после чего поисковая система снова сортирует упомянутые отсортированные документы с учетом рейтинга и направляет отсортированные в соответствии с окончательным рейтингом документы на рабочее место пользователя.
Известен способ поиска информации с использованием информационно-поисковой системы (RU 2266560, G06F 17/30, 20.12.2005), заключающийся в том, что терминам вектора запроса присваивают порядковые номера, затем поиск осуществляют с занесением в память компьютера номеров документов, в которых присутствует хотя бы один термин вектора запросов, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем в памяти компьютера документы сортируют по классам с равным количеством совпавших терминов.
Известные способы поиска обеспечивают только поиск текстовых документов и позиционирование текстов на ключевых словах. Выдержки из предложений текста пользователь производит самостоятельно.
Наиболее близкой по технической сущности к заявленной системе является справочная правовая система хранения и поиска данных (RU 2223537, G06F 17/30, 10.02.2004), выбранная в качестве прототипа, содержащая блок выбора вида поиска, формирователь запроса, один выход которого связан с блоком проведения поиска, вход-выход которого соединен через соответствующие шины с базами данных системы, блоком отображения и контроллером, предназначенным для управления поиском данных, блок выбора условий поиска, вход которого связан с выходом блока выбора вида поиска, первый выход связан со входом формирователя запроса, второй выход соединен со входом формирователя атрибутов фильтра, первый вход-выход которого связан со вторым входом-выходом формирователя запроса, второй вход-выход - с блоком памяти атрибутов фильтра, первый вход-выход формирователя запроса соединен с блоком памяти запросов.
Известная система не обеспечивает поиска цитаты - точной дословной выдержки из текста по запросу пользователя.
Задача, решаемая предлагаемым изобретением, - совершенствование информационно-поисковой системы.
Технический результат, получаемый в результате использования изобретения, заключается в сокращении объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя, и, как следствие, уменьшении интеллектуальных трудозатрат на анализ полученной информации и принятие решения.
Данный технический результат достигается тем, что информационно-поисковая система, включающая в себя блок формирования запроса, выход которого соединен с входом блока проведения поиска, которые соединены через шину данных и шину управления с базой данных, устройством ввода/вывода и контроллером, дополнительно снабжена блоком синтаксического анализа, блоком выбора члена предложения, блоком исключения члена предложения, блоком согласования, блоком ранжирования, морфологическим словарем, которые соединены через шину данных и шину управления с базой данных, устройством ввода/вывода, процессором и контроллером, при этом вход блока синтаксического анализа соединен с выходом блока проведения поиска, а выход блока синтаксического анализа соединен с первым входом блока выбора члена предложения, первый выход которого соединен со входом блока исключения члена предложения, выход которого соединен со входом блока согласования, выход которого соединен со вторым входом блока выбора члена предложения, второй выход которого соединен со входом блока ранжирования, выход которого соединен через шину данных с устройством ввода/вывода.
Изобретение поясняется чертежом, на котором представлена функциональная схема заявленной системы.
Схема состоит из следующих блоков: блок 1 формирования запроса, блок 2 проведения поиска, блок 3 синтаксического анализа, блок 4 выбора члена предложения, блок 5 исключения члена предложения, блок 6 согласования, блок 7 ранжирования, морфологический словарь 8, база данных 9, процессор 10, контроллер 11, блок памяти 12, устройство ввода/вывода 13, шина данных 14 и шина управления 15.
Процессор 10, контроллер 11 и блок памяти 12 связаны через шину данных 14 и шину управления 15 с блоком 1 формирования запроса, блоком 2 проведения поиска, блоком 3 синтаксического анализа, блоком 4 выбора члена предложения, блоком 5 исключения члена предложения, блоком 6 согласования, блоком 7 ранжирования, морфологическим словарем 8, базой данных 9 и устройством ввода/вывода 13. При этом выход блока 1 формирования запроса связан со входом блока 2 проведения поиска, выход которого связан со входом блока 3 синтаксического анализа, выход которого соединен с первым входом блока 4 выбора члена предложения, первый выход которого соединен со входом блока 5 исключения члена предложения, выход которого соединен со входом блока 6 согласования, выход которого соединен со вторым входом блока 4 выбора члена предложения, второй выход которого соединен со входом блока 7 ранжирования, выход которого соединен через шину данных 14 с устройством ввода/вывода 13.
Заявленная информационно-поисковая система работает следующим образом.
С помощью блока 1 формирования запроса пользователь формирует поисковый запрос, например, в виде логической формулы над ключевыми словами. Блок 1 формирования запроса может исключить незначащие слова, например предлоги, и может добавить другие ключевые слова, например синонимы. Далее запрос поступает в блок 2 проведения поиска, который по шине данных 14 и шине управления 15 имеет доступ к базе данных 9 и морфологическому словарю 8. Результатом работы блока 2 проведения поиска является множество предложений, удовлетворяющих запросу. Найденные предложения поступают на вход блока 3 синтаксического анализа.
Блок 3 синтаксического анализа производит построение грамматической структуры для каждого найденного предложения. Для этого блок 3 синтаксического анализа по шине данных 14 и шине управления 15 имеет доступ к морфологическому словарю 8. Дальнейшая обработка производится с использованием полученной информации о грамматической структуре предложений.
Далее происходит извлечение цитат из предложений, поступивших с выхода блока 3 синтаксического анализа. При этом блок 4 выбора члена предложения производит выбор члена предложения, подлежащего исключению. Одним из критериев выбора может быть следующий: если в ряду однородных членов предложения существует хотя бы один член, удовлетворяющий запросу пользователя, то выбирается член ряда, который не удовлетворяет запросу пользователя; в противном случае ни один из членов этого ряда не выбирается.
Блок 5 исключения члена предложения исключает из предложения выбранный член предложения. При этом общие для всех членов ряда компоненты исключению не подлежат и остаются в предложении. Кроме того, если после исключения в союзном ряду остается единственный член, то союз также исключается из предложения.
Если в результате исключения члена предложения произошло рассогласование по числу и/или роду в предикативной группе и/или субстантивном словосочетании, то блок 6 согласования производит согласование в предикативной группе между подлежащим и сказуемым, а также в субстантивном словосочетании между стержневым словом и его определением. Для этого блок 6 согласования по шине данных 14 и шине управления 15 имеет доступ к морфологическому словарю 8.
Если блок 4 выбора члена предложения не находит члена предложения, подлежащего исключению, то полученная цитата со второго выхода блока 4 выбора члена предложения поступает на блок 7 ранжирования. Блок 7 ранжирования производит подсчет рангов для цитат, упорядочивает цитаты в соответствии с их рангами и по шине данных 14 выдает их на устройство ввода/вывода 13.
Все перечисленные действия в системе осуществляются с помощью процессора 10 и контроллера 11, с сохранением промежуточных результатов в блоке памяти 12.
Например, одним из запросов пользователя может быть следующий. Запрос: Инвалидная коляска.
Одним из документов, найденных по ключевым словам «инвалидная» и «коляска», будут «Правила дорожного движения», которые, в частности, содержат предложение.
Предложение: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, ведущие велосипед, мопед, мотоцикл, везущие санки, тележку, детскую или инвалидную коляски.
Далее система извлекает цитату из найденного предложения. Система найдет бессоюзный ряд со стержневыми словами «передвигающиеся, ведущие, везущие». Члены ряда со стержневыми словами «передвигающиеся» и «везущие» удовлетворяют запросу. Будет выбран и исключен из предложения член ряда со стержневым словом «ведущие». При этом согласования оставшихся слов не требуется.
Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие санки, тележку, детскую или инвалидную коляски.
Затем будет найден бессоюзный ряд словоформ «санки, тележку, коляски», где запросу удовлетворяет только член ряда со стержневым словом «коляски». Члены ряда «санки» и «тележку» будут исключены. При этом согласования оставшихся слов не требуется.
Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие детскую или инвалидную коляски.
Затем будет найден союзный ряд «детскую или инвалидную». Для исключения будет выбран член ряда «детскую», который будет исключен вместе с союзом «или».
Промежуточный результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие инвалидную коляски.
После исключения члена ряда «детскую» произошло рассогласование по числу между оставшимся членом ряда и его главным словом, поэтому проводится согласование по числу слова «коляски» с определением «инвалидную».
Итоговый результат: К пешеходам приравниваются лица, передвигающиеся в инвалидных колясках без двигателя, везущие инвалидную коляску.
Количественные показатели сокращения объема информации: в исходном предложении 21 слово, в обработанном - 13 слов. Процентное отношение длины обработанного предложения в символах к длине исходного предложения: 101/157*100%=64%.
Аналогично обрабатывается следующий запрос пользователя. Запрос: Остановка на мосту.
По ключевым словам «остановка» и «мост» будет найден документ «Правила дорожного движения», в нем будет найдено, в частности, предложение:
Исходное предложение: Остановка запрещается на трамвайных путях, ... в тоннелях, а также на эстакадах, мостах, ..., на пересечении проезжих частей и ближе 5 м от ... и т.д.
Из данного предложения будет извлечена цитата.
Итоговый результат: Остановка запрещается на мостах.
Отметим, что цитата получена из правила дорожного движения, полный размер которого без сокращений составляет полстраницы печатного текста. Это правило содержит описание более 10-и случаев, когда остановка запрещена, однако синтаксически оно является одним предложением. Количественные показатели сокращения объема информации: в исходном предложении 178 слов, в обработанном - 4 слова. Процентное отношение длины обработанного предложения в символах к длине исходного предложения: 28/1141*100%=2,4%.
Блок 1 формирования запроса, блок 2 проведения поиска, блок 3 синтаксического анализа, блок 7 ранжирования, блок 4 выбора члена предложения, блок 5 исключения члена предложения и блок 6 согласования могут быть выполнены, например, в виде программ для ЭВМ.
Морфологический словарь 8 представляет собой набор данных, который содержит грамматическую информацию о словах как минимум одного естественного языка, например русского, и размещен на одном или на разных машиночитаемых носителях одного или различных типов, например на жестком диске.
База данных 9 представляет собой набор текстов на одном или на разных естественных языках, например на русском, который размещен на одном или на разных машиночитаемых носителях одного или различных типов, например на жестком диске.
Процессор 10, контроллер 11, блок памяти 12, устройство ввода/вывода 13, шина данных 14 и шина управления 15 являются компонентами ЭВМ.
Информационно-поисковая система может быть реализована в виде сервера локальной вычислительной сети или же сервера сети Internet.
Таким образом, информационно-поисковая система по сравнению с прототипом обеспечивает сокращение объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя, и, как следствие, уменьшает интеллектуальные трудозатраты на анализ полученной информации и принятие решения. Использование информационно-поисковой системы обеспечивает организацию доступа к текстовой информации на принципиально новом уровне: полноценным ответом на запрос пользователя являются цитаты - точные дословные выдержки из текста.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ СИНТЕЗА САМООБУЧАЮЩЕЙСЯ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВЫХ ДОКУМЕНТОВ ДЛЯ ПОИСКОВЫХ СИСТЕМ | 2002 |
|
RU2273879C2 |
СИСТЕМА ДЛЯ СОЗДАНИЯ ДОКУМЕНТОВ НА ОСНОВЕ АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2016 |
|
RU2639655C1 |
РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ИНФОРМАЦИОННОГО ПОИСКА | 2015 |
|
RU2618375C2 |
СИСТЕМА И МЕТОД СЕМАНТИЧЕСКОГО ПОИСКА | 2013 |
|
RU2563148C2 |
СПОСОБ КЛАСТЕРИЗАЦИИ РЕЗУЛЬТАТОВ ПОИСКА В ЗАВИСИМОСТИ ОТ СЕМАНТИКИ | 2014 |
|
RU2564629C1 |
СПОСОБ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКОГО ЯЗЫКА-ПОСРЕДНИКА | 2009 |
|
RU2509350C2 |
ИСЧЕРПЫВАЮЩАЯ АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ | 2014 |
|
RU2662699C2 |
СПОСОБ ОЦЕНКИ СТЕПЕНИ РАСКРЫТИЯ ПОНЯТИЯ В ТЕКСТЕ, ОСНОВАННЫЙ НА КОНТЕКСТАХ, ДЛЯ ПОИСКОВЫХ СИСТЕМ | 2007 |
|
RU2348072C1 |
РАЗРЕШЕНИЕ СЕМАНТИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ ПРИ ПОМОЩИ СТАТИСТИЧЕСКОГО АНАЛИЗА | 2013 |
|
RU2592395C2 |
РАЗРЕШЕНИЕ КОРЕФЕРЕНЦИИ В ЧУВСТВИТЕЛЬНОЙ К НЕОДНОЗНАЧНОСТИ СИСТЕМЕ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА | 2008 |
|
RU2480822C2 |
Изобретение относится к способам поиска информации, которые производят поиск информации в базах данных текстовых документов и позволяют по запросу пользователя найти ответ в виде цитаты. Технический результат, получаемый в результате использования изобретения, заключается в сокращении объема информации, выводимой на дисплей пользовательского терминала по запросу пользователя. Технический результат достигается за счет того, что формируют поисковый запрос, на основании запроса проводят поиск предложений, отличающийся тем, что для каждого найденного предложения производят построение грамматической структуры с использованием морфологического словаря, содержащего грамматическую информацию о словах, выбирают члены предложения, подлежащие исключению, исключают выбранные члены предложения, а при условии рассогласования предложения согласуют число и/или род членов предложения в предикативной группе и/или в субстантивном словосочетании с использованием морфологического словаря, подсчитывают ранги для предложений и упорядочивают предложения в соответствии с их рангами, выводят предложения на устройство ввода/вывода. 1 ил.
Способ поиска информации, заключающийся в том, что формируют поисковый запрос, на основании запроса проводят поиск предложений, отличающийся тем, что для каждого найденного предложения производят построение грамматической структуры с использованием морфологического словаря, содержащего грамматическую информацию о словах, выбирают члены предложения, подлежащие исключению, исключают выбранные члены предложения, а при условии рассогласования предложения, согласуют число и/или род членов предложения в предикативной группе и/или в субстантивном словосочетании с использованием морфологического словаря, подсчитывают ранги для предложений и упорядочивают предложения в соответствии с их рангами, выводят предложения на устройство ввода/вывода.
СИСТЕМА ПРЕДОСТАВЛЕНИЯ ДАННЫХ И СЕРВЕР ДЛЯ ХРАНЕНИЯ И ПРЕДОСТАВЛЕНИЯ ДАННЫХ | 2002 |
|
RU2240596C2 |
УСТРОЙСТВО ПОИСКА ИНФОРМАЦИИ | 2000 |
|
RU2179334C1 |
US 6832218 B1, 14.12.2004. |
Авторы
Даты
2008-03-20—Публикация
2006-07-19—Подача