Изобретение относится к области вычислительной техники, а именно к средствам поиска и идентификации документов по их описаниям, находящимся в различных базах данных и информационных ресурсах с различными стандартами формирования документов, и может быть использовано для поиска информации в локальной компьютерной сети по абонентскому запросу на естественном и/или формальном языке и выдачи документов в порядке уменьшения степени соответствия документов запросу.
Известны устройство и способ поиска релевантных документов [патент США №5576954, МПК G06F 17/30], осуществляющие сравнение различных документов и ранжирование их по степени соответствия.
Недостаток известных устройства и способа состоит в том, что они предусматривают обращение в сеть только на формальном языке.
Известны способ и устройство поиска документов в памяти, их классификации и размещения в определенном порядке [патент США №5748954, МПК G06F 17/30].
Недостаток известных устройства и способа состоит в том, что они предусматривают обращение в сеть только на формальном языке.
Известен способ обработки запросов в системе поиска и выборки информации, описанный в патенте RU №2167450, в соответствии с которым:
1) сохраняют множество объектов в хранилище документов, в котором каждый объект документа определен признаками, заключенными в документе, так что упомянутые объекты, хранимые в документе, определяют общее содержание данного документа;
2) обрабатывают запрос, который включает, по меньшей мере, один элемент запроса для выбора, по меньшей мере, одного документа, релевантного, по меньшей мере, к упомянутому одному элементу запроса;
3) идентифицируют из множества объектов, по меньшей мере, один документ;
4) представляют пользователю идентифицированный, по меньшей мере, один документ, при этом сходство документов оценивают различными способами ранжирования.
Недостатком данного способа является отсутствие оценки объектов и документов по их значимости применительно к заданному элементу запроса, т.е. оценки релевантности. Равновероятность всех выбранных объектов и документов приводит к росту объема отобранной информации и росту информационного шума, что в конечном счете увеличивает затраты интеллектуального труда на обработку отобранной информации пользователем. Кроме того, в случае работы с множеством хранилищ документов с различными стандартами формирования документов идентификация объектов становится трудно выполнимой.
Наиболее близкой по своей сущности к заявляемому изобретению является выбранная в качестве прототипа система поиска информации в компьютерной сети [патент RU №2138076, МПК G06F 17/30], включающая устройство 1 сбора и обработки документов, память 2 документов и их адресов, устройство 3 индексирования документов, индексную память 4, устройство 5 поиска, устройство 6 управления абонентов, устройство 7 межсистемного обмена, при этом устройство 1 содержит блок 8 микропроцессорного управления, буферную память 9 документов, блок 10 выборки адресов документов, таймер 11, блок 12 буферной памяти адресов удаляемых документов, буферную память 13 документов, коммутатор 14, блок 8 микропроцессорного управления содержит память 15, узел 16 управления и обработки, узел 17 ввода-вывода, память 2 содержит блок 18 микропроцессорного управления, блок 19 памяти документов, блок 20 памяти адресов, таймер 21, коммутатор 22, блок 3 индексирования содержит блок 23 микропроцессорного управления, блок 24 выделения заголовков документов, блок 25 выделения аннотации документов, блок 26 формирования индексных форматов, блок 27 выделения атрибутов документов, блок 28 формирования индексного образа документа, таймер 29, буферную память 30 адресов, буферную память 31 адресов удаляемых или изменяемых документов, коммутатор 32, индексная память 4 содержит блок 33 микропроцессорного управления, блок 34 памяти индексов, блок 35 памяти атрибутов, блок 36 памяти адресов, коммутатор 37, устройство 5 поиска содержит блок 38 микропроцессорного управления, блок 39 фиксации запроса, блок 40 фиксации атрибутов, буферную память 41 индексов, блок 42 сравнения, память 43 адресов, блок 44 ранжирования, блок 45 формирования списка, устройство 6 управления абонента содержит блок 46 микропрограммного управления, пульт 47 управления и отображения, блок 48 формирования запроса, блок 49 фиксации ответа, блок 50 анализа.
Система по патенту RU №2138076, МПК G06F 17/30 позволяет проводить сбор и обновление информации о документах, хранящихся в компьютерной сети, сохранять информацию о документах в специализированной базе данных индексного хранилища, производить поиск документов в компьютерной сети на основе естественного или формального запроса пользователя, а также по набору различных атрибутов документов ранжировать список найденных документов по степени соответствия запроса пользователя, получать информацию о документах сети без непосредственного обращения к ним.
Недостатком прототипа является его низкая производительность вследствие того, что согласно прототипу не производятся синтаксический и морфологический анализы текстов документов, не используется стоп-словарь служебных слов, не удаляются короткие слова, не отражающие содержание документа и состоящие менее чем из m символов, не удаляются слова, встречающиеся в документе менее чем n раз, при этом значения мер близости векторов запросов и документов (ранги документов) устанавливаются по полным ключевым словам и, соответственно, их склонениям, что значительно увеличивает время, затрачиваемое на проведение поиска.
Целью изобретения является сокращение времени, затрачиваемого на проведение поиска нужной информации.
Цель достигается тем, что в известную систему поиска информации в компьютерной сети, содержащую устройство сбора и обработки документов, память документов и их адресов, устройство индексирования документов, индексную память, устройство поиска, устройство управления абонентов, устройство межсистемного обмена, при этом устройство сбора и обработки документов включает первый блок микропроцессорного управления, буферную память документов, блок выборки адресов документов, первый таймер, блок буферной памяти адресов удаляемых документов, буферную память документов, первый коммутатор, причем блок микропроцессорного управления содержит память, узел управления и обработки, узел ввода-вывода, при этом память включает второй блок микропроцессорного управления, блок памяти документов, первый блок памяти адресов, второй таймер, второй коммутатор, блок индексирования включает третий блок микропроцессорного управления, блок выделения заголовков документов, блок выделения аннотации документов, блок выделения атрибутов документов, блок формирования индексного образа документа, третий таймер, буферную память адресов, буферную память адресов удаляемых или изменяемых документов, третий коммутатор, индексная память включает четвертый блок микропроцессорного управления, блок памяти индексов, блок памяти атрибутов, второй блок памяти адресов, четвертый коммутатор, устройство поиска включает пятый блок микропроцессорного управления, блок фиксации запроса, блок фиксации атрибутов, буферную память индексов, блок сравнения, память адресов, блок ранжирования, блок формирования списка, устройство управления абонента включает шестой блок микропрограммного управления, пульт управления и отображения, блок фиксации ответа, блок анализа, причем первый выход устройства межсистемного обмена подключен к первому входу первого блока микропроцессорного управления, который является входом устройства сбора и обработки документов в целом, первый выход блока микропроцессорного управления, который является выходом устройства сбора и обработки документов в целом, соединен с первым входом устройства межсистемного обмена, а второй выход первого блока микропроцессорного управления подключен ко входам блока буферной памяти адресов удаляемых документов, буферной памяти документов, первого таймера, а также ко второму входу первого коммутатора и первому входу блока выборки адресов документов, выход которого подключен к первому входу буферной памяти документов, а выход первого таймера подключен ко второму входу буферной памяти документов, выход которой соединен с третьим входом первого коммутатора, к первому входу которого подключен выход блока буферной памяти адресов удаляемых документов, при этом выход первого коммутатора подключен ко второму входу первого блока микропроцессорного управления, которым является первый вход узла ввода-вывода, который через узел управления и обработки соединен с первым входом памяти, ко второму входу которого подключен второй выход узла ввода-вывода, при этом первый выход памяти через узел управления и обработки соединен с третьим входом узла ввода-вывода, а второй выход памяти подключен ко второму входу узла ввода-вывода, первый выход которого является выходом первого блока микропроцессорного управления в целом, при этом второй выход устройства межсистемного обмена подключен к первому входу второго блока микропроцессорного управления, который является входом памяти документов и их адресов в целом, а первый выход второго блока микропроцессорного управления, который является выходом памяти документов и их адресов в целом, соединен со вторым входом устройства межсистемного обмена, второй выход второго блока микропроцессорного управления соединен со входами первого блока памяти адресов и второго таймера, а также вторым входом второго коммутатора, а через блок памяти документов соединен с первым входом второго коммутатора, причем выход второго таймера через первый блок памяти адресов подключен к третьему входу второго коммутатора, выход которого соединен со вторым входом второго блока микропроцессорного управления, при этом третий выход устройства межсистемного обмена подключен к первому входу третьего блока микропроцессорного управления, который является входом устройства индексирования документов в целом, первый выход третьего блока микропроцессорного управления, который является выходом устройства индексирования документов в целом, соединен со вторым входом устройства межсистемного обмена, второй выход третьего блока микропроцессорного управления через буферную память адресов удаляемых или изменяемых документов соединен со вторым входом третьего коммутатора, а третий выход третьего блока микропроцессорного управления подключен к первому входу блока формирования индексного образа документа и через последовательно соединенные блок выделения заголовков документов, блок выделения аннотации документов, блок формирования индексных образов документов и блок выделения атрибутов документов присоединен ко второму, третьему, четвертому и пятому входам блока формирования индексного образа документа соответственно, а через буферную память адресов - к первому входу третьего коммутатора, к третьему входу которого подключен выход блока формирования индексного образа документа, а выход третьего коммутатора соединен с третьим входом третьего блока микропроцессорного управления, ко второму входу которого подключен третий таймер, при этом второй выход блока выделения заголовков документов соединен со вторым входом блока выделения аннотации документов, при этом четвертый выход устройства межсистемного обмена подключен к первому входу четвертого блока микропроцессорного управления, который является входом индексной памяти в целом, первый выход четвертого блока микропроцессорного управления, который является выходом индексной памяти в целом, соединен с четвертым входом устройства межсистемного обмена, а второй выход четвертого блока микропроцессорного управления подключен к первому входу четвертого коммутатора, а через блок памяти индексов, блок памяти атрибутов и второй блок памяти адресов соответственно ко второму, третьему и четвертому входам четвертого коммутатора, выход которого соединен со вторым входом четвертого блока микропроцессорного управления, при этом пятый выход устройства межсистемного обмена подключен к первому входу пятого блока микропроцессорного управления, который является входом устройства поиска в целом, первый выход пятого блока микропроцессорного управления, который является выходом устройства поиска в целом, соединен с пятым входом устройства межсистемного обмена, причем второй выход пятого блока микропроцессорного управления через последовательно соединенные буферную память индексов, блок ранжирования и блок формирования списка подключен ко второму входу пятого блока микропроцессорного управления, а третий выход пятого блока микропроцессорного управления через блок фиксации запроса и блок фиксации атрибутов соединен с первым и вторым входами блока сравнения, выход которого через память адресов подключен ко второму входу блока ранжирования, причем второй выход буферной памяти индексов подключен к третьему входу блока сравнения, а третий выход буферной памяти индексов подключен ко второму входу блока фиксации атрибутов, при этом шестой выход устройства межсистемного обмена подключен к первому входу шестого блок микропроцессорного управления, который является входом устройства управления абонентов в целом, первый выход шестого блока микропроцессорного управления, который является выходом устройства управления абонентов в целом, соединен с шестым входом устройства межсистемного обмена, причем второй выход шестого блока микропроцессорного управления через последовательно соединенные пульт управления и отображения, блок анализа и блок формирования запроса подключен ко второму входу шестого блока микропроцессорного управления, а третий выход шестого блока микропроцессорного управления через последовательно соединенные блок фиксации ответа, блок анализа, пульт управления и отображения соединен с третьим входом шестого блока микропроцессорного управления, причем второй выход блока фиксации ответа подключен к третьему входу пульта управления и отображения, согласно изобретению введены блок формирования индексных образов документов, содержащий первый блок удаления служебных символов и выделения отдельных слов, первый блок удаления слов длиной менее m символов, первая память слов, включенных в стоп-словарь, первый блок удаления слов, включенных в стоп-словарь, первая память стандартных флексий, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости, первый блок удаления основ, встречающихся менее n раз, при этом вход блока формирования индексных образов документов в целом, которым является вход первого блока удаления служебных символов и выделения отдельных слов, подключен ко второму выходу третьего блока микропроцессорного управления, а выход первого блока удаления служебных символов и выделения отдельных слов через последовательно соединенные первый блок удаления слов длиной менее m символов, первый блок удаления слов, включенных в стоп-словарь, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости и первый блок удаления основ, встречающихся менее n раз, подключен к четвертому входу блока формирования индексного образа документа, причем выход первой памяти слов, включенных в стоп-словарь, подключен ко второму входу первого блока удаления слов, включенных в стоп-словарь, а выход первой памяти стандартных флексий подключен ко второму входу первого блока удаления стандартных флексий, и блок формирования индексного образа запроса, содержащий второй блок удаления служебных символов и выделения отдельных слов, второй блок удаления слов длиной менее m символов, вторая память слов, включенных в стоп-словарь, второй блок удаления слов, включенных в стоп-словарь, вторая память стандартных флексий, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости, второй блок удаления основ, встречающихся менее n раз, при этом вход блока формирования индексного образа запроса в целом, которым является вход второго блока удаления служебных символов и выделения отдельных слов, подключен ко второму выходу блока анализа, а выход второго блока удаления служебных символов и выделения отдельных слов через последовательно соединенные второй блок удаления слов длиной менее m символов, второй блок удаления слов, включенных в стоп-словарь, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости и второй блок удаления основ, встречающихся менее n раз, подключен ко второму входу шестого блока микропроцессорного управления, причем выход второй памяти слов, включенных в стоп-словарь, подключен ко второму входу второго блока удаления слов, включенных в стоп-словарь, а выход второй памяти стандартных флексий подключен ко второму входу второго блока удаления стандартных флексий.
Сопоставительный анализ технического решения со способом, выбранным в качестве прототипа, показывает, что заявляемая система отличается новыми устройствами, такими как блок формирования индексных образов документов, содержащий первый блок удаления служебных символов и выделения отдельных слов, первый блок удаления слов длиной менее m символов, первая память слов, включенных в стоп-словарь, первый блок удаления слов, включенных в стоп-словарь, первая память стандартных флексий, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости, первый блок удаления основ, встречающихся менее n раз, второй блок удаления служебных символов и выделения отдельных слов, второй блок удаления слов длиной менее m символов, вторая память слов, включенных в стоп-словарь, второй блок удаления слов, включенных в стоп-словарь, вторая память стандартных флексий, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости, второй блок удаления основ, встречающихся менее n раз.
Таким образом, заявляемое техническое решение соответствует критерию изобретения «новизна».
Анализ известных технических решений в исследуемой и смежных областях позволяет сделать вывод о том, что введенные устройства известны. Однако введение их в систему поиска разнородной информации в локальной компьютерной сети с указанными связями придает этой системе новые свойства. Введенные устройства функционируют таким образом, что позволяют сократить время поиска нужной информации за счет формирования эффективного признакового пространства.
Таким образом, техническое решение соответствует критерию "изобретательский уровень", т.к. оно для специалиста явным образом не следует из уровня техники.
Техническое решение может быть использовано для поиска информации в больших документальных базах данных и рассредоточенных электронных хранилищах разнородной информации.
Таким образом, изобретение соответствует критерию "промышленная применимость".
На фиг.1 представлена структурная блок-схема системы поиска разнородной информации в локальной компьютерной сети,
на фиг.2 - структурная блок-схема устройства сбора и обработки документов,
на фиг.3 - структурная блок-схема первого блока микропроцессорного управления,
на фиг.4 - структурная блок-схема памяти документов и их адресов,
на фиг.5 - структурная блок-схема устройства индексирования документов,
на фиг.6 - структурная блок-схема блока формирования индексных образов документов,
на фиг.7 - структурная блок-схема индексной памяти,
на фиг.8 - структурная блок-схема устройства поиска,
на фиг.9 - структурная блок-схема устройства управления абонентов,
на фиг.10 - структурная блок-схема блока формирования индексного образа запроса.
Системы поиска разнородной информации в локальной компьютерной сети (фиг.1) содержит устройство 1 сбора и обработки документов, память 2 документов и их адресов, устройство 3 индексирования документов, индексную память 4, устройство 5 поиска, устройство 6 управления абонентов, устройство 7 межсистемного обмена, при этом устройство 1 сбора и обработки документов (фиг.2) содержит первый блок 8 микропроцессорного управления, буферную память 9, блок 10 выборки адресов документов, первый таймер 11, блок 12 буферной памяти адресов удаляемых документов, буферную память документов 13, первый коммутатор 14, при этом первый блок микропроцессорного управления (фиг.3) содержит память 15, узел 16 управления и обработки, узел 17 ввода-вывода, при этом память 2 документов и их адресов (фиг.4) содержит второй блок 18 микропроцессорного управления, блок 19 памяти документов, первый блок 20 памяти адресов, второй таймер 21, второй коммутатор 22, при этом устройство 3 индексирования документов (фиг.5) содержит третий блок 23 микропроцессорного управления, блок 24 выделения заголовков документов, блок 25 выделения аннотации документов, блок 26 формирования индексных образов документов, блок 27 выделения атрибутов документов, блок 28 формирования индексного образа документа, третий таймер 29, буферную память 30 адресов, буферную память 31 адресов удаляемых или изменяемых документов, третий коммутатор 32, при этом блок формирования индексных образов документов (фиг.6) содержит первый блок 33 удаления служебных символов и выделения отдельных слов, первый блок 34 удаления слов длиной менее m символов, первую память 35 слов, включенных в стоп-словарь, первый блок 36 удаления слов, включенных в стоп-словарь, первую память 37 стандартных флексий, первый блок 38 удаления стандартных флексий, первый блок 39 сортировки основ слов по частоте их встречаемости, первый блок 40 удаления основ, встречающихся менее n раз, при этом индексная память 4 (фиг.7) содержит четвертый блок 41 микропроцессорного управления, блок 42 памяти индексов, блок 43 памяти атрибутов, второй блок 44 памяти адресов, четвертый коммутатор 45, при этом устройство 5 поиска (фиг.8) содержит пятый блок 46 микропроцессорного управления, блок 47 фиксации запроса, блок 48 фиксации атрибутов, буферную память 49 индексов, блок 50 сравнения, память 51 адресов, блок 52 ранжирования, блок 53 формирования списка, при этом устройство 6 управления абонентов (фиг.9) содержит шестой блок 54 микропроцессорного управления, пульт 55 управления и отображения, блок 56 формирования индексного образа запроса, блок 57 фиксации ответа, блок 58 анализа, при этом блок формирования индексного образа запроса (фиг.10) содержит второй блок 59 удаления служебных символов и выделения отдельных слов, второй блок 60 удаления слов длиной менее m символов, вторую память 61 слов, включенных в стоп-словарь, второй блок 62 удаления слов, включенных в стоп-словарь, вторую память 63 стандартных флексий, второй блок 64 удаления стандартных флексий, второй блок 65 сортировки основ слов по частоте их встречаемости, второй блок 66 удаления основ, встречающихся менее n раз, причем первый выход устройства 7 межсистемного обмена подключен к первому входу первого блока 8 микропроцессорного управления, который является входом устройства 1 сбора и обработки документов в целом, первый выход блока 8 микропроцессорного управления, который является выходом устройства 1 сбора и обработки документов в целом, соединен с первым входом устройства 7 межсистемного обмена, а второй выход первого блока 8 микропроцессорного управления подключен ко входам блока 12 буферной памяти адресов удаляемых документов, буферной памяти 9 документов, первого таймера 11, а также ко второму входу первого коммутатора 14 и первому входу блока 10 выборки адресов документов, выход которого подключен к первому входу буферной памяти документов 13, а выход первого таймера 11 подключен ко второму входу буферной памяти документов 13, выход которой соединен с третьим входом первого коммутатора 14, к первому входу которого подключен выход блока 12 буферной памяти адресов удаляемых документов, при этом выход первого коммутатора 14 подключен ко второму входу первого блока 8 микропроцессорного управления, которым является первый вход узла 17 ввода-вывода, который через узел 16 управления и обработки соединен с первым входом памяти 15, ко второму входу которого подключен второй выход узла 17 ввода-вывода, при этом первый выход памяти 15 через узел 16 управления и обработки соединен с третьим входом узла 17 ввода-вывода, а второй выход памяти 15 подключен ко второму входу узла 17 ввода-вывода, первый выход которого является выходом первого блока 8 микропроцессорного управления в целом, при этом второй выход устройства 7 межсистемного обмена подключен к первому входу второго блока 18 микропроцессорного управления, который является входом памяти 2 документов и их адресов в целом, а первый выход второго блока 18 микропроцессорного управления, который является выходом памяти 2 документов и их адресов в целом, соединен со вторым входом устройства 7 межсистемного обмена, второй выход второго блока 18 микропроцессорного управления соединен со входами первого блока 20 памяти адресов и второго таймера 21, а также вторым входом второго коммутатора 22, а через блок 19 памяти документов соединен с первым входом второго коммутатора 22, причем выход второго таймера 21 через первый блок 20 памяти адресов подключен к третьему входу второго коммутатора 22, выход которого соединен со вторым входом второго блока 18 микропроцессорного управления, при этом третий выход устройства 7 межсистемного обмена подключен к первому входу третьего блока 23 микропроцессорного управления, который является входом устройства 3 индексирования документов в целом, первый выход третьего блока 23 микропроцессорного управления, который является выходом устройства 3 индексирования документов в целом, соединен со вторым входом устройства 7 межсистемного обмена, второй выход третьего блока 23 микропроцессорного управления через буферную память 31 адресов удаляемых или изменяемых документов соединен со вторым входом третьего коммутатора 32, а третий выход третьего блока 23 микропроцессорного управления подключен к первому входу блока 28 формирования индексного образа документа и через последовательно соединенные блок 24 выделения заголовков документов, блок 25 выделения аннотации документов, блок 26 формирования индексных образов документов и блок 27 выделения атрибутов документов присоединен ко второму, третьему, четвертому и пятому входам блока 28 формирования индексного образа документа соответственно, а через буферную память 30 адресов - к первому входу третьего коммутатора 32, к третьему входу которого подключен выход блока 28 формирования индексного образа документа, а выход третьего коммутатора 32 соединен с третьим входом третьего блока 23 микропроцессорного управления, ко второму входу которого подключен третий таймер 29, при этом второй выход блока 24 выделения заголовков документов соединен со вторым входом блока 25 выделения аннотации документов, при этом четвертый выход устройства 7 межсистемного обмена подключен к первому входу четвертого блока 41 микропроцессорного управления, который является входом индексной памяти 4 в целом, первый выход четвертого блока 41 микропроцессорного управления, который является выходом индексной памяти 4 в целом, соединен с четвертым входом устройства 7 межсистемного обмена, а второй выход четвертого блока 41 микропроцессорного управления подключен к первому входу четвертого коммутатора 45, а через блок 42 памяти индексов, блок 43 памяти атрибутов и второй блок 44 памяти адресов соответственно ко второму, третьему и четвертому входам четвертого коммутатора 45, выход которого соединен со вторым входом четвертого блока 41 микропроцессорного управления, при этом пятый выход устройства 7 межсистемного обмена подключен к первому входу пятого блока 46 микропроцессорного управления, который является входом устройства 5 поиска в целом, первый выход пятого блока 46 микропроцессорного управления, который является выходом устройства 5 поиска в целом, соединен с пятым входом устройства 7 межсистемного обмена, причем второй выход пятого блока 46 микропроцессорного управления через последовательно соединенные буферную память 49 индексов, блок 52 ранжирования и блок 53 формирования списка подключен ко второму входу пятого блока 46 микропроцессорного управления, а третий выход пятого блока 46 микропроцессорного управления через блок 47 фиксации запроса и блок 48 фиксации атрибутов соединен с первым и вторым входами блока 50 сравнения, выход которого через память 51 адресов подключен ко второму входу блока 52 ранжирования, причем второй выход буферной памяти 49 индексов подключен к третьему входу блока 50 сравнения, а третий выход буферной памяти 49 индексов подключен ко второму входу блока 48 фиксации атрибутов, при этом шестой выход устройства 7 межсистемного обмена подключен к первому входу шестого блок 54 микропроцессорного управления, который является входом устройства 6 управления абонентов в целом, первый выход шестого блока 54 микропроцессорного управления, который является выходом устройства 6 управления абонентов в целом, соединен с шестым входом устройства 7 межсистемного обмена, причем второй выход шестого блока 54 микропроцессорного управления через последовательно соединенные пульт 55 управления и отображения, блок 58 анализа и блок 56 формирования запроса подключен ко второму входу шестого блока 54 микропроцессорного управления, а третий выход шестого блока 54 микропроцессорного управления через последовательно соединенные блок 57 фиксации ответа, блок 58 анализа, пульт 55 управления и отображения соединен с третьим входом шестого блока 54 микропроцессорного управления, причем второй выход блока 57 фиксации ответа подключен к третьему входу пульта 55 управления и отображения, при этом вход блока 26 формирования индексных образов документов в целом, которым является вход первого блока 33 удаления служебных символов и выделения отдельных слов, подключен ко второму выходу третьего блока 23 микропроцессорного управления, а выход первого блока 33 удаления служебных символов и выделения отдельных слов через последовательно соединенные первый блок 34 удаления слов длиной менее m символов, первый блок 36 удаления слов, включенных в стоп-словарь, первый блок 38 удаления стандартных флексий, первый блок 39 сортировки основ слов по частоте их встречаемости и первый блок 40 удаления основ, встречающихся менее n раз, подключен к четвертому входу блока 28 формирования индексного образа документа, причем выход первой памяти 35 слов, включенных в стоп-словарь, подключен ко второму входу первого блока 36 удаления слов, включенных в стоп-словарь, а выход первой памяти 37 стандартных флексий подключен ко второму входу первого блока 38 удаления стандартных флексий, при этом вход блока 56 формирования индексного образа запроса в целом, которым является вход второго блока 59 удаления служебных символов и выделения отдельных слов, подключен ко второму выходу блока 58 анализа, а выход второго блока 59 удаления служебных символов и выделения отдельных слов через последовательно соединенные второй блок 60 удаления слов длиной менее m символов, второй блок 62 удаления слов, включенных в стоп-словарь, второй блок 64 удаления стандартных флексий, второй блок 65 сортировки основ слов по частоте их встречаемости и второй блок 66 удаления основ, встречающихся менее n раз, подключен ко второму входу шестого блока 54 микропроцессорного управления, причем выход второй памяти 61 слов, включенных в стоп-словарь, подключен ко второму входу второго блока 62 удаления слов, включенных в стоп-словарь, а выход второй памяти 63 стандартных флексий подключен ко второму входу второго блока 64 удаления стандартных флексий.
Предлагаемая система работает следующим образом.
Устройство 1 сбора и обработки документов производит опрос серверов локальной компьютерной сети по известным адресам, производит копирование документов и их адресов с серверов в память 2 документов и их адресов, контролирует изменения документов и осуществляет удаление документов и адресов из памяти 2 документов и их адресов, если это необходимо.
Работа устройства 1 сбора и обработки документов осуществляется под управлением первого блока 8 микропроцессорного управления, в котором функции контроля, анализа и обработки осуществляет узел 16 управления и обработки по программе памяти 15, а обмен информацией осуществляется через узел 17 ввода-вывода. Документ из выбранного сервера считывается через узел 17 ввода-вывода в буферную память 9, из которой блоком 10 выборки адресов документов выбираются адреса связанных документов и передаются в буферную память документов 13. Адреса из буферной памяти документов 13 и памяти 2 документов и их адресов сравниваются в первом блоке 8 микропроцессорного управления, и если обнаруживается совпадение, что указывает на наличие документа в памяти 2 документов и их адресов, то передача информации из буферной памяти 9 через первый коммутатор 14 в память 2 документов и их адресов не производится и в следующем цикле работы в буферной памяти 9 эта информация стирается. Если адрес не обнаружен в памяти 2 документов и их адресов, то осуществляется передача документа из буферной памяти 9 через первый коммутатор 14, узел 17 ввода-вывода и устройство 7 межсистемного обмена в память 2 документов и их адресов. Устройство 1 сбора и обработки документов опрашивает серверы компьютерной сети, и если обнаруживает адрес документа, подлежащего удалению или изменению, то выбирает его из памяти 2 документов и их адресов и производит соответствующую процедуру удаления или замены.
Процедура замены или удаления документов может быть также инициирована первым таймером 11. По сигналу таймера производится выборка адреса документа из памяти 2 документов и их адресов, который через первый коммутатор 14 передается в узел 17 ввода-вывода. Далее производится проверка наличия документа по заданному адресу. Если оказывается, что документ был обновлен, производится закачка новой версии документа, а предыдущее удаляется из памяти 2 документов и их адресов. Если документ по заданному адресу отсутствует, информация о нем удаляется из памяти 2 документов и их адресов
Память 2 документов и их адресов работает под управлением второго блока 18 микропроцессорного управления, имеющего структуру, аналогичную первому блоку 8 микропроцессорного управления. Принимаемые документы и адреса хранятся соответственно в блоке 19 памяти документов, первом блоке 20 памяти адресов и, при необходимости, передаются через второй коммутатор 22 и узел ввода-вывода второго блока 18 микропроцессорного управления в устройство 7 межсистемного обмена и далее по требованию. Второй таймер 21 позволяет выделить адрес и соответствующий документ, которые необходимо удалить или изменить.
Любой поступающий в систему документ подвергается некоторым преобразованиям для формирования индексного образа. Это осуществляется в устройстве 3 индексирования документов, работающем под управлением третьего блока 23 микропроцессорного управления, структура которого идентична структуре первого блока 8 микропроцессорного управления. По команде с третьего таймера 29 узел ввода-вывода третьего блока 23 микропроцессорного управления производит выборку из памяти 2 документов и их адресов новых адресов и документов. При этом исходные тексты документов передаются на входы блока 24 выделения заголовков документов блока 25 выделения аннотации документов, блока 26 формирования индексных образов документов и блока 27 выделения атрибутов документов, адреса документов - в буферную память 30 адресов, а адреса удаляемых документов - в буферную память 31 адресов удаляемых или изменяемых документов. Из документов блоком 24 выделения заголовков документов выделяются заголовки, блоком 25 выделения аннотации документов выделяются аннотации документов, блоком 26 формирования индексных образов документов формируются индексные образы документов. При этом в первом блоке 33 удаления служебных символов и выделения отдельных слов удаляются скрытые и печатные служебные символы, такие как пробелы между словами, перевод строки, различные скобки, знаки препинания и т.д., и формируется список отдельных слов, в первом блоке 34 удаления слов длиной менее m символов удаляются слова длиной менее m символов, в первом блоке 36 удаления слов, включенных в стоп-словарь, удаляются слова, содержащиеся в первой памяти 35 слов, включенных в стоп-словарь, в первом блоке 38 удаления стандартных флексий в оставшихся после обработки в первом блоке 36 удаления слов, включенных в стоп-словарь, словах отсекаются флексии, содержащиеся в первой памяти 37 стандартных флексий, в первом блоке 39 сортировки основ слов по частоте их встречаемости оставшиеся основы сортируются в порядке убывания их частоты встречаемости в документе и в первом блоке 40 удаления основ, встречающихся менее n раз, из ранжированного списка удаляются слова, встретившиеся в документе мене n раз. Блоком 27 выделения атрибутов документов формируются атрибуты документов. Эти компоненты объединяются в блоке 28 формирования индексного образа документа в поисковый индексный образ документа и совместно со ссылкой документа из буферной памяти 30 адресов передаются через третий коммутатор 32, узел ввода-вывода третьего блока 23 микропроцессорного управления и устройство 7 межсистемного обмена в индексную память 4. Если обнаруживаются ссылки удаляемых или изменяемых документов, то они поступают в буферную память 31 адресов удаляемых или изменяемых документов и далее в индексную память 4, где осуществляется выборка соответствующих индексов и их последующая обработка. Индексы могут быть подвергнуты обработке и по результатам временного сканирования с помощью третьего таймер 29.
Работа индексной памяти 4 осуществляется под контролем и управлением четвертого блока 41 микропроцессорного управления, имеющего структуру, аналогичную структуре первому блоку 8 микропроцессорного управления. В блок 42 памяти индексов поступают индексные образы документов, в блок 43 памяти атрибутов поступают атрибуты, во второй блок 44 памяти адресов - соответствующие адреса документов, информация из которых может передаваться через четвертый коммутатор 45 и четвертый блок 41 микропроцессорного управления в устройство 7 межсистемного обмена.
Работа устройства 5 поиска осуществляется под управлением пятого блока 46 микропроцессорного управления, имеющего структуру, аналогичную структуре первого блока 8 микропроцессорного управления. Через узел ввода-вывода пятого блока 46 микропроцессорного управления абонентский запрос от соответствующего устройства 6 управления абонентов поступает в блок 47 фиксации запроса, а в блок 48 фиксации атрибутов и буферную память 49 индексов поступают атрибуты документов и индексные образы документов соответственно. В блоке 50 сравнения осуществляется сравнение индексного образа запроса абонента с индексными образами документов и, в случае необходимости, дополнительных атрибутов с индексными образами документов. Результаты сравнения фиксируются в память 51 адресов и ранжируются в блоке 52 ранжирования с использованием информации от буферной памяти 49 индексов. Результаты ранжирования блоком 53 формирования списка передаются в устройство 6 управления абонентов соответствующего абонента.
Работа устройства 6 управления абонентов осуществляется под управлением шестого блока 54 микропроцессорного управления, структура которого идентична структуре первого блока 8 микропроцессорного управления. Кроме того, осуществляется ручное управление и контроль с помощью пульта 55 управления и отображения. Ответ из устройства 5 поиска фиксируется в блоке 57 фиксации ответа и с помощью блока 58 анализа осуществляется анализ ответа и, если требуется, формируются дополнительные сведения в блок 56 формирования индексного образа запроса, который работает аналогично блоку 26 формирования индексных образов документов.
Таким образом, система позволяет проводить сбор и обновление информации о документах, хранящихся в компьютерной сети, сохранять информацию о документах в специализированной базе данных индексного хранилища, производить поиск документов в локальной компьютерной сети на основе естественного или формального запроса пользователя, а также по набору различных атрибутов документов, ранжировать список найденных документов по степени соответствия запроса пользователя, получать информацию о документах сети без непосредственного обращения к ним и в результате достигнуть положительный эффект, заключающийся в сокращении времени, затрачиваемого на проведение поиска нужной информации в локальной компьютерной сети.
Все узлы, входящие в состав системы, могут быть реализованы с помощью программно-аппаратных средств, основанных на микросхемах, например, фирмы Intel.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКОВОЙ ВЫДАЧИ | 2017 |
|
RU2643466C1 |
СИСТЕМА ПОИСКА ИНФОРМАЦИИ В КОМПЬЮТЕРНОЙ СЕТИ | 1998 |
|
RU2138076C1 |
УСТРОЙСТВО ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ИНФОРМАЦИОННОГО ПОИСКА | 2008 |
|
RU2386167C1 |
Вычислительная система | 1977 |
|
SU692400A1 |
Устройство для отображения информации | 1986 |
|
SU1506478A1 |
Устройство для сопряжения процессора с каналами связи | 1978 |
|
SU763882A1 |
КОНВЕЙЕРНЫЙ ПРОЦЕССОР | 1992 |
|
RU2032215C1 |
УСТРОЙСТВО ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ИНФОРМАЦИОННОГО ПОИСКА | 1996 |
|
RU2096825C1 |
Устройство для отображения информации | 1986 |
|
SU1441450A1 |
Многопроцессорная вычислительная система | 1979 |
|
SU751238A1 |
Изобретение относится к средствам поиска и идентификации документов по их описаниям. Технический результат заключается в сокращении времени, затрачиваемого на проведение поиска нужной информации. Блок формирования индексных образов документов содержит первый блок удаления служебных символов и выделения отдельных слов, первый блок удаления слов длиной менее m символов, первую память слов, включенных в стоп-словарь, первый блок удаления слов, включенных в стоп-словарь, первую память стандартных флексий, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости, первый блок удаления основ, встречающихся менее n раз с соответствующими связями. Блок формирования индексного образа запроса содержит второй блок удаления служебных символов и выделения отдельных слов, второй блок удаления слов длиной менее m символов, вторую память слов, включенных в стоп-словарь, второй блок удаления слов, включенных в стоп-словарь, вторую память стандартных флексий, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости, второй блок удаления основ, встречающихся менее n раз. 10 ил.
Система поиска разнородной информации в локальной компьютерной сети, содержащая устройство сбора и обработки документов, память документов и их адресов, устройство индексирования документов, индексную память, устройство поиска, устройство управления абонентов, устройство межсистемного обмена, при этом устройство сбора и обработки документов включает первый блок микропроцессорного управления, буферную память документов, блок выборки адресов документов, первый таймер, блок буферной памяти адресов удаляемых документов, буферную память документов, первый коммутатор, причем блок микропроцессорного управления содержит память, узел управления и обработки, узел ввода-вывода, при этом память включает второй блок микропроцессорного управления, блок памяти документов, первый блок памяти адресов, второй таймер, второй коммутатор, блок индексирования включает третий блок микропроцессорного управления, блок выделения заголовков документов, блок выделения аннотации документов, блок выделения атрибутов документов, блок формирования индексного образа документа, третий таймер, буферную память адресов, буферную память адресов удаляемых или изменяемых документов, третий коммутатор, индексная память включает четвертый блок микропроцессорного управления, блок памяти индексов, блок памяти атрибутов, второй блок памяти адресов, четвертый коммутатор, устройство поиска включает пятый блок микропроцессорного управления, блок фиксации запроса, блок фиксации атрибутов, буферную память индексов, блок сравнения, память адресов, блок ранжирования, блок формирования списка, устройство управления абонента включает шестой блок микропрограммного управления, пульт управления и отображения, блок фиксации ответа, блок анализа, причем первый выход устройства межсистемного обмена подключен к первому входу первого блока микропроцессорного управления, который является входом устройства сбора и обработки документов в целом, первый выход блока микропроцессорного управления, который является выходом устройства сбора и обработки документов в целом, соединен с первым входом устройства межсистемного обмена, а второй выход первого блока микропроцессорного управления подключен ко входам блока буферной памяти адресов удаляемых документов, буферной памяти документов, первого таймера, а также ко второму входу первого коммутатора и первому входу блока выборки адресов документов, выход которого подключен к первому входу буферной памяти документов, а выход первого таймера подключен ко второму входу буферной памяти документов, выход которой соединен с третьим входом первого коммутатора, к первому входу которого подключен выход блока буферной памяти адресов удаляемых документов, при этом выход первого коммутатора подключен ко второму входу первого блока микропроцессорного управления, которым является первый вход узла ввода-вывода, который через узел управления и обработки соединен с первым входом памяти, ко второму входу которого подключен второй выход узла ввода-вывода, при этом первый выход памяти через узел управления и обработки соединен с третьим входом узла ввода-вывода, а второй выход памяти подключен ко второму входу узла ввода-вывода, первый выход которого является выходом первого блока микропроцессорного управления в целом, при этом второй выход устройства межсистемного обмена подключен к первому входу второго блока микропроцессорного управления, который является входом памяти документов и их адресов в целом, а первый выход второго блока микропроцессорного управления, который является выходом памяти документов и их адресов в целом, соединен со вторым входом устройства межсистемного обмена, второй выход второго блока микропроцессорного управления соединен со входами первого блока памяти адресов и второго таймера, а также вторым входом второго коммутатора, а через блок памяти документов соединен с первым входом второго коммутатора, причем выход второго таймера через первый блок памяти адресов подключен к третьему входу второго коммутатора, выход которого соединен со вторым входом второго блока микропроцессорного управления, при этом третий выход устройства межсистемного обмена подключен к первому входу третьего блока микропроцессорного управления, который является входом устройства индексирования документов в целом, первый выход третьего блока микропроцессорного управления, который является выходом устройства индексирования документов в целом, соединен со вторым входом устройства межсистемного обмена, второй выход третьего блока микропроцессорного управления через буферную память адресов удаляемых или изменяемых документов соединен со вторым входом третьего коммутатора, а третий выход третьего блока микропроцессорного управления подключен к первому входу блока формирования индексного образа документа и через последовательно соединенные блок выделения заголовков документов, блок выделения аннотации документов, блок формирования индексных образов документов и блок выделения атрибутов документов присоединен ко второму, третьему, четвертому и пятому входам блока формирования индексного образа документа соответственно, а через буферную память адресов - к первому входу третьего коммутатора, к третьему входу которого подключен выход блока формирования индексного образа документа, а выход третьего коммутатора соединен с третьим входом третьего блока микропроцессорного управления, ко второму входу которого подключен третий таймер, при этом второй выход блока выделения заголовков документов соединен со вторым входом блока выделения аннотации документов, при этом четвертый выход устройства межсистемного обмена подключен к первому входу четвертого блока микропроцессорного управления, который является входом индексной памяти в целом, первый выход четвертого блока микропроцессорного управления, который является выходом индексной памяти в целом, соединен с четвертым входом устройства межсистемного обмена, а второй выход четвертого блока микропроцессорного управления подключен к первому входу четвертого коммутатора, а через блок памяти индексов, блок памяти атрибутов и второй блок памяти адресов соответственно ко второму, третьему и четвертому входам четвертого коммутатора, выход которого соединен со вторым входом четвертого блока микропроцессорного управления, при этом пятый выход устройства межсистемного обмена подключен к первому входу пятого блока микропроцессорного управления, который является входом устройства поиска в целом, первый выход пятого блока микропроцессорного управления, который является выходом устройства поиска в целом, соединен с пятым входом устройства межсистемного обмена, причем второй выход пятого блока микропроцессорного управления через последовательно соединенные буферную память индексов, блок ранжирования и блок формирования списка подключен ко второму входу пятого блока микропроцессорного управления, а третий выход пятого блока микропроцессорного управления через блок фиксации запроса и блок фиксации атрибутов соединен с первым и вторым входами блока сравнения, выход которого через память адресов подключен ко второму входу блока ранжирования, причем второй выход буферной памяти индексов подключен к третьему входу блока сравнения, а третий выход буферной памяти индексов подключен ко второму входу блока фиксации атрибутов, при этом шестой выход устройства межсистемного обмена подключен к первому входу шестого блок микропроцессорного управления, который является входом устройства управления абонентов в целом, первый выход шестого блока микропроцессорного управления, который является выходом устройства управления абонентов в целом, соединен с шестым входом устройства межсистемного обмена, причем второй выход шестого блока микропроцессорного управления через последовательно соединенные пульт управления и отображения, блок анализа и блок формирования запроса подключен ко второму входу шестого блока микропроцессорного управления, а третий выход шестого блока микропроцессорного управления через последовательно соединенные блок фиксации ответа, блок анализа, пульт управления и отображения соединен с третьим входом шестого блока микропроцессорного управления, причем второй выход блока фиксации ответа подключен к третьему входу пульта управления и отображения, отличающаяся тем, что в нее введены блок формирования индексных образов документов, содержащий первый блок удаления служебных символов и выделения отдельных слов, первый блок удаления слов длиной менее m символов, первая память слов, включенных в стоп-словарь, первый блок удаления слов, включенных в стоп-словарь, первая память стандартных флексий, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости, первый блок удаления основ, встречающихся менее n раз, при этом вход блока формирования индексных образов документов в целом, которым является вход первого блока удаления служебных символов и выделения отдельных слов, подключен ко второму выходу третьего блока микропроцессорного управления, а выход первого блока удаления служебных символов и выделения отдельных слов через последовательно соединенные первый блок удаления слов длиной менее m символов, первый блок удаления слов, включенных в стоп-словарь, первый блок удаления стандартных флексий, первый блок сортировки основ слов по частоте их встречаемости и первый блок удаления основ, встречающихся менее n раз, подключен к четвертому входу блока формирования индексного образа документа, причем выход первой памяти слов, включенных в стоп-словарь, подключен ко второму входу первого блока удаления слов, включенных в стоп-словарь, а выход первой памяти стандартных флексий подключен ко второму входу первого блока удаления стандартных флексий, и блок формирования индексного образа запроса, содержащий второй блок удаления служебных символов и выделения отдельных слов, второй блок удаления слов длиной менее m символов, вторая память слов, включенных в стоп-словарь, второй блок удаления слов, включенных в стоп-словарь, вторая память стандартных флексий, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости, второй блок удаления основ, встречающихся менее n раз, при этом вход блока формирования индексного образа запроса в целом, которым является вход второго блока удаления служебных символов и выделения отдельных слов, подключен ко второму выходу блока анализа, а выход второго блока удаления служебных символов и выделения отдельных слов через последовательно соединенные второй блок удаления слов длиной менее m символов, второй блок удаления слов, включенных в стоп-словарь, второй блок удаления стандартных флексий, второй блок сортировки основ слов по частоте их встречаемости и второй блок удаления основ, встречающихся менее n раз, подключен ко второму входу шестого блока микропроцессорного управления, причем выход второй памяти слов, включенных в стоп-словарь, подключен ко второму входу второго блока удаления слов, включенных в стоп-словарь, а выход второй памяти стандартных флексий подключен ко второму входу второго блока удаления стандартных флексий.
US 8401841 B2, 19.03.20013 | |||
СИСТЕМА ПОИСКА ИНФОРМАЦИИ В КОМПЬЮТЕРНОЙ СЕТИ | 1998 |
|
RU2138076C1 |
US 6189002 B1, 13.02.2001 | |||
US 8468244 B2, 18.06.2013 | |||
ЛИНГВИСТИЧЕСКИ ИНФОРМИРОВАННЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ СТРУКТУРЫ СОСТАВЛЯЮЩИХ ДЛЯ УПОРЯДОЧЕНИЯ В РЕАЛИЗАЦИИ ПРЕДЛОЖЕНИЙ ДЛЯ СИСТЕМЫ ГЕНЕРИРОВАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА | 2004 |
|
RU2336552C2 |
Авторы
Даты
2015-02-10—Публикация
2013-09-24—Подача