Группа изобретений относится к решениям в области обработки массивов данных, в частности к решениям в области обработки структурированных массивов данных, содержащих текст на естественном языке, и может быть использовано для предварительного преобразования структурированного массива данных, содержащего текст на естественном языке, для удобства его последующей обработки.
УРОВЕНЬ ТЕХНИКИ
Из патента EA 002016 B1, G06F 17/30, 22.10.2001 (МАТВЕЕВ ЛЕВ ЛАЗАРЕВИЧ И ДР.) известен способ поиска похожих по текстовому и/или смысловому содержимому фрагментов в электронных документах, хранимых на устройствах хранения данных, заключающийся в индексировании каждого сохраняемого в архиве документа, разбиении упомянутых документов на фрагменты и формировании тематик из одного и более фрагмента, определении параметров поиска, проведении поиска, ранжировании полученного в результате поиска списка фрагментов документов, причем в качестве параметров поиска определяют множество входящих в выбранный фрагмент документа уникальных блоков информации и расширяют его посредством предварительной обработки каждого из упомянутых уникальных блоков информации, где под уникальным блоком информации понимают блок информации, встретившийся в выбранном фрагменте документа один и более раз, где в качестве предварительной обработки используют операцию получения, по меньшей мере, из одного уникального блока информации, одного или нескольких блоков информации, связанных с уникальным блоком информации заданным соотношением.
Из патента RU 2476927 C2, G06F 17/30, 27.02.2013 (АНШУКОВ СЕРГЕЙ АЛЕКСАНДРОВИЧ И ДР.) известен способ позиционирования текстов в пространстве знаний, заключающийся в том, что из входных данных выделяют элементы, соответствующие паттернам, входящим в таксоны, образующие таксономии, объединенные в онтологии; определяют значимые таксоны, которые взвешивают с учетом условий, приписанных паттернам; составляют набор взвешенных векторов, позиционирующих входной документ в пространстве знаний, отличающийся тем, что в нем для позиционирования используют множество онтологий, а также тем, что при составлении наборов векторов рассматривают только те элементы, которые соответствуют паттернам, входящим в один таксон или в таксоны, имеющие общие родительские таксоны.
Из патента RU 2210809 C2, G06F 17/28, 20.08.2003 (ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «МОСКОВСКАЯ ТЕЛЕКОММУНИКАЦИОННАЯ КОРПОРАЦИЯ») известен способ автоматического преобразования исходного текста в совокупность взаимосвязанных объектов на основе таблицы настроек, содержащей знания о структуре исследуемой системы в виде совокупности образующих ее классов, включающих определенный набор атрибутов (в том числе взаимосвязи и отношения между объектами заданных классов) и установленные для каждого атрибута правила распознавания атрибута в тексте. Предусматривается возможность определения формата исходного текста и автоматического перевода его фрагментов в ходе формирования объектов.
Из патента RU 2292078 C1, G06F 17/30, 20.01.2007 (ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «МЕДИАЛИНГВА») известен способ поиска, разметки и отображения информации, включающий ввод искомых объектов данных исходных электронных документов, подлежащих поиску по информационным сетям с терминала абонента сети, осуществляющего функцию источника запроса искомых объектов данных, сравнение искомых объектов данных исходных электронных документов с контрольными объектами данных ассоциированной информации в информационной сети, а при совпадении искомых объектов с контрольными преобразование объектов данных исходных электронных документов посредством разметки объектов данных исходных электронных документов гиперссылками, визуализацию на терминале абонента сети электронных документов с гиперссылками и вызов на терминал абонента сети данных ассоциированной информации информационной сети, отличающийся тем, что перед разметкой создают, по меньшей мере, две области данных, по меньшей мере, одна из которых является резидентной областью для источника запроса искомых объектов данных и обеспечивает привязку к объектам данных первичных гиперссылок, содержащих дополнительные параметры, для адресации, по меньшей мере, к одной другой области, а, по меньшей мере, одна другая область является нерезидентной для источника запроса искомых объектов данных и обеспечивает привязку к объектам данных вторичных гиперссылок для адресации, по меньшей мере, к одному ресурсу данных ассоциированной информации для доступа к ней с терминалов абонентов, по меньшей мере, одной резидентной области, являющейся источником первичной гиперссылки, при этом в резидентной области создают массив контрольных объектов данных с соответствующими каждому указанному объекту первичными гиперссылками в качестве связанных данных, а в нерезидентной области создают массив контрольных объектов данных ассоциированной информации с соответствующей каждому указанному объекту, по меньшей мере, одной вторичной гиперссылкой в качестве связанных данных ассоциированной информации информационной сети.
Из патента RU 2386166 C2, G06F 17/30, 10.04.2010 (ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «ТАГАНРОГСКИЙ АВИАЦИОННЫЙ НАУЧНО-ТЕХНИЧЕСКИЙ КОМПЛЕКС ИМ. Г.М. БЕРИЕВА») известен способ формирования базы знаний, которую формируют в виде трехмерного информационного пространства, в котором данные о документе или его части определяют в кластер или кластеры, образованные единичными отрезками (ортами) характеристических признаков. Полный идентификационный номер документа формируют из кодов орт составляющих характеристических признаков и идентификационного номера документа. Производят анализ каждого кластера на полноту определения ограниченной им сферы деятельности содержащимися в кластере документами. Результат анализа заносят в этот же кластер. Поиск и анализ данных производят как с помощью формирования и обработки запроса, так и в обратном направлении с помощью подготовки базы данных для ожидаемого пользователя. В системе также предусмотрены средства для работы с базой данных, для поиска, контроля и анализа информации, документов, областей деятельности, для создания и корректировки документов системными администраторами, экспертами и пользователями в соответствии с правами доступа.
Из патента RU 2253893 C2, G06F 17/27, 10.06.2005 (ЧЕРНИКОВ БОРИС ВАСИЛЬЕВИЧ) известен способ автоматизированного лексикологического синтеза документов, включающий создание и сохранение унифицированной формы документа, классификацию содержания документа путем выделения унифицированной постоянной информации и переменной информации, сохранения постоянной информации в базах данных, внесения постоянной информации в унифицированную форму документа и введения переменной информации в документ, при котором в переменной информации выделяют переменную унифицированную информацию, связанную с устойчивыми формулировками, переменную вводимую информацию, представляющую собой конкретизирующие сведения, и переменную неунифицированную информацию, содержащую свободные формулировки, причем переменную унифицированную информацию выделяют путем формирования совокупности опорных слов, однозначно определяющих конкретные формулировки в документе и составляющих лексикологический скелет документа, и сохраняют в машинной базе данных с избытком по отношению к отдельно взятому экземпляру документа, формируют лексикологическое дерево документа путем определения взаимозависимости отдельных опорных слов и затем формируют информационный контур управления документом путем установления способа внедрения формулировок переменной унифицированной и неунифицированной информации в зависимости от характера связи опорного слова с фрагментом документа.
Из заявки WO 2013043160 A1, G06F 17/21, 28.03.2013 (HEWLETT PACKARD DEVELOPMENT СО ЕТ AL.) известен способ обработки текстового массива данных, который заключается в построении графа, представляющего микромодель сущностей, образующих тело обрабатываемого документа. Разбиение такого текста на узлы графа, причем каждый узел относится к своей особенности выделенного фрагмента из текста, причем упомянутые узлы графа связываются между собой отношениями аналогично связи фрагментов текста, соответствующего упомянутым узлам. В дальнейшем выстроенные узлы графа ранжируются для определения релевантных данных относительно запроса пользователя.
Из заявки WO 2001001289 A1, G06F 17/27, 04.01.2001 (TNV MACHINE CORP INC) известен способ, который заключается в семантической обработке данных, представленных на естественном языке, причем способ включает ввод и хранение пользовательских условий, которые в дальнейшем используются для поиска в массивах данных, содержащих данные на естественном языке, представлений текста, содержащих релевантную пользовательскому вводу информацию, форматирование упомянутых представлений, извлечение из отформатированных представлений текста отношений типа субъект-действие-объект (СДО) и их сохранение в удаленном месте хранения, например базе данных, реструктуризация выявленных СДО в нормализованный вид, назначение частей СДО, таких как действие-объект (ДО) в качестве наименования папок, в которых содержаться части СДО и назначение с указанными папками одного или более идентичных ассоциированных частей субъекта (S1, S2...Sn), которые ассоциированы с соответствующими ДО частями. Способ позволяет также ассоциировать предложения, содержащие соответствующие элементы субъектов S1, S2…Sn, и выделять в них релевантные СДО с их последующей маркировкой на фоне общего массива данных.
Из патента US 8229730 B2, G06F 17/30, 24.07.2012 (MICROSOFT CORP ЕТ AL.) известен способ поиска данных по запросу пользователя, представленного на естественном языке, причем способ заключается в том, что производят парсинг текстового массива данных с назначением грамматических ролей терминам и их последующей индексацией, которые находятся в семантической связи с терминами поискового запроса, причем упомянутые роли содержат доминантную и второстепенные роли, которые выявляются при анализе пользовательского запроса. Данный способ позволяет определять релевантные части документа, содержащие термины с ролями, совпадающими с ролями текста запроса пользователя.
Из заявки EP 2400400 A1, G06F 17/27, 28.12.2011 (TNBENTA PROFESSIONAL SERVICES S L) известен способ семантического поиска релевантной информации, заключающийся в том, что с помощью лексических функций и критерия значения текста в массиве данных, представленных на естественном языке, формируют фразы или выражения, полученные из базы данных содержания, и выбирают ответ, обладающий нависшим показателем семантического соответствия, причем способ заключается в трансформации контентов и запроса самостоятельных слов или групп слов с присвоенными им токенами, которые преобразовываются в семантические представления, тем самым применяя правила критерия значения текста посредством лексических функций, причем каждое из таких семантических представлений состоит из леммы и семантической категории.
Из заявки WO 2010105216 A2, G06F 17/20, 16.09.2010 (INVENTION MACHINE CORP) известен способ маркировки текстовых данных документа, заключающийся в том, что осуществляют лингвистический анализ документа, сравнивают документ после его анализа с шаблоном требуемых семантических отношений между объектами, формируют семантически размеченный текст с помощью применения семантических связей, основанный на лингвистическом анализе текста и сравнения с шаблоном семантических связей, причем семантические метки ассоциированы со словами или фразами предложений текста, и идентифицируют компоненты определенных семантических отношений с последующим сохранением в базе данных семантически размеченного текста для последующего поиска релевантной информации по полученной структуре данных.
Из заявки ЕР 2105847 A1, G06F 17/30, 30.09.2009 (ALCATEL LUCENT) известен способ автоматического формирования онтологии, заключающийся в том, что принимают термин, для которого необходимо сформировать онтологию, определяют значение упомянутого термина с помощью словаря, извлекают подходящие определения для упомянутого термина, определяют значение каждого из извлеченных определений с помощью упомянутого словаря, выполняют построение для каждого из определенных значений термина и каждого подходящего термина для термина начального запроса на создание онтологии, по меньшей мере, один логический пункт, описывающий взаимоотношение между парой упомянутых подходящих терминов, причем упомянутые логические пункты определяют онтологию термина ввода.
Все указанные выше решения не позволяют формировать семантически и логически верно структурированный массив данных из исходного массива данных, содержащего текст, представленный на естественном языке, путем разбиения упомянутого массива на логические разделы, которые подвергаются семантическому разбиению конструкций самих разделов и элементов, входящих в упомянутые разделы, последующий их орфографический и грамматический анализ, и последующую оценку их взаимосвязанности в исходном массиве данных.
Ближайшим аналогом (прототипом) заявленного решения принят способ автоматизированной обработки текста на естественном языке путем его семантической индексации, описанный в патенте RU 2399959 C2, G09B 19/00, 20.09.2010 (ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «АВИКОМП СЕРВИСЕЗ»). Известный способ представляет собой способ, при котором текст сегментируют в электронной форме на элементарные единицы, выявляют устойчивые словосочетания, формируют предложения, выявляют семантически значимые объекты и семантически значимые отношения между ними, формируют для каждого семантически значимого отношения множество триад, в которых единственная триада первого типа соответствует связи, устанавливаемой семантически значимым отношением между двумя семантически значимыми объектами, причем каждая из триад второго типа соответствует значению конкретного атрибута одного из этих семантически значимых объектов, каждая из триад третьего типа соответствует значению конкретного атрибута самого семантически значимого отношения, индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты по отдельности, запоминают в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.
Недостатком данного способа является то, что при формировании упомянутых триад, текст сегментируется непосредственно на элементарные единицы, т.е. слова, а не на логические разделы, при этом данный способ не предусматривает формирования промежуточной структуры исходного текстового массива для ее последующего грамматического и орфографического анализа и не обеспечивает формирование конечной логически, грамматически и орфографически верной структуры данных, пригодной для быстрой и удобной навигации по элементам структуры.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Исходя из этого задачей, на решение которой направлено заявленное изобретение, является обеспечение такой обработки структурированного массива данных, содержащего текст на естественном языке, которая позволила бы генерировать логически, грамматически и орфографически верную преобразованную структуру, содержащую логические конструкции элементов массива и обеспечивающую быструю и удобную навигацию по элементам массива.
Техническим результатом является формирование логически, грамматически и орфографически верной структуры данных, пригодной для быстрой и удобной навигации по элементам структуры.
Заявленный технический результат достигается за счет того, что выполняют способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
Варианты осуществления настоящего изобретения относятся к способу, устройству, системе и машиночитаемому носителю для обеспечения эффективного преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Иллюстративные варианты осуществления настоящего изобретения описываются далее подробно со ссылкой на прилагаемые чертежи, которые включены в данный документ посредством ссылки и на которых:
На фиг.1 изображена общая схема выполнения этапов заявленного способа преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке.
На фиг.2 изображена общая схема этапа формирования первой структуры данных.
На фиг.3 изображена общая структура исходной структуры данных, из которой сформирована первая структура данных.
На фиг.4 изображена общая схема этапа формирования базы данных логических связей логических разделов.
На фиг.5 изображен общий принцип формирования базы данных логических связей логических разделов.
На фиг.6 изображена общая схема этапа формирования второй структуры данных.
На фиг.7 изображена общая структура второй структуры данных.
На фиг.8 изображена общая схема этапа формирования базы данных семантических частей.
На фиг.9 изображен общий принцип формирования базы данных семантических частей.
На фиг.10 изображена общая схема этапа формирования грамматически и орфографически верных семантических частей.
На фиг.11 изображена общая схема второй структуры данных, полученной после выполнения этапа формирования грамматически и орфографически верных семантических частей.
На фиг.12 изображена общая схема этапа формирования итоговой структуры данных.
На фиг.13 изображена общая схема итоговой структуры данных.
На фиг.14 изображена общая структура элементов итоговой структуры данных.
На фиг.15 изображена общая схема системы преобразования структурированного массива данных, содержащей устройство преобразования структурированного массива данных.
ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Далее приводятся варианты осуществления настоящего изобретения, раскрывающие примеры его реализации в частных исполнениях. Тем не менее само описание не предназначено для ограничения объема прав, предоставляемых данным патентом. Скорее следует исходить из того, что заявленное изобретение также может быть осуществлено другими способами таким образом, что будет включать в себя отличающиеся этапы или комбинации этапов, аналогичных этапам, описанным в данном документе, в сочетании с другими существующими и будущими технологиями.
Заявленный способ будет рассмотрен на примере обработки структурированного массива данных, содержащего текст на естественном языке, представляющего собой, не ограничиваясь, нормативно-правовые акты (НПА). Для специалиста должно быть очевидно, что, несмотря на то что в данном конкретном примере реализации настоящего изобретения осуществляется преобразование НПА, такой способ преобразования может быть применен в отношении любого структурированного массива данных, схожего с НПА.
НПА - это документ, характеризующийся следующими признаками:
1) НПА имеют правотворческий характер: в них нормы права либо устанавливаются, либо изменяются, либо отменяются. Нормативные правовые акты - это носители правовых норм;
2) НПА содержит правовые инструменты, с помощью которых осуществляется правовое регулирующее воздействие.
3) НПА издается только в пределах компетенции правотворческого органа;
4) НПА облекается в документальную форму и имеет следующие реквизиты: вид нормативного акта, его наименование, орган, его принявший, дату, место принятия акта, номер;
5) НПА не является хаотичным набором положений (предложений), а имеет определенную структуру;
6) НПА должен соответствовать конституции или иному вышестоящему НПА, имеющему большую юридическую силу.
7) НПА обязательно подлежит доведению до сведения граждан и организаций, т.е. опубликованию, и лишь только после этого государство имеет право требовать его неукоснительного исполнения исходя из презумпции знания закона и налагать санкции за его неисполнение.
Необходимо отметить, что под термином «структурированный массив данных» в рамках заявленного изобретения может рассматриваться не только совокупность НПА, но и отдельный самостоятельный НПА, представляющий собой, например: Конституцию, закон, указ, постановление и т.п. Отдельный НПА может состоять, например, из частей, глав, разделов, статей. При этом инструментом правового регулирующего воздействия НПА является юридическое правило, обличенное в структуру нормативного предписания, которое, в свою очередь, является элементом (частью) нормы права (правовой нормы).
В первом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
А) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
В) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
Во втором варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
А) идентифицируют исходную структуру данных структурированного массива данных; идентифицируют элементы исходной структуры данных; идентифицируют первые логические разделы упомянутых элементов исходной структуры данных и вторые логические разделы упомянутых элементов исходной структуры данных; и формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
В) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
В третьем варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) идентифицируют элементы первой структуры данных, содержащие один упомянутый первый логический раздел, и элементы первой структуры данных, содержащие один упомянутый второй логический раздел; идентифицируют элементы первой структуры данных, содержащие более одного упомянутого первого логического раздела, и элементы первой структуры данных, содержащие более одного упомянутого второго логического раздела; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют логические связи между упомянутыми первыми логическими разделами или между упомянутыми вторыми логическими разделами; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют элементы первой структуры данных, не имеющие логической связи между логическими разделами; и формируют базу данных логических связей логических разделов элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
В четвертом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
А) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
В) формируют логические конструкции логических разделов элементов первой структуры данных, используя информацию из базы данных логических связей логических разделов элементов первой структуры данных и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый первый логический раздел, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый второй логический раздел; и формируют вторую структуру данных, содержащую элементы второй структуры данных, причем упомянутые элементы второй структуры данных представляют собой сформированные логические конструкции логических разделов первой структуры данных;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
В пятом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) идентифицируют первые логические разделы элементов второй структуры данных и вторые логические разделы элементов второй структуры данных; в упомянутых первых логических разделах и вторых логических разделах элементов второй структуры данных идентифицируют первые семантические части и вторые семантические части; и в упомянутых первых и вторых логических разделах элементов второй структуры данных идентифицируют, по меньшей мере, особые семантические части первых логических разделов элементов второй структуры данных и особые семантические части вторых логических разделов элементов второй структуры данных и формируют базу данных особых семантических частей логических разделов элементов второй структуры данных путем перемещения упомянутых особых семантических частей в упомянутую формируемую базу данных особых семантических частей логических разделов элементов второй структуры данных;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
В шестом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) в упомянутых вторых семантических частях упомянутых вторых логических разделов элементов второй структуры данных идентифицируют, по меньшей мере, уточняющие структуры вторых семантических частей вторых логических разделов; и осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей упомянутых первых и вторых логических разделов, для формирования грамматически и орфографически верных семантических частей логических разделов элементов второй структуры данных;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
В седьмом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов третьей структуры данных; и формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных.
В восьмом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов третьей структуры данных; и формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных; причем упомянутые логические конструкции из упомянутой итоговой структуры данных дополнительно могут содержать упомянутые сформированные смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных.
В девятом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
А) идентифицируют исходную структуру данных структурированного массива данных; идентифицируют элементы исходной структуры данных; идентифицируют первые логические разделы упомянутых элементов исходной структуры данных и вторые логические разделы упомянутых элементов исходной структуры данных; и формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) идентифицируют элементы первой структуры данных, содержащие один упомянутый первый логический раздел, и элементы первой структуры данных, содержащие один упомянутый второй логический раздел; идентифицируют элементы первой структуры данных, содержащие более одного упомянутого первого логического раздела, и элементы первой структуры данных, содержащие более одного упомянутого второго логического раздела; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют логические связи между упомянутыми первыми логическими разделами или между упомянутыми вторыми логическими разделами; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют элементы первой структуры данных, не имеющие логической связи между логическими разделами; и формируют базу данных логических связей логических разделов элементов первой структуры данных;
В) формируют логические конструкции логических разделов элементов первой структуры данных, используя информацию из базы данных логических связей логических разделов элементов первой структуры данных, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый первый логический раздел, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый второй логический раздел; и формируют вторую структуру данных, содержащую элементы второй структуры данных, причем упомянутые элементы второй структуры данных представляют собой сформированные логические конструкции логических разделов первой структуры данных;
Г) идентифицируют первые логические разделы элементов второй структуры данных и вторые логические разделы элементов второй структуры данных; в упомянутых первых логических разделах и вторых логических разделах элементов второй структуры данных идентифицируют первые семантические части и вторые семантические части; и в упомянутых первых и вторых логических разделах элементов второй структуры данных идентифицируют, по меньшей мере, особые семантические части первых логических разделов элементов второй структуры данных и особые семантические части вторых логических разделов элементов второй структуры данных и формируют базу данных особых семантических частей логических разделов элементов второй структуры данных путем перемещения упомянутых особых семантических частей в упомянутую формируемую базу данных особых семантических частей логических разделов элементов второй структуры данных;
Д) в упомянутых вторых семантических частях упомянутых вторых логических разделов элементов второй структуры данных идентифицируют, по меньшей мере, уточняющие структуры вторых семантических частей вторых логических разделов; и осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей упомянутых первых и вторых логических разделов, для формирования грамматически и орфографически верных семантических частей логических разделов элементов второй структуры данных;
Е) формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов третьей структуры данных; и формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных.
В десятом варианте осуществления настоящего изобретения обеспечивается способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
А) идентифицируют исходную структуру данных структурированного массива данных; идентифицируют элементы исходной структуры данных; идентифицируют первые логические разделы упомянутых элементов исходной структуры данных и вторые логические разделы упомянутых элементов исходной структуры данных; и формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) идентифицируют элементы первой структуры данных, содержащие один упомянутый первый логический раздел, и элементы первой структуры данных, содержащие один упомянутый второй логический раздел; идентифицируют элементы первой структуры данных, содержащие более одного упомянутого первого логического раздела, и элементы первой структуры данных, содержащие более одного упомянутого второго логического раздела; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют логические связи между упомянутыми первыми логическими разделами или между упомянутыми вторыми логическими разделами; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют элементы первой структуры данных, не имеющие логической связи между логическими разделами; и формируют базу данных логических связей логических разделов элементов первой структуры данных;
В) формируют логические конструкции логических разделов элементов первой структуры данных, используя информацию из базы данных логических связей логических разделов элементов первой структуры данных и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый первый логический раздел, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый второй логический раздел; и формируют вторую структуру данных, содержащую элементы второй структуры данных, причем упомянутые элементы второй структуры данных представляют собой сформированные логические конструкции логических разделов первой структуры данных;
Г) идентифицируют первые логические разделы элементов второй структуры данных и вторые логические разделы элементов второй структуры данных; в упомянутых первых логических разделах и вторых логических разделах элементов второй структуры данных идентифицируют первые семантические части и вторые семантические части; и в упомянутых первых и вторых логических разделах элементов второй структуры данных идентифицируют, по меньшей мере, особые семантические части первых логических разделов элементов второй структуры данных и особые семантические части вторых логических разделов элементов второй структуры данных и формируют базу данных особых семантических частей логических разделов элементов второй структуры данных путем перемещения упомянутых особых семантических частей в упомянутую формируемую базу данных особых семантических частей логических разделов элементов второй структуры данных;
Д) в упомянутых вторых семантических частях упомянутых вторых логических разделов элементов второй структуры данных идентифицируют, по меньшей мере, уточняющие структуры вторых семантических частей вторых логических разделов; и осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей упомянутых первых и вторых логических разделов, для формирования грамматически и орфографически верных семантических частей логических разделов элементов второй структуры данных;
Е) формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов третьей структуры данных; и формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных; причем упомянутые логические конструкции из упомянутой итоговой структуры данных дополнительно могут содержать упомянутые сформированные смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных.
При этом для специалиста в области техники, к которой относится настоящее изобретение, должно быть очевидным, что варианты осуществления изобретения со второго по десятый характеризуют уточненные этапы способа, охарактеризованного первым вариантом осуществления изобретения, и иные варианты осуществления изобретения могут быть реализованы, причем такие иные варианты осуществления изобретения будут включать различные комбинации уточненных этапов способа.
В одиннадцатом варианте осуществления настоящего изобретения обеспечивается устройство преобразования структурированного массива данных, содержащее, по меньшей мере:
один или более процессоров;
один или более модулей ввода/вывода (I/O); и
память, содержащую код программы, который при выполнении побуждает упомянутые один или более процессоры упомянутого устройства и/или устройства, связанного с упомянутым устройством, выполнять действия способа по любому из вариантов осуществления настоящего изобретения с первого по десятый, и содержащую подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке.
В двенадцатом варианте осуществления настоящего изобретения обеспечивается устройство преобразования структурированного массива данных, содержащее, по меньшей мере:
один или более процессоров;
один или более модулей ввода/вывода (I/O); и
память, содержащую код программы, который при выполнении побуждает упомянутые один или более процессоры упомянутого устройства и/или устройства, связанного с упомянутым устройством, выполнять действия способа по любому из вариантов осуществления настоящего изобретения с первого по десятый, и содержащую подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке, причем упомянутые подлежащие преобразованию один или несколько структурированных массивов данных являются загружаемыми, а упомянутое устройство выполнено с возможностью соединения с базой данных, в которой хранятся упомянутые загружаемые подлежащие преобразованию один или несколько структурированных массивов данных, для осуществления загрузки в упомянутую память устройства, по меньшей мере, одного загружаемого подлежащего преобразованию структурированного массива данных.
В тринадцатом варианте осуществления настоящего изобретения обеспечивается система преобразования структурированного массива данных, содержащая, по меньшей мере:
одно или более устройств, выполненных в виде устройств по любому из одиннадцатого или двенадцатого вариантов осуществления настоящего изобретения;
один или несколько серверов, обеспечивающих регулирование обменом данных в системе;
одну или несколько баз данных, предназначенных для хранения данных, выполненных с возможностью взаимодействия с упомянутыми одним или более устройствами;
одну или более сетей передачи данных, через которые осуществляется взаимодействие упомянутых устройств, серверов и баз данных.
В четырнадцатом варианте осуществления настоящего изобретения обеспечивается система преобразования структурированного массива данных, содержащая, по меньшей мере:
одно или более устройств, выполненных в виде устройств по любому из одиннадцатого или двенадцатого вариантов осуществления настоящего изобретения;
один или несколько серверов, обеспечивающих регулирование обменом данных в системе;
одну или несколько баз данных, предназначенных для хранения данных, выполненных с возможностью взаимодействия с упомянутыми одним или более устройствами;
одну или более сетей передачи данных, через которые осуществляется взаимодействие упомянутых устройств, серверов и баз данных; причем
способ по любому из вариантов осуществления настоящего изобретения с первого по десятый осуществляется одним или более упомянутыми серверами, а упомянутые устройства представляют собой тонкий клиент.
В пятнадцатом варианте осуществления настоящего изобретения обеспечивается система преобразования структурированного массива данных, содержащая, по меньшей мере:
одно или более устройств, выполненных в виде устройств по любому из одиннадцатого или двенадцатого вариантов осуществления настоящего изобретения;
один или несколько серверов, обеспечивающих регулирование обменом данных в системе;
одну или несколько баз данных, предназначенных для хранения данных, выполненных с возможностью взаимодействия с упомянутыми одним или более устройствами;
одну или более сетей передачи данных, через которые осуществляется взаимодействие упомянутых устройств, серверов и баз данных; причем
способ по любому из вариантов осуществления настоящего изобретения с первого по десятый осуществляется одним или более упомянутыми серверами, а упомянутые устройства представляют собой тонкий клиент; причем
упомянутая база данных служит для хранения данных, представляющих собой, по меньшей мере, одно из: код программы, который при выполнении побуждает упомянутые один или более процессоры упомянутого устройства и/или устройства, связанного с упомянутым устройством, выполнять действия способа по любому из вариантов осуществления настоящего изобретения с первого по десятый, подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке.
В шестнадцатом варианте осуществления настоящего изобретения обеспечивается система по любому из вариантов осуществления настоящего изобретения с тринадцатого по пятнадцатый, причем упомянутая сеть передачи данных представляет собой одно из локальная сеть (LAN), глобальная сеть (WAN), информационно-телекоммуникационная сеть Интернет, виртуальная частная сеть (VPN).
В семнадцатом варианте осуществления настоящего изобретения обеспечивается машиночитаемый носитель данных, содержащий код программы, который при выполнении побуждает процессор или процессоры устройства, с которым взаимодействует машиночитаемый носитель данных, выполнять действия способа по любому из вариантов осуществления настоящего изобретения с первого по десятый.
ДЕТАЛЬНОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Описанные в данном разделе возможные осуществления вариантов настоящего изобретения представлены на неограничивающих объем правовой охраны примерах, применительно к конкретным вариантам осуществления настоящего изобретения, которые во всех их аспектах предполагаются иллюстративными и не накладывающими ограничения. Альтернативные варианты реализации настоящего изобретения, не выходящие за пределы объема его правовой охраны, являются очевидными специалистам в данной области, имеющим обычную квалификацию, на которых это изобретение рассчитано.
На фиг.1 в качестве примера, но не ограничения, изображена общая схема выполнения этапов заявленного способа 100 преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке. Заявленный способ 100 преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, характеризуется выполнением этапа 101 формирования первой структуры данных, на котором формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы; выполнением этапа 102 формирования базы данных логических связей логических разделов, на котором формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных; выполнением этапа 103 формирования второй структуры данных, на котором формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части; выполнением этапа 104 формирования базы данных семантических частей логических разделов, на котором формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов; выполнением этапа 105 формирования грамматически и орфографически верных семантических частей, на котором формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями; и выполнением этапа 106 формирования итоговой структуры данных, на котором формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
На фиг.2 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 101 формирования первой структуры данных. Этап 101 характеризуется выполнением этапа 1011 идентификации исходной структуры, на котором идентифицируют исходную структуру данных 1 структурированного массива данных; выполнением этапа 1012 идентификации элементов, на котором идентифицируют элементы 11 исходной структуры данных 1; выполнением этапа 1013 идентификации логических разделов, на котором идентифицируют первые логические разделы 111 элементов 11 исходной структуры данных 1 и вторые логические разделы 112 элементов 11 исходной структуры данных 1; и выполнением этапа 1013 формирования первой структуры данных, на котором формируют первую структуру данных 2 структурированного массива данных, содержащую элементы 21 первой структуры данных, которые являются элементами 11 исходной структуры данных 1, причем элементы 21 первой структуры данных 2 содержат первые логические разделы 111 элементов 11 исходной структуры данных 1, и содержащую элементы 22 первой структуры данных, причем элементы 22 первой структуры данных 2 содержат вторые логические разделы 112, элементов 11 исходной структуры данных 1.
На фиг.3 в качестве примера, но не ограничения, изображена общая структура исходной структуры данных 1, из которой формируется первая структура данных 2. Исходная структура данных 1 представляет собой структурированный массив данных, содержащий, по меньшей мере, текст на естественном языке. Как уже упоминалось выше, такой массив данных может представлять собой, в частности, нормативно-правовой акт (НПА). Исходная структура данных 1 содержит элементы 11, которые представляют собой положения, являющиеся предложениями - грамматически организованными соединениями слов. При этом каждое предложение характеризуется смысловой законченностью. Идентификация предложений на этапе 1012 идентификации элементов производится путем выявления в тексте на естественном языке признаков окончания предложения. Признаками окончания предложения при этом являются: точка, точка с запятой, многоточие и т.п. Идентификация предложений осуществляется в совокупности с выявлением признаков начала предложения. Признаками начала предложения являются: заглавная буква, цифра, цифра с закрывающей скобкой, цифра с точкой и т.п. При этом при идентификации также учитывается наличие определенных сочетаний знаков препинаний, а именно знаков пунктуации - точки, запятой, скобки, двоеточия и т.п., - словоразделителей, а именно - пробела и т.п., - и типографики - абзаца, номера, градуса и т.п. На этапе 1012 идентификации элементов осуществляется выявление элементарных смысловых единиц - предложений, являющихся суждениями. Простое суждение - это суждение, никакая часть которого не является суждением. Языковой формой выражения суждения являются повествовательные предложения. Идентификация элементов 11 исходной структуры данных 1 осуществляется путем выявления и дефрагментации предложения на первичные составляющие предложения, а именно - на слова, частицы, союзы, предлоги и т.п., и знаки препинания. После чего из первичных элементов формируются понятия, выраженные в отдельных словах и/или словосочетаниях на основании различных справочников и словарей. Затем из сформированных понятий формируются простые суждения, которые представляют собой группы взаимосвязанных понятий, при этом взаимосвязанность понятий определяется на основании синтаксических или иных связей между понятиями. Для формирования простых суждений осуществляется лингвистическо-семантический анализ элементов 11 исходной структуры данных 1, посредством чего в элементах 11 осуществляется выявление структурных элементов простых суждений. Под структурными элементами простых суждений понимаются субъект суждения, предикат суждения, связка и кванторное слово. Субъектом суждения (S) является понятие, выражающее предмет суждения, т.е. то, о чем говорится в данном суждении. Предикатом суждения (Р) является понятие, выражающее ту или иную информацию о предмете суждения. Субъект суждения и предикат суждения - основные структурные элементы суждения, являющиеся терминами суждения. Связь между субъектом суждения и предикатом суждения, отражающая реальные отношения между мыслимыми в понятиях объектами, раскрывается посредством логической связки. В русском языке связка выражается словами: «есть» («не есть»), «является» («не является»), «имеется» («не имеется») и т.д., обозначается тире, двоеточием, а также может подразумеваться, выражаясь согласованием слов («Идет дождь», «Собака лает»). Связка - это логическая постоянная, поскольку в ней заключено неизменное содержание - она всякий раз служит показателем наличия или отсутствия чего-либо у предмета мысли. «Кванторное слово» (например, «каждый», «все», «ни один», «некоторый» и т.д.) указывает, относится ли информация о предикате суждения ко всему объему понятия, выражающему субъект суждения, или к его части. Например, в суждении «Всякое преступление - противоправное деяние» субъектом суждения является понятие «преступление», предикатом суждения - «противоправное деяние», - связка выражена знаком тире, а кванторное слово «всякое» указывает на то, что характеристика «противоправное деяние» относится ко всему объему (к каждому элементу) понятия «преступление». В самом общем виде простое суждение можно выразить формулой: «S есть (не есть) P». Таким образом, в результате идентификации исходной структуры данных 1 элементы 11 разделяются на то количество суждений, которое в них заложено, т.е. число суждений равно количеству логических разделов в предложении. Далее осуществляется идентификация первых логических разделов 111 и вторых логических разделов 112 элементов 11 исходной структуры данных 1. Идентификация осуществляется на основании результатов идентификации выявленных суждений, определенных как сложные суждения. Сложные суждения - это группа простых суждений, в которых присутствует связь между отдельными суждениями, установленная с помощью логических союзов «и», «или», «если…, то…», «тогда и только тогда…, когда», «неверно, что…». Виды связей между отдельными суждениями выражаются соответствующими логическими связками и приведены в Таблице 1.
Характер связи определяется смыслом логических союзов, который состоит в ответе на вопрос: «При каких условиях сложное суждение будет истинно, а при каких - ложно?». Иначе говоря - при каких сочетаниях истинности и ложности простых суждений, из которых состоит сложное суждение, логический союз определяет истинную связь, а при каких - ложную. Суждение рассматривается как истинное, если даваемое им описание соответствует действительности (реальной ситуации), и как ложное, если не соответствует ей. «Истина» и «ложь» называются истинностными значениями суждения и являются основной логической характеристикой суждений. Смысл логических союзов можно определить с помощью истинностной таблицы (Таблица 2), в которой в столбцах 1 и 2 содержатся все возможные комбинации истинностных значений простых суждений, а в столбцах 3-9 содержатся значения сложного суждения, образованного из простых суждений с помощью соответствующего логического союза. При этом исходные простые суждения обозначают буквами «А», «В», а значения истинности символами: «и» - истинно, «л» - ложно.
Для выявления первых логических разделов 111 и вторых логических разделов 112 элементов 11 упомянутой исходной структуры данных 1 необходимо в предложениях текста выявить простые суждения, имеющие между собой импликативную (условную) логическую связь и взаимную (двойную) импликативную (условную) связь. Условное суждение (импликативное суждение) - это сложное суждение, в котором простые суждения объединяются логическим союзом «если…, то…». Например: «Если гражданин нарушает закон, то это порождает ответственность за нарушение» или «Если число делится на 2 без остатка, то оно четное». Условное суждение состоит из двух составляющих его видов суждений. Суждение, записанное после слова «если», называется основанием (предыдущим). Суждение, записанное после слова «то» называется следствием (последующим). Формула условного суждения может быть представлена как «A→B», где A - основание, B - следствие. При этом основания и следствия сами по себе могут быть как простыми суждениями, так и сложными суждениями. Образованное из предыдущего и последующего суждений условное суждение, прежде всего, подразумевает, что не может быть так, чтобы то, о чем говорится в основании, имело место, а то, о чем говорится в следствии - отсутствовало. Иными словами, если основание будет истинным, а следствие - ложным, то такое условное суждение будет ложным. Это условие определяет то, что условное суждение истинно во всех случаях, кроме одного: когда предшествующее есть, а последующего нет, т.е. - суждение по формуле «A→B» - ложно только в одном случае, когда A - истинно, а B - ложно (см. таблицу 2, столбец 6). В форме условных суждений могут быть выражены как объективные зависимости одних объектов от других, так и права и обязанности субъектов правоотношений, связанные с теми или иными условиями. Эквивалентное суждение (двойная импликация) - это сложное суждение, в котором объединяются суждения с взаимной условной зависимостью. Эквивалентные суждения образуются с помощью логического союза «если и только если…, то…», который обозначается символом «↔». Формула эквивалентности: «A↔B», где A, B - суждения, из которых образуется эквивалентное суждение, например: «Человек имеет право на пенсию по возрасту, если и только если он достиг пенсионного возраста». В естественном языке, в том числе, в экономических и юридических текстах, для выражения эквивалентных суждений используются грамматические союзы: «лишь при условии, что…, то…», «только тогда, когда…, то…», «в том и только в том случае, когда…, тогда…». Условия истинности эквивалентных суждений представлены в столбце 7 таблицы 2. Эквивалентное суждение истинно в двух случаях - когда оба составляющих его суждения истинны или, когда оба ложны. Иными словами, связь между элементами эквивалентного суждения можно охарактеризовать как необходимую: «истинность A достаточна для признания истинности B и наоборот» и «ложность A служит показателем ложности B и наоборот». По причине того, что в двойных импликативных суждениях отсутствуют четко выраженные основания и следствия, главным фактором в идентификации первых и вторых логических разделов 111, 112 является наличие в суждениях, находящихся во взаимной импликативной зависимости признаков юридического факта. На примере упомянутого импликативного суждения «Человек имеет право на пенсию по возрасту, если и только если он достиг пенсионного возраста» можно установить, что суждение «Человек имеет право на пенсию по возрасту» не содержит таких признаков, а суждение «если и только если он достиг пенсионного возраста» имеет признак юридического факта, которым является событие - «достижение пенсионного возраста». Таким образом, именно суждение, содержащее признаки юридического факта, признается для целей идентификации основанием (А). Другое суждение признается следствием (В). Термин «юридический факт» означает определенное жизненное обстоятельство, с которым норма права связывает возникновение, изменение или прекращение правоотношения или правоотношений. Если предложение содержит одно простое суждение (или несколько простых суждений) или одно сложное суждение (или несколько сложных суждений), которое не идентифицировано как условное суждение, то в результате лингвистическо-семантического анализа текста, «окружающего» такое предложение, может быть выявлен фактический контекстный вид данного простого суждения - первый логический раздел 111 или второй логический раздел 112. Формируемая на этапе 101 первая структура данных 2 содержит такие элементы, как предложения (элемент 11 исходной структуры данных 1) и суждения логические разделы 111 или 112 элементов 11 исходной структуры данных 1. При этом суждения дополнительно идентифицированы по упомянутой логической связи как основания, т.е. как первый логический раздел 111 элемента исходной структуры данных 11, имеющий логическую связь 1-го типа и являющийся суждением «A», и как следствия, т.е. как второй логический раздел 112 элемента 11 исходной структуры данных 1, имеющий логическую связь 1-го типа и являющийся суждением «B». В первой структуре данных 2 все элементы исходной структуры данных 1 сепарированы по признаку наличия в них упомянутых первых логических разделов 111 или вторых логических разделов 112 исходной структуры данных 1, за счет чего сформированы элементы 21 первой структуры данных 2, имеющие первые логические разделы 111, и элементы 22 первой структуры данных 2, имеющие вторые логические разделы 112.
На фиг.4 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 102 формирования базы данных 3 логических связей логических разделов. Этап 102 формирования базы данных 3 логических связей логических разделов характеризуется выполнением этапа 1021 идентификации элементов первой структуры данных 2, на котором идентифицируют элементы 21 первой структуры данных 2, содержащие один упомянутый первый логический раздел 111, представляющие собой элементы 31 первой структуры данных 2, и элементы 22 первой структуры данных 2, содержащие один упомянутый второй логический раздел 112, представляющие собой элементы 32 первой структуры данных 2; выполнением этапа 1022 идентификации элементов первой структуры данных 2, на котором идентифицируют элементы 21 первой структуры данных, содержащие более одного упомянутого первого логического раздела 111, представляющие собой элементы 33 первой структуры данных 2 и элементы 22 первой структуры данных, содержащие более одного упомянутого второго логического раздела, представляющие собой элементы 34 первой структуры данных 2; выполнением этапа 1023 идентификации логических связей, на котором среди элементов 33 первой структуры данных 2, содержащих более одного упомянутого первого логического раздела 111 и элементов 34 первой структуры данных 2, содержащих более одного упомянутого второго логического раздела 112, идентифицируют логические связи между упомянутыми первыми логическими разделами 111 или логические связи между упомянутыми вторыми логическими разделами 112; выполнением этапа 1024 идентификации отсутствия логических связей, на котором среди элементов 33 первой структуры данных 2, содержащих более одного упомянутого первого логического раздела 111, и среди элементов 34 первой структуры данных 2, содержащих более одного упомянутого второго логического раздела 112, идентифицируют элементы 35 первой структуры данных 2, не имеющие логических связей между своими логическими разделами; и выполнением этапа 1025 формирования базы данных, на котором формируют базу данных 3 логических связей логических разделов элементов первой структуры данных. Для уточнения всех дополнительных (не только импликативных) имеющихся логических связей между логическими разделами (суждениями) все элементы первой структуры данных 2, а именно массивы элементов 21 предложений, содержащих первые логические разделы 111, и элементов 22 предложений, содержащих вторые логические разделы 112, необходимо сепарировать на группы элементов 31, 33 и 32, 34, содержащих либо только первые логические разделы 111, либо только вторые логические разделы 112, соответственно. При этом каждый элемент, входящий в массивы элементов 31, 33, содержащий первый логический раздел 111, идентифицируется как элемент 31, имеющий только один логический раздел 111, или как элемент 33, имеющий более одного логического раздела 111. При этом в случае наличия в идентифицированных элементах 31, 33 вторых логических разделов 112, вторые логические разделы 112 удаляются из идентифицированных элементов 31, 33. Полученные в итоге массивы элементов 31, 33 по-прежнему связаны с тем элементом, из которого они выделены и по этому основанию идентифицированы как отдельные элементы данного массива элементов. В свою очередь, каждый элемент, входящий в массивы элементов 32, 34, содержащий второй логический раздел 112, идентифицируется как элемент 32, имеющий только один логический раздел 112, или как элемент 34, имеющий более одного логического раздела 112. При этом в случае наличия в идентифицированных элементах 32, 34 первых логических разделов 111, первые логические разделы 111 удаляются из идентифицированных элементов 32, 34. Полученные в итоге массивы элементов 32, 34 по-прежнему связаны с тем элементом, из которого они выделены и по этому основанию идентифицированы как отдельные элементы данного массива элементов. Далее устанавливается характер логических связей между однотипными суждениями в элементах двух созданных массивов элементов 31, 33 и элементов 32, 34. В однотипных элементах массивов элементов 33, 34 выявляются логические связи между суждениями, указанные в таблицах 1 и 2, а именно - соединительные связи (конъюнкция), разделительные связи (дизъюнкция, строгая дизъюнкция), эквивалентные связи (эквиваленция). Конъюнктивное (соединительное) суждение - это сложное суждение, образованное из исходных суждений посредством логического союза «и», обозначаемого символом «∧». Например, суждение: «Сегодня я пойду на лекцию по логике и в кино», - является «конъюнктивным суждением», состоящим из двух простых суждений (обозначим их A и B, соответственно) - «Сегодня я пойду на лекцию по логике» (А), «Сегодня я пойду в кино» (В). Данное сложное суждение можно представить формулой: «A∧B», где A, B - элементы конъюнкции; «∧» - символ логического союза - конъюнкция. В русском языке конъюнктивный логический союз выражается многими грамматическими союзами: «и», «а», «но», «да», «хотя», «однако», «а также…». Нередко подобные грамматические союзы заменяются знаками препинания - запятой, двоеточием, точкой с запятой. Дизъюнктивное (разделительное) суждение - это сложное суждение, образованное из «исходных» суждений посредством логического союза «или», обозначаемого символом «V». Например, суждение: «Право может способствовать экономическому развитию или препятствовать ему», - является дизъюнктивным суждением, состоящим из двух простых суждений: «Право может способствовать экономическому развитию» и «Право может препятствовать экономическому развитию». Соответственно, обозначив их через буквы A, B, такое суждение можно представить через формулу: «A V B». Поскольку связка «или» употребляется в двух разных значениях - неисключающем и исключающем, то различают слабую и сильную (строгую) дизъюнкции. Слабая дизъюнкция является истинной в тех случаях, когда истинно, по крайней мере, одно из составляющих ее суждений (или оба вместе) и ложна, когда оба составляющих ее суждения ложны (см. таблицу 2, столбец 4). Сильная дизъюнкция (символ «VV») отличается от слабой дизъюнкции тем, что ее составляющие исключают друг друга. Например, «Преступление может быть умышленным или по неосторожности». Для того, чтобы подчеркнуть строго разделительный, исключающий характер связи, в естественном языке используется усиленная двойная форма разделения: «…либо…, либо…», «…или…, или…», например: «Либо я найду путь, либо я проложу его». Строгая дизъюнкция истинна лишь тогда, когда одно из составляющих ее суждений истинно, а другое - ложно (см. таблицу 2, столбец 5). В результате выявляются все логические связи между элементами (суждениями) массивов элементов 33, 34. При этом допускается, что часть элементов данных массивов может не иметь логических связей друг с другом. Далее для уточнения вида суждений, которые не были до сих пор идентифицированы как сложные суждения, элементы массивов элементов должны быть подвергнуты идентификации на их соответствие отрицаемому суждению. Этому анализу должны быть подвергнуты массивы элементов 31, 32 и, частично, массивы элементов 33, 34, в которых остались суждения, не имеющие логических связей с другими суждениями. Отрицаемое суждение - это сложное суждение, образованное с помощью логического союза «неверно, что…» (или просто «не»), который, как правило, представлен знаком отрицания (символ «~»). В отличие от упомянутых выше бинарных союзов, такой союз относится к одному суждению. Прибавление этого союза к какому-либо суждению означает образование нового суждения, которое находится в определенной зависимости от исходного суждения - отрицаемое суждение истинно, если исходное суждение ложно, и наоборот (см. таблицу 2, столбцы 8, 9). Например, если исходное суждение: «Все свидетели правдивы», - то отрицаемое: «Неверно, что все свидетели правдивы». Если отдельный логический раздел (простое суждение) остается не идентифицированным с точки зрения логического характера суждения, то в результате лингвистическо-семантического анализа текста, окружающего предложения, в котором содержится такой раздел, может быть выявлен фактический контекстный вид данного простого суждения. Таким образом, первая структура данных содержит логические разделы предложений, формирующих исходную структуру данных. По итогам идентификации всех элементов первой структуры данных выявляются все логические разделы предложений (суждения), с точки зрения их наличия и характера связей суждений, формирующих сложные суждения. На основании выявленных характеров связей суждений (в том числе их отсутствия) формируется база данных 3 логических связей логических разделов (фиг.5).
На фиг.6 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 103 формирования второй структуры данных 4. Этап 103 формирования второй структуры данных 4 характеризуется выполнением этапа 1031 формирования логических конструкций, на котором формируют логические конструкции 41 логических разделов 111, 112 элементов 31, 32, 33, 34 первой структуры данных 2, используя информацию из базы данных 3 логических связей логических разделов элементов 31, 32, 33, 34 первой структуры данных 2 и логические разделы упомянутых элементов 31 первой структуры данных 2, содержащих один упомянутый первый логический раздел 111, и логические разделы упомянутых элементов 32 первой структуры данных 2, содержащих один упомянутый второй логический раздел 112; и выполнением этапа 1032 формирования второй структуры данных 4, на котором формируют вторую структуру данных 4, содержащую элементы 41 второй структуры данных 4, причем упомянутые элементы второй структуры данных 4 представляют собой сформированные логические конструкции 41 логических разделов 111, 112 элементов 31, 32, 33, 34 первой структуры данных 2. Логические конструкции 42 - это результат преобразования данных преобразуемого структурированного массива данных. Логические конструкции 41 формируются в соответствии со спецификой преобразуемого текста на естественном языке, в частности НПА. Специфика НПА состоит в том, что он содержит нормы права (правовые нормы). Также специфика НПА состоит в том, что в теории нормы права существуют понятия логической нормы права и юридической нормы права. Эти понятия не тождественны. Разница заключается в том, что логическая норма права включает в себя содержание всех элементов нормы права, установленных в юридической науке, включая гипотезу, диспозицию и санкцию, а юридическая норма права отражает конкретные нормативные предписания, содержащиеся в конкретных предложениях конкретных НПА. Фактически разница состоит в том, что одна конкретная логическая норма права может содержаться в конкретном множестве юридических норм права, т.е. в множестве нормативных предписаний. Логическая конструкция - это основа (каркас) основного нормативного предписания, содержащая два основных элемента конструкции, - «ситуацию» и «правило» (см. табл.3). Основное нормативное предписание (далее - нормативное предписание) является инструментом правового регулирования и включает в себя регулятивные и охранительные нормативные предписания. При этом под ситуацией в нормативных предписаниях понимается любая обусловленность правила, а под правилом понимаются любые правила, включая правила (модель) поведения субъектов правоотношений. Иными словами, ситуация - это суждения, имеющие логическую импликативную связь и являющиеся основаниями, а правила - это суждения, имеющие логическую импликативную связь и являющиеся следствиями. При формировании логических конструкций 41, т.е. нормативных предписаний, также необходимо учитывать, что каждый из элементов этой конструкции (и ситуация и правило) могут состоять как из одного суждения, так и из группы суждений. Для формирования логических конструкций необходимо использовать Базу данных логических связей логических разделов. Кроме выявленных логических связей между логическими разделами для формирования логической конструкции необходимо обратиться к правилам формирования логических конструкций. Правила формирования логических конструкций отражают требования юридической науки и юридической практики в отношении состава и структуры нормативного предписания (предписания). Например, условие того, что одно предписание не может содержать двух разных правил, приводит к тому, что в правилах устанавливается, что если в одном предложении содержатся два следствия, которые имеют логически слабую дизъюнктивную связь, то это значит, что эти суждения входят в разные правила и соответственно разные предписания. При этом если эти же два следствия имеют логически сильную дизъюнктивную связь, то это их объединяет в рамках одного сложного правила в рамках одного предписания. По существу, правила формирования логических конструкций 42 сводятся к допустимым сочетаниям логических связей между однотипными суждениями в рамках одного нормативного предписания.
При этом если в предложении имеются несколько ситуаций, объединенных логикой «ИЛИ» (слабая дизъюнктивная связь), то это означает, что каждая из таких ситуаций формирует собственные отдельные предписания с теми же правилами, которые использовались в первом предписании. Это означает, что несколько ситуаций с такой логикой «ИЛИ» не могут быть в одном предписании. Кроме того, в предложении имеются несколько правил, объединенных логикой «ИЛИ» (слабая дизъюнктивная связь). Это означает, что каждое из таких правил формирует собственные отдельные предписания с теми же ситуациями, которые использовались в первом предписании. Это означает, что несколько «правил» с такой логикой «ИЛИ» не могут быть в одном предписании. Сформированная вышеуказанным образом вторая структура данных содержит такие элементы, как суждения (логический раздел элемента исходной структуры данных) и нормативные предписания (логическая конструкция 41 логических разделов элемента исходной структуры данных) (фиг.7). При этом суждения идентифицированы по наличию импликативной логической связи на как два основных логических раздела:
1) основания (первый логический раздел элемента исходной структуры данных, содержащий логическую импликативную связь, связь 1-го типа, вида А);
2) следствия (второй логический раздел элемента исходной структуры данных, содержащий логическую импликативную связь, связь 1-го типа, вида В);
При этом основания и следствия дополнительно идентифицированы также по факту выявления иных логических связей между однотипными импликативными суждениями в рамках одного предложения как дополнительные логические разделы:
1) суждения «И» (логический раздел элемента исходной структуры данных, содержащий логическую конъюнктивную (соединительную) связь, связь 2-го типа);
2) суждения «ИЛИ» (логический раздел элемента исходной структуры данных, содержащий логическую слабую дизъюнктивную (разделительную) связь, связь 3-го типа);
3) суждения «ИЛИ*» (логический раздел элемента исходной структуры данных, содержащий логическую сильную дизъюнктивную (разделительную) связь, связь 4-го типа).
Кроме того, вышеуказанные разделы могут быть отдельно идентифицированы как «отрицаемые суждения» (логический раздел элемента исходной структуры данных, содержащий отрицаемую логическую связь, связь 5-го типа).
На фиг.8 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 104 формирования базы данных 5 семантических частей. Этап 104 формирования базы данных 5 семантических частей характеризуется выполнением этапа 1041 идентификации логических разделов, на котором идентифицируют первые логические разделы 411 элементов 41 второй структуры данных 4 и вторые логические разделы 412 элементов второй структуры данных 4; выполнением этапа 1042 идентификации семантических частей, на котором в упомянутых первых логических разделах 411 и вторых логических разделах 412 элементов второй структуры данных 4 идентифицируют первые семантические части 4110 и вторые семантические части 4120; и выполнением этапа 1043 идентификации особых семантических частей, на котором в упомянутых первых и вторых логических разделах 411, 412 элементов 41 второй структуры данных 4 идентифицируют, по меньшей мере, особые семантические части 4111 первых логических разделов 411 элементов 41 второй структуры данных 4 и особые семантические части 4121 вторых логических разделов 412 элементов 41 второй структуры данных 4 и формируют базу данных 5 особых семантических частей логических разделов элементов 41 второй структуры данных 4 путем перемещения упомянутых особых семантических частей 4111, 4121 в упомянутую формируемую базу данных 5 особых семантических частей логических разделов элементов 41 второй структуры данных 4 (фиг.9). Сформированные во второй структуре данных логические конструкции 41 являются каркасом и основой нормативного предписания, но по-прежнему не соответствуют ему полностью. Для достижения максимального соответствия структуры логических конструкций 41 структуре нормативного предписания необходимо провести комплексный семантический анализ логических разделов 411, 412, включающий как минимум синтаксический и логический разборы терминов и понятий, выявление взаимосвязей между понятиями суждения и между терминами сложных понятий. Целью данного семантического анализа является выявление и идентификация в логических разделах 411, 412 логических конструкций 41 второй структуры данных 4 ряда специфических частей (вторых частей) логических разделов, которые приводят к:
1) смешению основных понятий правовой нормы - к смешению ситуаций и правил путем включения в суждение различных обусловленностей;
2) размытию - расфокусированию смысла суждений путем включения в суждение различных качественных и количественных уточнений и детализаций.
На данном этапе осуществляется выявление специфических частей, т.е. выявление в логических разделах 411, 412 логических конструкций 41 второй структуры данных первых и вторых семантических частей 4110, 4120 логических разделов 411, 412. Причем первые семантические части 4110 формируются путем удаления из логических разделов 411, 412 вторых семантических частей 4120 (специфических частей). Первая семантическая часть 4110 логического раздела - это смысловое ядро суждения, т.е. суждение, очищенное от специфических частей. Смысловым ядром суждения являются основные элементы суждения, такие как субъект суждения, предикат суждения и связка. Особенность связки состоит в том, что связки является частью смыслового ядра суждения только тогда, когда она не может быть истолкована в «объемном плане», в случаях, когда связка раскрывает включение (или исключение) подкласса в класс объектов или принадлежность (непринадлежность) элемента классу. Например, в суждении: «Преступление есть противоправное деяние», - субъектом суждения является слово «преступление», предикатом суждения словосочетание - «противоправное деяние», а связкой - слово «есть». Вторые семантические части 4120 логического раздела - это понятия суждения, которые идентифицированы как признаки субъекта суждения, предиката суждения, а также термины суждения - связка (когда она может быть истолкована в «объемном плане») и кванторное слово, а также иные, особые части. Например, понятие (субъект суждения) «преступление, предусмотренное Уголовным Кодексом», содержит понятие - слово «преступление» и признак понятия - словосочетание «предусмотренное Уголовным Кодексом». Признаки понятия - это содержание понятия, указывающее на наличие или отсутствие у него того или иного свойства, состояния или отношения. Иначе говоря, признаком понятия является все то, в чем понятия могут быть сходны или отличны друг от друга. Все признаки понятия, образующие содержание понятий идентифицируются как существенные и несущественные по принципу утраты своего качества (невозможности быть самим собой) без данного признака. Например, в суждении: «Преступление есть противоправное деяние», - предикатом суждения является понятие «противоправное деяние» (В), являющееся сложным понятием или «отношением», в котором «деяние» является субъектом суждения (А), а понятие «противоправное» - является признаком А. На примере «отношения» «противоправное деяние» видно, что в нем находятся «понятия», у которых объем одного полностью входит в объем другого, но не исчерпывает его. Иначе говоря, все элементы объема (В) являются элементами объема (А), но не наоборот. Вид таких отношений - «подчинение», т.е. родовидовое отношение, где более общее «понятие» выступает родом, а менее общее - видом. Кванторное слово указывает, относится ли информация о предикате суждения ко всему объему понятия, выражающему субъект суждения, или к его части. Например, в суждении: «Всякое преступление есть противоправное деяние», - кванторное слово «всякое» указывает, что информация о предмете суждения (словосочетание «противоправное деяние») относится ко всему объему (к каждому элементу объема) предмета суждения - слова «преступление». Под иными, особыми частями понимаются такие отдельные понятия и группы понятий суждения, которые также уточняют значение понятий, составляющих первую семантическую часть 4110 логических разделов 41, но формально не относятся к признакам понятия, связке или кванторному слову. Например, в суждении: «Преступление (в т.ч. мошенничество, кража, убийство) есть противоправное деяние», - понятия, указанные в круглых скобках («мошенничество», «кража», «убийство») являются реальными (жизненными) примерами понятия «преступление». Признак понятия «противоправное» является существенным для понятия «деяние», поскольку без него понятие «противоправное деяние» утрачивает свое качество, перестает быть самим собой. Объем понятия - это класс (множество) мыслимых в понятии сущностей. Признаки понятия и объем понятия взаимосвязаны в рамках каждого понятия. Эта взаимосвязь позволяет установить реальный объем понятия, т.е. то, что реально подразумевается в смысловом содержании понятия. Для достижения максимального соответствия структуры логических конструкций 41 структуре нормативного предписания необходимо сепарировать виды вторых семантических частей 4120. С технической точки зрения, идентифицированные в процессе комплексного семантического анализа иные, особые части не являются элементом основного (регулятивного или охранительного) нормативного предписания. В связи с этим они удаляются из логических разделов и формируют базу данных 5 особых семантических частей, представляющую собой нормативный справочник или иной нормативный справочный материал, представляющий собой множество особых нормативных предписаний. Информация из такого справочника является доступной и актуальной, но структурно и методологически она находится за рамками основных (регулятивных и охранительных) нормативных предписаний (фиг.9). С точки зрения юридической науки особые нормативные предписания представляют собой предписания, устанавливающие основные принципы, механизмы, порядок и цели правового регулирования общественных отношений, закрепляют правовые категории и понятия (например, дефинитивные предписания - предписания, закрепляющие в обобщенном виде признаки того или иного юридического понятия).
На фиг.10 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 105 формирования грамматически и орфографически верных семантических частей, на котором формируют грамматически и орфографически верные семантические части упомянутых логических разделов 41 путем лингвистических преобразований над упомянутыми семантическими частями. Этап 105 включает выполнение этапа 1051 идентификации уточняющих структур, на котором в упомянутых вторых семантических частях 4120 упомянутых вторых логических разделов 412 элементов 41 второй структуры данных 4 идентифицируют, по меньшей мере, уточняющие структуры вторых семантических 4122 частей вторых логических разделов 412; и выполнением этапа 1052 лингвистических преобразований, на котором осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей 4111, 4121 упомянутых первых и вторых логических разделов 411, 412, для формирования грамматически и орфографически верных семантических частей 4123 и уточняющих структур 4122 логических разделов элементов 41 второй структуры данных 4. Общая схема полученной второй структуры данных 4 представлена на фиг.11. Для достижения максимального соответствия структуры логических конструкций 41 структуре нормативного предписания необходимо дополнительно идентифицировать оставшиеся виды вторых семантических частей. Дополнительная идентификация также производится в рамках комплексного семантического анализа. Предметом анализа будет являться массив значений, выявленных указанных видов вторых семантических частей 4120, т.е. массив понятий, содержащихся в логических разделах и идентифицированных в качестве соответствующих видов. Каждое понятие данных массивов должно быть идентифицировано с точки зрения его принадлежности к уточнениям 4124 или к зависимостям 4125. При этом уточнением является такая характеристика понятия, которая осуществляет переход от более широкого понятию к более узкому, а зависимости содержат признаки юридического факта, т.е. некого события, при наличии (отсутствии) которого понятие, к которому относится зависимость, актуализируется или наоборот становится неактуальным. Лингвистические преобразования над всеми семантическими частями логических разделов связаны с восстановлением правильной грамматики и орфографии отдельных семантических частей, которое потребуется в связи с фактическим разделением текста предложений на отдельные части - семантические части 4110, 4120 логических разделов, и с учетом удаления особых семантических разделов 4111, 4121 из указанного текста. Под указанными лингвистическими преобразованиями понимается, в частности, согласование родов, чисел, падежей, правка (замена и удаление) несоответствующих знаков препинания.
На фиг.12 в качестве примера, но не ограничения, изображена общая схема выполнения этапов этапа 106 формирования итоговой структуры данных 6, на котором формируют итоговую структуру данных 6 структурированного массива данных, содержащую элементы 61 упомянутой итоговой структуры данных 6, причем упомянутые элементы 61 итоговой структуры данных содержат логические конструкции 61, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части 4123 логических разделов. Этап 106 характеризуется выполнением этапа 1061 формирования смысловых сочетаний, на котором формируют из первых грамматически и орфографически верных семантических частей 4123 вторых логических разделов 412 элементов 41 второй структуры данных 4 и упомянутых грамматически и орфографически верных уточняющих структур 4122 вторых семантических частей 4120 вторых логических разделов 412 элементов 41 второй структуры данных 4 смысловые сочетания 611 грамматически и орфографически верных семантических частей 4122, 4123 вторых логических разделов 412 элементов 41 второй структуры данных 4; и выполнением этапа 1062 формирования итоговой структуры данных 6, на котором формируют итоговую структуру данных 6, содержащую элементы 61 итоговой структуры данных 6, причем упомянутые элементы 61 итоговой структуры данных 6 представляют собой логические конструкции 61, содержащие упомянутые грамматически и орфографически верные семантические части 4122, 4123 логических разделов элементов 41 второй структуры данных 4. Возможна также ситуация, когда логические конструкции 61 из упомянутой итоговой структуры данных 6 дополнительно содержат упомянутые сформированные смысловые сочетания 611 грамматически и орфографически верных семантических частей 4122, 4123 вторых логических разделов 412 элементов 41 второй структуры данных 4 (фиг.13). Итоговая общая структура элемента 61 итоговой структуры данных 6 представлена на фиг.14. Основой нормативного предписания является юридическое правило (правило), которое может быть максимально корректно сформировано в результате проведения комплексного семантического анализа логических разделов логических конструкций. На этапе формирования логических конструкций большая часть обусловленностей была отделена от правила (второго логического раздела 412) и выделена в отдельный раздел - первый логический раздел 411. По результатам комплексного семантического анализа было выявлено смысловое ядро правила (второго логического раздела 412) и остатки обусловленностей были также выделены во вторые семантические части 4120, в которых некоторые из указанных частей идентифицированы как уточнение 4124. В результате всех преобразований стало возможным в структуре логических конструкций 61 создать смысловые сочетания 611, т.е. сочетания из первых семантических частей 4110 вторых логических разделов 412 и вторых семантических частей 4120 вторых логических разделов 412, идентифицированных как уточнение 4124. Данные смысловые сочетания являются юридическими правилами. Итоговая структура данных представляет собой структурированную конструкцию, элементы которой максимально соответствуют структуре нормативного предписания. Итоговая структура данных сформирована в таком виде с целью упрощения и регламентации профессиональной работы по созданию и корректировке НПА. Итоговая структура данных представляет собой конструкцию, которая позволяет буквально визуализировать нормативные предписания, увидеть все фактические элементы смысловой конструкции, что позволяет проводить их многосторонний полноценный анализ с целью проведения точечных корректировок как существующих нормативных предписаний, так и проектов предписаний на разных стадиях их создания.
На фиг.15 в качестве примера, но не ограничения, проиллюстрирована примерная схема заявленной системы 200 преобразования структурированного массива данных, которая в предпочтительном варианте реализации содержит, по меньшей мере, одно или более устройств 201 преобразования структурированного массива данных, содержащих, по меньшей мере, один или более процессоров 2011, один или более модулей ввода/вывода (I/O) 2012 и память 2013. Упомянутые устройства 201 преобразования структурированного массива данных могут представлять собой, но не ограничиваться: персональный компьютер, портативный компьютер, планшетный компьютер, карманный компьютер, смартфон, тонкий клиент и тому подобное. Память (машиночитаемый носитель данных) 2013 устройства 201 преобразования структурированного массива данных, содержит код программы, который при выполнении побуждает упомянутые один или более процессоры 2011 упомянутого устройства 201 и/или устройства 201, связанного с упомянутым устройством 201, выполнять действия описанного выше способа преобразования структурированного массива данных, и содержит подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке. Более того, подлежащие преобразованию один или несколько структурированных массивов данных могут являться загружаемыми и храниться, в частности, в базе данных 203 системы преобразования структурированного массива данных. В качестве примера, но не ограничения, машиночитаемый носитель данных может включать в себя оперативную память (RAM); постоянное запоминающее устройство (ROM); электрически-стираемое программируемое постоянное запоминающее устройство (EEPROM); флэш-память или другие технологии памяти; CDROM, цифровой универсальный диск (DVD) или другие оптические или голографические носители данных; магнитные кассеты, магнитную пленку, запоминающее устройство на магнитных дисках или другие магнитные запоминающие устройства, несущие волны или другой носитель данных, который может быть использован для кодирования требуемой информации, и к которому может быть осуществлен доступ посредством описываемого устройства. Память включает в себя носитель данных на основе запоминающего устройства компьютера в форме энергозависимой или энергонезависимой памяти, или их комбинации. Примерные аппаратные устройства включают в себя твердотельную память, накопители на жестких дисках, накопители на оптических дисках и т.д. В памяти хранится примерная среда, в которой при помощи компьютерных команд или кодов, хранящихся в памяти устройства, может быть осуществлена процедура преобразования структурированного массива данных. Устройство содержит один или более процессоров 2011, которые предназначены для выполнения компьютерных команд или кодов, хранящихся в памяти устройства с целью обеспечения выполнения процедуры преобразования структурированного массива данных. Компьютерные команды или коды, хранящиеся в памяти, предназначены для выполнения преобразования структурированного массива данных. Эти команды и коды включают, по меньшей мере, команды формирования первой структуры данных структурированного массива данных, команды формирования базы данных логических связей, команды формирования второй структуры данных структурированного массива данных, команды формирования базы данных семантических частей логических разделов, команды формирования грамматически и орфографически верных семантических частей, команды формирования итоговой структуры данных структурированного массива данных и соответствующие команды, предназначенные для выполнения упомянутых команд. Модули I/O 2012 устройства 201 представляют собой, не ограничиваясь, типичные и известные из уровня техники средства управления устройством: манипулятор типа «мышь», клавиатура, джойстик, тачпад, трекбол, электронное перо, стилус, сенсорный дисплей и тому подобное. Также модули I/O 2012 представляют собой, не ограничиваясь, типичные и известные из уровня техники средства демонстрирования информации: дисплей, монитор, проектор, принтер, графопостроитель и тому подобное. Система 200 также может включать в себя базу данных (БД) 202. БД 202 может представлять собой, но не ограничиваясь: иерархическую БД, сетевую БД, реляционную БД, объектную БД, объектно-ориентированную БД, объектно-реляционную БД, пространственную БД, комбинацию перечисленных двух и более БД, и тому подобное. БД 202 хранит данные в памяти, которая может представлять собой, но не ограничиваясь: постоянное запоминающее устройство (ROM), электрически-стираемое программируемое постоянное запоминающее устройство (EEPROM), флэш-память, CDROM, цифровой универсальный диск (DVD) или другие оптические или голографические носители данных; магнитные кассеты, магнитную пленку, запоминающее устройство на магнитных дисках или другие магнитные запоминающие устройства, несущие волны или другой носитель данных, который может быть использован для хранения требуемой информации и к которому может быть осуществлен доступ посредством устройства 201 преобразования структурированного массива данных и сервера 203. БД 202 служит для хранения данных, представляющих собой, по меньшей мере, команды формирования первой структуры данных структурированного массива данных, команды формирования базы данных логических связей, команды формирования второй структуры данных структурированного массива данных, команды формирования базы данных семантических частей логических разделов, команды формирования грамматически и орфографически верных семантических частей, команды формирования итоговой структуры данных структурированного массива данных, и соответствующие команды, предназначенные для выполнения упомянутых команд; подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке, которые могут быть загружены в память 2013 устройства 201 преобразования структурированного массива данных; и других данных, необходимых для функционирования системы. Примерная система 200 преобразования структурированного массива данных дополнительно содержит серверное вычислительное устройство (сервер) 203, которое сохраняет и содействует манипуляции компьютерными командами или кодами, ранее описанными в данном документе, которые, соответственно, дополнительно не описываются. Сервер 203 может представлять собой: персональный компьютер, портативный компьютер, планшетный компьютер, карманный компьютер, смартфон, машину баз данных и тому подобное. Сервер 203 обеспечивает регулирование обменом данных в системе 200 преобразования структурированного массива данных, а также обеспечивает обработку данных при условии подключения к нему одного или более чем одного устройств 201 преобразования структурированного массива данных или когда устройство 201 преобразования структурированного массива данных представляет собой тонкий клиент. В этом случае все вычислительные мощности, необходимые для обеспечения выполнения процедуры преобразования структурированного массива данных, расположены на сервере 203. Система 200 также содержит одну или более сетей 204 передачи данных. Сети 204 передачи данных могут включать в себя, но не ограничиваться, одну или более локальных сетей (LAN) и/или глобальных сетей (WAN), или могут представлять собой информационно-телекоммуникационную сеть Интернет, или Интранет, или виртуальную частную сеть (VPN), или их комбинацию, и тому подобное. Сервер 203 также имеет возможность обеспечивать виртуальную вычислительную среду (Virtual Machine) для обеспечения взаимодействия между устройством 201 преобразования структурированного массива данных и БД 202. Сеть 204 служит для обеспечения взаимодействия между устройством 201, базой данных 202 и сервером 203 системы 200 преобразования структурированного массива данных.
Изобретение относится к решениям в области обработки массивов данных, в частности к решениям в области обработки структурированных массивов данных, содержащих текст на естественном языке. Техническим результатом является формирование логически, грамматически и орфографически верной структуры данных, обеспечивающей быструю и удобную навигацию по элементам структуры. В способе преобразования структурированного массива данных, содержащего текст на естественном языке, формируют (101) первую структуру данных структурированного массива данных из итоговой структуры данных структурированного массива данных. Формируют (102) базу данных логических связей логических разделов элементов первой структуры данных. Формируют (103) вторую структуру данных структурированного массива данных. Формируют (104) базу данных семантических частей логических разделов элементов второй структуры данных. Формируют (105) грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных путем лингвистических преобразований над упомянутыми семантическими частями. Формируют (106) итоговую структуру данных структурированного массива данных. 4 н. и 13 з.п. ф-лы, 15 ил., 3 табл.
1. Способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, причем упомянутый способ содержит, по меньшей мере, этапы, на которых:
A) формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) формируют базу данных логических связей логических разделов упомянутых элементов первой структуры данных;
B) формируют вторую структуру данных структурированного массива данных, содержащую элементы упомянутой второй структуры данных, причем упомянутые элементы второй структуры данных содержат логические конструкции логических разделов упомянутых элементов первой структуры данных, сформированные с использованием информации из упомянутой базы данных логических связей логических разделов, причем упомянутые логические разделы содержат первые семантические части и вторые семантические части;
Г) формируют базу данных семантических частей логических разделов из упомянутых вторых семантических частей, причем упомянутые вторые семантические части исключаются из соответствующих упомянутых логических разделов;
Д) формируют грамматически и орфографически верные семантические части упомянутых логических разделов путем лингвистических преобразований над упомянутыми семантическими частями;
Е) формируют итоговую структуру данных структурированного массива данных, содержащую элементы упомянутой итоговой структуры данных, причем упомянутые элементы итоговой структуры данных содержат логические конструкции, содержащие, по меньшей мере, упомянутые грамматически и орфографически верные семантические части логических разделов.
2. Способ по п.1, отличающийся тем, что этап А) характеризуется, по меньшей мере, этапами, на которых:
- идентифицируют исходную структуру данных структурированного массива данных;
- идентифицируют элементы исходной структуры данных;
- идентифицируют первые логические разделы упомянутых элементов исходной структуры данных и вторые логические разделы упомянутых элементов исходной структуры данных; и
- формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы.
3. Способ по п.1, отличающийся тем, что этап Б) характеризуется, по меньшей мере, этапами, на которых:
- идентифицируют элементы первой структуры данных, содержащие один упомянутый первый логический раздел, и элементы первой структуры данных, содержащие один упомянутый второй логический раздел;
- идентифицируют элементы первой структуры данных, содержащие более одного упомянутого первого логического раздела, и элементы первой структуры данных, содержащие более одного упомянутого второго логического раздела;
- среди элементов первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют логические связи между упомянутыми первыми логическими разделами или между упомянутыми вторыми логическими разделами;
- среди элементов первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют элементы первой структуры данных, не имеющие логической связи между логическими разделами; и
- формируют базу данных логических связей логических разделов элементов первой структуры данных.
4. Способ по п.1, отличающийся тем, что этап В) характеризуется, по меньшей мере, этапами, на которых:
- формируют логические конструкции логических разделов элементов первой структуры данных, используя информацию из базы данных логических связей логических разделов элементов первой структуры данных и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый первый логический раздел, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый второй логический раздел; и
- формируют вторую структуру данных, содержащую элементы второй структуры данных, причем упомянутые элементы второй структуры данных представляют собой сформированные логические конструкции логических разделов первой структуры данных.
5. Способ по п.1, отличающийся тем, что этап Г) характеризуется, по меньшей мере, этапами, на которых:
- идентифицируют первые логические разделы элементов второй структуры данных и вторые логические разделы элементов второй структуры данных;
- в упомянутых первых логических разделах и вторых логических разделах элементов второй структуры данных идентифицируют первые семантические части и вторые семантические части; и
- в упомянутых первых и вторых логических разделах элементов второй структуры данных идентифицируют, по меньшей мере, особые семантические части первых логических разделов элементов второй структуры данных и особые семантические части вторых логических разделов элементов второй структуры данных и формируют базу данных особых семантических частей логических разделов элементов второй структуры данных путем перемещения упомянутых особых семантических частей в упомянутую формируемую базу данных особых семантических частей логических разделов элементов второй структуры данных.
6. Способ по п.1, отличающийся тем, что этап Д) характеризуется, по меньшей мере, этапами, на которых:
- в упомянутых вторых семантических частях упомянутых вторых логических разделов элементов второй структуры данных идентифицируют, по меньшей мере, уточняющие структуры вторых семантических частей вторых логических разделов; и
- осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей упомянутых первых и вторых логических разделов, для формирования грамматически и орфографически верных семантических частей логических разделов элементов второй структуры данных.
7. Способ по п.1, отличающийся тем, что этап Е) характеризуется, по меньшей мере, этапами, на которых:
- формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных; и
- формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных.
8. Способ по п.7, отличающийся тем, что упомянутые логические конструкции из упомянутой итоговой структуры данных дополнительно могут содержать упомянутые сформированные смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных.
9. Способ по п.1, отличающийся тем, что упомянутый способ преобразования структурированного массива данных, содержащего, по меньшей мере, текст на естественном языке, содержит, по меньшей мере, этапы, на которых:
А) идентифицируют исходную структуру данных структурированного массива данных; идентифицируют элементы исходной структуры данных; идентифицируют первые логические разделы упомянутых элементов исходной структуры данных и вторые логические разделы упомянутых элементов исходной структуры данных; и формируют первую структуру данных структурированного массива данных, содержащую элементы упомянутой первой структуры данных, причем упомянутые элементы первой структуры данных содержат первые логические разделы и вторые логические разделы;
Б) идентифицируют элементы первой структуры данных, содержащие один упомянутый первый логический раздел, и элементы первой структуры данных, содержащие один упомянутый второй логический раздел; идентифицируют элементы первой структуры данных, содержащие более одного упомянутого первого логического раздела, и элементы первой структуры данных, содержащие более одного упомянутого второго логического раздела; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют логические связи между упомянутыми первыми логическими разделами или между упомянутыми вторыми логическими разделами; в элементах первой структуры данных, содержащих более одного упомянутого первого логического раздела, и в элементах первой структуры данных, содержащих более одного упомянутого второго логического раздела, идентифицируют элементы первой структуры данных, не имеющие логической связи между логическими разделами; и формируют базу данных логических связей логических разделов элементов первой структуры данных;
В) формируют логические конструкции логических разделов элементов первой структуры данных, используя информацию из базы данных логических связей логических разделов элементов первой структуры данных и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый первый логический раздел, и логические разделы упомянутых элементов первой структуры данных, содержащих один упомянутый второй логический раздел; и формируют вторую структуру данных, содержащую элементы второй структуры данных, причем упомянутые элементы второй структуры данных представляют собой сформированные логические конструкции логических разделов первой структуры данных;
Г) идентифицируют первые логические разделы элементов второй структуры данных и вторые логические разделы элементов второй структуры данных; в упомянутых первых логических разделах и вторых логических разделах элементов второй структуры данных идентифицируют первые семантические части и вторые семантические части; и в упомянутых первых и вторых логических разделах элементов второй структуры данных идентифицируют, по меньшей мере, особые семантические части первых логических разделов элементов второй структуры данных и особые семантические части вторых логических разделов элементов второй структуры данных и формируют базу данных особых семантических частей логических разделов элементов второй структуры данных путем перемещения упомянутых особых семантических частей в упомянутую формируемую базу данных особых семантических частей логических разделов элементов второй структуры данных;
Д) в упомянутых вторых семантических частях упомянутых вторых логических разделов элементов второй структуры данных идентифицируют, по меньшей мере, уточняющие структуры вторых семантических частей вторых логических разделов; и осуществляют лингвистические преобразования над всеми семантическими частями, за исключением упомянутых особых семантических частей упомянутых первых и вторых логических разделов, для формирования грамматически и орфографически верных семантических частей логических разделов элементов второй структуры данных;
Е) формируют из первых грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных и упомянутых грамматически и орфографически верных уточняющих структур вторых семантических частей вторых логических разделов элементов второй структуры данных смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов третьей структуры данных; и формируют итоговую структуру данных, содержащую элементы итоговой структуры данных, причем упомянутые элементы итоговой структуры данных представляют собой логические конструкции, содержащие упомянутые грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных.
10. Способ по п.9, отличающийся тем, что упомянутые логические конструкции из упомянутой итоговой структуры данных дополнительно могут содержать упомянутые сформированные смысловые сочетания грамматически и орфографически верных семантических частей вторых логических разделов элементов второй структуры данных.
11. Устройство преобразования структурированного массива данных, содержащее, по меньшей мере:
один или более процессоров;
один или более модулей ввода/вывода (I/O); и
память, содержащую код программы, который при выполнении побуждает упомянутые один или более процессоры упомянутого устройства и/или устройства, связанного с упомянутым устройством, выполнять действия способа по любому из пп.1-10 формулы, и содержащую подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке.
12. Устройство по п.11, отличающееся тем, что упомянутые подлежащие преобразованию один или несколько структурированных массивов данных являются загружаемыми, а упомянутое устройство выполнено с возможностью соединения с базой данных, в которой хранятся упомянутые загружаемые подлежащие преобразованию один или несколько структурированных массивов данных, для осуществления загрузки в упомянутую память устройства, по меньшей мере, одного загружаемого подлежащего преобразованию структурированного массива данных.
13. Система преобразования структурированного массива данных, содержащая, по меньшей мере:
одно или более устройств, выполненных в виде устройств по любому из пп.11 или 12 формулы;
один или несколько серверов, обеспечивающих регулирование обменом данных в системе;
одну или несколько баз данных, предназначенных для хранения данных, выполненных с возможностью взаимодействия с упомянутыми одним или более устройствами;
одну или более сетей передачи данных, через которые осуществляется взаимодействие упомянутых устройств, серверов и баз данных.
14. Система по п.13, отличающаяся тем, что способ по любому из пп.1-10 формулы осуществляется одним или более упомянутыми серверами, а упомянутые устройства представляют собой тонкий клиент.
15. Система по п.14, отличающаяся тем, что упомянутая база данных служит для хранения данных, представляющих собой, по меньшей мере, одно из: код программы, который при выполнении побуждает упомянутые один или более процессоры упомянутого устройства и/или устройства, связанного с упомянутым устройством, выполнять действия способа по любому из пп.1-10 формулы, подлежащие преобразованию один или несколько структурированных массивов данных, содержащих, по меньшей мере, текст на естественном языке.
16. Система по любому из пп.13-15, отличающаяся тем, что упомянутая сеть передачи данных представляет собой одно из: локальная сеть (LAN), глобальная сеть (WAN), информационно-телекоммуникационная сеть Интернет, виртуальная частная сеть (VPN).
17. Машиночитаемый носитель данных, содержащий код программы, который при выполнении побуждает процессор или процессоры устройства, с которым взаимодействует машиночитаемый носитель данных, выполнять действия способа по любому из пп.1-10 формулы.
СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ПУТЕМ ЕГО СЕМАНТИЧЕСКОЙ ИНДЕКСАЦИИ, СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ КОЛЛЕКЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ПУТЕМ ИХ СЕМАНТИЧЕСКОЙ ИНДЕКСАЦИИ И МАШИНОЧИТАЕМЫЕ НОСИТЕЛИ | 2008 |
|
RU2399959C2 |
СПОСОБ УПОРЯДОЧЕНИЯ ДАННЫХ, ПРЕДСТАВЛЕННЫХ В ТЕКСТОВЫХ ИНФОРМАЦИОННЫХ БЛОКАХ ДАННЫХ | 2000 |
|
RU2210809C2 |
ИДЕНТИФИКАЦИЯ СЕМАНТИЧЕСКИХ ВЗАИМООТНОШЕНИЙ В КОСВЕННОЙ РЕЧИ | 2008 |
|
RU2488877C2 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
СИСТЕМА ОТКРЫВАНИЯ И ЗАКРЫВАНИЯ СТВОРКИ ОТСЕКА ДЛЯ ШАССИ ЛЕТАТЕЛЬНОГО АППАРАТА | 2006 |
|
RU2400400C2 |
Авторы
Даты
2015-03-20—Публикация
2014-03-25—Подача