СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА С АВТОМАТИЧЕСКИМ ФОРМИРОВАНИЕМ РЕКВИЗИТА РЕЗОЛЮЦИИ РУКОВОДИТЕЛЯ Российский патент 2019 года по МПК G06F17/20 G06F16/00 

Описание патента на изобретение RU2692972C1

Изобретение относится к системам классификации и аннотирования документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, где существует необходимость классификации формализованных электронных документов по степеням конфиденциальности, содержащейся в них информации и областям информационной ответственности должностных лиц с учетом уровня их допуска к указанной информации, а также необходимость автоматического формирования проекта поручений руководителя указанным должностным лицам по результатам аннотирования информативной части каждого документа.

Уровень техники

а) Описание аналогов

Известен аналог - способ мультиклассовой классификации (Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой информационной области [1].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

не позволяет формировать по результатам классификации отдельные реквизиты электронного формализованного документа (например, реквизит «резолюция»).

Известен также аналог - способ автоматической классификации документов (Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (SupportVectorMachines) и классификационных признаков определяют принадлежность документа к информационной области [2].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

не позволяет формировать по результатам классификации отдельные реквизиты электронного формализованного документа (например, реквизит «резолюция»).

Также известен аналог - способ автоматической классификации документов (Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий [3].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

не позволяет формировать по результатам классификации отдельные реквизиты электронного формализованного документа (например, реквизит «резолюция»).

б) Описание ближайшего аналога (прототипа)

Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота (Пат. 2647640 Российская Федерация, МПК G06F 17/30, G06F 17/21. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко С.В.), заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа; на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из информационных областей и к каждой из меток конфиденциальности, заданных в информационной системе, на этапе определения принадлежности документа к каждой информационной области и метке конфиденциальности используют априорную информацию о зависимостях категорий друг от друга [4].

Недостатком данного способа является:

не позволяет формировать по результатам классификации отдельные реквизиты электронного формализованного документа (например, реквизит «резолюция»).

Раскрытие сущности изобретения

Целью настоящего изобретения является повышение оперативности электронного документооборота за счет сокращения времени рассмотрения руководителем поступивших электронных документов и составления резолюции подчиненным должностным лицам по их исполнению. Техническим результатом является автоматизация классификации формализованных документов в системе электронного документооборота по областям компетенции должностных лиц (исполнителей), аннотирования указанных документов и формирования на основе классификации и аннотирования реквизита «резолюция» каждого документа.

Для достижения указанного технического результата предложен способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков; на этапе обучения по набору классифицированных вручную документов формируют систему предикатов определения области информационной ответственности; формируют систему предикатов идентификации метки конфиденциальности документа; сохраняют указанные системы предикатов в базе данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и каждой из меток конфиденциальности, отличающийся тем, что на основе распознанных реквизитов и значений ключевых слов этих реквизитов определяют конкретный вид электронного документа; при преобразовании слов документа в базовые словоформы выделяют и оставляют без изменений отдельные слова и словосочетания, соответствующие временным интервалам выполнения определяемой документом деятельности, формируя тем самым вектор данных о сроках исполнения документа; на основе определенных областей информационной ответственности, а также априорных сведений о структуре организации (учреждения), в том числе об отношениях подчиненности между должностными лицами организации (учреждения) и уровнях их допуска к различным степеням конфиденциальности документов, формируют первый набор классификационных признаков; на основе определенных вида документа, областей информационной ответственности, к которым он относится, при помощи предикатов узнавания ключевых слов и отдельных реквизитов формальной части формируют второй набор классификационных признаков; на этапе обучения по набору документов, для которых вручную заполнен реквизит «резолюция», формируют систему предикатов идентификации исполнителя поручения по поступившему документу и систему предикатов идентификации поручения, сохраняют системы предикатов в базу данных; при классификации подставляют первый набор классификационных признаков в систему предикатов идентификации исполнителя поручения и по предикатам, принявшим значение «истина» принимают решение об отнесении документа к компетенции конкретных сотрудников, подчиненных руководителю; подставляют второй набор классификационных признаков в систему предикатов идентификации поручения и по предикатам, принявшим значение «истина» принимают решение о назначении исполнителям конкретных поручений по исполнению поступившего документа; объединяют полученные данные об исполнителе, поручении и сроке исполнения, а также полученные любым способом данные о дате рассмотрения документа, в кортеж данных и присваивают его реквизиту документа «резолюция».

Краткое описание чертежей

На фигуре представлена блок-схема вычислительного устройства для реализации способа. Устройство для реализации способа состоит из блоков:

ввода формализованных электронных документов 1, анализа характеристик текста 2, распознавания реквизитов документа 3, распознавания вида документа 4, выделения метаданных 5, определения базовых словоформ 6, создания рабочего словаря 7, определения весов словоформ текста документа 8, распознавания области информационной ответственности 9, учета документа по метаданным 10, обучения 11, распознавания метки конфиденциальности документа 12, адресации документа 13, формирования проекта резолюции руководителя 14 и загрузки документа в систему 15.

Осуществление изобретения

При поступлении документа выделяют характеристики одинаковых участков текста Z - реквизитов. При этом, априорно известно, что количество реквизитов формализованного документа ограничено [5]. Каждый реквизит представим конечным предикатом PZ(T, L), где Т - конечное множество характеристик текста t, L={lq} - множество ключевых слов l реквизита, где q' - количество всех используемых ключевых слов. Для написания правил построения предикатов используем математический аппарат теории алгебры конечных предикатов [6].

Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [7]:

где - предикат узнавания значения а h-той переменной текста;

h' - количество переменных текста,

a' - величина алфавита h-той переменной текста;

- предикат узнавания значения b ключевого слова q соответствующего i-той зоне.

Вид документа определяется при помощи конечного предиката PV(Z, L), где V={νj}, где - множество видов документов, j' - количество всех используемых видов документов, Z - множество реквизитов документа, n - количество всех реквизитов документов. Правило построения предиката узнавания вида документа выразится следующей формулой:

где zi - предикат узнавания i-того реквизита для j-того вида документа;

- предикат узнавания уникального значения γ ключевого слова q i-того реквизита j-того вида документа.

С использованием правил (1, 2) создаются системы предикатов идентификации формуляров (расположения и значений реквизитов) и видов поступающих документов. Формуляр документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по виду и степени ограничения доступа.

Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.

Вес словоформы wp в тексте документа dy, рассчитывается по формуле:

где - количество раз, которое wp-я словоформа встречается в dy-м тексте документа;

- общее количество словоформ в dy-м тексте документа.

Классифицируемые документы могут быть представлены в различных форматах: текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание.

Каждый документ предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [8-11]. Для документов на естественном языке славянской группы предпочтительными являются алгоритмы лемматизации (процесса приведения слова к его нормальной форме (лемме), допустимо применение алгоритмов усечения окончаний, стохастических и статистических алгоритмов; для документов на естественном языке западногерманской группы - алгоритмов усечения окончаний, например, стеммер Портера (использование специальных правил отсечения и замены окончаний слов).

Правило построения предиката РU(W) узнавания информационной области U={uβ}, где β' - количество областей информационной ответственности, выражается следующей формулой [12]:

где W={wp} - множество значимых слов текстов, где

р' - количество значимых слов текстов;

- предикат узнавания значения веса ƒ значимого слова wp, в тексте документа dy uβ-той информационной области по g-тому значению веса слова.

Правило построения предиката PM(U, Z) узнавания метки конфиденциальности документа М={mλ}, где λ' - количество определенных в системе меток конфиденциальности выразится следующей формулой [12]:

где - предикат узнавания k-го значения r-ого реквизита;

mo - метка конфиденциальности документа dy, при этом mo ∈ М; uβ - предикат узнавания β-ой области, где β' - количество информационных областей системы.

После определения метки конфиденциальности документа переходят к формированию проекта резолюции руководителя организации. Реквизит «резолюция», исходя из его определения [5], представим в виде кортежа данных:

где μϕ - наименование должности, либо фамилии и инициалов ϕ-го должностного лица организации (учреждения), ϕ' - количество должностных лиц, непосредственно подчиненных руководителю и являющихся исполнителями его поручений по поступающим электронным документам;

- χ-oe поручение руководителя ϕ-му должностному лицу;

- срок исполнения χ-ого поручения руководителя ϕ-му должностному лицу и соответствующий ему атомарный предикат узнавания дат и сроков в информативной части документа;

- подпись руководителя.

Правило построения предиката Pμ(U, M) узнавания должностного лица организации (учреждения), компетентного в β-ой области информационной ответственности uβ, имеющего соответствующий степени ограничения λ допуск и являющегося исполнителем формируемого поручения руководителя (далее - исполнитель) по поступившему электронному документу dy выразится следующим образом:

где - предикат узнавания значения λ метки конфиденциальности mo поступившего документа dy, λ' - общее количество меток конфиденциальности в системе.

Правило построения предиката выбора поручения из списка готовых поручений, будет иметь вид:

Согласно предлагаемому способу каждый документ dy представляется декартовым произведением переменных из множеств Т×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных по областям информационной ответственности и меткам конфиденциальности, а также содержащих непустой реквизит «резолюция». После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.

При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной области (метке). Информативность словоформы wp для классификатора по информационной области uβ определяется по следующей формуле [13]:

В рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает заданный порог информативности ε. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом могут отсекаться слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 и могут быть различны в зависимости от специфики и условий его использования.

В режиме обучения, по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством областей информационной ответственности, на которые необходимо классифицировать документы. Сохраняют предикаты в базе данных.

В режиме обучения, по предъявленному набору классифицированных вручную конфиденциальных документов формируют системы предикатов идентификации их меток конфиденциальности. Количество предикатов в системе определяется количеством меток конфиденциальности, заданных в информационной системе. Сохраняют системы предикатов в базе данных.

В режиме обучения, по предъявленному набору документов, содержащих заполненный вручную реквизит «резолюция», формируют системы предикатов идентификации исполнителей и готовых поручений. Количество предикатов в системе идентификации исполнителей определяется количеством должностных лиц организации (учреждения), непосредственно подчиненных руководителю и являющихся исполнителями его поручений, а также их ближайших по иерархии управления подчиненных. Первоначальное количество предикатов идентификации готовых поручений определяется экспертным методом на основании априорных сведений о стиле руководителя. Сохраняют системы предикатов в базе данных.

В режиме классификации документов осуществляют преобразование документа из формата хранения в текст на естественном языке, затем - слов текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в систему предикатов (3), находящуюся в базе данных. По предикатам, принявшим значение «истина», однозначно определяют области информационной ответственности, к которым относится документ. Используя извлеченные метаданные документа, полученные по (1), определяют соответствующую ему метку конфиденциальности, для чего указанные значения подставляют в систему предикатов, построенных по (4). По предикату, принявшему значение «истина», определяют метку конфиденциальности, после чего переходят к построению проекта реквизита «резолюция». Для этого, во-первых, определенные по (3) значения областей информационной ответственности и определенное по (4) значение метки конфиденциальности документа подставляют в систему предикатов, построенных по (5), и по предикатам, принявшим значение «истина», определяют исполнителя. Во-вторых, подставляя в систему предикатов, построенных по (6), значения определенных по (1) реквизитов документа, по (2) вида документа и по (3) области информационной ответственности, а также значения отдельных ключевых слов, по предикатам, принявшим значения «истина» определяют конкретные поручения. Дополняя полученные значения исполнителя и поручения определенными атомарными предикатами узнавания значениями сроков исполнения и определенной любым способом даты поступления документа, получают кортеж данных, который присваивается реквизиту «резолюция» поступившего документа.

Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.

Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается формированием проекта резолюции руководителя с использованием правил (5) и (6), а также усовершенствованными правилами определения вида документа (2) и метки конфиденциальности (3).

Благодаря новой совокупности существенных признаков способ позволяет автоматизировать процесс рассмотрения руководителем поступающих в системе электронного документооборота формализованных документов и процесс формирования его резолюции подчиненным должностным лицам с учетом уровня их допуска к содержащейся в указанных документах информации (сведениям), когда число меток конфиденциальности (степеней ограничения доступа) не ограничено.

Анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Автоматическая классификация электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя осуществляется следующим образом:

1. В режиме классификации.

При появлении в блоке ввода 1 нового формализованного электронного документа он поступает в блок 2, который выявляет значения характеристик текста t участков документа и ключевых слов l в них. Значения t и l участков документа поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1) распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок 4, где система предикатов, построенная по правилу (2) осуществляет распознавание вида документа.

В блоке 5 из поступившего от блока 2 документа, используя сведения об определенном в блоке 4 виде документа, который, обладая установленным требованиями нормативных документов формуляром, задает места расположения и значения реквизитов документа, выделяют требуемые значения реквизитов, которые используются как метаданные документа. Из блока 5 документ и соответствующие ему метаданные поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Определенная в блоке 5 информативная часть документа поступает в блок 6, где слова преобразуются в словоформы, и поступают далее в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.

Полученные в блоке 6 словоформы поступают также в блок 8, где производится расчет весов словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов полученных словоформ поступают в блок 9, где происходит распознавание информационной области uβ путем вычисления значений предикатов системы предикатов, построенной по правилу (3).

В блоке 12 на основе поступивших из блока 10 реквизитов документа и полученных в блоке 9 областей информационной ответственности на основе системы предикатов, построенной по правилу (4), определяют соответствующую классифицируемому документу метку конфиденциальности.

В блоке 14 на основе поступивших из блоков 9 и 12 данных при помощи системы предикатов, построенных по правилу (5), определяют исполнителя поступившего документа, сохраняют его для дальнейшей обработки, а также передают его в блок 13 для выбора адресата. В блоке 14 на основе данных, поступивших из блоков 3, 4, 8 и 9 (значений реквизитов и вида документа, области информационной ответственности, а также значений отдельных ключевых слов), при помощи системы предикатов, построенных по правилу (6), определяют поручение исполнителю. В блоке 14 информативная часть документа проходит обработку с применением атомарных предикатов узнавания сроков исполнения. Все полученные данные объединяются в кортеж и передаются в блок 10, где присваиваются реквизиту «резолюция».

Из блока 10 документ и метаданные поступает в блок 13. В блоке 13 на основе значений, поступивших из блоков 10, 12 и 14, формируют соответствующее метке конфиденциальности ограничение доступа к классифицируемому документу и направляют исполнителю.

Далее через блок 15 происходит загрузка документа в информационную систему в соответствии с определенными классами.

2. В режиме обучения.

Режим обучения системой используется в следующих случаях:

в случае невозможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и l. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»;

в случае невозможности распознавания системой предикатов вида документа в блоке 4 по значениям предикатов системы предикатов блока 3. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется вид документа «вручную»;

в случае невозможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»;

в случае невозможности распознавания системой предикатов метки конфиденциальности документа в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную»;

в случае внесения в проект резолюции изменений, в части, касающейся поручений, выбранных из списка готовых поручений, через блок 11 осуществляется автоматическое добавление скорректированных поручений в указанный список.

Таким образом, способ позволяет классифицировать формализованные электронные документы по областям информационной ответственности должностных лиц организации (учреждения) с учетом уровня их допуска к содержащейся в этих документах информации, а также формировать проект поручений руководителя указанным должностным лицам по результатам автоматического аннотирования информативной части каждого документа, чем достигается заявленный технический результат.

Источники информации:

1. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.

2. Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01.

3. Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА''. - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05.

4. Пат. 2647640 Российская Федерация, МПК G06F 17/30, G06F 17/21. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко С.В.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Краснодарское высшее военное училище имени генерала армии С.М. Штеменко» Министерства обороны Российской Федерации - №2015152418; заявл. 07.12.2015; опубл. 13.06.2017 Бюл. №17.

5. ГОСТ Р 7.0.97-2016. Национальный стандарт Российской Федерации. Система стандартов по информации, библиотечному и издательскому делу. Организационно-распорядительная документация. Требования к оформлению документов: утв. и введ. в действие приказом Федерального агенства по техническому регулированию и метрологии от 8.12.2016 №2004 - ст. -М.: Стандартинформ, 2017 г. - 23 с.

6. Бондаренко М.Ф., Шабанов-Кушнаренко Ю.П.. Об алгебре конечных предикатов. [Текст]// Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 №3(77).

7. Королев И.Д. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, С.В. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). - IDA [article ID]: 0921308074. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л

8. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.

9. Пат. 2096825 Российская Федерация, МПК G06F 17/00, G06F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". - №96119820/09; заявл. 14.10.96; опубл. 20.11.97, Бюл. №14.

10. Пат. 6308149 Соединенные Штаты Америки, МПК G06F 17/27.Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/213309; заявл. 16.12.98; опубл. 23.10.01.

11. Пат. 6430557 Соединенные Штаты Америки, МПК G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/212662; заявл. 16.12.98; опубл. 06.08.02.

12. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота / Д.В. Малышев, И.Н. Шайков, М.И. Поддубный, И.Д. Королев // Телекоммуникации.: ежемес. произв., информ.-аналит. и учеб.-метод. ж-л, г. Москва: МГТУ им. Баумана, 2016 №8. - С. 18-22.

13. Craven М., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118(1-2), 2000, pp. 69-113.

Похожие патенты RU2692972C1

название год авторы номер документа
Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием электронных дел 2019
  • Назинцев Вадим Сергеевич
  • Мезенцев Александр Сергеевич
  • Королев Игорь Дмитриевич
RU2726931C1
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ЭЛЕКТРОННЫХ ГРАФИЧЕСКИХ И ТЕКСТОВЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА С АВТОМАТИЧЕСКИМ ФОРМИРОВАНИЕМ ЭЛЕКТРОННЫХ ДЕЛ 2020
  • Королев Игорь Дмитриевич
  • Филиппов Максим Юрьевич
  • Назинцев Вадим Сергеевич
RU2759887C1
Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота 2015
  • Поддубный Максим Игоревич
  • Королев Игорь Дмитриевич
  • Носенко Сергей Владимирович
RU2647640C2
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ И АВТОРИЗОВАННЫХ ПОЛЬЗОВАТЕЛЕЙ СИСТЕМЫ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА 2017
  • Поддубный Максим Игоревич
  • Королев Игорь Дмитриевич
  • Носенко Сергей Владимирович
  • Мезенцев Александр Сергеевич
RU2692043C2
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА 2013
  • Носенко Сергей Владимирович
  • Королев Игорь Дмитриевич
  • Поддубный Максим Игоревич
RU2546555C1
Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда 2017
  • Тупикова Наталия Алексеевна
  • Цельник Галина Львовна
  • Преферансов Сергей Александрович
RU2656982C1
Способ многоуровневого контроля целостности электронных документов 2015
  • Елисеев Николай Иванович
  • Финько Олег Анатольевич
  • Власов Константин Александрович
  • Евтушенко Сергей Александрович
RU2637482C2
Система электронного документооборота и способ управления системой электронного документооборота 2019
  • Степанов Олег Владимирович
RU2718736C1
СИСТЕМА УПРАВЛЕНИЯ ЭЛЕКТРОННЫМ ДОКУМЕНТООБОРОТОМ 2018
  • Шевченко Максим Валерьевич
  • Сизов Михаил Борисович
  • Чеботарев Евгений Михайлович
  • Самарин Евгений Викторович
  • Власова Ирина Михайловна
  • Зайцев Константин Владимирович
  • Чемоданов Андрей Сергеевич
  • Апполонов Сергей Владимирович
  • Гильманов Андрей Михайлович
  • Николаев Евгений Николаевич
  • Буневич Ольга Алексеевна
RU2702505C1
Способ обеспечения безопасного использования электронного документа 2018
  • Голосов Алексей Олегович
  • Пустарнаков Валерий Фёдорович
  • Калайда Игорь Алексеевич
  • Сивохин Дмитрий Вячеславович
RU2699234C1

Иллюстрации к изобретению RU 2 692 972 C1

Реферат патента 2019 года СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА С АВТОМАТИЧЕСКИМ ФОРМИРОВАНИЕМ РЕКВИЗИТА РЕЗОЛЮЦИИ РУКОВОДИТЕЛЯ

Изобретение относится к системам классификации документов. Техническим результатом является автоматизация классификации формализованных документов в системе электронного документооборота по областям компетенции должностных лиц, формирования на основе классификации реквизита «резолюция» каждого документа. Способ заключается в выделении и анализе формальной части поступившего документа, осуществлении преобразования информативной части документа в текст на естественном языке, преобразования слов преобразованного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и формировании признаков документа. На этапе обучения формируют системы предикатов идентификации признаков текста поступившего документа и сохраняют их в базе данных. При классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к компетенции должностного лица, определяют соответствующую ему метку конфиденциальности и поручения по нему, формируя реквизит «резолюция». 1 ил.

Формула изобретения RU 2 692 972 C1

Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков; на этапе обучения по набору классифицированных вручную документов формируют систему предикатов определения области информационной ответственности; формируют систему предикатов идентификации метки конфиденциальности документа; сохраняют указанные системы предикатов в базе данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и каждой из меток конфиденциальности, отличающийся тем, что на основе распознанных реквизитов и значений ключевых слов этих реквизитов определяют конкретный вид электронного документа; при преобразовании слов документа в базовые словоформы выделяют и оставляют без изменений отдельные слова и словосочетания, соответствующие временным интервалам выполнения определяемой документом деятельности, формируя тем самым вектор данных о сроках исполнения документа; на основе определенных областей информационной ответственности, а также априорных сведений о структуре организации (учреждения), в том числе об отношениях подчиненности между должностными лицами организации (учреждения) и уровнях их допуска к различным степеням конфиденциальности документов, формируют первый набор классификационных признаков; на основе определенных вида документа, областей информационной ответственности, к которым он относится, при помощи предикатов узнавания ключевых слов и отдельных реквизитов формальной части формируют второй набор классификационных признаков; на этапе обучения по набору документов, для которых вручную заполнен реквизит «резолюция», формируют систему предикатов идентификации исполнителя поручения по поступившему документу и систему предикатов идентификации поручения, сохраняют системы предикатов в базу данных; при классификации подставляют первый набор классификационных признаков в систему предикатов идентификации исполнителя поручения и по предикатам, принявшим значение «истина», принимают решение об отнесении документа к компетенции конкретных сотрудников, подчиненных руководителю; подставляют второй набор классификационных признаков в систему предикатов идентификации поручения и по предикатам, принявшим значение «истина», принимают решение о назначении исполнителям конкретных поручений по исполнению поступившего документа; объединяют полученные данные об исполнителе, поручении и сроке исполнения, а также полученные любым способом данные о дате рассмотрения документа в кортеж данных и присваивают его реквизиту документа «резолюция».

Документы, цитированные в отчете о поиске Патент 2019 года RU2692972C1

Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота 2015
  • Поддубный Максим Игоревич
  • Королев Игорь Дмитриевич
  • Носенко Сергей Владимирович
RU2647640C2
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА 2013
  • Носенко Сергей Владимирович
  • Королев Игорь Дмитриевич
  • Поддубный Максим Игоревич
RU2546555C1
СПОСОБ КЛАССИФИКАЦИИ ДОКУМЕНТОВ ПО КАТЕГОРИЯМ 2012
  • Лапшин Владимир Анатольевич
  • Пшехотская Екатерина Александровна
  • Перов Дмитрий Всеволодович
RU2491622C1
СПОСОБ АВТОМАТИЗИРОВАННОГО ЛЕКСИКОЛОГИЧЕСКОГО СИНТЕЗА ДОКУМЕНТОВ 2003
  • Черников Б.В.
RU2253893C2
Топчак-трактор для канатной вспашки 1923
  • Берман С.Л.
SU2002A1
Приспособление для точного наложения листов бумаги при снятии оттисков 1922
  • Асафов Н.И.
SU6A1

RU 2 692 972 C1

Авторы

Мезенцев Александр Сергеевич

Королев Игорь Дмитриевич

Минаев Владимир Александрович

Поддубный Максим Игоревич

Волков Игорь Константинович

Акинфиев Данил Викторович

Кисленко Илья Анатольевич

Даты

2019-06-28Публикация

2018-07-10Подача