Изобретение относится к системам классификации документов и может использоваться в системах электронного документооборота, базах данных, электронных хранилищах (электронных архивах) в случаях, когда существует необходимость классификации формализованных документов различной степени конфиденциальности, поступающих из внешних автоматизированных систем, по тематическим признакам, видам (структурам) документов и конфиденциальности содержащихся в них сведений.
Уровень техники
а) Описание аналогов
Известен аналог - способ автоматической классификации документов (LiY., JainA."Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления, на этапе обучения, по предъявленному набору классифицированных вручную документов, формируют набор классификационных признаков, а при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе простого байесовского классификационного критерия и классификационных признаков определяют принадлежность документа к информационной области [1].
Недостатками данного способа являются:
невозможность однозначно установить степень конфиденциальности содержащихся в документе сведений ввиду того, что подсчет весов базовых словоформ производится независимо от контекста, в котором употреблялось исходное слово, что, в свою очередь, не позволяет учитывать при классификации формальную часть документа;
не позволяет классифицировать документ по меткам конфиденциальности, т.к. не устанавливается степень конфиденциальности содержащихся в документе сведений, отсутствует возможность задания взаимосвязей между конфиденциальностью содержащихся в документе сведений и информационной областью, к которой он относится, при этом результатом работы способа является исключительно определение информационной области.
Известен также аналог - способ автоматической классификации документов (Пат. 6327581 США, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / Carlton J.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл.06.04.98; опубл. 04.12.01), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (SupportVectorMachines) и классификационных признаков определяют принадлежность документа к информационной области [2].
Недостатками данного способа являются:
невозможность однозначно установить степень конфиденциальности содержащихся в документе сведений ввиду того, что подсчет весов базовых словоформ производится независимо от контекста, в котором употреблялось исходное слово, что, в свою очередь, не позволяет учитывать при классификации формальную часть документа;
не позволяет классифицировать документ по меткам конфиденциальности, т.к. не устанавливается степень конфиденциальности содержащийся в документе сведений, отсутствует возможность задания взаимосвязей между конфиденциальностью содержащихся в документе сведений и информационной областью, к которой он относится, при этом результатом работы способа является исключительно определение информационной области.
Известен также аналог способ мультиклассовой классификации (Schapire R.E., SingerY. "BoosTexter: Aboosting-basedsystem for text categorization". Machine Learning 39, 2/3, 2000, pp. 135-168), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из информационной области [3].
Недостатками данного способа являются:
невозможность однозначно установить степень конфиденциальности содержащихся в документе сведений ввиду того, что подсчет весов базовых словоформ производится независимо от контекста, в котором употреблялось исходное слово, что, в свою очередь, не позволяет учитывать при классификации формальную часть документа;
не позволяет классифицировать документ по меткам конфиденциальности, т.к. не устанавливается степень конфиденциальности содержащийся в документе сведений, отсутствует возможность задания взаимосвязей между конфиденциальностью содержащихся в документе сведений и информационной областью, к которой он относится, при этом результатом работы способа является исключительно определение информационной области.
Также известен аналог способ автоматической классификации документов (Пат. 2254610 РФ, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт «СПЕЦВУЗАВТОМАТИКА». - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий [4].
Недостатками данного способа являются:
невозможность однозначно установить степень конфиденциальности содержащихся в документе сведений ввиду того, что подсчет весов базовых словоформ производится независимо от контекста, в котором употреблялось исходное слово, что, в свою очередь, не позволяет учитывать при классификации формальную часть документа;
не позволяет классифицировать документ по меткам конфиденциальности, т.к. не устанавливается степень конфиденциальности содержащийся в документе сведений, отсутствует возможность задания взаимосвязей между конфиденциальностью содержащихся в документе сведений и информационной областью, к которой он относится, при этом результатом работы способа является исключительно определение информационной области.
б) Описание ближайшего аналога (прототипа)
Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации формализованных документов в системе электронного документооборота (Пат. 2546555 РФ, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко С.В., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015. Бюл. №10), принятый за прототип, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа: на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей, на этапе определения принадлежности документа каждой из информационной области используют априорную информацию о зависимостях категорий друг от друга [5].
На этапе обучения по классификационным признакам (весам значимых слов) формируют систему предикатов идентификации признаков информационной части документа, систему предикатов сохраняют в базе данных. На этапе работы системы получившиеся значения весов значимых словоформ подставляют в систему предикатов, находящуюся в базе данных, определяя область информационной ответственности, к которой относится поступивший документ.
Недостатком данного способа является невозможность классификации поступившего документа по меткам конфиденциальности, т.к. отсутствует возможность задания взаимосвязей между конфиденциальностью содержащихся в документе сведений и информационной областью, к которой он относится, при этом результатом работы способа является исключительно определение информационной области [6].
Раскрытие изобретения (его сущность)
А. Технический результат, на достижение которого направлено изобретение
Целью настоящего изобретения является разработка способа автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота, обеспечивающего классификацию не только по областям информационной ответственности, но и по меткам конфиденциальности за счет введения системы предикатов узнавания метки конфиденциальности поступившего документа.
В. Совокупность существенных признаков
Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа: на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей, на этапе определения принадлежности документа к каждой информационной области используют априорную информацию о зависимостях категорий друг от друга, отличающийся тем, что на основе формальной части документа и определенной области информационной ответственности определяют метку конфиденциальности, соответствующую поступившему документу, на этапе обучения по набору классифицированных вручную признаков (весов значимых слов) формируют систему предикатов идентификации метки конфиденциальности поступившего документа, где количество предикатов в системе предикатов будет определяться количеством меток конфиденциальности, применяемых в автоматизированной системе и сохраняют систему предикатов в базе данных; на этапе работы системы получившиеся значения весов значимых словоформ подставляют в систему предикатов, находящуюся в базе данных.
Данный технический результат получают за счет того, что осуществляют выделение характеристик одинаковых участков текста Z={Zi}, где (реквизитов) формализованного документа. При этом количество различных реквизитов формализованного документа ограничено [ГОСТ P 6.30-2003], кроме того, некоторые из них не определяют индивидуальность формы документа (свойственные всем формам или не применяемые в данных условиях). Каждый реквизит выразим конечным предикатом P(Z, Т, L), где T - множество характеристик текста t, L={lq} - множество конечных предикатов узнавания ключевых слов lреквизита, где - количество всех используемых ключевых слов.
Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [7]:
где - предикат узнавания значения a h-й переменной текста; μ - количество переменных текста, ϕ - величина алфавита h-й переменной текста; - предикат узнавания значения b ключевого слова q, соответствующего i-й зоне.
Форма документа выразится конечным предикатом P(V, Z, L), где V={νj}, где - множество форм документа; β - количество всех используемых форм документов, Z={zi} - множество конечных предикатов реквизитов документа, где - количество всех реквизитов документов, L={lq}, где - множество ключевых слов, γ - количество всех используемых ключевых слов.
Правило построения предиката узнавания формы документа выразится следующей формулой [7]:
где ; zi - предикат узнавания реквизита для j-й формы документа; - предикат узнавания уникального значения с ключевого слова q j-й формы документа.
С использованием правил (1) и (2) создаются системы предикатов идентификации реквизитов и форм документов.
Форма документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по форме документа и определяемой соответствующим реквизитом степени конфиденциальности.
Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.
На этапе обучения по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством информационных областей, на которые необходимо классифицировать документы (количество исполнителей в автоматизированной системе). Сохраняют систему предикатов в базе данных.
Правило построения системы предикатов P(U,W) узнавания информационной области U={us}, где , выразится следующей формулой [7]:
где - предикат узнавания значения веса значимого слова wp, в тексте документа dy us-й информационной области по g-му значению веса слова, W={wp} - множество значимых слов текстов, где ; τ - количество значимых слов текстов.
Так как данный способ позволяет учитывать при классификации степень конфиденциальности содержащихся в документе сведений, важно понимать, что к автоматизированным системам, обрабатывающим сведения конфиденциального характера, предъявляются требования по осуществлению правомочного доступа, что, в свою очередь, обуславливает не только отнесение поступившего документа к области информационной ответственности (наделение определенного исполнителя набором прав доступа), но и присвоение документу определенной метки конфиденциальности [8, 9].
Однако не стоит отождествлять степень конфиденциальности документа, присвоенную ему исполнителем, и метку конфиденциальности, заданную в рамках автоматизированной системы. Идеальной ситуацией является та, в которой реквизиты четко отражают степень конфиденциальности сведений содержащихся в документе (за что, как правило, несут ответственность лица, разрабатывающие документ), а метки конфиденциальности строго им соответствуют. Однако одним из требований к системе разграничения доступа является четкое ее соответствие политике безопасности организации [10], т.е. если должностное лицо не имеет допуска к определенному виду документов в организации, то и в автоматизированной системе доступ должен быть запрещен. Так как обязанности должностных лиц не охватывают все документы определенной степени конфиденциальности, а ограничиваются необходимыми, то для однозначного выбора метки конфиденциальности одного реквизита недостаточно.
Для определения метки конфиденциальности проведем условное деление документа на формальную и информативную части. При данном подходе градации меток конфиденциальности документов возможны либо в рамках одной информационной области на основании реквизитов, либо в рамках определенных формальных признаков на основе информационных областей.
Следовательно, правило построения системы предикатов P(M,U,Zx) узнавания метки конфиденциальности М={mo}, где , о' - количество определенных в автоматизированной системе меток конфиденциальности, выразится следующей формулой:
где - предикат узнавания k-го реквизита, обозначающего степень конфиденциальности содержащихся в документе сведений, r-й переменной; mo - определенная в автоматизированной системе метка конфиденциальности объекта (документа dy), us - предикат узнавания s-й области, где , s' - количество информационных областей системы.
На этапе обучения по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации меток конфиденциальности, где количество предикатов в системе предикатов определяется количеством меток конфиденциальности заданных в автоматизированной системе, на которые необходимо классифицировать документы. Сохраняют систему предикатов в базе данных.
На этапе работы системы, при классификации текста, осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в системы предикатов (3) и (4), находящихся в базе данных. По предикатам в системах предикатов, принявшим значение истинности «1», определяются принадлежность к соответствующей информационной области или областям и метка конфиденциальности классифицируемого документа. При этом, в случае необходимости использования априорной информации о зависимостях информационных областей и меток конфиденциальности друг от друга используем алгебру конечных предикатов [11], позволяющую проводить полный спектр операций над логическими выражениями, а соответственно и над информационными областями и метками конфиденциальности, описанными конечными предикатами (добавление, исключение, сложение информационных областей и т.д.). Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.
Вес wp словоформы в тексте документа dy рассчитывается по формуле:
здесь - количество раз, которое wp-я словоформа встречается в dy-м тексте документа, - общее количество словоформ в dy-м тексте документа.
Документы для классификации могут быть представлены в различных форматах, допускающих выделение из них текстового содержания. Это могут быть текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание. Каждый документ (либо обучающий, либо подвергающийся классификации) предварительно проходит стадию первичной обработки, на которой производятся определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [12-15]. Наиболее часто для решения подобных задач используется алгоритм Портера [12], заключающийся в использовании специальных правил отсечения и замены окончаний слов.
Согласно предлагаемому способу каждый документ dy представляется декартовым произведением переменных из множеств T×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных как по областям информационной ответственности, так и по меткам конфиденциальности. После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.
При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора данной информационной области (исполнителя), определяемого по (3). В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной категории, не попавшие в стоп-словарь. Информативность словоформы wp для классификатора по информационной области us определяется по следующей формуле [16]:
.
При этом устанавливается порог информативности ε; в рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает этот порог. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом отсекаются слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 в зависимости от специфики использования способа. Значения порога информативности δ могут быть различны в разных условиях использования способа.
Однозначно определив область информационной ответственности, к которой относится документ по (3), используя извлеченные метаданные документа, а именно определяющие его конфиденциальность реквизиты документа, полученные по (1), определяется соответствующая ему метка конфиденциальности. Для этого указанные значения подставляются в систему предикатов, построенных по (4). По предикату, принявшему значение «1» из списка, определяется метка конфиденциальности.
Классификация текстов (информативных частей) документов и определение соответствующих им меток конфиденциальности производится путем вычисления значений систем предикатов. Системы предикатов строятся по правилу (3) и (4).
Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается от известного формированием на этапе обучения и применением на этапе классификации системы предикатов, строящейся по правилу (4).
В) Причинно-следственная связь между признаками и техническим результатом
Благодаря новой совокупности существенных признаков в способе реализована возможность обеспечивать классификацию не только по областям информационной ответственности, но и по меткам конфиденциальности.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Краткое описание чертежа
На чертеже представлена блок-схема вычислительного устройства для реализации способа.
Устройство для реализации способа (см. чертеж) состоит из блоков:
1 источника документов;
2 анализатора характеристик текста;
3 распознавания реквизитов документа;
4 распознавания формы документа;
5 выделения метаданных;
6 определения базовых словоформ;
7 создания рабочего словаря;
8 определения весов словоформ текста документа;
9 распознавания информационной области;
10 учета документа по метаданным;
11 обучения;
12 распознавания метки конфиденциальности;
13 адресации документа;
14 отправки в соответствии с полученной классификацией.
Осуществление изобретения
Согласно способу устройство работает следующим образом:
1. В режиме классификации
При появлении в источнике документов 1 нового документа он поступает в блок 2, который выявляет значения характеристик текста t участков документа и ключевых слов l в них. Значения t и l поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1), распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок 4, где система предикатов, построенная по правилу (2), осуществляет распознавание формы документа.
В блоке 5 из поступившего документа от блока 2, используя сведения об определенной форме документа из блока 4, которая однозначно задает места расположения значений реквизитов документа, выделяются требуемые значения реквизитов, которые являются метаданными документа. Документ и соответствующие ему метаданные поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Также однозначно определенная в блоке 5 информативная часть документа поступает в блок 6, где слова преобразуются в словоформы. Полученные в блоке 6 словоформы поступают в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.
Полученные в блоке 6 словоформы поступают в блок 8, где производится расчет весов словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов полученных словоформ поступают в блок 9, где происходит распознавание информационной области us путем вычисления значений предикатов системы предикатов, построенной по правилу (3).
Из блока 10 документ поступает в блок 13, а метаданные - в блок 12 и 13. В блоке 12 на основе поступивших из блока 10 метаданных, а именно реквизитов документа, и значений, полученных в блоке 9 на основе системы предикатов, построенной по правилу (4), определяется соответствующая классифицируемому документу метка конфиденциальности. В блоке 13 поступившему документу и метаданным из блока 10 на основе значений, поступивших из блоков 12 и 9, присваиваются соответствующие информационным областям права доступа и метка конфиденциальности классифицируемого документа.
Далее через блок 14 происходит поступление документа в автоматизированную систему (классификация в соответствии с информационной областью и меткой конфиденциальности).
2. В режиме обучения
Режим обучения системой используется в четырех случаях:
в случае невозможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и l. B этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»;
в случае невозможности распознавания системой предикатов формы документа в блоке 4 по значениям предикатов системы предикатов блока 3. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется форма документа «вручную»;
в случае невозможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря извлеченных из информативной части документа. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»;
в случае невозможности распознавания системой предикатов метки конфиденциальности в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную».
Таким образом, способ позволяет классифицировать документы с учетом степени конфиденциальности не только относя их к конкретной области информационной ответственности исполнителей, но и присваивая одну из определенных в автоматизированной системе меток конфиденциальности, чем достигается поставленный выше технический результат.
Источники информации
1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998.
2. Пат. 6327581 США, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01.
3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.
4. Пат. 2254610 РФ, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА". - №2003126907/09; заявл. 04.09.03; опубл.20.06.05.
5. Пат. 2546555 РФ, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко С.В., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. - №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015 - прототип.
6. Поддубный М.И. Анализ безопасности информации при применении модели отнесения документов автоматизированной системы к информационным областям ответственности исполнителей / М.И. Поддубный, И.Д. Королев // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №09(093). - IDA [article ID]: 0931309042. - Режим доступа: http://ej.kubagro.ru/2013/09/pdf/42.pdf.
7. Королев И.Д. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, С.В. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). - IDA [article ID]: 0921308074. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л.
8. "Руководящий документ. Средства вычислительной техники. Защита от несанкционированного доступа к информации. Показатели защищенности от несанкционированного доступа к информации" (утв. решением Гостехкомиссии России 30.03.1992).
9. "Руководящий документ. Автоматизированные системы. Защита от несанкционированного доступа к информации. Классификация автоматизированных систем и требования по защите информации" (утв. решением Гостехкомиссии России от 30.03.1992).
10. Проскурин В.Г. Защита в операционных системах: Учеб. пособие для высш. учеб. заведений / В.Г. Проскурин, С.В. Крутов, И.В. Мацкевич. - М.: «Радио и связь», 2000. - 168 с.
11. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст] // Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина. – 2011, №3(77).
12. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.
13. Пат. 2096825 РФ, МПК G06F 17/00, G06F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В.; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". - №96119820/09; заявл. 14.10.96; опубл. 20.11.97. Бюл. №14.
14. Пат. 6308149 США, МПК G06F 17/27. Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/213309; заявл. 16.12.98; опубл. 23.10.01.
15. Пат. 6430557 США, МПК G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/212662; заявл. 16.12.98; опубл.06.08.02.
16. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118(1-2), 2000, pp. 69-113.
Изобретение относится к системам классификации документов. Технический результат – автоматизация классификации конфиденциальных формализованных документов в системе электронного документооборота по областям информационной ответственности и по меткам конфиденциальности. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота заключается в выделении и анализе формальной части поступившего документа (реквизиты), осуществлении преобразования информативной части документа в текст на естественном языке, преобразования слов преобразованного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и тем самым формировании признаков документа. На этапе обучения по набору классифицированных вручную документов формируют системы предикатов идентификации признаков текста поступившего документа и сохраняют их в базе данных. При классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и определяют соответствующую ему метку конфиденциальности. 1 ил.
Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа: на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей, на этапе определения принадлежности документа к каждой информационной области используют априорную информацию о зависимостях категорий друг от друга, отличающийся тем, что на основе формальной части документа и определенной области информационной ответственности определяют метку конфиденциальности, соответствующую поступившему документу, на этапе обучения по набору классифицированных вручную признаков (весов значимых слов) формируют систему предикатов идентификации метки конфиденциальности поступившего документа, где количество предикатов в системе предикатов будет определяться количеством меток конфиденциальности, применяемых в автоматизированной системе, и сохраняют систему предикатов в базе данных; на этапе работы системы получившиеся значения весов значимых словоформ подставляют в систему предикатов, находящуюся в базе данных.
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА | 2013 |
|
RU2546555C1 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ | 2011 |
|
RU2474870C1 |
СПОСОБ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ДОКУМЕНТОВ | 2003 |
|
RU2254610C2 |
US 6237581 B1, 04.12.2001. |
Авторы
Даты
2018-03-16—Публикация
2015-12-07—Подача