Изобретение относится к фоносемантике - активно развивающейся в последние десятилетия лингвистической дисциплине и может быть применено для определения авторского почерка в текстах и их других особенностей, например, авторства.
Известны система и способ определения текста, содержащего конфиденциальные данные (см. RU 2665915 С1, 04.09.2018), согласно одному из вариантов реализации этого технического решения, здесь используется способ определения текста, содержащего конфиденциальные данные, в котором с использованием средства поиска осуществляют поиск ключевых слов в анализируемом тексте; с использованием средства разбора вычисляют плотность ключевых слов в анализируемом тексте, при этом упомянутая плотность ключевых слов вычисляется, в частности, одним из выражений: отношением количества символов в найденных в анализируемом тексте ключевых словах к количеству символов анализируемого текста; отношением количества найденных ключевых слов к общему количеству слов анализируемого текста; с использованием средства анализа определяют анализируемый текст как содержащий конфиденциальные данные, если плотность ключевых слов превысила пороговое значение. При этом каждому ключевому слову должен соответствует весовой коэффициент, учитывающийся при вычислении плотности ключевых слов, причем, если значение весового коэффициента для ключевого слова, содержащегося в анализируемом тексте, выше единицы, плотность ключевых слов увеличивается, в противном случае уменьшается.
К недостатку данного технического решения можно отнести техническую сложность вычисления плотности ключевых слов в анализируемом тексте с дальнейшим заданием им весовых коэффициентов, вносимых одинаковый вклад в плотность ключевых слов.
Наиболее близким техническим решением к предлагаемому является принятый авторами за прототип источник: Аюшеева Н.Н., Кушеева Т.Н. СПОСОБ РАСЧЕТА ВЕСОВЫХ КОЭФФИЦИЕНТОВ ВЕРШИН СЕМАНТИЧЕСКОЙ СЕТИ НАУЧНОГО ТЕКСТА // Фундаментальные исследования. - 2012. - №6-3. - С. 626-630. Здесь представлен способ расчета весовых коэффициентов вершин семантической сети научного текста. Построение семантической сети выполняется для решения задачи автоматического извлечения знаний из текстовых источников. Способ позволяет учитывать основные критерии значимости терминов научного текста, которые являются вершинами семантической сети. К основным критериям отнесены частота встречаемости термина в документе, категория фрагмента текста, в который входит термин, содержательно-смысловой блок, в котором термин встречается. При определении влияния каждого критерия использованы эвристические методы, методы статистической обработки, методы нечеткой логики. Приведены экспериментальные результаты, которые оказались достаточно правдоподобными. Вычисленные по найденной формуле весовые коэффициенты вершин семантической сети действительно адекватно отражают значимость терминов научного текста для определения его смысла.
Недостатком этого источника можно считать сложность процедуры определения значимости терминов текста посредством весовых коэффициентов и недостаточную точность в их определении, не учитывающих влияние фактора объема анализируемого текста на изучаемый процесс.
Техническим результатом данного устройства является упрощение процесса определения весовых коэффициентов служебных частей речи в тексте и повышение точности в их вычислении.
Технический результат достигается тем, что в устройство для определения весовых коэффициентов служебных частей речи в тексте, содержащее блок текста, первый вычислитель весовых коэффициентов, первый, второй и третий индикаторы, введены вычислитель слов в тексте, второй и третий вычислители весовых коэффициентов, причем первый выход блока текста соединен с входом вычислителя слов в тексте, второй, третий и четвертый выходы блока текста подключены соответственно к входам первого, второго и третьего вычислителей служебных частей речи в тексте, первый, второй и третий выходы вычислителя слов в тексте соединены соответственно с первыми входами первого, второго и третьего вычислителей весовых коэффициентов, первый, второй и третий выходы первого вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами первого вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы второго вычислителя служебных частей речи подключены ко второму, третьему и четвертому входам второго вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы третьего вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами третьего вычислителя весовых коэффициентов, первый, второй и третий выходы первого вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами первого индикатора соответственно, первый, второй и третий выходы второго вычислителя весовых коэффициентов подключены к первому, второму и третьему входам второго индикатора соответственно, первый, второй и третий выходы третьего вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами третьего индикатора соответственно. При этом первые, вторые и третьи выходы первого, второго и третьего индикаторов являются выходами устройства.
Сущность заявляемого изобретения, характеризуемого совокупностью указанных выше признаков, состоит в том, что на основе подсчета слов и служебных частей речи в тексте с дальнейшим их преобразованием (отношение) можно обеспечить определение весовых коэффициентов служебных частей речи в тексте.
Наличие в заявляемом способе совокупности перечисленных существующих признаков, позволяет решить задачу определения весовых коэффициентов служебных частей речи в тексте посредством деления количества служебных частей речи в тексте к общему числу слов в тексте с желаемым техническим результатом, т.е. упрощением процесса определения весовых коэффициентов служебных частей речи в тексте и повышением точности в их вычислении.
На чертеже представлена функциональная схема предлагаемого устройства.
Устройство содержит блок текста 1, вычислитель слов 2, первый вычислитель служебных частиц речи 3, второй вычислитель служебных частиц речи 4, третий вычислитель служебных частиц речи 5, первый вычислитель весовых коэффициентов 6, второй вычислитель весовых коэффициентов 7, третий вычислитель весовых коэффициентов 8, первый индикатор 9, второй индикатор 10 и третий индикатор 11.
Как известно, любому, например, литературному тексту (произведению) присуща авторская индивидуальность, упрощая, можно сказать, что каждый автор отличается своим складом речи. Судя по многочисленным лингвистическим исследованиям русского языка некоторые характерные особенности склада речи автора можно различать и по так называемым служебным частям речи - предлогам, союзам, частицам (см. Служебные части речи: предлог, частица, союз, foxord.ru. >русский язык>). Они отвечают не только за синтаксическую связность слов в предложении, и, хотя вроде бы по определению не имеют собственного лексического значения, тем не менее, в литературных текстах отчасти служат лексико-семантическими и стилистическими маркерами, некими показателями авторского стиля (почерка) речи, построения текста наряду с синтакстическим разбиением и интонированием.
Практика показывает, что использование знаменательных частей речи в текстах, например, имен существительных, прилагательных и глаголов зависит не столько от строя текста, сколько от его содержания. Причем частота употребления знаменательных частей речи в литературном тексте практически не определят индивидуальность автора, выбор знаменательных слов носит произвольных характер. В связи с этим в рассматриваемом случае выбор сделан на использовании служебных слов (частей речи) в тексте в виде предлогов «в», «с» и «на», союзов «и», «а» и «но» и частиц «не», «бы» и «же». Так как именно они могут оказаться определенными стилистическими маркерами в текстах, и определение их весовых коэффициентов в тексте, позволить установить авторский почерк и другие особенности того или иного текста.
Предлагаемое устройство, основывающееся на определении весовых коэффициентов выше указанных служебных частей речи и предназначенное для дальнейшего использования по установлению авторского почерка в тексте, работает следующим образом. Выходной сигнал по первому выходу блока текста 1 загруженный текстовым материалом одного автора в цифровом виде, и охватывающий рассматриваемый текст в полном объеме, подают на вход вычислителя слов 2. Здесь производят подсчет количества всех печатных слов N данного текста. Одновременно с этим этот же выходной сигнал блока текста по второму, третьему и четвертому выходам блока текста, направляют соответственно на входы первого, второго и третьего вычислителей служебных частей речи 3, 4 и 5. При этом в вычислителе 3 производят подсчет (частота повторения) в тексте предлогов «в», «с» и «на», в вычислителе 4 - союзов «и», «а» и «но» и в вычислителе 5 - частиц «не», «бы» и «же». После этого сигналы с первого, второго и третьего выходов выше указанных вычислителей 3, 4 и 5, соответствующие вышеотмеченным предлогам, союзам и частицам, подают на второй, третий четвертый входы вычислителей весовых коэффициентов 6, 7 и 8 соответственно. Согласно работе предлагаемого устройства на первые входы вычислителей 6, 7 и 8 поступает выходной сигнал вычислителя слов 2.
Обозначим частоту повторения (количество) в тексте предлогов nв, nc и nна, вычисленных в вычислителе 3, союзов - nи, na и nно, вычисленных в вычислителе 4 и частиц - nне, nбы и nже, вычисленных в вычислителе 5. Информационные выходные сигналы этих блоков, соответствующие количествам вычисленных предлогов, союзов и частицам, как уже было показано выше, поступают далее на соответствующие входы блоков 6, 7 и 8.
После поступления всех выше указанных входных сигналов параметрами N, nв, nc и nна, nи, na и nно, и nне, nбы и nже, в вычислители 6, 7 и 8, здесь для определения весовых коэффициентов служебных частей речи производят деления следующих отношений: Kв=nв/N; Kc=nc/N; Kна=nна/N; Kи=nи/N; Ka=na/N; Kно=nно/N; Kне=nне/N; Kбы=nбы/N; Kже=nже/N. Другими словами, на трех выходах блоков 6, 7 и 8 одновременно можно получить сигналы, характеризующие значения весовых коэффициентов по каждой служебной частей речи в тексте. После этого, по первому, второму и третьему выходам блоков 6, 7 и 8 сигналы соответственно поступают на первый, второй и третий входы первого, второго и третьего индикаторов 9, 10 и 11. В этих блоках благодаря преобразованию входных сигналов, на их первом, втором и третьем выходах можно получить информацию обо всех рассчитанных весовых коэффициентах служебных частей речи Kв, Kc, Kна, Kи, Ka, Kно, Kне, Kбы, и Kже в процентах. Следовательно, по этим численным значениям весовых коэффициентов служебных слов исследуемого текста, можно судить, например, об авторском почерке, стиле, выражающих собственное мастерство и творческую мысль автора.
Таким образом, в предлагаемом техническом решении на основе проведения деления служебных частей речи в тексте к общему количеству слов в тексте можно обеспечить упрощение процесса определения весовых коэффициентов служебных частиц речи в тексте и повышение точности в их вычислении.
Предлагаемое устройство в ряде случаев успешно может быть использовано для установления авторства текста при сравнении однотипных весовых коэффициентов, полученных при анализе исследуемых по родственному сюжету двух и более текстов разных авторов с учетом заранее известных их объемов печатных знаков и значений весовых коэффициентов служебных частей речи предположительно в одном тексте известного автора.
Изобретение относится к фоносемантике - активно развивающейся в последние десятилетия лингвистической дисциплине и может быть применено для определения авторского почерка в текстах и их других особенностей, например, авторства. Техническим результатом данного устройства является упрощение процесса определения весовых коэффициентов служебных частей речи в тексте и повышение точности в их вычислении. Технический результат достигается тем, что в устройство для определения весовых коэффициентов служебных частей речи в тексте, содержащее блок текста, первый вычислитель весовых коэффициентов, первый, второй и третий индикаторы, введены вычислитель слов в тексте, второй и третий вычислители весовых коэффициентов, причем первый выход блока текста соединен с входом вычислителя слов в тексте, второй, третий и четвертый выходы блока текста подключены соответственно к входам первого, второго и третьего вычислителей служебных частей речи в тексте, первый, второй и третий выходы вычислителя слов в тексте соединены соответственно с первыми входами первого, второго и третьего вычислителей весовых коэффициентов, первый, второй и третий выходы первого вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами первого вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы второго вычислителя служебных частей речи подключены ко второму, третьему и четвертому входам второго вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы третьего вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами третьего вычислителя весовых коэффициентов, первый, второй и третий выходы первого вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами первого индикатора соответственно, первый, второй и третий выходы второго вычислителя весовых коэффициентов подключены к первому, второму и третьему входам второго индикатора соответственно, первый, второй и третий выходы третьего вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами третьего индикатора соответственно. При этом первые, вторые и третье выходы первого, второго и третьего индикаторов являются выходами устройства. 1 ил.
Устройство для определения весовых коэффициентов служебных частей речи в тексте, содержащее блок текста, первый вычислитель весовых коэффициентов, первый, второй и третий индикаторы, отличающееся тем, что в него введены вычислитель слов в тексте, второй и третий вычислители весовых коэффициентов, первый, второй и третий вычислители служебных частей речи в тексте, причем первый выход блока текста соединен с входом вычислителя слов в тексте, второй, третий и четвертый выходы блока текста подключены соответственно к входам первого, второго и третьего вычислителей служебных частей речи в тексте, первый, второй и третий выходы вычислителя слов в тексте соединены соответственно с первыми входами первого, второго и третьего вычислителей весовых коэффициентов, первый, второй и третий выходы первого вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами первого вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы второго вычислителя служебных частей речи подключены ко второму, третьему и четвертому входам второго вычислителя весовых коэффициентов соответственно, первый, второй и третий выходы третьего вычислителя служебных частей речи соединены со вторым, третьим и четвертым входами третьего вычислителя весовых коэффициентов, первый, второй и третий выходы первого вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами первого индикатора соответственно, первый, второй и третий выходы второго вычислителя весовых коэффициентов подключены к первому, второму и третьему входам второго индикатора соответственно, первый, второй и третий выходы третьего вычислителя весовых коэффициентов соединены с первым, вторым и третьим входами третьего индикатора соответственно, при этом первые, вторые и третьи выходы первого, второго и третьего индикаторов являются выходами устройства.
Система и способ определения текста, содержащего конфиденциальные данные | 2017 |
|
RU2665915C1 |
СПОСОБ ОБНАРУЖЕНИЯ ТЕКСТОВЫХ ОБЪЕКТОВ | 2012 |
|
RU2498401C2 |
СПОСОБ ПОИСКА ПОХОЖИХ ПО СМЫСЛОВОМУ СОДЕРЖИМОМУ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ | 2009 |
|
RU2420800C2 |
СПОСОБ ПОИСКА ПОХОЖИХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ | 2014 |
|
RU2571539C2 |
Авторы
Даты
2025-06-03—Публикация
2024-04-19—Подача