Показать метаданные Скрыть метаданные

(19)

(11)

2 568 272

(13)

(51)

МПК

G06F17/00(2006-01-01)

(21) (22)

Заявка

2014115194/08, 2014-04-16

(24)

Дата начала отсчета патента

2014-04-16

(22)

дата подачи заявки

2014-04-16

(45)

опубликовано

2015-11-20

(72)

авторы

Бурба Александр АлексеевичПолтавский Александр ВасильевичРусяева Елена Юрьевна

(73)

патентообладатели

Бурба Александр АлексеевичПолтавский Александр ВасильевичРусяева Елена Юрьевна

(56)

Документы, цитированные в отчете о поиске

УСТРОЙСТВО ДЛЯ СОДЕРЖАТЕЛЬНОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ Российский патент 2015 года по МПК G06F17/00

Описание патента на изобретение RU2568272C2

Изобретение относится к вычислительной технике и может быть использовано при расчетах, связанных с идентификацией текстовой информации в случаях определения ее автора.

Заявителям неизвестно о том, чтобы такая техническая задача решалась подобным образом. Это объясняется тем, что отсутствуют числовые методы содержательного анализа различных частей текстовой информации.

Техническим результатом заявленного решения является повышение уровня достоверности определения авторства текстовой информации и расширение арсенала технических средств. Это дает возможность принимать более объективные решения при защите авторских прав создателей текстовой информации.

Числовой содержательный анализ текстовой информации осуществляется следующим образом. Два отрывка текстовой информации можно сравнить путем сопоставления информации о вероятностях появления какой-либо буквы в двух различных отрывках. Среднее значение разности ΔP_ср между вероятностью появления i-й буквы отрывка «а» P_аi, и вероятностью появления j-й буквы отрывка «б» P_бj оценивается по следующей формуле:

$Δ P_{с р} = \frac{1}{n} \sum_{k \equiv 1}^{n} {| P_{а i} - P_{б j} |}_{k}, k = 1, \dots n, (1)$

i=1, …, m_аi, j=1, …, m_бj,

где n - количество букв в алфавите

m_аi - количество i-й буквы в отрывке «а»,

m_бj - количество j-й буквы в отрывке «б».

Сравнивая величину ΔP_ср с допустимым значением ΔP_д, можно сделать вывод о принадлежности двух отрывков «а» и «б» текстовой информации одному автору. Если ΔP_ср≤ΔP_д, то отрывки «а» и «б» принадлежат одному автору. В противном случае (ΔP_ср>ΔP_д) авторы этих отрывков различны.

Вероятности P_аi, и P_бj определяются по следующим формулам:

$P_{а i} = \frac{m_{а i}}{N_{а}}, i = 1 \dots, m_{а}, (2)$

$P_{б i} = \frac{m_{б i}}{N_{б}}, j = 1, \dots, m_{б}, (3)$

где N_а - общее количество букв в отрывке «а»,

N_б - общее количество букв в отрывке «б».

Для иллюстрации разработанного подхода целесообразно рассмотреть пример. В качестве объектов содержательного анализа можно использовать стихотворения Иосифа Бродского «Одиссей Телемаку» (отрывок «а») и «На смерть Жукова» (отрывок «б»).

Одиссей Телемаку

Мой Телемак,

Троянская война

окончена. Кто победил - не помню.

Должно быть, греки: столько мертвецов

вне дома бросить могут только греки…

И все-таки ведущая домой

дорога оказалась слишком длинной,

как будто Посейдон, пока мы там

теряли время, растянул пространство.

Мне неизвестно, где я нахожусь,

что передо мной. Какой-то грязный остров,

кусты, постройки, хрюканье свиней,

заросший сад, какая-то царица,

трава да камни… Милый Телемак,

все острова похожи друг на друга,

когда так долго странствуешь, и мозг

уже сбивается, считая волны,

глаз, засоренный горизонтом, плачет,

и водяное мясо застит слух.

Не помню я, чем кончилась война,

и сколько лет тебе сейчас, не помню.

Расти большой, мой Телемак, расти.

Лишь боги знают, свидимся ли снова.

Ты и сейчас уже не тот младенец,

перед которым я сдержал быков.

Когда б не Паламед, мы жили вместе.

Но, может быть, и прав он: без меня

ты от страстей Эдиповых избавлен,

и сны твои, мой Телемак, безгрешны.

На смерть Жукова

Вижу колонны замерших внуков,

гроб на лафете, лошади круп.

Ветер сюда не доносит мне звуков

русских военных плачущих труб.

Вижу в регалии убранный труп:

в смерть уезжает пламенный Жуков.

Воин, пред коим многие пали

стены, хоть меч был вражьих тупей,

блеском маневра о Ганнибале

напоминавший средь волжских степей.

Кончивший дни свои глухо, в опале,

как Велизарий или Помпей.

Сколько он пролил крови солдатской

в землю чужую! Что ж, горевал?

Вспомнил ли их, умирающий в штатской

белой кровати? Полный провал.

Что он ответит, встретившись в адской

области с ними? «Я воевал».

К правому делу Жуков десницы

больше уже не приложит в бою.

Спи! У истории русской страницы

хватит для тех, кто в пехотном строю

смело входили в чужие столицы,

но возвращались в страхе в свою.

Анализ этих текстов показывает, что общее количество букв в отрывке «a» N_а=745, a в отрывке «б» N_б=611. Количество букв в русском алфавите n=33. Количество i-й буквы m_аi в отрывке «а» и j-й буквы m_бj в отрывке «б» приведены в таблице 1, вероятности появления i-й буквы отрезка «а» P_аi, и i-й буквы отрезка «б» P_бj, определяемые по формулам, соответственно (2) и (3), представлены также в таблице 1.

Таблица 1 Вероятности появления различных букв в двух стихотворениях. Буквы русского алфавита А Б В Г Д Е Е Ж З И Й m_аi 60 14 25 16 25 60 1 8 13 40 18 P_аi 0,081 0,019 0,034 0,021 0,034 0,081 0,001 0,011 0,017 0,054 0,024 m_бj 36 10 45 6 12 41 1 12 6 54 15 P_бj 0,059 0,016 0,074 0,010 0,020 0,067 0,002 0,020 0,010 0,088 0,025 |P_аi-P_бj| 0,022 0,003 0,040 0,011 0,014 0,014 0,001 0,009 0,007 0,034 0,001

Продолжение таблицы 1 Буквы русского алфавита К Л М Н О П Р С Т У Ф m_аi 33 30 34 46 83 15 33 45 54 12 0 P_аi 0,044 0,040 0,046 0,062 0,111 0,020 0,044 0,060 0,072 0,016 0 m_бj 23 35 18 34 61 20 30 33 34 24 1 P_бj 0,038 0,057 0,029 0,056 0,100 0,033 0,049 0,054 0,056 0,039 0,002 |P_аi-P_бj| 0,006 0,017 0,017 0,006 0,011 0,013 0,005 0,006 0,016 0,023 0,002

Окончание таблицы 1 Буквы русского алфавита Х Ц Ч Ш Щ Ъ Ы Б Э Ю Я m_аi 5 4 8 6 1 0 16 13 1 5 17 P_аi 0,007 0,005 0,011 0,008 0,001 0 0,021 0,017 0,001 0,007 0,023 m_бj 14 3 7 6 3 0 10 8 0 7 2 P_бj 0,023 0,005 0,011 0,010 0,005 0 0,016 0,013 0, 0,011 0,003 |P_аi-P_бj| 0,016 0 0 0,002 0,004 0 0,005 0,004 0,001 0,004 0,020

В нижней строке таблицы 1 размещены величины модуля разности |P_аi-P_бj|.

Сумма этих величин равна 0,334, среднее значение разности ΔP_ср между вероятностью появления i-й буквы отрывка «а» P_аi и вероятностью появления i-й буквы отрывка «б» P_бj оценивается по формуле (1):

$Δ P_{с р} = \frac{1}{33} \cdot 0,334 = 0,01$

Если принять допустимое значение этой вероятности ΔP_д=0,02, то можно делать вывод о том, что отрывки «а» и «б» принадлежат одному автору.

Технический результат достигается тем, что устройство для содержательного анализа текстовой информации содержит первую и вторую группы входных регистров, состоящие из n элементов, с первого по четвертый входные регистры, первую и вторую группы блоков деления, состоящие из n элементов, группу блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор, блок деления, блок сравнения, блок индикации, генератор тактовых импульсов и распределитель импульсов (РИ), тактовый вход которого соединен с выходом генератора тактовых импульсов, первый выход РИ - с входами записи первой и второй групп входных регистров, а также с входами записи первого, второго, третьего и четвертого входных регистров, второй выход - с входами считывания первой и второй групп входных регистров, а также первого и второго входных регистров, третий и четвертый выходы - с входами считывания соответственно третьего и четвертого входных регистров, информационные входы с первого по n-й элементов первой группы входных регистров являются входом задания исходной информации, на которые поступают значения m_аi, характеризующие количество i-й буквы в отрывке «а», информационные входы с первого по n-й элементов второй группы входных регистров являются входом задания исходной информации, на которые поступают значения m_бj, характеризующие количество j-й буквы в отрывке «б», информационные входы с первого по четвертый входных регистров являются входами задания исходной информации, на которые поступают соответственно значение Ν_а, характеризующее общее количество букв отрывка «а», значение Ν_б, характеризующее общее количество букв в отрывке «б», значение n, характеризующее количество букв в алфавите, значение ΔP_д, характеризующее величину допустимого значения средней разности между вероятностью появления i-й буквы отрывка «а» и вероятностью появления j-й буквы в отрывке «б», выходы, с первого по n-й, элементов первой и второй групп входных регистров соединены с входами делимого каждого соответствующего элемента соответственно первой и второй групп блоков деления, входы делителя которых подключены к выходам соответственно первого и второго входных регистров, а выходы - соответственно к выходам уменьшаемого и к входам вычитаемого группы блоков вычитания по модулю, выходы которых соединены с входами, с первого по n-й, накопительного сумматора, выход которого подключен к входу делимого блока деления, вход делителя которого соединен с выходом третьего входного регистра, а выход - с информационным входом блока сравнения, пороговый вход которого подключен к выходу четвертого входного регистра, а выход - к входу блока индикации.

На фиг. 1 представлена функциональная схема устройства для содержательного анализа текстовой информации (для ликвидации громоздкости связи между РИ и управляющими входами соответствующих блоков показаны не полностью, а обозначены путем нумерации входов и выходов); на фиг. 2 изображена циклограмма работы заявленного устройства (на оси ординат обозначены номера входов РИ, а по оси абсцисс - число тактов), причем длительность различных вычислительных операций (сложение и вычитание - один такт, деление - двенадцать тактов) в верхней части фиг. 2.

Устройство для содержательного анализа текстовой информации (фиг. 1) содержит первую 1 и вторую 2 группы входных регистров, каждая из которых состоит из n элементов, первый 3, второй 4, третий 5 и четвертый 6 входные регистры, первую 7 и вторую 8 группы блоков деления, каждая из которых состоит из n элементов, группу 9 блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор 10, блок 11 деления, блок 12 сравнения, блок 13 индикации, генератор 14 тактовых импульсов и распределитель 15 импульсов.

Устройство для содержательного анализа текстовой информации работает следующим образом. На информационные входы с первого по n-й элементов первой группы 1 входных регистров (фиг. 1) засылаются соответственно величины m_а1, …m_аi, …m_аn, а на информационные входы с первого по n-й элементов второй группы 2 входных регистров подаются соответственно значения m_б1, …m_бi, …m_бn.

На информационные входы первого 3, второго 4, третьего 5 и четвертого 6 входных регистров направляются соответственно величины N_а, N_б, n и ΔP_д. При этом управляющий сигнал на входы записи всех элементов этих групп входных регистров и входных регистров подается с первого выхода РИ 15, темп работы которого задается генератором 14 тактовых импульсов.

По сигналу со второго выхода РИ 15 на входы считывания первой 1 и второй 2 групп входных регистров величины m_аi и m_бj с их выходов засылаются на входы делимого соответственно первой 7 и второй 8 групп блоков деления. На входы делителя этих групп направляются по сигналу со второго выхода РИ 15 с выходов соответственно первого 3 и второго 4 входных регистров значения N_а и N_б. С выходов первой 7 и второй 8 групп блоков деления величины P_аi, и P_бj, определяемые по формулам (2) и (3), поступают соответственно на входы уменьшаемого и входы вычитаемого группы 9 блоков вычитания по модулю. С выходов этой группы величины |P_аi-P_бj|_k засылаются на входы накопительного сумматора 10, с выхода которого значение $\frac{1}{n} \sum_{k \equiv 1}^{n} {| P_{а i} - P_{б j} |}_{k}$ , подается на вход делимого блока 11 деления. На вход делителя этого блока по сигналу с третьего выхода РИ 15 направляется с выхода третьего входного регистра 5 величина n. С выхода блока 11 деления значение ΔP_ср, определяемое по формуле (1), поступает на информационный вход блока 12 сравнения, на пороговый вход которого по сигналу с четвертого выхода РИ 15 засылается с выхода четвертого входного регистра 6 величина ΔP_д.

Если ΔP_ср≤ΔP_д (отрывки «а» и «б» принадлежат одному автору) на выходе блока 12 сравнения появится сигнал, который приведет к загоранию блока 13 индукции. В противном случае, когда ΔP_ср>ΔP_д сигнала на выходе блока 12 сравнения не будет и блок 13 индукции не засветится, это будет свидетельствовать о том, что отрывки «а» и «б» принадлежат разным авторам. Порядок функционирования блоков устройства представлен на циклограмме его работы (фиг. 2).

Таким образом, технический результат достигается не за счет математического аппарата, а за счет технических средств (блоков и элементов), упомянутых в процессе описания работы устройства, осуществляющего повышение уровня достоверности определения авторства текстовой информации и расширение арсенала технических средств.

Промышленная применимость изобретения обосновывается тем, что оно может быть использовано в разных областях (отраслях) при расчетах, связанных с идентификацией текстовой информации в случаях определения ее автора с целью принятия объективных решений при защите авторских прав создателей текстовой информации.

Иллюстрации к изобретению RU 2 568 272 C2

Реферат патента 2015 года УСТРОЙСТВО ДЛЯ СОДЕРЖАТЕЛЬНОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ

Изобретение относится к вычислительной технике, а именно к идентификации текстовой информации в случаях определения ее автора. Технический результат - повышение уровня достоверности определения авторства текстовой информации. Устройство содержит группы входных регистров, входные регистры группы блоков деления, группу блоков вычитания по модулю, накопительный сумматор, блок деления, блок сравнения, блок индикации, генератор тактовых импульсов и распределитель импульсов. 2 ил., 1 табл.

Формула изобретения RU 2 568 272 C2

Устройство для содержательного анализа текстовой информации, содержащее первую и вторую группы входных регистров, состоящие из n элементов, с первого по четвертый входные регистры, первую и вторую группы блоков деления, состоящие из n элементов, группу блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор, блок деления, блок сравнения, блок индикации, генератор тактовых импульсов и распределитель импульсов (РИ), тактовый вход которого соединен с выходом генератора тактовых импульсов, первый выход РИ - с входами записи первой и второй групп входных регистров, а также с входами записи первого, второго, третьего и четвертого входных регистров, второй выход - с входами считывания первой и второй групп входных регистров, а также первого и второго входных регистров, третий и четвертый выходы - с входами считывания соответственно третьего и четвертого входных регистров, информационные входы с первого по n-й элементов первой группы входных регистров являются входом задания исходной информации, на которые поступают значения m_аi, характеризующие количество i-й буквы в отрывке «а», информационные входы с первого по n-й элементов второй группы входных регистров являются входом задания исходной информации, на которые поступают значения m_бj, характеризующие количество j-й буквы в отрывке «б», информационные входы с первого по четвертый входных регистров являются входами задания исходной информации, на которые поступают соответственно значение Ν_а, характеризующее общее количество букв отрывка «а», значение Ν_б, характеризующее общее количество букв в отрывке «б», значение n, характеризующее количество букв в алфавите, значение ΔP_∂, характеризующее величину допустимого значения средней разности между вероятностью появления i-й буквы отрывка «а» и вероятностью появления j-й буквы в отрывке «б», выходы, с первого по n-й, элементов первой и второй групп входных регистров соединены с входами делимого каждого соответствующего элемента соответственно первой и второй групп блоков деления, входы делителя которых подключены к выходам соответственно первого и второго входных регистров, а выходы - соответственно к выходам уменьшаемого и к входам вычитаемого группы блоков вычитания по модулю, выходы которых соединены с входами, с первого по n-й, накопительного сумматора, выход которого подключен к входу делимого блока деления, вход делителя которого соединен с выходом третьего входного регистра, а выход - с информационным входом блока сравнения, пороговый вход которого подключен к выходу четвертого входного регистра, а выход - к входу блока индикации.

Документы, цитированные в отчете о поиске Патент 2015 года RU2568272C2

Аппарат для замера уровней жидкостей в скважинах	1941	Каспаров С.К.	SU62263A1
СПОСОБ ИДЕНТИФИКАЦИИ ПРОИЗВЕДЕНИЙ ЖИВОПИСИ НА ПРЕДМЕТ ИХ АВТОРСТВА	2007	Кастальская-Бороздина Наталья Кирилловна	RU2333613C1
Мяльно-трепальный станок для обработки тресты лубовых растений	1922	Клубов В.С.	SU200A1
Способ приготовления лака	1924	Петров Г.С.	SU2011A1
Колосоуборка	1923	Беляков И.Д.	SU2009A1

RU 2 568 272 C2

Авторы

Бурба Александр Алексеевич

Полтавский Александр Васильевич

Русяева Елена Юрьевна

Даты

2015-11-20—Публикация

2014-04-16—Подача

название	год	авторы	номер документа
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ПРЕДПОЧТИТЕЛЬНОГО УРОВНЯ УНИФИКАЦИИ ТЕХНИЧЕСКИХ СИСТЕМ	2013	Бурба Александр Алексеевич Полтавский Александр Васильевич Русяева Елена Юрьевна	RU2519049C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ЭКОНОМИЧЕСКОЙ ЭФФЕКТИВНОСТИ ПРОЦЕССА УПРАВЛЕНИЯ СЛОЖНЫМИ СИСТЕМАМИ	2014	Бурба Александр Алексеевич Полтавский Александр Васильевич Русяева Елена Юрьевна	RU2541859C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ЭФФЕКТИВНОСТИ	2006	Бурба Александр Алексеевич Клышинская Ольга Ивановна Полтавский Александр Васильевич	RU2306598C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН И ЕЕ ТОЛЕРАНТНЫХ ГРАНИЦ ПО МАЛЫМ ВЫБОРКАМ	2014	Бурба Александр Алексеевич	RU2553120C1
УСТРОЙСТВО ДЛЯ ТЕХНИКО-ЭКОНОМИЧЕСКОЙ ОЦЕНКИ ВЫПОЛНЕНИЯ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ И ОПЫТНО-КОНСТРУКТОРСКИХ РАБОТ	2011	Бурба Александр Алексеевич Токарев Виктор Евгеньевич	RU2470365C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ КАЧЕСТВА ОБУЧЕНИЯ РАБОТЕ С КОМПЬЮТЕРОМ	2007	Бурба Александр Алексеевич Русецкая Маргарита Николаевна Полтавский Александр Васильевич Ходченкова Ольга Андреевна	RU2330323C1
УСТРОЙСТВО ДЛЯ КОЛИЧЕСТВЕННОЙ ОЦЕНКИ КАЧЕСТВЕННОГО ПОКАЗАТЕЛЯ	2011	Бурба Александр Алексеевич Токарев Виктор Евгеньевич	RU2448364C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ВЫПОЛНЕНИЯ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ И ОПЫТНО-КОНСТРУКТОРСКИХ РАБОТ	2009	Бурба Александр Алексеевич Токарев Виктор Евгеньевич	RU2410750C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ И СРАВНЕНИЯ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ ОДНОТИПНЫХ ОРГАНИЗАЦИЙ	2008	Бурба Александр Алексеевич Полтавский Александр Васильевич Аверкин Александр Евтанович Дубровский Павел Владимирович Авдеенка Екатерина Сергеевна	RU2363042C1
УСТРОЙСТВО ДЛЯ ОЦЕНКИ ПРЕДПОЧТИТЕЛЬНОГО УРОВНЯ УНИФИКАЦИИ ТЕХНИЧЕСКИХ СИСТЕМ	2010	Бурба Александр Алексеевич Семенов Сергей Сергеевич	RU2427900C1