Показать метаданные Скрыть метаданные

(19)

(11)

2 684 578

(13)

(51)

МПК

G06F17/27(2006-01-01)

(21) (22)

Заявка

2017125468, 2017-07-17

(24)

Дата начала отсчета патента

2017-07-17

(22)

дата подачи заявки

2017-07-17

(45)

опубликовано

2019-04-09

(72)

авторы

(73)

патентообладатели

Общество С Ограниченной Ответственностью Инфовотч"

(56)

Документы, цитированные в отчете о поиске

CN 106326484 A, 11.01.2017CN 105468584 A, 06.04.2016KR 100771311 B1, 29.10.2007.

Языконезависимая технология исправления опечаток, с возможностью верификации результата Российский патент 2019 года по МПК G06F17/27

Описание патента на изобретение RU2684578C2

В современном мире остро стоит проблема классификации текстовых данных. В области DLP (Data Leak Prevention) - технологий по предотвращению утечек конфиденциальной информации из информационной системы вовне, классификация данных необходима для упорядочивания текстовой информации, а так же для предотвращения утечек информации на заданные темы, например, секретных документов, корпоративной информации и иных конфиденциальных документов (баз данных клиентов, выгрузок баз из корпоративных систем, персональных данных клиентов, сотрудников, контрагентов, коммерческая тайна, ноу-хау, производственные секреты, медицинская тайна и т.д.).

В текстах, набранных человеком, обычно довольно значимая доля опечаток. Например, по исследованиям Яндекса (https://yandex.ru/company/researches/2009/ya_search_2009/#toc7) доля опечаток в поисковых запросах - 13% и это с учетом подсказок поисковика. В поисковиках без подсказок - около 18%.

Для более точной классификации текстовых данных необходим способ исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Предлагаемое решение позволяет повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора.

Известен способ проверки орфографии в сети (патент США «Network-based spell checker», US 20020194229 А1, дата публикации 19.12.2001). Указанный способ определяет незнакомое слово, генерирует, по меньшей мере, одно альтернативное написание незнакомого слова, чтобы создать вариант слова, учитывая незнакомое слово и вариант, по меньшей мере, одного слова в поисковой системе, выполненный с возможностью поиска частоты использования незнакомого слова и, по меньшей мере, один вариант слова и представляет результаты поиска слова для пользователя.

Указанный способ определяет возможность выявления орфографических ошибок в тексте и замену неправильных слов на «условно правильные», существующие в базе данных слов или в Интернете, или добавлять свой вариант правильного написания слова в базу данных, не осуществляет замену кириллических букв латинскими и наоборот.

В данном способе опечатки ищутся для всех слов, в заявляемом способе - только для слов, которые используются как термины для классификации, т.е. в заявленном способе заявитель мы не производит лишней работы, что в итоге приводит к тому, что заявленный алгоритм для решения поставленных задач работает быстрее.

Известен способ фоновой проверки орфографии в документе (патент США «Method for background spell checking a word processing document», US 5649222, дата публикации 15.07.1997). Указанный способ выполняет проверку орфографии в документе в фоновом режиме во время периодов ожидания, когда текстовый процессор находится в режиме редактирования (т.е. когда пользователь не печатает или не выполняет команды).

Для работы данного изобретения нужен текстовый процессор, кроме того метод ориентирован на статический текст. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста.

Таким образом, существует потребность в улучшении качества классификации текстовых данных за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора, улучшить результаты работы классификатора, уменьшить или полностью исключить доли полученных опечаток в набираемых человеком текстах, и преодолеть недостатки известных решений.

Для работы заявленного алгоритма необходимы следующие данные:

1. Список слов (и/или терминов) используемых при классификации - онтология, которая необходима для реализации эффективного поиска.

2. Желательно, но не обязательно морфологические словари различных языков.

Шаги алгоритма следующие:

1. На вход в систему анализа поступает текст.

2. Текст разбивают на лексемы (по небуквенным символам). Лексема - слово, выражение, оборот речи, в лингвистике - слово как абстрактная единица морфологического анализа. В одну лексему объединяются разные парадигматические формы (словоформы) одного слова.

3. Для каждой лексемы выполняют следующие действия:

1) Проверяют словарность лексемы, т.е. ищут данное сочетание букв во всех морфологических словарях. Если словарей нет, то пропускают этот шаг.

2) Если предложенной лексемы нет ни в одном морфологическом словаре, либо в систему не загружены словари, то переходят к п. 3, иначе заканчивают обработку.

3) Из онтологии выбирают все термины, длина которых на 1 меньше, равна, либо на 1 больше длинны предложенной лексемы.

4) Для каждого термина из п. 3.3 считают Расстояние Левенштейна до текущей лексемы. Это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.

5) Если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов.

4. На выходе алгоритма получают список терминов, для которых в анализируемом тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1 и не являющиеся словарными формами данного языка.

Полученный результат можно использовать для повышения качества классификации текстов, уменьшения или полного исключения доли полученных опечаток в набираемых человеком текстах.

Кроме того, так же сказывается и окружение данных. В мессенджерах опечаток может быть еще больше, так как пользователи не считают эту переписку деловой и относятся к ней без должного внимания. Т.е. данный способ применим и для классификации текста в мессенджерах. При этом, например, в системах DLP довольно часто нужно классифицировать и переписку в мессенджерах.

Реферат патента 2019 года Языконезависимая технология исправления опечаток, с возможностью верификации результата

Изобретение относится к области обработки данных, а именно к классификации текстовых данных. Технический результат - более точная классификация текстовых данных путем исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Данный результат достигается за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым будет повышена полнота и точность работы классификатора, улучшены результаты работы классификатора, уменьшены или полностью исключены доли полученных опечаток в набираемых человеком текстах и преодолены недостатки известных решений. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста. 2 з.п. ф-лы.

Формула изобретения RU 2 684 578 C2

1. Способ выделения из анализируемого текста слов и/или терминов, используемых при классификации текстов, состоящий из следующих этапов:

- создание списка слов и/или терминов, используемых при классификации;

- получение текста в систему анализа;

- идентификация текста в системе анализа;

- разбивка текста по небуквенным символам на лексемы;

- из списка слов и/или терминов выбирают все термины, длина которых на 1 меньше, равна либо на 1 больше длины предложенной лексемы;

- для каждого термина из списка считают Расстояние Левенштейна до текущей лексемы;

- если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов;

- получают список терминов, для которых в тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1, и не являющиеся словарными формами данного языка.

2. Способ по п. 1, в котором используют морфологические словари различных языков.

3. Способ по пп. 1, 2, в котором поиск сочетания букв осуществляют во всех присутствующих в системе морфологических словарях.

Документы, цитированные в отчете о поиске Патент 2019 года RU2684578C2

Способ приготовления мыла	1923	Петров Г.С. Таланцев З.М.	SU2004A1
CN 106326484 A, 11.01.2017
CN 105468584 A, 06.04.2016
СПОСОБ И СИСТЕМА АНАЛИЗА РАСПЕЧАТАННОГО ДОКУМЕНТА НА НАЛИЧИЕ В НЕМ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ	2008	Варлыгин Роман Геннадьевич Гражданкин Павел Дмитриевич Тугай Максим Васильевич	RU2395117C2
KR 100771311 B1, 29.10.2007.

RU 2 684 578 C2

Даты

2019-04-09—Публикация

2017-07-17—Подача

название	год	авторы	номер документа
Способ определения и классификации понятия исходя из контекста его употребления	2022	Данилов Глеб Валерьевич Цуканова Татьяна Васильевна Струнина Юлия Владимировна Ишанкулов Тимур Александрович Котик Константин Владимирович Потапов Александр Александрович	RU2795870C1
Система и способ корректировки орфографических ошибок	2020	Сорокин Алексей Андреевич Дмитриевский Александр Сергеевич Кравцова Анастасия Валентиновна Селиверстов Сергей Геннадиевич	RU2753183C1
СИСТЕМА И СПОСОБ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ НАМЕРЕНИЙ И ЭМОЦИЙ ПОЛЬЗОВАТЕЛЕЙ ДИАЛОГОВОЙ СИСТЕМЫ	2020	Феногенова Алена Сергеевна Шаврина Татьяна Олеговна	RU2762702C2
СПОСОБ АНИМАЦИИ SMS-СООБЩЕНИЙ	2011	Бекмамбетов Тимур Нуруахитович Кузьмин Сергей Владимирович Новоселов Антон Алексеевич	RU2631164C2
СЕНТИМЕНТНЫЙ АНАЛИЗ НА УРОВНЕ АСПЕКТОВ И СОЗДАНИЕ ОТЧЕТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ	2016	Михайлов Максим Борисович Пасечников Константин Алексеевич	RU2635257C1
СИСТЕМА УСТРАНЕНИЯ НЕОДНОЗНАЧНОСТИ С УМЕНЬШЕННОЙ КЛАВИАТУРОЙ	1998	Кинг Мартин Т. Гроувер Дэйл Л. Кашлер Клиффорд А. Гранбок Черил А.	RU2206118C2
СЕНТИМЕНТНЫЙ АНАЛИЗ НА УРОВНЕ АСПЕКТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ	2016	Мацкевич Степан Евгеньевич Кузнецова Екатерина Сергеевна Гусев Илья Олегович	RU2657173C2
СПОСОБ И СИСТЕМА ДЛЯ ВЫСТРАИВАНИЯ ДИАЛОГА С ПОЛЬЗОВАТЕЛЕМ В УДОБНОМ ДЛЯ ПОЛЬЗОВАТЕЛЯ КАНАЛЕ	2018	Кузнецов Никита Александрович Кирьянов Денис Павлович Чернопятов Андрей Сергеевич Доманская Кристина Сергеевна	RU2688758C1
УНИВЕРСАЛЬНЫЕ ОРФОГРАФИЧЕСКИЕ МНЕМОСХЕМЫ	2005	Кельба Чиприан И. Чамберс Роберт Л. Моватт Давид У Цян	RU2441287C2
МЕТОД И СИСТЕМА ДЛЯ ГЕНЕРАЦИИ СТАТЕЙ В СЛОВАРЕ ЕСТЕСТВЕННОГО ЯЗЫКА	2014	Селегей Владимир Павлович Марамчин Алексей Сергеевич	RU2639280C2