Область техники
Изобретение относится к области обеспечения информационной безопасности.
Уровень техники
В настоящий момент практически любой обладатель электронного устройства (например, компьютера, мобильного телефона, смартфона, планшета и т.д.) сталкивается с нежелательными электронными сообщениями: SMS–сообщениями и электронными письмами из банков, медицинских центров, страховых фирм, салонов красоты и других компаний, использующих в своей работе телемаркетинг. Также электронные сообщения нередко используют мошенники для получения конфиденциальной информации пользователя (например, данных о кредитных картах, номерах социального страхования и т.д.).
К примеру, такие нежелательные электронные сообщения как спам письма являются серьезной проблемой, поскольку уже достигают 70-90% от общего объема почтового трафика. Такое количество нежелательных электронных писем вызывает неудобства для пользователей электронной почты и нарушения в работе почтовых серверов. В частности, ведет к ухудшению пропускной способности, трате ресурсов и увеличению времени обработки электронных писем почтовыми службами.
Существует два основных подхода обнаружения нежелательных электронных сообщений: сигнатурный и с использованием методов машинного обучения.
При сигнатурном подходе массовую рассылку электронных сообщений разбирают на части, из подмножеств которых формируют сигнатуры. Сигнатуры позволяют однозначно обнаружить нежелательные электронные сообщения в системах обмена электронными сообщениями (к примеру, в почтовых сервисах, службе мгновенных сообщений). Плюсом такого подхода является высокая скорость обнаружения и практически нулевая вероятность возникновения ошибки первого рода, т.е. ложного срабатывания. Ложным срабатыванием в данном случае является ситуация, когда легитимное электронное сообщение определяется как нежелательное. Минусом данного подхода являются пропуски нежелательных электронных сообщений (т.е. возникновение ошибки второго рода).
К примеру, в патентной публикации US20190281000A1 описана технология определения нежелательного электронного сообщения при помощи сигнатуры. В качестве сигнатуры используют хэш, вычисленный на основании текста тела нежелательного электронного сообщения.
В рамках методов машинного обучения используют коллекцию нежелательных электронных сообщений и коллекцию легитимных электронных сообщений. Из сообщений выделяют признаки, которые используют для обучения классификатора. Плюсом такого подхода является высокая обобщающая способность, что позволяет добиться минимального количества пропусков нежелательных электронных сообщений. Вместе с тем минусом данного подхода является высокая вероятность возникновения ложных срабатываний, а также низкая в сравнении с сигнатурным подходом скорость обнаружения.
Настоящее изобретение позволяет устранить отмеченные недостатки и решить задачу обнаружения нежелательных электронных сообщений путем обобщения сигнатурного вердикта при помощи методов машинного обучения.
Раскрытие изобретения
Изобретение предназначено для обеспечения информационной безопасности.
Технический результат настоящего изобретения заключается в формировании сигнатуры нежелательного электронного сообщения.
Данные результаты достигаются с помощью использования способа формирования сигнатуры нежелательного электронного сообщения, при этом способ содержит этапы, на которых: определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений; классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений; определяют, что первое и второе электронное сообщение относятся к одному кластеру электронных сообщений на основании определенных атрибутов; формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений.
В частном случае реализации способа электронное сообщение перехватывают при передаче по меньшей мере через: электронную почту; мессенджер; службу мгновенных сообщений.
Ещё в одном частном случае реализации способа классифицируют как нежелательное электронное сообщение, переданное по меньшей мере для: осуществления мошенничества; несанкционированного получения конфиденциальной информации; навязывания товаров и услуг.
Ещё в одном частном случае реализации способа в качестве обученной модели классификации электронных сообщений выступает по меньшей мере один из следующих алгоритмов классификации: байесовские классификаторы; логистическая регрессия; MRF-классификатор; метод опорных векторов; методы ближайших соседей; дерево принятия решений; рекуррентная нейронная сеть.
В частном случае реализации способа в качестве атрибута электронного сообщения выступает по меньшей мере: последовательность слов, выявленная из текста электронного сообщения; нечеткий хэш, вычисленный на основании последовательности слов текста электронного сообщения; вектор, характеризующий текст электронного сообщения.
Ещё в одном частном случае реализации способа формируют сигнатуру нежелательного электронного сообщения на основании одного из следующих критериев: наибольшая общая подпоследовательность слов в тексте электронных сообщений, которые содержатся в определенном кластере электронных сообщений; наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений, которые содержатся в определенном кластере электронных сообщений.
В частном случае реализации способа сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей.
Краткое описание чертежей
Фиг. 1 иллюстрирует один из вариантов архитектуры системы обмена электронными сообщениями.
Фиг. 2 иллюстрирует один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения.
Фиг. 3 иллюстрирует способ формирования сигнатуры нежелательного электронного сообщения.
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведённая в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объёме приложенной формулы.
На Фиг. 1 представлен один из вариантов архитектуры системы обмена электронными сообщениями.
Данная система включает в себя систему обмена электронными сообщениями 100, устройство пользователя 110, электронное сообщение 111, агент 120, устройство хранения данных 130, атрибуты классификации 140, модель классификации 150.
Система обмена электронными сообщениями 100 представляет собой систему физических и логических каналов связи, реализующую протокол передачи электронного сообщения 111 между устройствами пользователей 110.
Примерами систем обмена электронными сообщениями 100 являются по меньшей мере:
• почтовый сервис;
• служба мгновенных сообщений;
• мессенджер.
Электронное сообщение 111 имеет определенную структуру. Кроме тела (англ. body) электронное сообщение 111 содержит заголовки (англ. header) – это служебная информация, включающая в том числе информацию о маршруте прохождения электронного сообщения 111. В заголовках представлены данные о том, когда, откуда и по какому маршруту пришло электронное сообщение 111, а также информацию, добавляемую к данному сообщению 111 различными служебными программами. При этом каждый заголовок определяется своим именем и значением. Значение заголовка представляет собой информацию, представленную в заранее заданном виде. Например, для заголовка, который содержит информацию об отправителе электронного сообщения 111, в качестве имени служит «from», а значение будет иметь вид адреса электронной почты отправителя, например, username@domain.com.
Устройство пользователя 110 формирует электронное сообщение 111 и передает его системе обмена электронными сообщениями 100, а также принимает электронное сообщение 111 от других устройств 110.
Агент 120 перехватывает электронное сообщение 111 по меньшей мере:
• отслеживая принимаемый и передаваемый по протоколу передачи электронного сообщения трафик (POP3, SMTP, IMAP, NNTP);
• отслеживая файлы в хранилище системы обмена электронными сообщениями 100;
• отслеживая файлы в хранилище на устройстве пользователя 110.
К примеру, в качестве агента 120 выступает модуль (программный компонент) приложения безопасности компании АО «Лаборатория Касперского» (например, Kaspersky Internet Security).
Агент 120 определяет атрибуты классификации 140, содержащиеся в перехваченном электронном сообщении 111, и передает их устройству хранения данных 130.
К примеру, в качестве атрибутов классификации 140 электронного письма выступают значения заголовков, относящихся к информации о маршруте прохождения, а также служебная информация, сформированная почтовыми клиентами:
• Message_ID – уникальный идентификатор электронного письма, присваиваемый первым почтовым сервером, который встретится у него на пути;
• X-mailer (mailer_name) – значение поля заголовка, в котором почтовый клиент или сервис, с помощью которого было создано электронное письмо, идентифицирует себя;
• последовательность значений заголовков электронного письма.
В ином варианте реализации Агент 120 определяет атрибуты классификации 140 электронного сообщения 111 на основании события, ассоциированного с указанным электронным сообщением. К примеру, в качестве атрибутов классификации 140 электронного сообщения службы мгновенных сообщений выступают:
• флаг просмотра электронного сообщения 111 пользователем;
• флаг взаимодействия с устройством пользователя 110 во время просмотра электронного сообщения 111 (к примеру, пролистывание сообщения);
• флаг удаления электронного сообщения 111 пользователем;
Устройство хранения данных 130 предназначено для хранения и обработки атрибутов классификации 140. К примеру, атрибуты классификации 140 используют для обучения модели классификации 150.
В предпочтительном варианте реализации в качестве устройства хранения данных 130 выступает облачное хранилище данных, обрабатывающее атрибуты классификации 140 в так называемом «облаке», где «облако» – модель хранилища, предусматривающая хранение данных в сети «Интернет» с помощью поставщика облачных вычислительных ресурсов, который предоставляет хранилище данных как сервис и обеспечивает управление им.
К примеру, в качестве устройства хранения данных 130 может выступать средство, содержащее систему Kaspersky Security Network (KSN) компании АО «Лаборатория Касперского».
На Фиг. 2 представлен один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения.
Структурная схема системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения, содержит электронное сообщение 111 (в том числе 111а, 111б, 111в), агент 120, устройство хранения данных 130, атрибуты классификации 140, атрибуты кластеризации 210 (в том числе 210а, 210б, 210в), модель классификации 150, средство классификации 220, средство определения схожести 230, средство формирования сигнатуры 240, сигнатуру 250, кластер нежелательных электронных сообщений 260.
В одном из вариантов реализации указанные средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 являются составными частями устройства хранения данных 130.
В ином варианте реализации средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 могут представлять собой отдельные, независимые, но связанные друг с другом, технические средства, которые могут быть реализованы при помощи отдельных компьютерных систем.
Агент 120 предназначен для перехвата электронного сообщения 111 (в том числе 111а, 111б, 111в), определения атрибутов классификации 140, атрибутов кластеризации 210 (в том числе 210а, 210б, 210в), а также передачи атрибутов классификации 140, атрибутов кластеризации 210а и 210б устройству хранения данных 130.
В качестве атрибутов кластеризации 210 выступает по меньшей мере:
• последовательность слов, выявленная из текста электронного сообщения 111;
• нечеткий хэш (англ. fuzzy hash), вычисленный на основании последовательности слов текста электронного сообщения 111;
• вектор, характеризующий текст электронного сообщения 111.
Устройство хранения данных 130 предназначено для классификации электронного сообщения 111а, определения того, что электронные сообщения 111а и 111б относятся к одному кластеру, а также для формирования сигнатуры 250.
Средство классификации 220, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для классификации электронного сообщения 111а на основании атрибутов классификации 140 при помощи модели классификации 150. Модель 150 классифицирует электронное сообщение 111а по меньшей мере как:
• нежелательное;
• легитимное.
К примеру, в качестве нежелательного электронного сообщения выступает электронное сообщение 111, переданное по меньшей мере для:
• осуществления мошенничества;
• несанкционированного получения конфиденциальной информации;
• навязывания товаров и услуг.
Модель классификации 150 заранее обучают при помощи атрибутов классификации 140, переданных на устройство хранения данных 130, таким образом, что модель классификации 150 определяет на основании указанных атрибутов признаки, при помощи которых классифицирует электронное сообщение 111а как нежелательное с некоторой вероятностью.
В качестве алгоритма классификации выступает по меньшей мере один из следующих алгоритмов (или их комбинация):
• байесовские классификаторы (англ. naive bayesian classifier);
• логистическая регрессия (англ. logistic regression);
• MRF-классификатор (англ. MRF classifier);
• метод опорных векторов (англ. support vector machine, SVM);
• методы ближайших соседей (англ. k-nearest neighbor);
• дерево принятия решений (англ. decision tree);
• рекуррентная нейронная сеть (англ. Recurrent neural network, RNN).
К примеру, модель классификации 150 может быть основана на методах глубокого обучения (англ. deep learning). В частности, атрибуты классификации 140 представляют в виде матрицы, где каждый символ атрибута классификации 140 закодирован вектором чисел фиксированной длины, и подвергают преобразованию с помощью нейронной сети, которая вычисляет степень схожести указанных атрибутов с атрибутами подозрительных сообщений. В качестве признаков выступают преобразованные слоем нейронной сети атрибуты классификации 140.
Средство классификации 220 определяет электронное сообщение 111а как нежелательное, если степень схожести электронного сообщения 111а с нежелательными электронными сообщениями выше заранее заданного значения (к примеру, 0.7).
Средство определения схожести 230, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для определения того, что электронные сообщения 111а и 111б относятся к одному кластеру на основании атрибутов кластеризации 210а и 210б.
К примеру, агент 120 передает устройству хранения данных 130 определенные атрибуты кластеризации 210а и 210б соответствующих электронных сообщений 111а и 111б, где в качестве атрибутов кластеризации 210 используют нечеткий хэш, вычисленный на основании последовательности слов текста электронных сообщений 111а и 111б. Средство определения схожести 230 вычисляет расстояние Левенштейна, определяемое как минимальное количество односимвольных операций (вставки, удаления, замены), необходимых для превращения одной последовательности символов в другую, и определяет, что электронные сообщения 111а и 111б относятся к одному кластеру, если указанная метрика не превышает заранее заданного значения.
Устройство хранения данных 130 определяет, что электронные сообщения 111а и 111б относятся к кластеру нежелательных электронных сообщений 260, если электронное сообщение 111а было классифицировано средством классификации 220 как нежелательное, а средство определения схожести 230 определило, что электронные сообщения 111а и 111б относятся к одному кластеру.
Средство формирования сигнатуры 240, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для формирования сигнатуры 250 нежелательного электронного сообщения на основании кластера нежелательных электронных сообщений 260.
Сигнатуру 250 кластера нежелательных электронных сообщений 260 формируют на основании по меньшей мере одного из следующих критериев:
• наибольшая общая подпоследовательность слов в тексте электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260;
• наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260.
В одном из вариантов реализации сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера нежелательных электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей сигнатурой 250.
Дополнительно средство формирования сигнатуры 240 передает сформированную сигнатуру 250 агенту 120, который определяет, содержат ли атрибуты кластеризации 210в электронного сообщения 111в сигнатуру 250. Если атрибуты кластеризации 210в содержат сигнатуру 250, агент 120 определяет электронное сообщение 111в как электронное сообщение, принадлежащее кластеру нежелательных электронных сообщений 260, и обеспечивает информационную безопасность.
Обеспечение информационной безопасности включает в себя по меньшей мере:
• блокирование нежелательного электронного сообщения 111в;
• информирование получателя о нежелательном характере электронного сообщения 111в;
• передачу атрибутов классификации 140 и атрибутов кластеризации 210 электронного сообщения 111в средству хранения данных 130.
На Фиг. 3 отображен способ формирования сигнатуры нежелательного электронного сообщения.
Структурная схема способа формирования сигнатуры нежелательного электронного сообщения содержит этап 310, на котором определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений, этап 320, на котором классифицируют первое электронное сообщение как нежелательное, этап 330, на котором определяют, что первое и второе электронное сообщение относятся к одному кластеру, этап 340, на котором формируют сигнатуру нежелательного электронного сообщения.
На этапе 310 с помощью агента 120 определяют атрибуты 210 двух последовательно перехваченных электронных сообщений 111.
На этапе 320 с помощью модели классификации 150 классифицируют первое электронное сообщение 111 как нежелательное.
На этапе 330 с помощью средства определения схожести 230 определяют, что первое и второе электронное сообщение 111 относятся к одному кластеру 260.
На этапе 340 с помощью средства формирования сигнатуры 240 формируют сигнатуру 250 нежелательного электронного сообщения.
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.
Персональный компьютер 20 в свою очередь содержит жёсткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жёсткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жёсткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.
Настоящее описание раскрывает реализацию системы, которая использует жёсткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединён к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединён к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащён другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удалёнными компьютерами 49. Удалённый компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключён к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключён к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.
В заключение следует отметить, что приведённые в описании сведения являются примерами, которые не ограничивают объём настоящего изобретения, определённого формулой.
название | год | авторы | номер документа |
---|---|---|---|
Способ кластеризации электронных писем, являющихся спамом | 2021 |
|
RU2769633C1 |
Способ определения фишингового электронного сообщения | 2020 |
|
RU2790330C2 |
Система и способ ограничения получения электронных сообщений от отправителя массовой рассылки спама | 2021 |
|
RU2787303C1 |
СИСТЕМА И СПОСОБ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ЭЛЕКТРОННЫХ СООБЩЕНИЙ ДЛЯ БОРЬБЫ СО СПАМОМ | 2013 |
|
RU2541123C1 |
Система и способ обнаружения модификации веб-ресурса | 2018 |
|
RU2702081C2 |
Система и способ определения правила классификации события на терминальном устройстве пользователя | 2020 |
|
RU2772404C2 |
Система и способ обнаружения вредоносных файлов с использованием элементов статического анализа | 2017 |
|
RU2654146C1 |
Способ классификации объектов для предотвращения распространения вредоносной активности | 2023 |
|
RU2808385C1 |
Система и способ классификации объектов | 2017 |
|
RU2679785C1 |
Система и способ формирования эвристических правил для выявления писем, содержащих спам | 2019 |
|
RU2710739C1 |
Изобретение относится к области информационной безопасности. Технический результат заключается в обеспечении высокой скорости обнаружения и снижении вероятности возникновения ошибок первого и второго родов при обнаружении нежелательных электронных сообщений за счет формировании сигнатуры нежелательного электронного сообщения с помощью методов машинного обучения. Способ формирования сигнатуры нежелательного электронного сообщения содержит этапы, на которых: определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений; классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений; определяют, что первое и второе электронные сообщения относятся к одному кластеру электронных сообщений на основании определенных атрибутов; формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений. 6 з.п. ф-лы, 4 ил.
1. Способ формирования сигнатуры нежелательного электронного сообщения, содержащий этапы, на которых:
а) определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений;
б) классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений;
в) определяют, что первое и второе электронные сообщения относятся к одному кластеру электронных сообщений на основании определенных атрибутов;
г) формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений.
2. Способ по п.1, по которому электронное сообщение перехватывают при передаче по меньшей мере через:
• электронную почту;
• мессенджер;
• службу мгновенных сообщений.
3. Способ по п.1, по которому классифицируют как нежелательное электронное сообщение, переданное по меньшей мере для:
• осуществления мошенничества;
• несанкционированного получения конфиденциальной информации;
• навязывания товаров и услуг.
4. Способ по п.1, в котором в качестве обученной модели классификации электронных сообщений выступает по меньшей мере один из следующих алгоритмов классификации:
• байесовские классификаторы;
• логистическая регрессия;
• MRF-классификатор;
• метод опорных векторов;
• методы ближайших соседей;
• дерево принятия решений;
• рекуррентная нейронная сеть.
5. Способ по п.1, по которому в качестве одного из атрибутов электронного сообщения выступает по меньшей мере:
• последовательность слов, выявленная из текста электронного сообщения;
• нечеткий хэш, вычисленный на основании последовательности слов текста электронного сообщения;
• вектор, характеризующий текст электронного сообщения.
6. Способ по п.1, по которому формируют сигнатуру нежелательного электронного сообщения на основании одного из следующих критериев:
• наибольшая общая подпоследовательность слов в тексте электронных сообщений, которые содержатся в определенном кластере электронных сообщений;
• наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений, которые содержатся в определенном кластере электронных сообщений.
7. Способ по п.1, по которому сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей.
US 20060036693 A1, 16.02.2006 | |||
US 7716297 B1, 11.05.2010 | |||
US 7739341 B1, 15.06.2010 | |||
КЛАССИФИКАЦИЯ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МНОГОУРОВНЕВЫХ СИГНАТУР ТЕКСТА | 2014 |
|
RU2632408C2 |
МЕТОД ОТНЕСЕНИЯ РАНЕЕ НЕИЗВЕСТНОГО ФАЙЛА К КОЛЛЕКЦИИ ФАЙЛОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ СХОЖЕСТИ | 2009 |
|
RU2420791C1 |
Авторы
Даты
2022-07-28—Публикация
2021-03-15—Подача