Система и способ классификации писем электронной почты Российский патент 2024 года по МПК G06Q10/107 H04L51/212 

Описание патента на изобретение RU2828611C1

Область техники

Настоящее изобретение относится к области информационных технологий, а более конкретно к системам и способам обнаружения спам-писем на основании анализа статистических данных о получаемых электронных письмах клиентов.

Уровень техники

Спам-разновидность почтовой рассылки с целью рекламы (часто нежелательной) того или иного товара или услуги, а также с целью совершения мошеннических действий. Для рассылки спама в настоящий момент активно используются всевозможные технические средства, в том числе прокси-серверы, бесплатные серверы электронной почты, допускающие автоматизацию отправки писем по электронной почте, и бот-сети. К спаму, кроме сообщений, передаваемых по электронной почте, относятся также и сообщения, передаваемые с помощью протоколов мгновенных сообщений в социальных сетях, блогах, сайтах знакомств, форумах, а также SMS и MMS-сообщения.

Электронные письма, содержащие спам, являются серьезной проблемой в современном мире, так как уже достигают 70-90% от общего объема почтового трафика. Такое количество спама, отправленного по компьютерным сетям, вызывает существенные неудобства для пользователей электронной почты. В частности, спам вызывает ухудшение пропускной способности сетей, трату ресурсов серверов электронной почты и увеличение времени обработки электронных писем пользователями. Таким образом, необходимо непрерывно бороться со спамом.

Для борьбы со спамом были разработаны различные механизмы, такие как черные списки отправителей, серые списки, требующие повторного обращения почтового сервера для отправки, методы контекстной фильтрации спама. Например, в публикации RU 2541123 C1 описан способ анализа сообщений, который проводится с помощью белых и черных списков с целью выявления легитимных и нежелательных сообщений. Фильтрация спама, как правило, сосредоточена на анализе содержимого сообщения электронного письма, что может потребовать, во-первых, значительного времени анализа и, во-вторых, открытости анализируемой информации, что недопустимо в случае передачи информации без согласия пользователей. Возможны и случаи, когда письма могут содержать конфиденциальную информацию. Методы, основанные на фильтрации, как правило, требуют точного совпадения, чтобы обнаруживать и отличать письма, содержащие спам, от легитимных писем. Кроме того, массовая рассылка спама еще больше усугубляет проблему фильтрации, так как чем больше объем писем, которые необходимо отфильтровать, тем больше вычислительных ресурсов необходимо выделить для фильтрации.

Повысить эффективность фильтрации спама можно, избегая обширного анализа содержимого каждого сообщения электронной почты или введения предварительного анализа. Однако современные технологии защиты от спама не обеспечивают эффективного механизма быстрого и статистически точного анализа заголовков писем электронной почты и символов, из которых состоят заголовки. Таким образом, необходимо иметь эффективный механизм для проведения быстрого анализа заголовков писем электронной почты либо наряду со стандартными механизмами фильтрации электронной почты, либо в качестве предварительного анализа для полного анализа содержимого во время фильтрации, либо даже в качестве автономного метода анализа краткого содержания некоторых новых форм писем со спамом.

Еще одна проблема современных средств борьбы со спамом связана с тем, что существует вероятность возникновения ошибки первого рода, т. е. ложного срабатывания. Ложным срабатыванием в данном случае является ситуация, когда легитимное письмо стало определяться как спам. В этом случае в зависимости от настройки работы средств защиты легитимное письмо, определенное как спам, помещается в карантин или даже удаляется в автоматическом режиме без уведомления отправителя или получателя, что приводит к потере легитимных писем.

Кроме того, отправители писем, содержащих спам, также становятся все более изобретательными и стараются учитывать возможности решений для фильтрации спама. Поэтому в ряде случаев, чтобы избежать автоматического обнаружения, маскируют спам, добавляя случайный текст в содержимое электронных писем или данные, подобные содержащимся в легитимных письмах.

Поэтому важно использовать анализ статистических данных получаемых писем клиентов, чтобы фактически направить приемы сокрытия спама отправителями спама в сторону обнаружения спама. В то же время, чтобы учесть интересы пользователей по конфиденциальности сообщений/информации, содержащейся в письмах, необходимо выявлять письма, содержащие спам, без анализа текста, содержащегося в теле писем.

Поэтому существует потребность в создании решения, которое устраняло бы указанные недостатки и позволяло бы обеспечить более точное обнаружение спама. Настоящее изобретение позволяет решить указанные недостатки и задачи путем кластеризации электронных писем и последующей классификации писем кластеров.

Раскрытие сущности изобретения

Задача предлагаемого решения заключается в классификации электронных писем на основании статистических данных для выявления электронных писем, содержащих спам.

Технический результат настоящего изобретения заключается в повышении точности обнаружения электронных писем, содержащих спам, и достигается с помощью предлагаемого решения, предназначенного для классификации электронных писем на основании статистических данных электронных писем.

В качестве одного варианта исполнения настоящего изобретения предлагается способ классификации писем для обнаружения спама на основании статистических данных писем, включающий шаги, согласно которым: получают статистические данные писем клиентов и результат классификации писем на стороне клиентов; исключают из дальнейшего анализа данные писем, которые относятся по меньшей мере к одному из: письмам, являющимся автоматическими ответами; письмам, относящимся к внутренней переписке организации; формируют признаки на основании статистических данных для не исключенных писем; объединяют признаки в единый вектор для каждого письма; проводят кластеризацию писем с помощью алгоритма машинного обучения на основании векторов признаков писем; классифицируют письма в каждом кластере согласно следующим правилам: если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют все письма в кластере как письма, содержащие спам; если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения.

В другом варианте реализации способа статистические данные писем содержат по меньшей мере одно из: данные о сработавших для письма правилах; категория письма; последовательностью форматов частей письма; тип вложений письма; размер вложений в письме; тип разделений между частями сообщения; формат письма; домены из ссылок письма; последовательность технических заголовков в письме; домен отправителя из заголовка «From»; контрольная сумма имени пользователя из заголовка «From»; ip-адрес отправителя письма; размер тела письма; домен из «message-id»; тип заголовка «message-id»; домен отправителя из SMTP-сессии; ссылки из письма; количество ссылок в письме; заголовок «User-Agent»; заголовок «X-Mailer».

В еще одном варианте реализации способа размер вложений письма представлен в виде вектора размеров вложений.

В другом варианте реализации способа размер вложений письма представлен в виде суммы размеров всех вложений.

В еще одном варианте реализации способа все статистические данные разделены на два типа: числовые и категориальные.

В другом варианте реализации способа формируют каждый признак с помощью одного из следующих методов: OneHotEncoding; min-max масштабирование; хеширование с последующим применением min-max масштабирования; CountVectorizer.

В еще одном варианте реализации способа для хеширования используют метод MurmurHash3.

В другом варианте реализации способа в качестве алгоритма машинного обучения для кластеризации писем используют один из следующих методов: k-средних; k-медиан; DBSCAN.

В еще одном варианте реализации способа кластеризация писем производится каждый раз после окончания заданного промежутка времени.

В другом варианте реализации способа на вход модели машинного обучения для классификации письма передают два вектора признаков.

В еще одном варианте реализации способа в качестве двух векторов признаков выступают: вектор признаков письма в кластере (первый вектор), которое было классифицировано на стороне клиента как письмо, не содержащее спам; вектор признаков письма, которое было классифицировано на стороне клиента как письмо, содержащее спам, причем косинусное расстояние до первого вектора должно быть минимальным.

В другом варианте реализации способа в качестве двух векторов признаков выступают вектор признаков письма в кластере, которое было классифицировано на стороне клиента как письмо, не содержащее спам, и вектор признаков центроида кластера.

В качестве другого варианта исполнения настоящего изобретения предлагается система классификации писем электронной почты на основании статистических данных писем состоящая по меньшей мере из одной компьютерной системы и содержащая: средство обработки данных, взаимодействующее с устройством сбора и хранения данных и средством кластеризации, и предназначенное для: получения статистических данных писем и результата классификации писем на стороне клиентов от устройства сбора и хранения данных; фильтрации писем на основании статистических данных писем; формирования признаков писем на основании статистических данных писем; средство кластеризации, взаимодействующее со средством обработки данных и средством анализа кластеров, и предназначенное для: кластеризации писем на основании сформированных признаков писем, полученных от средства обработки данных; передачи кластеров писем в средство анализа кластеров; средство анализа кластеров, предназначенное для классификации писем в каждом полученном кластере писем согласно следующим правилам: если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют все письма в кластере как письма, содержащие спам; если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения.

В другом варианте реализации средство обработки данных формирует каждый признак с помощью одного из следующих методов: OneHotEncoding; min-max масштабирование; хеширование с последующим применением min-max масштабирования; CountVectorizer.

В еще одном варианте реализации в качестве алгоритма машинного обучения для кластеризации средство кластеризации реализует один из следующих методов: k-средних; k-медиан; DBSCAN.

В другом варианте реализации средство кластеризации производит кластеризацию писем каждый раз после окончания заданного промежутка времени.

Краткое описание чертежей

Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:

На Фиг. 1 приведена схема системы классификации писем.

На Фиг. 2 представлена схема зависимости выбора варианта классификации писем в кластере.

На Фиг. 3 приведен способ классификации писем.

Фиг. 4 иллюстрирует пример компьютерной системы, пригодной для реализации не имеющих ограничительного характера вариантов осуществления настоящего изобретения.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено в приложенной формуле.

Осуществление изобретения

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Приведенное описание предназначено для помощи специалисту в области техники для исчерпывающего понимания изобретения, которое определяется только в объеме приложенной формулы.

Электронное письмо (далее также - письмо) имеет определенную структуру. Поэтому для написания письма используются специальные программы, поддерживающие структуру электронной почты. Структура письма состоит из двух частей: заголовка (англ. header) и тела (англ. body) письма. Заголовок, в свою очередь, содержит ряд полей (англ. field), предназначенных для заполнения, при этом каждое поле определяется своим именем (заголовок поля) и значением. Под значением поля понимается какой-то вид информации. Например, для поля, которое предназначено для указания отправителя письма, в качестве имени (заголовка поля) служит «from», а значение будет иметь вид адреса электронной почты отправителя, например, username@kaspersky.com. Примерами других полей заголовка письма являются:

«Sender» - отправитель письма, обычно аналогично полю «From»;

«То» (Кому) - имя и электронный адрес получателя. Обязательное для заполнения поле;

«Subject» (Тема) - тема письма; является необязательным, но желательным для заполнения полем;

«Сс» (Копия, от англ. «CarbonCopy») - адреса других абонентов, получающих копии сообщения;

«Date» - дата и время отправления сообщения;

«Reply-to» - электронные адреса, на которые отправляется ответ (они могут отличаться от адреса отправителя);

«Received» - различные идентификаторы интернет-серверов, пересылавших сообщение от отправителя к получателю;

«Content-type» - формат составления передаваемого сообщения и кодировка, с использованием которой создано письмо;

«Content-Transfer-Encoding» - способ передачи данных (например, 7-ми, 8-ми битовое сообщение и др.);

«Message-ID» - уникальный идентификатор сообщения;

«Х-mailer» - программа передачи сообщений по электронной почте.

На Фиг. 1 приведена схема системы классификации писем (далее - система) 100. Стоит отметить, что система 100 приведена лишь для демонстрации по меньшей мере одного варианта реализации настоящего изобретения. Возможны и другие варианты реализации, и если в некоторых случаях они не представлены (т.е. примеры вариантов реализации отсутствуют), это не означает, что они невозможны и/или что описание содержит единственный вариант реализации того или иного элемента настоящего изобретения. Кроме того, следует понимать, что система 100 в некоторых случаях может представлять собой вариант упрощенной реализации настоящего изобретения, и что такие варианты представлены, чтобы способствовать лучшему ее пониманию. Специалистам в данной области должно быть понятно, что другие варианты осуществления настоящего изобретения могут быть значительно сложнее.

В общем случае система 100 содержит средство обработки данных 110, средство кластеризации 120 и средство анализа кластеров 130. Система 100 обнаруживает письма, содержащие спам, на основании обработки и анализа статистических данных писем 165, получаемых от устройства сбора и хранения данных 160. Стоит отметить, что в одном из вариантов осуществления система 100 может быть реализована при помощи компьютерной системы (устройства), представленной на Фиг. 4.

Устройство сбора и хранения данных 160 в одном из вариантов реализации представляет собой «облачный» сервер, который собирает и хранит статистические данные писем 165 клиентов 170A, 170B…170N (далее - клиентов 170) и результат классификации писем на стороне клиентов 170. Под «облачным» сервером, например, понимается техническое средство, содержащее систему Kaspersky Security Network (KSN) компании AO «Лаборатория Касперского». Под клиентами 170 понимаются по крайней мере почтовые клиенты (например, Microsoft Outlook, Google Mail и другие) пользователей, установленные на компьютерах пользователей, или почтовые серверы. Каждый клиент 170 содержит агент (не показан на Фиг. 1), предназначенный для классификации писем каждого клиента 170 на основании писем каждого клиента 170, применения к письмам набора правил (например, в заголовке «From» используются символы разных алфавитов), а также обезличивания информации писем каждого клиента 170.

Агент обезличивает следующие данные: сведения из тела письма, например, текстовые сообщения пользователей; сведения из заголовка письма, например, электронный адрес. Под обезличиванием понимается преобразование данных, например, с помощью хеш-функций. Агент каждого клиента 170 передает в устройство 160 обезличенные статистические данные писем 165 каждого клиента 170 и результат классификации на стороне каждого клиента 170.

Устройство сбора и хранения данных 160 передает результат классификации писем на стороне клиентов 170 и статистические данные писем 165 клиентов 170 в систему 100, а именно в средство обработки данных 110. Статистические данные писем 165 клиентов 170 по меньшей мере содержат одно из:

• данные о сработавших для письма правилах;

• категория письма, например, «казино» или «сайт знакомств»;

• тип вложений письма, например, документ с расширением docx или картинка с расширением png;

• формат письма, например, html или plain-text;

• последовательность форматов частей письма;

• размер вложений, например, в МБ;

• тип разделения между частями сообщения (англ. boundary), например outlook_boundary или apple_boundary;

• последовательность технических заголовков в письме, например, from/to/subject/date/message-id/content-type;

• домен отправителя из заголовка «From»;

• контрольная сумма имени пользователя из заголовка «From»;

• ip-адрес отправителя письма;

• размер тела письма, например, в КБ;

• домен из «message-id»;

• тип заголовка «message-id»;

• домен отправителя из SMTP-сессии (англ. Simple Mail Transfer Protocol);

• ссылки из тела (англ. body) письма;

• количество ссылок в письме;

• заголовок «User-Agent»;

• заголовок «X-Mailer».

Данные о сработавших для письма правилах представлены в виде списка правил, сработавших для письма клиента 170.

«Message-id» - уникальный идентификатор цифрового сообщения, используемый в электронной почте.

Заголовок «User-Agent» - это строка с характеристиками, по которым серверы и сетевые узлы могут определить тип приложения, операционную систему, производителя и/или версию пользовательского агента.

Под последовательностью форматов частей письма понимается, например, text/plain-text/html. Эта запись означает, что первая часть письма написана текстом, вторая в формате plain-text, а третья в html.

Средство обработки данных 110 предназначено для фильтрации писем на основании статистических данных писем 165 и формирования признаков писем на основании статистических данных писем 165 для дальнейшей кластеризации писем.

В предпочтительном варианте реализации размер вложений письма представлен в виде вектора размеров вложений.

В частном варианте реализации размер вложений письма представлен в виде суммы размеров всех вложений.

Средство обработки данных 110 фильтрует данные писмем с целью исключения из дальнейшего анализа данных писем, которые точно не содержат спам. Примерами таких писем являются письма, которые относятся к таким типам писем, как:

• служебные письма, являющиеся автоматическим ответом (автоответом);

• письма, относящиеся к внутренней переписке в организации.

В частном варианте реализации средство обработки данных 110 исключает письма из дальнейшего анализа, если клиент 170 имеет устаревшие базы правил. Под устаревшими базами правил понимается база правил, которая не обновлялась в течение определенного периода времени, например, 30 дней.

После фильтрации писем средство обработки данных 110 формирует признаки писем на основании статистических данных писем 165. Все данные разделены на два типа, а именно числовые и категориальные. Средство обработки данных 110 формирует признаки на основании статистических данных писем 165.

Для преобразования числовых данных писем средство обработки 110 реализует метод min-max масштабирование - метод нормализации данных в пределах заданного диапазона, например, между 0 и 1.

Для преобразования категориальных данных средство обработки данных 110 реализует различные методы.

OneHotEncoding - метод кодирования категориальных данных, который преобразовывает каждую уникальную категорию в бинарный вектор, в котором только один бит, представляя наличие категории, устанавливается в единицу, а остальные биты устанавливаются в 0. Данный метод используется, например, для преобразования типа вложения, типа разделения между частями сообщения, типа заголовка «message-id» и заголовка «User-Agent».

Некоторые статистические данные писем 165 средство обработки 110 преобразует в признаки с помощью хеширования и последующего применения метода min-max масштабирования. Данный метод используется, например, для домена отправителя из заголовка «From» или домена отправителя из SMTP-сессии.

В частном варианте реализации для хеширования статистических данных писем 165 используют метод MurmurHash3 (Mmh3 project description // The Python Package Index (PyPI) repository of software for the Python programming language [Электронный ресурс]. Режим доступа: https://pypi.org/project/mmh3 (дата обращения 09.03.2024/).

CountVectorizer - метод кодирования категориальных данных, который преобразовывает список категорий в бинарный вектор, в котором 1 означает наличие категории в списке, а 0 означает отсутствие категории в списке. Размерность вектора равна количеству уникальных категорий. Данный метод используется, например, для сработавших для письма правил, категории письма или последовательности форматов частей письма.

После формирования признаков средство обработки 110 объединяет все признаки в единый вектор для каждого письма и передает указанные вектора средству кластеризации 120.

Средство кластеризации 120 предназначено для кластеризации писем на основании полученных от средства обработки 110 векторов признаков. Средство кластеризации 120 производит кластеризацию с помощью алгоритма машинного обучения, а именно метода k-средних (англ. k-means). Данный метод позволяет быстро кластеризовать письма, однако для его реализации необходимо указать количество кластеров. Количество кластеров зависит от предположительного количества однородных рассылок писем, которое в свою очередь зависит от загруженности сети. Например, для кластеризации писем, которые приходят клиентам 170 ночью, используют одно количество кластеров, например 800, а для кластеризации писем, которые приходят клиентам 170 днем, используют другое количество кластеров, например 1200.

Однородная рассылка писем - набор писем со схожим смыслом, причем схожесть смысла определяется схожестью статистических данных писем 165 из указанного набора.

В частном варианте реализации кластеризация писем производится каждый час, причем количество кластеров может различаться в зависимости от времени проведения получения писем клиентом 170. Например, для кластеризации писем, которые приходят клиентам 170 с 11:00 до 12:00, средство кластеризации 120 использует одно количество кластеров, например 1100, а для кластеризации писем, которые приходят клиентам 170 с 13:00 до 14:00, средство кластеризации 120 использует другое количество кластеров, например 1200.

В другом варианте реализации кластеризация писем реализована с помощью другого алгоритма машинного обучения, в котором необходимо указывать количество кластеров, например k-медиан (англ. k-medoids).

В еще одном варианте реализации кластеризация писем реализована с помощью алгоритма машинного обучения, в котором не нужно указывать количество кластеров, например метод Density-based spatial clustering of applications with noise (DBSCAN) (A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise // Institute for Computer Science, University of Munich Oettingenstr [электронный ресурс]. Режим доступа: https://cdn.aaai.org/KDD/1996/KDD96-037.pdf (дата обращения 09.03.2024)).

После кластеризации писем средство кластеризации 120 передает кластера писем в средство анализа кластеров 130.

Средство анализа кластеров 130 предназначено для классификации писем, содержащих спам, которые не были классифицированы на стороне клиента 170 как письма, содержащие спам.

Кроме того, дополнительно средство анализа кластеров 130 позволяет выявлять письма, которые были неверно классифицированы на стороне клиента 170.

Если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента 170 как письма, содержащие спам, средство анализа кластеров 130 классифицирует все письма в этом кластере как письма, содержащие спам. Например, заранее заданный порог равен 95 процентам. В таком случае, если письма, классифицированные на стороне клиента 170 как письма, содержащие спам, занимают 95 или больше процентов в этом кластере, средство анализа кластеров 130 классифицирует все письма в указанном кластере как письма, содержащие спам.

Если кластер содержит меньше заранее заданного порога писем, классифицированных на стороне клиента 170 как письма, содержащие спам, средство анализа кластеров 130 классифицирует письма, которые не были классифицированы на стороне клиента 170 как письма, содержащие спам, с помощью модели машинного обучения, заранее обученной для решения задачи схожести писем. Модель машинного обучения основана на методе бустинга деревьев решений. На вход обученной модели машинного обучения последовательно передают два вектора признаков: вектор признаков центроида указанного кластера и вектор признаков письма в кластере, классифицированного как письмо, содержащее спам. На выходе модель машинного обучения выдает коэффициент схожести от 0 до 1. В случае если коэффициент схожести больше заранее заданного числа, средство анализа кластеров 130 классифицирует анализируемое письмо как письмо, содержащее спам.

В частном варианте реализации модель машинного обучения для решения задачи классификации основана на одном из следующих методов: метод логистической регрессии, метод опорных векторов (англ. support vector machine, SVM), метод k ближайших соседей (англ. k-nearest neighbors algorithm, k-NN).

В частном варианте реализации средство анализа кластеров 130 классифицирует письма, которые не были классифицированы на стороне клиента 170 как письма, содержащие спам, с помощью модели машинного обучения, заранее обученной для решения задачи схожести писем, при этом на вход обученной модели машинного обучения последовательно передают два вектора признаков, а именно: вектор признаков письма в кластере (первый вектор), которое было классифицировано на стороне клиента 170 как письмо, не содержащее спам, и вектор признаков письма, которое было классифицировано на стороне клиента 170 как письмо, содержащее спам, причем косинусное расстояние до первого вектора должно быть минимальным.

В частном варианте реализации с помощью средства анализа кластеров 130 выявляют письма, которые не содержат спам, но при этом были классифицированы на стороне клиента 170 как письма, содержащие спам.

В еще одном частном варианте реализации, если кластер содержит меньше заранее заданного процента писем, классифицированных как письма, содержащие спам, средство анализа кластеров 130 классифицирует все письма в этом кластере как письма, не содержащие спам. Например, заранее заданный процент равен 5. В таком случае, если письма, классифицированные на стороне клиента 170 как письма, содержащие спам, занимают 5 или меньше процентов в указанном кластере, средство анализа кластеров 130 классифицирует оставшиеся письма как письма, не содержащие спам.

В частном варианте реализации средство анализа кластеров 130 классифицирует письма, которые были классифицированы на стороне клиента 170 как письма, содержащие спам, с помощью модели машинного обучения, заранее обученной для решения задачи схожести писем. На вход модели машинного обучения передают два вектора признаков, один из которых соответствует письму в кластере, которое было классифицировано на стороне клиента 170 как письмо, содержащее спам, а второй вектор соответствует письму, которое является центроидом указанного кластера. На выходе модель машинного обучения выдает процент схожести. В случае если процент схожести выше заранее заданного числа, средство анализа кластеров 130 классифицирует анализируемое письмо как письмо, содержащее спам.

В частном варианте реализации средство анализа кластеров 130 классифицирует письма, которые были классифицированы на стороне клиента 170 как письма, содержащие спам, с помощью модели машинного обучения, заранее обученной для решения задачи схожести писем, при этом на вход обученной модели машинного обучения последовательно передают два вектора признаков, а именно: вектор признаков письма в кластере, которое было классифицировано на стороне клиента 170 как письмо, содержащее спам, и вектор признаков письма, которое не было классифицировано на стороне клиента 170 как письмо, содержащее спам, причем косинусное расстояние до первого вектора должно быть минимальным.

Таким образом, система 100 обнаруживает электронные письма, содержащих спам, которые не были обнаружены на стороне клиентов 170, за счет чего повышает точность обнаружения электронных писем, содержащих спам.

В еще одном частном варианте реализации средство анализа кластеров 130 классифицирует все письма в кластере, с помощью совокупности описанных выше способов. Как показано на Фиг. 2, способ классификации писем в кластере зависит от процента писем в кластере, классифицированных на стороне клиента 170 как письма, содержащие спам. Метод классификации выбирают согласно следующим правилам:

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от 0 до первой границы включительно, все письма в кластере классифицируют как письма, не содержащие спам;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от первой границы до второй границы включительно, все письма в кластере, классифицированные на стороне клиента 170 как письма, содержащие спам, классифицируют с помощью модели машинного обучения;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от второй границы до третьей границы, все письма в кластере классифицируют в соответствии с классификацией на стороне клиента 170;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от третьей границы до четвертой границы, все письма в кластере, классифицированные на стороне клиента как письма, не содержащие спам, классифицируют с помощью модели машинного обучения;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от четвертой границы включительно до 100 процентов, все письма в кластере классифицируют как письма, содержащие спам.

В другом частном варианте реализации, если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, равен значению, соответствующему первой границе, все письма в кластере классифицируют с помощью модели машинного обучения.

В еще одном частном варианте реализации, если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, равен значению, соответствующему второй или третьей границе, все письма в кластере классифицируют в соответствии с классификацией на стороне клиента 170.

В другом частном варианте реализации, если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, равен значению, соответствующему четвертой границе, все письма в кластере классифицируют с помощью модели машинного обучения.

Первая, вторая, третья и четвертая границы соответствуют определенному проценту писем в кластере, классифицированных на стороне клиента 170 как письма, содержащие спам, и упорядочены между собой следующим образом - , где I, II, III, IV - это первая, вторая, третья и четвертая границы соответственно.

В частном варианте реализации средство анализа кластеров 130 устанавливает значения границ посредством модели машинного обучения, предназначенной для валидации значений границ путем нахождения оптимальных значений границ для минимизации ложных срабатываний.

В еще одном частном варианте реализации средство анализа кластеров 130 устанавливает значения границ в зависимости от времени получения писем клиентом 170. Например, при классификации писем, полученных клиентом 170 с 11:00 до 12:00, границы равны 5%, 10%, 90% и 95% соответственно, а при классификации писем, полученных клиентом 170 с 22:00 до 23:00 границы равны 10%, 35%, 65% и 90% соответственно.

На Фиг. 3 представлен способ классификации писем. В некоторых вариантах осуществления настоящего изобретения способ может выполняться при помощи средств системы 100 (см. Фиг. 1). Далее более подробно описаны различные шаги способа.

На этапе 310 получают статистические данные писем 165 клиентов 170 и результат классификации писем на стороне клиентов 170 посредством устройства сбора и хранения данных 160. Примерами получаемых статистических данных писем 165 являются одним или комбинацией из: данные о сработавшим для письма правиле; категория письма; последовательностью форматов частей письма; тип вложений письма; размер вложений в письме; тип разделений между частями сообщения; формат письма; домены из ссылок письма; последовательность технических заголовков в письме; домен отправителя из заголовка «From»; контрольная сумма имени пользователя из заголовка «From»; ip отправителя письма; размер тела письма; домен из «message-id»; тип заголовка «message-id»; домен отправителя из SMTP-сессии; ссылки из письма; количество ссылок в письме; заголовок «User-Agent»; заголовок «X-Mailer».

В одном из вариантов реализации статистические данные писем 165 разделены на два типа: числовые и категориальные.

На этапе 320 исключают из дальнейшего анализа данные писем, которые относятся по меньшей мере к одному из писем:

• письму, являющемуся автоматическим ответом;

• письму, относящемуся к внутренней переписке организации.

В частном варианте реализации также исключают письма из дальнейшего анализа, если клиент 170 имеет устаревшие базы правил.

На этапе 330 формируют признаки для каждого не исключенного письма на основании статистических данных писем 165. Как было описано выше, признаки формируются с помощью различных методов. Для числовых данных писем используют метод min-max масштабирование. Для категориальных данных писем используют хеширование с последующим применением метода min-max масштабирования, OneHotEncoding или CountVectorizer.

На этапе 340 объединяют сформированные признаки в единый вектор для каждого письма.

На этапе 350 проводят кластеризацию писем с помощью алгоритма машинного обучения на основании векторов.

В одном из вариантов реализации в качестве алгоритма машинного обучения для кластеризации писем используют метод k-средних.

На этапе 360 классифицируют письма в каждом кластере.

В одном варианте реализации классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, в каждом кластере согласно следующим правилам: если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, то классифицируют все оставшиеся письма в кластере как письма, содержащие спам; если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения. На вход модели машинного обучения для классификации письма последовательно передают два вектора признаков. В качестве двух векторов признаков выступают:

а) вектор признаков письма в кластере (первый вектор), которое было классифицировано на стороне клиента как письмо, не содержащее спам;

б) вектор признаков письма, которое было классифицировано как письмо, содержащее спам, причем косинусное расстояние до первого вектора должно быть минимальным.

В одном из вариантов реализации в качестве алгоритма машинного обучения для классификации писем используют метод бустинга деревьев решений.

В частном варианте реализации в качестве двух векторов признаков выступают вектор признаков письма в кластере, которое было классифицировано на стороне клиента как письмо, не содержащее спам, и вектор признаков центроида кластера.

В другом варианте реализации на этапе 360 классифицируют все письма в каждом кластере на основании процента писем, классифицированных на стороне клиента как письма, содержащие спам, согласно следующим правилам:

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от 0 до первой границы включительно, все письма в кластере классифицируют как письма, не содержащие спам;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от первой границы до второй границы включительно, все письма в кластере, классифицированные на стороне клиента 170 как письма, содержащие спам, классифицируют с помощью модели машинного обучения;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от второй границы до третьей границы, все письма в кластере классифицируют в соответствии с классификацией на стороне клиента 170;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от третьей границы до четвертой границы, все письма в кластере, классифицированные на стороне клиента как письма, не содержащие спам, классифицируют с помощью модели машинного обучения;

• если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, находится в промежутке от четвертой границы включительно до 100 процентов, все письма в кластере классифицируют как письма, содержащие спам.

В частном варианте реализации если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам равен значению, соответствующему первой границе, все письма в кластере классифицируют с помощью модели машинного обучения.

В частном варианте реализации если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам, равен значению, соответствующему второй или третьей границе, все письма в кластере классифицируют в соответствии с классификацией на стороне клиента 170.

В частном варианте реализации если процент писем, классифицированных на стороне клиента 170 как письма, содержащие спам равен значению, соответствующему четвертой границе, все письма в кластере классифицируют с помощью модели машинного обучения.

В еще одном частном варианте реализации устанавливают значения границ в зависимости от времени получения писем клиентом 170. Например, при классификации писем, полученных клиентом 170 с 11:00 до 12:00, границы равны 5%, 10%, 90% и 95%, а при классификации писем, полученных клиентом 170 с 22:00 до 23:00 границы равны 10%, 35%, 65% и 90%.

На Фиг. 4 представлена компьютерная система, на которой могут быть реализованы различные варианты систем и способов, раскрытых в настоящем документе. Компьютерная система 20 может представлять собой систему, сконфигурированную для реализации настоящего изобретения, и может быть в виде одного вычислительного устройства или в виде нескольких вычислительных устройств, например, настольного компьютера, портативного компьютера, ноутбука, мобильного вычислительного устройства, смартфона, планшетного компьютера, сервера, мейнфрейма, встраиваемого устройства и других форм вычислительных устройств.

Как показано на Фиг. 4, компьютерная система 20 включает в себя: центральный процессор 21, системную память 22 и системную шину 23, которая связывает разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, способную взаимодействовать с любой другой шинной архитектурой. Примерами шин являются: PCI, ISA, PCI-Express, HyperTransport™, InfiniBand™, Serial ATA, I2C и другие подходящие соединения между компонентами компьютерной системы 20. Центральный процессор 21 содержит один или несколько процессоров, имеющих одно или несколько ядер. Центральный процессор 21 исполняет один или несколько наборов машиночитаемых инструкций, реализующих способы, представленные в настоящем документе. Системная память 22 может быть любой памятью для хранения данных и/или компьютерных программ, исполняемых центральным процессором 21. Системная память может содержать как постоянное запоминающее устройство (ПЗУ) 24, так и память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами компьютерной системы 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.

Компьютерная система 20 включает в себя одно или несколько устройств хранения данных, таких как одно или несколько извлекаемых запоминающих устройств 27, одно или несколько неизвлекаемых запоминающих устройств 28, или комбинации извлекаемых и неизвлекаемых устройств. Одно или несколько извлекаемых запоминающих устройств 27 и/или неизвлекаемых запоминающих устройств 28 подключены к системной шине 23 через интерфейс 32. В одном из вариантов реализации извлекаемые запоминающие устройства 27 и соответствующие машиночитаемые носители информации представляют собой энергонезависимые модули для хранения компьютерных инструкций, структур данных, программных модулей и других данных компьютерной системы 20. Системная память 22, извлекаемые запоминающие устройства 27 и неизвлекаемые запоминающие устройства 28 могут использовать различные машиночитаемые носители информации. Примеры машиночитаемых носителей информации включают в себя машинную память, такую как кэш-память, SRAM, DRAM, ОЗУ, не требующую конденсатора (Z-RAM), тиристорную память (T-RAM), eDRAM, EDO RAM, DDR RAM, EEPROM, NRAM, RRAM, SONOS, PRAM; флэш-память или другие технологии памяти, такие как твердотельные накопители (SSD) или флэш-накопители; магнитные кассеты, магнитные ленты и магнитные диски, такие как жесткие диски или дискеты; оптические носители, такие как компакт-диски (CD-ROM) или цифровые универсальные диски (DVD); и любые другие носители, которые могут быть использованы для хранения нужных данных и к которым может получить доступ компьютерная система 20.

Системная память 22, извлекаемые запоминающие устройства 27 и неизвлекаемые запоминающие устройства 28, содержащиеся в компьютерной системе 20 используются для хранения операционной системы 35, приложений 37, других программных модулей 38 и программных данных 39. Компьютерная система 20 включает в себя периферийный интерфейс 46 для передачи данных от устройств ввода 40, таких как клавиатура, мышь, стилус, игровой контроллер, устройство голосового ввода, устройство сенсорного ввода, или других периферийных устройств, таких как принтер или сканер через один или несколько портов ввода/вывода, таких как последовательный порт, параллельный порт, универсальная последовательная шина (USB) или другой периферийный интерфейс. Устройство отображения 47, такое как один или несколько мониторов, проекторов или встроенных дисплеев, также подключено к системной шине 23 через выходной интерфейс 48, такой как видеоадаптер. Помимо устройств отображения 47, компьютерная система 20 оснащена другими периферийными устройствами вывода (на Фиг. 4 не показаны), такими как динамики и другие аудиовизуальные устройства.

Компьютерная система 20 может работать в сетевом окружении, используя сетевое соединение с одним или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 является рабочим персональным компьютером или сервером, который содержит большинство или все упомянутые компоненты, отмеченные ранее при описании сущности компьютерной системы 20, представленной на Фиг. 7. В сетевом окружении также могут присутствовать и другие устройства, например, маршрутизаторы, сетевые станции или другие сетевые узлы. Компьютерная система 20 может включать один или несколько сетевых интерфейсов 51 или сетевых адаптеров для связи с удаленными компьютерами 49 через одну или несколько сетей, таких как локальная компьютерная сеть (LAN) 50, глобальная компьютерная сеть (WAN), интранет и Интернет. Примерами сетевого интерфейса 51 являются интерфейс Ethernet, интерфейс Frame Relay, интерфейс SONET и беспроводные интерфейсы.

Варианты раскрытия настоящего изобретения могут представлять собой систему, способ, или машиночитаемый носитель (или носитель) информации.

Машиночитаемый носитель информации является осязаемым устройством, которое сохраняет и хранит программный код в форме машиночитаемых инструкций или структур данных, к которым имеет доступ центральный процессор 21 компьютерной системы 20. Машиночитаемый носитель может быть электронным, магнитным, оптическим, электромагнитным, полупроводниковым запоминающим устройством или любой подходящей их комбинацией. В качестве примера, такой машиночитаемый носитель информации может включать в себя память с произвольным доступом (RAM), память только для чтения (ROM), EEPROM, портативный компакт-диск с памятью только для чтения (CD-ROM), цифровой универсальный диск (DVD), флэш-память, жесткий диск, портативную компьютерную дискету, карту памяти, дискету или даже механически закодированное устройство, такое как перфокарты или рельефные структуры с записанными на них инструкциями.

Система и способ, настоящего изобретения, могут быть рассмотрены в терминах средств. Термин "средство", используемый в настоящем документе, относится к реальному устройству, компоненту или группе компонентов, реализованных с помощью аппаратного обеспечения, например, с помощью интегральной схемы, специфичной для конкретного приложения (ASIC) или FPGA, или в виде комбинации аппаратного и программного обеспечения, например, с помощью микропроцессорной системы и набора машиночитаемых инструкций для реализации функциональности средства, которые (в процессе выполнения) превращают микропроцессорную систему в устройство специального назначения. Средство также может быть реализовано в виде комбинации этих двух компонентов, при этом некоторые функции могут быть реализованы только аппаратным обеспечением, а другие функции - комбинацией аппаратного и программного обеспечения. В некоторых вариантах реализации, по крайней мере, часть, а в некоторых случаях и все средство может быть выполнено на центральном процессоре 21 компьютерной системы 20. Соответственно, каждое средство может быть реализовано в различных подходящих конфигурациях и не должно ограничиваться каким-либо конкретным вариантом реализации, приведенным в настоящем документе.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что при разработке любого реального варианта осуществления настоящего изобретения необходимо принять множество решений, специфических для конкретного варианта осуществления, для достижения конкретных целей, и эти конкретные цели будут разными для разных вариантов осуществления. Понятно, что такие усилия по разработке могут быть сложными и трудоемкими, но тем не менее, они будут обычной инженерной задачей для тех, кто обладает обычными навыками в данной области, пользуясь настоящим раскрытием изобретения.

Похожие патенты RU2828611C1

название год авторы номер документа
Способ классификации писем электронной почты и система, его реализующая 2024
  • Баландюк-Опалинская Янина Эдвардовна
  • Ковтун Андрей Евгеньевич
  • Шимко Ирина Владимировна
RU2828610C1
Способ кластеризации электронных писем, являющихся спамом 2021
  • Бенькович Никита Дмитриевич
  • Савушкин Алан Сергеевич
  • Голубев Дмитрий Сергеевич
  • Деденок Роман Андреевич
  • Слободянюк Юрий Геннадьевич
RU2769633C1
Система и способ формирования эвристических правил для выявления писем, содержащих спам 2019
  • Деденок Роман Андреевич
  • Голубев Дмитрий Сергеевич
  • Сальников Петр Александрович
RU2710739C1
Способ обнаружения мошеннического письма, относящегося к категории внутренних ВЕС-атак 2021
  • Деденок Роман Андреевич
  • Бенькович Никита Дмитриевич
  • Голубев Дмитрий Сергеевич
  • Слободянюк Юрий Геннадьевич
RU2766539C1
Способ формирования сигнатуры нежелательного электронного сообщения 2021
  • Марченко Алексей Сергеевич
  • Утки-Отки Алексей Евгеньевич
  • Голубев Дмитрий Сергеевич
  • Слободянюк Юрий Геннадьевич
RU2776924C1
Система утилизации спама 2021
  • Гришин Алексей Анатольевич
  • Жирнов Алексей Владимирович
  • Шафров Александр Викторович
RU2787308C1
Способ определения фишингового электронного сообщения 2020
  • Бенькович Никита Дмитриевич
  • Ковальчук Даниил Максимович
  • Голубев Дмитрий Сергеевич
  • Деденок Роман Андреевич
  • Слободянюк Юрий Геннадьевич
RU2790330C2
Способ признания письма спамом через анти-спам карантин 2019
  • Бенькович Никита Дмитриевич
  • Голубев Дмитрий Сергеевич
  • Деденок Роман Андреевич
  • Бут Андрей Алексеевич
RU2750643C2
СИСТЕМА И СПОСОБ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ЭЛЕКТРОННЫХ СООБЩЕНИЙ ДЛЯ БОРЬБЫ СО СПАМОМ 2013
  • Смирнов Евгений Петрович
  • Бахмутов Андрей Викторович
  • Лосева Дарья Владимировна
  • Швырков Дмитрий Алексеевич
RU2541123C1
Система и способ ограничения получения электронных сообщений от отправителя массовой рассылки спама 2021
  • Голубев Дмитрий Сергеевич
  • Деденок Роман Андреевич
  • Слободянюк Юрий Геннадьевич
RU2787303C1

Иллюстрации к изобретению RU 2 828 611 C1

Реферат патента 2024 года Система и способ классификации писем электронной почты

Изобретение относится к системам и способам обнаружения спам-писем на основании анализа статистических данных о получаемых электронных письмах клиентов. Технический результат заключается в повышении точности обнаружения электронных писем, содержащих спам. Указанный результат достигается за счет этапов, на которых: получают статистические данные писем клиентов и результат классификации писем на стороне клиентов; исключают из дальнейшего анализа данные писем, которые относятся по меньшей мере к одному из: письмам, являющимся автоматическими ответами; письмам, относящимся к внутренней переписке организации; формируют признаки на основании статистических данных для не исключенных писем; объединяют признаки в единый вектор для каждого письма; проводят кластеризацию писем с помощью алгоритма машинного обучения на основании векторов признаков писем; классифицируют письма в каждом кластере согласно следующим правилам: если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют все письма в кластере как письма, содержащие спам; если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения. 2 н. и 15 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 828 611 C1

1. Способ классификации писем электронной почты для обнаружения спама на основании статистических данных писем, включающий шаги, согласно которым:

получают статистические данные писем клиентов и результат классификации писем на стороне клиентов;

исключают из дальнейшего анализа данные писем, которые относятся по меньшей мере к одному из:

письмам, являющимся автоматическими ответами;

письмам, относящимся к внутренней переписке организации;

формируют признаки на основании статистических данных для не исключенных писем;

объединяют признаки в единый вектор для каждого письма;

проводят кластеризацию писем с помощью алгоритма машинного обучения на основании векторов признаков писем;

классифицируют письма в каждом кластере согласно следующим правилам:

если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют все письма в кластере как письма, содержащие спам;

если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения.

2. Способ по п. 1, в котором статистические данные писем содержат по меньшей мере одно из:

данные о сработавших для письма правилах;

категория письма;

последовательность форматов частей письма;

тип вложений письма;

размер вложений в письме;

тип разделений между частями сообщения;

формат письма;

домены из ссылок письма;

последовательность технических заголовков в письме;

домен отправителя из заголовка «From»;

контрольная сумма имени пользователя из заголовка «From»;

ip-адрес отправителя письма;

размер тела письма;

домен из «message-id»;

тип заголовка «message-id»;

домен отправителя из SMTP-сессии;

ссылки из письма;

количество ссылок в письме;

заголовок «User-Agent»;

заголовок «X-Mailer».

3. Способ по п. 2, в котором размер вложений письма представлен в виде вектора размеров вложений.

4. Способ по п. 2, в котором размер вложений письма представлен в виде суммы размеров всех вложений.

5. Способ по п. 1, в котором все статистические данные разделены на два типа: числовые и категориальные.

6. Способ по п. 1, в котором формируют каждый признак с помощью одного из следующих методов:

OneHotEncoding;

min-max масштабирование;

хеширование с последующим применением min-max масштабирования;

CountVectorizer.

7. Способ по п. 6, в котором для хеширования используют метод MurmurHash3.

8. Способ по п. 1, в котором в качестве алгоритма машинного обучения для кластеризации писем используют один из следующих методов:

k-средних;

k-медиан;

DBSCAN.

9. Способ по п. 1, в котором кластеризация писем производится каждый раз после окончания заданного промежутка времени.

10. Способ по п. 1, в котором на вход модели машинного обучения для классификации письма передают два вектора признаков.

11. Способ по п. 10, в котором в качестве двух векторов признаков выступают:

вектор признаков письма в кластере (первый вектор), которое было классифицировано на стороне клиента как письмо, не содержащее спам;

вектор признаков письма, которое было классифицировано на стороне клиента как письмо, содержащее спам, причем косинусное расстояние до первого вектора должно быть минимальным.

12. Способ по п. 10, в котором в качестве двух векторов признаков выступают вектор признаков письма в кластере, которое было классифицировано на стороне клиента как письмо, не содержащее спам, и вектор признаков центроида кластера.

13. Система классификации писем электронной почты для обнаружения спама на основании статистических данных писем, состоящая по меньшей мере из одной компьютерной системы и содержащая:

средство обработки данных, взаимодействующее с устройством сбора и хранения данных и средством кластеризации и предназначенное для:

получения статистических данных писем и результата классификации писем на стороне клиентов от устройства сбора и хранения данных;

фильтрации писем на основании статистических данных писем;

формирования признаков писем на основании статистических данных писем;

средство кластеризации, взаимодействующее со средством обработки данных и средством анализа кластеров и предназначенное для:

кластеризации писем на основании сформированных признаков писем, полученных от средства обработки данных;

передачи кластеров писем в средство анализа кластеров;

средство анализа кластеров, предназначенное для классификации писем в каждом полученном кластере писем согласно следующим правилам:

если кластер содержит больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют все письма в кластере как письма, содержащие спам;

если кластер содержит не больше заранее заданного порога писем, классифицированных на стороне клиента как письма, содержащие спам, классифицируют письма, которые не были классифицированы на стороне клиента как письма, содержащие спам, с помощью модели машинного обучения.

14. Система по п. 13, в которой статистические данные писем содержат по меньшей мере одно из:

данные о сработавших для письма правилах;

категория письма;

последовательность форматов частей письма;

тип вложений письма;

размер вложений в письме;

тип разделений между частями сообщения;

формат письма;

домены из ссылок письма;

последовательность технических заголовков в письме;

домен отправителя из заголовка «From»;

контрольная сумма имени пользователя из заголовка «From»;

ip-адрес отправителя письма;

размер тела письма;

домен из «message-id»;

тип заголовка «message-id»;

домен отправителя из SMTP-сессии;

ссылки из письма;

количество ссылок в письме;

заголовок «User-Agent»;

заголовок «X-Mailer».

15. Система по п. 13, в которой средство обработки данных формирует каждый признак с помощью одного из следующих методов:

OneHotEncoding;

min-max масштабирование;

хеширование с последующим применением min-max масштабирования;

CountVectorizer.

16. Система по п. 13, в которой в качестве алгоритма машинного обучения для кластеризации средство кластеризации реализует один из следующих методов:

k-средних;

k-медиан;

DBSCAN.

17. Система по п. 13, в которой средство кластеризации производит кластеризацию писем каждый раз после окончания заданного промежутка времени.

Документы, цитированные в отчете о поиске Патент 2024 года RU2828611C1

СИСТЕМА И СПОСОБ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ЭЛЕКТРОННЫХ СООБЩЕНИЙ ДЛЯ БОРЬБЫ СО СПАМОМ 2013
  • Смирнов Евгений Петрович
  • Бахмутов Андрей Викторович
  • Лосева Дарья Владимировна
  • Швырков Дмитрий Алексеевич
RU2541123C1
Система и способ формирования эвристических правил для выявления писем, содержащих спам 2019
  • Деденок Роман Андреевич
  • Голубев Дмитрий Сергеевич
  • Сальников Петр Александрович
RU2710739C1
US 8738721 B1, 27.05.2014
US 8010466 B2, 30.08.2011
Способ получения продуктов конденсации фенолов с формальдегидом 1924
  • Петров Г.С.
  • Тарасов К.И.
SU2022A1
US 8370930 B2, 05.02.2013
US 10909198 B1, 02.02.2021.

RU 2 828 611 C1

Авторы

Баландюк-Опалинская Янина Эдвардовна

Ковтун Андрей Евгеньевич

Шимко Ирина Владимировна

Даты

2024-10-14Публикация

2024-03-27Подача