Система и способ обнаружения фишинговых веб-страниц Российский патент 2025 года по МПК G06F21/50 

Описание патента на изобретение RU2836604C1

Область техники

Настоящее изобретение относится к области информационных технологий, а более конкретно к системам и способам обнаружения фишинговых сайтов.

Уровень техники

Бурное развитие интернет-технологий в последнее десятилетие, появление большого числа устройств, передающих данные через Интернет (таких как персональные компьютеры, ноутбуки, планшеты, мобильные телефоны и т. д.), а также простота и удобство их эксплуатации привели к тому, что огромное число людей в своих повседневных делах стали пользоваться Интернетом, будь то чтение новостей, работа с банковскими сервисами, осуществление покупок, чтение электронной почты, посещение социальных сетей, посещение развлекательных сайтов и т. д. Часто при работе в Интернете (например, при покупке товаров, переводе денег, регистрации на сайтах и т. д.) пользователям приходится передавать на серверы свою конфиденциальную информацию (такую как номера кредитных карт и банковских счетов, пароли к учетным записям и т. д.).

Увеличение числа пользователей, использующих Интернет, привело к увеличению активности мошенников, получающих с помощью разнообразных техник и методов доступ к конфиденциальным данным пользователей с целью их кражи для дальнейшего использования в собственных целях. Одним из самых популярных методов является так называемый фишинг (англ. phishing), т.е. получение доступа к конфиденциальной информации пользователя с помощью проведения рассылок писем от имени популярных брендов, личных сообщений внутри различных сервисов (например, внутри социальных сетей), а также создания сайтов, выдающих себя за легальные сайты банков, интернет-магазинов, социальных сетей и т. д. В письме или сообщении, посылаемом мошенниками пользователям, часто содержатся ссылки на вредоносные сайты, внешне неотличимые от настоящих, или на сайты, с которых будет осуществлен переход на вредоносные сайты. После того как пользователь попадает на поддельную страницу, мошенники, используя различные приемы социальной инженерии, пытаются побудить пользователя ввести свою конфиденциальную информацию, которую он использует для доступа к определенному сайту, что позволяет мошенникам получить доступ к аккаунтам пользователя. Кроме раскрытия своей конфиденциальной информации пользователь рискует получить с такого сайта-подделки одно из вредоносных приложений, осуществляющих регулярный сбор и передачу мошенникам информации с компьютера жертвы.

Для борьбы с описанным выше способом мошенничества применяются технологии, направленные на выявление фишинговых сообщений (например, в электронной почте), а также поддельных (фишинговых) сайтов. Для этого используются базы доверенных и недоверенных адресов сайтов, шаблоны фраз из фишинговых сообщений и т. д.

Например, в патентной публикации US20180115565A1 описана технология, направленная на выявление фишинговых сайтов. Для этого используется модель машинного обучения, решающая задачу классификации сайтов, обученная на белом списке доменных имен и контента сайтов.

Один из недостатков упомянутой технологии заключается в анализе и последующей блокировке сайтов, а не веб-страниц. Это является недостатком, так как на легитимном сайте может находиться фишинговая веб-страница, например в случае взлома злоумышленником легитимного сайта и размещения на нем фишинговой веб-страницы. Таким образом, блокировка сайта целиком хоть и обезопасит пользователя от находящейся на нем фишинговый веб-страницы, но при этом возможность пользоваться легитимным сайтом будет недоступна. Другим недостатком упомянутой технологии является то, что анализ реализован только на основании контентной информации сайтов, при этом метаинформация (например, WHOIS-информация) не используется. Это является существенным недостатком, так как метаинформация позволяет более точно определять, является сайт фишинговым или нет. Например, злоумышленники часто используют дешевые сервисы регистрации доменных имен. Таким образом, если доменное имя зарегистрировано при помощи сервиса регистрации доменных имен, часто используемого злоумышленниками, вероятность того, что сайт является фишинговым, возрастает.

Соответственно, необходимы решения, способные анализировать веб-страницы на основании не только контентной информации, но и метаинформации о веб-странице. Кроме того, решение должно иметь возможность анализировать сайт не целиком, а только его часть, например веб-страницу, для обнаружения фишинговой веб-страницы с последующей ее блокировкой. Варианты осуществления настоящего изобретения решают по меньшей мере указанные задачи по отдельности и вместе.

Раскрытие сущности изобретения

Задача предлагаемого решения заключается в обнаружении веб-страниц на основании контентной информации и метаинформации о веб-странице для блокировки фишинговых веб-страниц.

Технический результат настоящего изобретения заключается в обнаружении с возможностью последующей блокировки фишинговых веб-страниц. Данный технический результат достигается за счет предложенного способа обнаружения фишинговых веб-страниц с использованием модели машинного обучения на основании контентной информации и метаинформации, выполняемого на вычислительном устройстве, содержащем по меньшей мере процессор и память, которая при этом содержит инструкции для выполнения.

В качестве одного варианта исполнения настоящего изобретения предлагается способ обнаружения фишинговой веб-страницы, согласно которому: выполняют сбор контентной информации и метаинформации о веб-странице в компьютерной сети; формируют по меньшей мере один признак из контентной информации и извлекают по меньшей мере один признак из метаинформации; формируют вектор признаков веб-страницы из признаков контентной информации и метаинформации; передают на вход модели машинного обучения сформированный вектор признаков веб-страницы для классификации веб-страницы; определяют веб-страницу как фишинговую по результатам классификации моделью машинного обучения.

В другом варианте реализации способа после сбора контентной информации и метаинформации дополнительно сравнивают хеш проверяемой веб-страницы с набором хешей доверенных веб-страниц, причем если хеш проверяемой веб-страницы совпадет с хешем веб-страницы из указанного набора хешей доверенных веб-страниц, проверяемую веб-страницу классифицируют как не фишинговую.

В ещё одном варианте реализации способа доверенными веб-страницами являются ранее классифицированные как не фишинговые веб-страницы.

В другом варианте реализации способа метаинформация содержит по меньшей мере одно из: информацию о веб-странице, получаемую при помощи сервиса WHOIS; информацию о веб-странице, получаемую при помощи сервиса WHOIS IP; сведения о выпущенных для домена сертификатах публичного ключа; позицию в рейтинге сайтов в Интернете.

В ещё одном варианте реализации способа информация, получаемая при помощи сервиса WHOIS, содержит информацию по меньшей мере об одном из: дата регистрации домена, на котором расположена веб-страница; id регистратора домена, на котором расположена веб-страница; расположен ли DNS по тому же ip-адресу, что и веб-страница; является ли владелец домена организацией; время существования домена.

В другом варианте реализации способа информация, получаемая при помощи сервиса WHOIS IP, содержит информацию по меньшей мере об одном из: диапазоне IP-адресов, к которому относится проверяемая веб-страница; названии диапазона компьютерной сети; владельце IP-адреса, в том числе наименовании и адресе владельца IP-адреса; стране, которой соответствует данный диапазон IP-адресов; городе, которому соответствует данный диапазон IP-адресов.

В ещё одном варианте реализации способа под выпущенными для домена сертификатах публичного ключа содержат данные о сертификатах, выданных для домена центрами сертификации.

В другом варианте реализации способа информация о веб-страницах содержит позицию в рейтинге сайтов в Интернете по меньшей мере из одного источника: TRANCO, Alexa Rank или Majestic.

В ещё одном варианте реализации способа контентная информация содержит по меньшей мере одно из: html-код веб-страницы; flash-приложения; java-апплеты; мультимедийные данные; электронные документы; гиперссылки; сценарии; тексты.

В другом варианте реализации способа извлекают признаки из контентной информации веб-страницы одним их следующих методов: определение размера текста; поиск по тексту лексем из словаря, содержащего лексемы, составляющие сообщения о фишинге, и подсчет их количества; сравнение по похожести мультимедийных данных с мультимедийными данными.

В ещё одном варианте реализации способа перед формированием вектора признаков дополнительно преобразовывают сформированные признаки из контентной информации и извлеченные признаки из метаинформации.

В другом варианте реализации способа преобразовывают признаки с помощью по меньшей мере одного из следующих методов: OneHotEncoding; Bucketing; min-max-масштабирование; GetDummies.

В ещё одном варианте реализации способа под признаками на основе контентной информации понимается по меньшей мере одно из: размер текста меньше заданного порога на странице сайта или в письме; недоверенная ссылка; неизвестная ссылка на изображения с сайта известной организации; количество лексем в тексте больше заданного порога; изображение доверенного логотипа совместно с недоверенной или неизвестной ссылкой; размер текста больше заданного порога при отсутствии изображений и ссылок; несколько больших изображений без текста; домен, не принадлежащий организации ссылка на изображение не указывает на домен организации.

В другом варианте реализации способа ограничивают доступ к определенной фишинговой веб-странице одним из следующих действий: блокировка доступа к веб-странице; открытие веб-страницы в браузере, который работает в защищенном режиме; приостановка перехода на веб-страницу и информирование пользователя о том, что веб-страница является фишинговой.

В качестве другого варианта исполнения настоящего изобретения предлагается система обнаружения фишинговых веб-страниц, состоящая из компьютерного устройства с аппаратным процессором, настроенным для выполнения способа по любому из указанных выше вариантов реализации.

Краткое описание чертежей

Фиг. 1 иллюстрирует пример компьютерной сети, в рамках которой реализуется система обнаружения фишинговых веб-страниц.

Фиг. 2 иллюстрирует пример состава системы обнаружения фишинговых веб-страниц.

Фиг. 3 иллюстрирует способ обнаружения фишинговых веб-страниц.

Фиг. 4 иллюстрирует пример компьютерной системы общего назначения.

Осуществление изобретения

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Приведенное описание предназначено для помощи специалисту в области техники для исчерпывающего понимания изобретения, которое определяется только в объеме приложенной формулы.

Настоящее изобретение является техническим решением, позволяющим автоматически обнаруживать фишинговые веб-страницы. В рамках настоящего изобретения на основании информации о веб-страницах осуществляется формирование обучающей выборки для обучения модели машинного обучения. Эффективность работы модели машинного обучения зависит от качества и количества данных, на основании которых обучается указанная модель. Для более точной классификации веб-страниц данные содержат как метаинформацию, так и контентную информацию о веб-страницах. Стоит отметить, что использование только контентной информации о веб-страницах понижает вероятность обнаружения фишинговых веб-страниц и увеличивает вероятность определения легитимных веб-страниц как фишинговых (ложных срабатываний указанной модели машинного обучения). Таким образом, настоящее изобретение позволяет более эффективно анализировать большое количество веб-страниц для выявления фишинговых веб-страниц, чем существующие технологии.

Представленные при описании настоящего изобретения подходы в зависимости от реализации позволяют обнаружить фишинговые веб-страницы точнее, чем известные из уровня техники решения, предназначенные для сравнения сайтов.

Веб-страница – это самостоятельная часть веб-ресурса, представляющая собой текстовый файл на одном из языков разметки документов (например, в формате HTML или XHTML), при этом страница имеет свой уникальный адрес (URL). Каждая страница создается при помощи языка разметки и содержит по крайней мере главные теги: head, содержащий заголовок (Title), и основную часть – тело (Body), содержащее контент. У тегов есть значения и атрибуты, у которых также есть значения.

На Фиг. 1 представлен пример компьютерной сети 110, к которой подключено компьютерное устройство (сервер) 120, которое в свою очередь содержит средство сбора информации 130 и систему обнаружения фишинговых веб-страниц 140.

В рамках данного изобретения под компьютером подразумевается любое вычислительное устройство, в частности персональный компьютер, ноутбук, смартфон, планшет, маршрутизатор, система хранения данных, сервер. Примером сервера 120, на котором реализуется система обнаружения фишинговых веб-страниц 140, является компьютерная система, представленная при описании Фиг. 4.

В одном из вариантов реализации компьютерная сеть 110 представляет собой один из сетевых узлов сети Интернет. Еще одним примером компьютерной сети 110 может являться вся сеть Интернет.

Средство сбора информации 130 предназначено для сбора информации о веб-страницах и передачи собранной информации о веб-страницах в систему обнаружения фишинговых веб-страниц 140. Информация о веб-страницах содержит:

• метаинформацию, которая в свою очередь содержит по меньшей мере одно из:

o информацию о веб-странице, получаемую при помощи сервиса WHOIS;

o позицию в рейтинге сайтов в Интернете;

• контентную информацию, которая в свою очередь содержит по меньшей мере одно из:

o html-код (от англ. Hypertext Markup Language) веб-страницы;

o flash-приложения и java-апплеты, загружаемые с веб-страницы;

o мультимедийные данные (например, изображения, содержащиеся на веб-странице);

o электронные документы, расположенные на веб-странице (документы Microsoft Office, PDF и т. д.);

o гиперссылки, расположенные на веб-странице;

o сценарии (например, Javascript или VBA);

o тексты, расположенные на веб-странице.

В свою очередь информация о веб-странице, получаемая при помощи сервиса WHOIS, содержит по меньшей мере одно из:

• дату регистрации домена, на котором расположена веб-страница;

• id (англ. identifier) регистратора домена, на котором расположена веб-страница;

• информацию, расположен ли DNS (англ. Domain Name Server) по тому же ip-адресу, что и веб-страница;

• информацию, является ли владелец домена организацией;

• время существования домена.

В частном варианте реализации метаинформация о веб-страницах дополнительно содержит по меньшей мере одно из:

• информацию о веб-странице, получаемую при помощи сервиса WHOIS IP;

• сведения о выпущенных для домена сертификатах публичного ключа.

Информация о веб-странице, получаемая при помощи сервиса WHOIS IP, содержит информацию по меньшей мере об одном из:

• диапазоне IP-адресов, к которому относится проверяемая веб-страница;

• названии диапазона компьютерной сети;

• владельце IP-адреса, в том числе наименовании и адресе владельца IP-адреса;

• стране, которой соответствует данный диапазон IP-адресов;

•• городе, которому соответствует данный диапазон IP-адресов.

Сведения о выпущенных для домена сертификатах публичного ключа содержат данные о сертификатах, выданных для домена центрами сертификации. Примером таких сертификатов является SSL-сертификат (англ. Secure Sockets Layer).

Позиция в рейтинге сайтов в Интернете представлена в виде натурального числа, отражающего популярность домена. Например, согласно источнику tranco-list.eu на 11 декабря 2023 года домену google.com соответствует число 1, а домену microsoft.com – число 4, следовательно, согласно tranco-list.eu, домен google.com более популярный.

В частном варианте реализации информация о веб-страницах содержит позицию в рейтинге сайтов в Интернете по меньшей мере из одного источника: TRANCO (tranco-list.eu), AlexaRank (alexa.com/siteinfo) или Majestic (majestic.com).

После сбора информации средство сбора информации 130 передает всю собранную информацию в систему обнаружения фишинговых веб-страниц 140.

Система обнаружения фишинговых веб-страниц 140 предназначена для обнаружения фишинговых веб-страниц путем классификации веб-страниц с целью последующего предотвращения распространения вредоносной активности на основании проведенной классификации.

Средство сбора информации 130 помечает собранную контентную информацию по меньшей мере одной из следующих категорий:

• гиперссылки;

• мультимедийные данные;

• сценарии (например, Javascript или VBA);

• тексты;

• java-апплеты;

• flash-приложения.

Система обнаружения фишинговых веб-страниц 140 обнаруживает фишинговые веб-страницы с помощью классификации веб-страниц на два класса, а именно фишинговые и не фишинговые.

В других вариантах реализации, классификация веб-страниц может осуществляться на два и более классов, при этом могут быть выбраны другие типы классов. Например, веб-страницы могут быть классифицированы на фишинговые, подозрительные и не фишинговые.

На Фиг. 2 представлен пример состава системы обнаружения фишинговых веб-страниц 140, которая содержит базу информации о веб-страницах 210, средство формирования признаков 220 и классификатор 230.

База информации о веб-страницах 210 предназначена для приема и хранения информации от средства сбора информации 130, а также хранения набора белых хешей (англ. hash). Белый хеш веб-страницы – хеш доверенной веб-страницы.

В частном варианте реализации доверенными веб-страницами являются ранее классифицированные как не фишинговые веб-страницы.

В частном варианте реализации система обнаружения фишинговых веб-страниц 140 сравнивает хеш проверяемой веб-страницы с набором белых хешей, который хранится в базе информации о веб-страницах 210. Если хеш проверяемой веб-страницы совпадет с хешем веб-страницы из указанного набора белых хешей, то проверяемая веб-страница будет классифицирована как не фишинговая.

В частном варианте реализации белые хеши соответствуют доверенным веб-страницам, которые в свою очередь являются веб-страницами, расположенными на домене, который принадлежит известной организации.

В другом частном варианте реализации доверенными веб-страницами являются ранее классифицированные как не фишинговые веб-страницы.

Средство формирования признаков 220 предназначено для извлечения признаков из метаинформации и формирования признаков на основании контентной информации о веб-странице.

Средство формирования признаков 220 преобразовывает контентную информацию и метаинформацию в понятный для алгоритма модели машинного обучения числовой вид с помощью различных методов кодирования и нормализации информации. Сформированные признаки используются для обучения модели машинного обучения, предназначенной для классификации веб-страниц. В дальнейшем признаки используются для классификации веб-страниц с помощью указанной модели машинного обучения.

Для преобразования категориальной метаинформации средство формирования признаков 220 реализует метод OneHotEncoding – метод кодирования категориальных данных, который преобразовывает каждую уникальную категорию в бинарный вектор, в котором только один бит, представляя наличие категории, устанавливается в единицу, а остальные биты устанавливаются в 0. Данный метод используется, например, для преобразования id регистратора домена.

В частном варианте реализации для преобразования категориальной метаинформации средство формирования признаков 220 реализует метод GetDummies - метод кодирования категориальных данных, который создает для каждого уникального значения категориальной метаинформации столбец. Информация в столбце представлена одним из двух значений – 1 или 0.

Для преобразования некоторой числовой метаинформации, например позиции в рейтинге сайтов в Интернете, средство формирования признаков 220 реализует метод Bucketing – метод кодирования данных, который группирует данные в диапазоны или интервалы на основании их значений. Данный метод используется, например, для преобразования позиции в рейтинге сайтов в Интернете.

Для остальных типов метаинформации средство формирования признаков 220 реализует метод min-max-масштабирование – метод нормализации данных в пределах заданного диапазона, например между 0 и 1. Данный метод используется, например, для преобразования возраста домена. В данном случае средство формирования признаков 220 формирует признак на основании возраста домена. Этот признак будет равен возрасту домена, на котором расположена веб-страница, поделенному на возраст самого старого домена из базы информации о веб-страницах 210. Данный метод также используется для формирования признака на основании метаинформации о том, расположен ли DNS по тому же ip-адресу, что и веб-страница. В данном случае средство формирования признаков 220 сформирует признак расположения DNS на том же домене, что и веб-страница, который будет равен 0, если DNS и веб-страница не расположены на одном домене, и 1, если DNS и веб-страница расположены на одном домене.

Средство формирования признаков 220 формирует признаки на основании контентной информации о веб-странице. В качестве методов формирования признаков выступают:

• определение размера текста, например подсчет количества символов или слов в тексте;

• поиск по тексту лексем из словаря, содержащего лексемы, составляющие сообщения о фишинге, и подсчет их количества;

• сравнение по похожести мультимедийных данных с недоверенными или доверенными мультимедийными данными.

В частном варианте реализации средство формирования признаков 220 преобразовывает извлеченные из контентной информации признаки с помощью методов, используемых для преобразования признаков на основании метаинформации.

В качестве сформированных на контентной информации признаков могут выступать следующие признаки:

• размер текста меньше заданного порога (например, менее 20 слов) на странице сайта или в письме;

• недоверенная ссылка;

• неизвестная ссылка на изображения с сайта известной организации;

• количество лексем в тексте больше заданного порога (например, больше 20% слов и фраз текста схожи с лексемами из словаря, где словарь содержит лексемы, составляющие сообщения о фишинге);

• изображение доверенного логотипа совместно с недоверенной или неизвестной ссылкой;

• размер текста больше заданного порога (например, более 1000 слов) при отсутствии изображений и ссылок;

• несколько больших изображений без текста;

• домен, не принадлежащий организации;

• ссылка на изображение не указывает на домен организации;

• комбинации указанных выше признаков.

Далее средство формирования признаков 220 объединяет все признаки в единый вектор и передает указанный вектор классификатору 230.

Классификатор 230 предназначен для классификации веб-страницы с помощью модели машинного обучения на основании вектора признаков веб-страницы.

Классификатор 230 получает весовые коэффициенты модели машинного обучения от средства обучения 240, предназначенного для обучения модели машинного обучения. Средство обучения 240 при обучении модели машинного обучения взаимодействует с базой информации о веб-станицах 210 посредством средства формирования признаков 220. Средство обучения 240 формирует два набора данных. Первый набор данных содержит образцы не фишинговых веб-страниц, а второй набор данных содержит образцы фишинговых веб-страниц. Под образцом понимается вектор признаков веб-страницы, способ формирование которого представлен при описании средства формирования признаков 220.

Далее средство обучения 240 делит каждый набор данных на две части, где первая часть является обучающей выборкой, а вторая часть является тестовой выборкой. Например, деление на две части основывается на пропорции от общего объема данных: 70% обучающая выборка и 30% тестовая выборка. Также пропорция может изменяться в зависимости от количества и соотношения классов. Затем средство обучения 240 объединяет обучающие выборки из двух наборов данных в обучающее подмножество, а тестовые выборки – в тестовое подмножество. После этого средство обучения 240 перемешивает каждое подмножество. Таким образом, средство обучения 240 подготавливает подмножества для обучения и тестирования модели машинного обучения. На обучающем подмножестве средство обучения 240 проводит обучение модели машинного обучения, а при помощи тестового подмножества проводит верификацию (проверку качества работы) обученной модели машинного обучения.

В частном случае реализации средство обучения 240 осуществляет деление набора данных на три части. В таком случае к указанным двум подмножествам добавляется третье – валидационное подмножество . Валидационное подмножество предназначено для выбора порога принятия решения модели машинного обучения, обученной на обучающей выборке. После выбора порога принятия решения проводится окончательная проверка качества работы указанной модели.

В частном варианте реализации при обучении средством обучения 240 модели машинного обучения используют равное количество образцов фишинговых веб-страниц и не фишинговых веб-страниц, при этом подмножество для обучения сбалансированно по классам и содержит образцы с отсутствующей метаинформацией. Благодаря такому подходу модель машинного обучения может точно классифицировать веб-страницу как на основании совокупности метаинформации и контентной информации, так и на основании только контентной информации.

Далее средство обучения 240 осуществляет обучение модели машинного обучения на основании сформированных наборов данных. В зависимости от варианта реализации обучение модели машинного обучения основывается по меньшей мере на одном из алгоритмов обучения с учителем, таких как: метод случайного леса, логистическая регрессия, k-ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) или нейронные сети. После обучения модели машинного обучения средство обучения 240 осуществляет верификацию (проверку качества работы) обученной модели машинного обучения на тестовом подмножестве. Если указанная модель не превысила заданный порог при вынесении неправильных решений, т.е. количество ложных срабатываний ниже предельно допустимого уровня, то средство обучения 240 передает модель машинного обучения в работу классификатору 230. В противном случае, если обученная модель вынесла количество неправильных решений, превышающее заданный порог, т.е. количество ложных срабатываний превысило предельно допустимый уровень, то средство обучения 240 проводит повторное обучение модели машинного обучения. Во время повторного обучения средство обучения 240 формирует новый набор данных или обновляет по меньшей мере один набор данных для обучения. Для обновления набора данных средство обучения 240 формирует запрос средству сбора информации 130 для сбора новой или дополнительной информации о веб-страницах.

В частном варианте реализации при повторном обучении модели машинного обучения средство обучения 240 дополнительно может осуществлять изменения в гиперпараметрах модели машинного обучения, например скорости обучения и размере набора данных. Также средство обучения 240 может изменять размеры модели машинного обучения, например количество узлов или слоев в нейронной сети.

После обучения модели машинного обучения, классификатор 230 принимает вектор признаков от средства формирования признаков 220. Затем сравнивает хеш проверяемой веб-страницы с набором белых хешей из базы информации о веб-страницах 210. Если хеш проверяемой веб-страницы есть в наборе белых хешей, то классификатор 230 классифицирует веб-страницу как не фишинговую. Если хеша проверяемой веб-страницы нет в наборе белых хешей, то классификатор 230 передает вектор признаков проверяемой веб-страницы на вход, полученной от средства обучения 240 модели машинного обучения. На выходе модель машинного обучения предоставляет решение, является ли веб-страница фишинговой.

Если модель машинного обучения предоставит на выходе классификатору 230 решение о том, что веб-страница относится к классу фишинговых веб-страниц, классификатор 230 ограничит доступ к анализируемой веб-странице для предотвращения распространения вредоносной активности одним из следующих действий:

• блокировка доступа к веб-странице;

• открытие веб-страницы в браузере, который работает в защищенном режиме;

• приостанавка перехода на веб-страницу и информирование пользователя о том, что веб-страница является фишинговой.

На Фиг. 3 представлен способ обнаружения фишинговых веб-страниц.

На этапе 310 с помощью средства сбора информации 130 осуществляют сбор информации о веб-страницах в сети 110, причем информация о веб-страницах содержит по меньшей мере одно из: информацию о веб-странице, получаемую при помощи сервиса WHOIS; html-код веб-страницы; позиция в рейтинге сайтов в Интернете.

В частном варианте реализации информация о веб-страницах содержит позицию в рейтинге сайтов в Интернете по меньшей мере из одного источника: TRANCO (tranco-list.eu), AlexaRank (alexa.com/siteinfo) или Majestic (majestic.com)..

В частном варианте реализации информация о веб-страницах дополнительно содержит по меньшей мере одно из: информацию о веб-странице, получаемую при помощи сервиса WHOIS IP; сведения о выпущенных для домена сертификатах публичного ключа.

В частном варианте реализации после этапа 310 сравнивают хеш проверяемой веб-страницы с набором белых хешей, который хранится в базе информации о веб-страницах 210. Если хеш проверяемой веб-страницы совпадет с хешем веб-страницы из указанного набора белых хешей, то проверяемую веб-страницу классифицируют как не фишинговую.

В частном варианте реализации белые хеши соответствуют доверенными веб-страницам, которые в свою очередь являются веб-страницами, расположенными на домене, который принадлежит известной организации.

В другом частном варианте реализации доверенными веб-страницами являются ранее классифицированные как не фишинговые веб-страницы.

На этапе 320 формируют признаки из контентной информации и извлекают по меньшей мере один признак из метаинформации посредством средства формирования признаков 220.

На этапе 330 формируют признаки, основанные на контентной и метаинформации, в единый вектор признаков веб-страницы.

На этапе 340, передают на вход модели машинного обучения сформированный вектор признаков веб-страницы для классификации веб-страницы.

На этапе 350 определяют веб-страницу как фишинговую по результатам классификации моделью машинного обучения.

В частном варианте реализации, на дополнительном этапе 360 ограничивают доступ к веб-странице, которая классифицирована как фишинговая, для предотвращения распространения вредоносной активности одним из следующих действий: блокировка доступ к веб-странице; открытие веб-страницы в браузере, который работает в защищенном режиме; приостановка перехода на веб-страницу и информирование пользователя о том, что веб-страница является фишинговой.

Таким образом, благодаря вышеописанному изобретению решается техническая проблема, заключающаяся в создании способа классификации веб-страниц на фишинговые и не фишинговые для предотвращения вредоносной активности. Достигается технический результат, заключающийся в предотвращении распространения вредоносной активности в компьютерной сети. Данный технический результат достигается за счет предложенного способа классификации фишинговых веб-страниц с использованием модели машинного обучения, выполняемого на вычислительном устройстве, содержащем по меньшей мере процессор и память, которая при этом содержит инструкции для выполнения.

На Фиг. 4 представлена компьютерная система, на которой могут быть реализованы различные варианты систем и способов, раскрытых в настоящем документе. Компьютерная система 20 может представлять собой систему, сконфигурированную для реализации настоящего изобретения, и может быть в виде одного вычислительного устройства или в виде нескольких вычислительных устройств, например, настольного компьютера, портативного компьютера, ноутбука, мобильного вычислительного устройства, смартфона, планшетного компьютера, сервера, мейнфрейма, встраиваемого устройства и других форм вычислительных устройств.

Как показано на Фиг. 4, компьютерная система 20 включает в себя: центральный процессор 21, системную память 22 и системную шину 23, которая связывает разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, способную взаимодействовать с любой другой шинной архитектурой. Примерами шин являются: PCI, ISA, PCI-Express, HyperTransport™, InfiniBand™, Serial ATA, I2C и другие подходящие соединения между компонентами компьютерной системы 20. Центральный процессор 21 содержит один или несколько процессоров, имеющих одно или несколько ядер. Центральный процессор 21 исполняет один или несколько наборов машиночитаемых инструкций, реализующих способы, представленные в настоящем документе. Системная память 22 может быть любой памятью для хранения данных и/или компьютерных программ, исполняемых центральным процессором 21. Системная память может содержать как постоянное запоминающее устройство (ПЗУ) 24, так и память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами компьютерной системы 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.

Компьютерная система 20 включает в себя одно или несколько устройств хранения данных, таких как одно или несколько извлекаемых запоминающих устройств 27, одно или несколько неизвлекаемых запоминающих устройств 28, или комбинации извлекаемых и неизвлекаемых устройств. Одно или несколько извлекаемых запоминающих устройств 27 и/или неизвлекаемых запоминающих устройств 28 подключены к системной шине 23 через интерфейс 32. В одном из вариантов реализации извлекаемые запоминающие устройства 27 и соответствующие машиночитаемые носители информации представляют собой энергонезависимые модули для хранения компьютерных инструкций, структур данных, программных модулей и других данных компьютерной системы 20. Системная память 22, извлекаемые запоминающие устройства 27 и неизвлекаемые запоминающие устройства 28 могут использовать различные машиночитаемые носители информации. Примеры машиночитаемых носителей информации включают в себя машинную память, такую как кэш-память, SRAM, DRAM, ОЗУ, не требующую конденсатора (Z-RAM), тиристорную память (T-RAM), eDRAM, EDO RAM, DDR RAM, EEPROM, NRAM, RRAM, SONOS, PRAM; флэш-память или другие технологии памяти, такие как твердотельные накопители (SSD) или флэш-накопители; магнитные кассеты, магнитные ленты и магнитные диски, такие как жесткие диски или дискеты; оптические носители, такие как компакт-диски (CD-ROM) или цифровые универсальные диски (DVD); и любые другие носители, которые могут быть использованы для хранения нужных данных и к которым может получить доступ компьютерная система 20.

Системная память 22, извлекаемые запоминающие устройства 27 и неизвлекаемые запоминающие устройства 28, содержащиеся в компьютерной системе 20 используются для хранения операционной системы 35, приложений 37, других программных модулей 38 и программных данных 39. Компьютерная система 20 включает в себя периферийный интерфейс 46 для передачи данных от устройств ввода 40, таких как клавиатура, мышь, стилус, игровой контроллер, устройство голосового ввода, устройство сенсорного ввода, или других периферийных устройств, таких как принтер или сканер через один или несколько портов ввода/вывода, таких как последовательный порт, параллельный порт, универсальная последовательная шина (USB) или другой периферийный интерфейс. Устройство отображения 47, такое как один или несколько мониторов, проекторов или встроенных дисплеев, также подключено к системной шине 23 через выходной интерфейс 48, такой как видеоадаптер. Помимо устройств отображения 47, компьютерная система 20 оснащена другими периферийными устройствами вывода (на Фиг. 4 не показаны), такими как динамики и другие аудиовизуальные устройства.

Компьютерная система 20 может работать в сетевом окружении, используя сетевое соединение с одним или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 является рабочим персональным компьютером или сервером, который содержит большинство или все упомянутые компоненты, отмеченные ранее при описании сущности компьютерной системы 20, представленной на Фиг. 4. В сетевом окружении также могут присутствовать и другие устройства, например, маршрутизаторы, сетевые станции или другие сетевые узлы. Компьютерная система 20 может включать один или несколько сетевых интерфейсов 51 или сетевых адаптеров для связи с удаленными компьютерами 49 через одну или несколько сетей, таких как локальная компьютерная сеть (LAN) 50, глобальная компьютерная сеть (WAN), интранет и Интернет. Примерами сетевого интерфейса 51 являются интерфейс Ethernet, интерфейс Frame Relay, интерфейс SONET и беспроводные интерфейсы.

Варианты раскрытия настоящего изобретения могут представлять собой систему, способ, или машиночитаемый носитель (или носитель) информации.

Машиночитаемый носитель информации является осязаемым устройством, которое сохраняет и хранит программный код в форме машиночитаемых инструкций или структур данных, к которым имеет доступ центральный процессор 21 компьютерной системы 20. Машиночитаемый носитель может быть электронным, магнитным, оптическим, электромагнитным, полупроводниковым запоминающим устройством или любой подходящей их комбинацией. В качестве примера, такой машиночитаемый носитель информации может включать в себя память с произвольным доступом (RAM), память только для чтения (ROM), EEPROM, портативный компакт-диск с памятью только для чтения (CD-ROM), цифровой универсальный диск (DVD), флэш-память, жесткий диск, портативную компьютерную дискету, карту памяти, дискету или даже механически закодированное устройство, такое как перфокарты или рельефные структуры с записанными на них инструкциями.

Система и способ, настоящего изобретения, могут быть рассмотрены в терминах средств. Термин "средство", используемый в настоящем документе, относится к реальному устройству, компоненту или группе компонентов, реализованных с помощью аппаратного обеспечения, например, с помощью интегральной схемы, специфичной для конкретного приложения (ASIC) или FPGA, или в виде комбинации аппаратного и программного обеспечения, например, с помощью микропроцессорной системы и набора машиночитаемых инструкций для реализации функциональности средства, которые (в процессе выполнения) превращают микропроцессорную систему в устройство специального назначения. Средство также может быть реализовано в виде комбинации этих двух компонентов, при этом некоторые функции могут быть реализованы только аппаратным обеспечением, а другие функции - комбинацией аппаратного и программного обеспечения. В некоторых вариантах реализации, по крайней мере, часть, а в некоторых случаях и все средство может быть выполнено на центральном процессоре 21 компьютерной системы 20. Соответственно, каждое средство может быть реализовано в различных подходящих конфигурациях и не должно ограничиваться каким-либо конкретным вариантом реализации, приведенным в настоящем документе.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что при разработке любого реального варианта осуществления настоящего изобретения необходимо принять множество решений, специфических для конкретного варианта осуществления, для достижения конкретных целей, и эти конкретные цели будут разными для разных вариантов осуществления. Понятно, что такие усилия по разработке могут быть сложными и трудоемкими, но тем не менее, они будут обычной инженерной задачей для тех, кто обладает обычными навыками в данной области, пользуясь настоящим раскрытием изобретения.

Похожие патенты RU2836604C1

название год авторы номер документа
Способ обнаружения фишинговых сайтов и система его реализующая 2023
  • Тушканов Владислав Николаевич
RU2813242C1
Система и способ формирования классификатора для обнаружения фишинговых сайтов при помощи хешей объектов DOM 2023
  • Тушканов Владислав Николаевич
RU2811375C1
Способ классификации объектов для предотвращения распространения вредоносной активности 2023
  • Паринов Денис Игоревич
  • Власова Виктория Владимировна
  • Романенко Алексей Михайлович
  • Антонов Алексей Евгеньевич
RU2808385C1
СПОСОБ АНАЛИЗА И ВЫЯВЛЕНИЯ ВРЕДОНОСНЫХ ПРОМЕЖУТОЧНЫХ УЗЛОВ В СЕТИ 2012
  • Голованов Сергей Юрьевич
RU2495486C1
Способ и система для идентификации кластеров аффилированных веб-сайтов 2020
  • Рожнов Илья Олегович
RU2740856C1
СИСТЕМА И СПОСОБ СБОРА ИНФОРМАЦИИ ДЛЯ ОБНАРУЖЕНИЯ ФИШИНГА 2016
  • Волков Дмитрий Александрович
RU2671991C2
Система и способ выявления мошеннических активностей при взаимодействии пользователя с банковскими сервисами 2020
  • Иванов Сергей Николаевич
RU2762241C2
Способ определения фишингового электронного сообщения 2020
  • Бенькович Никита Дмитриевич
  • Ковальчук Даниил Максимович
  • Голубев Дмитрий Сергеевич
  • Деденок Роман Андреевич
  • Слободянюк Юрий Геннадьевич
RU2790330C2
СПОСОБ АНАЛИЗА ВРЕДОНОСНОЙ АКТИВНОСТИ В СЕТИ ИНТЕРНЕТ, ВЫЯВЛЕНИЯ ВРЕДОНОСНЫХ УЗЛОВ СЕТИ И БЛИЖАЙШИХ УЗЛОВ-ПОСРЕДНИКОВ 2012
  • Голованов Сергей Юрьевич
RU2523114C2
СИСТЕМА И СПОСОБ ОБНАРУЖЕНИЯ ФИШИНГОВЫХ ВЕБ-СТРАНИЦ 2016
  • Волков Дмитрий Александрович
RU2637477C1

Иллюстрации к изобретению RU 2 836 604 C1

Реферат патента 2025 года Система и способ обнаружения фишинговых веб-страниц

Изобретение относится к области информационных технологий, а более конкретно к системам и способам обнаружения фишинговых сайтов. Технический результат заключается в повышении вероятности корректного обнаружения фишинговой веб-страницы. Согласно варианту реализации используется способ обнаружения фишинговой веб-страницы, согласно которому: выполняют сбор контентной информации и метаинформации о веб-странице в компьютерной сети; формируют по меньшей мере один признак из контентной информации и извлекают по меньшей мере один признак из метаинформации; формируют вектор признаков веб-страницы из признаков контентной информации и метаинформации; передают на вход модели машинного обучения сформированный вектор признаков веб-страницы для классификации веб-страницы; определяют веб-страницу как фишинговую по результатам классификации моделью машинного обучения. 2 н. и 11 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 836 604 C1

1. Способ обнаружения фишинговой веб-страницы, согласно которому:

а) выполняют сбор контентной информации и метаинформации о веб-странице в компьютерной сети, причем контентная информация содержит по меньшей мере:

• мультимедийные данные;

• гиперссылки;

• сценарии;

• тексты;

а метаинформация содержит по меньшей мере:

• информацию о веб-странице, получаемую при помощи сервиса WHOIS;

• информацию о веб-странице, получаемую при помощи сервиса WHOIS IP;

• сведения о выпущенных для домена сертификатах публичного ключа;

• позицию в рейтинге сайтов в Интернете;

б) формируют по меньшей мере один признак из контентной информации и извлекают по меньшей мере один признак из метаинформации, при этом преобразовывают контентную информацию и метаинформацию с помощью определенных методов кодирования и нормализации информации;

в) формируют вектор признаков веб-страницы при помощи объединения всех сформированных признаков контентной информации и извлеченных признаков метаинформации;

г) передают на вход модели машинного обучения сформированный вектор признаков веб-страницы для классификации веб-страницы, при этом предварительно определили весовые коэффициенты модели машинного обучения, при проверке которой количество ложных срабатываний ниже заданного предельно допустимого порога ложных срабатываний;

д) определяют веб-страницу как фишинговую по результатам классификации моделью машинного обучения.

2. Способ по п. 1, в котором после сбора контентной информации и метаинформации дополнительно сравнивают хеш проверяемой веб-страницы с набором хешей доверенных веб-страниц, причем, если хеш проверяемой веб-страницы совпадет с хешем веб-страницы из указанного набора хешей доверенных веб-страниц, проверяемую веб-страницу классифицируют как нефишинговую.

3. Способ по п. 2, в котором доверенными веб-страницами являются ранее классифицированные как нефишинговые веб-страницы.

4. Способ по п. 1, в котором информация, получаемая при помощи сервиса WHOIS, содержит информацию по меньшей мере об одном из:

• дата регистрации домена, на котором расположена веб-страница;

• id регистратора домена, на котором расположена веб-страница;

• расположен ли DNS по тому же ip-адресу, что и веб-страница;

• является ли владелец домена организацией;

• время существования домена.

5. Способ по п. 1, в котором информация, получаемая при помощи сервиса WHOIS IP, содержит информацию по меньшей мере об одном из:

• диапазоне IP-адресов, к которому относится проверяемая веб-страница;

• названии диапазона компьютерной сети;

• владельце IP-адреса, в том числе наименовании и адресе владельца IP-адреса;

• стране, которой соответствует данный диапазон IP-адресов;

• городе, которому соответствует данный диапазон IP-адресов.

6. Способ по п. 1, в котором сведения о выпущенных для домена сертификатах публичного ключа содержат данные о сертификатах, выданных для домена центрами сертификации.

7. Способ по п. 1, в котором информация о веб-страницах содержит позицию в рейтинге сайтов в Интернете по меньшей мере из одного источника: TRANCO, Alexa Rank или Majestic.

8. Способ по п. 1, в котором извлекают признаки из контентной информации веб-страницы одним их следующих методов:

• определение размера текста;

• поиск по тексту лексем из словаря, содержащего лексемы, составляющие сообщения о фишинге, и подсчет их количества;

• сравнение по похожести мультимедийных данных с недоверенными или доверенными мультимедийными данными.

9. Способ по п. 1, в котором контентная информация содержит по меньшей мере одно из:

• html-код веб-страницы;

• flash-приложения;

• java-апплеты;

• электронные документы.

10. Способ по п. 1, в котором преобразовывают контентную информацию и метаинфомрацию с помощью по меньшей мере одного из следующих методов:

• OneHotEncoding;

• Bucketing;

• min-max-масштабирование;

• GetDummies.

11. Способ по п. 1, в котором под признаками на основе контентной информации понимается по меньшей мере одно из:

• размер текста меньше заданного порога на странице сайта или в письме;

• недоверенная ссылка;

• неизвестная ссылка на изображения с сайта известной организации;

• количество лексем в тексте больше заданного порога;

• изображение доверенного логотипа совместно с недоверенной или неизвестной ссылкой;

• размер текста больше заданного порога при отсутствии изображений и ссылок;

• несколько больших изображений без текста;

• домен, не принадлежащий организации;

• ссылка на изображение не указывает на домен организации.

12. Способ по п. 1, в котором ограничивают доступ к определенной фишинговой веб-странице одним из следующих действий:

• блокировка доступа к веб-странице;

• открытие веб-страницы в браузере, который работает в защищенном режиме;

• приостановка перехода на веб-страницу и информирование пользователя о том, что веб-страница является фишинговой.

13. Система обнаружения фишинговых веб-страниц, состоящая из компьютерного устройства с аппаратным процессором, настроенным для выполнения способа по любому из пп. 1-12.

Документы, цитированные в отчете о поиске Патент 2025 года RU2836604C1

CN 110572359 A, 13.12.2019
CN 104239582 A, 24.12.2014
US 11570211 B1, 31.01.2023
Способ регенерирования сульфо-кислот, употребленных при гидролизе жиров 1924
  • Петров Г.С.
SU2021A1
Способ получения продуктов конденсации фенолов с формальдегидом 1924
  • Петров Г.С.
  • Тарасов К.И.
SU2022A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
Электромагнитный прерыватель 1924
  • Гвяргждис Б.Д.
  • Горбунов А.В.
SU2023A1
Электромагнитный прерыватель 1924
  • Гвяргждис Б.Д.
  • Горбунов А.В.
SU2023A1
СПОСОБ И УСТРОЙСТВО ДЛЯ КЛАСТЕРИЗАЦИИ ФИШИНГОВЫХ ВЕБ-РЕСУРСОВ НА ОСНОВЕ ИЗОБРАЖЕНИЯ ВИЗУАЛЬНОГО КОНТЕНТА 2021
  • Зверьков Борис Дмитриевич
  • Прудковский Николай Сергеевич
RU2778460C1
СПОСОБ И КОМПЬЮТЕРНОЕ УСТРОЙСТВО ДЛЯ КЛАСТЕРИЗАЦИИ ВЕБ-РЕСУРСОВ 2018
  • Слипенчук Павел Владимирович
RU2676247C1

RU 2 836 604 C1

Авторы

Тушканов Владислав Николаевич

Савушкин Алан Сергеевич

Даты

2025-03-18Публикация

2024-03-05Подача