Область техники
Техническое решение относится к области выявления и предупреждения киберугроз, а именно к способам и компьютерным устройствам для кластеризации веб-ресурсов с целью дальнейшего выявления вредоносных веб-ресурсов, в частности фишинговых веб-сайтов, зеркал заблокированных и/или запрещенных веб-сайтов.
Уровень техники
Среди вредоносных веб-ресурсов широко распространен фишинг, позволяющий получать конфиденциальные данные пользователей с целью совершения мошеннических действий.
Принцип работы фишинговых сайтов заключается в копировании или подражании сайтов различных сервисов, например, банков, платежных систем, интернет-аукционов, сервисов электронной почты, социальных сетей с целью добровольного получения конфиденциальных данных от пользователя (логин, пароль, почта, фио, номер паспорта, данные кредитной карты и т.д.) Пользователя, перешедшего на фишинговый сайт, например, поддельный сайт дистанционного банковского обслуживания, побуждают различными психологическими приемами ввести регистрационные данные и/или сообщить дополнительную конфиденциальную информацию. Например, побуждают пользователя ввести логин и пароль от личного кабинета интернет-банка, а также сообщить примерный остаток средств на счете. После чего полученная информация используется мошенниками для кражи денежных средств пользователя или иных противоправных действий.
Кроме того, возможно копирование или подражание веб-ресурсов с целью хулиганства, заработка на показе рекламы, отображения недостоверной или запрещенной информации и т.д., что может нанести репутационный вред владельцам исходных веб-ресурсов, в отношении которых выполнено копирование или подражание. Либо, для случая создания зеркал запрещенных или заблокированных веб-ресурсов - обеспечение доступа пользователей к таким ресурсам, что может наносить ущерб иным лицам. Например, правообладателям, если обеспечивается доступ к зеркалам сайтов, распространяющих пиратский контент, которые были ранее заблокированы.
Фишинговые сайты наиболее распространены в области платежных онлайн-систем и банковских сервисов. Доступ к целевым ресурсам может быть получен через устройства сотрудников компании, их партнеров и клиентов. Создатели фишинговых сайтов используют различные подходы чтобы перенаправить трафик пользователя на мошенническую страницу: рассылка спама, захват трафика через взаимодействие с DNS-сервером, тайпсквоттинг и другие.
Согласно исследованию Wombat Security State of the Phish 2017 в 2016 году 76% организаций стали жертвами фишинговых атак. Общее количество выявленных фишинговых атак в 2017 году составило более 1 млн. Последние годы активно развиваются фишинговые технологии, повышается сложность алгоритмов, улучшается маскировка фишинговых веб-страниц. Даже для опытных пользователей и самих владельцев веб-ресурсов становится все сложнее определять фишинговые вебстраницы. Современные системы интернет безопасности способны выявлять фишинговые веб-ресурсы, блокировать их и/или предупреждать пользователей о посещении подозрительных веб-ресурсов, и предостерегать их от ввода конфиденциальных данных.
Технологии распространения фишинга позволяют создавать множество однотипных сайтов с помощью так называемых фишинговых пакетов (Phishing pack, Phishing Toolkit), что усложняет их своевременное выявление и блокировку. Фишинговый набор - это программа, упрощающая создание фишинговых сайтов, содержащая основные шаблоны и скрипты, необходимые для создания и настройки множества фишинговых сайтов, рассылки фишинга, а также сбора данных пользователей. Путем добавления контента с оригинального веб-ресурса или подобного ему контента, мошенники могут быстро создавать множество однотипных фишинговых сайтов, что усложняет их своевременное выявление и блокировку. Вследствие большого количества фишинговых веб-сайтов и их сходства с оригинальными веб-ресурсами ручная проверка подозрительных веб-ресурсов специалистами по интернет безопасности становится трудоемкой и долгой. Актуальной является задача создания автоматизированных систем и способов, позволяющих ускорять процесс выявления и блокировки фишинговых веб-ресурсов.
В простейшем случае идентификация фишинговых веб-ресурсов происходит на основе сравнения URL-адреса с базой данных скомпрометированных URL-адресов. Более сложные способы могут быть основаны на анализе наполнения страницы.
В патентной заявке США №20120158626 (опубл. 21.06.2012) описан способ определения и классификации вредоносных веб-ресурсов. Способ основан на применении алгоритмов машинного обучения для распознавания и классификации вредоносных веб-ресурсов по различным характеристикам.
В патенте США №8856937 (опубл. 07.10.2014) известен способ и система для определения вредоносных веб-ресурсов. Этот известный способ включает создание пополнение базы данных веб-ресурсов, содержащей легитимные веб-ресурсы, подозрительные веб-ресурсы и вредоносные веб-ресурсы. Классификация веб-ресурсов осуществляется на основе сравнения скриншотов веб-ресурсов с легитимными и фишинговыми веб-ресурсами, содержащимися в базе данных.
На практике известные способы для автоматического определения вредоносных веб-ресурсов могут неверно классифицировать веб-ресурс, в таком случае, например, легитимный веб-ресурс или веб-ресурс, ассоциированный с легитимным веб сайтом будет отнесен к вредоносным. И, наоборот, некоторые вредоносные веб-ресурсы, могут быть не определены как вредоносные или подозрительные, а отнесены к легитимным веб-ресурсам, после чего и все сходные с ним вредоносные веб-ресурсы, например, созданные на основе одного фишингового пакета, также могут быть отнесены к легитимным/не вредоносным веб-ресурсам. Для исключения подобных ситуаций требуется дополнительная ручная проверка веб-ресурсов экспертом-оператором. Ручная проверка множества веб-ресурсов трудоемка, а также может давать ошибочные результаты, вызванные человеческим фактором.
Для ускорения процесса определения вредоносных веб-ресурсов, которое может быть осуществлено с использованием, например, систем и способов, раскрытых в приведенных выше документах из уровня техники, могут быть образованы кластеры веб-ресурсов, содержащие выборочную совокупность веб-ресурсов, которые в дальнейшем анализируют для выявления среди них, например, веб-ресурсов, вовлеченных в фишинг.
Одним из недостатков известных устройств и способов для кластеризации веб-ресурсов, например раскрытых в источнике US 2015/0067839 (опубл. 05.03.2015), состоит в чрезмерном количестве анализируемых подозрительных веб-ресурсов, содержащихся в получаемых кластерах, что в свою очередь обуславливает чрезмерные трудоемкость и/или ресурсоемкость проверки всех этих подозрительных веб-ресурсов в полученных кластерах для выявления среди них веб-ресурсов, являющихся копиями оригинальных веб-ресурсов или содержащих по меньшей мере некоторые элементы содержимого оригинального веб-ресурса, с обеспечением их последующего анализа на вовлеченность в фишинговую деятельность.
Таким образом, очевидна потребность в дальнейшем совершенствовании устройств и способов для кластеризации веб-ресурсов, в частности для подготовки таких кластеров веб-ресурсов, которые бы снижали трудоемкость и/или ресурсоемкость их последующей проверки на причастность, например, к фишингу.
Следовательно, техническая проблема состоит в разработке способа и устройства для кластеризации веб-ресурсов, преодолевающих по меньшей мере обозначенный выше недостаток известных устройств и способов для кластеризации веб-ресурсов.
Раскрытие изобретения
Подготовка целевых кластеров веб-ресурсов, в которых веб-ресурсы с высокой долей вероятности являются копиями оригинального веб-ресурса и вовлечены, например, в фишинговую деятельность, является важным аспектом для улучшения скорости и точности определения вредоносных веб-ресурсов. На максимально точную подготовку целевых кластеров веб-ресурсов и направлены многие известные технические решения, однако, как было отмечено выше, эти известные технические решения обладают рядом недостатков и требуют улучшения.
Задача настоящего изобретения заключается в создании способа и устройства для кластеризации веб-ресурсов, решающих по меньшей мере обозначенную выше техническую проблему.
В первом объекте настоящего технического решения поставленная задача решена благодаря тому, что способ кластеризации веб-ресурсов, выполняемый на компьютерном устройстве и включающий в себя:
получение, посредством процессора компьютерного устройства, указаний на множество веб-ресурсов; и
извлечение, посредством процессора компьютерного устройства, по меньшей мере части элементов содержимого каждого веб-ресурса из указанного множества веб-ресурсов;
дополнительно включает в себя:
объединение, посредством процессора компьютерного устройства, по меньшей мере двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов по меньшей мере в одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение, посредством процессора компьютерного устройства, по меньшей мере двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов по меньшей мере в одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение, посредством процессора компьютерного устройства, указанных первой и второй подгрупп по меньшей мере в одну группу элементов содержимого в ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого указанных первой и второй подгрупп элементов содержимого, превышает заданное пороговое значение веб-ресурсов на группу;
сохранение указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого из указанных групп элементов содержимого, в базе данных.
Возможен вариант осуществления способа, в котором множество веб-ресурсов включает по меньшей мере два веб-ресурса.
Предложенный способ кластеризации веб-ресурсов обеспечивает технический результат, заключающийся в автоматизированной фильтрации всего массива выявленных подозрительных веб-ресурсов для выявления по существу всех фишинговых веб-ресурсов, дублирующих по меньшей мере часть контента с конкретного оригинального веб-ресурса, благодаря возможности создания базы данных, содержащей только предполагаемые фишинговые веб-ресурсы, каждый из которых в дальнейшем может быть автоматически и/или вручную проанализирован на причастность к совершению вредоносных действий, связанных с фишингом. Автоматизированная фильтрация всего массива выявленных подозрительных веб-ресурсов в свою очередь позволяет существенно сократить вычислительные ресурсы компьютерного устройства и его ресурсы памяти, необходимые на выявление причастности анализируемых веб-ресурсов к совершению вредоносных действий, связанных с фишингом, благодаря тому, что анализу подвергается не весь массив подозрительных веб-ресурсов, а только ограниченная совокупность веб-ресурсов, ассоциированных с оригинальным веб-ресурсом и имеющая с высокой степенью вероятности отношение к фишингу ввиду дублирования контента оригинального веб-ресурса, являющегося легитимным.
Возможен вариант осуществления способа, в котором для получения указаний на множество веб-ресурсов предварительно выполняют сканирование сети.
Возможен вариант осуществления способа, в котором указания на множество веб-ресурсов получают по меньшей мере частично от внешнего источника по сети передачи данных.
Возможен вариант осуществления способа, в котором указания на множество веб-ресурсов получают из предварительно сформированной базы данных веб-ресурсов.
Возможен вариант осуществления способа, в котором на этапе получения указаний на множество веб-ресурсов осуществляют получение по меньшей мере части предварительно извлеченных указаний на элементы содержимого множества веб-ресурсов.
Возможен вариант осуществления способа, в котором элементы содержимого представляют собой файлы элементов содержимого или хеш-суммы файлов элементов содержимого.
Возможен вариант осуществления способа, в котором после извлечения по меньшей мере части элементов содержимого осуществляют фильтрацию путем удаления предварительно заданных стандартных элементов содержимого, объединение по меньшей мере двух элементов содержимого в по меньшей мере одну подгруппу осуществляют без учета удаленных элементов содержимого.
Возможен вариант осуществления способа, в котором после сохранения группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с данной группой элементов содержимого, дополнительно выполняют определение вредоносных веб-ресурсов, ассоциированных с группой элементов содержимого.
Возможен вариант осуществления способа, в котором определение вредоносных веб-ресурсов, выполняет по меньшей мере частично человек-эксперт.
Возможен вариант осуществления способа, в котором после сохранения каждой группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого в базе данных получают указание на по меньшей мере один дополнительный веб-ресурс; выполняют извлечение по меньшей мере части элементов содержимого каждого веб-ресурса; в ответ на определение в базе данных по меньшей мере одной группы элементов содержимого, с которой ассоциирован указанный по меньшей мере один дополнительный веб-ресурс, сохранение указания на дополнительный веб-ресурс в базе данных.
Во втором объекте настоящего технического решения поставленная задача решена благодаря тому, что в предложенном компьютерном устройстве для кластеризации веб-ресурсов, включающем процессор, выполненный с возможностью осуществлять:
получение указаний на множество веб-ресурсов;
извлечение по меньшей мере части элементов содержимого каждого веб-ресурса из указанного множества веб-ресурсов;
указанный процессор дополнительно выполнен с возможностью осуществлять:
объединение по меньшей мере двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов по меньшей мере в одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение по меньшей мере двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов по меньшей мере в одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение указанных первой и второй подгрупп по меньшей мере в одну группу элементов содержимого в ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого указанных первой и второй подгрупп, превышает заданное пороговое значение веб-ресурсов на группу;
сохранение указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого из указанных групп элементов содержимого, в базе данных.
Предложенное компьютерное устройство для кластеризации веб-ресурсов также обеспечивает сформулированный выше технический результат, заключающийся в автоматизированной фильтрации всего массива выявленных подозрительных веб-ресурсов.
Возможен вариант осуществления устройства, в котором процессор выполнен с возможностью выполнять сканирование сети для получения указаний на множество веб-ресурсов.
Возможен вариант осуществления устройства, в котором процессор выполнен с возможностью получения указания на множество веб-ресурсов по меньшей мере частично от внешнего источника по сети передачи данных.
Возможен вариант осуществления устройства, в котором процессор выполнен с возможностью получения указания на множество веб-ресурсов из предварительно сформированной базы данных веб-ресурсов.
Возможен вариант осуществления устройства, в котором процессор выполнен с возможностью извлечения по меньшей мере части элементов содержимого веб-ресурса, причем элементы содержимого представляют собой файлы элементов содержимого или хеш-суммы файлов элементов содержимого.
Возможен вариант осуществления устройства, в котором на этапе получения указаний на множество веб-ресурсов процессор выполнен с возможностью получать по меньшей мере часть предварительно извлеченных указаний на элементы содержимого множества веб-ресурсов.
Возможен вариант осуществления устройства, в котором после извлечения по меньшей мере части элементов содержимого процессор выполнен с возможностью осуществлять фильтрацию путем удаления предварительно заданных стандартных элементов содержимого, осуществлять объединение по меньшей мере двух элементов содержимого в по меньшей мере одну подгруппу без учета удаленных элементов содержимого.
Возможен вариант осуществления устройства, в котором процессор дополнительно выполнен с возможностью определения вредоносных веб-ресурсов, ассоциированных с группой элементов содержимого.
В контексте настоящего описания «компьютерное устройство» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для настоящего технического решения. В контексте настоящего технического решения использование выражения «компьютерное устройство» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же «компьютерным устройством» (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним компьютерным устройством или несколькими компьютерными устройствами, оба варианта включены в выражение «по меньшей мере одно компьютерное устройство».
В контексте настоящего описания «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, выполняющем процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или же она может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов.
В контексте настоящего описания «компонент» подразумевает под собой программное обеспечение (соответствующее конкретному аппаратному контексту), которое является необходимым и достаточным для выполнения конкретной(ых) указанной(ых) функции(й).
В контексте настоящего описания, если специально не указано иное, термин «элемент содержимого» или «контент» относится к любым данным, которые могут быть представлены (визуально, в аудио формате или как-либо иначе), которые может содержать веб-ресурс. Таким образом, элементом содержимого для целей настоящего технического решения может являться, в частности, скрипт, шрифт, элемент меню, шаблон веб-ресурса, форма для заполнения, написанный текст, изображение, часть изображения, графика, анимация, видео, музыка, запись голоса и так далее, а также любая их комбинация. В частности и любые другие ресурсы, которые могут быть переданы по протоколам http/https.
В контексте настоящего описания, если четко не указано иное, «указатель» или «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания найти сеть, память, базу данных или другой машиночитаемый носитель, из которого может быть извлечен информационный элемент. Например, указатель веб-ресурса может включать в себя сам файл или набор файлов веб-ресурса, или же он может являться универсальным указателем ресурса (например, URL www.webpage.com), идентифицирующим веб-ресурс по отношению к конкретной сети (в частности, Интернет), или какими-то другими средствами передавать получателю указание на сетевую папку, адрес памяти, таблицу в базе данных или другое место, в котором можно получить доступ к веб-ресурсу или отдельным его элементам содержания. Как будет понятно специалистам в данной области техники, степень точности, необходимая для такого указания, зависит от степени первичного понимания того, как должна быть интерпретирована информация, которой обмениваются получатель и отправитель указателя. Например, если до передачи данных между отправителем и получателем понятно, что указатель информационного элемента принимает вид универсального указателя ресурса URL, передача указателя, ссылки на данный веб-ресурс- это все, что необходимо для эффективной передачи веб-ресурса получателю, несмотря на то, что сам по себе информационный элемент (например, веб-ресурс или отдельный его элемент содержания) не передавался между отправителем и получателем указания.
В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов "первый веб-ресурс" и "третий веб-ресурс" не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) веб-ресурсов в множестве веб-ресурсов, равно как и их использование (само по себе) не предполагает, что некий "второй веб-ресурс" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание "первого" элемента и "второго" элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, "первый" сервер и "второй" сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.
В контексте настоящего описания «машиночитаемый носитель» подразумевает под собой носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.
Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:
На фиг. 1 приводится упрощенное схематическое представление одной из неограничивающих реализаций системы для осуществления настоящего технического решения.
На фиг. 2 показана одна из неограничивающих реализаций представления информации о ресурсах веб-страницы в базе данных ресурсов.
На фиг. 3 показана блок-схема последовательности операций согласно аспекту настоящего способа для определения вредоносных веб-ресурсов.
На фиг. 4 показан неограничивающий пример первого веб-ресурса.
На фиг. 5 показан неограничивающий пример второго веб-ресурса.
На фиг. 6 показан неограничивающий пример третьего веб-ресурса.
На фиг. 7 показан неограничивающий пример четвертого веб-ресурса.
Осуществление
Нижеследующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения.
Некоторые полезные примеры модификаций описываемого способа и системы для определения вредоносных веб-ресурсов также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что-то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что способ и система для определения вредоносных веб-ресурсов представляет собой в некоторых конкретных проявлениях достаточно простые варианты осуществления настоящего технического решения, которые в подобных случаях представлены здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.
На Фиг. 1 представлено упрощенное схематическое представление одной из неограничивающих реализаций системы 100 для осуществления настоящего технического решения.
В некоторых неограничивающих вариантах реализации настоящего технического решения система 100, обеспечивающая реализацию способа, может включать в себя сеть 102 передачи данных, по крайней мере одно компьютерное устройство 104 для определения вредоносных веб ресурсов (далее компьютерное устройство 104), базу данных 108, причем компьютерное устройство 104 включает в себя процессор 106. Система 100 может также включать в себя по меньшей мере один поисковый сервер 110, имеющий доступ к базе данных веб-ресурсов 112.
В еще одном неограничивающем варианте реализации настоящего изобретения система 100 может включать дополнительно активное сетевое оборудование (не показано) и клиентское устройство (не показано).
В качестве сети 102 передачи данных может выступать, например, сеть Интернет или любая другая вычислительная сеть.
Компьютерное устройство 104 может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения компьютерное устройство 104 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Ubuntu Server 18.04. Излишне говорить, что компьютерное устройство 104 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, компьютерное устройство 104 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность компьютерного устройства может быть разделена между несколькими компьютерными устройствами, и например, может выполняться с помощью нескольких серверов.
Варианты осуществления компьютерного устройства 104 хорошо известны. Таким образом, достаточно отметить, что компьютерное устройство 104 включает в себя, среди прочего, интерфейс сетевой передачи данных (например, модем, сетевую карту и тому подобное) для двусторонней связи по сети передачи данных (не изображена); и процессор 106, связанный с интерфейсом сетевой передачи данных, причем процессор 106 выполнен с возможностью выполнять различные процедуры, включая те, что описаны ниже. С этой целью процессор 106 может иметь доступ к машиночитаемым инструкциям, хранящимся на машиночитаемом носителе (не показан), выполнение которых инициирует реализацию процессором 106 различных процедур, описанных здесь.
В некоторых вариантах осуществления настоящего технического решения компьютерное устройство 104 включает в себя одну или несколько баз данных 108, которая выполнена с возможностью хранить по меньшей мере часть указаний на элементы содержимого, элементов содержимого, группы элементов содержимого, и указание на веб-ресурсы, ассоциированные с соответствующим элементом содержимого или группой элементов содержимого. Термин ассоциированный в контексте настоящего описания означает связанный или содержащийся. Так, например, веб-ресурс, на котором имеются все элементы содержимого из группы элементов содержимого, является ассоциированным с данной группой элементов содержимого.
Несмотря на то, что база 108 данных представлена как отдельная от компьютерного устройства 104, с которым она соединена с помощью соответствующей линии (не пронумерована), база 108 данных может быть реализована как часть компьютерного устройства 104 или иным способом быть доступна компьютерному устройству 104.
Возможен вариант осуществления системы 100, согласно которому компьютерное устройство 104 включает в себя машиночитаемый носитель (не показан), на котором могут быть предварительно сохранены машиночитаемые инструкции и/или база данных 108. Альтернативно или дополнительно компьютерное устройство 104 может иметь доступ к машиночитаемым инструкциям и/или базе данных 108, расположенных на ином оборудовании. То, как именно реализован доступ процессора 106 компьютерного устройства 104 к машиночитаемым инструкциям и базе данных 108 не является ограничивающим условием настоящего технического решения.
Процессор 106 выполнен с возможностью получения указаний на множество веб-ресурсов. Например, в качестве неограничивающего примера получение указаний на множество веб-ресурсов может представлять собой получение списка единых указателей ресурсов (URL). Источник или источники указаний на множество веб-ресурсов могут быть различными.
Возможен вариант осуществления настоящего технического решения, в котором процессор 106 выполнен с возможностью получения указания на множество веб-ресурсов по меньшей мере частично от внешнего источника по сети передачи данных 102. Например, внешний источник может представлять собой поисковый сервер 110 имеющий доступ к базе данных веб-ресурсов 112 и/или сервер сбора данных о вредоносных веб-ресурсах (не показан), и т.д. Причем компьютерное устройство 104 может иметь доступ к базе данных веб-ресурсов 112 по сети передачи данных 102. Альтернативно или дополнительно внешний источник может представлять собой веб-ресурс, включающий указания на множестве веб-ресурсов.
То, как именно и по какому принципу сгруппированы указания на веб-ресурсы на внешнем источнике, в частности, в базе данных веб-ресурсов 112 не является ограничивающим условием.
В примере варианта осуществления настоящего технического решения поисковый сервер 110 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Ubuntu Server. Излишне говорить, что поисковый сервер 110 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, поисковый сервер 110 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность поискового сервера 110 может быть разделена и может выполняться с помощью нескольких серверов.
Варианты осуществления поискового сервера 110 хорошо известны. Таким образом, достаточно отметить, что поисковый сервер 110 включает в себя, среди прочего, интерфейс сетевой передачи данных (например, модем, сетевую карту и тому подобное) для двусторонней связи по сети передачи данных 102; и процессор (не показан), связанный с интерфейсом сетевой передачи данных, причем процессор выполнен с возможностью осуществлять поиск веб-ресурсов в сети передачи данных 102 и их сохранение в базе данных 112. С этой целью процессор поискового сервера может иметь доступ к соответствующим машиночитаемым инструкциям, хранящимся на машиночитаемом носителе (не показан).
Процесс заполнения и сохранения базы данных веб-ресурсов 112 в общем случае известен как «сбор данных» (кроулинг, от англ. "crawling"), причем поисковый сервер 110 выполнен с возможностью «посещать» различные веб-ресурсы, веб-сайты и вебстраницы, доступные по сети 102 передачи данных, и сохранять их в базе данных веб-ресурсов 112 по одному или нескольким предварительно заданным параметрам. В качестве примера, но не ограничения поисковый сервер 110 может выполнять сканирование сети передачи данных 102 и сохранять все новые и обновленные веб-ресурсы и таким образом собирать полную базу веб-ресурсов сети передачи данных 102, и/или собирать веб-ресурсы, например, включающие определенные ключевые слова на одном или нескольких языках. Поскольку вредоносные веб-ресурсы (в частности фишинговые веб-сайты) обычно пытаются имитировать сайты банков, платежных систем и сервисов электронной почты, то ключевыми словами могут быть, например, без введения ограничений: «банк», «кредит», «кредитная карта», «почта», «аккаунт», «имя пользователя», «войти» и т.д. Поиск также может осуществляться по доменным именам, и/или другим параметрам. Найденные и отобранные указания на веб-ресурсы сохраняются в базе данных веб-ресурсов 112, после чего могут быть получены процессором компьютерного устройства 104 по сети передачи данных 102 от поискового сервера 110.
Возможен вариант осуществления настоящего технического решения, в котором процессор 106 компьютерного устройства 104 выполнен с возможностью получения указания на множество веб-ресурсов напрямую из предварительно сформированной базы данных веб-ресурсов 112. Причем предварительно сформированная база данных веб-ресурсов 112 может быть реализована как часть компьютерного устройства 104 или иным способом быть доступна компьютерному устройству 104.
Возможен вариант осуществления настоящего технического решения, в котором процессор 106 выполнен с возможностью выполнять сканирование сети 102 для получения указаний на множество веб-ресурсов и таким образом компьютерное устройство 104 может выполнять описанный выше функционал поискового сервера 110. Например, сканирование сети может быть выполнено по IP адресам веб-ресурсов, доменным именам, ключевым словам и др. параметрам.
Процессор 106 компьютерного устройства 104 выполнен с возможностью извлечения по меньшей мере части элементов содержимого каждого веб-ресурса из множества веб-ресурсов. Элементы содержимого веб-ресурса могут представляют собой файлы элементов содержимого и/или хеш-суммы файлов элементов содержимого (например, sha256). Формат файлов элементов содержимого никак конкретно не ограничен и будет зависеть от типа конкретного элемента содержимого. Например, для случая, когда элемент содержимого представляет собой изображение, файл может быть представлен, в частности, в одном из следующих форматов: "jpg", "jpeg", "png", "bmp", "gif и т.д. Для случая, когда элемент содержимого представляет собой текст, файл может быть представлен, в частности, в одном из следующих форматов: "txt", "doc", "html" и др. Для случая, когда элемент содержимого представляет собой шрифт, файл может быть представлен, в частности, в одном из следующих форматов: "woff", "ttf, "eot", "svg" и т.д.
Для случая, когда элемент содержимого представляет собой скрипт, файл может быть представлен, в частности, в одном из следующих форматов: "asp", "aspx", "php", "jsp", "cgi" и т.д. Для случая, когда элемент содержимого представляет собой анимацию или видео, файл может быть представлен, в частности, в одном из следующих форматов: "flv", "swf, "avi", "mp4", "mov" и т.д. Для случая, когда элемент содержимого представляет собой каскадную таблицу стилей, файл может быть представлен, в частности, в формате: "css". Указанный перечень возможных элементов содержимого и форматов, в которых они могут быть представлены, не является ограничивающим условием настоящего технического решения.
Извлечение элементов содержимого веб-ресурса может выполняться процессором 106. Способы извлечения хорошо известны, например, может быть использован виртуальный браузер, в частности, Селениум. В настройках виртуального браузера задается параметр «кешировать все», выполняется очистка кеша, переход на веб-ресурс, после чего в кеше браузера автоматически сохраняются элементы содержимого данного веб-ресурса. Таким образом может быть выполнено извлечение элементов содержимого из множества веб-ресурсов.
Возможен вариант осуществления настоящего технического решения, в котором на этапе получения указаний на множество веб-ресурсов процессор 106 выполнен с возможностью получать по меньшей мере часть предварительно извлеченных указаний на элементы содержимого множества веб-ресурсов.
Возможен вариант осуществления настоящего технического решения, в котором процессор 106 выполнен с возможностью осуществлять фильтрацию путем удаления предварительно заданных стандартных элементов содержимого. При дальнейшей обработке указанные отфильтрованные стандартные элементы содержимого не учитываются. Например, в качестве стандартных элементов содержимого могут быть предварительно заданы куки-пикселы, распространенные скрипты, шрифты, изображения и т.д. Критерии фильтрации могут быть предварительно заданы экспертом либо автоматически на основе статистических данных об использовании элементов содержимого во множестве веб-ресурсов. Например, при превышении предварительно заданного порогового значения количества веб-ресурсов, ассоциированных с данным элементом содержимого он может считаться стандартным элементом содержимого. Пороговое значение может задаваться вручную оператором (аналитиком), либо с помощью различных автоматизированных алгоритмов, в том числе на основе машинного обучения.
Процессор 106 выполнен с возможностью объединения по меньшей мере двух элементов содержимого в по меньшей мере одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого превышает предварительно заданное минимальное пороговое значение веб-ресурсов на подгруппу.
Процессор 106 выполнен с возможностью объединения по меньшей мере двух элементов содержимого в по меньшей мере одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого превышает предварительно заданное минимальное пороговое значение веб-ресурсов на подгруппу.
Процессор 106 выполнен с возможностью объединения первой и второй подгруппы в группу элементов содержимого, в ответ на то что количество веб-ресурсов, включающих в себя элементы содержимого первой и второй подгруппы элементов содержимого превышает предварительно заданное пороговое значение веб-ресурсов на группу. Процесс объединения в подгруппы и группы элементов содержимого будет подробнее описан при описании способа ниже.
Процессор 106 также выполнен с возможностью сохранения каждой группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого в базе данных 108.
В иллюстративном примере на Фиг. 2 показан иллюстративный пример базы данных 108, содержащей данные о группах элементов содержимого 202 и веб-ресурсах 204, ассоциированных с соответствующей группой элементов содержимого. В иллюстративном примере базы данных 108 на фиг. 2 представлено лишь две группы элементов содержимого, одна включает в себя три элемента содержимого (410, 416, 418), с которой ассоциированы лишь четыре веб-ресурса (400, 500, 600 и 700), а вторая включает в себя четыре элемента содержимого (406, 408, 418, 420), с которыми ассоциированы лишь три веб-ресурса 400, 500 и 700. Примеры веб-ресурсов 400, 500, 600 и 700 показаны на фиг. 4, фиг. 5, фиг. 6 и фиг. 7 соответственно. Стоит отметить, что количество и качество наполнения базы данных 108 никак конкретно не ограничено, приведенные примеры групп элементов содержимого 202 и веб-ресурсов 204 служит лишь для целей обеспечения понимания настоящего технического решения и не является ограничивающим. Очевидно, что наполнение базы данных 108 может обладать гораздо большей сложностью. Количество групп элементов содержимого 202 может быть более двух, каждая группа может содержать по меньшей мере три элемента содержимого, с каждой группой элементов содержимого 202 может быть ассоциировано различное количество веб-ресурсов 204. Причем один и тот же веб-ресурс может быть одновременно ассоциирован с одной или несколькими группами элементов содержимого 202.
Возможен вариант осуществления настоящего технического решения, в котором процессор 106 выполнен с возможностью определения вредоносных веб-ресурсов, ассоциированных с группой элементов содержимого в базе данных 108. Определение вредоносных веб-ресурсов может быть осуществлено, например посредством алгоритма машинного обучения, предварительно обученного на выборке вредоносных веб-ресурсов. Возможен вариант осуществления, в котором определение вредоносных веб-ресурсов, выполняет по меньшей мере частично человек-эксперт. Человек-эксперт посредством отдельного клиентского устройства (не показано), может иметь доступ к базе данных 108 и осуществлять проверку веб-ресурсов 204, ассоциированных с группами элементов содержимого 202.
Примерами клиентских устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что устройство, ведущее себя как клиентское устройство в настоящем контексте, может вести себя как сервер по отношению к другим клиентским устройствам. Использование выражения «клиентское устройство» не исключает возможности использования множества клиентских устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного способа. Связь клиентского устройства с пользователем (человеком-экспертом), не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Доступ и обмен данными с базой данных 108 и/или компьютерным устройством 104 может быть осуществлен клиентским устройством (не показано), например по сети передачи данных 102 или иной сети (не показана).
Далее со ссылкой на Фиг. 3, будет подробнее рассмотрен заявляемый способ 300 для определения вредоносных веб-ресурсов, который выполняется в соответствии с неограничивающими вариантами осуществления настоящего технического решения. Способ 300 может быть выполнен на компьютерном устройстве 104 и, конкретнее, процессором 106 компьютерного устройства 104 в соответствии с неограничивающим вариантом системы 100 на фиг. 1. Также со ссылкой на Фиг. 4, Фиг. 5, Фиг. 6 и Фиг. 7 рассмотрим иллюстративный пример осуществления способа.
На Фиг. 4 представлен пример веб-ресурса 400, включающий элементы содержимого, в частности, 402, 404, 406, 408, 410, 412, 414, 418, 420. Причем элементы содержимого 402, 410, 412, 414 и 418 является изображениями, элемент содержимого 404- баннером с текстом, 406 - формой авторизации пользователя, включающей несколько полей для заполнения, текст и кнопку, 408 - элементом меню, включающим иконку и текст, 416 - текстом, и 420 - скриптом меню веб-страницы.
На Фиг. 5 представлен пример второго веб-ресурса 500, включающий элементы содержимого, в частности, 502, 504, 406, 408, 410, 412, 414, 416, 418, 420 и 512. Элементы содержимого 06, 408, 410, 412, 414, 416, 418, 420 имеются также в первом веб-ресурсе 400 и описаны выше. Элементы содержимого 502, 504 являются изображениями, элемент содержимого 512 является баннером с текстом.
На Фиг. 6 представлен пример третьего веб-ресурса 600, включающий элементы содержимого, в частности, 402, 404, 410, 416, 418, 420, 602, 606, 608, 610, 612. Элементы содержимого 402, 404, 410, 416, 418 и 420 имеются также в первом веб-ресурсе 400 и описаны выше. Элемент содержимого 606 представляет собой форму авторизации пользователя, включающую несколько полей для заполнения, текст и кнопку, элементы содержимого 608, 610 и 612 представляют собой изображения.
На Фиг. 7 представлен пример четвертого веб-ресурса 700, включающий элементы содержимого, в частности, 702, 704, 406, 408, 410, 412, 414, 416, 418, 420, 504. Элементы содержимого 406, 408, 410, 412, 414, 416, 418, и 420 имеются также в первом веб-ресурсе 400 и описаны выше. Элемент содержимого 504 имеется также во втором веб-ресурсе 500 и описан выше. Элемент содержимого 702 является изображением, элемент содержимого 704 является баннером с текстом.
В контексте настоящего технического решения количество и виды различных элементов содержимого не являются ограничивающим условием. Веб-ресурсы на фиг. 4 фиг. 5, фиг. 6, и фиг. 7 представлены лишь в качестве иллюстративных примеров, очевидно, что настоящее техническое решение может быть также применено для любых других веб-ресурсов, обладающих большим или меньшим количеством элементов содержимого, причем типы элементов содержимого и само содержимое могут повторяться или не повторяться в рамках одного и того же веб-ресурса. Часть элементов содержимого, имеющихся на представленных иллюстративных примерах веб-ресурсов не пронумерованы.
Предварительно задано минимальное пороговое значение количества веб-ресурсов ассоциированных с подгруппой элементов содержимого- минимальное пороговое значение веб-ресурсов на подгруппу. Для настоящего иллюстративного примера допустим, что данное минимальное пороговое значение веб-ресурсов на подгруппу равно 2. Предварительно также задано минимальное пороговое значение количества веб-ресурсов ассоциированных с группой элементов содержимого - минимальное пороговое значение веб-ресурсов на группу. Для настоящего иллюстративного примера допустим, что данное минимальное пороговое значение веб-ресурсов на группу также равно 2. Возможен вариант осуществления, в котором минимальное пороговое значение веб-ресурсов на группу меньше или равно минимальному пороговому значению веб-ресурсов на подгруппу. Так, например, минимальное пороговое значение веб-ресурсов на подгруппу равно 150 ти, а минимальное пороговое значение веб-ресурсов на группу равно 10.
Возможен вариант осуществления способа 300, в котором предварительно задано максимальное пороговое значение количества веб-ресурсов, ассоциированных с элементом содержимого. Например, это значение может быть равно 450 ти или любому другому натуральному числу.
Возможен вариант осуществления способа 300, в котором предварительно задают пороговое значение веса группы, причем вес группы определяют исходя из соотношения количества элементов содержимого в группе и количества веб-ресурсов, ассоциированных с данной группой элементов содержимого и, например определяют в виде функции Score (L,q), где L-количество элементов содержимого в группе, a q-количество веб-ресурсов, ассоциированных с группой. Функция определения веса группы может быть задана экспертом (оператором) и/ил определена с помощью алгоритма машинного обучения.
Пример функции Score (L,q) для определения веса группы элементов содержимого:
Этап 302 - получение указаний на множество веб-ресурсов
Способ 300 начинается на этапе 302, где компьютерное устройство 104 получает указания на множество веб-ресурсов. Указания на множество веб-ресурсов могут представлять собой как сами веб-ресурсы, так, например, и ссылки на веб-ресурсы, URL, доступные по сети передачи данных 102 или иной сети (не показана), компьютерному устройству 104. Причем множество веб-ресурсов включает по меньшей мере два веб-ресурса.
С учетом неограничивающего иллюстративного примера компьютерное устройство 104 на этапе 302 получает указания на множество из четырех веб-ресурсов 400, 500, 600 и 700 от внешнего источника - поискового сервера 110 из базы данных веб-ресурсов 112. Веб-ресурсы 400, 500, 600 и 700 были предварительно найдены поисковым сервером 110 и сохранены в базе данных веб-ресурсов 112. Указания на множество веб-ресурсов могут быть получены по меньшей мере частично из предварительно сформированной базы данных веб-ресурсов 112, причем возможен вариант осуществления способа 300, в котором компьютерное устройство 104 может получать указания на множество веб-ресурсов напрямую из базы данных веб-ресурсов 112.
Возможен вариант осуществления способа, в котором для получения указаний на множество веб-ресурсов компьютерное устройство 104 выполняет сканирование сети передачи данных 102. Сканирование сети передачи данных 102 может выполняться компьютерным устройством 104 аналогично поисковому серверу 110 как было описано выше или иначе.
Возможен вариант осуществления способа, в котором на этапе 302 получают множество веб-ресурсов из по меньшей мере двух различных источников. Например, веб-ресурсы 400 и 600 получают от поискового сервера 110 из базы данных веб-ресурсов 112, а веб-ресурсы 500 и 700 получают из иного внешнего источника (не показан) по сети передачи данных 102.
Способ 300 далее переходит к выполнению этапа 304.
Этап 304 - извлечение по меньшей мере части элементов содержимого каждого веб-ресурса из множества веб-ресурсов
На этапе 304 процессор 106 компьютерного устройства 104 выполняет извлечение по меньшей мере части элементов содержимого из множества веб-ресурсов, которые были получены на этапе 302. Так, согласно неограничивающему иллюстративному примеру из первого веб-ресурса 400 извлекают элементы содержимого 402, 404, 406, 408, 410, 412, 414, 418, 420, из второго веб-ресурса 500 извлекают элементы содержимого 502, 504, 406, 408, 410, 412, 414, 416, 418, 420 и 512, из третьего веб-ресурса 600 извлекают элементы содержимого 402, 404, 410, 416, 418, 420, 602, 606, 608, 610, 612, из четвертого веб-ресурса 700 извлекают элементы содержимого 702, 704, 406, 408, 410, 412, 414, 416, 418, 420, 504.
Возможен вариант осуществления способа, в котором часть элементов содержимого или указания на часть элементов содержимого получают на этапе 302 вместе с множеством веб-ресурсов. Так например, в базе данных веб-ресурсов 112 могут быть предварительно сохранены веб-ресурсы и по меньшей мере часть элементов содержимого, извлеченных из соответствующих веб-ресурсов.
Возможен вариант осуществления способа, в котором в качестве элементов содержимого извлекают файлы элементов содержимого или хеш-суммы файлов элементов содержимого.
Способ 300 далее переходит к выполнению этапа 306.
Этап 306 - объединение по меньшей мере двух элементов содержимого в по меньшей мере одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого превышает предварительно заданное минимальное пороговое значение веб-ресурсов на подгруппу;
На этапе 306 процессор 106 компьютерного устройства 104 создает всевозможные комбинации из по меньшей мере двух различных элементов содержимого. Для каждой из созданных комбинаций процессор 106 осуществляет проверку наличия предварительно заданного минимального количества веб-ресурсов, включающих в себя данную комбинацию элементов содержимого. В ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого превышает предварительно заданное минимальное пороговое значение процессор 106 выполняет объединение по меньшей мере двух элементов содержимого в по меньшей мере одну первую подгруппу элементов содержимого.
С учетом рассматриваемого иллюстративного примера, например, процессор 106 создает следующие комбинации элементов содержимого, извлеченных из веб-ресурсов 400, 500, 600 и 700:
…
402-406
402-410
…
406-408
…
502-402
410-416
410-418
…
420-418
…
504-410
…
608-702-404
…
702-420
…
Очевидно, что даже в представленном упрощенном иллюстративном варианте осуществления возможно множество различных комбинаций элементов содержимого веб-ресурсов, и представленные выше комбинации являются лишь малой частью возможных комбинаций.
В представленном иллюстративном варианте осуществления способа 300 предварительно заданное минимальное пороговое значение веб-ресурсов на подгруппу равно 2. Данному критерию соответствуют, например, следующие пары элементов содержимого: 406-408; 420-418.
Процессор 106 объединяет данные пару элементов содержимого в две первые подгруппы элементов содержимого.
Возможен вариант осуществления способа, в котором после извлечения по меньшей мере части элементов содержимого осуществляют фильтрацию путем удаления предварительно заданных стандартных элементов содержимого, объединение по меньшей мере двух элементов содержимого в по меньшей мере одну подгруппу осуществляют без учета удаленных элементов содержимого.
Также возможен вариант осуществления, в котором предварительно задано максимальное пороговое значение количества веб-ресурсов, ассоциированных с элементом содержимого. Например, если это значение равно 450 ти, то элементы содержимого, которые имеются более чем в 450 веб-ресурсах также исключаются процессором 106 и не учитываются при создании комбинаций элементов содержимого, извлеченных из веб-ресурсов или любому другому натуральному числу.
Этап 308 - объединение по меньшей мере двух элементов содержимого в по меньшей мере одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные по меньшей мере два элемента содержимого превышает предварительно заданное минимальное пороговое значение;
На этапе 308 аналогично этапу 306, описанному выше процессор 106 компьютерного устройства 104 выполняет объединение по меньшей мере двух элементов содержимого в по меньшей мере одну вторую подгруппу элементов содержимого.
В контексте настоящего технического решения понятия «первая» и «вторая» подгруппа элементов содержимого введены лишь для обеспечения понимания, и пояснения того, что это не одна и та же подгруппа элементов содержимого. Стоит отметить, что в первой и второй подгруппе элементов содержимого некоторые элементы содержимого могут совпадать.
Вторая подгруппа элементов содержимого аналогичным образом объединяется процессором 106 на основе созданных всевозможных комбинаций из по меньшей мере двух различных элементов содержимого как было описано выше.
В представленном иллюстративном варианте осуществления способа 300 предварительно заданное минимальное пороговое значение веб-ресурсов равно 2. Данному критерию также соответствуют, например, следующие пары элементов содержимого: 410-416; 410-418, которые присутствуют более чем в двух веб-ресурсах. Процессор 106 объединяет данную пару элементов содержимого во вторую подгруппу элементов содержимого.
Процессор 106 может создавать множество подгрупп элементов содержимого как было показано при описании этапов 306 и 308 способа 300. Показанный вариант осуществления, включающий две первые и две вторые подгруппы элементов содержимого не является ограничивающим. Очевидно, что в зависимости от количества полученных веб-ресурсов, количества извлеченных и совпадающих элементов содержимого количество возможных подгрупп элементов содержимого, объединяемых процессором 106 может составлять, например, десятки, сотни, тысячи и т.д.
Способ 300 далее переходит к выполнению этапа 310.
Этап 310 - объединение первой и второй подгруппы в группу элементов содержимого, в ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого первой и второй подгруппы элементов содержимого превышает предварительно заданное пороговое значение веб-ресурсов на группу;
На этапе 310 процессор 106 компьютерного устройства 104 создает всевозможные комбинации из по меньшей мере двух различных подгрупп элементов содержимого, полученных на этапах 306 и 308. Для каждой из созданных комбинаций процессор 106 осуществляет проверку наличия предварительно заданного минимального количества веб-ресурсов, включающих в себя данную комбинацию элементов содержимого. В ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого первой и второй подгруппы превышает предварительно заданное минимальное пороговое значение веб-ресурсов на группу процессор 106 выполняет объединение по меньшей мере одной первой подгруппы элементов содержимого и по меньшей мере одной второй подгруппы элементов содержимого по меньшей мере одну группу элементов содержимого.
В представленном иллюстративном варианте осуществления способа 300 представлено всего две первые подгруппы элементов содержимого (406-408; 420-418) и две вторые подгруппы элементов содержимого (410-416; 410-418). Первая подгруппа элементов содержимого 406-408 может быть объединена, например, со второй подгруппой элементов содержимого 410-416 в группу элементов содержимого, поскольку все четыре элемента содержимого имеются в первом 400, втором 500 и четвертом 700 веб-ресурсах, что превышает предварительно заданное пороговое значение веб-ресурсов на группу равное 2 м. Следовательно, образованная первая группа элементов содержимого включает в себя четыре элемента содержимого 406-408-410-416, с которыми ассоциированы три веб-ресурса 400, 500 и 700.
Другая первая подгруппа элементов содержимого 420-418 может быть объединена, например, с другой второй подгруппой элементов содержимого 410-418 в группу элементов содержимого, поскольку все эти элементы содержимого имеются в первом 400, втором 500 третьем 600 и четвертом 700 веб-ресурсах, что превышает предварительно заданное пороговое значение веб-ресурсов на группу равное 2 м. Следовательно, образованная вторая группа элементов содержимого включает в себя три элемента содержимого 410-418-420, с которыми ассоциированы четыре веб-ресурса 400, 500, 600 и 700.
Очевидно, что в зависимости от количества полученных веб-ресурсов, количества извлеченных и совпадающих элементов содержимого количество возможных подгрупп элементов содержимого, объединяемых процессором 106 может составлять десятки, сотни, тысячи и т.д. Количество групп может быть равно одной или большему количеству, несмотря на то, что в представленном иллюстративном примере показано две группы элементов содержимого.
Возможен вариант осуществления, в котором перед сохранением группы элементов содержимого определяют вес каждой группы исходя из соотношения количества элементов содержимого в группе и количества веб-ресурсов, ассоциированных с данной группой элементов содержимого, осуществляют объединение первой и второй подгруппы элементов содержимого в группу, в ответ на то, что вес полученной группы превышает предварительно заданное пороговое значение.
В представленном иллюстративном примере вес второй группы элементов равен 3,2, а вес первой группы элементов содержимого равен 3. С учетом приведенного выше примера функции Score (L,q) превышает вес первой группы элементов содержимого, поскольку меньшему. Возможен вариант осуществления способа, в котором пороговое значение веса группы равно 3, в таком случае на этапе 310, согласно данному иллюстративному примеру будет образована только вторая группа элементов содержимого.
Способ 300 далее переходит к выполнению этапа 312.
Этап 312 - сохранение группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого в базе данных.
На этапе 312 процессор 106 компьютерного устройства 104 осуществляет сохранение группы или групп элементов содержимого, созданной(ых) на этапе 310 в базу данных 108. Процессор 106 также сохраняет указания на веб-ресурсы, ассоциированные с соответствующей группой или группами элементов содержимого. В данном случае ассоциированными с группой элементов содержимого являются веб-ресурсы, включающие в себя все элементы содержимого группы элементов содержимого.
В представленном иллюстративном варианте осуществления способа 300 в базу данных 108 процессор 106 осуществляет сохранение первой группы элементов содержимого, включающей элементы содержимого 406-408-410-416, с которыми ассоциированы три веб-ресурса 400, 500 и 700 и второй группы элементов содержимого, включающей в себя три элемента содержимого 410-418-420, с которыми ассоциированы четыре веб-ресурса 400, 500, 600 и 700.
Затем выполнение способа 300 может завершаться.
Возможен вариант осуществления способа, в котором после сохранения каждой группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого в базе данных получают указание на по меньшей мере один дополнительный веб-ресурс; выполняют извлечение по меньшей мере части элементов содержимого каждого веб-ресурса; в ответ на определение в базе данных по меньшей мере одной группы элементов содержимого, с которой ассоциирован указанный по меньшей мере один дополнительный веб-ресурс, сохранение указания на дополнительный веб-ресурс в базе данных.
Возможен вариант осуществления способа, в котором после сохранения группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с данной группой элементов содержимого, дополнительно выполняют определение вредоносных веб-ресурсов, ассоциированных с группой элементов содержимого. Возможен вариант осуществления способа, в котором определение вредоносных веб ресурсов, выполняет по меньшей мере частично человек-эксперт.
Заявленный способ для определения вредоносных веб-ресурсов обеспечивает осуществление автоматической кластеризации множества веб-ресурсов на группы, что позволяет затем осуществлять оперативную проверку каждой из сохраненных групп экспертом и выявлять группы фишинговых сайтов, например, созданных посредством фишинговых наборов, выявлять зеркала и копии заблокированных и выявленных ранее вредоносных веб-ресурсов. При этом существенно снижается нагрузка на эксперта в процессе определения вредоносных веб-ресурсов.
Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.
Изобретение относится к вычислительной технике. Технический результат заключается в автоматизированной фильтрации массива выявленных подозрительных веб-ресурсов. Способ кластеризации веб-ресурсов включает получение указаний на множество веб-ресурсов; извлечение, по меньшей мере, части элементов содержимого каждого веб-ресурса из указанного множества веб-ресурсов; объединение, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну первую подгруппу; объединение, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну вторую подгруппу; объединение указанных первой и второй подгрупп, по меньшей мере, в одну группу элементов содержимого; сохранение указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого из указанных групп элементов содержимого, в базе данных. 2 н. и 16 з.п. ф-лы, 7 ил.
1. Способ кластеризации веб-ресурсов, выполняемый на компьютерном устройстве, при этом способ включает в себя:
получение, посредством процессора компьютерного устройства, указаний на множество веб-ресурсов;
извлечение, посредством процессора компьютерного устройства, по меньшей мере, части элементов содержимого каждого веб-ресурса из указанного множества веб-ресурсов;
объединение, посредством процессора компьютерного устройства, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные, по меньшей мере, два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение, посредством процессора компьютерного устройства, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные, по меньшей мере, два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение, посредством процессора компьютерного устройства, указанных первой и второй подгрупп, по меньшей мере, в одну группу элементов содержимого в ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого указанных первой и второй подгрупп элементов содержимого, превышает заданное пороговое значение веб-ресурсов на группу;
сохранение указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого из указанных групп элементов содержимого, в базе данных.
2. Способ по п. 1, в котором множество веб-ресурсов включает, по меньшей мере, два веб-ресурса.
3. Способ по п. 1, в котором для получения указаний на множество веб-ресурсов предварительно выполняют сканирование сети.
4. Способ по п. 1, в котором указания на множество веб-ресурсов получают, по меньшей мере, частично от внешнего источника по сети передачи данных.
5. Способ по п. 1, в котором указания на множество веб-ресурсов получают из предварительно сформированной базы данных веб-ресурсов.
6. Способ по п. 1, в котором на этапе получения указаний на множество веб-ресурсов осуществляют получение, по меньшей мере, части предварительно извлеченных указаний на элементы содержимого множества веб-ресурсов.
7. Способ по п. 1, в котором элементы содержимого представляют собой файлы элементов содержимого или хеш-суммы файлов элементов содержимого.
8. Способ по п. 1, в котором после извлечения, по меньшей мере, части элементов содержимого осуществляют фильтрацию путем удаления предварительно заданных стандартных элементов содержимого, объединение, по меньшей мере, двух элементов содержимого в, по меньшей мере, одну подгруппу осуществляют без учета удаленных элементов содержимого.
9. Способ по п. 1, в котором перед сохранением группы элементов содержимого определяют вес группы исходя из соотношения количества элементов содержимого в группе и количества веб-ресурсов, ассоциированных с данной группой элементов содержимого, осуществляют объединение первой и второй подгруппы элементов содержимого в группу, в ответ на то, что вес полученной группы превышает предварительно заданное пороговое значение.
10. Способ по п. 1, в котором после сохранения группы элементов содержимого и указаний на веб-ресурсы, ассоциированные с данной группой элементов содержимого, дополнительно выполняют определение вредоносных веб-ресурсов, ассоциированных с группой элементов содержимого.
11. Способ по п. 10, в котором определение вредоносных веб-ресурсов выполняет, по меньшей мере, частично человек-эксперт.
12. Компьютерное устройство для кластеризации веб-ресурсов, включающее процессор, выполненный с возможностью осуществлять:
получение указаний на множество веб-ресурсов;
извлечение, по меньшей мере, части элементов содержимого каждого веб-ресурса из указанного множества веб-ресурсов;
объединение, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну первую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные, по меньшей мере, два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение, по меньшей мере, двух элементов содержимого из извлеченных элементов содержимого веб-ресурсов, по меньшей мере, в одну вторую подгруппу в ответ на то, что количество веб-ресурсов, включающих в себя указанные, по меньшей мере, два элемента содержимого, превышает заданное пороговое значение веб-ресурсов на подгруппу;
объединение указанных первой и второй подгрупп, по меньшей мере, в одну группу элементов содержимого в ответ на то, что количество веб-ресурсов, включающих в себя элементы содержимого указанных первой и второй подгрупп, превышает заданное пороговое значение веб-ресурсов на группу;
сохранение указаний на веб-ресурсы, ассоциированные с соответствующей группой элементов содержимого из указанных групп элементов содержимого, в базе данных.
13. Устройство по п. 12, в котором процессор выполнен с возможностью выполнять сканирование сети для получения указаний на множество веб-ресурсов.
14. Устройство по п. 12, в котором процессор выполнен с возможностью получения указания на множество веб-ресурсов, по меньшей мере, частично от внешнего источника по сети передачи данных.
15. Устройство по п. 12, в котором процессор выполнен с возможностью получения указания на множество веб-ресурсов из предварительно сформированной базы данных веб-ресурсов.
16. Устройство по п. 12, в котором на этапе получения указаний на множество веб-ресурсов процессор выполнен с возможностью получать, по меньшей мере, часть предварительно извлеченных указаний на элементы содержимого множества веб-ресурсов.
17. Устройство по п. 12, в котором процессор выполнен с возможностью извлечения, по меньшей мере, части элементов содержимого веб-ресурса, причем элементы содержимого представляют собой файлы элементов содержимого или хеш-суммы файлов элементов содержимого.
18. Устройство по п. 12, в котором после извлечения, по меньшей мере, части элементов содержимого процессор выполнен с возможностью осуществлять фильтрацию путем удаления предварительно заданных стандартных элементов содержимого и осуществлять объединение, по меньшей мере, двух элементов содержимого в группу без учета удаленных элементов содержимого.
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
СПОСОБ ПЕРЕРАБОТКИ СУЛЬФИДНЫХ ЗОЛОТОСОДЕРЖАЩИХ КОНЦЕНТРАТОВ | 2009 |
|
RU2410452C1 |
US 7865953 B1, 04.01.2011 | |||
СИСТЕМА И СПОСОБ ПРОВЕРКИ ВЕБ-РЕСУРСОВ НА НАЛИЧИЕ ВРЕДОНОСНЫХ КОМПОНЕНТ | 2010 |
|
RU2446459C1 |
Авторы
Даты
2018-12-26—Публикация
2018-01-17—Подача