Система и способ снижения количества ложных срабатываний классифицирующих алгоритмов Российский патент 2019 года по МПК G06F21/56 

Описание патента на изобретение RU2706883C1

Область техники

Изобретение относится к области классификации файлов, а именно к системам и способам снижения количества ложных срабатываний классифицирующих алгоритмов.

Уровень техники

В настоящий момент вычислительные устройства - смартфоны, компьютеры, планшеты и т.п. - стали обязательным атрибутом практически каждого человека. При помощи таких устройств люди выполняют множество повседневных задач: от общения по электронной почте до оплаты покупок в магазинах. Широкое распространение таких устройств мотивирует злоумышленников создавать и применять вредоносные программы - программы, в частности предназначенные для неправомерного доступа к данным пользователя, а также к ресурсам вычислительных устройств в целом.

На данный момент для борьбы с вредоносными программами широко используются антивирусные приложения - программы, предназначенные для обнаружения вредоносных программ и защиты вычислительных устройств от упомянутых вредоносных программ. Для обеспечения такой защиты применяются различные подходы и технологии: сигнатурный анализ, поведенческий анализ, эвристические правила и т.д. Но по мере развития антивирусных технологий, злоумышленниками совершенствуются и способы обхода этих защитных механизмов. Таким образом развитие антивирусных технологий всегда является актуальной задачей, целью которой является повышение качества обнаружения вредоносных программ - снижение ошибок первого (ложное срабатывание) и второго рода при обнаружении вредоносных программ.

Для повышения качества обнаружения вредоносных программ все более часто применяются классифицирующие алгоритмы на основании машинного обучения (англ. Machine Learning). Такие алгоритмы выделяют всевозможные признаки (информация о компиляторах, использованных при создании приложений, информация о размерах исполняемых файлов, наборы машинных инструкций и т.д.) из анализируемых приложений, в частности исполняемых файлов (например РЕ-файлов), и на основании данных признаков относят анализируемое приложение к одному из классов приложений, соответственно обнаружение вредоносного приложения осуществляется при отнесении анализируемого приложения к классу вредоносных приложений. Хорошо обученные классифицирующие алгоритмы неплохо справляются с обнаружением вредоносных приложений, однако количество ложных срабатываний (или другие метрики, основанные на количестве ложных срабатываний) алгоритма также является его важной характеристикой. Поэтому возможность своевременного исправления ложных срабатываний является необходимостью при использовании таких классифицирующих алгоритмов.

В публикации US 8719935 B2 описан подход к снижению количества ложных срабатываний путем сравнения информации, идентифицирующей файл, признанный вредоносным, с аналогичной информацией доверенной копии файла. В одном из вариантов реализации такой информацией является хеш файла. В случае различия информации принимается решение об обнаружении и исправлении ложного срабатывания.

Однако в уровне техники не описаны подходы одновременного исправления ряда ложных срабатываний. Настоящее изобретение призвано быстро и эффективно решать данную проблему.

Раскрытие изобретения

Настоящее изобретение предназначено для снижения количества ошибок первого рода, осуществляемых при определении категории файлов.

Технический результат настоящего изобретения заключается в реализации заявленного назначения.

Еще одним техническим результатом заявленного изобретения является снижение количества ложных срабатываний методов, обладающих обобщающей способностью, в отношении файлов, в отношении которых еще не проводилась проверка с целью отнесения их к некоторой категории файлов.

Способ снижения количества ложных срабатываний, согласно которому: признают при помощи средства обнаружения вредоносных файлов файл относящимся к некоторой категории файлов; при этом для признания файла относящимся к некоторой категории файлов используется метод, обладающий обобщающей способностью; обнаруживают при помощи средства оценки ложное срабатывание средства обнаружения вредоносных файлов при признании файла относящимся к некоторой категории файлов путем анализа упомянутого файла; вычисляют при помощи средства исправления ложных срабатываний гибкий хеш файла, признание которого в качестве относящимся к некоторой категории файлов является ложным срабатыванием; при этом значения гибких хешей двух похожих файлов совпадают; добавляют при помощи средства исправления ложных срабатываний вычисленный гибкий хеш в базу данных исключений; применяют средство обнаружения вредоносных файлов для анализа файлов с целью признания файлов относящимся к некоторой категории файлов, при этом средство обнаружения вредоносных файлов исключает из анализа, производимого с целью признания файл относящимся к некоторой категории файлов, файл, если значение гибкого хеша упомянутого файла хранится в базе данных исключений.

В другом варианте способа исправление ложного срабатывания метода, используемого для признания файла вредоносным, является трудоемкой операцией.

В другом варианте способа методом, исправление ложного срабатывания которого является трудоемкой операцией, является классифицирующий алгоритм.

В другом варианте способа классифицирующими алгоритмами являются:

- дерево принятия решения;

- градиентный бустинг;

- случайный лес;

- классифицирующие алгоритмы на основе нейронных сетей.

В другом варианте способа исправление ложного срабатывания является трудоемкой операцией если выполнено одно из условий:

- исправления ложного срабатывания такого метода требует существенных временных затрат;

- исправления ложного срабатывания такого метода требует существенного объема передаваемых по сети данных.

В другом варианте способа категорией файлов, к которой может отнести файл средство обнаружения вредоносных файлов, является одна из следующих категорий:

- категория вредоносных файлов;

- категория нежелательных файлов.

Система снижения количества ложных срабатываний, которая содержит: средство обнаружения вредоносных файлов, предназначенное для признания файла относящегося к некоторой категории файлов; при этом средство обнаружения вредоносных файлов исключает из анализа, производимого с целью признания файла относящимся к некоторой категории файлов, файл, если значение гибкого хеша упомянутого файла хранится в базе данных исключений; при этом для признания файла относящимся к некоторой категории файлов используется метод, обладающий обобщающей способностью; средство оценки, предназначенное для обнаружения ложного срабатывания средства обнаружения вредоносных файлов при признании файла относящимся к некоторой категории файлов путем анализа упомянутого файла; средство исправления ложных срабатываний, предназначенное для вычисления гибкого хеша файла, признание которого в качестве относящимся к некоторой категории файлов является ложным срабатыванием, а также для добавления вычисленного гибкого хеша в базу данных исключений; при этом значения гибких хешей двух похожих файлов совпадают.

В другом варианте системы исправление ложного срабатывания метода, используемого для признания файла вредоносным, является трудоемкой операцией.

В другом варианте системы методом, исправление ложного срабатывания которого является трудоемкой операцией, является классифицирующий алгоритм.

В другом варианте системы классифицирующими алгоритмами являются:

- дерево принятия решения;

- градиентный бустинг;

- случайный лес;

- классифицирующие алгоритмы на основе нейронных сетей.

В другом варианте системы исправление ложного срабатывания является трудоемкой операцией если выполнено одно из условий:

- исправления ложного срабатывания такого метода требует существенных временных затрат;

- исправления ложного срабатывания такого метода требует существенного объема передаваемых по сети данных.

В другом варианте системы категорией файлов, к которой может отнести файл средство обнаружения вредоносных файлов, является одна из следующих категорий:

- категория вредоносных файлов;

- категория нежелательных файлов.

Краткое описание чертежей

Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует примерную схему компонентов системы снижения количества ложных срабатываний классифицирующих алгоритмов.

Фиг. 2 иллюстрирует примерный вариант способа снижения количества ложных срабатываний классифицирующих алгоритмов.

Фиг. 3 иллюстрирует вариант схемы компьютерной системы общего назначения.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.

Описание вариантов осуществления изобретения

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является не чем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.

Введем ряд определений и понятий, которые будут использоваться при описании вариантов осуществления изобретения.

Вредоносное приложение - приложение, способное нанести вред вычислительному устройству или данным пользователя вычислительного устройства (иными словами, компьютерной системы: персонального компьютера, сервера, мобильного телефона и т.п.), например: сетевой червь, клавиатурный шпион, компьютерный вирус. В качестве нанесенного вреда может выступать неправомерный доступ к ресурсам компьютера, в том числе к данным, хранящимся на компьютере, с целью хищения, а также неправомерное использование ресурсов, в том числе для хранения данных, проведения вычислений и т.п.

Доверенное приложение - приложение, которое не наносит вреда компьютеру или его пользователю. Доверенным приложением может считаться приложение, разработанное доверенным производителем ПО (программного обеспечения), загруженное из доверенного источника (например, сайт, занесенный в базу данных доверенных сайтов) или приложение, идентификатор (или другие данные, по которым можно однозначно определить приложение) которого (например, хеш-сумма файла приложения) хранится в базе данных доверенных приложений. Идентификатор производителя, например, цифровой сертификат, может также храниться в базе данных доверенных приложений.

Недоверенное приложение - приложение, которое не является доверенным, но также не признано вредоносным, например, при помощи антивирусного приложения. При этом недоверенное приложение может впоследствии быть признано вредоносным, например, при помощи антивирусной проверки.

Вредоносный файл - файл, являющийся компонентом вредоносного приложения и содержащий программный код (исполняемый или интерпретируемый код).

Недоверенный файл - файл, являющийся компонентом недоверенного приложения и содержащий программный код (исполняемый или интерпретируемый код).

Доверенный файл - файл, являющийся компонентом доверенного приложения.

Предопределенные категории приложений - по меньшей мере категория доверенных приложений, категория недоверенных приложений, категория вредоносных приложений.

Ложное срабатывание - совершение ошибки первого рода.

Гибкий хеш (англ. "similarity preserving hash"1 (1 Sparse similarity-preserving hashing, Jonathan Masci et al., https://arxiv.org/pdf/1312.5479.pdf), в частности "locality sensitive hash2" (2 Locality Sensitive Hashing, Ravi Kumar, https://users.soe.ucsc.edu/~niejiazhong/slides/kumar.pdf)) - хеш файла, вычисляемый на основании данных, хранящихся в файле, и значение которого остается неизменным при частичном изменении таких данных. В еще одном варианте реализации для вычисления гибкого хеша дополнительно используются данные, полученные в результате обработки данных, хранящихся в файле, например: в качестве данных для вычисления гибкого хеша могут быть использованы записи о вызовах функций из журнала исполнения файла, полученного одним из известных из уровня техники способов, например при исполнении файла или же эмуляции исполнения файла. В одном из вариантов реализации гибкий хеш может быть представлен в виде вектора значений.

В одном из вариантов реализации гибкий хеш - хеш, который для двух похожих файлов будет иметь одно и то же значение (значения гибких хешей, вычисленных на основании признаков файлов, совпадает). Под гибким хешем группы файлов (гибкий хеш, соответствующий группе файлов) будем понимать гибкий хеш, значение которого для каждого файла из упомянутой группы одинаково. Файлы с совпадающим значением гибкого хеша, в частности файлы из такой группы, можно считать похожими с некоторой точностью (под точностью в данном контексте можно понимать среднее или среднеквадратичное значение степени сходства, например между каждыми двумя файлами из такой группы), которая определяется точностью самого метода вычисления гибкого хеша.

Два файла будем считать похожими, если степень сходства между ними превышает заранее установленный порог (например, превышает 85%, иными словами превышает 0.85). Степень сходства может быть вычислена при помощи любого из известных подходов, например основанных на вычислении мер:

- Жаккара;

- Дайса;

- Левенштейна;

- Хэмминга;

- и т.п.

Под средствами системы в настоящем изобретении понимаются реальные устройства, системы, компоненты, группы компонентов, реализованные с использованием аппаратных средств, таких как интегральные микросхемы (англ. application-specific integrated circuit, ASIC) или программируемые вентильные матрицы (англ. field-programmable gate array, FPGA) или, например, в виде комбинации программных и аппаратных средств, таких как микропроцессорная система и набор программных инструкций, а также на нейроморфных чипах (англ. neurosynaptic chips) Функциональность указанных средств системы может быть реализована исключительно аппаратными средствами, а также в виде комбинации, где часть функциональности средств системы реализована программными средствами, а часть аппаратными. В некоторых вариантах реализации часть средств, или все средства, могут быть исполнены на процессоре компьютера общего назначения (например, который изображен на Фиг. 3). При этом компоненты системы могут быть реализованы в рамках как одного вычислительного устройства, так и разнесены между несколькими, связанными между собой вычислительными устройствами.

На Фиг. 1 изображена примерная схема компонентов системы снижения количества ложных срабатываний классифицирующих алгоритмов. Система включает в себя следующие компоненты: средство обнаружения вредоносных файлов 110, средство оценки 120, средство исправления ложных срабатываний 130, и базу данных исключений 140. В одном из вариантов реализации изобретения все компоненты системы располагаются на вычислительном устройстве пользователя - клиенте, в другом варианте реализации компоненты системы располагаются на удаленном сервере. В еще одном варианте реализации средство обнаружения вредоносных файлов 110 и база данных исключений 140 расположены на вычислительном устройстве пользователя, а средство оценки 120 и средство исправления ложных срабатываний 130 - на сервере. В еще одном варианте реализации средство обнаружения вредоносных файлов 110, база данных исключений 140 и средство оценки 120 расположены на клиенте, а средство 130 - на сервере. В еще одном варианте реализации средство оценки 120 расположено на сервере, а остальные компоненты системы расположены на клиенте. В еще одном варианте реализации все средства системы расположены на удаленном сервере, а на клиенте расположен агент, способный передавать на удаленный сервер все необходимые для функционирования средств системы данные.

Средство обнаружения вредоносных файлов 110 предназначено для обнаружения вредоносных файлов. Стоит отметить, что вредоносные файлы -частный случай категории файлов, обладающих общими характеристиками, а именно тем, что файлы из данной категории могут нанести вред вычислительному устройству или его пользователю. Все алгоритмы, методы и подходы, описанные в рамках данного изобретения, могут относиться не только к вредоносным файлам, но к файлам из определенной категории. Одной из таких категорий является категория вредоносных файлов. В другом случае реализации изобретения такой категорией является категория нежелательных файлов, например относящихся к нежелательному программному обеспечению, такому как рекламное программное обеспечение (с англ. adware), или же к программному обеспечению, изменяющему настройки других приложений, в частности стартовую страницу браузера. В дальнейшем для описания примера реализации настоящего изобретения в качестве примера упомянутой категории будет выступать категория вредоносных файлов, а в качестве файлов, не входящих в данный класс - категория доверенных файлов. Соответственно под ложным срабатыванием будем понимать ошибочное признание файла относящимся к некоторой категории (в частности к классу вредоносных файлов), которые к данной категории не относятся (в частности доверенных файлов).

Обнаружение вредоносного файла осуществляется путем признания анализируемого средством 110 файла вредоносным. Для признания файла вредоносным средство 110 может применять любой известный из уровня техники метод, обладающий особенностью - исправление ложного срабатывания такого метода является трудоемкой операцией, в частности:

- исправление ложного срабатывания такого метода требует существенных временных затрат;

- или же исправление ложного срабатывания такого метода требует существенного объема передаваемых по сети данных.

В еще одном варианте реализации изобретения метод, используемый для обнаружения вредоносного файла, обладает обобщающей способностью: одна запись (например, эвристическое правило, гибкий хеш и т.п.) для обнаружения вредоносного файла может быть использована для обнаружения множества уникальных файлов. При этом существенными временными затратами для исправления ложного срабатывания является период времени, превышающий установленное пороговое значение, например 1 час и более, а существенным количеством передаваемых по сети данных для исправления ложного срабатывания считается объем данных, превышающий установленное пороговое значение, например 1 мегабайт и более.

В одном из вариантов реализации изобретения средство обнаружения вредоносных файлов 110 для обнаружения вредоносных файлов применяет классифицирующий алгоритм, который, соответственно, требует существенного времени для исправления ложного срабатывания, так как для исправления такого ложного срабатывания необходимо переобучить классифицирующий алгоритм, а также обладает обобщающей способностью. В одном из вариантов реализации такими классифицирующими алгоритмами являются:

- дерево принятия решения (англ. "decision tree");

- градиентный бустинг (англ. "gradient boosting");

- случайный лес (англ. "random forest");

- классифицирующие алгоритмы на основе нейронных сетей.

Процесс обучения (равно как и переобучения) любого классифицирующего алгоритма известен из уровня техники и не будет описан в рамках материалов настоящего изобретения.

Для проверки файла 105 с целью обнаружения вредоносного файла 105 (иными словами, признания файла 105 вредоносным) средство обнаружения вредоносных файлов 110 применяет классифицирующий алгоритм. Файл 105 - один из множества файлов 115. Множество файлов 115 - множество файлов, относительно которого средство обнаружения вредоносных файлов 110 не выполняло проверку с целью обнаружения вредоносных файлов. В одном из вариантов реализации изобретения такими файлами могут являться файлы на вычислительном устройстве пользователя, в другом варианте - на удаленном сервере. Средство обнаружения вредоносных файлов 110 проверяет файл 105, в результате такой проверки средство 110 либо признает файл 105 вредоносным, либо нет. Если файл 105 признан вредоносным, средство обнаружения вредоносных файлов 110 передает файл 105 (или всю необходимую информацию о нем) средству оценки 120.

Средство оценки 120 предназначено для анализа файла 105 (или информации о файле 105). Цель проводимого средством оценки 120 анализа файла 105 - обнаружение ложного срабатывания средства обнаружения вредоносных файлов 110, в частности при признании файла 105 вредоносным. Для обнаружения ложного срабатывания при признании файла 105 вредоносным средством оценки 120 может быть использован любой известный из уровня техники подход, в частности, средство оценки может сравнить идентификатор файла 105, например контрольную сумму файла (MD5 или SHA-1 и пр.), с идентификаторами доверенных файлов, которые хранятся в базе данных доверенных файлов 125, данная база данных 125 может располагаться как в рамках одного вычислительного устройства со средством оценки 120, так и удаленно относительно средства оценки 120. Если идентификатор файл 105, признанного средством обнаружения вредоносных файлов 110, присутствует в базе данных доверенных файлов 125, то средство оценки 120 обнаруживает ложное срабатывание средства обнаружения вредоносных файлов 110 при признании файла 105 вредоносным. В противном случае средство оценки 120 не обнаруживает ложное срабатывание средства обнаружения вредоносных файлов 110.

В еще одном варианте реализации средство оценки 120 сравнивает сертификат ЭЦП (если подпись присутствует в файле 105) с сертификатами, хранящимися в базе данных доверенных файлов 125. Если в базе данных 125 присутствует сертификат ЭЦП, которой подписан признанный вредоносным файл 105, и ЭЦП валидна, то средство оценки 120 обнаруживает ложное срабатывание средства обнаружения вредоносных файлов 110 при признании файла 105 вредоносным. В противном случае средство оценки 120 не обнаруживает ложное срабатывание средства обнаружения вредоносных файлов 110.

Данные, хранящиеся в базе данных 125 могут добавляться и модифицироваться силами специалистов в области информационной безопасности, например при помощи удаленного соединения.

После обнаружения средством оценки 120 ложного срабатывания средства обнаружения вредоносных файлов 110, средство 120 передает средству исправления ложных срабатываний 130 файл 105, который был ошибочно признан средством обнаружение вредоносных приложений 110 вредоносным.

Средство исправления ложных срабатываний 130 предназначено для вычисления гибкого хеша 135 файла. В одном из вариантов реализации изобретения таким файлом является файл 105, ошибочно признанный средством обнаружения вредоносных файлов 110 вредоносным. Вычисленный гибкий хеш 135 файла 105 передается в базу данных исключений 140.

В свою очередь гибкие хеши 135, хранящиеся в базе данных исключений 140 могут быть использованы средством обнаружения вредоносных файлов 110 при проведении проверки файлов: если гибкий хеш файла, предназначенного для проверки, присутствует в базе данных исключений, то такой файл из проверки исключается. В еще одном варианте реализации, если гибкий хеш файла, предназначенного для проверки, представлен в виде вектора значений [x1, х2, х3 …], а в базе данных исключений присутствует такой гибкий хеш [у1, у2, у3 …], для которого указаны индексы элементов I вектора, для которых выполняется одно из следующих условий:

- ∀i ∈ I : xi < yi,

- ∃K ⊂ I, ∀i ∈ K : xi < yi,

то такой файл из проверки исключается. В одном из вариантов реализации изобретения такой файл признается доверенным. При этом средство обнаружения вредоносных файлов 110 способно вычислять гибкий хеш файла 105, а также сравнивать этот хеш с хешами, хранящимися в базе данных исключений 140 (например, сравнивая значения хешей).

Таким образом, при повторной проверке (которая будет выполнена в рамках применения средства обнаружения вредоносных файлов 110) средством обнаружения вредоносных файлов 110 файла 105 указанный файл 105 не будет признан вредоносным. При этом, если средству обнаружения вредоносных файлов 110 необходимо провести проверку в отношении множества файлов 115, при условии, что было обнаружено ложное срабатывание средства 110, признавшее файл 105 вредоносным, то в таком случае из проверки средством 110 будут исключены все файлы 136, значение гибких хешей которых присутствует в базе данных исключений 140, в частности совпадающих с гибким хешем 135 файла 105. На Фиг. 1 множество таких файлов схематично обозначено окрестностью файла 105 - областью 136, символизирующей множество файлов, похожих на ошибочно признанный вредоносным файл 105, из множества файлов 115.

Использование вышеописанного подхода позволяет избежать ситуации, где каждый из похожих на файл 105 файл будет признан вредоносным при помощи средства обнаружения вредоносных файлов 110, что впоследствии потребует внесения изменений в алгоритм признания средством 110 файлов вредоносными с целью избежать ложных срабатываний в будущем. Применение гибкого хеша 135 для исключения файлов из проверки средством 110 позволяет не только избежать повторного ложного срабатывания средства 110 в отношении файла 105, использованного для вычисления гибкого хеша 135, но и в отношении похожих файлов 136 (которые в одном из вариантов реализации изобретения признаются средством 110 доверенными), в отношении которых еще не производилась проверка средством обнаружения вредоносных файлов 110. Таким образом заявленный подход решает техническую задачу - снижение количества ложных срабатываний методов, обладающих обобщающей способностью, в частности, классифицирующих алгоритмов, при этом исключается возможность ложного срабатывания в отношении файлов 136, в отношении которых еще не проводилась проверка на вредоносность (например, при помощи средства обнаружения вредоносных файлов 110). При этом заявленный подход также решает техническую проблему - быстрое (сравнительно), а также не требующее большого количества передаваемых по сети данных исправление ложного срабатывания для методов обнаружения вредоносных файлов, требующих существенных временных затрат или большого количества передаваемых по сети данных для исправления ложных срабатываний. Решение этой технической проблемы обусловлено тем, что исправление ложного срабатывания при помощи гибкого хеша не требует, например, переобучения классифицирующего алгоритма.

На Фиг. 2 изображена схема метода снижения количества ложных срабатываний классифицирующих алгоритмов. На этапе 201 средство обнаружения вредоносных файлов 110 осуществляет анализ файла 105, цель такого анализа - признание файла 105 вредоносным. Если файл 105 признается средством обнаружения вредоносных файлов 110 вредоносным, то на этапе 202 средство оценки 120 осуществляет повторно анализа признанного вредоносным файла 105 для обнаружения ложного срабатывания средства обнаружения вредоносных файлов 110. Если средством оценки 120 не обнаружено ложное срабатывание средства обнаружения вредоносных файлов 110 при признании файла 105 вредоносным, то на этапе 203 решение о признании файла 105 вредоносным не меняется. В противном случае на этапе 204 при помощи средства исправления ложных срабатываний вычисляют гибкий хеш 135 файла 105, ошибочно признанного вредоносным. После этого, на этапе 205, гибкий хеш 135 добавляется в базу данных исключений 140. В одном из вариантов реализации изобретения добавление гибкого хеша 135 в упомянутую базу данных 140 при помощи средства исправления ложных срабатываний 130. После этого, на этапе 206, применяют средство обнаружения вредоносных файлов 110, например с целью анализа других файлов 115, еще не проанализированных средством 110, таким образом, что файлы 115, значение гибких хешей которых присутствует в базе данных исключений 140, исключаются из анализа, проводимого средством 110 с целью признания файлов вредоносными. В частном случае реализации файлы, исключенные из анализа средством 110 признаются доверенными.

Фиг. 3 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.

Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.

Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканнер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.

Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 3. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.

Похожие патенты RU2706883C1

название год авторы номер документа
Система и способ двухэтапной классификации файлов 2018
  • Романенко Алексей Михайлович
  • Прокудин Сергей Викторович
  • Лискин Александр Викторович
RU2708356C1
Система и способ проверки ЭЦП файла 2018
  • Ладиков Андрей Владимирович
  • Домашенко Алексей Алексеевич
  • Чепель Дмитрий Михайлович
  • Козлов Сергей Владимирович
  • Гадельшин Тагир Тальгатович
RU2706873C1
Система и способ стойкой к атакам проверки ЭЦП файлов 2018
  • Ладиков Андрей Владимирович
  • Домашенко Алексей Алексеевич
  • Чепель Дмитрий Михайлович
  • Козлов Сергей Владимирович
  • Гадельшин Тагир Тальгатович
RU2708353C1
Способ обнаружения вредоносных файлов на основании фрагментов файлов 2019
  • Костин Раю
RU2747464C2
Система и способ категоризации приложения на вычислительном устройстве 2019
  • Кусков Владимир Анатольевич
  • Бучка Никита Александрович
  • Кивва Антон Андреевич
  • Волков Олег Павлович
  • Лукасевич Дмитрий Юрьевич
  • Рогинский Евгений Андреевич
  • Филатов Константин Михайлович
  • Латохин Дмитрий Владимирович
RU2747514C2
Система и способ снижения нагрузки на сервис обнаружения вредоносных приложений 2019
  • Кусков Владимир Анатольевич
  • Бучка Никита Александрович
  • Кивва Антон Андреевич
  • Волков Олег Павлович
  • Лукасевич Дмитрий Юрьевич
  • Рогинский Евгений Андреевич
  • Филатов Константин Михайлович
  • Латохин Дмитрий Владимирович
RU2739833C1
Способ определения похожести составных файлов 2016
  • Крюков Андрей Владимирович
  • Лискин Александр Викторович
  • Иванов Антон Михайлович
RU2628922C1
Способ обнаружения вредоносных составных файлов 2016
  • Крюков Андрей Владимирович
  • Лискин Александр Викторович
  • Иванов Антон Михайлович
RU2634178C1
СИСТЕМА И СПОСОБ ДЛЯ ИСПРАВЛЕНИЯ АНТИВИРУСНЫХ ЗАПИСЕЙ 2011
  • Романенко Александр Александрович
  • Лапушкин Антон Сергеевич
  • Ишанов Олег Алексеевич
RU2487405C1
Способ контроля доступа к составным файлам 2017
  • Крюков Андрей Владимирович
  • Лискин Александр Викторович
  • Иванов Антон Михайлович
RU2659739C1

Иллюстрации к изобретению RU 2 706 883 C1

Реферат патента 2019 года Система и способ снижения количества ложных срабатываний классифицирующих алгоритмов

Изобретение относится к вычислительной технике. Технический результат заключается в снижении количества ложных срабатываний методов, обладающих обобщающей способностью, в отношении файлов, в отношении которых еще не проводилась проверка с целью отнесения их к некоторой категории файлов. Способ снижения количества ложных срабатываний содержит этапы, на которых признают при помощи средства обнаружения вредоносных файлов файл относящимся к некоторой категории файлов; обнаруживают при помощи средства оценки ложное срабатывание средства обнаружения вредоносных файлов; вычисляют при помощи средства исправления ложных срабатываний гибкий хеш файла; добавляют при помощи средства исправления ложных срабатываний вычисленный гибкий хеш в базу данных исключений; применяют средство обнаружения вредоносных файлов для анализа файлов с целью признания файлов относящимися к некоторой категории файлов, при этом средство обнаружения вредоносных файлов исключает из анализа, производимого с целью признания файл относящимся к некоторой категории файлов, файл, если значение гибкого хеша упомянутого файла хранится в базе данных исключений. 2 н. и 2 з.п. ф-лы, 3 ил.

Формула изобретения RU 2 706 883 C1

1. Способ снижения количества ложных срабатываний, согласно которому:

a) признают при помощи средства обнаружения вредоносных файлов файл относящимся к некоторой категории файлов;

при этом для признания файла относящимся к некоторой категории файлов используется метод, обладающий обобщающей способностью;

b) обнаруживают при помощи средства оценки ложное срабатывание средства обнаружения вредоносных файлов при признании файла относящимся к некоторой категории файлов путем анализа упомянутого файла;

c) вычисляют при помощи средства исправления ложных срабатываний гибкий хеш файла, признание которого в качестве относящегося к некоторой категории файлов является ложным срабатыванием;

при этом значения гибких хешей двух похожих файлов совпадают;

d) добавляют при помощи средства исправления ложных срабатываний вычисленный гибкий хеш в базу данных исключений;

e) применяют средство обнаружения вредоносных файлов для анализа файлов с целью признания файлов относящимися к некоторой категории файлов, при этом средство обнаружения вредоносных файлов исключает из анализа, производимого с целью признания файла относящимся к некоторой категории файлов, файл, если значение гибкого хеша упомянутого файла хранится в базе данных исключений.

2. Способ по п. 1, в котором исправление ложного срабатывания метода, используемого для признания файла вредоносным, является трудоемкой операцией, если выполнено одно из условий:

исправления ложного срабатывания такого метода требует существенных временных затрат;

исправления ложного срабатывания такого метода требует существенного объема передаваемых по сети данных.

3. Система снижения количества ложных срабатываний, которая содержит:

a) средство обнаружения вредоносных файлов, предназначенное для признания файла, относящегося к некоторой категории файлов;

при этом средство обнаружения вредоносных файлов исключает из анализа, производимого с целью признания файла относящимся к некоторой категории файлов, файл, если значение гибкого хеша упомянутого файла хранится в базе данных исключений;

при этом для признания файла относящимся к некоторой категории файлов используется метод, обладающий обобщающей способностью;

b) средство оценки, предназначенное для обнаружения ложного срабатывания средства обнаружения вредоносных файлов при признании файла относящимся к некоторой категории файлов путем анализа упомянутого файла;

c) средство исправления ложных срабатываний, предназначенное для вычисления гибкого хеша файла, признание которого в качестве относящегося к некоторой категории файлов является ложным срабатыванием, а также для добавления вычисленного гибкого хеша в базу данных исключений;

при этом значения гибких хешей двух похожих файлов совпадают.

4. Система по п. 3, в которой исправление ложного срабатывания метода, используемого для признания файла вредоносным, является трудоемкой операцией, если выполнено одно из условий:

исправления ложного срабатывания такого метода требует существенных временных затрат;

исправления ложного срабатывания такого метода требует существенного объема передаваемых по сети данных.

Документы, цитированные в отчете о поиске Патент 2019 года RU2706883C1

Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
Система и способ определения похожих файлов 2015
  • Антонов Алексей Евгеньевич
  • Романенко Алексей Михайлович
RU2614561C1

RU 2 706 883 C1

Авторы

Прокудин Сергей Викторович

Чистяков Александр Сергеевич

Романенко Алексей Михайлович

Даты

2019-11-21Публикация

2018-06-29Подача