ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к системам управления доступом пользователей в Интернет и защита пользователей от нежелательного контента в Интернете.
УРОВЕНЬ ТЕХНИКИ
В данный момент, существует множество способов предотвратить посещение детьми нежелательных сайтов, довольно большое количество программ, ограничивающих к ним доступ. В зависимости от степени владения родителями компьютером, можно найти как более сложные и детальные, так и более простые способы оградить ребенка от нежелательного контента и других рисков Сети, не ограничивая при этом его доступ к огромному количеству полезных образовательных и развлекательных ресурсов в Интернете.
Из патентной заявки US 20150180746 A1 (МПК H04L 12/26, опубл. 25.06.2015) известна система мониторинга и контроля доступа за мобильными устройствами, которая основана том, что на устройство ребенка устанавливается программный модуль (агент), осуществляющий перехват различных данных (данные контактов по телефонной связи, SMS, данные об использовании приложений и веб-сайтов, геолокацию устройства и др., а также по голосовых данных и изображений с видеокамеры). Эти данные передаются с устройства на специализированный сервер, где производится анализ этих данных и принимается решение о доступе ребенка к данному виду информации или о ее блокировке в соответствии с настройками, сделанными родителями. Решения, принятые на сервере, передаются на устройство ребенка.
Недостатком описанной выше системы является то, что требуется обязательная установка на устройство ребенка агента, выполняющего сбор информации. Этот агент должен обеспечить корректное встраивание во все контролируемые приложения. Это позволяет использовать данную систему только для ограниченного числа сценариев, например, для контроля за использованием устройства у ребенка, которому родитель может принудительно установить подобное 110 на телефон, планшет или компьютер.
В качестве решений на текущем уровне техники, локально решающих вопросы ограничения доступа пользователей к определенным веб-сайтам с помощью родительского контроля можно рассматривать такие патентные документы и публикации, например, раскрытые в следующих документах: US 20130040629 A1, US 20090213001 A1, RU 2446460 CT.
Таким образом, известные из уровня техники решения, предназначенные для ограничения доступа пользователей к определенным веб-сайтам с помощью родительского контроля, имеют ограниченную функциональность, поскольку в них не предусмотрена возможность определения тематики ресурсов непосредственно по тексту веб-страницы, которую запросил пользователь, с учетом лингвистических особенностей языка, на котором написана данная веб-страница, а также имеют недостаточную надежность защиты пользователей от нежелательного контента из сети.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание автоматической системы управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях, позволяющей в режиме реального времени осуществлять автоматизированную обработку и анализ содержания запрашиваемых пользователем веб-страниц, чтобы защитить от просмотра потенциально вредных и нежелательных материалов, а именно блокировать неподходящие и опасные веб-сайты.
Технический результат заключается в надежной защите пользователей от нежелательного содержания запрашиваемых веб-страниц, за счет автоматического определения тематик веб-страниц.
В предпочтительном варианте реализации заявлена гибридная автоматическая система управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях, содержащая устройства пользователей, фильтрующий сервер и внешний сервер, при этом в системе
устройства пользователей выполнены с возможностью формирования запросов на доступ к веб-странице в публичных компьютерных сетях;
фильтрующий сервер выполнен с возможностью получение запроса пользователя и извлечения из него адреса веб-страницы, к которой обратился пользователь;
сравнения извлеченного адреса со списками адресов, которые хранятся в базе запрещенных адресов веб-страниц и веб-сайтов, если адрес не присутствует в этом списке, фильтрующий сервер осуществляет перенаправление запроса пользователя к внешнему серверу и получает от него обратно ответ, содержащий запрошенную пользователем веб-страницу;
фильтрующий сервер осуществляет извлечение текстовой части полученной веб-страницы и производит автоматическое определение тематики этой веб-страниц, с учетом лингвистических особенностей языка, на котором написан текст веб-страницы, а также семантических связей слов в анализируемом тексте;
формируется список тематик, которым соответствует запрошенная пользователем веб-страница;
далее сравнивается полученный список тематик с правилами доступа для пользователя, определенными в базе профиля доступа, в котором зафиксированы критерии, определяющие, может ли пользователь получить доступ к документу, отнесенному к данному набору тематик;
по результатам сравнения блокируют или разрешают доступ к веб-странице.
В частном варианте извлеченную текстовую часть делят на отдельные слова и предложения, используя модули морфологии.
В частном варианте автоматически распознают язык текстовой части полученной веб-страницы.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
Фиг. 1 иллюстрирует общий вид заявленной системы;
Фиг. 2 иллюстрирует блок-схему работы системы управления доступом;
Фиг. 3 иллюстрирует логическую схему работы автоматического определения тематики документа;
Фиг. 4 иллюстрирует логическую схему работы гибридной автоматической системы управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях;
Фиг. 5 иллюстрирует пример выполнения вычислительного устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее изобретение направлено на обеспечение гибридной автоматической системы управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях.
Как представлено на Фиг. 1, заявленная система (100) включает устройства пользователей (110), фильтрующий сервер (120) и внешний сервер (130). В качестве устройств пользователей (110) может использоваться смартфон, планшет, персональный компьютер, ноутбук, игровая приставка, телевизор с функцией Smart-TV и т.п.
Пользовательское взаимодействие с внешними серверами в публичных компьютерных сетях осуществляется с помощью программных средств доступа к веб-сервисам - браузеров или приложений, взаимодействующих с удаленными веб-серверами по стандартным протоколам взаимодействия с веб-серверами. Для нормальной работы приложений не требуется дополнительная модификация программных средств доступа к веб-сервисам или установка дополнительных программных агентов на устройстве пользователя. Взаимодействие с этими приложениями осуществляется с помощью стандартных средств ввода/вывода (средства В/В), обеспечивающих распознавание команд с последующим их преобразованием в машиночитаемую форму и вывод информации пользователю.
К таким средствам В/В можно отнести, не ограничиваясь, клавиатуру, сенсорный дисплей, экран, монитор, динамики, проектор, пульт Д/У, манипулятор мышь, джойстик, трекбол, тачпад, световое перо, стилус и т.п.
Запросы пользователя к внешнему серверу обрабатываются фильтрующим сервером, блок-схема которого представлена на Фиг. 2.
Фильтрующий сервер включает в себя следующие компоненты. Блок получения запросов пользователя (209), осуществляющий получение или перехват сетевых обращений пользователя к внешним серверам, находящимся во внешней сети. Блок получает запрос пользователя на доступ к удаленному серверу и загрузку определенного документа с этого сервера.
Блок анализа адреса документа (203) выполняет сравнение адреса запрашиваемого документа со списками адресов страниц и сайтов, хранимых в Базе адресов страниц (204). В случае, если адрес принадлежит одной из категорий, доступ к которой запрещен для данного пользователя, обращение к серверу блокируется, а для пользователя формируется сообщение о блокировке доступа к запрошенного документа. Если адрес не присутствует в списке запрещенных страниц, то фильтрующий сервер осуществляет перенаправление запроса пользователя к внешнему серверу.
Блок взаимодействия с внешним сервером (202) формирует и отправляет запрос внешнему серверу (201). Внешний сервер обрабатывает данный запрос, формирует ответ, содержащий запрошенный пользователем документ, и передает его обратно к фильтрующему серверу. Данный ответ повторно проверяется Блоком анализа адреса документа (204) для обработки ситуации, когда внешний сервер выполнил перенаправление запроса на другой адрес. В случае, если ответ внешнего сервера содержит запрошенный пользователем документ, ответ передается в Блок автоматического определения тематики документа (205).
Блок автоматического определения тематики документа (205) выполняет задачу автоматического определения тематики документа. Данный блок получает на вход текст запрошенного документа, осуществляет извлечение текстовой части полученного документа и производит автоматическое определение тематики этого документа. При определении тематики документа учитываются лингвистические особенности словообразования в тексте на естественном языке, а также семантические связи слов в анализируемом тексте. Для выполнения процесса классификации используются данные из Базы классификации (206), содержащие рубрицированный набор терминов, словосочетаний и цитат, характерный для анализируемых тематик. Результат классификации вместе с исходным ответом внешнего сервера передаются в Блок проверки тематик по профилю доступа пользователя (207) для принятия решения о предоставлении пользователю доступа к данному документу.
Блок проверки тематик по профилю доступа пользователя (207) выполняет сравнение списка тематик, распознанных Блоком автоматического определения тематики (205), и сравнивает их с правилами доступа для данного пользователя, определенными в базе Профиль доступа (208). По результатам сравнения формируется решение о том, можно ли пользователю разрешить доступ к запрошенному документу или доступ к нему должен быть заблокирован.
Блок проверки тематик может функционировать совместно с системой идентификации и/или авторизации пользователей (внешней или внутренней), что позволяет в частных реализациях формировать различные правила фильтрации для разных групп пользователей. Система авторизации может поддерживать различные виды идентификации пользователей. В частных реализациях могут использоваться авторизации пользователя по логину и паролю, авторизация по аппаратному ключу или смарт-карте, идентификация пользователей по их адресу, точке подключения, геолокации и т.д.
Сформированное решение передается в Блок формирования ответа (210), в котором формируется финальный ответ, который передается пользователю. Если критерии, определенные в профиле доступа, позволяют пользователю просмотреть документы распознанных тематик, формируется решение о предоставлении пользователю доступ к документу. В случае если распознанный набор тематик не соответствует критериям профиля доступа, формируется решение о блокировке доступа. В этом случае доступ к документу блокируется.
В ряде случаев (если это определено в профиле доступа) фильтрующий сервер может выполнить частичную блокировку материалов документа. При обнаружении в документе блоков текста, не соответствующих правилам доступа, данные блоки текста могут быть удалены из документа или заменены на последовательность знаков, замещающих собой нежелательную часть текста. При этом остальные части документа, не содержащие недопустимых материалов, и их форматирования сохраняются.
Ответ, сформированный в Блоке формирования ответа (210), передается пользователю. В зависимости от тематики запрошенного документа ответ может содержать исходный документ (если документ соответствует профилю доступа пользователя), его модифицированную копию (если профилю не соответствуют только части запрошенного документа) или сообщение о запрещении доступа к запрошенному документу (в случае, если тематика документа не соответствует профилю доступа пользователя).
Правила работы фильтрующего сервера определяются его конфигурацией, включающей в себя Базу адресов страниц (204), Базу классификатора (206) и Профиль доступа (208). База адресов страниц и База классификатора в совокупности определяют набор тематик, распознаваемых системой, и правила классификации обрабатываемых документов. Профиль доступа определяет правила доступа пользователей к документам тематик, распознаваемых системой. Данные этих баз могут поставляться производителем системы или формироваться непосредственно оператором, выполняющим эксплуатацию фильтрующего сервера.
В частном варианте реализации База адресов и База классификатора позволяет настроить систему на распознавание тематик, нежелательных для показа несовершеннолетним. Ниже приведен пример тематик, содержание которых является нежелательными для просмотра и доступ к таким тематикам должен быть заблокирован:
- Порнография - материалы порнографического и эротического характера. Распространение таких материалов среди детей запрещено законодательно;
- Контент для взрослых - к данной категории прежде всего относятся материалы, эксплуатирующие интерес к сексуальной жизни, но при этом тематически, как правило, не принадлежащие к порнографии или эротике;
- Знакомства - знакомства в Интернете, в том числе знакомства для взрослых, интим-знакомства, услуги по организации знакомств;
- Нецензурная лексика - нецензурная и грубая лексика, в том числе шутки, анекдоты, в том числе художественные произведения, содержащие нецензурную лексику;
- Наркотики - информация о наркотиках, в том числе рецепты приготовления и употребления, о неправильном использовании лекарственных препаратов, новости о преступлениях, связанных с наркотиками, а также материалы о вреде наркотиков, о борьбе с наркоманией и т.п.;
- Алкоголь - пропаганда алкоголя, рецепты и способы приготовления и употребления алкогольных напитков, новости о происшествиях с участием лиц, находящихся в состоянии алкогольного опьянения;
- Пропаганда курения - пропаганда курения, рецепты приготовления и способы употребления табачных изделий, материалы о борьбе с курением;
- Азартные игры - азартные игры и лотереи, игры на реальные или виртуальные деньги, информация и рекомендации по размещению ставок, участию в лотереях, азартных играх, виртуальные казино и рискованные предприятия, спортивные пари и тотализаторы;
- Самоубийства - Информация о самоубийствах, включая новости, пропаганду, способы, истории и т.п., которая потенциально может побудить детей к совершению действий, представляющих угрозу их жизни;
- Насилие, жестокость - информация о насильственных действиях против человека или животных, насильственная преступность, сексуальное насилие, жестокие компьютерные игры, новости о насилии, а также материалы, способные вызвать страх, ужас или панику;
- Экстремизм, национализм - категория, прежде всего, предназначена для блокирования экстремистских материалов, распространение которых на территории Российской Федерации запрещено;
- Взрывчатые вещества, оружие - материалы с информацией об изготовлении взрывчатых веществ и оружия; и в первую очередь - о способах их изготовления в домашних условиях;
- Секты/эзотерика - религиозные секты, сайты сект и информация о сектах, в том числе псевдохристианские, псевдовосточные, неоязыческие секты, психокульты и др. В Методических рекомендациях Министерства образования информация такого рода названа не совместимой с задачами образования;
- Учебные работы - готовые домашние задания, шпаргалки, рефераты, курсовые и другие виды учебных работ. Категория блокирует материалы, которые дают возможность учащимся списать или купить готовые учебные работы вместо того, чтобы выполнить их самостоятельно.
В частной реализации система может быть настроена на присвоение веб-страницам возрастных категорий (0+/6+/12+/16+/18+) и фильтрацию в соответствии с данными возрастными категориями.
Структура и логика работы Блока автоматического определения тематики документа подробнее рассматривается на Фиг. 3. В Блоке автоматического определения тематики документа с помощью Модуля выделения текста (302) выделяют текстовую часть документа из полученного документа. Данный модуль анализирует полученное в электронном виде представление документа и определяет его формат: например, документ в формате HyperText Markup Language (HTML), в формате офисного документа или структурированный ответ веб-сервера в формате JavaScript Object Notation (JSON) и т.п. В зависимости от распознанного типа документа вызывается подходящий Модуль разбора соответствующего формата (303). Результатом работы является текстовое представление документа с сохранением естественного разделения текста на блоки, заголовки, разделы и абзацы. Также сохраняется информация о визуальном выделении в тексте документа отдельных слов и блоков.
Следующим этапом обработки является разделение текста на отдельные слова и предложения (304). При выделении слов используются Модули морфологии (306), позволяющие учесть лингвистические особенности словообразования в тексте, а также определить параметры словоформы (склонение, падеж, число), в которой в тексте употребляется данное слово.
Далее производится лемматизация текста (305), при которой текст преобразуется в последовательность числовых идентификаторов, каждый из которых однозначно идентифицирует нормальную форму каждого слова в тексте. Для этой операции также используются Модули морфологии (306). При каждом идентификаторе также сохраняется информация о положении слова в тексте и предложении, информация о форме, в которой использовано данное слово и информация о выделении слова. Данная информация используется для учета связей внутри предложения, используемой при расчете степени соответствия тематики анализируемому тексту (309).
После этого в цифровом образе текста производится поиск слов, словосочетаний и цитат (307), включенных в базу классификатора. База классификатора (308) включает набор поисковых запросов, каждый из которых представляет текстовый фрагмент, характерный для употребления в текстах соответствующей тематики. Набор тематик в базе классификатора, совместно с набором сопоставленных им запросов формируют семантический образ набора тематик, распознаваемых с помощью данного классификатора. Результатом поиска является список терминов из базы классификатора, найденных (полностью или частично) в данном тексте.
По списку найденных запросов производится оценка степени соответствия анализируемого текста набору тематик из базы классификатора (309). Данная оценка учитывает информацию о полном и частичном обнаружении текста запроса из базы в тексте анализируемого документа, частоты слов в запросах, соответствие форм и семантических связей между словами запроса и в анализируемом тексте, наличие выделения слов найденных терминов, наличие в тексте характеристических и второстепенных терминов, а также наличие в тексте терминов из тематик близкого содержания. В результате формируется числовая оценка степени соответствия анализируемого текста набору тематик, представленных базы классификатора.
На последнем этапе выполняется отбор набора тематик с наибольшей степенью соответствия анализируемому тексту (310). Список отобранных тематик становится результатом процедуры автоматического определения тематики документа, выполняемой блоком определения тематики.
Структура и логика работы гибридной автоматической системы управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях подробнее рассматривается на Фиг. 4.
Система получает запрос пользователя (402) на доступ к веб-странице в публичных компьютерных сетях. Блок получения запросов пользователя (209) осуществляет получение или перехват сетевых обращений пользователя к внешним серверам, находящимся во внешней сети, и извлекает адрес страницы, к которой обратился пользователь (403).
После этого выполняется проверка (404), присутствует ли адрес запрошенной страницы в списке нежелательных страниц или сайтов. Данная проверка выполняется в Блоке анализа адреса документа (203). Если адрес страницы присутствует в списке нежелательных страниц, то обработка запроса прерывается, и выполнятся формирование сообщения пользователю о блокировке доступа к странице (411).
В случае, если страница не присутствует в списке нежелательных страниц, с помощью Блока взаимодействия с внешним сервером (202) производится запрос к удаленному веб-серверу (405) и осуществляется получение его ответа (406).
После этого управление еще раз передается в Блок анализа адреса документа (203), где проверяется (407), присутствует ли адрес страницы в списке разрешенных страниц и/или сайтов. Если страница присутствует в этом списке, ответ веб-сервера немедленно транслируется пользователю (412-413).
В случае, если адрес страницы не присутствует в списке разрешенных страниц, обработка продолжается и из ответа веб-сервера извлекается текстовая часть анализируемой веб-страницы (408) и производится определение тематики страницы (409). Данные операции выполняются в Блоке автоматического определения тематики (205). В результате формируется список тематик, которым соответствует запрошенная пользователем веб-страница.
Далее на основе полученного списка тематик выполняется проверка соответствия тематики запрошенной веб-страницы профилю доступа пользователя (410). Данная операция производится в Блоке проверки тематик по профилю доступа пользователя (207). Если тематика страницы соответствует профилю доступа, Блоком формирования ответа (210) выполняется трансляция пользователю исходного ответа веб-сервера (412- 413). В случае несоответствия тематики, выполняется формирование сообщения о блокировке (411), которое также передается пользователю.
На Фиг. 5 представлен пример исполнения вычислительного устройства (500) для реализации функционала по управлению доступом пользователей в Интернет и защита пользователей от нежелательного контента в Интернете.
В общем случае устройство (500) содержит такие компоненты, как: один или более процессоров (501), по меньшей мере один блок оперативной памяти (502), средство хранения данных (503), интерфейсы ввода/вывода (504), средство В/В (505), средство сетевого взаимодействия (506), универсальную шину (510).
Процессор (501) устройства выполняет основные вычислительные операции, необходимые для функционирования системы (100) или функционала одного или более ее компонентов. Процессор (501) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (502).
Память (502), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (503) может выполняться в виде HDD, SSD дисков, рейд массива, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средства (503) позволяют выполнять долгосрочное хранение различного вида информации, например, истории обработки поисковых запросов, идентификаторов пользователей и т.п.
Интерфейсы (504) представляют собой стандартные средства для подключения и работы с серверами, например, USB, RS232, RJ45, LPT, СОМ, HDMI, PS/2, Lightning, Fire Wire и т.п.
Выбор интерфейсов (504) зависит от конкретного исполнения устройства (500), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (505) может использоваться: клавиатура, джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Компоненты системы соединяются посредством средств сетевого взаимодействия (506), которые выбираются из средств, предназначенных для реализации процесса коммуникации между различными блоками посредством проводной и/или беспроводной связи, в частности, такими типами связи могут являться: GSM, GPRS, LTE, 5G, WLAN, WMAN, Wi-Fi, Bluetooth, BLE, спутниковая связь, NFC, Ethernet, USB, IrDa, Lightning, UART, CAN и т.п.
Взаимодействие всех компонентов устройства производится путем обмена данными через универсальную шину (510).
Система управления доступом сохраняются на Средстве хранения данных (503) в виде последовательности команд и загружаются в Память (502) при запуске устройства. Процессор (501) выполняет последовательность команд системы управления доступом и осуществляет взаимодействие с пользователями системы и внешними серверами посредством интерфейсов (506). Взаимодействие с администратором системы, выполняющим настройку и управление работой системы управления доступом, осуществляется через средства В/В данных (504 и 505).
Данные, необходимые для работы системы управления доступом, могут быть сохранены на Средстве хранения данных (503) или к ним может быть предоставлен удаленный доступ через набор интерфейсов (506).
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
Изобретение относится к управлению доступом пользователей в Интернет и защите пользователей от нежелательного контента в Интернете. Технический результат – повышение надежности защиты пользователей от нежелательного содержания запрашиваемых веб-страниц за счет автоматического определения тематик веб-страниц. Гибридная автоматическая система управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях, содержащая устройства пользователей, фильтрующий сервер и внешний сервер, при этом в системе устройства пользователей выполнены с возможностью формирования запросов на доступ к веб-странице в публичных компьютерных сетях, фильтрующий сервер выполнен с возможностью получения запроса пользователя и извлечения из него адреса веб-страницы, к которой обратился пользователь, сравнения извлеченного адреса со списками адресов, которые хранятся в базе запрещенных адресов веб-страниц и веб-сайтов, если адрес не присутствует в этом списке, фильтрующий сервер осуществляет перенаправление запроса пользователя к внешнему серверу и получает от него обратно ответ, содержащий запрошенную пользователем веб-страницу, фильтрующий сервер осуществляет извлечение текстовой части полученной веб-страницы и производит автоматическое определение тематики этой веб-страницы, формируется список тематик, которым соответствует запрошенная пользователем веб-страница, далее сравнивается полученный список тематик с правилами доступа для пользователя, по результатам сравнения блокируют или разрешают доступ к веб-странице. 2 з.п. ф-лы, 5 ил.
1. Гибридная автоматическая система управления доступом пользователей к информационным ресурсам в публичных компьютерных сетях, содержащая устройства пользователей, фильтрующий сервер и внешний сервер, при этом в системе устройства пользователей выполнены с возможностью формирования запросов на доступ к веб-странице в публичных компьютерных сетях;
фильтрующий сервер выполнен с возможностью
получения запроса пользователя и извлечения из него адреса веб-страницы, к которой обратился пользователь;
сравнения извлеченного адреса со списками адресов, которые хранятся в базе запрещенных адресов веб-страниц и веб-сайтов, если адрес не присутствует в этом списке, фильтрующий сервер осуществляет перенаправление запроса пользователя к внешнему серверу и получает от него обратно ответ, содержащий запрошенную пользователем веб-страницу;
фильтрующий сервер осуществляет извлечение текстовой части полученной веб-страницы и производит автоматическое определение тематики этой веб-страниц, с учетом лингвистических особенностей языка, на котором написан текст веб-страницы, а также семантических связей слов в анализируемом тексте;
формируется список тематик, которым соответствует запрошенная пользователем веб-страница;
далее сравнивается полученный список тематик с правилами доступа для пользователя, определенными в базе профиля доступа, в котором зафиксированы критерии, определяющие, может ли пользователь получить доступ к документу, отнесенному к данному набору тематик;
по результатам сравнения блокируют или разрешают доступ к веб-странице.
2. Система по п. 1, характеризующаяся тем, что извлеченную текстовую часть делят на отдельные слова и предложения, используя модули морфологии.
3. Система по п. 1, характеризующаяся тем, что автоматически распознают язык текстовой части полученной веб-страницы.
Сборная железобетонная крепь, преимущественно для трапецеидальной выработки | 1955 |
|
SU105758A1 |
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
US 8626930 B2, 07.01.2014 | |||
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
Авторы
Даты
2019-08-21—Публикация
2018-07-12—Подача