Область техники, к которой относится изобретение
Настоящее изобретение относится к компьютерным и сетевым технологиям, а именно к поисковым системам в Интернете, целью которых является загрузка, анализ, сохранение и индексация веб-страниц, содержащих в себе целевой контент, представляющий собой, например, мультимедийный поток реального времени или так называемый «живой» поток или «живой» контент.
Более конкретно, изобретение относится к технологии перепроверки веб-страниц, предварительно найденных поисковыми роботами в сети Интернет, на которых размещены мультимедийные потоки реального времени. При этом перепроверка осуществляется по расписанию, определяющему порядок (с использованием коэффициента значимости для страницы) и период (частоту) перепроверки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны быть перепроверены за определенный период с целью хранения в поисковой системе актуальных данных для дальнейшего предоставления пользователю возможности поиска.
Изобретение может быть применено как для поиска специфических медиа-объектов (он-лайн радио, потоков с веб-камер, видеопотоков и др.), так и для поиска объектов в виде ссылок на внешние источники определенного вида, сигнализирующие о наличии целевого аудио и/или видео контента реального времени, например, схемы передачи данных - rtmp, rtsp, mms и т.д.
Предшествующий уровень техники
В настоящее время в мире широко известны и массово используются поисковые машины, которые обеспечивают пользователям возможность осуществлять в Интернете поиск веб-страниц, содержащих нужную для них информацию по вводимым ими поисковым запросам. Популярными поисковыми машинами являются, в частности, Yahoo!, Google, Yandex, Rambler.
Общий принцип работы известных поисковых машин основан на сборе информации по веб-страницам в Интернете, ее обработке и индексировании для дальнейшего предоставления пользователю возможности поиска необходимой информации в том объеме, который был обработан поисковой машиной. В состав каждой поисковой машины входят поисковые роботы, целью которых является сканирование веб-страниц Интернета и их загрузка. После обращения поискового робота по указанному адресу веб-страницы он просматривает, например, http-заголовки, проверяя, когда в последний раз была модифицирована эта страница. Если поисковый робот уже просматривал данную веб-страницу, а дата последней модификации страницы изменилась, тогда он загрузит ее для обработки вновь, если же просматриваемая им веб-страница вообще не просматривалась, тогда она сразу будет загружена для обработки.
Веб-страницы, загруженные поисковым роботом, обрабатываются соответствующими программно-аппаратными компонентами поисковой машины. Целью такой обработки является анализ страницы: как правило, вначале из веб-страницы извлекается заголовок (Title), поскольку он несет в себе общую информацию о веб-странице. Далее извлекается и обрабатывается весь текст, который так или иначе выделен, например, курсивом, подчеркиванием или размером (в частности, размер его шрифта больше размера шрифта основного текста), поскольку поисковая машина предполагает, что это ключевые места в тексте и на них сделан акцент.
Некоторые поисковые машины просматривают метатеги веб-страниц, предполагая, что в них имеются ключевые слова или словосочетания страницы. В то же время, поскольку в содержимом метатегов зачастую дается недостоверная информация, некоторые поисковые машины не используют их для определения ключевых слов страницы.
Также весь текст веб-страницы подвергается полной обработке. Например, те поисковые машины, которые не используют метатеги для определения ключевых слов веб-страницы, ищут ключевые слова путем выполнения проверки на предмет того, как часто встречается то или иное слово в тексте, и для этого из текста удаляются все "стоп-слова", такие как <а>, <он>, <ты>, <в>, а также все символы и цифры, поскольку они создают шум при поиске ключевых слов.
Наконец, обработанный текст веб-страницы индексируется поисковой системой надлежащим образом, так чтобы предоставить пользователю посредством веб-интерфейса (например, браузера) возможность удобного поиска по базе данных поисковой машины на основе ввода поисковых запросов.
Более подробно структура и базовые принципы функционирования поисковых машин изложены, в частности, в "The anatomy of a large-scale hypertextual Web search engine", Brin, S., Page, L., Computer Networks and ISDN Systems, 30(1-7): 107-117, 1998; "Effective Web Crawling", Castillo, C., PhD thesis, University of Chile, 2004; "Crawling the Web". Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004.
Однако построенные таким образом поисковые машины перестают отвечать требованиям сегодняшнего дня в силу все увеличивающегося объема и разнообразия информации, представляемой в Интернете. В частности, при проведении такого основывающегося на тексте поиска веб-страниц, где содержались бы интересующие пользователя картинки или видео, выдается обширный результирующий список веб-страниц, в котором доля страниц, действительно отвечающих требованиям и запросам пользователя, оказывается невелика, поскольку в данный список, в силу специфики описываемых поисковых машин, также попадут те веб-страницы, которые содержат упоминания, обсуждения, рекламу, отзывы и т.п., касающиеся требующихся картинок или видео, но непосредственно не содержат самих требующихся картинок или видео. По мере же роста совокупного объема и разнообразия веб-контента в Интернете доля релевантных веб-страниц при такого рода специфических поисках будет лишь снижаться, и, как следствие, пользователи вынуждены строить хитроумные, скорее всего неоднократные поисковые запросы и тратить время на просеивание больших массивов результатов поиска.
Этой проблемой обуславливается актуальность создания специализированных (так называемых вертикальных) поисковых систем, строго ориентированных на поиск по тематическим ресурсам Интернета, включающих систему повторной проверки найденных объектов по специальному расписанию.
В частности, из уровня техники известны технические решения, обеспечивающие построение расписаний повторной проверки веб-страниц с целью хранения и индексации актуальных данных, размещенных в сети Интернет (патент на изобретение US 7886042 B2). Данное решение относится к поисковым системам, выполненным с возможностью загрузки веб-страниц, их дальнейшим сохранением в базе данных и индексацией с целью предоставления конечному пользователю возможности поиска по сформированной базе данных. Повторная проверка веб-страниц приводит к сохранению в индексе актуальных данных. Поскольку объем данных в сети Интернет является огромным, задача повторной проверки требует поиска более оптимальных решений с целью экономии ресурсов и выявления целевых страниц для перепроверки.
Наиболее близким к заявляемому техническому решению является способ и система для повторной проверки веб-документов по расписанию, представленные в патенте на изобретение US 8386459 B1 - «Scheduling a recrawl». В изобретении представлен способ, обеспечивающий построение расписания повторной проверки веб-документов, основываясь на информации о самом проверяемом документе. Согласно данному изобретению для построения расписания перепроверки веб-документа определяют частоту изменения самого веб-документа на основании истории его предыдущей проверки, что позволяет определить временной интервал, в рамках которого веб-документ изменялся, и, основываясь на данной информации, вычисляют оптимальный временной интервал для его перепроверки.
Однако известное решение основывается на перепроверке всех возможных веб-документов в сети Интернет. В данном решении не учитывается возможность исключения из проверки нецелевых данных. Также подобное решение требует хранения истории предыдущей проверки веб-документов, что является высокозатратным решением, учитывая имеющиеся объемы данных в Интернете. Более того, в известном техническом решении отсутствует возможность принятия решения о перепроверке динамически, так как построение расписания перепроверки основано на истории предыдущей проверки страницы.
Сущность изобретения
Задачей настоящего изобретения является создание способа и системы, ориентированных на выявление веб-страниц со ссылкой(ами) на мультимедийный поток реального времени по итогам проверки массива веб-страниц по определенному расписанию.
Техническим результатом изобретения является повышение эффективности (в т.ч. производительности) обнаружения мультимедийных потоков реального времени, ссылки на которые содержатся в проверяемых веб-страницах, а также снижение количества ресурсоемких операций (оптимизация используемых вычислительных и сетевых ресурсов), применяемых при проверке веб-страниц, которые такой контент не содержат, а также сокращение времени на сохранение и поддержание данных в актуальном состоянии, при повышении достоверности получаемых результатов.
Таким образом, заявляемый способ может быть реализован со значительно меньшими затратами, в т.ч. временными (по сравнению с известными аналогами), необходимыми для поиска веб-страниц с целевым контентом при повышении степени релевантности обнаруженных веб-страниц на наличие в них целевого контента.
При использовании заявляемого способа перепроверки веб-страниц результаты, выдаваемые поисковой программой, практически не содержат информационного шума. Таким образом, получаемые результаты максимально соответствуют заданному пользователем критерию поиска мультимедийного контента реального времени и содержат только достоверное информационное наполнение, благодаря чему пользователь тратит меньше времени на фильтрацию результатов поиска.
Поставленная задача решается тем, что способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно изобретению, осуществляют следующим образом:
- загружают веб-страницы для проверки по расписанию, определяющему период и порядок проверки ссылок на веб-страницы,
- анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей (или, другими словами, сохраняют взаимосвязь ссылок на веб-страницы и ассоциированных с ними ссылок на мультимедийные потоки),
- при выявлении ссылок на мультимедийные потоки, отсутствующих в БД потоков, добавляют в БД потоков, после чего осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений,
- при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
В заявляемом изобретении веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей.
Загрузка веб-страницы по ссылке может быть осуществлена посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.
Период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, может быть выбран из интервала значений 2-5 минут.
Состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.
БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.
В качестве характеристик потока могут быть использованы описание мультимедийного потока и технические характеристики потока. В качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть. В качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.
По итогам анализа загруженных веб-страниц дополнительно определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки. В случае, если недоступная веб-страница находится в данном состоянии в течение недели, ссылку на данную веб-страницу исключают из расписания проверки.
В одном из вариантов реализации для каждой ссылки на веб-страницу может быть определен коэффициент значимости (К), который может быть выбран равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки может быть вычислен исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки. При этом загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента (К).
Поставленная задача решается также тем, компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени включает:
БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки,
БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков,
БД взаимосвязей, хранящую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока,
модуль загрузки данных, выполненный с возможностью загрузки веб-страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки,
модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей,
модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков,
модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей,
модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
Модуль загрузки данных также выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки. Дополнительно модуль загрузки данных выполнен с возможностью определения доступности веб-страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания. В случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием выполнен с возможностью исключения ссылки на данную веб-страницу из БД расписания.
Модуль проверки потоков также выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, от 2 до 5 минут. Модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном.
В БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока; в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть; в качестве технических характеристик потока присутствует битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.
Модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания. При этом модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К.
Отличительной особенностью заявляемого технического решения является то, что критерием для перепроверки веб-страницы (или веб-документа) является не сама веб-страница, а связь данной веб-страницы со ссылкой на мультимедийный поток реального времени (или информация о принадлежности мультимедийного потока к веб-странице). Критерием для проверки веб-страницы является наличие в данной странице ссылки на мультимедийный сервер, который вещает мультимедийный поток в реальном времени. Более того, заявляемое решение позволяет динамически исключать или включать из проверки веб-страницы, которые ссылаются на мультимедийные потоки в случае изменений данных в типе, состоянии или характеристиках потока, например, если мультимедийный поток реального времени отключается, то все веб-страницы, ссылающиеся на данный поток, исключаются из повторной проверки. Данное решение основывается не на динамике изменений данных веб-страниц, а на независимом ресурсе, таком как мультимедийный сервер, изменения в котором приводят к перепроверке веб-страницы, ссылающейся на данный мультимедийный ресурс.
Описание чертежей
Изобретение поясняется чертежами, где на фиг.1 представлена блок-схема заявляемой системы проверки веб-страниц на наличие в них мультимедийного потока реального времени; на фиг.2 представлена блок-схема, на которой отображена последовательность операций вычисления параметров проверки веб-страниц; на фиг.3 представлено отображение связи ссылки на веб страницу со ссылками на мультимедийные потоки; на фиг.4 представлен пример связи ссылок на веб-страницы и ссылок на потоки; на фиг.5 - пример связи данных после повторной проверки; на фиг.6 представлен алгоритм сохранения потоков в базе данных потоков; на фиг.7 представлено отображение изменений в структуре связей;
Позициями на фиг.1 обозначены: 1 - схематическое представление движения данных между модулями системы; 2 - модуль загрузки данных, получающий ссылки на веб-страницы из базы данных расписания 9; 3 - модуль управления данными, который создает и модифицирует ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 4 - база данных потоков, которая содержит ссылки на мультимедийные потоки и всю информацию о них; 5 - модуль проверки потоков, который определяет тип, статус и характеристики мультимедийного потока; 6 - база данных взаимосвязей, которая хранит актуальные ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 7 - модуль управления потоками, который выявляет изменения в типе, состоянии или характеристиках потоков в базе данных потоков 4 с последующей записью об изменениях в базе данных взаимосвязей 6; 8 - модуль управления расписанием, который вносит изменения в базу данных расписания 9 посредствам добавления в нее новых записей или посредствам модификаций уже существующих записей; 9 - база данных расписания, которая содержит список ссылок на веб-страницы с установленным для каждой ссылки периодом ее проверки и порядком проверки.
Подробное описание изобретения
Заявляемое изобретение позволяет оптимизировать расписание проверки веб-страниц, на которых находится ссылки на мультимедийные потоки реального времени, посредством вычисления оптимального периода проверки. Изменение периода проверки веб-страницы основано на изменении:
- типа мультимедийного потока - является ли ссылка на мультимедийный поток потоком реального времени; и/или
- состояния мультимедийного потока - поток находится во включенном или выключенном состоянии; и/или
- характеристик или описания мультимедийного потока реального времени.
Основанием для вычисления периода проверки веб-страницы выступают мультимедийные потоки реального времени, размещенные на веб-странице.
Поисковые роботы находят в Интернете веб-страницы, на которых размещены мультимедийные потоки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны повторно проверяться за определенный период с целью хранения в поисковой системе актуальных данных, связанных с проверяемой веб-страницей, для дальнейшего предоставления пользователю возможности поиска. Для перепроверки веб-страниц используется расписание, которое находится в базе данных расписания 9, в котором задается коэффициент значимости для проверяемой ссылки на веб-страницу, а также период проверки и время окончания последней проверки и начала следующей проверки. Все ссылки на веб-страницы, содержащие мультимедийные потоки, сохраняются в системе в базе данных расписания 9. Сами потоки, расположенные на странице, подвергаются проверке с целью определения их принадлежности к мультимедийным потокам реального времени. Целью повторной проверки веб-страниц является поиск на веб-страницах новых ссылок на мультимедийные потоки и подтверждение наличия на веб-странице ссылок на мультимедийные потоки, найденных при предыдущей проверке веб-страницы, а также актуализация доступности страницы и содержащейся на ней информации, отображающей ее суть.
Модуль загрузки данных 2 получает список ссылок на веб-страницы, который необходимо проверить в соответствии с расписанием из БД расписания 9. Загруженные страницы модулем загрузки данных 2 подвергаются анализу, в рамках которого осуществляется поиск мультимедийных ссылок на потоки. Помимо ссылок из страницы извлекается сопутствующая к мультимедийным потока информация в виде текстового описания, которое в дальнейшем используется как часть описания мультимедийного потока. Полученная информация загруженной и проанализированной веб-страницы и найденных в ней ссылках на мультимедийные потоки передается модулю управления данными 3. Модуль управления данными сохраняет найденные ссылки на мультимедийные потоки в базе данных потоков 4. Для всех переданных ссылок на мультимедийные потоки модуль управления данными получает информацию из базы данных потоков 4 о текущем типе мультимедийного потока для отметки в базе данных взаимосвязей 6. После получения информации для найденных ссылок на мультимедийные потоки модуль управления данными 3 начинает проверять и вносить изменения в базу данных взаимосвязей 6:
- проверяет предыдущую ассоциативную связь данной ссылки на веб-страницу и ссылок на мультимедийные потоки в базе данных взаимосвязей 6;
- вносит изменения в ассоциативные связи между ссылкой на веб-страницу и ссылками на мультимедийные потоки на основании новых ассоциативных связей межу ссылкой на веб-страницу и найденными на веб-странице ссылками на мультимедийные потоки в базу данных взаимосвязей 6;
- сохраняет изменения или в случае отсутствия изменений подтверждает предыдущую ассоциативную связь в базе данных взаимосвязей 6.
Все мультимедийные потоки, расположенные в базе данных потоков 4, подвергаются проверке модулем проверки потоков 5. Проверке подвергаются все новые потоки с целью выявления мультимедийных потоков реального времени, а также все мультимедийные потоки, которые определены как потоки реального времени и находятся в рабочем (включенном) состоянии либо находились во включенном состоянии, но в данный момент выключены. Регулярная проверка мультимедийных потоков, находящихся в статусе реального времени, осуществляется с целью хранения актуальной информации о потоках, в рамках которой определяют:
- тип мультимедийного потока, с целью подтверждения принадлежности ссылки на поток к мультимедийным потокам реального времени;
- статус мультимедийного потока (например, сервер, передающий мультимедийный поток, находится во включенном состоянии или выключенном);
- технические характеристики и описание мультимедийного потока, а также отслеживаются их изменения.
Модуль управления потоками 7 получает из базы данных потоков 4 список мультимедийных потоков реального времени, у которых есть изменения в типе, и/или статусе, и/или технических характеристиках, и/или описании. Далее модуль управления потоками 7 делает отметку об изменениях в базе данных взаимосвязей 6 для всех ссылок на веб-страницы, которые имеют ассоциативные связи с полученным списком мультимедийных потоков. Следует отметить, что с одной ссылкой на мультимедийный поток может быть связанно множество ссылок на веб-страницы. Модуль управления расписанием 8 извлекает список ссылок на веб-страницы из базы данных взаимосвязей 6, для которых есть отметка об изменениях в мультимедийных потоках реального времени. Для полученных ссылок на веб-страницы определяется степень изменений в потоке, выполняется вычисление коэффициента значимости, а также вычисление периода проверки. На основании полученных данных происходит вычисление времени начала следующей проверки. Модуль управления расписанием 8 сохраняет полученные результаты в базу данных расписания 9 для полученного списка ссылок на веб-страницы, изменяя время начала следующей проверки ссылок на веб-страницы, а также добавляет или исключает ссылки на веб-страницы из повторной проверки. Ссылки, доступные для загрузки по расписанию 9, отправляются на загрузку и анализ в модуль загрузки данных 2.
Ниже представлено более подробное описание структуры модуля проверки потоков 6 и алгоритма его работы.
Алгоритм проверки ссылок на потоки из БД потоков на наличие в них мультимедийных потоков реального времени включает следующие этапы:
- подключение к медиасерверу по ссылке,
- получение (загрузку) от медиасервера информации о медиапотоке, включающей характеристики потока в заданном формате и/или часть потока, предназначенную для воспроизведения на клиентской стороне,
- анализ полученной информации о медиапотоке, заключающийся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени,
при этом в качестве признаков используют любую последовательность символов и/или байт в медиапотоке, на основе которых делают вывод о том, что медиапоток соответствует критерию мультимедийного потока реального времени («живой» поток).
В качестве информации о медиапотоке дополнительно могут быть использованы заголовки протокола.
При получении от сервера последовательности байт их анализ осуществляют в непрерывном режиме до получения данных, предназначенных непосредственно для воспроизведения, и при получении сообщения с информацией о том, что поток является записанным, делают вывод о том, что проверяемый поток не является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.
В качестве признаков могут быть использованы:
- параметр, характеризующий продолжительность потока (Duration), и/или
- параметр, характеризующий позицию, с которой начинается воспроизведение в потоке (Start Time), и/или
- параметр возможности перемотки в рамках передаваемого потока (Seekable).
В случае, если значение параметра, характеризующего продолжительность потока (Duration), является отрицательным, или нулевым, или больше заданного предела, осуществляют анализ значения параметра возможности перемотки в рамках передаваемого потока (Seekable), в случае, если он указывает на запрет перемотки в потоке, делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.
В случае, если значение параметра, характеризующего продолжительность потока (Duration), находится в интервале от нуля до заданного предела, осуществляют повторное подключение к медиасерверу и определение значений данного параметра и параметра, характеризующего позицию, с которой начинается воспроизведение (Start Time), которые сравнивают со значениями аналогичных параметров, полученных при первоначальном подключении, и в случае несовпадения хотя бы одного из значений параметров делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени; в случае, если значения параметров совпадают, осуществляют поиск признаков мультимедийного потока в заголовках ответа сервера, при обнаружении которых делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.
Установленный предел значений параметра, характеризующего продолжительность потока, подобран экспериментально и может находиться в интервале значений от 5 до 9 часов.
В случае, если от сервера не получены значения параметров продолжительности потока и/или позиции воспроизведения, делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.
Модуль проверки потоков для реализации описанного выше алгоритма содержит:
- мультимедийный клиент, выполненный с возможностью подключения к медиасерверу по ссылке и загрузки информации о медиапотоке, включающей характеристики потока в заданном формате, и/или определенной части потока, предназначенной для воспроизведения на клиентской стороне, и/или информации о заголовках протоколов, полученных от сервера,
- блок анализа информации о медиапотоке, который выполнен с возможностью проверки полученной информации о медиапотоке, заключающейся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени, где в качестве признаков использована любая последовательность символов или байт в медиапотоке, на основе которых делают вывод о том, что медиапоток соответствует критерию «живой» поток.
В качестве мультимедийного клиента могут быть использованы такие приложения как MPlayer или VLC media player, а также любой другой продукт, в том числе самостоятельно разработанный мультимедийный клиент, выполненный с возможностью коммуникации, обработки и предоставления необходимой информации.
Таким образом, технология определения типа потока, является ли он потоком реального времени или статическим файлом фиксированной продолжительности, заключается в анализе метаинформации, получаемой из самого медиапотока. Медиаклиент подключается к медиасерверу, после чего получает от него метаинформацию о потоке в заданном формате, а также определенную часть потока, предназначенную для воспроизведения на клиентской стороне. Полученная метаинформация, а также переданный буфер медиапотока проходят стадию проверки с целью определения типа потока. Основная цель проверки заключается в анализе данных и поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени. При этом характерной чертой «живого» потока (контента) является невозможность выполнения в отношении него «перемотки вперед» с помощью средств клиентского воспроизводящего приложения.
Типичными примерами «живого» AV контента в Интернете являются телевизионное (ТВ) и радиовещание эфирных студий, специальное Интернет-вещание профессиональных и любительских студий, изображение с веб-камеры потокового вещания.
Ниже более детально представлен принцип построения расписания 9.
Для ссылки на веб-страницу модуль управления расписанием 8 определяет изменения в потоке. Если присутствуют изменения в характеристиках потока, которые могут включать в себя такие данные, как описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть, а также изменения в технических характеристика потока, таких как битрейт, формат, информация об аудио или видео кодеках или любых других технических характеристиках потока, тогда для проверяемой ссылки на поток устанавливается время начала следующей проверки, равное текущему времени. Установка времени начала следующей проверки ссылки на веб-страницу, равное текущему времени, приводит к тому, что ссылка будет проверена немедленно. Если для ссылки на мультимедийный поток реального времени изменяется тип или состояние, которое может принимать два значения, поток включен или поток выключен, тогда модуль управления расписанием 8 изменяет коэффициент значимости, период и время следующей проверки ссылки на веб-страницы. Если мультимедийный поток находится во включенном состоянии, тогда коэффициент значимости ссылки на веб-страницу увеличивается на единицу, если же поток был включен, а теперь он выключен, коэффициент значимости уменьшается на единицу. Например, для одной ссылки на веб-страницу может быть более одного «работающего» потока, если их будет три, тогда коэффициент значимости соответственно будет равен трем. В частном случае коэффициент значимости полностью соответствует количеству ссылок на мультимедийные потоки реального времени, находящихся на веб-странице. Условия для определения правил выбора коэффициента значимости для проверки ссылки на веб-странице могут не зависеть от количества ссылок на мультимедийные потоки реального времени, находящихся по указанному адресу веб-страницы, и, как следствие, могут быть определены другими условиями выбора коэффициента значимости. Если у проверяемой ссылки на веб-страницу имеется, например, две ссылки на мультимедийные потоки реального времени, и у обеих ссылок на потоки есть изменения в состоянии, например, потоки перестали работать (находятся в выключенном состоянии), в таком случае коэффициент значимости проверки ссылки на веб-страницу будет равен нулю, что приведет к исключению страницы из проверки. На основании коэффициента значимости осуществляется вычисление периода проверки ссылки на веб-страницу, а также устанавливается последовательность загрузки веб-страниц в модуле загрузки 2, для которых наступило время перепроверки. Правило расчета периода проверки может меняться в зависимости от событий, являющихся причиной для перепроверки веб-страницы. В частном случае для каждой ссылки на веб-страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной веб-странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час. Все изменения заносятся в базу данных расписания 9, из которой в дальнейшем данные поступают в модуль загрузки данных 2.
Предлагаемая система может быть воплощена на одном или более серверных компьютерах, объединенных для совместной реализации предписанной функциональности, при этом вышеуказанные ее модули могут быть реализованы программными и аппаратными составляющими этих серверных компьютеров, известными специалистам и широко применяемыми в технике. В частности, вышеуказанные базы данных могут быть реализованы на одном или более широко известных машиночитаемых носителях, например накопителях на жестких дисках, RAID-массивах, твердотельной памяти и т.п. Модуль загрузки данных может быть подключен и может взаимодействовать с Интернет на основе широко известных проводных и/или беспроводных сетевых технологий и оборудования, в частности на основе стека протоколов http/tcp/ip. Для взаимодействия с модулями баз данных оператор может использовать любое известное терминальное оборудование, поддерживающее возможность исполнения команд языка взаимодействия с базой данных (например, SQL). Таковым оборудованием может быть, например, соответствующим образом сконфигурированный персональный/переносной/наладонный компьютер.
Ниже представлены конкретные примеры работы расписания перепроверки ссылок на веб-страницы с размещенными на них мультимедийными потоками реального времени.
Пример №1:
Первый пример демонстрирует появление новых ссылок на веб-странице в базе данных расписаний 9.
Поисковой системой была найдена новая веб-страница по ссылке Reference_1, после анализа которой было выявлено, что на странице размещено две ссылки на мультимедийные потоки Stream_1 и Stream_2. Модулю управления данными 3 передается информация о веб-странице, которая содержит различную метаинформацию о самой странице и обнаруженные ссылки на мультимедийные потоки (см. фиг.3).
Модуль управления данными отправляет ссылки на поток в базу данных потоков 4, где попутно запрашивает статус для переданных потоков. Если в базу данных потоков 4 уже передавалась данная ссылка на мультимедийный поток, то модуль управления данными получит о ней информацию, если ссылка на поток новая, тогда информация о потоке останется не известной до тех пор, пока не будет проверена модулем проверки потоков 5. Далее модуль управления данными 3 проверяет информацию о ссылке Reference_1 в базе данных взаимосвязей 6 с целью определения ассоциативной связи данной ссылки на веб-страницу со ссылками на мультимедийные потоки, полученную при предыдущей проверке данной страницы. Если данная ссылка на веб-страницу отсутствует в базе данных взаимосвязей (то есть является новой), тогда она будет в нее добавлена, где будет указана связь данной ссылки на веб-страницу и ссылками на мультимедийные потоки (см. фиг.3). Информация о данной ссылке на веб-страницу останется без изменений в базе данных взаимосвязей до тех пор, пока не будут проверены ссылки на мультимедийные потоки, которые были найдены на ней. Изменения в базе данных взаимосвязей 6 и дальнейшая работа с данной ссылкой на веб-страницу будет осуществляться только в том случае, если после проверки ссылок на потоки будет определено, что хотя бы одна из них относится к ссылкам на мультимедийные потоки реального времени. Модуль проверки потоков 5 берет ссылки на проверку из базы данных потоков 4, после чего определяет, что одна из ссылок относится к мультимедийным потокам реального времени (см. Таблицу 1).
Модуль управления потоками 7 запрашивает из базы данных потоков 4 информацию о потоках реального времени, у которых есть изменения в типе, состоянии или характеристиках. После запроса модуль управления потоками 7 получит ссылку на поток Stream_1, где будет указано, что поток перешел в тип потоков, которые относятся к живым потокам (см. таблицу 2).
Модуль управления потоками 7 делает отметку в базе данных взаимосвязей 6 для всех ссылок на веб-страницы, у которых есть связь с данной ссылкой на мультимедийный поток, что данный поток перешел в статус «живого» потока. Далее модуль управления расписанием 8 берет из базы данных взаимосвязей 6 все ссылки на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках для ссылок на потоки реального времени. Модуль управления расписанием 8 получит ссылку Reference_1, для которой будет указано количество потоков реального времени и отметка об изменениях в потоках (см. таблицу 3).
Поскольку для данной ссылки на веб-страницу приходится только одна ссылка на поток реального времени, ей будет установлен коэффициент значимости, равный единице, а также период проверки страницы, например, равный 24 часам, после чего данные будут сохранены в базе данных расписаний 9 (см. таблицу 4). Поскольку ссылка Reference_1 еще не участвовала в расписании повторной проверки, то для нее будет создана отдельная запись, в которой будет указано время, после которого она будет перепроверена. Время следующей проверки для новой ссылки на веб-страницу определяется как текущее время плюс период.
Пример №2
Рассмотрим ситуацию повторной проверки веб-страниц, которые уже присутствуют в расписании. Модуль загрузки данных 2 получает из базы данных расписания 9 (см. таблицу 5) три ссылки на веб-страницы, для которых наступило время начала проверки.
В базе данных взаимосвязей 6 до момента проверки ссылки на веб-страницы имеют следующие связи с мультимедийными ссылками на потоки реального времени (см. фиг. 4).
Веб-страница по ссылке Reference_5 содержит две ссылки на потоки реального времени, при этом Reference_6 имеет с ней общий поток, а веб-страница по ссылке Reference_7 содержит независимую ссылку на поток, у которой нет пересечений с другими веб-страницами. Модуль загрузки данных 2 загружает веб-страницы по указанным ссылкам. Проанализировав содержимое, в загруженных документах были найдены ссылки на потоки, которые имеют связь, представленную на фиг.5.
Найденные данные передаются модулю управления данными 3. Далее модуль управления данными отправляет найденные ссылки на потоки в базу данных потоков 4 с целью сохранения новых ссылок на потоки и получения информации для уже известных потоков (см. фиг.6).
Полученная информация о потоках из базы данных потоков 4 (см. таблицу 6) указывает на то, что ссылки на поток Stream_10 и Stream_50 проверены и являются потоками реального времени, ссылка Stream_11 указывала на поток реального времени, находится в выключенном состоянии, a Stream_51 является новой ссылкой на мультимедийный поток и требует проверки модулем проверки потоков 5.
Далее модуль управления данными начинает проверку предыдущей ассоциативной связи для данных ссылок на веб-страницы в базе данных взаимосвязей 6. На основании проверки определяется, что у некоторых веб-страниц изменились ссылки на мультимедийные потоки, что приводит к изменениям в ассоциативных связях в базе данных взаимосвязей 6 для данных ссылок на веб-страницы (см. фиг.7).
Модуль управления данными отмечает, что веб-страница по ссылке Reference_7 больше не содержит в себе ссылку на поток Stream_12 и присваивает ей новые связи, указывая, что она содержит потоки Stream_50 и Stream_51. Попутно с внесением изменений в ассоциативные связи вносится информация о потоках, которая была получена из базы данных потоков 4. Отмечается, что изменилось состояние ссылки на поток Stream_11, где указывается, что поток выключен, а ссылки на потоки Stream_10 и Stream_50 находятся в рабочем состоянии и являются мультимедийными потоками реального времени. Поскольку Stream_51 является новой ссылкой на поток, для него нет информации, которая может влиять на изменения в работе расписания 9. Модуль управления расписанием 8 запрашивает ссылки на веб-страницы, у которых есть изменения в потоках реального времени из базы данных взаимосвязей 6 (см. таблицу 7).
Для ссылки Reference_5 будет вычислен коэффициент значимости, равный единице, так как один из двух доступных потоков перестал работать, для ссылки Reference_6 коэффициент значимости будет равен нулю, поскольку у нее нет на текущий момент потоков реального времени, находящихся во включенном состоянии, для ссылки Reference_7 коэффициент значимости останется равным единице. После вычисления коэффициента значимости и вычисления периода проверки для текущих ссылок на веб-страницы модуль управления расписанием вносит изменения в базу данных расписания 9 (см. таблицу 8).
Изменения касаются только двух записей, для Reference_5 понижается коэффициент значимости и, как следствие, увеличивается период. Ссылка Reference_6 исключается из проверки, так как для нее нет на текущий момент работающих потоков реального времени. Для ссылки Reference_7 изменений на текущий момент нет, так как до начала проверки по расписанию данная ссылка на веб-страницу имела ассоциативную связь с потоком Stream_12, после проверки она стала указывать на два потока, но только для одной ссылки на поток был известен тип потока, вторая ссылка на поток являлась новой, поэтому коэффициент значимости для данной ссылки на текущий момент остается равный 1. Модулем загрузки данных 2 была выявлена новая ссылка на поток Stream_51, для которой не был определен тип, после ее проверки модулем проверки потоков 5 определено, что данная ссылка указывает на поток реального времени. Модуль управления потоками 7 запрашивает данные из базы данных потоков 4 и получает информацию (см. таблицу 9), что Stream_51 относится к мультимедийным ссылкам на потоки реального времени.
Далее модулем управления потоков вносятся изменения в базу данных взаимосвязей 6, где для всех ссылок на веб-страницы, у которых есть связь с потоком Stream_51, делается отметка об изменении в типе потока. Модуль управления расписанием 8 вновь запрашивает из базы данных взаимосвязей 6 информацию о ссылках на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках потоков реального времени, и получает данные (см. таблицу 10) об изменениях для ссылки Reference_7.
Для ссылки Reference_7 вычисляется коэффициент значимости, период проверки и время следующего начала проверки, после чего вносятся изменения в базу данных расписания 9 (см таблицу 11).
Поскольку на Reference_7 теперь приходится 2 ссылки на потоки реального времени, соответственно у нее повышается коэффициент значимости и изменяется период перепроверки, что приводит к изменению для следующего времени начала проверки ссылки на веб-страницу.
Настоящее изобретение относится к компьютерным и сетевым технологиям, а именно к поисковым системам в Интернете. Технический результат - повышение эффективности обнаружения мультимедийных потоков реального времени и сокращение времени на сохранение и поддержание данных в актуальном состоянии. Способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени включает: загрузку веб-страницы для проверки по расписанию, анализ загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки, проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока. При этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки. 2 н. и 22 з.п. ф-лы, 11 табл., 7 ил.
1. Способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно которому
загружают веб-страницы для проверки по расписанию, включающему ссылки на веб-страницы и определяющему период и порядок проверки ссылок на веб-страницы,
анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки, с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей,
затем осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений,
при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
2. Способ по п.1, характеризующийся тем, что веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей.
3. Способ по п.1, характеризующийся тем, что загрузку веб-страницы по ссылке осуществляют посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.
4. Способ по п.1, характеризующийся тем, что период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, выбирают из интервала значений 2-5 минут.
5. Способ по п.1, характеризующийся тем, что состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.
6. Способ по п.1, характеризующийся тем, что БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.
7. Способ по п.1, характеризующийся тем, что в качестве характеристик потока используют описание мультимедийного потока и технические характеристики потока.
8. Способ по п.1, характеризующийся тем, что в качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть.
9. Способ по п.1, характеризующийся тем, что в качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.
10. Способ по п.1, характеризующийся тем, что по итогам анализа загруженных веб-страниц определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки.
11. Способ по п.10, характеризующийся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, ссылку на данную веб-страницу исключают из расписания проверки.
12. Способ по п.1, характеризующийся тем, что для каждой ссылки на веб-страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то Т=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки.
13. Способ по п.12, характеризующийся тем, что загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента К.
14. Компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени, включающая:
БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки;
БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков;
БД взаимосвязей, включающую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока;
модуль загрузки данных, выполненный с возможностью загрузки веб-страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки;
модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей;
модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков;
модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей;
модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
15. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.
16. Система по п.14, характеризующаяся тем, что модуль проверки потоков выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, от 2 до 5 минут.
17. Система по п.14, характеризующаяся тем, что модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном.
18. Система по п.14, характеризующаяся тем, что в БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока.
19. Система по п.14, характеризующаяся тем, что в БД потоков в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть.
20. Система по п.14, характеризующаяся тем, что в БД потоков в качестве технических характеристик потока присутствует битрейд, формат, информация об аудио или видео кодеках или любых других технических характеристиках потока.
21. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью определения доступности веб-страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания.
22. Система по п.21, характеризующаяся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием выполнен с возможностью исключения ссылки на данную веб-страницу из БД расписания.
23. Система по п.14, характеризующаяся тем, что модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то Т=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания.
24. Система по п.23, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К.
СИСТЕМА И СПОСОБ ДЛЯ ИНТЕРНЕТ-ПОИСКА МУЛЬТИМЕДИЙНОГО КОНТЕНТА РЕАЛЬНОГО ВРЕМЕНИ | 2008 |
|
RU2399090C2 |
US 8386459 B1, 26.02.2013 | |||
US 7886042 B2, 08.02.2011 | |||
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Авторы
Даты
2014-10-10—Публикация
2013-07-26—Подача