Область техники, к которой относится изобретение
Настоящая технология относится в целом к способам и системам для определения аномальной краудсорсинговой метки и, в частности, к способам и системам для обнаружения источника аномальной краудсорсинговой метки.
Уровень техники
Упрощение пользования сетью Интернет обеспечило пользователям доступ к различным прикладным веб-сервисам, использующим цифровые платформы. Такие прикладные веб-сервисы могут иметь отношение к публикациям (например, к музыке, книгам, фильмам и т.д.), к услугам (например, к авиакомпаниям, отелям, ресторанам и т.д.), к товарам (например, к электронному оборудованию, автомобилям, кухонной утвари и т.д.) и т.п. Некоторые прикладные веб-сервисы обеспечивают пользователям возможности для публикации контента, соответствующего этим прикладным веб-сервисам, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п. Например, в прикладном веб-сервисе видеоконтента пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.
Поставщики услуг в таких прикладных веб-сервисах могут ранжировать цифровые элементы, по меньшей мере частично, на основе меток, сформированных пользователями. В некоторых случаях часть меток, сформированных пользователями, может содержать злонамеренные, ложные, вводящие в заблуждение или ошибочные метки. Некоторые из злонамеренных меток могут быть сформированы ботами. Другие метки могут быть сформированы пользователями, нанятыми для таких целей (т.е. получающими вознаграждение).
Тем не менее, некоторые метки могут не быть злонамеренными, но при этом являться «аномальными» или «ошибочными». В общем случае появление таких меток инициируется внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, и пользователи становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма.
Существует несколько компьютерных способов обнаружения и фильтрации злонамеренных меток. Например, в патенте US 9479516 B2 описаны различные способы различения злонамеренного отправления данных (например, рейтингов, комментариев, отзывов и т.д.) и допустимого отправления данных, например, сообщений от реальных пользователей приложения. Эти способы могут быть использованы для формирования промежуточных сигналов, которые могут указывать на злонамеренное отправление данных. Один или несколько промежуточных сигналов могут автоматически объединяться с целью формирования заключения об обнаружении злонамеренности в отправленных данных. Описаны различные варианты действий (например, в автоматическом или в ручном режиме) после обнаружения злонамеренности в отправленных данных, например, злонамеренно отправленные данные могут игнорироваться или в отношении лица либо учетной записи, связанной со злонамеренно отправленными данными, могут быть применены штрафные санкции. При этом описания должны толковаться расширительно, охватывая другие сервисы, принимающие рейтинги и/или комментарии пользователей.
В патенте US 10089660 B2 описано несколько источников отзывов для одного и того же продукта или сервиса (например, для отелей, ресторанов, клиник, парикмахерских и т.д.), используемых для формирования достоверной оценки. Такая оценка позволяет четко определять отели с признаками манипулирования отзывами, замалчивания и подделки и обеспечивать пользователю полное понимание отзывов о продукте или организации. При расчете оценки используется информация трех видов: пространственная, временная и сетевая (основе графа). Информация смешивается для формирования представительного набора признаков, обеспечивающего надежное формирование достоверной оценки. Изобретение самостоятельно адаптируется к новым отзывам и веб-сайтам. Для обеспечения надежности и достоверности оценки изобретение также предусматривает механизм проверки с использованием краудсорсинга путем формирования фальсифицированных отзывов.
Раскрытие изобретения
Разработанные варианты реализации настоящей технологии основаны на понимании разработчиками по меньшей мере одной технической проблемы, связанной с известными решениями.
Например, несмотря на то, что известные решения обладают определенными достоинствами и способствуют обнаружению и фильтрации злонамеренных меток, соответствующих различным прикладным веб-сервисам, они все же имеют некоторые недостатки. Например, несмотря на известность подходов к обнаружению и фильтрации злонамеренных меток, обнаружение и фильтрация аномальных меток и обнаружение в реальном времени веб-источника, побуждающего пользователей формировать ошибочные метки, по-прежнему остаются актуальными.
Настоящая технология разработана после того, как разработчики путем наблюдения определили, что веб-источник может порождать флешмоб, вызывающий появление ошибочных меток, инициируемых или находящихся под влиянием этого веб-источника. С точки зрения сервера, которому приходится обрабатывать множество операций ошибочной разметки, такой флешмоб может приводить к значительному расходованию ресурсов.
При разработке настоящей технологии разработчики обратили внимание на то, что все больше прикладных веб-сервисов, доступных с использованием браузерного приложения, обслуживаются сервисами веб-аналитики (такими как Google Analytics™, Yandex.Metrica™ и т.п.). Вкратце, эти сервисы веб-аналитики способны собирать и хранить данные, связанные с браузерным приложением.
Безотносительно какой-либо конкретной теории, варианты осуществления настоящей технологии разработаны на основе предположения, что оценка истории просмотра/навигации пользователей, формирующих метки, позволяет более достоверно определять случаи, когда метка является или будет являться ошибочной.
Согласно первому аспекту настоящей технологии реализован способ определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Способ выполняется сервером, хранящим журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, и включает в себя: анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени; определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формирование дельта-набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя определение пользователей из множества пользователей, обращавшихся к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя удаление по меньшей мере некоторых меток из множества меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя назначение уменьшающего весового коэффициента для по меньшей мере некоторых меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
В некоторых вариантах осуществления изобретения способ в будущем периоде времени после рассматриваемого периода времени дополнительно включает в себя: определение подмножества пользователей из множества будущих пользователей, отправляющих метки в будущем периоде времени, которые обращались к этому по меньшей мере одному веб-ресурсу до будущего периода времени; и удаление меток, сформированных подмножеством пользователей из множества будущих пользователей или назначение уменьшающего весового коэффициента для меток, сформированных этим подмножеством пользователей из множества будущих пользователей.
В некоторых вариантах осуществления способа определение аномального подмножества включает в себя анализ пиковых тенденций среди всех соседних меток в фактическом распределении меток в части множества краудсорсинговых меток на основе пиковых тенденций, не соответствующих типичному распределению меток, определяющих это аномальное подмножество.
В некоторых вариантах осуществления способа пиковые тенденции, не соответствующие типичному распределению меток, основаны на одном наборе из двух соседних меток, связанных с аномальным пиком, и/или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком.
В некоторых вариантах осуществления способа один набор из двух соседних меток содержит метку низкого уровня или метку высокого уровня.
В некоторых вариантах осуществления способа два набора следующих друг за другом соседних меток содержат метки низкого уровня или метки высокого уровня.
В некоторых вариантах осуществления способа он дополнительно включает в себя определение аномального характера посещений.
В некоторых вариантах осуществления способа определение аномального характера посещений включает в себя: расчет первой доли пользователей, связанных с первой группой истории просмотра и обращавшихся к по меньшей мере одному веб-ресурсу; расчет второй доли пользователей, связанных со второй группой истории просмотра и обращавшихся к этому по меньшей мере одному веб-ресурсу; определение того, что этот по меньшей мере один веб-ресурс связан с аномальным характером посещений, если первая доля больше второй доли.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя сравнение первой доли и второй доли с использованием Z-статистики.
В некоторых вариантах осуществления способа, если Z-статистика указывает на статистически значимое различие, то этот по меньшей мере один веб-ресурс определяется в качестве источника внешнего инициирующего события.
В некоторых вариантах осуществления способа он дополнительно включает в себя упорядочение по меньшей мере одного веб-ресурса в ранжированном списке с использованием доли множества пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выбор подмножества, являющегося источником внешнего инициирующего события, из числа этого по меньшей мере одного веб-ресурса с использованием в качестве порога отсечения абсолютного количества пользователей во множестве пользователей, просмотревших этот веб-ресурс.
В некоторых вариантах осуществления способа по меньшей мере один веб-ресурс содержит множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события.
В некоторых вариантах осуществления способа цифровой элемент содержит контент, а внешнее инициирующее событие представляет собой цифровой элемент отзыва, содержащий отзыв о контенте этого цифрового элемента.
В некоторых вариантах осуществления способа цифровой элемент отзыва формируется объектом, отличным от источника цифрового элемента.
В некоторых вариантах осуществления изобретения способ в некоторый будущий момент времени дополнительно включает в себя анализ истории просмотра пользователя на предмет наличия источника внешнего инициирующего события и выполнение корректирующего действия в случае наличия такого источника внешнего инициирующего события.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выполняемый в случае наличия источника внешнего инициирующего события анализ краудсорсинговой метки, сформированной пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.
В некоторых вариантах осуществления способа источник внешнего инициирующего события представляет собой множество источников внешнего инициирующего события, а способ дополнительно включает в себя выбор N источников с наибольшим рангом из множества источников и обучение алгоритма машинного обучения (MLA, Machine Learning Algorithm) с использованием N источников с наибольшим рангом для предсказания источника внешнего инициирующего события с наибольшим рангом.
В некоторых вариантах осуществления способа аномальный характер посещений соответствует по меньшей мере одному ресурсу, отсутствующему во второй истории просмотра.
Согласно второму аспекту настоящей технологии реализована система для определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для этого цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Система содержит: сервер, хранящий журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, машиночитаемый физический носитель информации, содержащий команды, и процессор, который при выполнении команд способен: анализировать часть множества краудсорсинговых меток, собранных в течение некоторого периода времени; определять аномальное подмножество краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получать из журнала просмотра веб-страниц историю просмотра, связанную с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделять историю просмотра, связанную с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формировать дельта-набор веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставлять этот по меньшей мере один веб-ресурс с источником внешнего инициирующего события.
В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от электронных устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «по меньшей мере один сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая определенная задача принимается, выполняется или запускается тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».
В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. В контексте настоящего описания термин «клиентское устройство» в общем случае связан с пользователем клиентского устройства. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.
В контексте настоящего описания, если явно не указано другое, числительные «первый», «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает обязательного наличия «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях° - разные программные и/или аппаратные средства.
В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д., но не ограничивается ими.
В контексте настоящего описания выражение «документ» должно толковаться расширительно с целью включения любого машиночитаемого или машинохранимого рабочего продукта. Документ может содержать сообщение электронной почты, веб-сайт, файл, сочетание файлов, один или несколько файлов со встроенными ссылками на другие файлы, сообщение в группе новостей, блог, рекламное объявление в сети Интернет и т.д. В контексте сети Интернет общий документ представляет собой веб-страницу. Веб-страницы часто содержат текстовую информацию и могут содержать встроенную информацию (такую как метаданные, изображения, гиперссылки и т.д.) и/или встроенные команды (такие как команды Javascript и т.д.). Станица может соответствовать документу или части документа. Таким образом, слова «страница» и «документ» в некоторых случаях могут использоваться как синонимы. В других случаях страница может соответствовать части документа, например, подчиненному документу. Страница также может соответствовать нескольким документам.
В контексте настоящего описания, если явно не указано другое, термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средства для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.
Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.
Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, в приложенных чертежах и в формуле изобретения.
Краткое описание чертежей
Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.
На фиг. 1 представлены различные компоненты и признаки клиентского устройства, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 2 представлена схема системы, реализованной согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 3 представлены прикладные веб-сервисы, обеспечиваемые поставщиком услуг и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 4 представлена блок-схема, содержащая компоненты, модули, соединения и взаимодействия для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 5 представлен пример типичного распределения меток, соответствующего краудсорсинговым меткам и нескольким пользователям, отправившим эти краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 6-7 представлены примеры фактического распределения меток, где краудсорсинговые метки содержат аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 11 представлена структура данных истории просмотра, хранящихся на сервере отслеживания, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 12 представлена первая группа истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 13 представлена вторая группа истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 14 представлен дельта-набор, содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 15 представлен ранжированный список, сформированный процессором аномальных краудсорсинговых меток и содержащий набор универсальных указателей ресурсов (URL, Uniform Resource Locator), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
На фиг. 16 представлена блок-схема способа обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
Осуществление изобретения
Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.
Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области должно быть понятно, что различные варианты осуществления настоящей технологии могут быть значительно сложнее.
В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объем или границы настоящей технологии. Представленный перечень модификаций не является исчерпывающим и специалист в данной области может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.
Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.
Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство (ЗУ). Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.
Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.
Далее с учетом изложенных выше принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.
На фиг. 1 представлены различные компоненты и признаки клиентского устройства 100, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, клиентское устройство 100 использует процессор 102, графический процессор 104, твердотельный накопитель 106, память 108, дисплей 110 и сетевой модуль 112. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки.
Связь между различными компонентами клиентского устройства 100 может обеспечиваться через одну или несколько внутренних и/или внешних шин (не показаны), таких как шина PCI, универсальная последовательная шина, шина FireWire стандарта IEEE 1394, шина SCSI, шина Serial-ATA и т.д., с которыми различные аппаратные компоненты соединены электронными средствами.
Согласно вариантам осуществления настоящей технологии, твердотельный накопитель 106 хранит программные команды, пригодные для загрузки в память 108 и исполнения процессором 102 и/или графический процессор 104. Программные команды могут, например, входить в состав библиотеки или приложения. Например, память 108 может быть реализована в виде машиночитаемого носителя информации, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.
Клиентское устройство 100 может представлять собой сервер, настольный компьютер, планшет, смартфон, карманный персональный компьютер или любое устройство, которое может быть сконфигурировано для реализации настоящей технологии, как должно быть понятно специалисту в данной области.
На фиг. 2 представлена система 200, реализованная согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, система 200 содержит множество 202 пользователей, связанных с множеством 210 клиентских устройств. На фиг. 2 представлены первый пользователь 204, второй пользователь 206 и третий пользователь 208, соответственно связанные с первым клиентским устройством 214, вторым клиентским устройством 216 и третьим клиентским устройством 218. В некоторых вариантах осуществления настоящей технологии первое клиентское устройство 214 может быть реализовано подобно клиентскому устройству 100, второе клиентское устройство 216 может быть реализовано в виде ноутбука, а третье клиентское устройство 218 может быть реализовано в виде смартфона. Следует отметить, что связь множества 202 пользователей с множеством 210 клиентских устройств не означает необходимости предлагать или предполагать какой-либо режим работы, например, вход в систему, регистрацию и т.п.
Множество 210 клиентских устройств соединено с сетью 220 связи соответствующими линиями 222 связи. Должно быть понятно, что сеть 220 связи может быть реализована с использованием любых подходящих технологий, таких как сеть Интернет, глобальная сеть связи, локальная сеть связи, частная сеть связи и т.п.
На реализацию линии 222 связи не накладывается каких-либо особых ограничений, она зависит от реализации первого клиентского устройства 214, второго клиентского устройства 216 и третьего клиентского устройства 218. В качестве примера, не имеющего ограничительного характера, в тех вариантах реализации настоящей технологии, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде беспроводного устройства связи (такого как смартфон), линия 222 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.). В тех примерах, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде ноутбука, линия 222 связи может быть как беспроводной (такой как Wireless Fidelity или кратко WiFi®, Bluetooth® и т.п.), так и проводной (такой как соединение на основе Ethernet).
Также должно быть понятно, что варианты реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи приведены лишь для иллюстрации. Специалистам в данной области должны быть очевидными и другие конкретные детали реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.
Сеть 220 связи также соединена с множеством 224 серверов. На фиг. 2 представлены первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания. Первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде традиционных компьютерных серверов. В некоторых вариантах осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Например, множество серверов может содержать машиночитаемый физический носитель информации, включая ПЗУ и/или ОЗУ, и одно или несколько устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.
Очевидно, что первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. Кроме того, первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде различных аппаратных или программных средств.
В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания представляют собой отдельные серверы. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии функции каждого сервера из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания могут быть реализованы в одном сервере или могут быть распределены и реализованы в нескольких серверах (не показаны).
На фиг. 3 представлены прикладные веб-сервисы, предоставляемые поставщиком 304 прикладных веб-сервисов и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Поставщик 304 прикладных веб-сервисов может предоставлять множество сервисов, называемых прикладными веб-сервисами или прикладными сервисами, множеству 202 пользователей в сети Интернет. В качестве примеров поставщиков сервисов можно привести онлайн-сервисы Yandex™, Google™, Yahoo™ и т.п.
В общем случае пользователь, такой как пользователь 204, может зарегистрировать учетную запись 302 пользователя у поставщика 304 прикладных веб-сервисов с использованием своего первого клиентского устройства 214 и осуществлять доступ к множеству сервисов, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений, с использованием браузерного приложения (путем обращения к веб-сайту, связанному с сервисом) или самостоятельного приложения, которое может выполняться в первом клиентском устройстве 214.
Предполагается, что прикладные сервисы 306 социальных медиа могут включать в себя различные платформы социальных медиа, такие как онлайн-сервисы Facebook™, Twitter™, Instagram™ и т.п.
Мультимедийные прикладные сервисы 308 могут включать в себя различные мультимедийные платформы, такие как онлайн-сервис Youtube™, а другие прикладные сервисы 310 могут включать в себя любые другие доступные прикладные веб-сервисы, такие как онлайн-сервисы Amazon™, IMDb™, Playstore™, App Store™ и т.д.
Поставщик 304 прикладных веб-сервисов, а также прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310 могут быть связаны с сервером 232 отслеживания. В других вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты (не показан), который может быть связан с поставщиком 304 прикладных веб-сервисов, способным автоматически создавать учетную запись 302 пользователя и связывать ее с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310. В других не имеющих ограничительного характера вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты и его учетные записи могут быть вручную связаны с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310 (которые могут быть связаны с другим поставщиком сервисов), а серверу 232 отслеживания может быть разрешено отслеживать его действия. Единая учетная запись 302 пользователя обычно используется с помощью приложения единой регистрации, такого как Yandex.Passport™ и т.п.
Поставщик 304 прикладных веб-сервисов может управлять сервером 232 отслеживания, который способен отслеживать действия каждого пользователя (например, из множества 202 пользователей), связанного с множеством сервисов. Тем не менее, в других вариантах осуществления изобретения функции сервера 232 отслеживания могут быть реализованы непосредственно на по меньшей мере одном сервере из множества 224 серверов, таком как первый сервер 226 приложений, второй сервер 228 приложений или третий сервер 230 приложений, или непосредственно в каждом устройстве из множества 210 клиентских устройств, таком как первое клиентское устройство 214, второе клиентское устройство 216 и третье клиентское устройство 218.
Таким образом, сервер 232 отслеживания может получать каждое действие пользователя, выполненное пользователем, таким как пользователь 204, в прикладном сервисе, таком как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, на его первом клиентском устройстве 214 (или на другом клиентском устройстве, которое может использовать первый пользователь 204), и может вести журнал действий пользователей. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от клиентского устройства 204 либо от первого сервера 226 приложений, от второго сервера 228 приложений или от третьего сервера 230 приложений, может быть связано с IP-адресом, идентификатором устройства, отметкой времени, содержащей дату, время и часовой пояс, состоянием, контентом и оценкой, связанной с состоянием. В по меньшей мере некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 232 отслеживания может анонимизировать идентификатор пользователя для защиты персональных данных соответствующего пользователя, например, первого пользователя 204.
Согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, множество 202 пользователей может обращаться к различным прикладным сервисам, таким как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, и в по меньшей мере одном прикладном сервисе может оставлять отзывы или публиковать контент, соответствующий цифровому элементу 402 (описан ниже), связанному с по меньшей мере одним прикладным сервисом, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п.
Предполагается, что цифровой элемент 402 (описан ниже) может соответствовать любому цифровому документу или ресурсу, например, такому как музыка, книги, фильмы, бронирование авиабилетов, бронирование номеров в гостиницах, рестораны, программное обеспечение и т.п., доступному на цифровой платформе, такой как онлайн-сервисы Facebook™, Twitter™, Instagram™, Youtube™, Amazon™, IMDb™, Playstore™, App Store™ и т.п. В не имеющем ограничительного характера примере, соответствующем прикладному веб-сервису видеоконтента, пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.
По меньшей мере один сервер из множества 224 серверов может быть способным присваивать ранг цифровому элементу 402 (описан ниже), по меньшей мере частично, на основе меток, соответствующих цифровому элементу 402 (описан ниже) и сделанных множеством 202 пользователей. В некоторых случаях часть меток, сделанных множеством 202 пользователей, содержит «аномальные» или «ошибочные» метки. В общем случае согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, такие метки инициируются внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, а пользователи становятся склонными помечать этот фильм на основе такого скандального отзыва без просмотра самого фильма.
В связи с этим для эффективного функционирования системы 200 важно обнаруживать источник внешнего инициирующего события и метки, сделанные под влиянием этого источника внешнего инициирующего события. На фиг. 4 представлена блок-схема примера компонентов, модулей, соединений и взаимодействий для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. В этом примере представлено множество 202 пользователей, связанных с множеством 210 клиентских устройств, осуществляющих доступ к цифровому элементу 402 других прикладных сервисов 310.
Множество 202 пользователей может обращаться к цифровому элементу 402 с использованием соответствующих клиентских устройств 210 через интерфейс, связанный с другими прикладными сервисами 310. Интерфейс может, например, представлять собой веб-страницу, которую пользователь может просматривать с помощью веб-браузера (например, браузера для настольных компьютеров или мобильного браузера). В другом примере интерфейс может представлять собой мобильное приложение, которое по умолчанию выполняется в по меньшей мере одном устройстве из множества 210 клиентских устройств. Должно быть понятно, что информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений.
Множество 202 пользователей также может отправлять для соответствующего цифрового элемента 402 обзоры, отзывы, рейтинги, комментарии, метки и т.п. В некоторых не имеющих ограничительного характера примерах, поясняющих различные случаи, множество 202 пользователей может формировать рейтинги или комментарии, соответствующие фильмам, телевизионным программам, домашнему видео, видеоиграм, потоковому контенту и т.п., в онлайн-сервисе IMDB™ или формировать рейтинги или комментарии, соответствующие различным продуктам (например, электронному оборудованию, программному обеспечению, видеоиграм, одежде, мебели, продуктам питания, игрушкам, ювелирным изделиям и т.д.) в онлайн-сервисе Amazon™ и т.п.
Должно быть понятно, что в некоторых вариантах осуществления изобретения информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений. Такая информация может содержать цифровой контент (например, видеоматериал, документ, музыку и т.п.), связанный с цифровым элементом 402. Кроме того, любые обзоры, отзывы, рейтинги, комментарии, метки и т.п., сформированные множеством 202 пользователей для соответствующего цифрового элемента 402, также могут храниться на втором сервере 228 приложений.
На фиг. 5 представлен соответствующий различным не имеющим ограничительного характера вариантам осуществления настоящей технологии не имеющий ограничительного характера пример типичного распределения 500 меток, соответствующего краудсорсинговым меткам 502 и указание на количество 504 краудсорсинговых меток 502, отправленных по меньшей мере некоторыми пользователями из множества 202 пользователей. Предполагается, что типичное распределение 500 меток является лишь примером, представляющим распределение без какого-либо отклонения в распределении меток. Иными словами, типичное распределение 500 меток не содержит или содержит очень малое количество меток, сформированных «пользователями, связанными с флешмобом».
Краудсорсинговые метки 502 также могут представлять собой некоторые числа, выбранные из заранее заданного диапазона. Например, пользовательский рейтинг может соответствовать значению от одной до пяти звезд из пяти звезд или первому числу (целому или десятичному) в диапазоне, ограниченном вторым максимальным целым числом. Например, каждый шаг (например, одно целое число) пользовательского рейтинга может быть обозначено каким-либо значком, например, звездой. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии часть множества 202 пользователей может отправлять краудсорсинговые метки 502 для цифрового элемента 402 и на основе количества 504 краудсорсинговых меток 502 может составляться (например, путем усреднения) рейтинг, соответствующий цифровому элементу 402, с целью формирования общего пользовательского рейтинга. Например, число (целое или десятичное) может быть выбрано в заранее заданном диапазоне (например, 3,5 звезды из 5 звезд).
На фиг. 6-7 представлены не имеющие ограничительного характера примеры фактических распределений 600 и 700 меток, основанных на предположении, что во время флешмоба фактическое распределение меток может отличаться от типичного распределения меток либо одной краудсорсинговой меткой, имеющей аномально большое значение, т.е. одиночным пиком, либо двумя соседними краудсорсинговыми метками, имеющими аномально большие значения, т.е. групповым пиком. На фиг. 6 представлен первый случай, где краудсорсинговые метки 502 содержат одну аномальную краудсорсинговую метку 606, а их количество 604 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей. На фиг. 7 представлен второй случай, где краудсорсинговые метки 502 содержат набор из двух аномальных краудсорсинговых меток 706, а их количество 704 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей.
Предполагается, что на аномальные краудсорсинговые метки 606 и 706 мог повлиять источник внешнего инициирующего события. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным. По меньшей мере некоторые пользователи из множества 202 пользователей становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма. Аналогичным образом на основе видеоматериала, соответствующего продукту или услуге (например, электронному оборудованию, гостинице, ресторанам и т.п.) и ставшего вирусным на платформе социальных медиа, по меньшей мере некоторые пользователи из множества 202 пользователей начинают формировать метки без фактического пользования продуктом или услугой. Такое аномальное или ошибочное краудсорсинговое назначение меток может порождать флешмобы. Как показано на фиг. 4, другие прикладные сервисы 310 могут также использовать процессор 404 аномальных краудсорсинговых меток. Процессор 404 аномальных краудсорсинговых меток может получать, анализировать и обрабатывать краудсорсинговые метки 502, сформированные множеством 202 пользователей. Таким образом процессор 404 аномальных краудсорсинговых меток определяет аномальное подмножество среди краудсорсинговых меток, в частности, аномальные краудсорсинговые метки 606 или 706. На основе данных 1100 истории просмотра (описаны ниже), связанных с частью пользователей 202, формирующих часть краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, процессор 404 аномальных краудсорсинговых меток формирует дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события.
Согласно различным не имеющим ограничительного характера вариантам осуществления настоящей технологии, дельта-набор 1400 содержит по меньшей мере один веб-ресурс, связанный с аномальным характером просмотра (т.е. с аномальным характером посещений).
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии аномальный характер посещений может указывать на по меньшей мере один ресурс, отсутствующий во второй истории просмотра. В качестве альтернативы, аномальный характер посещений может указывать на то, что количество посещений по меньшей мере одного ресурса, присутствующего в первой истории просмотра, непропорционально превышает количество посещений во второй истории просмотра. Следует отметить, что точное значение для «непропорционального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, непропорциональное превышение может соответствовать десятикратному превышению. Следует отметить, что чем меньше это значение, тем меньший порог следует рассматривать для возможного источника внешнего инициирующего события.
На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора 404 аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, процессор 404 аномальных краудсорсинговых меток использует начальный анализатор 802 меток, анализатор 804 истории просмотра и конечный анализатор 806 меток. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.
Согласно по меньшей мере одному не имеющему ограничительного характера варианту осуществления настоящей технологии, процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502, назначенные для цифрового элемента 402 по меньшей мере некоторыми пользователями из множества 202 пользователей. В некоторых вариантах осуществления изобретения краудсорсинговые метки 502 могут храниться на третьем сервере 230 приложений, а процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502 от третьего сервера 230 приложений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии другие прикладные сервисы 310 могут предоставлять краудсорсинговые метки 502 непосредственно процессору 404 аномальных краудсорсинговых меток до сохранения их на третьем сервере 230 приложений. Затем процессор 404 аномальных краудсорсинговых меток предоставляет краудсорсинговые метки 502 начальному анализатору 802 меток.
Начальный анализатор 802 меток может анализировать пиковые тенденции среди краудсорсинговых меток 502 с целью выбора аномального подмножества среди краудсорсинговых меток, такого как аномальные краудсорсинговые метки 606 или 706. На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора 802 меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, начальный анализатор 802 меток использует анализатор 902 пиковых тенденций и селектор 904 аномального подмножества. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.
Анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и может анализировать часть множества краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (например, в фактическом распределении 600 или 700 меток) или все краудсорсинговые метки 502 за некоторый период времени с целью обнаружения пиков концентрации меток в фактическом распределении меток по отношению к соседним меткам. В некоторых вариантах осуществления изобретения часть краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (таком как фактические распределения 600 или 700 меток) может быть связана с метками низкого уровня или с метками высокого уровня.
Соответственно, анализатор 902 пиковых тенденций может применять оканчивающееся в текущий момент времени скользящее временное окно для меток, отправленных в течение заранее заданного периода времени T. Заранее заданный период времени T может основываться на насыщении концентрации меток, отправленных за этот период времени. В качестве не имеющего ограничительного характера примера можно рассмотреть случаи, когда в течение суток отправлено 10 меток и 10000 меток. В первом случае значение заранее заданного периода времени T может быть задано в сутках, что обеспечивает большее скользящее временное окно по сравнению со скользящим окном во втором случае, когда значение заранее заданного периода времени T может быть задано в часах.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для обнаружения таких пиков анализатор 902 пиковых тенденций может быть реализован в виде классификатора, такого как бинарный классификатор, способный формировать прогноз «да» или «нет». Анализатор 902 пиковых тенденций может быть обучен с использованием двух целей - одиночного пика и группового пика. В частности, с этими двумя целями связаны две метрики:
- концентрация в одной метке, такой как аномальная краудсорсинговая метка 606, с пиковым характером с обеих сторон;
- концентрация в нескольких метках, таких как аномальные краудсорсинговые метки 706, с пиковым характером с обеих сторон.
В некоторых вариантах осуществления изобретения для расчета этих двух признаков (показателя одиночного пика и показателя группового пика) анализатор 902 пиковых тенденций может рассчитывать разность значений (DIV, Difference In Values) концентраций меток для двух соседних меток из числа краудсорсинговых меток 502. Затем анализатор 902 пиковых тенденций нормализует разности DIV и ранжирует нормализованные разности DIV. Затем анализатор 902 пиковых тенденций выбирает наибольшую нормализованную разность DIV в качестве первого признака, т.е. показателя одиночного пика или (при наличии) выбирает две наибольшие нормализованные разности DIV, связанные со следующим друг за другом соседними метками, в качестве второго признака, т.е. показателя группового пика.
Приведенную ниже таблицу 1 можно рассматривать в качестве не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 без «флешмоба».
Таблица 1
Таблица 1 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. На основе того, что нормализованные разности DIV являются «обычными» по отношению друг к другу, а конкретная нормализованная разность DIV оказывается «аномально большой» по отношению к другим нормализованным разностям DIV, анализатор 902 пиковых тенденций способен определять, что распределение меток представляет собой типичное распределение меток или фактическое распределение меток с «флешмобом». В данном случае распределение определяется как типичное распределение меток (т.е. без «флешмоба»).
Приведенную ниже таблицу 2 можно рассматривать в качестве другого не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 с «флешмобом».
Таблица 2
Таблица 2 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. В этом примере имеется пара нормализованных разностей DIV, аномально превышающих другие нормализованные разности DIV. Поэтому анализатор 902 пиковых тенденций также может выбирать наибольшую нормализованную разность DIV в качестве первого признака (например, 51,72% в этом случае) и две наибольшие нормализованные разницы DIV в качестве второго признака (например, 51,72% и 43,10% в этом случае).
Следует отметить, что точное значение для «аномального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и оно может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, аномальное превышение может соответствовать десятикратному превышению.
На основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 (например, среди меток 608 или 708) или среди всех краудсорсинговых меток 502, селектор 904 аномального подмножества определяет подмножества краудсорсинговых меток, не соответствующих типичному распределению меток (например, типичному распределению 500 меток).
В зависимости от варианта реализации, несоответствие подмножеств краудсорсинговых меток типичному распределению меток может основываться на одном наборе из двух соседних меток, связанных с аномальным пиком концентрации меток (показатель одиночного пика) или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком концентрации меток (показатель группового пика). Кроме того, показатель одиночного пика или показатель группового пика обычно связан с меткой низкого уровня или с меткой высокого уровня, а два набора из двух соседних меток содержат метки низкого уровня или метки высокого уровня. Если в качестве примера используется диапазон 1-10, то метка низкого уровня может соответствовать 1 или 2, а метка высокого уровня может соответствовать 9 или 10. Тем не менее, точное определение метки низкого уровня и высокого уровня может быть выбрано оператором анализатора 902 пиковых тенденций. В общем случае выбор меток низкого уровня или высокого уровня основывается на предположении, что связанные с «флешмобом» метки обычно либо крайне положительные, либо крайне отрицательные.
Аномальное подмножество краудсорсинговых меток 502, определенное селектором 904 аномального подмножества, предоставляется анализатору 804 истории просмотра для дальнейшей обработки (см. фиг. 8). Анализатор 804 истории просмотра может анализировать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, и может формировать дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события.
На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора 804 истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, анализатор 804 истории просмотра использует получатель 1002 истории просмотра, синтаксический анализатор 1004 истории просмотра и формирователь 1006 дельта-набора. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки.
Получатель 1002 истории просмотра способен получать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от множества 210 клиентских устройств либо от первого сервера 226 приложений, второго сервера 228 приложений или третьего сервера 230 приложений, может быть связано с IP-адресом, с идентификатором устройства, с отметкой времени, содержащей дату, время и часовой пояс, с состоянием, с контентом и т.п.
На фиг. 11 представлен не имеющий ограничительного характера пример данных 1100 истории просмотра, связанных с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502 в виде индекса, хранящегося на сервере 232 отслеживания. Данные 1100 истории просмотра состоят из набора 1102 URL-адресов и соответствующего времени 1104 обращения для каждого URL-адреса из набора 1102 URL-адресов. Набор 1102 URL-адресов может быть отсортирован в хронологическом порядке на основе соответствующего времени 1104 обращения. Несмотря на то, что данные 1100 истории просмотра показаны как содержащие лишь набор 1102 URL-адресов и время 1104 обращения, объем изобретения этим не ограничивается и они могут также содержать другую информацию, такую как IP-адрес, идентификатор устройства, отметка времени, содержащая дату, время и часовой пояс, состояние и т.п.
Предполагается, что набор 1102 URL-адресов представляет собой лишь не имеющие ограничительного характера примеры на основе действий пользователей, совершенных в различных прикладных сервисах, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений.
Затем получатель 1002 истории просмотра предоставляет данные 1100 истории просмотра синтаксическому анализатору 1004 истории просмотра для дальнейшей обработки. Синтаксический анализатор 1004 истории просмотра способен разделять данные 1100 истории просмотра на первую группу 1200 истории просмотра (описана ниже), связанную с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), и вторую группу 1300 истории просмотра (описана ниже), связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.
На фиг. 12 представлена первая группа 1200 истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Первая группа 1200 истории просмотра состоит из набора 1202 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1204 обращения для каждого URL-адреса из набора 1202 URL-адресов. Набор 1202 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1204 обращения.
На фиг. 13 представлена вторая группа 1300 истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Вторая группа 1300 истории просмотра состоит из набора 1302 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1304 обращения для каждого URL-адреса из набора 1302 URL-адресов. Набор 1302 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1304 обращения.
Затем синтаксический анализатор 1004 истории просмотра предоставляет первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра формирователю 1006 дельта-набора для дальнейшей обработки. Формирователь 1006 дельта-набора способен анализировать первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра и формировать дельта-набор 1400 (описан ниже). Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра (наборов 1202 и 1302 URL-адресов), посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502.
На фиг. 14 представлен дельта-набор 1400, сформированный синтаксическим анализатором 1004 истории просмотра и содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Дельта-набор 1400 состоит из набора 1402 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1404 обращения для каждого URL-адреса из набора 1402 URL-адресов. Набор 1402 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1404 обращения.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии набор 1402 URL-адресов также содержит подмножество 1406 URL-адресов и подмножество 1408 URL-адресов. Подмножество 1406 URL-адресов может быть связано с веб-ресурсом из первой группы 1200 истории просмотра, отсутствующим во второй группе 1300 истории просмотра, и содержать по меньший мере один веб-ресурс, соответствующий источнику внешнего инициирующего события (например, www.aaaa.com или www.cccc.com или им обоим). В некоторых вариантах осуществления изобретения подмножество 1408 URL-адресов может быть связано с веб-ресурсами, присутствующими в первой группе 1200 истории просмотра и во второй группе 1300 истории просмотра (например, с www.llll.com или www.mmmm.com или с ими обоими). Тем не менее, доля пользователей, связанных с первой группой 1200 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов, больше доли пользователей, связанных со второй группой 1300 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов.
Предполагается, что по меньшей мере один веб-ресурс, например, подмножество 1406 или 1408 URL-адресов, может содержать множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события (например, блоги, сообщения в социальных медиа, новости и т.п.), а каждое внешнее инициирующее событие может представлять собой отзыв об этом контенте цифрового элемента 402. Кроме того, отзыв, связанный с цифровым элементом 402, может быть сформирован объектом, отличным от цифрового элемента 402. Такие объекты могут представлять собой блогеров, обозревателей, спамеров или любых случайных пользователей, не связанных с цифровым элементом 402.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии формирователь 1006 дельта-набора также анализирует набор 1102 URL-адресов, связанный с данными 1100 истории просмотра. Для каждого URL-адреса из набора 1102 URL-адресов формирователь 1006 дельта-набора может рассчитывать количество пользователей, осуществлявших доступ по этому адресу. Кроме того, с использованием Z-статистики, указывающей на статистически значимое различие количества пользователей, связанных с первой группой 1200 истории просмотра и осуществляющих доступ по URL-адресу из набора 1102 URL-адресов, и количества пользователей, связанных со второй группой 1300 истории просмотра и осуществляющих доступ по тому же URL-адресу из набора 1102 URL-адресов, формирователь 1006 дельта-набора может определять URL-адреса (например, www.gggg.com или www.kkkk.com) как соответствующие по меньшей мере одному веб-ресурсу, представляющему собой источник внешнего инициирующего события, и сохранять их в дельта-наборе 1400 в качестве подмножества 1408 URL-адресов.
Анализатор 804 истории просмотра предоставляет дельта-набор 1400 конечному анализатору 806 меток для дальнейшей обработки (см. фиг. 8). Конечный анализатор 806 меток может определять пользователей из множества 202 пользователей, обращавшихся к по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. В некоторых вариантах осуществления изобретения конечный анализатор 806 меток может удалять некоторые метки или по меньшей мере назначать уменьшающий весовой коэффициент для некоторых краудсорсинговых меток 502, сформированных пользователями из множества 202 пользователей, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. Таким образом, конечный анализатор 806 меток способствует повышению достоверности краудсорсинговых меток 502 процессором 404 аномальных краудсорсинговых меток.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания с целью определения подмножества из множества 202 пользователей, которые уже обращались к по меньшей мере одному веб-ресурсу, но не формировали соответствующую метку для цифрового элемента 402 (см. фиг. 4). Метки, сформированные такими пользователями в будущем, с высокой вероятностью будут необъективными. Поэтому процессор 404 аномальных краудсорсинговых меток также может удалять такие метки или по меньшей мере назначать уменьшающий весовой коэффициент для таких меток в будущем.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания, чтобы отслеживать историю просмотра будущего пользователя, обращающегося к по меньшей мере одному веб-ресурсу в будущем, и выполнять корректирующее действие при наличии источника внешнего инициирующего события. Такое корректирующее действие может включать в себя удаление любых меток, формируемых будущими пользователями, или по меньшей мере назначение уменьшающего весового коэффициента для любых меток, формируемых будущими пользователями в будущем. Кроме того, в некоторых вариантах осуществления изобретения процессор 404 аномальных краудсорсинговых меток в случае наличия источника внешнего инициирующего события может анализировать краудсорсинговую метку, формируемую будущим пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, где по меньшей мере один веб-ресурс содержит множество веб-ресурсов, определенных в качестве возможных источников внешнего инициирующего события, процессор 404 аномальных краудсорсинговых меток может упорядочивать по меньшей мере один веб-ресурс в ранжированном списке 1500 (описан ниже) с использованием доли множества 202 пользователей, просмотревших веб-ресурс из числа по меньшей мере одного веб-ресурса.
На фиг. 15 представлен ранжированный список 1500, сформированный процессором 404 аномальных краудсорсинговых меток и содержащий набор 1502 URL-адресов, связанных с по меньшей мере одним веб-ресурсом, и долю 1504 пользователей из множества 202 пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса. Например, URL-адрес www.iiii.com просмотрели 50 пользователей, URL-адрес www.ffff.com просмотрели 45 пользователей и т.д. Кроме того, процессор 404 аномальных краудсорсинговых меток может выбирать подмножество (например, подмножество 1506) из по меньшей мере одного веб-ресурса с использованием абсолютного значения доли 1504 пользователей в качестве порога отсечения для низкочастотного подмножества (например, подмножества 1508), просмотренного долей 1504 пользователей.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может использовать алгоритм машинного обучения (MLA), обученный предсказанию источника внешнего инициирующего события с наибольшим рангом на основе N источников с наибольшим рангом из множества источников внешнего инициирующего события.
Предполагается, что несмотря на то, что процессор 404 аномальных краудсорсинговых меток показан в виде отдельного модуля, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, функции процессора 404 аномальных краудсорсинговых меток могут быть реализованы в каком-либо одном сервере или во всех серверах из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания.
На фиг. 16 представлена блок-схема способа 1600 обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии способ 1600 может выполняться для одного сервиса, например, из числа других прикладных сервисов 310. В другом варианте осуществления изобретения способ 1600 может выполняться для множества сервисов, таких как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310. Способ 1600 выполняется в соответствии с не имеющими ограничительного характера вариантами осуществления настоящей технологии. Способ 1600 может выполняться третьим сервером 230 приложений и начинаться с шага 1602.
Шаг 1602: анализ части множества краудсорсинговых меток.
На шаге 1602 анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и анализирует часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502 за некоторый период времени.
Шаг 1604: определение аномального подмножества краудсорсинговых меток.
На шаге 1604 селектор 904 аномального подмножества определяет аномальное подмножество краудсорсинговых меток на основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 или во всех краудсорсинговых метках 502.
Шаг 1606: получение истории просмотра из журнала просмотра веб-страниц.
На шаге 1606 получатель 1002 истории просмотра получает данные 1100 истории просмотра, связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания.
Шаг 1608: разделение истории просмотра на первую группу истории просмотра и вторую группу истории просмотра.
На шаге 1608 синтаксический анализатор 1004 истории просмотра разделяет данные 1100 истории просмотра на первую группу 1200 истории просмотра, связанную с пользователями, формирующими аномальные краудсорсинговые метки, и вторую группу 1300 истории просмотра, связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.
Шаг 1610: формирование дельта-набора веб-ресурсов.
На шаге 1610 формирователь 1006 дельта-набора анализирует первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра с целью формирования дельта-набора 1400. Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра и посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502. Дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений и с источником внешнего инициирующего события.
Специалистам в данной области техники должно быть очевидно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических решений определенной технической проблемы, а именно, снижения затрат вычислительных ресурсов на различных серверах путем сокращения действий с аномальными метками, выполняемых через сеть связи, в результате чего предполагается оптимизация сетевого трафика и уменьшение нагрузки на сетевые серверы. Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте реализации настоящей технологии. Например, возможны варианты реализации настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо технический эффект отсутствует.
Для специалиста в данной области могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в качестве примера, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.
Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.
Изобретение относится к области определения аномальной краудсорсинговой метки, в частности к способам и системам для обнаружения источника аномальной краудсорсинговой метки. Техническим результатом является оптимизация сетевого трафика и уменьшение нагрузки на сетевые серверы. Технический результат заявляемого технического решения достигается тем, что в заявленном способе предусмотрена возможность анализа части множества краудсорсинговых меток; определения аномального подмножества краудсорсинговых меток; получения истории просмотра; разделения истории просмотра на группы; формирования набора веб-ресурсов на основе анализа групп и сопоставления веб-ресурса с источником внешнего инициирующего события. 2 н. и 21 з.п. ф-лы, 16 ил., 2 табл.
1. Способ обнаружения внешнего инициирующего события, вызвавшего появление аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе, при этом аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей, множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом, выполняемый сервером, хранящим журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, и включающий в себя:
- анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени;
- определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени;
- получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих эту часть множества краудсорсинговых меток;
- разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток;
- формирование набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом упомянутый набор веб-ресурсов содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и
- сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события.
2. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение пользователей из множества пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
3. Способ по п. 2, отличающийся тем, что он дополнительно включает в себя удаление по меньшей мере некоторых меток из множества меток от пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
4. Способ по п. 2, отличающийся тем, что он дополнительно включает в себя назначение уменьшающего весового коэффициента для по меньшей мере некоторых меток из множества меток от пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.
5. Способ по п. 1, отличающийся тем, что он в будущем периоде времени после упомянутого периода времени дополнительно включает в себя:
- определение подмножества пользователей из множества будущих пользователей, отправляющих метки в будущем периоде времени, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу до будущего периода времени;
- удаление меток от подмножества пользователей из множества будущих пользователей или назначение уменьшающего весового коэффициента для меток, сформированных подмножеством пользователей из множества будущих пользователей.
6. Способ по п. 1, отличающийся тем, что определение аномального подмножества включает в себя анализ пиковых тенденций среди всех соседних меток в фактическом распределении меток в части множества краудсорсинговых меток на основе пиковых тенденций, не соответствующих типичному распределению меток, определяющих аномальное подмножество.
7. Способ по п. 6, отличающийся тем, что пиковые тенденции, не соответствующие типичному распределению меток, основаны на одном наборе из двух соседних меток, связанных с аномальным пиком, и/или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком.
8. Способ по п. 7, отличающийся тем, что один набор из двух соседних меток содержит метку низкого уровня или метку высокого уровня.
9. Способ по п. 7, отличающийся тем, что два набора следующих друг за другом соседних меток содержат метки низкого уровня или метки высокого уровня.
10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение аномального характера посещений.
11. Способ по п. 10, отличающийся тем, что определение аномального характера посещений включает в себя:
- расчет первой доли пользователей, связанных с первой группой истории просмотра и обращавшихся к упомянутому по меньшей мере одному веб-ресурсу;
- расчет второй доли пользователей, связанных со второй группой истории просмотра и обращавшихся к упомянутому по меньшей мере одному веб-ресурсу; и
- определение того, что упомянутый по меньшей мере один веб-ресурс связан с аномальным характером посещений, если первая доля больше второй доли.
12. Способ по п. 11, отличающийся тем, что он дополнительно включает в себя сравнение первой доли и второй доли с использованием Z-статистики.
13. Способ по п. 12, отличающийся тем, что если Z-статистика указывает на статистически значимое различие, то упомянутый по меньшей мере один веб-ресурс определяется в качестве источника внешнего инициирующего события.
14. Способ по п. 13, отличающийся тем, что он дополнительно включает в себя упорядочение упомянутого по меньшей мере одного веб-ресурса в ранжированном списке с использованием доли множества пользователей, просмотревших конкретный веб-ресурс из числа упомянутого по меньшей мере одного веб-ресурса.
15. Способ по п. 14, отличающийся тем, что он дополнительно включает в себя выбор подмножества, являющегося источником внешнего инициирующего события, из числа упомянутого по меньшей мере одного веб-ресурса с использованием в качестве порога отсечения абсолютного количества пользователей во множестве пользователей, просмотревших конкретный веб-ресурс из числа упомянутого по меньшей мере одного веб-ресурса.
16. Способ по п. 1, отличающийся тем, что по меньшей мере один веб-ресурс содержит множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события.
17. Способ по п. 1, отличающийся тем, что цифровой элемент содержит контент, а внешнее инициирующее событие представляет собой цифровой элемент отзыва, содержащий отзыв о контенте этого цифрового элемента.
18. Способ по п. 17, отличающийся тем, что цифровой элемент отзыва формируется объектом, отличным от источника цифрового элемента.
19. Способ по п. 1, отличающийся тем, что он в будущий момент времени дополнительно включает в себя анализ истории просмотра пользователя на предмет наличия источника внешнего инициирующего события и выполнение корректирующего действия в случае наличия источника внешнего инициирующего события.
20. Способ по п. 19, отличающийся тем, что он дополнительно включает в себя выполняемый в случае наличия источника внешнего инициирующего события анализ краудсорсинговой метки, сформированной пользователем, с целью проверки того, что этот источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.
21. Способ по п. 1, отличающийся тем, что источник внешнего инициирующего события представляет собой множество источников внешнего инициирующего события, а способ дополнительно включает в себя:
- выбор N источников с наибольшим рангом из множества источников и
- обучение алгоритма машинного обучения с использованием N источников с наибольшим рангом для предсказания источника внешнего инициирующего события с наибольшим рангом.
22. Способ по п. 1, отличающийся тем, что аномальный характер посещений соответствует по меньшей мере одному ресурсу, отсутствующему во второй истории просмотра.
23. Система обнаружения внешнего инициирующего события, вызвавшего появление аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе, при этом аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей, множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом, при этом система содержит:
- сервер, хранящий журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей;
- машиночитаемый физический носитель информации, содержащий команды;
- процессор, выполненный с возможностью выполнения следующих действий при исполнении команд:
- анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени;
- определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени;
- получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих эту часть множества краудсорсинговых меток;
- разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из этой части множества краудсорсинговых меток;
- формирование набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом упомянутый набор веб-ресурсов содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и
- сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события.
US 7519562 B1, 14.04.2009 | |||
US 9479516 B2, 25.09.2016 | |||
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
BRYAN HOOI et al.: "BIRDNEST: Bayesian Inference for Ratings-Fraud Detection", 2016, [найдено: 23.11.2021] Найдено в: "https://epubs.siam.org/doi/abs/10.1137/1.9781611974348.56" | |||
ГОНЧАРОВ И | |||
В | |||
и др.: "Моделирование процессов информационно-психологического |
Авторы
Даты
2022-07-05—Публикация
2019-08-22—Подача