СПОСОБ ОЦЕНКИ КАЧЕСТВА ВИДЕО И АППАРАТ, УСТРОЙСТВО И НОСИТЕЛЬ ДАННЫХ Российский патент 2022 года по МПК G06F16/75 

Описание патента на изобретение RU2764125C1

[1] Данная заявка представляет собой международную заявку PCT/CN2019/123007 на RU национальной фазе, поданную 4 декабря 2019, которая притязает на приоритет заявки на патент КНР 201811627024.4, поданной 28 декабря 2018 и имеющей название «СПОСОБ ОЦЕНКИ КАЧЕСТВА ВИДЕО, АППАРАТ И УСТРОЙСТВО, И НОСИТЕЛЬ ДАННЫХ», содержание которой полностью приведено здесь в качестве ссылки.

ОБЛАСТЬ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[2] Варианты осуществления данного изобретения относятся к области технологий распознавания видео, в частности к способу оценки качества видео и аппарату, устройству, и носителю данных.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

[3] С развитием интернет-технологий приложения для коротких видео (APP) являются все более и более широко используемыми. Приложения для коротких видео каждый день получают большое количество коротких видео, снятых и загруженных пользователями. После удаления оскорбительных видео из данных коротких видео высококачественные видео должны быть отобраны из оставшихся видео и предоставлены зрителям.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[4] Данное изобретение предусматривает способ оценки качества видео и аппарат, устройство, и носитель данных для повышения своевременности оценки качества видео и точности оценки видео высокого качества.

[5] Вариант осуществления данного изобретения предусматривает способ оценки качества видео. Способ включает:

[6] получение последовательности изображений и аудио информации путем декодирования подвергаемого оценке видео, при этом подвергаемое оценке видео является неоскорбительным видео;

[7] получение вектора признака действия и вектор признака лица из последовательности изображений и получение вектора признака аудио из аудио информации;

[8] генерирование вектора признака видео в соответствии, по меньшей мере, с одним из вектора признака действия, вектора признака лица и вектора признака аудио;

[9] подачу вектора признака видео на вход сети оценки первого слоя и получение сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций;

[10] подачу первичного вектора признака на вход сети оценки второго слоя и получение сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций; и

[11] получение оценки качества подвергаемого оценке видео путем выполнения выходным слоем операций в отношении первичного вектора признака и сложного вектора признака;

[12] при этом генерирование вектора признака видео в соответствии, по меньшей мере, с одним из вектора признака действия, вектора признака лица и вектора аудио включает:

[13] приравнивание к нулю вектора признака, который не может быть получен, среди вектора признака действия, вектора признака лица и вектора признака аудио; и

[14] генерирование вектора признака видео путем объединения вектора признака действия, вектора признака лица и вектора признака аудио.

[15] Вариант осуществления данного изобретения дополнительно предусматривает аппарат для оценки качества видео. Аппарат включает:

[16] модуль для декодирования видео, выполненный с возможностью получать последовательность изображений и аудио информации путем декодирования подвергаемого оценке видео, при этом подвергаемое оценке видео представляет собой неоскорбительное видео;

[17] модуль для получения вектора, выполненный с возможностью получать вектор признака действия и вектор признака лица из последовательности изображений и получать вектор признака аудио из аудио информации;

[18] модуль для генерирования вектора, выполненный с возможностью генерировать вектор признака видео в соответствии, по меньшей мере, с одним из вектора признака действия, вектора признака лица и вектора признака аудио; и

[19] модуль для оценки качества, выполненный с возможностью направлять вектор признака видео на вход сети оценки первого слоя и получения сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций; направлять первичный вектор признака на вход сети оценки второго слоя и получения сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций; и получать оценку качества подвергаемого оценке видео путем осуществления выходным слоем операций в отношении первичного вектора признака и сложного вектора признака;

[20] при этом модуль для генерирования вектора дополнительно выполнен с возможностью приравнивать к нулю вектор признака, который не может быть получен, среди вектора признака действия, вектора признака лица и вектора признака аудио; и генерировать вектор признака видео путем объединения вектора признака действия, вектора признака лица и вектора признака аудио.

[21] Вариант осуществления данного изобретения дополнительно предусматривает устройство, включающее:

[22] один или несколько процессоров; и

[23] память, в которой хранится, по меньшей мере, одна программа, при этом

[24] указанная, по меньшей мере, одна программа при запуске на указанном, по меньшей мере, одном процессоре побуждает указанный, по меньшей мере, один процессор реализовывать способ оценки качества видео в соответствии с любым вариантом осуществления данного изобретения.

[25] Вариант осуществления данного изобретения дополнительно предусматривает машиночитаемый носитель данных, на котором хранится компьютерная программа, при этом данная компьютерная программа при запуске на вычислительном аппарате побуждает указанный вычислительный аппарат реализовывать способ оценки качества видео в соответствии с любым вариантом осуществления данного изобретения.

ОПИСАНИЕ ФИГУР

[26] Фиг. 1 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 1 данного изобретения;

[27] Фиг.2 представляет собой схематическую диаграмму сценария использования способа оценки качества видео в соответствии с Вариантом осуществления 1 данного изобретения;

[28] Фиг.3 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 2 данного изобретения;

[29] Фиг.4 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 3 данного изобретения;

[30] Фиг. 5 представляет собой схематическую структурную диаграмму аппарата для оценки качества видео в соответствии с Вариантом осуществления 4 данного изобретения; а

[31] Фиг.6 представляет собой схематическую структурную диаграмму устройства в соответствии с Вариантом осуществления 5 данного изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[32] Высококачественные видео представляет собой видео, которые являются потенциально популярными среди зрителей. Способность точным и всесторонним образом отбирать высококачественные видео из оставшихся видео для показа зрителям определяет ключевые индикаторы, такие как продолжительность просмотра, количество сохранений и количество скачиваний пользователем приложения для коротких видео.

[33] Существует два основных типа способов оценки качества видео, которые широко применяются в рамках данных технологий. Один связан с определением высокого качества видео на основе внешней связанной с видео информации, то есть с определением качества видео на основе данных отзывов от зрителей после выпуска видео. Данный способ имеет недостаток, связанный с отсутствием своевременности, поскольку качество видео оценивается лишь после выпуска видео и получения отзывов зрителей. Другой заключается в определении высокого качества видео на основе некоторых простых параметров изображения в рамках видео. Например, для классификации используется обложка или ключевой кадр видео или кластер изображений для получения некоторой простой описательной информации о содержимом видео и определения высокого качества видео на основе данной описательной информации. Недостаток данного способа заключается в том, что используемые параметры изображения являются слишком простыми, чтобы точным и всесторонним образом описать содержание видео, и, таким образом, качество видео не может быть точно оценено.

[34] Далее описано изобретение со ссылкой на прилагаемые фигуры и варианты осуществления. Конкретные описанные здесь варианты осуществления предназначены лишь для объяснения данного изобретения, но не ограничения данного изобретения. Для простоты описания на фигурах показаны лишь некоторые структуры вместо всех структур, связанных с данным изобретением.

[35] Вариант осуществления 1

[36] Фиг. 1 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 1 данного изобретения. Данный вариант осуществления может применяться для оценки качества видео. Данный способ может быть реализован с помощью аппарата для оценки качества видео, который может быть реализован с помощью аппаратного обеспечения и/или программного обеспечения. Аппарат для оценки качества видео может включать несколько физических сущностей или может включать одну физическую сущность. В одном варианте осуществления аппарат для оценки качества видео встроен в компьютерное устройство.

[37] Как показано на Фиг.1, способ оценки качества видео, предусмотренное в рамках данного варианта осуществления, включает следующие этапы:

[38] На этапе S110 осуществляется получение последовательности изображений и аудио информации подвергаемого оценке видео путем декодирования подвергаемого оценке видео.

[39] В данном варианте осуществления сервер видео получает большое количество видео, создаваемых и загружаемых пользователями каждый день. Серверу видео требуется удалить оскорбительные видео из всех видео, загруженных пользователями, и отобрать видео, которые могут понравиться зрителям. Таким образом, загруженные пользователями видео должны быть распознаны и подвергнуты анализу, при этом видео рекомендуются зрителям в соответствии с результатом анализа.

[40] Способ оценки качества видео в соответствии с данным вариантом осуществления может быть реализован с помощью аппарата для оценки качества видео. Фиг.2 представляет собой схематическую диаграмму сценария использования способа оценки качества видео в соответствии с Вариантом осуществления 1 данного изобретения. Как показано на Фиг.2, пользователь записывает видео с помощью терминала на стороне пользователя 210 и загружает видео на сервер 220. Затем серверная часть 221 системы для рекомендаций 222 на сервере 220 вызывает аппарат для оценки качества видео 223. Аппарат для оценки качества видео 223 оценивает видео, загруженное пользователем, выдает результат оценки и возвращает результат оценки серверной части 221 или системе для рекомендаций 222. Серверная часть 221 или система для рекомендаций 222 обрабатывает видео в соответствии с результатом оценки. В одном варианте осуществления, если результат оценки заключает в том, что видео представляет собой видео высокого качества, то система для рекомендаций 222 рекомендует видео терминалу на стороне зрителя 230. В одном варианте осуществления терминал на стороне пользователя 210 и терминал на стороне зрителя 230 представляют собой одно и то же терминальное устройство, или могут представлять собой два различных терминальных устройства.

[41] В данном варианте осуществления подвергаемое оценке видео представляет собой видео, загруженное пользователем на сервер видео, качество которого неизвестно. Для соответствия связанным с передачей данных требованиям пользователю необходимо подвергнуть видео кодированию перед загрузкой видео. Кодирование заключается в конвертации файла видео в одном формате в файл видео в другом формате с помощью определенной технологии сжатия. В одном варианте осуществления подвергаемое оценке видео, по меньшей мере, включает видео, аудио и/или скрипт. Подвергаемое оценке видео может рассматриваться как набор из нескольких изображений. Подвергнутое кодированию видео требует проведения декодирования перед оценкой подвергаемого оценке видео. Видео может рассматриваться в качестве включающего несколько быстро проигрываемых изображений. Вследствие визуальной инертности невооруженного взгляда изображение кажется непрерывным. Таким образом, декодирование видео может обеспечивать получение нескольких кадров относящихся к изображению данных, при этом каждый кадр относящихся к изображению данных включает одно изображение. После декодирования видео может быть получена последовательность изображений, включая несколько изображений, расположенных в определенном порядке.

[42] В данном варианте осуществления после декодирования подвергаемого оценке видео может быть дополнительно получена аудио информация подвергаемого оценке видео. Аудио информация включает фоновую музыку и связанную с языком информацию человека на подвергаемом оценке видео.

[43] На этапе S120 осуществляется получение вектора признака действия и вектора признака лица из последовательности изображений и получение вектора признака аудио из аудио информации.

[44] В данном варианте осуществления вектор признака действия обозначает признак действия, выраженный в форме вектора. Признак действия включает, по меньшей мере, действие человека и окружение в подвергаемом оценке видео. Например, действие человека представляет собой танцевальное движение, спортивное движение и им подобные движения человека. Окружение представляет собой здание, высокую гору, кусты и им подобные. Признак действия в значительно степени определяет популярность видео.

[45] В данном варианте осуществления получают вектор позы каждого кадра изображения в рамках последовательности изображений. Один кадр изображения соответствует одному фрагменту информации в виде матрицы. Соответствующий вектор позы может быть получен путем объединения информации в виде матрицы. Вектор позы соответствует связанной с изображением информации, соответствующей каждому кадру изображения. Одна последовательность изображений может включать несколько кадров изображений, при этом каждый кадр изображения соответствует одному вектору позы. Несколько полученных векторов позы подвергаются кластеризации для конвертации нескольких векторов позы в векторы признака действия. Способ получения вектора признака действия лишь описан, но не является ограниченным в рамках данного варианта осуществления. Может использоваться любой способ получения вектора признака действия в соответствии с практическими потребностями.

[46] В одном варианте осуществления может быть заранее создана сеть для получения признака действия, при этом вектор признака действия получают из последовательности изображений путем получения признаков из каждого кадра изображения в рамках последовательности изображений с помощью сети для получения признака действия. В одном варианте осуществления сеть для получения признака действия получают путем тонкой настройки сети для распознавания действий. Последовательность изображений подается на вход сети для получения признака действия, при этом вектор признака действия получают из последовательности изображений путем получения признаков из каждого кадра изображения с помощью сети для получения признака действия. Сеть для распознавания действий может включать, по меньшей мере, один тип сети, который обеспечивает достижение приемлемого эффекта на наборе данных для классификации действий, включая, но без ограничения, C3D на основе трехмерной (3D) сверточной сети, интерактивной трехмерной (I3D) сверточной сети, сети временных сегментов (TSN) на основе двухпотокового (2-Stream) метода оптического потока и пространства, и нескольких сетей для распознавания действий на основе рекуррентной нейронной сети (RNN).

[47] Вектор признака лица представляет собой вектор, используемый для описания признака лица. Получение вектора признака лица означает процесс получения вектора признака лица в области лица на основе распознавания лиц.

[48] Существуют в основном два этапа получения вектора признака лица в рамках данного варианта осуществления. Сначала осуществляется распознавание лиц на последовательности изображений и затем получают признаки из связанной с распознанными лицами информации. В одном варианте осуществления сначала осуществляется распознавание лиц на полученной последовательности изображений с помощью способа на основе многозадачной сверточной нейронной сети (MTCNN) для получения связанных с распознаванием лиц данных. Затем получают вектор признаков лица путем получения признаков из связанных с распознаванием лиц данных с помощью способа FaceNet. В данном варианте осуществления сверточная нейронная сеть представляет собой важную технологию глубокого обучения, при этом способ MTCNN представляет собой способ распознавания лиц. Распознавание лиц предназначено для определения присутствия лица на изображении. FaceNet представляет собой способ, в рамках которого получают вектор признаков лица путем сопоставления лица с евклидовым пространством признаков с помощью сверточной нейронной сети.

[49] Фоновая музыка или голос человека на видео также представляет собой важный материал в рамках видео. Должны быть получены признаки аудио информации фоновой музыки или голоса человека. Качество видео оценивается на основе признаков аудио информации. После получения аудиосигнала из видео должны быть использованы некоторые стандартные способы обработки аудиосигнала для предварительной обработки аудио для получения признака спектра или кепстра аудио с последующей отправкой признака спектра или кепстра аудио на вход сети для получения признака аудио для получения вектора признака аудио, который может применяться для распознавания музыки или распознавания речи человека.

[50] Вектор признака аудио представляет собой вектор для описания связанной со звуком информации видео. В одном варианте осуществления получение вектора признака аудио из аудио информации обозначает получение компонента, который отражает основной признак аудио информации, например центральную частоту аудио, или энергетические признаки аудио в некоторых частотных диапазонах, или связанные с распределением энергии признаки аудио в рамках нескольких периодов времени и комбинирование подобных признаков для получения соответствующего вектора признака аудио.

[51] На этапе S130 осуществляется генерирование вектора признака видео в соответствии с вектором признака действия, вектором признака лица и вектором признака аудио.

[52] В данном варианте осуществления вектор признака видео представляет собой вектор, используемый для описания качества видео. Вектор признака видео представляет собой вектор признака, сгенерированный в соответствии с вектором признака действия, вектором признака лица и вектором признака аудио.

[53] Вектор признака видео получают путем комбинирования вектора признака действия, вектора признака лица и вектора признака аудио, полученных на этапе S120. В одном варианте осуществления если только один тип вектора признака получен из подвергаемого оценке видео, то другие два вектора признака, которые не были получены, приравниваются к 0 для получения вектора признака видео. Например, если только вектор признака действия получен из подвергаемого оценке видео, то как вектор признака лица, так и вектор признака аудио приравниваются к 0 для получения вектора признака видео. Если только два типа векторов признака получены из подвергаемого оценке видео, то другой один вектор признака, которые не был получен, приравнивается к 0 для получения вектора признака видео. Например, если только вектор признака действия и вектор признака лица получены из подвергаемого оценке видео, то вектор признака аудио приравнивается к 0 для получения вектора признака видео.

[54] На этапе S140 осуществляется определение показателя качества подвергаемого оценке видео в соответствии с вектором признака видео.

[55] В данном варианте осуществления заранее получают и тренируют сеть для оценки видео, при этом вектор признака видео подается на вход сети для оценки видео. Сеть для оценки видео выдает показатель в качестве показателя качества подвергаемого оценке видео. В одном варианте осуществления сеть для оценки видео может представлять собой простой многослойный персептрон (MLP) или относительно сложную RNN сеть. В одном варианте осуществления используется обучающий набор данных в виде видео высокого качества, при этом соответствующие признаки получают из обучающего набора данных в виде видео высокого качества в соответствии с этапом S120 и хранят в качестве тренировочных данных сети для оценки видео.

[56] В одном варианте осуществления следует учесть возможность отсутствия лиц на некоторых видео при обучении сети для оценки видео. Таким образом, при обучении векторы признака лица должны произвольным образом замещаться нулями в рамках набора с видео высокого качества в качестве средства повышения качества данных, так что обученная сеть может быть лучше адаптирована к реальным данным.

[57] В рамках способа оценки качества видео, предусмотренного в данном варианте осуществления, получают последовательность изображений и аудио информацию подвергаемого оценке видео путем декодирования подвергаемого оценке видео; затем получают вектор признака действия и вектор признака лица из последовательности изображений и получают вектор признака аудио из аудио информации; затем генерируют вектор признака видео в соответствии с вектором признака действия, вектором признака лица, и вектором признака аудио; и наконец определяют показатель качества подвергаемого оценке видео в соответствии с вектором признака видео. В соответствии с данным вариантом осуществления показатель качества подвергаемого оценке видео может быть определен в соответствии, по меньшей мере, с одним полученным вектором в виде вектора признака действия, вектора признака лица и вектора признака аудио в подвергаемом оценке видео, тем самым повышая своевременность оценки качества видео и точность оценки видео высокого качества.

[58] Вариант осуществления 2

[59] Фиг.3 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 2 данного изобретения. Данный вариант осуществления может применяться для оценки качества видео. Способ оценки качества видео в рамках предшествующего варианта осуществления описан в данном варианте осуществления. Как показано на Фиг.3, способ оценки качества видео, предусмотренное в рамках данного варианта осуществления, включает следующие этапы:

[60] На этапе S310 осуществляется получение последовательности изображений и аудио информации подвергаемого оценке видео путем декодирования подвергаемого оценке видео.

[61] На этапе S320 вектор признака действия получают из последовательности изображений путем получения признаков из каждого кадра изображения в рамках последовательности изображений с помощью сети для получения признака действия.

[62] В данном варианте осуществления перед получением признаков из каждого кадра изображения с помощью сети для получения признака действия должна быть получена и обучена сеть для получения признака действия. В одном варианте осуществления получение и обучение сети для получения признака действия в целом включает следующие этапы: получение набора обучающего видео и получение последовательностей изображений из каждого обучающего видео в рамках набора обучающего видео; получение сети для классификации действий путем обучения на базе данных видео; и получение сети для получения признака действия путем обучения сети для классификации действий на последовательностях изображений из каждого обучающего видео из набора обучающего видео и удаление слоя классификации из сети для классификации действий.

[63] В одном варианте осуществления набор обучающего видео представляет собой набор видео высокого качества, полученный с помощью способа на основе ручного скрининга. Чем больше типов и чем больше количество присутствующих видео высокого качества, тем выше точность сети для получения признака действия и тем более эффективным является результат оценки видео. Сначала получают набор видео высокого качества и получают последовательность изображений, соответствующую каждому видео высокого качества, путем декодирования каждого видео высокого качества в наборе видео высокого качества.

[64] Сеть для классификации действий получают путем обучения на базе данных видео на основе нейронной сети. Нейронная сеть включает, но без ограничения, C3D на основе 3D сверточной сети, I3D сверточной сети, TSN на основе двухпотокового метода оптического потока и пространства, и несколько сетей для распознавания действий на основе RNN. База данных видео включает, но без ограничения, наборы данных Kinetics и YouTube-8M. Kinetics представляет собой крупный открытый набор данных, то есть набор данных с точно размеченными действиями. YouTube-8M также представляет собой крупный открытый набор данных, который является крупным набором данных видео. Сеть для классификации действий может быть получена путем обучения на видео из набора данных Kinetics или набора данных YouTube-8M. В данном варианте осуществления способ обучения сети для классификации действий не ограничен, при этом может применяться любой способ обучения модели в рамках данной технологии, обеспечивающий получение сети для классификации действий с помощью обучения.

[65] После получения сети для классификации действий сеть для классификации действий подвергается тонкой настройке с помощью последовательности изображений, полученной из каждого видео высокого качества в рамках набора видео высокого качества, при этом слой классификации удаляется из сети для классификации действий для получения сети для получения признака действия.

[66] На этапе S330 получают вектор признака лица из последовательности изображений с помощью сети для получения признака лица.

[67] В данном варианте осуществления сети для получения признака лица включает подсеть для распознавания лиц и подсеть для получения признака. В одном варианте осуществления получение вектора признака лица из последовательности изображений путем использования сети для получения признака лица включает: распознавание изображения лица на каждом кадре изображения в рамках последовательности изображений путем использования подсети для распознавания лиц; и получение вектора признака лица из последовательности изображений путем получения признаков изображения лица из каждого кадра изображения в рамках последовательности изображений с помощью подсети для получения признака.

[68] В данном варианте осуществления подсеть для распознавания лиц может быть сгенерирована с помощью обычной сети для распознавания лиц, например многозадачные каскадные сверточные сети (MTCNN). В одном варианте осуществления распознавание изображения лица на каждом кадре изображения в рамках последовательности изображений с помощью подсети для распознавания лиц включает: сначала фильтрацию областей лиц- кандидатов и соответствующих границ областей лиц-кандидатов в каждом кадре изображения путем использования предложенной сети (P-Net) в рамках MTCNN сети, и затем объединение совпадающих границ областей лиц-кандидатов с помощью алгоритма максимального подавления; затем уточнение областей лиц-кандидатов с помощью сети уточнения (R-Net) в рамках алгоритма MTCNN для получения изображения лица-кандидата и удаление границы некорректной области лица-кандидата с помощью алгоритма регрессии на основе ограничивающего прямоугольника и алгоритма немаксимального подавления; и фильтрацию оставшихся границ областей лиц-кандидатов с помощью выходной сети (O-Net) в рамках алгоритма MTCNN, и распознавание лица на изображении лица-кандидата. В одном варианте осуществления при наличии на видео нескольких лиц выбирается лицо, которое является относительно крупным и расположенным близко в центру изображения.

[69] В одном варианте осуществления открытая предварительно обученная сети для распознавания лиц может напрямую использоваться в качестве подсети для распознавания лиц или сети для распознавания лиц может быть обучена на основе набора видео высокого качества, так что подсеть для распознавания лиц является более точной в плане распознавания людей на видео высокого качества.

[70] Подсеть для получения признака может включать открытую предварительно обученную сеть для распознавания лиц, включая, но без ограничения, FaceNet, InsightFace и им подобные, или сеть может быть получена самостоятельно в соответствии с принципом подсети для получения признака, после чего специализированную модель для распознавания лиц получают с помощью обучения на основе набора данных с видео высокого качества. В рамках процесса обучения подсети для получения признака требуется несколько изображений лица одного человека, при этом они могут быть получены из селфи-видео, загруженного одним пользователем. Обученная подсеть для получения признака выдает очень похожие векторы признака для различных изображений лица одного человека. Вектор признака включает информацию о чертах лица человека, которая может использоваться для идентификации разных людей или может использоваться в качестве основы для оценки популярности внешнего вида.

[71] Этот вариант осуществления предусматривает способ обучения подсети для получения признака. Способ включает следующие этапы: получение набора обучающего видео и получение изображений лица из каждого обучающего видео в рамках набора обучающего видео; получение сети для распознавания лиц путем обучения на базе данных лиц; и получение подсети для получения признака путем обучения сети для распознавания лиц с помощью изображений лиц из каждого обучающего видео в рамках набора обучающего видео. Набор обучающего видео представляет собой набор видео высокого качества, полученный с помощью способа на основе ручного скрининга.

[72] На этапе S340 получают кепстральный коэффициент и/или спектр аудио информации, при этом вектор признака аудио получают путем получения признаков из кепстрального коэффициента и/или спектра с помощью сети для получения признака аудио.

[73] Музыка или голос человека на видео также представляет собой важный материал в рамках видео. Вектор признака звука музыки или голоса человека должен быть получен с помощью сети для получения признака аудио для оценки качества видео в соответствии с вектором признака звука.

[74] В данном варианте осуществления кепстральный коэффициент представляет собой мел-частотный кепстральный коэффициент (MFCC). Мел-частота предложена на основе особенностей слуха человека, при этом мел-частота и частота герц (Гц) имеют нелинейное соответствие. MFCC коэффициент представляет собой признак частоты, получаемый с помощью вычислений на основе связи между мел-частотой и частотой в Гц. В данном варианте осуществления способ получения кепстрального коэффициента аудио информации не ограничен, при этом может использоваться любой способ получения кепстрального коэффициента аудио информации.

[75] В одном варианте осуществления спектр обозначает анализ связанной с частотой части, а не связанной со временем части аудио информации при анализе аудио информации. Получения спектра аудио информации представляет собой получение связанной с частотой части в рамках аудио информации. В данном варианте осуществления способ получения спектра аудио информации не ограничен, при этом может использоваться любой способ получения спектра аудио информации. В данном варианте осуществления может быть получен любой один из кепстрального коэффициента или спектра аудио информации, или может быть получен как кепстральный коэффициент, так и спектр аудио информации.

[76] В одном варианте осуществления перед получением кепстрального коэффициента и/или спектра аудио информации дополнительно включено следующее: после получения аудиосигнала из видео аудио должно быть сначала подвергнуто предварительной обработке с помощью некоторых стандартных способов обработки аудиосигнала. В рамках Варианта осуществления 1 предварительная обработка, по меньшей мере, включает удаление шума, повышение громкости, нормализацию данных и другие виды обработки. Предварительная обработка аудио информации может повышать точность распознавания аудио. Алгоритм, используемый для предварительной обработки аудио, должен быть определен в соответствии с требованиями набора данных для предварительного обучения и оставаться неизменным во время обучения и предсказания.

[77] В данном варианте осуществления после получения кепстрального коэффициента и/или спектра аудио информации вектор признака аудио получают путем получения признаков из кепстрального коэффициента и/или спектра с помощью сети для получения признака аудио.

[78] В данном варианте осуществления предусмотрен способ обучения сети для получения признака аудио. Способ обучения сети для получения признака аудио включает: получение набора обучающего видео и получение аудио информации из каждого обучающего видео в рамках набора обучающего видео; получение сети для распознавания аудио путем обучения на базе данных аудио; и получение сети для получения признака аудио путем обучения сети для распознавания аудио с помощью аудио информации из каждого обучающего видео в рамках набора обучающего видео. В одном варианте осуществления сеть для получения признака аудио может представлять собой любую сеть на основе сверточной нейронной сети (Convolutional Neural Networks, CNN) или RNN. Сеть для распознавания аудио подвергается предварительному обучению на открытом наборе данных, используемом для распознавания музыки или распознавания речи человека, и затем получают сеть для получения признака аудио путем тонкой настройки сети для распознавания аудио на основе набора для обучения с видео высокого качества.

[79] Три этапа, S320, S330 и S340, могут быть реализованы в любом порядке, при этом порядок реализации данных трех этапов не ограничен в данном варианте осуществления.

[80] На этапе S350 осуществляется генерирование вектора признака видео в соответствии с вектором признака действия, вектором признака лица и вектором признака аудио.

[81] На этапе S360 получают показатель качества подвергаемого оценке видео путем подачи вектора признака видео на вход сети для оценки видео.

[82] В данном варианте осуществления сеть для оценки видео может представлять собой простой многослойный персептрон или относительно сложную RNN сеть. Ввод сети для оценки видео представляет собой вектор признака видео, при этом вывод представляет собой показатель, указывающий на качество видео. В одном варианте осуществления, если выходной показатель превышает 0, то реальный выходной показатель используется в качестве показателя качества подвергаемого оценке видео. Если выходной показатель составляет менее 0, то в качестве показателя качества подвергаемого оценке видео используется 0.

[83] В одном варианте осуществления сеть для оценки видео включает сеть оценки первого слоя, сеть оценки второго слоя и выходной слой.

[84] Получение показателя качества подвергаемого оценке видео путем подачи вектора признака видео на вход сети для оценки видео включает: подачу вектора признака видео на вход сети оценки первого слоя и получение сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций; подачу сетью оценки первого слоя первичного вектора признака на вход сети оценки второго слоя и выходного слоя и получение сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций и подачи сложного вектора признака на вход выходного слоя; и получение показателя качества подвергаемого оценке видео путем осуществления выходным слоем операций в отношении первичного вектора признака и сложного вектора признака. В одном варианте осуществления следует учесть возможность отсутствия лиц на некоторых видео при обучении сети для оценки видео. Таким образом, при обучении признаки лица должны быть произвольным образом замещены нулями в рамках набора с видео высокого качества в качестве средства повышения качества данных, так что обученная сеть может быть лучше адаптирована к реальным данным.

[85] На основе вышеуказанного варианта осуществления этап S320 может быть замещен следующим: получением данных оптического потока каждого кадра изображения в рамках последовательности изображений; и получением вектора признака действия из последовательности изображений путем получения признаков из данных оптического потока каждого кадра изображения в рамках последовательности изображений путем использования сети для получения признака действия.

[86] В рамках способа оценки качества видео, предусмотренного в данном варианте осуществления, сначала получают последовательность изображений и аудио информацию подвергаемого оценке видео путем декодирования подвергаемого оценке видео; затем получают вектор признака действия из последовательности изображений путем получения признаков из каждого кадра изображения в рамках последовательности изображений путем использования сети для получения признака действия; получают вектор признака лица из последовательности изображений путем использования сети для получения признака лица; получают вектор признака аудио путем получения признаков из кепстрального коэффициента и/или спектра аудио информации путем использования сети для получения признака аудио; затем генерируют вектор признака видео в соответствии с вектором признака действия, вектором признака лица, и вектором признака аудио; и наконец определяют показатель качества подвергаемого оценке видео в соответствии с вектором признака видео. В соответствии с данным вариантом осуществления показатель качества подвергаемого оценке видео может быть определен в соответствии, по меньшей мере, с одним полученным вектором в виде вектора признака действия, вектора признака лица и вектора признака аудио в подвергаемом оценке видео, тем самым повышая своевременность оценки качества видео и точность оценки видео высокого качества.

[87] Вариант осуществления 3

[88] На основе приведенного выше варианта осуществления данный вариант осуществления предусматривает пример. Фиг.4 представляет собой блок-схему способа оценки качества видео в соответствии с Вариантом осуществления 3 данного изобретения. Как показано на Фиг.4, способ оценки качества видео включает следующие этапы:

[89] На этапе S4010 получают подвергаемое оценке видео. Подвергаемое оценке видео может представлять собой видео, которое пользователь только что записал и загрузил на сервер, или может представлять собой видео, хранимое на сервере, для которого не проводилась оценка качества. В одном варианте осуществления подвергаемое оценке видео в данном варианте осуществления представляет собой короткое видео, записанное пользователем.

[90] На этапе S4020 подвергаемое оценке видео декодируется, так что может быть получена последовательность изображений, включая несколько изображений, расположенных в определенном порядке.

[91] На этапе S4030 после декодирования подвергаемого оценке видео может быть получена аудио информация подвергаемого оценке видео. Аудио информация включает фоновую музыку и связанную с языком информацию человека на подвергаемом оценке видео.

[92] Этапы S4020 и S4030 могут быть реализованы последовательно или в обратном порядке, то есть S4030 может быть реализован после S4020 или S4020 может быть реализован после S4030. В одном варианте осуществления S4020 и S4030 могут быть реализованы одновременно. В данном варианте осуществления порядок, в котором реализуются S4020 и S4030, не ограничивается.

[93] На этапе S4040 получают последовательность оптического потока путем получения данных оптического потока каждого кадра изображения в рамках последовательности изображений.

[94] На этапе S4050 последовательность изображений, полученная с помощью декодирования на этапе S4020, или последовательность оптического потока, полученная на этапе S4040, подается на вход сети для получения признака действия.

[95] На этапе S4060 сеть для получения признака действия выдает вектор признака действия. Вектор признака действия представляет собой вектор признака действия, выраженного в форме вектора. Признак действия включает, по меньшей мере, действие человека и окружение в подвергаемом оценке видео. Например, действие человека представляет собой танцевальное движение, спортивное движение и им подобные движения человека. Окружение представляет собой здание, высокую гору, кусты и им подобные. Признак действия в значительно степени определяет популярность видео.

[96] На этапе S4070 получают изображение лица путем использования подсети для распознавания лиц, распознавания лиц на последовательности изображений, полученной путем получения на этапе S4020. Открытая предварительно обученная сеть для распознавания лиц может быть напрямую использована в качестве подсети для распознавания лиц или сеть для распознавания лиц может быть обучена на основе набора видео высокого качества, так что подсеть для распознавания лиц является более точной в плане распознавания людей на видео высокого качества.

[97] На этапе S4080 изображение лица, полученное на этапе S4070, подается на вход подсети для получения признака. Подсеть для получения признака может включать открытую предварительно обученную сеть для распознавания лиц, включая, но без ограничения, FaceNet, InsightFace и им подобные, или сеть может быть получена самостоятельно в соответствии с принципом подсети для получения признака, после чего специализированную модель для распознавания лиц получают с помощью обучения на основе набора данных с видео высокого качества.

[98] На этапе S4090 подсеть для получения признака выдает вектор признака лица. Обученная подсеть для получения признака выдает очень похожие векторы признака для различных изображений лица одного человека. Вектор признака включает информацию о чертах лица человека, которая может использоваться для идентификации разных людей или может использоваться в качестве основы для оценки популярности внешнего вида.

[99] На этапе S4100 после предварительной обработки связанной с видео информации, полученной с помощью декодирования на этапе S4030, из аудио информации получают спектр.

[100] На этапе S4110 после предварительной обработки аудио информации, полученной путем декодирования на этапе S4030, из аудио информации получают мел- частотный кепстральный коэффициент.

[101] Фоновая музыка или голос человека на видео также представляет собой важный материал в рамках видео. Должны быть получены признаки аудио информации фоновой музыки или голоса человека. Качество видео оценивается на основе признаков аудио информации.

[102] На этапе S4120 аудиоспектр, полученный на этапе S4100, и мел-частотный кепстральный коэффициент, полученный на этапе S4110, подают на вход сети для получения признака аудио. Сеть для получения признака аудио может представлять собой любую сеть на основе CNN или RNN. Сеть для распознавания аудио подвергается предварительному обучению на открытом наборе данных, используемом для распознавания музыки или распознавания речи человека, и затем сеть для распознавания аудио подвергается тонкой настройке на основе набора для обучения с видео высокого качества для получения сети для получения признака аудио.

[103] На этапе S4130 сеть для получения признака аудио выдает вектор признака аудио. Вектор признака аудио представляет собой вектор для описания связанной со звуком информации видео.

[104] На этапе S4140 осуществляется генерирование вектора признака видео в соответствии с вектором признака действия, вектором признака лица и вектором признака аудио.

[105] На этапе S4150 вектор признака видео подается на вход сети для оценки видео. Сеть для оценки видео может представлять собой простой многослойный персептрон или относительно сложную RNN сеть. Ввод сети для оценки видео представляет собой вектор признака видео, при этом вывод представляет собой показатель, указывающий на качество видео.

[106] На этапе S4160 сеть для оценки видео выдает показатель качества видео. Показатель качества видео используется для измерения качества видео. Более высокий показатель указывает на видео более высокого качества.

[107] На основе приведенного выше варианта осуществления данный вариант осуществления предусматривает пример. Пользователь загружает короткое видео длительностью одну минуту с помощью приложения для коротких видео. В одном варианте осуществления короткое видео представляет собой видео с танцующим человеком A, при этом фоновая музыка представляет собой музыку B. Принимается, что короткое видео включает 24 кадра в секунду. В данном случае короткое видео длительностью одну минуту декодируется, при этом могут быть получены 1440 кадров относящихся к изображению данных и относящаяся к аудио информация длительностью одну минуту. Каждый кадр относящихся к изображению данных включает одно изображение, то есть может быть получена последовательность изображений, включающая 1440 последовательных изображений. Последовательность изображений, включающая 1440 изображений, подается на вход сети для получения признака действия и сети для получения признака лица. Сеть для получения признака действия выдает вектор признака действия для обозначения танцевального движения человека А на видео. Сеть для получения признака лица выдает вектор признака лица для обозначения связанной с чертами лица информации человека А на видео. Аудио информация подается на вход сети для получения признака аудио, при этом сеть для получения признака аудио выдает вектор признака аудио. Например, вектор признака действия представляет собой вектор с тремя строками и пятью колонками, вектор признака лица представляет собой вектор с пятью строками и восемью колонками, а вектор признака видео представляет собой вектор с четырьмя строками и девятью колонками. Вектор признака видео генерируется в соответствии, по меньшей мере, с одним из вектора признака действия, вектора признака лица и вектора признака аудио. Может быть получен вектор признака видео с пятью строками и 22 колонками. Вектор признака видео подается на вход сети для оценки видео. Сеть для оценки видео выдает показатель качества. Например, показатель может составлять 95 баллов.

[108] В рамках способа оценки качества видео, предусмотренного в данном варианте осуществления, получают последовательность изображений и аудио информацию подвергаемого оценке видео путем декодирования подвергаемого оценке видео; затем получают вектор признака действия и вектор признака лица из последовательности изображений и получают вектор признака аудио из аудио информации; затем генерируют вектор признака видео в соответствии с вектором признака действия, вектором признака лица, и вектором признака аудио; и наконец определяют показатель качества подвергаемого оценке видео в соответствии с вектором признака видео. В соответствии с данным вариантом осуществления показатель качества подвергаемого оценке видео может быть определен в соответствии, по меньшей мере, с одним полученным вектором в виде вектора признака действия, вектора признака лица и вектора признака аудио в подвергаемом оценке видео, тем самым повышая своевременность оценки качества видео и точность оценки видео высокого качества.

[109] Вариант осуществления 4

[110] Фиг. 5 представляет собой схематическую структурную диаграмму аппарата для оценки качества видео в соответствии с Вариантом осуществления 4 данного изобретения. Данный вариант осуществления может применяться для оценки качества видео. Аппарат для оценки качества видео может быть реализован с помощью аппаратного обеспечения и/или программного обеспечения. Аппарат для оценки качества видео предназначен для интеграции в рамках терминального устройства. Структура аппарата для оценки качества видео включает следующее: модуль для декодирования видео 510, выполненный с возможностью получать последовательность изображений и аудио информацию подвергаемого оценке видео путем декодирования подвергаемого оценке видео; модуль для получения вектора 520, выполненный с возможностью получать вектор признака действия и вектор признака лице из последовательности изображений и получать вектор признака аудио из аудио информации; модуль для генерирования вектора 530, выполненный с возможностью генерировать вектор признака видео в соответствии с вектором признака действия, вектором признака лица и вектором признака аудио; и модуль для оценки качества 540, выполненный с возможностью определять показатель качества подвергаемого оценке видео в соответствии с вектором признака видео.

[111] В рамках аппарата для оценки качества видео, предусмотренного в данном варианте осуществления, получают последовательность изображений и аудио информацию подвергаемого оценке видео путем декодирования подвергаемого оценке видео; затем получают вектор признака действия и вектор признака лица из последовательности изображений и получают вектор признака аудио из аудио информации; затем генерируют вектор признака видео в соответствии с вектором признака действия, вектором признака лица, и вектором признака аудио; и наконец определяют показатель качества подвергаемого оценке видео в соответствии с вектором признака видео. В соответствии с данным вариантом осуществления показатель качества подвергаемого оценке видео может быть определен в соответствии, по меньшей мере, с одним полученным вектором в виде вектора признака действия, вектора признака лица и вектора признака аудио в подвергаемом оценке видео, тем самым повышая своевременность оценки качества видео и точность оценки видео высокого качества.

[112] Вариант осуществления 5

[113] Фиг.6 представляет собой схематическую структурную диаграмму устройства в соответствии с Вариантом осуществления 5 данного изобретения. Как показано на Фиг.6, устройство включает процессор 610 и память 620. В устройстве может присутствовать один или несколько процессоров 610, при этом на Фиг.6, например, присутствует один процессор 610. Процессор 610 и память 620 в устройстве могут быть соединены через шину или другим образом, при этом на Фиг.6, например, соединение реализовано через шину.

[114] В качестве машиночитаемого носителя данных память 620 может быть выполнена с возможность хранить относящиеся к программному обеспечению программы, выполняемые компьютером программы и модули, такие как программные инструкции/модули (например модуль для декодирования видео 510, модуль для получения вектора 520, модуль для генерирования вектора 530, и модуль для оценки качества 540 в рамках аппарата для оценки качества видео), соответствующие способу оценки качества видео в рамках вариантов осуществления настоящего изобретения. Процессор 610 выполняет относящиеся к программному обеспечению программы, инструкции и модули, хранящиеся в памяти 620, для реализации различных функциональных вариантов использования устройства и обработки данных, то есть для реализации описанного выше способа оценки качества видео.

[115] Вариант осуществления 6

[116] Вариант осуществления 6 дополнительно предусматривает носитель данных, включая выполняемые компьютером инструкции. Выполняемые компьютером инструкции при запуске на компьютерном процессе побуждают вычислительный аппарат реализовывать способ оценки качества видео. Способ включает: получение последовательности изображений и аудио информации подвергаемого оценке видео путем декодирования подвергаемого оценке видео; получение вектора признака действия и вектора признака лица из последовательности изображений и получение вектора признака аудио из аудио информации; затем генерирование вектора признака видео в соответствии с вектором признака действия, вектором признака лица, и вектором признака аудио; и определение показателя качества подвергаемого оценке видео в соответствии с вектором признака видео.

[117] В рамках носителя данных, включающего выполняемые компьютером инструкции в соответствии с данным вариантом осуществления данного изобретения, помимо осуществления операций в рамках вышеуказанного способа, выполняемые компьютером инструкции также могут применяться для осуществления аналогичных операций в рамках способа оценки качества видео в соответствии с любым вариантом данного изобретения.

Похожие патенты RU2764125C1

название год авторы номер документа
СПОСОБ МНОГОМОДАЛЬНОГО БЕСКОНТАКТНОГО УПРАВЛЕНИЯ МОБИЛЬНЫМ ИНФОРМАЦИОННЫМ РОБОТОМ 2020
  • Рюмин Дмитрий
  • Кипяткова Ирина Сергеевна
  • Кагиров Ильдар Амирович
  • Аксёнов Александр
  • Карпов Алексей Анатольевич
RU2737231C1
СПОСОБ И СИСТЕМА СЕГМЕНТАЦИИ СЦЕН ВИДЕОРЯДА 2022
  • Лексутин Роман Валерьевич
  • Жилин Евгений Юрьевич
RU2783632C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ НЕСКОЛЬКИХ ДАТЧИКОВ 2004
  • Асеро Алехандро
  • Дроппо Джеймс Г.
  • Денг Ли
  • Синклер Майкл Дж.
  • Хуанг Ксуедонг Дэвид
  • Чжэн Янли
  • Жанг Женжиоу
  • Лиу Зиченг
RU2373584C2
Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон 2019
  • Захаров Егор Олегович
  • Шишея Александра Петровна
  • Бурков Егор Андреевич
  • Лемпицкий Виктор Сергеевич
RU2720361C1
ОДНОВРЕМЕННОЕ РАСПОЗНАВАНИЕ АТРИБУТОВ ЛИЦ И ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПРИ ОРГАНИЗАЦИИ ФОТОАЛЬБОМОВ 2018
  • Савченко Андрей Владимирович
RU2710942C1
СПОСОБ И СИСТЕМА АВТОМАТИЗИРОВАННОГО ГЕНЕРИРОВАНИЯ ВИДЕОПОТОКА С ЦИФРОВЫМ АВАТАРОМ НА ОСНОВЕ ТЕКСТА 2020
  • Зырянов Александр Владимирович
  • Куриленков Александр Николаевич
  • Ивленков Сергей Владимирович
  • Левин Максим Александрович
RU2748779C1
СПОСОБ АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ СРЕДСТВ ИНДИВИДУАЛЬНОЙ ЗАЩИТЫ НА ЛИЦЕ ЧЕЛОВЕКА 2022
  • Рюмина Елена Витальевна
  • Маркитантов Максим Викторович
  • Рюмин Дмитрий Александрович
  • Карпов Алексей Анатольевич
RU2791415C1
СИСТЕМА ДЛЯ ВЕРИФИКАЦИИ ГОВОРЯЩЕГО 1996
  • Мэммон Ричард Дж.
  • Фаррел Кевин
  • Шарма Мэниш
  • Дивэнг Нейк
  • Занг Зяою
  • Ассалех Халед
  • Леу Хан-Шенг
RU2161336C2
СПОСОБ АВТОМАТИЧЕСКОГО КОНТРОЛЯ СКОРОСТИ ХОДА УГОЛЬНОГО КОМБАЙНА НА ОСНОВАНИИ СТЕПЕНИ ОБРУШЕНИЯ УГОЛЬНОГО ЗАБОЯ 2020
  • Си, Лей
  • Ванг Чжонгбин
  • Тан Чао
  • Ян Хайфенг
  • Лю Синхуа
  • Лю Сюйлянь
  • Вэй Донг
  • Лю Сунюн
  • Цзян Хонсян
  • Ксю Шаои
  • Тонг Куангвэй
RU2780056C1
НЕЙРОСЕТЕВОЙ ПЕРЕНОС ВЫРАЖЕНИЯ ЛИЦА И ПОЗЫ ГОЛОВЫ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ ДЕСКРИПТОРОВ ПОЗЫ 2020
  • Бурков Егор Андреевич
  • Пасечник Игорь Игоревич
  • Лемпицкий Виктор Сергеевич
RU2755396C1

Иллюстрации к изобретению RU 2 764 125 C1

Реферат патента 2022 года СПОСОБ ОЦЕНКИ КАЧЕСТВА ВИДЕО И АППАРАТ, УСТРОЙСТВО И НОСИТЕЛЬ ДАННЫХ

Изобретение относится к области вычислительной техники для обработки видеоданных. Технический результат заключается в повышении точности оценки качества подвергаемого оценке видео. Технический результат достигается за счет получения вектора признака действия и вектора признака лица из последовательности изображений и получения вектора признака аудио из аудио информации; генерирования вектора признака видео в соответствии по меньшей мере с одним из вектора признака действия, вектора признака лица и вектора признака аудио; подачи вектора признака видео на вход сети оценки первого слоя и получения сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций; подачи первичного вектора признака на вход сети оценки второго слоя и получения сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций; и получения оценки качества подвергаемого оценке видео путем выполнения выходным слоем операций в отношении первичного вектора признака и сложного вектора признака. 4 н. и 8 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 764 125 C1

1. Способ оценки качества видео, включающий:

получение последовательности изображений и аудио информации путем декодирования подвергаемого оценке видео, при этом подвергаемое оценке видео является неоскорбительным видео;

получение вектора признака действия и вектора признака лица из последовательности изображений и получение вектора признака аудио из аудио информации;

генерирование вектора признака видео в соответствии по меньшей мере с одним из вектора признака действия, вектора признака лица и вектора признака аудио;

подачу вектора признака видео на вход сети оценки первого слоя и получение сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций;

подачу первичного вектора признака на вход сети оценки второго слоя и получение сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций; и

получение оценки качества подвергаемого оценке видео путем выполнения выходным слоем операций в отношении первичного вектора признака и сложного вектора признака;

при этом генерирование вектора признака видео в соответствии по меньшей мере с одним из вектора признака действия, вектора признака лица и вектора аудио включает:

приравнивание к нулю вектора признака, который не может быть получен, среди вектора признака действия, вектора признака лица и вектора признака аудио; и

генерирование вектора признака видео путем объединения вектора признака действия, вектора признака лица и вектора признака аудио.

2. Способ по п.1, отличающийся тем, что получение вектора признака действия из последовательности изображений включает:

получение вектора признака действия путем получения признаков из каждого кадра изображения с помощью сети для получения признака действия;

и/или

получение данных оптического потока каждого кадра изображения; и

получение вектора признака действия путем получения признаков из данных оптического потока каждого кадра изображения с помощью сети для получения признака действия.

3. Способ по п.2, дополнительно включающий:

получение набора обучающего видео и получение последовательностей изображений из каждого обучающего видео;

получение сети для классификации действий путем обучения на базе данных видео; и

получение сети для получения признака действия путем обучения сети для классификации действий на последовательностях изображений из каждого обучающего видео и удаления слоя классификации из сети для классификации действий.

4. Способ по п.1, отличающийся тем, что получение вектора признака лица из последовательности изображений включает:

получение вектора признака лица из последовательности изображений с помощью сети для получения признака лица.

5. Способ по п.4, отличающийся тем, что сеть для получения признака лица включает подсеть для распознавания лиц и подсеть для получения признака.

6. Способ по п.5, отличающийся тем, что получение вектора признака лица из последовательности изображений с помощью сети для получения признака лица включает:

распознавание изображения лица на каждом кадре изображения в рамках последовательности изображений с помощью подсети для распознавания лиц; и

получение вектора признака лица путем получения признаков изображения лица из каждого кадра изображения с помощью подсети для получения признака.

7. Способ по п.6, дополнительно включающий:

получение набора обучающего видео и получение изображений лица из каждого обучающего видео;

получение сети для распознавания лиц путем обучения на базе данных лиц; и

получение подсети для получения признака путем обучения сети для распознавания лиц с помощью изображений лица из каждого обучающего видео.

8. Способ по п.1, отличающийся тем, что получение вектора признака аудио из аудио информации включает:

получение по меньшей мере одного из кепстрального коэффициента и спектра аудио информации; и

получение вектора признака аудио путем получения признаков из по меньшей мере одного из кепстрального коэффициента и спектра путем использования сети для получения признака аудио.

9. Способ по п.8, дополнительно включающий:

получение набора обучающего видео и получение аудио информации из каждого обучающего видео;

получение сети для распознавания аудио путем обучения на базе данных аудио; и

получение сети для получения признака аудио путем обучения сети для распознавания аудио с помощью аудио информации из каждого обучающего видео.

10. Аппарат для оценки качества видео, включающий:

модуль для декодирования видео, выполненный с возможностью получать последовательность изображений и аудио информации путем декодирования подвергаемого оценке видео, при этом подвергаемое оценке видео представляет собой неоскорбительное видео;

модуль для получения вектора, выполненный с возможностью получать вектор признака действия и вектор признака лица из последовательности изображений и получать вектор признака аудио из аудио информации;

модуль для генерирования вектора, выполненный с возможностью генерировать вектор признака видео в соответствии по меньшей мере с одним из вектора признака действия, вектора признака лица и вектора признака аудио; и

модуль для оценки качества, выполненный с возможностью направлять вектор признака видео на вход сети оценки первого слоя и получения сетью оценки первого слоя первичного вектора признака с помощью рекурсивных и нелинейных операций; направлять первичный вектор признака на вход сети оценки второго слоя и получения сетью оценки второго слоя сложного вектора признака с помощью рекурсивных и нелинейных операций; и получать оценку качества подвергаемого оценке видео путем осуществления выходным слоем операций в отношении первичного вектора признака и сложного вектора признака;

при этом модуль для генерирования вектора дополнительно выполнен с возможностью приравнивать к нулю вектор признака, который не может быть получен, среди вектора признака действия, вектора признака лица и вектора признака аудио; и генерировать вектор признака видео путем объединения вектора признака действия, вектора признака лица и вектора признака аудио.

11. Электронное устройство, включающее:

по меньшей мере один процессор; и

память, в которой хранится по меньшей мере одна программа, при этом

указанная по меньшей мере одна программа при запуске на указанном по меньшей мере одном процессоре побуждает указанный по меньшей мере один процессор реализовывать способ оценки качества видео в соответствии с любым из пп.1-9.

12. Машиночитаемый носитель данных, на котором хранится компьютерная программа, при этом данная компьютерная программа при запуске на вычислительном аппарате побуждает указанный вычислительный аппарат реализовывать способ оценки качества видео в соответствии с любым из пп.1-9.

Документы, цитированные в отчете о поиске Патент 2022 года RU2764125C1

Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса 1924
  • Шапошников Н.П.
SU2015A1
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса 1924
  • Шапошников Н.П.
SU2015A1
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
ТЕХНОЛОГИЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА ВИДЕО 2010
  • Петтерссон Мартин
  • Россхольм Андреас
RU2540846C2

RU 2 764 125 C1

Авторы

Лю, Юнь

Лю, Хуэйчуань

Лян, Чжуцзинь

Даты

2022-01-13Публикация

2019-12-04Подача