СПОСОБ ИДЕНТИФИКАЦИИ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ Российский патент 2018 года по МПК G10L15/10 G10L21/06 

Описание патента на изобретение RU2662939C1

Изобретение относится к технике анализа воспроизводимых музыкальных произведений и может быть использовано для идентификации музыкальных произведений, контроля авторства музыкальных произведений, сбора соответствующих статистических данных.

Известен способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор спектрограмм или частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор аудиоотпечатков, сравнивают аудиоотпечатки, характеризующие воспроизводимое музыкальное произведение, и аудиоотпечатки, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения (см. патент РФ на полезную модель №81614, МПК H04N 7/173, публ. 2006 г.). К недостаткам известного способа можно отнести недостаточное качество идентификации, невысокую шумоустойчивость и использование сложного алгоритма идентификации.

Наиболее близким по технической сущности к предлагаемому является способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор спектрограмм или частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора спектрограмм в набор идентификационных показателей (аудиоотпечатки), сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения ((см., например, Shazam: алгоритмы распознавания музыки, сигнатуры, обработка данных, https://habrahabr.ru, или патент US 6990453). К недостаткам известного способа также можно отнести недостаточное качество идентификации, невысокую шумоустойчивость и использования сложного алгоритма идентификации.

Предлагаемый способ направлен на решение задачи и достижение технического результата, состоящего в повышении качества идентификации, возможности использования упрощенного алгоритма идентификации за счет возможности использования признаков, однозначно характеризующих воспроизводимое музыкальное произведение, и при этом имеется возможность повышения эффективности за время применения.

Данный технический результат достигается тем, что в способе идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор идентификационных показателей, сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения, при этом преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, сравнивают попарно карты опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карты опорных векторов, характеризующих оригинальные музыкальные произведения, с определением расстояния между картами опорных векторов, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

Осуществление преобразования набора частотных спектров в набор идентификационных показателей с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, позволяет повысить качество идентификации и обеспечить возможность использования упрощенного алгоритма идентификации за счет использования признаков (карты опорных векторов), представляющих собой массивы чисел фиксированной размерности, однозначно характеризующих воспроизводимое музыкальное произведение, которые устойчивы к искажению и зашумлению. При этом имеется возможность повышения эффективности способа за время применения, так как искусственная сверточная нейронная сеть имеет свойство формироваться самостоятельно в процессе функционирования, например, путем обучения сети классическим методом обратного распространения ошибки (см. Сверточная нейронная сеть. Материал из Википедии. https://wikipedia.org/wiki).

Сравнение попарно карт опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карт опорных векторов, характеризующих оригинальные музыкальные произведения, производится с определением расстояния между картами опорных векторов, например, с использованием классической формулы Евклидовой метрики для вычисления расстояния между векторами, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения, также позволяет повысить качество идентификации, так как сравнение осуществляется на основе карт опорных векторов, представляющих собой массивы чисел фиксированной размерности, однозначно характеризующих воспроизводимое музыкальное произведение, которые устойчивы к искажению и зашумлению, а также позволяет использовать более простой, по сравнению с аудиоотпечатками, алгоритм поиска по базе данных.

На фиг. 1 представлен пример изображения спектрограмм, подаваемых на вход искусственной сверточной нейронной сети; на фиг. 2 - пример изображения с картой опорных векторов на выходе из искусственной сверточной нейронной сети.

Звуковой сигнал от воспроизводимого музыкального произведения представляют как входные информационные данные или аудиопоток в цифровом виде, который разбивают на набор фрагментов фиксированной длительности, и осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье (см. фиг. 1). На данном этапе указанные операции совпадают с операциями по способу идентификации музыкальных произведений Shazam. Затем осуществляется преобразование набора частотных спектров в набор идентификационных показателей с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов.

Массив частотных спектров, явный вид которых представляется в виде матриц строго определенного размера 128×128 пикселя, подается на вход сверточной нейронной сети (deep neural network, DNN). Соответственно размер входного слоя нейросети равен 128×128×1.

Первый скрытый слой нейросети представляет собой 32 различных сверточных фильтра размером 3×3×1. Размер сверточного слоя получается равным 32×3×3×1. На выходе имеем 32 карты размером 64×64. Второй скрытый слой выполняет функцию объединения максимумов из выходов первого слоя. Для каждого региона размером 3×3 выбирается максимальный элемент, регион выбирается с шагом 2. Таким образом, размер данного объединяющего слоя равен 32×3×3×32, а его выходом являются карты размером 32×32.

Далее опять следует сверточный слой - третий скрытый слой, представляющий собой 64 фильтров размером 3×3. Физический смысл этого слоя - извлечение низкоуровневых особенностей для каждого пространственного участка спектрограммы. В качестве особенностей имеются в виду: границы, текстуры.

Следующие 3 слоя размером соответственно 16×16×64, 8×8×64, 4×4×32 последовательно уменьшают размерность данных - примитивных особенностей, объединяя их в связные группы, которые уже характеризуют формы и особенности частотных спектров. Размер выхода последнего слоя 32 карт размером 4×4.

Выход этого слоя трактуется как сырое представление уникальных признаков музыкального произведения: частотные особенности, наличие вокала, набор инструментов и т.д. Однако прямо и однозначно связать эти значения с реальными размерами на изображении нельзя. Слой обучен таким образом, чтобы каждая особенность минимально коррелировала с любой другой. Выходной вектор используется в качестве вектора-идентификатора, представленного на изображении частотных спектров, используется для ее идентификации. Карта опорных векторов на выходе из искусственной сверточной нейронной сети представлена на фиг. 2. В базе данных уже имеются карты опорных векторов, характеризующие оригинальные музыкальные произведения, которые предварительно получены также с использованием искусственной сверточной нейронной сети. Для всех сверточных слоев, как показали наши исследования, наиболее целесообразно для данной нейронной сети в качестве функции активации использовать функцию ELU (Exponential Linear Unit, сама по себе данная функция известна, см. http://datareview.info/article/obuchaem-). Сравнение опорных векторов характеризует воспроизводимое и оригинальное музыкальное производение, например, с использованием классической формулы Евклидовой метрики для вычисления расстояния между векторами. При совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения (обычно не менее 0,75) делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

Таким образом, заявленный способ идентификации музыкальных произведений обеспечивает повышение качества и точности распознавания за счет применения нейросети для обработки массива частотных спектров, полученных в результате обработки музыкального произведения, использующей всю доступную информацию из массива спектров, с использованием признаков, однозначно характеризующих воспроизводимое музыкальное произведение, а также обладающей возможностью обучения и повышения эффективности за время применения.

Похожие патенты RU2662939C1

название год авторы номер документа
СПОСОБ И УСТРОЙСТВО УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ БЫСТРОЙ СВЕРТКИ ФУРЬЕ 2022
  • Щекотов Иван Сергеевич
  • Андреев Павел Константинович
  • Аланов Айбек Арстанбекович
  • Иванов Олег Юрьевич
  • Ветров Дмитрий Петрович
RU2795573C1
Способ диагностики признаков бронхолегочных заболеваний, сопутствующих заболеванию вирусом COVID-19 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
RU2758550C1
СПОСОБ ДИАГНОСТИРОВАНИЯ ПАЦИЕНТА НА НАЛИЧИЕ ПРИЗНАКОВ РЕСПИРАТОРНОЙ ИНФЕКЦИИ ПОСРЕДСТВОМ CNN С МЕХАНИЗМОМ ВНИМАНИЯ И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
RU2758648C1
УСТРОЙСТВО, СПОСОБ ИЛИ КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ГЕНЕРАЦИИ АУДИОСИГНАЛА С РАСШИРЕННОЙ ПОЛОСОЙ С ИСПОЛЬЗОВАНИЕМ ПРОЦЕССОРА НЕЙРОННОЙ СЕТИ 2018
  • Шмидт, Константин
  • Уле, Кристиан
  • Эдлер, Бернд
RU2745298C1
ТЕХНОЛОГИЯ АНАЛИЗА АКУСТИЧЕСКИХ ДАННЫХ НА НАЛИЧИЕ ПРИЗНАКОВ ЗАБОЛЕВАНИЯ COVID-19 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
  • Дворянкин Сергей Владимирович
RU2758649C1
Телемедицинский терминал для осмотра и тестирования работников промышленных и транспортных предприятий 2021
  • Терешко Елена Алексеевна
  • Харченко Геннадий Александрович
RU2752453C1
ГЕНЕРАТОР АУДИОДАННЫХ И СПОСОБЫ ФОРМИРОВАНИЯ АУДИОСИГНАЛА И ОБУЧЕНИЯ ГЕНЕРАТОРА АУДИОДАННЫХ 2021
  • Ахмед, Ахмед Мустафа Махмуд
  • Пиа, Никола
  • Фукс, Гийом
  • Мультрус, Маркус
  • Корсе, Срикантх
  • Гупта, Кишан
  • Бюте, Ян
RU2823016C1
ГЕНЕРАТОР АУДИОДАННЫХ И СПОСОБЫ ФОРМИРОВАНИЯ АУДИОСИГНАЛА И ОБУЧЕНИЯ ГЕНЕРАТОРА АУДИОДАННЫХ 2021
  • Ахмед, Ахмед Мустафа Махмуд
  • Пиа, Никола
  • Фукс, Гийом
  • Мультрус, Маркус
  • Корсе, Срикантх
  • Гупта, Кишан
  • Бюте, Ян
RU2823015C1
СПОСОБ РАСПОЗНАВАНИЯ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2005
  • Гармонов Александр Васильевич
  • Савинков Андрей Юрьевич
  • Прибытков Юрий Николаевич
  • Шилов Вадим Владимирович
RU2295163C1
СПОСОБ АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ СРЕДСТВ ИНДИВИДУАЛЬНОЙ ЗАЩИТЫ НА ЛИЦЕ ЧЕЛОВЕКА 2022
  • Рюмина Елена Витальевна
  • Маркитантов Максим Викторович
  • Рюмин Дмитрий Александрович
  • Карпов Алексей Анатольевич
RU2791415C1

Иллюстрации к изобретению RU 2 662 939 C1

Реферат патента 2018 года СПОСОБ ИДЕНТИФИКАЦИИ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ

Изобретение относится к технике анализа воспроизводимых музыкальных произведений и может быть использовано для идентификации музыкальных произведений, контроля авторства музыкальных произведений. Технический результат заключается в повышении качества идентификации за счет возможности использования признаков, однозначно характеризующих воспроизводимое музыкальное произведение. Осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение. Производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности. Осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье. Осуществляют преобразование набора частотных спектров в набор идентификационных показателей. Сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения. При этом преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети. 1 з.п. ф-лы, 2 ил.

Формула изобретения RU 2 662 939 C1

1. Способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор идентификационных показателей, сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения, отличающийся тем, что преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, сравнивают попарно карты опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карты опорных векторов, характеризующих оригинальные музыкальные произведения, с определением расстояния между картами опорных векторов, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

2. Способ идентификации музыкальных произведений по п. 1, отличающийся тем, что все сверточные слои в качестве функции активации используют функцию ELU.

Документы, цитированные в отчете о поиске Патент 2018 года RU2662939C1

US 6990453 B2, 24.01.2006
0
SU81614A1
Способ распознавания лиц 2016
  • Стоянов Юрий Павлович
RU2610682C1
СПОСОБ СОЗДАНИЯ КОДОВОЙ КНИГИ И ПОИСКА В НЕЙ ПРИ ВЕКТОРНОМ КВАНТОВАНИИ ДАННЫХ 2012
  • Рыжков Александр Павлович
  • Афанасьев Андрей Алексеевич
  • Катков Олег Николаевич
RU2504027C1
RU 2009120252 A, 10.12.2010
СПОСОБ РАСПОЗНАВАНИЯ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2005
  • Гармонов Александр Васильевич
  • Савинков Андрей Юрьевич
  • Прибытков Юрий Николаевич
  • Шилов Вадим Владимирович
RU2295163C1
Пломбировальные щипцы 1923
  • Громов И.С.
SU2006A1
RU 2008122286 A, 20.11.2013
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа 2014
  • Титов Олег Николаевич
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
RU2606566C2

RU 2 662 939 C1

Авторы

Кузнецов Денис Павлович

Петров Максим Андреевич

Саруханов Ваган Арменович

Даты

2018-07-31Публикация

2017-05-12Подача