СПОСОБ КЛАССИФИКАЦИИ МУЗЫКИ И СПОСОБ ДЕТЕКТИРОВАНИЯ ДОЛЕЙ МУЗЫКАЛЬНОГО ТАКТА, НОСИТЕЛЬ ДАННЫХ И КОМПЬЮТЕРНОЕ УСТРОЙСТВО Российский патент 2021 года по МПК G10H1/40 

Описание патента на изобретение RU2743315C1

[0001] Данная заявка испрашивает преимущество приоритета согласно заявке на патент Китая №201810019193.3 под названием «Способ классификации музыки и способ детектирования долей музыкального такта, носитель данных и терминал», поданной 9 января 2018 года, содержание которой полностью включено в настоящий документ посредством ссылки.

Область техники, к которой относится настоящее изобретения

[0002] Настоящее изобретение относится к области Интернет-технологий, в частности, к способу классификации музыки, способу детектирования долей музыкального такта, носителю данных и компьютерному устройству.

Предшествующий уровень техники настоящего изобретения

[0003] В условиях стремительного развития Интернет-технологий и технологий видеовещания в реальном масштабе времени появляется возможность добавления музыкальных эффектов во время воспроизведения коротких видеороликов или при осуществлении прямой видеосъемки. Для улучшения пользовательского восприятия пользователю может быть рекомендован набор специальных видеоэффектов, подходящих для определенного музыкального произведения, которые зависят от типа музыки, звучащей в видео, благодаря чему может быть повышена привлекательность аудиоконтента, а также внешняя привлекательность видео.

[0004] Однако в процессе обработки специальных видеоэффектов традиционным способом не могут быть получены тактовые доли воспроизводимой музыки, вследствие чего соответствующие специальные видеоэффекты не могут быть запущены по тактовым долям воспроизводимой музыки. Следовательно, во время обработки специальных видеоэффектов, индивидуализированное задание какого-либо спецэффекта в зависимости от музыки, воспроизводимой в видео, невозможно, что негативно влияет на пользовательское восприятие.

Краткое раскрытие настоящего изобретения

[0005] Цель настоящего изобретения заключается в том, чтобы предложить способ классификации музыки, способ детектирования долей музыкального такта, носитель данных и компьютерное устройство для получения долей музыкального такта, за счет чего можно запустить специальный видеоэффект из набора спецэффектов на основании положения одной тактовой доли и улучшить пользовательское восприятие.

[0006] Настоящее изобретение предлагает следующее техническое решение:

[0007] С пособ детектирования долей музыкального такта, предусматривающий: выполнение покадровой обработки музыкального сигнала для получения кадрового сигнала; получение спектра мощности кадрового сигнала; выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона; выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону; получение уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона по результатам комбинированной фильтрации в частотно-временной области; вычисление взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей по каждой частот; получение требующей подтверждения тактовой доли на основании взвешенной суммарной величины; и получение тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли.

[0008] В одном из вариантов осуществления настоящего изобретения получение тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли предусматривает: принятие требующей подтверждения тактовой доли, взвешенная суммарная величина которой превышает пороговое значение мощности, за тактовую долю музыкального сигнала.

[0009] В одном из вариантов осуществления настоящего изобретения пороговое значение мощности определяется следующим образом: получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей; и принятие суммарной величины среднего значения и удвоенной дисперсии за пороговое значение мощности.

[0010] В одном из вариантов осуществления настоящего изобретения после принятия требующей подтверждения тактовой доли за тактовую долю музыкального сигнала предложенный способ детектирования долей музыкального такта дополнительно предусматривает: получение сильной доли музыкального сигнала на основании порогового значения мощности сильной доли, причем пороговое значение мощности сильной доли определяется следующим образом: получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей; и вычисление суммарной величины среднего значения и утроенной дисперсии с принятием этой суммарной величины за пороговое значение мощности сильной доли; и получение слабой доли музыкального сигнала, причем сильная доля определяется следующим образом: получение тактовой доли, значение мощности которой меньше или равно пороговому значению мощности сильной доли или больше порогового значения мощности в тактовых долях музыкального сигнала с принятием этой тактовой доли за слабую долю музыкального сигнала.

[0011] В одном из вариантов осуществления настоящего изобретения выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона предусматривает: выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности на четыре поддиапазона, причем эти четыре поддиапазона включают в себя: первый поддиапазон, используемый для детектирования тактовых долей большого барабана; второй поддиапазон, используемый для детектирования тактовых долей малого барабана; третий поддиапазон, используемый для детектирования тактовых долей малого барабана; и четвертый поддиапазон, используемый для детектирования долей инструмента, выдающего тактовые доли высокой частоты.

[0012] В одном из вариантов осуществления настоящего изобретения полоса частот первого поддиапазона лежит в пределах 0-120 Гц; полоса частот второго поддиапазона лежит в пределах от 120 Гц до 3 кГц; полоса частот третьего поддиапазона лежит в пределах 3-10 кГц; а полоса частот четвертого поддиапазона лежит в пределах от 10 кГц до fs/2 Гц, где величина fs обозначает частоту дискретизации сигнала.

[0013] В одном из вариантов осуществления настоящего изобретения выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону, предусматривает: на основании детектированного типа тактовой доли, соответствующего первому поддиапазону, второму поддиапазону, третьему поддиапазону и четвертому поддиапазону, выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона с введением параметра, соответствующего типу тактовой доли.

[0014] В одном из вариантов осуществления настоящего изобретения параметр, соответствующий типу тактовых долей, определяется следующим образом: задание параметра поддиапазона на основании характеристик в динамике по времени и по гармоническому распределению тактовых долей инструментов ударного типа, используемых для детектирования, и прочих сигналов помех в каждом поддиапазоне.

[0015] Настоящим изобретением предложен способ классификации музыки по долям музыкального такта, предусматривающий следующие стадии: детектирование доли музыкального такта с использованием способа детектирования долей музыкального такта по любому из вариантов его осуществления, указанных выше; и классифицирование музыкального сигнала на основании количества тактовых долей в каждом поддиапазоне.

[0016] В одном из вариантов осуществления настоящего изобретения классифицирование музыкального сигнала на основании количества тактовых долей в каждом поддиапазоне предусматривает: подсчет количества тактовых долей малого барабана и количества тактовых долей большого барабана в музыкальном сигнале на основании количества тактовых долей в каждом поддиапазоне; отнесение музыкального сигнала к категории музыки с сильным ритмом, если количество тактовых долей малого барабана и количество тактовых долей большого барабана превышает первое пороговое значение; и отнесение музыкального сигнала к категории лирической музыки, если количество тактовых долей большого барабана меньше второго порогового значения.

[0017] Настоящим изобретением предложен носитель данных, предназначенный для хранения множества команд, причем эти команды выполнены с возможностью загрузки и исполнения процессором для: выполнения покадровой обработки музыкального сигнала с целью получения кадрового сигнала; получения спектра мощности кадрового сигнала; выполнения разбивки на поддиапазоны в отношении спектра мощности и разложения спектра мощности, по меньшей мере, на два поддиапазона; выполнения комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону; получения уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона по результатам комбинированной фильтрации в частотно-временной области; вычисления взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей по каждой частот; получения требующей подтверждения тактовой доли на основании взвешенной суммарной величины; и получения тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли; или же команды выполнены с возможностью загрузки и исполнения процессором для: детектирования доли музыкального такта с использованием способа детектирования долей музыкального такта по любому из указанных вариантов осуществления настоящего изобретения; и классифицирования музыкального сигнала на основании количества тактовых долей в каждом поддиапазоне.

[0018] Настоящим изобретением предложено компьютерное устройство, включающее в себя: один или несколько процессоров; память; и одну или несколько прикладных программ, хранящихся в памяти и выполненных с возможностью приведения в исполнение одним или несколькими процессорами; при этом одна или несколько прикладных программ выполнены с возможностью использования для реализации способа детектирования долей музыкального такта согласно любому из указанных вариантов осуществления настоящего изобретения или выполнены с возможностью использования для реализации способа классификации музыки согласно любому из указанных вариантов осуществления настоящего изобретения.

[0019] В сравнении с предшествующим уровнем техники решение согласно настоящему изобретению обеспечивает следующие преимущества:

[0020] В способе детектирования долей музыкального такта, который предложен настоящим изобретением, сначала выполняется покадровая обработка музыкального сигнала, после чего может быть получен спектр мощности каждого кадрового сигнала, а затем выполняется разбивка на поддиапазоны в отношении каждого спектра мощности. На основании типов долей, соответствующих этим поддиапазонам, выполняется комбинированная фильтрация в частотно-временной области в разных поддиапазонах. По результатам фильтрации могут быть получены требующие подтверждения тактовые доли, после чего на основании значения мощности каждой требующей подтверждения тактовой доли определяются тактовые доли музыкального сигнала. Следовательно, используя способ детектирования долей музыкального такта согласно настоящему изобретению, можно получить тактовые доли музыкального сигнала, благодаря чему можно запустить определенный специальный видеоэффект из набора спецэффектов во взаимодействии с тактовыми долями и улучшить пользовательское восприятие.

[0021] Более того, в способе детектирования долей музыкального такта обеспечивается получение уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона и вычисление взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей с целью получения требующих подтверждения тактовых долей на основании взвешенной суммарной величины. Следовательно, может быть дополнительно повышена точность требующих подтверждения тактовых долей.

[0022] При этом, в способе детектирования долей музыкального такта спектр мощности каждого кадрового сигнала разлагается на первый поддиапазон, используемый для детектирования тактовых долей большого барабана; второй поддиапазон, используемый для детектирования тактовых долей малого барабана; третий поддиапазон, используемый для детектирования тактовых долей малого барабана; и четвертый поддиапазон, используемый для детектирования долей инструмента, выдающего тактовые доли высокой частоты. Следовательно, предложенный способ детектирования может выполнять разбивку на поддиапазоны на основании типов конкретных тактовых долей в музыке, благодаря чему обеспечивается возможность более точного детектирования тактовых долей в музыкальном сигнале.

Краткое описание фигур

[0023] Указанные и/или дополнительные аспекты и преимущества настоящего изобретения могут стать очевидными и понятными после ознакомления с последующим описанием вариантов осуществления заявленного изобретения в привязке к прилагаемым чертежам, где:

[0024] На фиг. 1 показана схема взаимодействия между сервером и клиентами согласно одному из вариантов осуществления настоящего изобретения;

[0025] На фиг. 2 показана блок-схема, иллюстрирующая алгоритм реализации способа детектирования долей музыкального такта согласно одному из вариантов осуществления настоящего изобретения;

[0026] На фиг. 3 показана блок-схема, иллюстрирующая стадию S500 согласно одному из вариантов осуществления настоящего изобретения;

[0027] На фиг. 4 представлена диаграмма уровня сигнала малого барабана, полученная после выполнения стадии S500 согласно одному из вариантов осуществления настоящего изобретения; и

[0028] На фиг. 5 показана структурная схема компьютерного устройства согласно одному из вариантов осуществления настоящего изобретения.

Подробное раскрытие настоящего изобретения

[0029] В настоящем документе подробно описаны варианты осуществления заявленного изобретения, примеры которых проиллюстрированы на прилагаемых чертежах. Ссылочные позиции, одинаковые или схожие на всех прилагаемых чертежах, отображают одинаковые или схожие элементы или элементы с одинаковыми или схожими функциями. Предполагается, что варианты осуществления настоящего изобретения, описанные ниже в привязке к прилагаемым чертежам, носят исключительно иллюстративный характер, и не должны рассматриваться как ограничивающие заявленное изобретение.

[0030] Способ детектирования долей музыкального такта и способ классификации музыка по долям музыкального такта, предложенные настоящим изобретением, могут применяться в прикладной среде, показанной на фиг. 1.

[0031] Как показано на фиг. 1, сервер 100 и клиенты 300 находятся в среде одной сети 200 и осуществляют взаимодействие по обмену данными по сети 200. Количество серверов 100 и количество клиентов 300 не ограничено, и то количество серверов 100 и клиентов 300, которое показано на фиг. 1, носит исключительно иллюстративный характер. В каждом клиенте 300 установлено приложение (АРР). С помощью АРР, установленного в клиенте 300, пользователь может осуществлять информационное взаимодействие с соответствующим сервером 100.

[0032] Каждый сервер 100 может представлять собой, помимо прочего, сетевой сервер, сервер управления, сервер приложений, сервер баз данных, облачный сервер или иной сервер подобного рода. Каждый клиент 300 может представлять собой, помимо прочего, смартфон, персональный компьютер (PC), планшетный персональный компьютер, карманный персональный компьютер (PDA), мобильное интернет-устройство (MID) или иное устройство подобного рода. Операционной системой каждого клиента 300 может служить, помимо прочего, система Android, система IOS (операционная система iPhone), система Windows, система Windows для мобильного телефона и прочие системы подобного рода.

[0033] После нажатия пользователем кнопки в видеоприложении клиента 300 с целью выбора или загрузки музыкального произведения (песни) сервер 100 анализирует и вычисляет тип музыки, а затем выдает и рекомендует набор специальных видеоэффектов, подходящих для этой музыки (песни), клиенту 300, к которому привязан пользователь, на основании вычисленного типа музыки, после чего запускает определенный специальный видеоэффект из набора спецэффектов во временной позиции вычисленной тактовой доли. Способ детектирования долей музыкального такта согласно настоящему изобретению обеспечивает детектирование тактовой доли музыки, загруженной или выбранной пользователем. Следовательно, на основании доли музыкального такта может быть запущен соответствующий специальный видеоэффект, и может быть улучшено пользовательское восприятие.

[0034] Настоящим изобретением предложен способ детектирования долей музыкального такта. В одном из вариантов его осуществления, который проиллюстрирован на фиг. 2, способ детектирования долей музыкального такта согласно настоящему изобретению предусматривает стадии, описанные ниже:

[0035] Стадия S100, покадровая обработка музыкального сигнала для получения кадровых сигналов.

[0036] В этом варианте осуществления настоящего изобретения сервер получает музыкальный сигнал, подлежащий детектированию, и выполняет кадровую обработку этого музыкального сигнала для получения множества кадровых сигналов музыкального сигнала. Музыкальным сигналом может служить музыкальный сигнал, загруженный пользователем, или музыкальный сигнал, содержащийся в базе данных сервера.

[0037] В одном из вариантов осуществления настоящего изобретения сначала сервер выполняет предварительную обработку входного музыкального сигнала. Процесс предварительной обработки включает в себя необходимые операции по предварительной обработке, такие как декодирование входного музыкального сигнала, преобразование двойного канала в одиночный канал, преобразование частоты дискретизации, удаление постоянных составляющих тока и тому подобное. Процесс предварительной обработки в данном случае относится к штатной операции, и далее по тексту он подробно не описывается. Более того, сервер выполняет покадровую обработку музыкального сигнала, который был подвергнут предварительной обработке, для получения множества кадровых сигналов.

[0038] Стадия S200, получение спектров мощности кадровых сигналов.

[0039] В этом варианте осуществления настоящего изобретения сервер дополнительно получает спектр мощности каждого кадрового сигнала после получения множества кадровых сигналов музыкального сигнала. В частности, когда сервер выполняет покадровую обработку музыкального сигнала, N точек составляют один кадр, каждый раз обновляется М точек (М меньше N, соотношение M/N составляет 0,25-0,5), а перекрытие=N-M.

[0040] После покадровой обработки обеспечивается выполнение обработки методом окна в отношении каждого сигнала с размером кадра в N точек, после чего в отношении каждого сигнала выполняется быстрое преобразование Фурье (FFT) с целью получения спектра мощности Р (t, k) каждого кадрового сигнала. Процесс получения спектра мощности относится к штатной операции по обработке сигнала и далее по тексту подробно не описывается.

[0041] Стадия S300, выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона.

[0042] В этом варианте осуществления настоящего изобретения сервер выполняет разбивку на поддиапазоны в отношении спектра мощности, соответствующего каждому кадровому сигналу, и разлагает спектр мощности, по меньшей мере, на два поддиапазона. Каждый поддиапазон используется для детектирования соответствующего одного типа тактовых долей. В частности, сервер анализирует частотный спектр музыкального сигнала и выполняет разбивку на поддиапазоны в отношении музыкального сигнала в привязке к частотной характеристике обычного ударного инструмента в музыке.

[0043] В одном из вариантов осуществления настоящего изобретения разбивка на поддиапазоны осуществляется в отношении спектра мощности, и спектр мощности разлагается на четыре поддиапазона; причем четыре поддиапазона включают в себя: первый поддиапазон, используемый для детектирования тактовых долей большого барабана; второй поддиапазон, используемый для детектирования тактовых долей малого барабана; третий поддиапазон, используемый для детектирования тактовых долей малого барабана; и четвертый поддиапазон, используемый для детектирования долей инструмента, выдающего тактовые доли высокой частоты. Полоса частот первого поддиапазона составляет 0-120 Гц; полоса частот второго поддиапазона лежит в пределах от 120 Гц до 3 кГц; полоса частот третьего поддиапазона составляет 3-10 кГц; а полоса частот четвертого поддиапазона лежит в пределах от 10 кГц до fs/2 Гц, где величина fs обозначает частоту дискретизации сигнала.

[0044] В этом варианте осуществления настоящего изобретения разложение спектра мощности на полосы частот поддиапазонов обусловлено, главным образом, следующей ситуацией: помимо того, что по своим частотным характеристикам большой барабан и малый барабан сильно отличаются от других инструментов, задающих ритм (например, инструментов, выдающих тактовые доли высокой частоты), значения продолжительности звучания инструментов разного типа, задающих ритм, также сильно отличаются друг от друга, при этом энергия большого барабана концентрируется, главным образом, в низкочастотном поддиапазоне, но инструменты не ударного типа, такие как басовые инструменты, также часто звучат в низкочастотном поддиапазоне, и продолжительность звучания басовых инструментов намного превышает продолжительность звучания большого барабана. Энергия малого барабана концентрируется, главным образом, в промежуточном частотном поддиапазоне, при этом возмущения в поддиапазоне с полосой частот менее 3 кГц обусловлены, главным образом, сигналами человеческого голоса и тому подобным, а возмущения в поддиапазоне с полосой частот более 3 кГц обусловлены, главным образом, другими инструментами музыкального сопровождения. Продолжительность сигнала малого барабана очевидно короче, чем продолжительность других сигналов помех в двух промежуточных частотных поддиапазонах, но продолжительность сигнала помехи в поддиапазоне с полосой частот менее 3 кГц очевидно отличается от продолжительности сигнала помехи в поддиапазоне с полосой частот более 3 кГц, вследствие чего при выполнении комбинированной фильтрации в частотно-временной области следует прибегать к разным стратегиям. Высокочастотные поддиапазоны часто задействованы мелодичными инструментами музыкального сопровождения с очень большой продолжительностью звучания, что отличает их от инструментов музыкального сопровождения и человеческих голосов, звучащих в промежуточном частотном поддиапазоне.

[0045] Стадия S400, комбинированная фильтрация в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовых долей, соответствующего каждому поддиапазону.

[0046] В этом варианте осуществления настоящего изобретения сервер дополнительно выполняет комбинированную фильтрацию в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовых долей, соответствующего каждому поддиапазону, после выполнения разбивки на поддиапазоны в отношении спектра мощности, соответствующего каждому кадровому сигналу. В частности, сервер выполняет комбинированную фильтрацию в частотно-временной области в отношении сигнала каждого поддиапазона путем введения параметров, соответствующих типам тактовых долей, на основании детектированных типов тактовых долей, соответствующих первому поддиапазону, второму поддиапазону, третьему поддиапазону и четвертому поддиапазону после разложения спектра мощности кадрового сигнала на четыре поддиапазона на стадии S300. Параметры, соответствующие типам долей, определяются следующим образом: параметры поддиапазона задаются в соответствии с характеристиками в динамике по времени и по гармоническому распределению тактовых долей инструментов ударного типа, используемых для детектирования, и прочих сигналов помех, которые отличаются от тактовых долей в каждом поддиапазоне.

[0047] На стадии, когда сервер вводит параметры, соответствующие типам тактовых долей, с целью выполнения комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона, параметрами, соответствующими типам тактовых долей, могут служить параметры, полученные на основании характеристик в динамике по времени и по гармоническому распределению тактовых долей инструментов ударного типа, используемых для детектирования, и прочих сигналов помех, отличных от тактовых долей, перед реализацией способа детектирования долей музыкальных тактов согласно настоящему изобретению; или же параметрами, соответствующими типам тактовых долей, могут служить параметры, полученные сервером на основании характеристик в динамике по времени и по гармоническому распределению тактовых долей инструментов ударного типа, используемых для детектирования, и прочих сигналов помех, отличных от тактовых долей, во время реализации способа детектирования долей музыкальных тактов согласно настоящему изобретению.

[0048] В этом варианте осуществления настоящего изобретения конкретные стадии комбинированной фильтрации в частотно-временном диапазоне могут быть описаны следующим образом:

[0049] в отношении сигнала Р (t, k) текущего кадра предшествующие сигналы кадров hi и последующие сигналы кадров hi образуют одно окно [Р (t-hi, k), …, Р (t+hi, k)] во временной области для каждой частоты Bin k, и по этому окну выбирается потребное сглаживающее окно wi для сглаживания указанного окна и получения величины P_smt (t, k); и

[0050] Предшествующая величина hj Bins и последующая величина hj Bins образуют одно окно [Р (t, k-hj), …, Р (t, k+hj)] в частотной области для каждой частоты Bin k и для сигнала Р (t, k) текущего кадра, и по этому окну выбирается потребное сглаживающее окно wj для сглаживания указанного окна и получения величины P_smf (t, k).

[0051] Для разных поддиапазонов предусмотрены одни и те же операции описываемой стадии комбинированной фильтрации в частотно-временной области, но значения параметров hi и hj отличаются друг от друга. Выбор параметров hi и hj совместно определяется характеристиками в динамике по времени и по гармоническому распределению сигналов помех инструментов ударного типа и других сигналов помех мелодичных инструментов, которые лежат в разных поддиапазонах. В отношении частоты Bin k параметры, задаваемые поддиапазоном, выбираются для фильтрации в зависимости от поддиапазона, к которому относится частота Bin k.

[0052] Для сглаживающих окон wi и wj может быть выбрана усредненная фильтрация, медианная фильтрация, гауссовская оконная фильтрация или иная фильтрация подобного рода. В этом варианте осуществления настоящего изобретения кадровые сигналы преимущественно сглаживаются (методом фильтрация нижних частот) совместно в частотно-временной области, но в других вариантах осуществления настоящего изобретения могут быть также приняты и иные режимы фильтрации.

[0053] Стадия S500, получение требующих подтверждения тактовых долей из музыкальных сигналов музыкального сигнала по результатам комбинированной фильтрации в частотно-временной области.

[0054] В этом варианте осуществления настоящего изобретения сервер может получить требующие подтверждения тактовые доли из кадровых сигналов музыкального сигнала по результатам комбинированной фильтрации в частотно-временной области. В одном из вариантов осуществления настоящего изобретения, как это показано на фиг. 3, стадия S500 включает в себя следующие подстадии:

[0055] S510, получение уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона по результатам комбинированной фильтрации в частотно-временной области;

[0056] Стадия S530, вычисление взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей по каждой частоте; и

[0057] Стадия S550, получение требующих подтверждения тактовых долей на основании взвешенной средней величины.

[0058] В одном из вариантов осуществления настоящего изобретения уровень доверительной вероятности долей по каждой частоте и уровни доверительной вероятности других долей мелодичных инструментов не ударного типа в сигнале каждого поддиапазона могут быть рассчитаны следующим образом:

[0059] что касается сигнала Р (t, k) текущего кадра и каждой частоты k, то является ли он уровнем доверительной вероятности одной тактовой доли (т.е. винеровская фильтрация), может быть установлено по результатам комбинированной фильтрации в частотно-временной области, причем величина к обозначает частоту; и

[0060]

[0061] Соответственно, является ли он уровнем доверительной вероятности одного мелодичного компонента, устанавливается следующим образом: [0062]

[0063] Более того, взвешенное суммирование выполняется по сигналу Р (t, k) текущего кадра описанным ниже способом на основании типа тактовой доли.

[0064] «Бочка» (t)=сумма (Р (t, k)*B (t, k)), поддиапазоном k∈ является поддиапазон 1 (первый поддиапазон), который используется для детектирования большого барабана;

[0065] Звук малого барабана (t)=сумма (Р (t, k)*B (t, k)), поддиапазонами k∈ являются поддиапазоны 2 и 3 (второй и третий поддиапазоны), которые используются для детектирования малого барабана; и

[0066] Ритм (t)=сумма (Р (t, k)*B (t, k)), поддиапазоном k∈ является поддиапазон 4 (четвертый поддиапазон), который используется для детектирования других тактовых долей.

[0067] Величина Р (t, k) обозначает спектр мощности, полученный после выполнения STFT-анализа (оконного преобразования Фурье) в отношении сигнала; величина Р (t, k)*B (t, k) отображает взвешивание спектра мощности; а величина В (t, k) обозначает уровень доверительной вероятности того, является ли этот сигнал уровнем доверительной вероятности тактовой доли при частоте k в кадре t. Уровень доверительной вероятности представляет собой числовое значение, лежащее в пределах от 0 до 1, которое умножается на спектр мощности сигнала, причем спектр мощности Р (t, k), относящийся к тактовой доли, может быть сохранен, а спектр мощности Р (t, k), не относящийся к тактовой доли, может быть отброшен (после умножения уровня доверительной вероятности на спектр мощности сигнала числовое значение становится меньше).

[0068] По завершении процесса взвешивания взвешенные спектры мощности суммируются, и суммирование выполняется по величине k с учетом условия разделения поддиапазонов. Например, для времени t=t1, Р (t1, k), после выполнения STFT-анализа, диапазон значений k составит 1-N/2+1, т.е. обеспечивается ряд Р (t1, 1), Р (t1, 2)…Р (t1, N/2+1), и частотой, соответствующей каждой частоте k, будет k*fs/N. Следовательно, мы можем также знать, к какому поддиапазону относится величина k. Например, величина k относится к поддиапазону 1 (поддиапазону большого барабана), когда она равна 1-10, а величина k относится к поддиапазону 2 (поддиапазону малого барабана), когда она равна 20-50, и т.д.; и, таким образом, суммирование Р (t1, 1)*В (t1, 1), Р (t1, 2)*В (t1, 2)… Р (t1, 10)*В (t1, 10) представляет собой взвешенное суммирование по поддиапазону 1 (поддиапазону большого барабана), и обеспечивается получение бочки (t1). Описанная обработка выполняется по всем кадрам с получением бочки (1), бочки (2)…бочки (L), причем размер L определяется конкретной длительностью музыкального сигнала.

[0069] Стадия S600, получение тактовых долей музыкального сигнала на основании значений мощности требующих подтверждения тактовых долей.

[0070] В этом варианте осуществления настоящего изобретения сервер получает тактовые доли музыкального сигнала на основании значений мощности, соответствующих тактовым точкам, после получения требующих подтверждения тактовых точек. В частности, как это описано применительно к стадии S500, сервер далее получает требующие подтверждения тактовые доли, взвешенная суммарная величина которых превышает пороговое значение мощности, и принимает требующие подтверждения тактовые доли за тактовые доли музыкального сигнала, что происходит после получения взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, методом вычисления. Иначе говоря, требующая подтверждения тактовая доля, взвешенная суммарная величина которой превышает пороговое значение мощности, принимается за тактовую долю музыкального сигнала. Пороговое значение мощности определяется следующим образом: обеспечивается получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей и вычисление суммарной величины среднего значения и удвоенной дисперсии с принятием этой суммарной величины за пороговое значение мощности. Иначе говоря, суммарная величина среднего значения и удвоенной дисперсии принимается за пороговое значение мощности.

[0071] В одном из конкретных вариантов осуществления настоящего изобретения предусмотрено следующее: что касается Бочки, Звука малого барабана и Ритма (Бочка, Звук малого барабана и Ритм являются сокращенным выражением таких величин, как Бочка (t), Звук малого барабана (t) и Ритм (t), соответственно), полученных на стадии S500, то они сканируются соответствующим образом для нахождения всех пиковых точек, а пиковые точки со значениями мощности, превышающими пороговое значение мощности (T1=mean+std*2) («mеаn» обозначает среднее значение значений мощности всех пиковых точек, a «std» обозначает дисперсию значений мощности всех пиковых точек), детектируются как тактовые доли. Тактовые доли отмечаются как звуки большого барабана, если они детектируются в поддиапазоне бочки; отмечаются как звуки малого барабана, если они детектируются в поддиапазоне малого барабана; и отмечаются как прочие тактовые доли (тактовые доли инструмента, выдающего тактовые доли высокой частоты), если они детектируются в поддиапазоне ритма.

[0072] При реализации способа детектирования долей музыкального такта, предложенного настоящим изобретением, сначала выполняется покадровая обработки в отношении музыкального сигнала и обеспечивается получение спектра мощности каждого кадрового сигнала, после чего выполняется разбивка на поддиапазоны в отношении спектра мощности. На основании типов тактовых долей, соответствующих поддиапазонам, выполняется комбинированная фильтрация в частотно-временной области по разным поддиапазонам. По результатам фильтрации могут быть получены требующие подтверждения тактовые доли, после чего на основании значения мощности каждой требующей подтверждения тактовой доли определяются тактовые доли музыкального сигнала. Следовательно, используя способ детектирования долей музыкального такта, предложенного настоящим изобретением, можно получить тактовые доли музыкального сигнала, и в привязке к таковым долям может быть запущен специальный видеоэффект из набора спецэффектов, благодаря чему улучшается пользовательское восприятие.

[0073] Более того, в способе детектирования долей музыкального такта обеспечивается получение уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона, и по уровню доверительной вероятности долей вычисляется взвешенная суммарная величина значений мощности, соответствующих всем частотам в каждом поддиапазоне, для получения требующих подтверждения тактовых долей на основании взвешенной суммарной величины. Следовательно, может быть дополнительно повышена точность требующих подтверждения тактовых долей.

[0074] Вместе с тем, способ детектирования долей музыкального такта предусматривает разложение спектра мощности каждого кадрового сигнала на первый поддиапазон, используемый для детектирования тактовых долей большого барабана, на второй поддиапазон, используемый для детектирования тактовых долей малого барабана, на третий поддиапазон, используемый для детектирования тактовых долей малого барабана, и на четвертый поддиапазон, используемый для детектирования тактовых долей инструмента, выдающего тактовые доли высокой частоты. Следовательно, способ детектирования может реализовывать разбивку на поддиапазоны в зависимости от типа конкретных тактовых долей в музыке, благодаря чему обеспечивается возможность более точного детектирования тактовых долей в музыкальном сигнале.

[0075] В одном из вариантов осуществления настоящего изобретения после выполнения стадии S600 способ детектирования долей музыкального такта предусматривает:

[0076] получение сильной доли музыкального сигнала на основании порогового значения мощности сильной доли, причем пороговое значение мощности сильной доли определяется следующим образом:

[0077] обеспечивается получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей; и

[0078] рассчитывается суммарная величина среднего значения и утроенной дисперсии, и эта суммарная величина служит пороговым значением мощности сильной доли; и

[0079] получение слабой доли музыкального сигнала, причем слабая доля определяется следующим образом:

[0080] получение тактовой доли, значение мощности которой меньше или равно пороговому значению мощности сильной доли или больше порогового значения мощности в тактовых долях музыкального сигнала с принятием этой тактовой доли за слабую долю музыкального сигнала.

[0081] В частности, как это описано в рамках стадии S600, тактовая доля со значением мощности пиковой точки, превышающим пороговое значение Т2 мощности сильной доли (Т2=mean+std *3), является сильной долей; тактовая доля со значением мощности пиковой точки, которое меньше порогового значения мощности сильной доли и больше или равно пороговому значению Т1 мощности (T1=mean+std*2), является слабой долей; а местоположением тактовой доли служит кадр t, соответствующий детектированной пиковой точке.

[0082] В заключение можно сказать, что настоящее изобретение предоставляет диаграмму сигнала малого барабана, полученную после выполнения стадии S500, согласно одному из вариантов осуществления настоящего изобретения, как это показано на фиг. 4. По горизонтальной оси отложено время t, по вертикальной оси отложена мощность Р, и мощность Р в данном случае представляет собой взвешенную суммарную величину, полученную после выполнения стадии S500. Как показано на фиг. 4, на кривой сигнала присутствует множество пиковых точек, и все пиковые точки на кривой могут быть получены методом сканирования. Величина Р1 обозначает пороговое значение мощности сильной доли, а величина Р2 обозначает пороговое значение мощности. Что касается пиковых точек, полученных методом сканирования, то значения мощности этих пиковых точек должны быть больше величины Р2 с тем, чтобы их можно было детектировать; при этом тактовые доли, соответствующие пиковым точкам со значениями мощности, которые больше величины Р2 и меньше величины Р1, относятся к слабым долям; тактовые доли, соответствующие пиковым точкам со значениями мощности, превышающими величину Р1, относятся к сильным долям; а пиковые точки со значениями мощности меньше величины Р2 отбрасываются.

[0083] Согласно решению, предложенному настоящим изобретением, анализируется местоположение тактовых долей, а также типов долей и типов музыки в музыкальном произведении (песни); т.е. происходит автоматическое извлечение тактовых долей, составляющих костяк музыки, а время и типы запуска специальных видеоэффектов обусловлены полученным местоположением тактовых долей, типами тактовых долей и типами музыки, чтобы музыку можно было легко объединить со специальным видеоэффектом и удовлетворить потребности человека во время просмотра и прослушивания музыки. Эта часть работы изначально требовала ручной маркировки тактовых долей и типов музыки, и было очень монотонной и утомительной. С помощью способа согласно настоящему изобретению можно автоматически маркировать тактовые доли в музыке, причем точность может достигать 90 процентов и более.

[0084] Настоящим изобретением дополнительно предложен способ классификации музыки по долям музыкального такта. Этот способ предусматривает следующие стадии: детектирование тактовых долей музыкального сигнала с использованием способа детектирования долей музыкального такта, описанного в привязке к любому из вариантов его осуществления; и классифицирование музыкального сигнала по количеству тактовых долей в каждом поддиапазоне.

[0085] Такое классифицирование музыкального сигнала по количеству тактовых долей в каждом поддиапазоне предусматривает: количество тактовых долей малого барабана и количество тактовых долей большого барабана в музыкальном сигнале подсчитывается по количеству тактовых долей в каждом поддиапазоне. Музыкальный сигнал классифицируется как музыка с сильным ритмом, если количество тактовых долей малого барабана и количество тактовых долей большого барабана превышает первое пороговое значение; и музыкальный сигнал классифицируется как лирическая музыка, если количество тактовых долей большого барабана меньше второго порогового значения.

[0086] В частности, типы музыки могут быть классифицированы по количеству указанных трех типов тактовых долей согласно способу детектирования долей музыкального такта. Музыка с тактовыми долями малого барабана, равно как и тактовыми долями большого барабана, превышающими пороговое значение 1, относится к типу музыки с сильным ритмическим звучанием. Музыка с тактовыми долями большого барабана меньше порогового значения 2 относится к типу лирической музыки. Пороговое значение 1 и пороговое значение 2 определяются по количеству тактовых долей малого барабана и количеству тактовых долей больших барабанов в музыкальной классификации.

[0087] На практике музыка грубо подразделяется на два типа, а именно на музыку с сильным ритмическим звучанием и лирическую музыку, при этом могут избирательно использоваться абсолютно разные спецэффекты. Следовательно, в значительной мере предотвращается запуск слишком интенсивных спецэффектов в лирической музыке, и облегчается обеспечение сопоставимости спецэффектов с привычками людей по просмотру и прослушиванию музыки.

[0088] Настоящим изобретением дополнительно предложен носитель данных, в котором хранится множество команд; причем эти команды выполнены с возможностью загрузки и исполнения процессором: в отношении музыкального сигнала выполняется покадровая обработка с целью получения кадровых сигналов; обеспечивается получение спектров мощности; в отношении спектров мощности выполняется разбивка на поддиапазоны, и спектр мощности разлагается, по меньшей мере, на два поддиапазона; в отношении сигнала каждого поддиапазона выполняется комбинированная фильтрация в частотно-временной области на основании типа долей, соответствующего каждому поддиапазону; по результатам комбинированной фильтрации в частотно-временной области обеспечивается получение требующих подтверждения тактовых долей из кадровых сигналов музыкального сигнала; и на основании значений мощности требующих подтверждения тактовых долей обеспечивается получение тактовых долей музыкального сигнала;

[0089] или команды выполнены с возможностью загрузки или исполнения процессором: тактовые доли музыки детектируются с использованием способа детектирования тактовых долей музыкального сигнала согласно любому из вариантов своего осуществления; и музыкальный сигнал классифицируется по количеству тактовых долей в каждом поддиапазоне.

[0090] Более того, носителем данных могут служить различные носители, выполненные с возможностью хранения программных кодов, такие как U-диск, внешний жесткий диск, постоянное запоминающее устройство (ROM), RAM (оперативное запоминающее устройство), диск или оптический диск.

[0091] В других вариантах осуществления настоящего изобретения команды, хранящиеся в носителе данных согласно настоящему изобретению, загружаются процессором, и процессор выполняет стадии, предусмотренные способом детектирования долей музыкального такта согласно любому из вариантов своего осуществления. В альтернативном варианте команды, хранящиеся в носителе данных согласно настоящему изобретению, загружаются процессором, и процессор выполняет стадии, предусмотренные способом классификации музыки согласно любому из вариантов своего осуществления.

[0092] Настоящим изобретением дополнительно предложено компьютерное устройство. Компьютерное устройство включает в себя один или несколько процессоров, память и одно или несколько приложений. Одно или несколько приложений хранятся в памяти и выполнены с возможностью приведения в исполнение одним или несколькими процессорами, а также выполнены с возможностью использования для реализации способа детектирования долей музыкального такта или способа классификации музыки согласно любому из описанных вариантов осуществления настоящего изобретения в устройстве.

[0093] На фиг. 5 показана структурная схема компьютерного устройства согласно одному из вариантов осуществления настоящего изобретения. Это устройство, раскрытое в данном варианте осуществления, может представлять собой компьютерное устройство, такое как, например, сервер, персональный компьютер или сетевое устройство. Как показано на фиг. 5, компьютерное устройство включает в себя процессор 503, память 505, блок 507 ввода, дисплей 509 и прочие устройства. Специалистам в данной области техники должно быть понятно, что структура компьютерного устройства, представленная на фиг. 5, не носит ограничительного характера и может включать в себя больше или меньше компонентов, чем показано на этой фигуре, или определенные компоненты в различных сочетаниях. Память 505 может быть использована для хранения приложений 501 и различных функциональных модулей, а процессор 503 приводит в исполнение приложения 501, хранящиеся в памяти 505, вследствие чего обеспечивается выполнение различных функциональных приложений и обработка данных устройства. Память может представлять собой внутреннюю память или внешнюю память, или же включать в себя и тот и другой тип памяти. Внутренней памятью может служить постоянное запоминающее устройство (ROM), программируемое постоянное запоминающее устройство (PROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), флеш-память или оперативное запоминающее устройство. Внешняя память может включать в себя жесткий диск, гибкий магнитный диск, zip-диск, U-диск, магнитную ленту и тому подобное. Память, предложенная настоящим изобретением, включает в себя, помимо прочего, блоки памяти указанных типов. Память, описанная в настоящем документе, представлена исключительно в качестве примера и не носит ограничительного характера.

[0094] Блок 507 ввода используется для приема входных сигналов, а также для приема ключевых слов, вводимых пользователем. Блок 507 ввода может включать в себя сенсорную панель и прочие устройства ввода. Сенсорная панель может воспринимать операции касания, выполняемые пользователем на самой сенсорной панели или вблизи нее (например, пользователь может использовать любой подходящий для этого предмет или приспособление, такое как палец, стилус и тому подобное, для выполнения операций на самой сенсорной панели или вблизи нее), и приводить в действие соответствующее соединительное устройство в соответствии с заданной программой; а прочими устройствами ввода может служить, помимо прочего, физическая клавиатура, функциональные кнопки (такие как кнопка управления воспроизведением и кнопка переключателя), трекбол, мышь, джойстик и тому подобное. Дисплей 509 может быть использован для отображения информации, вводимой пользователем, или информации, предоставляемой пользователю, а также различных меню компьютерного устройства. Дисплей 509 может быть выполнен в виде жидкокристаллического дисплея, дисплея на органических светоизлучающих диодах или иного устройства подобного рода. Процессор 503 представляет собой центр управления компьютерного устройства, который соединяет между собой различные компоненты всего компьютера с использованием различных интерфейсов и линий передачи данных, а также выполняет различные функции и обрабатывает данные путем прогона или приведения в исполнение программных продуктов и/или модулей, хранящихся в памяти, и вызова данных, хранящихся в памяти 503.

[0095] В одном из вариантов осуществления настоящего изобретения предложенное устройство включает в себя один или несколько процессоров 503, один или несколько блоков памяти 505 и одно или несколько приложений 501. Одно или несколько приложений 501 хранятся в блоках памяти 505 и выполнены с возможностью приведения в исполнение одним или несколькими процессорами 503, а также выполнены с возможностью использования для реализации способа детектирования долей музыкального такта или способа классификации музыки согласно описанному варианту осуществления настоящего изобретения.

[0096] Кроме того, различные функциональные блоки в различных вариантах осуществления настоящего изобретения могут быть интегрированы в один модуль обработки данных, причем каждый блок может представлять собой физически отдельный блок, или же два или более блока могут быть сведены в единый модуль обработки данных. Интегрированные модули могут быть реализованы в виде аппаратных средств, а также в виде программного функционального модуля. Интегрированные модули могут храниться в машиночитаемом носителе данных, если они выполнены в виде программного функционального модуля, и свободно реализуются на рынке или используются в качестве отдельного продукта.

[0097] Специалистам в данной области техники должно быть понятно, что все или часть стадий реализации вариантов осуществления настоящего изобретения, описанных выше, могут выполняться аппаратными средствами, а также с помощью программ, выдающих соответствующие команды аппаратным средствам, которые соотнесены с указанными программами. Эти программы могут храниться в одном машиночитаемом носителе данных, причем этим носителем данных может служить память, магнитный диск, оптический диск или иное устройство подобного рода.

[0098] Выше описаны лишь некоторые варианты осуществления настоящего изобретения, и в этой связи следует отметить, что специалисты в данной области техники могут также вносить в них определенные усовершенствования и модификации без отступления от принципов настоящего изобретения, которые должны считаться входящими в объем правовой охраны заявленного изобретения.

Похожие патенты RU2743315C1

название год авторы номер документа
СПОСОБ ИЗВЛЕЧЕНИЯ БИГ-БИТОВОЙ ИНФОРМАЦИИ ИЗ ДОЛЕЙ МУЗЫКАЛЬНОГО ТАКТА, НОСИТЕЛЬ ДАННЫХ И ТЕРМИНАЛ 2018
  • Лоу, Фань
  • Ли, Цзин
RU2773876C2
ДЕТЕКТОР ДИАЛОГОВ 2020
  • Лу, Ле
  • Лю, Синь
RU2807170C2
ПЕРЦЕПТИВНАЯ ОЦЕНКА ТЕМПА С МАСШТАБИРУЕМОЙ СЛОЖНОСТЬЮ 2010
  • Бисвас Ариджит
  • Холлози Данило
  • Шуг Михель
RU2507606C2
УСТРОЙСТВО ДЕКОДИРОВАНИЯ, УСТРОЙСТВО КОДИРОВАНИЯ, СПОСОБ ДЕКОДИРОВАНИЯ И СПОСОБ КОДИРОВАНИЯ 2015
  • Кавасима Такуя
  • Ехара Хироюки
RU2662693C2
СПОСОБ ФОРМИРОВАНИЯ АУДИОРЯДОВ МУЗЫКИ ДЛЯ МУЗЫКОТЕРАПИИ 2009
  • Анисимов Борис Николаевич
RU2408397C1
СПОСОБ И УСТРОЙСТВО ВОСПРОИЗВЕДЕНИЯ СОДЕРЖАНИЯ 2005
  • Такаи Мотоюки
  • Тераути Тосиро
  • Сако Еитиро
  • Миядзима Ясуси
  • Ямасита Косеи
  • Иноуэ Макото
  • Асукаи Масамити
  • Сираи Кацуя
  • Макино Кенити
RU2398291C2
ЗВУКОВОЙ ПРОИГРЫВАТЕЛЬ, СПОСОБ ВОСПРОИЗВЕДЕНИЯ ЗВУКА 2007
  • Сираи Кацуя
  • Сакаи Юити
  • Сако
  • Асукаи Масамити
  • Иноуэ Макото
  • Такаи Мотоюки
  • Сано Акане
RU2390056C2
СПОСОБ СОЗДАНИЯ СВЕТОМУЗЫКАЛЬНЫХ ЭФФЕКТОВ 1994
  • Томилов Николай Васильевич
  • Томилов Александр Николаевич
RU2084261C1
УСТРОЙСТВО ДЛЯ АВТОМАТИЧЕСКОГО СВЕТОВОГО СОПРОВОЖДЕНИЯ МУЗЫКИ 2005
  • Вольнов Владимир Алексеевич
RU2297867C1
УСТРОЙСТВО И СПОСОБ РАСШИРЕНИЯ ДИАПАЗОНА ЧАСТОТ, УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ, УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ И ПРОГРАММА 2009
  • Хонма Хироюки
  • Чинен Тору
  • Ямамото Юки
  • Мицуфудзи Юхки
  • Макино Кенити
RU2454738C2

Иллюстрации к изобретению RU 2 743 315 C1

Реферат патента 2021 года СПОСОБ КЛАССИФИКАЦИИ МУЗЫКИ И СПОСОБ ДЕТЕКТИРОВАНИЯ ДОЛЕЙ МУЗЫКАЛЬНОГО ТАКТА, НОСИТЕЛЬ ДАННЫХ И КОМПЬЮТЕРНОЕ УСТРОЙСТВО

Заявленное изобретение относится к способу детектирования долей музыкального такта и предусматривает: выполнение покадровой обработки музыкального сигнала с целью получения кадрового сигнала; получение спектра мощности кадрового сигнала; выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона; выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону; получение требующей подтверждения тактовой доли из кадрового сигнала музыкального сигнала по результатам комбинированной фильтрации в частотно-временной области; и получение тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли. Заявленное изобретение направлено на обеспечение возможности запуска индивидуализированного задания спецэффекта в зависимости от воспроизводимой музыки видеоэффектов по тактовым долям. 4 н. и 8 з.п. ф-лы, 5 ил.

Формула изобретения RU 2 743 315 C1

1. Способ детектирования долей музыкального такта, предусматривающий:

выполнение покадровой обработки музыкального сигнала для получения кадрового сигнала;

получение спектра мощности кадрового сигнала;

выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона;

выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону;

получение уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона по результатам комбинированной фильтрации в частотно-временной области;

вычисление взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей по каждой частот;

получение требующей подтверждения тактовой доли на основании взвешенной суммарной величины; и

получение тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли.

2. Способ детектирования долей музыкального такта по п. 1, в котором получение тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли предусматривает:

принятие требующей подтверждения тактовой доли, взвешенная суммарная величина которой превышает пороговое значение мощности, за тактовую долю музыкального сигнала.

3. Способ детектирования долей музыкального такта по п. 2, в котором пороговое значение мощности определяется следующим образом:

получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей; и

принятие суммарной величины среднего значения и удвоенной дисперсии за пороговое значение мощности.

4. Способ детектирования долей музыкального такта по п. 3, в котором после принятия требующей подтверждения тактовой доли за тактовую долю музыкального сигнала предложенный способ детектирования долей музыкального такта дополнительно предусматривает:

получение сильной доли музыкального сигнала на основании порогового значения мощности сильной доли, причем пороговое значение мощности сильной доли определяется следующим образом:

получение среднего значения и дисперсии значений мощности всех требующих подтверждения тактовых долей; и

вычисление суммарной величины среднего значения и утроенной дисперсии с принятием этой суммарной величины за пороговое значение мощности сильной доли; и

получение слабой доли музыкального сигнала, причем сильная доля определяется следующим образом:

получение тактовой доли, значение мощности которой меньше или равно пороговому значению мощности сильной доли или больше порогового значения мощности в тактовых долях музыкального сигнала с принятием этой тактовой доли за слабую долю музыкального сигнала.

5. Способ детектирования долей музыкального такта по п. 1, в котором выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности, по меньшей мере, на два поддиапазона предусматривает:

выполнение разбивки на поддиапазоны в отношении спектра мощности и разложение спектра мощности на четыре поддиапазона;

причем эти четыре поддиапазона включают в себя: первый поддиапазон, используемый для детектирования тактовых долей большого барабана; второй поддиапазон, используемый для детектирования тактовых долей малого барабана; третий поддиапазон, используемый для детектирования тактовых долей малого барабана; и четвертый поддиапазон, используемый для детектирования долей инструмента, выдающего тактовые доли высокой частоты.

6. Способ детектирования долей музыкального такта по п. 5, в котором полоса частот первого поддиапазона лежит в пределах 0-120 Гц; полоса частот второго поддиапазона лежит в пределах от 120 Гц до 3 кГц; полоса частот третьего поддиапазона лежит в пределах 3-10 кГц; а полоса частот четвертого поддиапазона лежит в пределах от 10 кГц до fs/2 Гц, где величина fs обозначает частоту дискретизации сигнала.

7. Способ детектирования долей музыкального такта по п. 5, в котором выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону, предусматривает:

на основании детектированного типа тактовой доли, соответствующего первому поддиапазону, второму поддиапазону, третьему поддиапазону и четвертому поддиапазону, выполнение комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона с введением параметра, соответствующего типу тактовой доли.

8. Способ детектирования долей музыкального такта по п. 7, в котором параметр, соответствующий типу тактовых долей, определяется следующим образом:

задание параметра поддиапазона на основании характеристик в динамике по времени и по гармоническому распределению тактовых долей инструментов ударного типа, используемых для детектирования, и прочих сигналов помех в каждом поддиапазоне.

9. Способ классификации музыки по долям музыкального такта, предусматривающий следующие стадии:

детектирование доли музыкального такта с использованием способа детектирования долей музыкального такта по любому из предшествующих пп. 1-8; и

классифицирование музыкального сигнала по количеству тактовых долей в каждом поддиапазоне.

10. Способ классификации музыки по п. 9, в котором классифицирование музыкального сигнала по количеству тактовых долей в каждом поддиапазоне предусматривает:

подсчет количества тактовых долей малого барабана и количества тактовых долей большого барабана в музыкальном сигнале на основании количества тактовых долей в каждом поддиапазоне;

отнесение музыкального сигнала к категории музыки с сильным ритмом, если количество тактовых долей малого барабана и количество тактовых долей большого барабана превышает первое пороговое значение; и

отнесение музыкального сигнала к категории лирической музыки, если количество тактовых долей большого барабана меньше второго порогового значения.

11. Носитель данных для хранения команд, в котором команды выполнены с возможностью загрузки и исполнения процессором для:

выполнения покадровой обработки музыкального сигнала с целью получения кадрового сигнала;

получения спектра мощности кадрового сигнала;

выполнения разбивки на поддиапазоны в отношении спектра мощности и разложения спектра мощности, по меньшей мере, на два поддиапазона;

выполнения комбинированной фильтрации в частотно-временной области в отношении сигнала каждого поддиапазона на основании типа тактовой доли, соответствующего каждому поддиапазону;

получения уровня доверительной вероятности долей по каждой частоте в сигнале каждого поддиапазона по результатам комбинированной фильтрации в частотно-временной области;

вычисления взвешенной суммарной величины значений мощности, соответствующих всем частотам в каждом поддиапазоне, на основании уровня доверительной вероятности долей по каждой частот;

получения требующей подтверждения тактовой доли на основании взвешенной суммарной величины; и

получения тактовой доли музыкального сигнала на основании значения мощности требующей подтверждения тактовой доли; или

команды выполнены с возможностью загрузки и исполнения процессором для:

детектирования доли музыкального такта с использованием способа детектирования долей музыкального такта по любому из предшествующих пунктов 1-8; и

классифицирования музыкального сигнала по количеству тактовых долей в каждом поддиапазоне.

12. Компьютерное устройство, содержащее:

один или несколько процессоров;

память; и

одну или несколько прикладных программ, хранящихся в памяти и выполненных с возможностью приведения в исполнение одним или несколькими процессорами;

при этом одна или несколько прикладных программ выполнены с возможностью использования для реализации способа детектирования долей музыкального такта по любому из предшествующих пп. 1-8 или выполнены с возможностью использования для реализации способа классификации музыки по любому из предшествующих пп. 9 и 10.

Документы, цитированные в отчете о поиске Патент 2021 года RU2743315C1

CN 104620313 A, 13.05.2015
US 2007240558 A1, 18.10.2007
US 2015094835 A1, 02.04.2015
US 6542869 B1, 01.04.2003
US 2012143679 A1, 07.06.2012.

RU 2 743 315 C1

Авторы

У, Сяоцзе

Даты

2021-02-17Публикация

2018-12-04Подача