Область техники, к которой относится изобретение
[0001] Целью изобретения является способ и система разложения акустического сигнала на звуковые объекты, имеющие форму сигналов с медленно изменяющимися амплитудой и частотой, а также звуковые объекты и их использование. Изобретение применимо в области анализа и синтеза акустических сигналов, например, в частности, для синтеза речевого сигнала.
Известный уровень техники
[0002] Прогресс в анализе звуковых сигналов за последнее десятилетие был незначительным. По-прежнему используются общеизвестные методы, такие как нейронные сети, вейвлет-анализ или нечеткая логика. Помимо этих методов довольно распространено использование классического алгоритма быстрого преобразования Фурье (Fast Fourier Transform, FFT) для фильтрации сигналов, что позволяет анализировать частоту компонентов с использованием относительно низкой вычислительной мощности.
[0003] Одна из самых сложных областей, но в то же время представляющая наибольший интерес в анализе звуковых сигналов, - это анализ и синтез речи.
[0004] Несмотря на огромный прогресс, наблюдаемый в развитии цифровых технологий, прогресс в системах обработки звуковых сигналов в этом плане незначителен. В течение последних нескольких лет появилось множество приложений, которые пытались заполнить нишу, связанную с распознаванием речи, но их общая основа (в основном анализ в частотной области с использованием преобразования Фурье) и связанные с ней ограничения приводят к тому, что они не отвечают требованиям рынка.
[0005] Основными недостатками этих систем являются:
1) Восприимчивость к внешним помехам
Существующие системы анализа звука удовлетворительно работают в условиях, обеспечивающих один источник сигнала. Если появляются дополнительные источники звука, такие как помехи, звуки окружающей среды или совместные звуки нескольких инструментов, и наблюдается перекрытие спектра, то в результате применение математических моделей приведет к ошибке.
2) Относительное изменение спектральных параметров
Методы расчета параметров звукового сигнала, которые используются в настоящее время, происходят из преобразования Фурье. Это предполагает линейную вариацию анализируемых частот, означающую, что относительное изменение двух соседних частот не является постоянным. Например, если проанализировано окно из 1024 (210) данных, отобранных с частотой 44100 отсчетов в секунду (Samples Per Second, SPS), с использованием алгоритма FFT, то последовательные частоты спектра отличаются на 43,07 Гц. Первая ненулевая частота - F1=43,07 Гц, следующая F2=86,13 Гц. Последние частоты: F510=21963,9 Гц, F511=22006,9 Гц. В начале диапазона относительное изменение спектральной частоты составляет 100% и не дает возможности идентифицировать более близкие звуки. В конце диапазона относительное изменение спектрального параметра составляет 0,0019% и не может быть различимо человеческим ухом.
3) Ограничение параметров спектральными амплитудными характеристиками
Алгоритмы, основанные на преобразовании Фурье, используют для анализа амплитудную характеристику и, в частности, максимальную амплитуду спектра. В случае звуков с разными частотами, близкими друг к другу, этот параметр будет сильно искажен. В этом случае можно получить дополнительную информацию из фазовой характеристики, анализируя фазу сигнала. Однако, поскольку спектр анализируется в сдвинутых окнах, например, на 256 отсчетов, вычисленную фазу не к чему привязать.
[0006] Эта проблема была частично решена с помощью системы извлечения речевой информации, описанной в патенте US 5214708. В нем раскрывается банк фильтров, имеющих центральные частоты, логарифмически разнесенные относительно друг друга в соответствии с моделью восприятия человеческого уха. Благодаря предположению, что в полосе любого из этих банков фильтров имеется только один тон, проблемы неопределенности источника в области обработки сигналов удалось частично избежать. В соответствии с решением, раскрытым в US 5214708, информация о модуляции каждой из гармоник, включая информацию о частоте и о форме колебания во временной области, может быть извлечена на основе измерения логарифма мощности каждой гармоники. Логарифмы амплитуды сигнала в соседних фильтрах получаются с использованием гауссовских фильтров и логарифмических усилителей. Однако недостатком этого решения является то, что функция FM(t), используемая для анализа речи, не может эффективно выделить существенные характеристические параметры одиночного речевого сигнала.
Следующим гораздо более значительным недостатком этого решения является предположение, что звуковой сигнал содержит сигнал только от одного источника, такое упрощение значительно снижает практические возможности использования такой системы для разложения.
С другой стороны, было предложено несколько решений в отношении упомянутой проблемы разложения звукового сигнала от нескольких источников. Из докторской диссертации " des sons polyphoniques", Mathieu Lagrange, Bordeaux, 16 December 2004, pages 1-220, известен способ и подходящая система для разложения акустического сигнала на звуковые объекты, имеющие форму синусоидального колебания с медленно меняющейся амплитудой и частотой, причем упомянутый способ включает в себя этап определения параметров кратковременной модели сигнала и этап определения параметров долговременной модели сигнала на основе упомянутых кратковременных параметров, причем этап определения параметров кратковременной модели сигнала включает преобразование аналогового акустического сигнала в цифровой входной сигнал. Определение кратковременной модели сигнала включает в себя сначала обнаружение наличия частотной составляющей, а затем оценку ее амплитудных, частотных и фазовых параметров. Определение долговременной модели сигнала включает в себя группирование последовательных обнаруживаемых компонентов в звуки, то есть звуковые объекты с использованием различных алгоритмов, которые учитывают предсказуемый характер изменения параметров компонентов.
Аналогичная концепция была описана также в документе Virtanen et al. "Separation of harmonic sound sources using sinusoidal modeling", IEEE International Conference on Acoustic, Speech, and Signal Processing 2000, ICASSP '00.5-9 June 2000, Piscataway, NJ USA, IEEE, vol. 2, 5 June 2000, pages 765-768 и в документе Tero Tolonen "Methods for Separation of Harmonic sound Sources using Sinusoidal Modeling", 106th Convention AES, 8 May 1999. Во всех упомянутых документах упоминается пара разных способов, позволяющих определять и оценивать частотные составляющие. Однако в этой непатентной литературе описываются способ и система разложения, которые имеют несколько недостатков, вызванных обработкой с преобразованием Фурье, используемой в них, и помимо прочего, не позволяют непрерывно анализировать фазу. Более того, эти известные способы не позволяют точно определять частотные составляющие с помощью простой математической операции.
[0007] Поэтому целью данного изобретения является создание способа и системы для разложения акустического сигнала, которые позволили бы эффективно анализировать акустический сигнал, воспринимаемый как сигнал, поступающий одновременно от ряда источников, сохраняя при этом очень хорошее разрешение по времени и частоте. В более общем плане целью изобретения является повышение надежности и расширение возможностей систем обработки звуковых сигналов, в том числе для анализа и синтеза речи.
Сущность изобретения
[0008] Эта цель достигается с помощью способов и устройства в соответствии с независимыми пунктами формулы изобретения. Предпочтительные формы осуществления определены в зависимых пунктах формулы изобретения.
В соответствии с изобретением, способ разложения акустического сигнала на набор параметров, описывающий подсигналы акустического сигнала, имеющие форму синусоидального колебания с медленно меняющейся амплитудой и частотой, может содержать этап определения параметров кратковременной модели сигнала и этап определения параметров долговременной модели сигнала на основе упомянутых кратковременных параметров, причем этап определения параметров кратковременной модели сигнала включает преобразование аналогового акустического сигнала в цифровой входной сигнал PIN, отличающийся тем, что
- на упомянутом этапе определения параметров кратковременной модели сигнала входной сигнал PIN затем разбивается на смежные поддиапазоны с центральными частотами, распределенными по логарифмической шкале, путем подачи отсчетов звукового сигнала на вход банка цифровых фильтров, причем каждый цифровой фильтр имеет длину окна, пропорциональную центральной частоте;
- на выходе каждого фильтра (20) действительное значение FC(n) и мнимое значение FS(n) отфильтрованного сигнала определяют последовательно отсчет за отсчетом, а затем на основе этого
- мгновенная частота, амплитуда и фаза всех обнаруженных составляющих элементов упомянутого акустического сигнала определяют отсчет за отсчетом,
- операция, улучшающая разрешение в частотной области упомянутого отфильтрованного сигнала, выполняется отсчет за отсчетом и включает в себя, по меньшей мере, этап определения частоты всех обнаруженных составляющих элементов на основе максимальных значений функции FG(n), полученных в результате математической операции, отражающей количество соседних фильтров (20), выводящее значение угловой частоты, по существу аналогичное значению угловой частоты каждого последовательного фильтра (20), и на этом этапе определения параметров долговременной модели сигнала:
- для каждого обнаруженного элемента упомянутого акустического сигнала для его отслеживания создается активный объект в базе (34) данных активных объектов;
- последующие обнаруженные элементы упомянутого акустического сигнала связывают, отсчет за отсчетом, по меньшей мере с выбранными активными объектами в базе (34) данных активных объектов для создания нового активного объекта или добавления упомянутого обнаруженного элемента к активному объекту или для закрытия активного объекта;
- для каждого активного объекта в базе (34) данных значения огибающей амплитуды и значения частоты и их соответствующих временных моментов определяют не реже одного раза за период длительности окна W(n) данного фильтра (20) таким образом, чтобы создать характеристические точки, описывающие медленно меняющуюся синусоидальную форму сигнала упомянутого звукового объекта;
- по меньшей мере один выбранный закрытый активный объект передается в базу (35) данных звуковых объектов для получения по меньшей мере одного разложенного звукового объекта, определенного набором характеристических точек с координатами в пространстве время - частота - амплитуда.
[0009] В соответствии с другим аспектом изобретения, предложена система разложения акустического сигнала на звуковые объекты, имеющие форму синусоидальных сигналов с медленно изменяющейся амплитудой и частотой, которая содержит подсистему для определения параметров кратковременной модели сигнала и подсистему для определения параметров долговременной модели сигнала на основе упомянутых параметров, причем упомянутая подсистема для определения кратковременных параметров включает в себя систему преобразования для преобразования аналогового акустического сигнала в цифровой входной сигнал PIN, при этом упомянутая подсистема для определения кратковременных параметров дополнительно содержит банк фильтров (20) с центральными частотами фильтров, распределенными по логарифмической шкале, причем каждый цифровой фильтр имеет длину окна, пропорциональную центральной частоте, при этом каждый фильтр (20) приспособлен для определения действительного значения FC(n) и мнимого значения FS(n) упомянутого отфильтрованного сигнала, упомянутый банк (2) фильтров соединен с системой (3) для отслеживания объектов, тогда как упомянутая система (3) для отслеживания объектов содержит систему (31) анализа спектра, предназначенную для обнаружения всех составляющих элементов входного сигнала PIN, систему (32) голосования, адаптированную для определения частоты всех обнаруженных составляющих элементов на основании максимальных значений функции FG(n), полученных в результате математической операции, отражающей количество соседних фильтров (20), которая выдает значение угловой частоты, по существу аналогичное значению угловой частоты каждого последовательного фильтра (20), а упомянутая подсистема для определения долговременных параметров содержит систему (33) ассоциирования объектов, формообразующую систему (37), адаптированную для определения характеристических точек, описывающих медленно меняющиеся синусоидальные формы сигналов, базу (34) данных активных объектов и базу (35) данных звуковых объектов.
[0010] В соответствии с другим аспектом изобретения звуковой объект, представляющий сигнал, имеющий медленно меняющуюся амплитуду и частоту, может быть получен ранее описанным способом.
[0011] Кроме того, сущность изобретения заключается в том, что звуковой объект, представляющий сигнал с медленно изменяющейся амплитудой и частотой, может быть определен характеристическими точками, имеющими три координаты в пространстве время-амплитуда-частота, причем каждая характеристическая точка удалена от следующей точки во временной области на величину, пропорциональную длительности окна W(n) фильтра (20), присвоенной частоте объекта.
[0012] Основным преимуществом способа и системы для разложения сигнала в соответствии с изобретением является то, что они подходят для эффективного анализа реального акустического сигнала, который обычно состоит из сигналов, поступающих из нескольких разных источников, например, нескольких различных инструментов или нескольких говорящих или поющих лиц.
[0013] Способ и система в соответствии с изобретением позволяют разложить звуковой сигнал на синусоидальные компоненты, имеющие медленное изменение амплитуды и частоты. Такой процесс можно назвать векторизацией звукового сигнала, а векторы, вычисленные в результате процесса векторизации, могут называться звуковыми объектами. В способе и системе согласно изобретению основной задачей разложения является сначала выделение всех компонентов сигнала (звуковых объектов), потом их группировка в соответствии с определенным критерием, а после этого определение информации, содержащейся в них.
[0014] В способе и системе согласно изобретению сигнал анализируется как во временной, так и в частотной области отсчет за отсчетом. Конечно, это увеличивает требования к вычислительной мощности. Как уже упоминалось, применяемые до сих пор технологии, в том числе преобразование Фурье с его реализацией как быстрое преобразование Фурье FFT и секционированное преобразование Фурье (Sectionized Fourier Transform, SFT), сыграли очень важную роль в прошлом, когда вычислительная мощность компьютеров была невысокой. Однако за последние 20 лет вычислительная мощность компьютеров увеличилась в 100000 раз. Следовательно, изобретение требует инструментальных средств, которые являются более ресурсоемкими, но обеспечивает большую точность и лучше соответствуют модели человеческого слуха.
[0015] Благодаря использованию банка фильтров, имеющего очень большое количество фильтров (более 300 для слышимой полосы) с логарифмически разнесенными центральными частотами, и из-за применяемых операций, увеличивающих разрешение в частотной области, получается система, способная выделять два одновременных источника звука, отделенных друг от друга даже полутоном.
[0016] Спектр звукового сигнала, полученного на выходе банка фильтров, содержит информацию о текущем местоположении и изменениях в сигнале звуковых объектов. Задача системы и способа в соответствии с изобретением состоит в том, чтобы точно связать изменение этих параметров с существующими объектами, создать новый объект, если параметры не соответствуют ни одному из существующих объектов, или закрыть объект, если для него нет никаких дополнительных параметров.
[0017] Для того, чтобы точно определить параметры звукового сигнала, которые предназначены для связи с существующими звуковыми объектами, количество рассматриваемых фильтров увеличивается и используется система голосования, позволяющая более точно локализовать частоты существующих звуков. Если появляются близкие частоты, длина упомянутых фильтров увеличивается, например, для улучшения разрешения в частотной области, или применяются методы подавления уже распознанных звуков, чтобы лучше выделять вновь появляющиеся звуковые объекты.
[0018] Ключевым моментом является то, что способ и система в соответствии с изобретением отслеживают объекты, имеющие частоту, изменяющуюся во времени. Это означает, что система будет анализировать реальные явления, правильно идентифицируя объект с новой частотой как уже существующий объект или объект, принадлежащий к той же группе, связанной с одним и тем же источником сигнала. Точная локализация параметров объектов в амплитудной и частотной области позволяет группировать объекты для идентификации их источника.
Распределение в заданную группу объектов возможно за счет использования конкретных отношений между основной частотой и ее гармониками, определяющими тембр звука.
[0019] Точное разделение объектов дает возможность дальнейшего анализа для каждой группы объектов без помех с помощью уже существующих систем, которые достигают хороших результатов для чистого сигнала (без помех). Наличие точной информации о звуковых объектах, присутствующих в сигнале, позволяет использовать их в совершенно новых областях применения, таких как, например, автоматическая генерация музыкальной нотной записи отдельных инструментов из звукового сигнала или голосовое управление устройствами даже при высокой фоновой помехе.
Краткое описание чертежей
[0020] Изобретение представлено в форме его осуществления со ссылкой на чертежи, на которых:
[0021] На фиг. 1 представлена блок-схема системы для разложения звукового сигнала на звуковые объекты.
[0022] Фиг. 2а представляет собой параллельную структуру банка фильтров согласно первой форме осуществления изобретения.
[0023] Фиг. 2b - древовидная структура банка фильтров согласно второй форме осуществления изобретения; на фиг. 2с показан спектр тонов фортепиано, на фиг. 2d показан пример структуры фильтра с использованием 48 фильтров/октаву, то есть четырех фильтров для каждого полутона.
[0024] На фиг. 3 показан общий принцип работы системы банков пассивных фильтров.
[002 5] На фиг. 4 показаны примеры параметров фильтров.
[0026] Фиг. 5 - импульсная характеристика фильтра F(n), имеющего окно Блэкмана.
[0027] На фиг. 6 показана блок-схема одиночного фильтра.
[0028] На фиг. 7a и 7с показана часть спектра выходного сигнала банка фильтров, содержащая действительную составляющую FC(n), мнимую составляющую FS(n) и полученную амплитуду спектра FA (n) и фазу FF (n).
[0029] На фиг. 7b и 7d показана номинальная угловая частота F#(n) соответствующей группы фильтров и угловая частота спектра FQ(n).
[0030] Фиг. 8 - блок- схема системы отслеживания звуковых объектов; на фиг. 8а показана взаимосвязь между четырьмя отдельными частотными компонентами и их суммой; на фиг. 8b показан еще один пример сигнала с четырьмя различными частотными компонентами (тонами).
[0031] На фиг. 9а и 9b показаны примеры результатов работы системы голосования, на фиг. 9 с показаны мгновенные значения, вычисленные и проанализированные системой 31 спектрального анализа согласно форме осуществления изобретения.
[0032] Фиг. 10 - блок-схема последовательности операций звуковой системы для связывания объектов; фиг. 10а - иллюстрация процесса обнаружения элемента и создания объекта согласно форме осуществления изобретения; фиг. 10b иллюстрирует применение функции сопоставления в соответствии с формой осуществления изобретения.
[0033] На фиг. 11 показана работа системы улучшения разрешения по частоте в соответствии с формой осуществления изобретения.
[0034] На фиг. 12 показана работа системы улучшения разрешения по частоте в соответствии с другой формой осуществления, на фиг. 12/2а показан спектр сигнала согласно фиг. 7с, на фиг. 12/2b показаны определенные параметры локализованных объектов 284 и 312, на фиг. 12/2с показан спектр хорошо локализованных объектов, на фиг. 12/2d показана разность между спектром сигнала и расчетным спектром хорошо локализованных объектов, на фиг. 12/2е показаны определенные параметры объектов 276 и 304, расположенных в спектре разности.
[0035] На фиг. 13 показана работа системы улучшения разрешения по частоте согласно еще одной форме осуществления.
[003 6] На фиг. 14а, 14b, 14с, 14d показаны примеры представления звуковых объектов, на фиг. 14е показан пример многоуровневого описания звукового сигнала в соответствии с формой осуществления изобретения.
[0037] На фиг. 15 показан пример формата обозначения информации о звуковых объектах, на фиг. 15а показан звуковой сигнал, состоящий из двух частот (пунктирные линии) и сигнала, полученного из разложения, без коррекции.
[0038] На фиг. 16 показан первый пример звукового объекта, требующего коррекции.
[0039] На фиг. 17 показан второй пример звукового объекта, требующего коррекции.
[004 0] На фиг. 18а-18c показаны дополнительные примеры звуковых объектов, требующих коррекции. На фиг. 18d показан звуковой сигнал, состоящий из двух частот (пунктирная линия) и сигнала, полученного из разложения, с включенной системой коррекции.
[0041] На фиг. 19а, 19b, 19с, 19d, 19е, 19f, 19g, 19h показан процесс выделения звуковых объектов из звукового сигнала и синтеза звукового сигнала из звуковых объектов.
Подробное описание форм осуществления изобретения
[0042] В настоящей патентной заявке термин "подключенный" ("соединенный") в контексте соединения между любыми двумя системами следует понимать в максимально широком смысле как любой возможный одиночный или множественный тракт, а также прямое или косвенное физическое или операционное соединение.
[0043] Система 1 для разложения акустического сигнала на звуковые объекты в соответствии с изобретением схематично показана на фиг. 1. На ее вход подается звуковой сигнал в цифровом виде. Цифровой вид упомянутого звукового сигнала получается в результате применения типичных и известных методов аналого-цифрового преобразования. Элементы, используемые для преобразования акустического сигнала из аналоговой в цифровую форму, здесь не показаны. Система 1 содержит банк 2 фильтров с выходом, соединенным с системой 3 для отслеживания объектов, которая дополнительно связана с системой 4 коррекции. Между системой 3 для отслеживания объектов и банком фильтров существует обратная связь, используемая для управления параметрами банка 2 фильтров. Кроме того, система 3 для отслеживания объектов соединена с входом блока 2 фильтров через дифференциальную систему 5, которая является неотъемлемой составляющей системы 36 улучшения разрешения по частоте на фиг. 8.
[0044] Для выделения звуковых объектов из акустического сигнала использовался анализ сигналов во временной и частотной областях. Упомянутый цифровой входной сигнал подается в банк 2 фильтров отсчет за отсчетом. Предпочтительно, упомянутые фильтры являются фильтрами с конечной импульсной характеристикой (SOI). На фиг. 2а показана типичная структура банка 2 фильтров, в котором отдельные фильтры 20 параллельно обрабатывают один и тот же сигнал с заданной частотой дискретизации. Как правило, частота дискретизации по меньшей мере в два раза больше, чем самая высокая ожидаемая составляющая звукового сигнала, предпочтительно 44,1 кГц. Поскольку такое количество отсчетов, подлежащих обработке за 1 секунду, требует больших вычислительных затрат, предпочтительно использовать древовидную структуру банка фильтров (фиг. 2b). В древовидной структуре банка 2 фильтров фильтры 20 сгруппированы в соответствии с частотой дискретизации входного сигнала. Например, разделение в древовидной структуре может быть выполнено сначала по целым октавам. Для отдельных поддиапазонов с более низкими частотами можно обрезать высокочастотные компоненты, применив фильтр нижних частот, и дискретизировать их с меньшей частотой. Как следствие, благодаря уменьшению количества отсчетов достигается значительное увеличение скорости обработки. Для интервала до 300 Гц сигнал желательно дискретизировать с частотой fp=600 Гц, до 2,5 кГц - с частотой fp=5 кГц.
[0045] Поскольку основная задача способа и системы в соответствии с изобретением заключается в локализации всех звуковых объектов в спектре, важным вопросом является возможная точность определения параметров сигнала и разрешение одновременно появляющихся звуков. Банк фильтров должен обеспечивать высокое разрешение в частотной области, то есть более 2 фильтров на один полутон, что позволяет отделить два соседних полутона. В представленных примерах используются 4 фильтра на один полутон.
[0046] Предпочтительно, в способе и системе согласно изобретению была принята шкала с логарифмическим распределением, соответствующая параметрам человеческого уха, однако специалисту в данной области будет понятно, что в рамках изобретения допустимы другие распределения центральных частот фильтров. Лучше, чтобы схема распределения центральных частот фильтров была музыкальной шкалой, причем последующие октавы начинались тоном, в 2 раза большим, по сравнению с предыдущей октавой. Каждая октава делится на 12 полутонов, т.е. частота двух соседних полутонов отличается на 5,94% (например, e1=329,62 Гц, f1=349,20 Гц). Чтобы повысить точность, для каждого полутона в способе и системе в соответствии с изобретением имеется четыре фильтра, каждый из которых фильтрует свою собственную частоту, отличающуюся от соседней частоты на 1,45%. Считается, что самая низкая слышимая частота равна С2=16,35 Гц. Предпочтительно, количество фильтров больше 300. Конкретное количество фильтров для данной формы осуществления зависит от частоты дискретизации. При выборке в 22050 отсчетов в секунду самая высокая частота составляет e6=10548 Гц, в этом диапазоне находятся 450 фильтров. При выборке с частотой 44100 отсчетов в секунду самая высокая частота составляет e7=21096 Гц, в этом диапазоне - 498 фильтров.
[0047] Общий принцип работы пассивного банка фильтров показан на фиг. 3. Входной сигнал, который подается на каждый фильтр 20 банка 2 фильтров, преобразуется в результате соответствующих математических операций из временной в частотную область. На практике ответ на сигнал возбуждения появляется на выходе каждого фильтра 20, и спектр сигнала совместно появляется на выходе банка фильтров.
[0048] На фиг. 4 показаны примеры параметров выбранных фильтров 20 в банке 2 фильтров. Как видно из таблицы, центральные частоты соответствуют тонам, к которым может быть отнесен конкретный знак музыкальной ноты. Ширина окна каждого фильтра 20 определяется соотношением: , где: W(n) - ширина окна фильтра n,
fp - частота дискретизации (например, 44100 Гц),
FN(n) - номинальная (центральная) частота фильтра n,
К - коэффициент ширины окна (например, 16).
Поскольку в нижнем диапазоне музыкальной шкалы требуется более высокое разрешение в частотной области, то следовательно для этого диапазона частот окна фильтра будут самыми широкими. Благодаря введению коэффициента К и нормализации для номинальной частоты FN фильтра для всех фильтров обеспечивается одинаковая амплитудная и фазовая характеристика.
[0049] Что касается реализации упомянутого банка фильтров, то специалисту будет понятно, что одним из возможных способов получения коэффициентов полосового фильтра типа SOI является определение импульсной характеристики фильтра. Пример импульсной характеристики фильтра 20 в соответствии с изобретением показан на фиг. 5. Импульсная характеристика на фиг. 5 - импульсный отклик фильтра с косинусным окном, который определяется соотношением:
где: ω(n)=2π*FN (n)/fp,
W(n), FN(n), fp - определены выше.
Операции, выполняемые каждым из фильтров 20, показаны на фиг. 6. Задача банка 2 фильтров состоит в том, чтобы позволить определение частотного спектра звукового сигнала в диапазоне частот от самой низкой слышимой человеком (например, C2=16,35 Гц) до - половины частоты дискретизации (например, e7=21096 Гц при 44100 отсчетах в секунду). Перед тем как каждый из фильтров начнет работать, инициализируются параметры фильтра 20, причем приводимыми в качестве примера параметрами являются коэффициенты отдельных компонентов функции временного окна. Затем текущий отсчет PIN входного сигнала, имеющий только действительное значение, подается на вход банка 2 фильтров. Каждый фильтр 20, используя рекурсивный алгоритм, вычисляет новое значение компонентов FC(n) и FS(n) на основе предыдущих значений действительной составляющей FC(n) и мнимой составляющей FS(n) и вычисляет также значения отсчета PIN, вводимого в фильтр, и отсчета POUT, выходящего из окна фильтра; эти значения сохраняются во внутреннем сдвиговом регистре. Благодаря использованию рекурсивного алгоритма количество вычислений для каждого из фильтров является постоянным и не зависит от длины окна фильтра.
Выполняемые операции для косинусного окна определяются формулой:
Используя тригонометрические уравнения, относящиеся к произведениям тригонометрических функций, для уравнений (3) и (4), получаем зависимость составляющих FC(n) и FS(n) от значений этих составляющих для предыдущего отсчета звукового сигнала и значение отсчета, вводимого в фильтр PIN, и выводимого из фильтра POUT, в соответствии с уравнением, показанным на фиг. 6. В случае каждого фильтра 20 вычисление уравнения для каждого отсчета из последовательности требует 15 операций умножения и 17 операций сложения для окон типа Ханна или Хэмминга или 2 5 операций умножения и 24 операции сложения для окна Блэкмана. Процесс работы фильтра 20 завершается, когда на входе фильтра больше нет отсчетов звукового сигнала.
[0050] Значения действительной составляющей FC(n) и мнимой составляющей FS(n) отсчета, получаемые после каждого последовательного отсчета входного сигнала, пересылаются с выхода каждого фильтра 20 в систему 3 для отслеживания звуковых объектов и, в частности, в содержащуюся в ней систему 31 спектрального анализа (как показано на фиг. 8). Поскольку спектр банка 2 фильтров вычисляется после каждого отсчета входного сигнала, система 31 спектрального анализа, помимо амплитудной характеристики, может использовать и фазовую характеристику на выходе из банка 2 фильтров. В частности, в способе и системе согласно изобретению изменение фазы текущего отсчета выходного сигнала по отношению к фазе предыдущего отсчета используется для точного разделения частот, присутствующих в спектре, что будет рассматриваться далее со ссылкой на фиг. 7а, 7b, 7с и 7d, и фиг. 8.
[0051] Система 31 спектрального анализа, являющаяся компонентом системы 3 для отслеживания объектов (как показано на фиг. 8), вычисляет отдельные компоненты спектра сигнала на выходе банка фильтров. Чтобы проиллюстрировать работу этой системы, был проанализирован акустический сигнал со следующими компонентами:
[0052] На фиг. 7а и 7b показаны графики мгновенных величин, полученных на выходе выбранной группы фильтров 2 0 для упомянутого сигнала, и значений величин, вычисленных и проанализированных с помощью системы 31 спектрального анализа. Для фильтров с номером п от 266 до 336 с окном, имеющим коэффициент ширины окна К=16, было представлено: мгновенное значение действительной составляющей FC[n], мгновенное значение мнимой составляющей Fs[n], которые подаются на вход системы 31 спектрального анализа, и мгновенное значение амплитуды спектра FA[n] и фазы FF[n], которые вычисляются системой 31 спектрального анализа. Как уже упоминалось, система 31 спектрального анализа собирает всю возможную информацию, необходимую для определения фактической частоты звуковых объектов, присутствующих в данный момент времени в сигнале, включая информацию об угловой частоте. Правильное расположение тона составляющих частот показано на фиг. 7b, и оно находится на пересечении номинальной угловой частоты фильтров FQ[n] и значения угловой частоты на выходе фильтров FQ[n], рассчитанной как производная фазы спектра на выходе конкретного фильтра п. Таким образом, согласно изобретению для обнаружения звукового объекта система 31 спектрального анализа анализирует также график угловой частоты F#[n] и FQ[n]. В случае сигнала, содержащего компоненты, удаленные друг от друга, точки, которые определяются в результате анализа угловой частоты, соответствуют местоположениям максимумов амплитуды на фиг. 7а.
[0053] Из-за некоторых типичных явлений в области обработки сигналов, опора только на максимумы амплитуды спектра неэффективна. Наличие заданного тона во входном сигнале влияет на значение амплитудного спектра на соседних частотах, что приводит, следовательно, к сильно искаженному спектру, когда сигнал содержит два тона, близких друг к другу. Чтобы проиллюстрировать это явление и проиллюстрировать функциональные возможности системы 31 спектрального анализа в соответствии с изобретением, сигнал был подвергнут также анализу, включающему звуки со следующими частотами:
Как показано на фиг. 7с и 7d, в случае сигнала с близко расположенными компонентами, правильное расположение тона, определенное на основе анализа графиков угловых частот, не соответствует максимуму амплитуды на фиг. 7с. Таким образом, для такого случая, благодаря различным параметрам, проанализированным системой 31 спектрального анализа, можно обнаружить ситуации, которые являются критическими для разложения акустического сигнала. Вследствие этого можно применять конкретные процедуры, ведущие к правильному распознаванию компонентов, что будет описано далее со ссылкой на фиг. 8, фиг. 9а и фиг. 9b.
[0054] Основная задача системы 3 для отслеживания объектов, блок-схема которой показана на фиг. 8, заключается в обнаружении в данный момент времени всех частотных компонентов, присутствующих во входном сигнале. Как показано на фиг. 7b и фиг. 7d, фильтры, смежные с входным тоном, имеют очень похожие угловые частоты, отличные от номинальных угловых частот этих фильтров. Это свойство используется другой подсистемой системы 3 для отслеживания объектов, а именно системой 32 голосования. Чтобы предотвратить некорректное обнаружение частотных составляющих, значения амплитудного спектра FA(n) и угловой частоты на выходе фильтров FQ(n), вычисленные системой 31 спектрального анализа, направляются в систему 32 голосования для расчета их взвешенного значения и обнаружения их максимумов в зависимости от номера фильтра (n). Таким образом, получается система голосования, которая учитывает частоту на выходах всех фильтров 20, прилегающих к ней, для определения частот, присутствующих во входном сигнале для данной частоты на выходе фильтра 20.
Работа этой системы показана на фиг. 9а и 9b. На фиг. 9а показан случай, соответствующий показанному на фиг. 7а и 7b, тогда как на фиг. 9b показан случай, соответствующий показанному на фиг. 7с и 7d. Как видно, график сигнала FG(n) (взвешенное значение, вычисленное системой 32 голосования) имеет различные пики в местах, соответствующих тонам частотных составляющих, присутствующих во входном сигнале. В случае входного сигнала, содержащего компоненты, отчетливо отделенные друг от друга (как показано на фиг. 9а), эти местоположения соответствуют максимуму амплитуды спектра FA(n). В случае сигнала, содержащего компоненты, расположенные слишком близко друг к другу (как показано на фиг. 9b), без системы 32 голосования были бы обнаружены тона, отраженные в максимуме амплитуды спектра, которые расположены в местах, отличных от упомянутых пиков во взвешенном сигнале FG(n).
Другими словами, упомянутая "система голосования" выполняет операцию "подсчета голосов", а именно операцию сбора "голосов" каждого фильтра (n) на определенной номинальной угловой частоте, которая "голосует", давая на выходе свою угловую частоту, близкую к той, на которой дан упомянутый "голос". Упомянутые "голоса" показаны как кривая FQ[n]. Примером реализации упомянутой системы 32 голосования может быть регистр, в котором определенные расчетные значения собираются в конкретной ячейке. Последовательный номер фильтра, а именно номер ячейки в регистре, в которой должно собираться определенное значение, будет определяться на основе определенной угловой частоты, выдаваемой конкретным фильтром, причем упомянутая угловая частота является индексом для регистра. Специалисту в данной области будет понятно, что значение выдаваемой угловой частоты редко является целым числом, поэтому упомянутый индекс должен определяться на основе определенного предположения, например, что упомянутое значение мгновенной угловой частоты должно быть округлено в большую или меньшую сторону. Затем значение, которое должно быть собрано под определенным индексом, может быть, например, значением, равным 1, умноженным на амплитуду, выдаваемую упомянутым голосующим фильтром, или значением, равным разности между выданной угловой частотой и ближайшей номинальной частотой, умноженной на амплитуду, выданную голосующим фильтром. Такие значения могут быть собраны в последовательную ячейку регистра путем сложения или вычитания или умножения или любой другой математической операции, отражающей количество голосующих фильтров. Таким образом, система голосования 31 рассчитывает "взвешенное значение" для конкретной номинальной частоты на основе параметров, полученных из системы спектрального анализа. Эта операция "подсчета голосов" учитывает три набора входных значений, первый из которых представляет собой значения номинальных угловых частот фильтров, второй - значения мгновенных угловых частот фильтров, третий - значения амплитуды спектра FA(n) для каждого фильтра.
[0055] Как показано на фиг. 8, система 31 спектрального анализа и система 32 голосования соединены на своих выходах с системой 33 ассоциирования объектов. Имея в своем распоряжении список частот, обнаруженных системой 32 голосования, из которых состоит входной сигнал, и дополнительные параметры, такие как амплитуда, фаза и угловая частота, связанные с каждой обнаруженной частотой, система 33 ассоциирования объектов объединяет эти параметры в "элементах", а затем строит из них звуковые объекты. Предпочтительно, в системе и способе согласно изобретению частоты (угловые частоты), обнаруженные системой 32 голосования, и, таким образом, "элементы", обозначаются номером фильтра n. Система 33 ассоциирования объектов связана с базой 34 данных активных объектов. База 34 данных активных объектов содержит объекты, расположенные по порядку в зависимости от того значения частоты, у которого объекты еще не были "закрыты". Термин "закрытый объект" следует понимать как такой объект, у которого в данный момент времени нет элементов, обнаруженных системой 31 спектрального анализа, и система 32 голосования может быть связана с ним. Работа системы 33 ассоциирования объектов показана на фиг. 10. Последовательные элементы входного сигнала, обнаруженные системой 32 голосования, связываются с выбранными активными объектами в базе 34 данных. Чтобы ограничить количество требуемых операций, желательно, чтобы обнаруженные объекты данной частоты сравнивались только с соответствующими активными объектами, расположенными в заранее заданном частотном диапазоне. Сначала сравнение учитывает угловую частоту элемента и активного объекта. Если нет объекта, достаточно близкого к упомянутому элементу (например, в диапазоне расстояний по частоте, соответствующему 0,2 тона), это означает, что появился новый объект и его следует добавить к активным объектам (в базе 34 данных). Если после того, как ассоциирование объектов с текущими элементами будет завершено, не будет элемента, достаточно близкого для активного звукового объекта (например, в диапазоне расстояний по частоте, соответствующему 0,2 тона), это означает, что больше никаких параметров для объекта не обнаружено, и он должен быть закрыт. Упомянутый закрытый объект учитывается в процессе ассоциирования еще на 1 период его частоты, чтобы избежать случайного закрытия, вызванного временными помехами. В течение этого времени он может вернуться к активным звуковым объектам в базе 34 данных. Через 1 период определяется конечная точка объекта. Если объект длился достаточно долго (например, его длина была не менее ширины соответствующего окна W[n]), то этот объект переносится в базу 35 данных звуковых объектов.
[0056] В случае ассоциирования друг с другом активного объекта и объекта, достаточно близкого к нему, в системе для 33 ассоциирования объектов дополнительно вычисляется функция сопоставления, которая содержит следующие взвешенные значения: сопоставление амплитуд, сопоставление фаз, продолжительность объектов по времени. Такая функциональность системы 33 ассоциирования объектов в соответствии с изобретением имеет существенное значение в ситуации, когда в реальном входном сигнале составной сигнал от одного и того же источника изменил частоту. Это происходит потому, что в результате изменения частоты число активных объектов становится ближе друг к другу. Поэтому после вычисления функции сопоставления система 33 ассоциирования объектов проверяет, есть ли в данный момент времени второй объект, достаточно близкий к нему, в базе 34 данных. Система 33 решает, какой объект будет продолжателем объектов, которые объединились вместе. Выбор определяется результатом сопоставления функций сравнения. Наиболее подходящий активный объект будет продолжен, а для других оставшихся будет выдана команда для закрытия. Также система 36 улучшения разрешения взаимодействует с базой 34 данных активных объектов. Она отслеживает взаимное частотное расстояние объектов, присутствующих в сигнале. Если обнаружены слишком близкие частоты активных объектов, система 36 улучшения разрешения посылает управляющий сигнал для запуска одного из трех процессов, улучшающих разрешение в частотной области. Как упоминалось ранее, в случае наличия нескольких частот, близких друг к другу, их спектр перекрывается. Чтобы отличить их, система должна "внимательно слушать" звук. Это может быть достигнуто путем удлинения окна, в котором фильтр производит выборку сигнала. В этой ситуации активируется сигнал 301 настройки окна, информирующий банк 2 фильтров о том, что в данном диапазоне длины окон должны быть увеличены. Из-за увеличения окна анализ динамики сигналов осложняется, поэтому, если не обнаружены близкие объекты, система 36 улучшения разрешения обеспечивает следующее укорачивание окна фильтра 20. В решении согласно изобретению предполагается окно с длиной от 12 до 24 периодов номинальной частоты фильтра 20. Соотношение разрешения в частотной области и шириной окна показано на фиг. 11. В приведенной ниже таблице показана способность системы обнаруживать и отслеживать по меньшей мере 4 неповрежденных объекта, которые последовательно присутствуют рядом друг с другом, с минимальным расстоянием, выраженным в процентах, в зависимости от ширины окна.
[0057] В другой форме осуществления система "внимательно слушает" звук путем изменения спектра банка фильтров, что схематически проиллюстрировано на фиг. 12. Разрешение в частотной области улучшается путем вычитания из спектра на входе системы 3 отслеживания ожидаемого спектра "хорошо локализованных объектов", локализованных в окрестностях новых появляющихся объектов. "Хорошо локализованные объекты" считаются объектами, амплитуда которых не изменяется слишком быстро (не более одного экстремума на ширину окна), и частота не слишком быстро изменяется (уходит) (не более 10% изменения частоты на ширину окна). Попытка вычесть спектр объектов, меняющихся быстрее, может привести к инверсии фазы на входе измерительной системы и к положительной обратной связи, что приводит к возникновению помехи. На практике система 36 улучшения разрешения рассчитывает ожидаемый спектр 303 на основе известной мгновенной частоты, амплитуды и фазы объекта по следующей формуле:
FS(n)=FA(n)*exp(-(x-FX(n))2/2σ2 (W (n)))
*sin(FD(n)*(х-FX(n))+FF(n)),
FC (n)=FA (n) *ехр (- (x-FX(n)) 2 / 2σ2 (W (n)))
*cos(FD(n)*(x-FX(n))+FF(n)),
где σ - функция ширины окна, при ширине окна = 20 σ2=10, т.е. на основании известной мгновенной частоты и вычитания их из реального спектра достигается то, что спектр смежных элементов не будет мешать так сильно. Система анализа спектра 31 и система 32 голосования воспринимают только смежные элементы и вариацию вычитаемого объекта. Однако система 33 ассоциирования объектов дополнительно учитывает вычитаемые параметры при сравнении обнаруженных элементов с базой 34 данных активных объектов. К сожалению, для реализации этого способа улучшения разрешения в частотной области требуется очень большое количество вычислений и существует риск положительной обратной связи.
[0058] В еще одной форме осуществления разрешение в частотной области может быть улучшено путем вычитания из входного сигнала звукового сигнала, сгенерированного на основе хорошо локализованных (как в предыдущей форме осуществления) соседних объектов. Такая операция схематично показана на фиг. 13. На практике это основывается на том факте, что система 36 улучшения разрешения генерирует звуковой сигнал 302 на основе информации о частоте, амплитуде и фазе активных объектов 34, которая пересылается в дифференциальную систему 5 на входе блока 2 фильтров, как схематично показано на фиг. 13. Количество требуемых вычислений для операции этого типа меньше, чем в случае варианта осуществления на фиг. 12, однако из-за дополнительной задержки, вносимой банком 2 фильтров, увеличивается риск нестабильности системы и непреднамеренной генерации. Аналогично, так же и в этом случае система 33 ассоциирования объектов учитывает параметры вычитаемых активных объектов. Благодаря описанным механизмам способ и система в соответствии с изобретением обеспечивают разрешение в частотной области не менее полутона (т.е. FN[n+1]/FN[n]=102,93%).
[0059] Согласно изобретению, информация, содержащаяся в базе 34 данных активных объектов, также используется формообразующей системой 37. Ожидаемым результатом разложения звукового сигнала в соответствии с изобретением является получение звуковых объектов, имеющих форму синусоидальных сигналов с медленно меняющимися огибающей амплитуды и частотой. Следовательно, формообразующая система 37 отслеживает изменения огибающей амплитуды и частоты активных объектов в базе 34 данных и вычисляет в режиме онлайн последовательные характеристические точки амплитуды и частоты, которые являются локальными максимумами, локальными минимумами и точками перегиба. Такая информация позволяет однозначно описывать синусоидальные формы сигнала. Формообразующая система 37 направляет эту характеристическую информацию в виде точек, описывающих объект в режиме онлайн, в базу 34 данных активных объектов. Предполагалось, что расстояние между точками, которые должны быть определены, должно быть не менее 2 0 периодов частоты объекта. Расстояния между точками, пропорциональные частоте, способны эффективно представлять динамику изменения объектов. Примеры звуковых объектов показаны на фиг. 14а. На этой фигуре показаны четыре объекта с частотой, изменяющейся в зависимости от времени (номера отсчета). Те же объекты были показаны на фиг. 14b в пространстве, определяемом по амплитуде и времени (номеру отсчета). Показанные точки указывают локальные максимумы и минимумы амплитуды. Точки связаны гладкой кривой, рассчитанной с использованием полиномов третьего порядка. Определив функцию изменения частоты и огибающей амплитуды, можно определить звуковой сигнал. Фиг. 14с иллюстрирует звуковой сигнал, определенный на основе формы объектов, определенных на фиг. 14а и фиг. 14b. Объект, показанный на графиках, был описан в виде таблицы на фиг. 14d, где для каждого объекта описаны параметры его последовательных характеристических точек, включая первую точку, последнюю точку и локальные экстремумы. Каждая точка имеет три координаты, т.е. положение во времени, выраженное номером отсчета, амплитудой и частотой. Такой набор точек однозначно описывает медленно меняющуюся синусоидальную форму сигнала.
[0060] Описание звуковых объектов, показанных в таблице на фиг. 14d, может быть записано в виде формализованного протокола. Стандартизация таких обозначений позволит разрабатывать приложения, используя свойства звуковых объектов в соответствии с изобретением. На фиг. 15 показан пример формата обозначения звуковых объектов.
1) Заголовок. Обозначение начинается с заголовка, имеющего в качестве существенного элемента тег заголовка, содержащий ключевое слово из четырех байтов, сообщающее, что мы имеем дело с описанием звуковых объектов. Затем в двух байтах указывается информация о количестве каналов (дорожек) и в двух байтах определение единицы времени. Заголовок появляется только один раз в начале файла.
2) Канал: информация о каналах (дорожках) из этого поля служит для разделения группы звуковых объектов, находящихся в существенном отношении, например, левый или правый канал в стерео, вокальный трек, трек ударных инструментов, запись с определенного микрофона и т.д. Поле канала содержит идентификатор канала (число), количество объектов в канале и положение канала от начала звукового сигнала, измеренное в определенных единицах.
3) Объект: Идентификатор, содержащийся в первом байте, определяет тип объекта. Идентификатор "0" обозначает базовый блок в записи сигнала, который является звуковым объектом. Значение "1" может обозначать папку, содержащую группу объектов, например, основной тон и его гармоники. Другие значения могут использоваться для определения других элементов, относящихся к объектам. Описание основного звукового объекта включает в себя набор точек. Набор точек не включает первую точку, которая определяется самим объектом. Указание максимальной амплитуды в параметрах объекта позволяет контролировать одновременное усиление всех точек объекта. В случае с папкой объектов это влияет на значение амплитуды всех объектов, содержащихся в папке. Аналогично, указание информации о частоте (с использованием обозначения: количество тонов*4 банка фильтров = ноты*16) позволяет одновременно контролировать частоту всех элементов, связанных с объектом. Кроме того, определение положения начала объекта относительно элемента более высокого уровня (например, канала) позволяет смещать объект во времени.
4) Точка: Точки используются для описания формы звукового объекта в области время-частота-амплитуда. Они имеют относительное значение по параметрам, определяемым звуковым объектом. Один байт амплитуды определяет, какая часть максимальной амплитуды определяется объектом, который имеет точку. Точно так же вариация тона определяет, какая часть тона изменилась. Позиция точки определяется как относительная по отношению к ранее определенной точке объекта.
Многоуровневая структура записи и относительные связи между полями позволяют очень гибко управлять звуковыми объектами, что делает их эффективными инструментами для проектирования и изменения звуковой сигналов.
[0061] Сжатая запись информации о звуковых объектах в соответствии с изобретением в формате, показанном на фиг. 15, значительно влияет в позитивном ключе на размер зарегистрированных и переданных файлов. Принимая во внимание, что аудиофайл может быть легко воспроизведен из этого формата, мы можем сравнить размер файла, показанного на фиг. 14С, который в формате.WAV будет содержать более 2000 байт, и в форме записи звуковых объектов "UH0" в соответствии с изобретением он будет содержать 132 байта. Сжатие более чем в 15 раз не является отличным достижением в этом случае. В случае более длинных звуковых сигналов могут быть достигнуты гораздо лучшие результаты. Уровень сжатия зависит от того, сколько информации содержится в звуковом сигнале, т.е. сколько объектов могут считываться из сигнала, и как они составлены.
[0062] Идентификация звуковых объектов в звуковом сигнале не является однозначным математическим преобразованием. Звуковой сигнал, созданный в виде композиции объектов, полученных в результате разложения, отличается от входного сигнала. Задача системы и способа согласно изобретению состоит в минимизации этой разницы. Источники разницы бывают двух типов. Часть из них ожидаема и является результатом примененной технологии, другая может быть результатом помех или неожиданных свойств входного звукового сигнала. Для уменьшения разницы между звуковым сигналом, составленным из звуковых объектов согласно изобретению, и входным сигналом используется система коррекции 4, показанная на фиг. 1. Система принимает параметры объектов из базы 35 данных звуковых объектов уже после закрытия объекта и выполняет операцию модификации выбранных параметров объектов и точек, чтобы минимизировать ожидаемые различия или ошибки, локализованные в этих параметрах.
[0063] Первый тип коррекции звуковых объектов, согласно изобретению, выполняется системой 4 коррекции, как показано на фиг. 16. Искажение в начале и в конце объекта вызвано тем, что при переходных состояниях, когда сигнал с заданной частотой появляется или затухает, фильтры с более короткой импульсной характеристикой быстрее реагируют на изменение. Поэтому в начале объект изгибается в сторону более высоких частот, а в конце поворачивается в сторону более низких частот. Коррекция объекта может быть основана на деформировании частоты объекта в начале и в конце в направлении, определяемом средним участком объекта.
[0064] Еще один тип коррекции согласно изобретению, выполняемый системой 4 коррекции, показан на фиг. 17. Отсчеты звукового сигнала, проходящие через фильтр 20 банка 2 фильтров, претерпевают изменение на выходе фильтра, что проявляется в виде сдвига сигнала. Этот сдвиг имеет регулярный характер и его можно предсказать. Его величина зависит от ширины окна К фильтра n, эта ширина в соответствии с изобретением является функцией частоты. Это означает, что каждая частота сдвигается на разное значение, что ощутимо влияет на звук сигнала. Величина сдвига равна приблизительно 1/2 ширины окна фильтра в области нормальной работы фильтра, 1/4 ширины окна на начальном этапе и приблизительно 3/4 ширины окна в случае окончания объектов. Поскольку для каждой частоты можно предсказать величину сдвига, задача системы 4 коррекции состоит в том, чтобы правильно сдвинуть все точки объекта в противоположную сторону, чтобы динамика представления входного сигнала улучшилась.
[0065] Еще один вид коррекции согласно изобретению, выполняемый системой 4 коррекции, показан на фиг. 18А, фиг. 18В и фиг. 18С. Искажение проявляется как объект, разделяющийся на части, которые являются независимыми объектами. Это разделение может быть вызвано, например, фазовым колебанием в компоненте входного сигнала, помехами или взаимным влиянием соседних объектов. Коррекция искажений этого типа требует, чтобы корректирующая схема 4 выполняла анализ функций огибающей и частоты и демонстрировала, что упомянутые объекты должны образовывать одно целое. Коррекция проста и основана на объединении упомянутых объектов в один объект.
[0066] Задачей системы 4 коррекции является также удаление объектов, оказывающих незначительное влияние на звучание звукового сигнала. "Согласно изобретению, было решено, что такими объектами могут быть те, которые имеют максимальную амплитуду, которая ниже 1% максимальной амплитуды, присутствующей во всем сигнале в данный момент времени. Изменение сигнала на уровне 40 дБ не должно быть слышно.
[0067] Система коррекции выполняет в основном удаление всех неравномерностей в форме звуковых объектов, ее работу можно классифицировать как: соединение прерывающихся объектов, удаление колебаний объектов вблизи соседних объектов, удаление незначительных объектов, а также взаимно влияющих, длящихся слишком мало или слишком слабо слышимых.
[0068] Для иллюстрации результатов использования способа и системы разложения звукового сигнала был протестирован фрагмент стереофонического звукового сигнала, дискретизированного с частотой 4 4100 отсчетов в секунду. Сигнал - музыкальная композиция, состоящая из звука гитары и пения. График, проиллюстрированный на фиг. 19А, где показано два канала, включает в себя приблизительно 250000 отсчетов (около 5, 6 с) записи.
[0069] На фиг. 19b показана спектрограмма в результате действия банка 2 фильтров для звукового сигнала левого канала (верхний участок на рис. 19а). Спектрограмма включает амплитуду на выходе 450 фильтров с частотой от C2=16,35 Гц до e6=10548 Гц. В левой части спектрограммы в качестве опорных точек, определяющих частоту, показана фортепианная клавиатура. Кроме того, отмечены нотные линейки с басовым ключом и выше нотные линейки со скрипичным ключом. Горизонтальная ось спектрограммы соответствует временным моментам во время композиции, а более темный цвет в спектрограмме указывает на более высокое значение амплитуды фильтруемого сигнала.
[0070] На фиг. 19с показан результат работы системы 32 голосования. Сравнивая спектрограмму на фиг. 19b со спектрограммой на фиг. 19C можно видеть, что широкие участки, представляющие составляющие элементы сигнала, были заменены отдельными линиями, указывающими на точную локализацию упомянутых составляющих элементов входного сигнала.
[0071] На фиг. 19d показано поперечное сечение спектрограммы вдоль линии AA для 14 9008-го отсчета и представлена амплитуда в зависимости от частоты. Вертикальная ось в середине указывает на действительную и мнимую составляющие и амплитуду спектра. Вертикальная ось с правой стороны показывает пики сигнала голосования, что указывает на временную локализацию элементов, составляющих звуковой сигнал.
[0072] Фиг. 19e - это сечение спектрограммы вдоль линии ВВ на частоте 226,4 Гц. На графике показана амплитуда спектра на выходе банка 2 фильтров с числом n=182.
[007 3] На фиг. 19f показаны звуковые объекты (без работы системы 4 коррекции). Вертикальная ось показывает частоту, в то время как горизонтальная ось указывает время, выраженное номером отсчета. В тестируемом фрагменте сигнала локализовано 578 объектов, которые описываются 578 + 995 = 1573 точками. Для хранения этих объектов потребуется приблизительно 9780 байт. Звуковой сигнал на фиг. 19а, содержащий 250000 отсчетов в левом канале, требует 500000 байт для непосредственного хранения, что в случае использования способа разложения сигнала и звуковых объектов согласно изобретению приводит к сжатию на уровне 49. Использование системы 4 коррекции дополнительно улучшает уровень сжатия за счет удаления объектов, оказывающих незначительное влияние на звук сигнала.
[0074] На фиг. 19g показаны амплитуды выбранных звуковых объектов, сформированных с использованием уже определенных характеристических точек с помощью гладких кривых, созданных полиномами третьего порядка. На рисунке показаны объекты с амплитудой большей 10% амплитуды объекта с наибольшей амплитудой.
[0075] В результате использования способа и системы для разложения сигнала согласно изобретению получаются звуковые объекты, которые могут служить для синтеза акустического сигнала.
В частности, звуковой объект содержит идентификатор, указывающий местоположение объекта относительно начала трека и количество точек, включенных в объект. Каждая точка содержит положение объекта по отношению к предыдущей точке, изменение амплитуды по отношению к предыдущей точке и изменение пульсации (выраженные по логарифмической шкале) по отношению к пульсации предыдущей точки. В правильно построенном объекте амплитуда первой и последней точки должна быть равна нулю. Если нет, то в акустическом сигнале такой амплитудный скачок можно воспринимать как треск. Важным предположением является то, что объекты начинаются с фазы, равной нулю. Если нет, начальная точка должна быть перемещена в место, в котором фаза равна нулю, в противном случае весь объект будет вне фазы.
Этой информации достаточно для построения звукового сигнала, представленного объектом. В простейшем случае с помощью параметров, включенных в точки, можно определить полигональную линию огибающей амплитуды и полигональную линию пульсационных изменений. Для улучшения звукового сигнала и удаления высоких частот, генерируемых в местах разрывов кривых, можно сформировать гладкую кривую в виде полинома второго или более высокого порядка, последующие производные которого равны пикам полигональной линии (например, кубический сплайн).
В случае линейной интерполяции уравнение, описывающее сечение звукового сигнала от одной до соседней точки, может быть представлено в виде:
,
где:
Ai - амплитуда точки i,
Pi - позиция точки i,
ωi - угловая частота точки i,
Фi - фаза точки i, Ф0=0.
Звуковой сигнал объекта, состоящего из точек P, представляет собой сумму описанных выше участков смещения. Таким же образом, полный звуковой сигнал - это сумма смещенных сигналов объектов. Синтезированный тестовый сигнал, соответствующий сигналу на фиг. 19а, показан на фиг. 19h.
[0076] Звуковые объекты согласно изобретению обладают рядом свойств, допускающих их многократное применение, в частности в обработке, анализе и синтезе звуковых сигналов. Звуковые объекты могут быть получены с использованием способа разложения сигнала согласно изобретению в результате разложения звукового сигнала. Звуковые объекты также могут быть сформированы аналитически, путем определения значений параметров, показанных на фиг. 14d. База данных звуковых объектов может быть сформирована звуками, взятыми из окружающей среды или созданными искусственно. Ниже перечислены некоторые важные свойства звуковых объектов, описываемых точками с тремя координатами:
1) На основе параметров, описывающих звуковые объекты, можно определить функцию изменения амплитуды и частоты, а также определить местоположение по отношению к другим объектам, так что из них можно составить звуковой сигнал.
2) Одним из параметров, описывающих звуковые объекты, является время, благодаря которому объекты могут быть сдвинуты, сокращены и удлинены во временной области.
3) Второй параметр звуковых объектов - частота, благодаря которой объекты могут быть перемещены и изменены в частотной области.
4) Следующим параметром звуковых объектов является амплитуда, благодаря которой можно изменять огибающие звуковых объектов.
5) Звуковые объекты могут быть сгруппированы, например, по времени (присутствующие в одно и то же время) или/и по частотам гармоник.
6) Сгруппированные объекты могут быть отделены от звукового сигнала или добавлены к нему. Это позволяет создавать новый сигнал из ряда других сигналов или разделять один сигнал на несколько независимых сигналов.
7) Сгруппированные объекты могут быть усилены (за счет увеличения их амплитуды) или приглушены (за счет уменьшения их амплитуды).
8) Изменяя соотношения амплитуд гармоник, входящих в группу объектов, можно изменять тембр сгруппированных объектов.
9) Можно изменять значение всех сгруппированных частот путем увеличения или уменьшения частот гармоник.
10) Можно изменять звуковые эмоции, содержащиеся в звуковых объектах, изменяя наклон (спад или повышение) частот компонентов.
11) Путем представления звукового сигнала в виде объектов, описываемых точками с тремя координатами, можно значительно уменьшить количество требуемых байтов данных без потери информации, содержащейся в сигнале.
[0077] Учитывая свойства звуковых объектов, для них можно определить множество применений. Примеры применения включают:
1) Разделение источников звукового сигнала, таких как инструменты или говорящие лица, на основе правильной группировки звуковых объектов, присутствующих в сигнале.
2) Автоматическая генерация музыкальной нотной записи для отдельных инструментов по звуковому сигналу.
3) Устройства для автоматической настройки музыкальных инструментов во время исполнения музыки.
4) Перенаправление голоса отдельных говорящих в систему распознавания речи.
5) Распознавание эмоций, содержащихся в отдельных голосах.
6) Идентификация отдельных говорящих.
7) Изменение тембра распознанных инструментов.
8) Замена инструментов (например, гитара, играющая вместо пианино).
9) Модификация голоса говорящего (поднятие, понижение, преобразование эмоций, интонация).
10) Замена голосов говорящих.
11) Синтез голоса с возможностью управления эмоциями и интонацией.
12) Плавное соединение речи.
13) Голосовое управление устройствами, даже в условиях внешних помех.
14) Генерация новых звуков, "сэмплов", необычных звуков.
15) Новые музыкальные инструменты.
16) Пространственное управление звуком.
17) Дополнительные возможности сжатия данных.
Дополнительные формы осуществления:
В соответствии с реализацией изобретения способ разложения акустического сигнала на звуковые объекты, имеющие форму синусоидальной волны с медленно изменяющейся амплитудой и частотой, содержит этап определения параметров кратковременной модели сигнала и этап определения параметров долговременной модели сигнала на основе упомянутых кратковременных параметров, при этом шаг определения параметров кратковременной модели сигнала включает в себя преобразование аналогового звукового сигнала в цифровой входной сигнал PIN и при этом на упомянутом этапе определения параметров кратковременной модели сигнала входной сигнал PIN затем разделяется на соседние поддиапазоны с центральными частотами, распределенными по логарифмической шкале, путем подачи отсчетов акустического сигнала на вход банка цифровых фильтров, причем каждый цифровой фильтр имеет длину окна пропорциональную номинальной центральной частоте;
- на каждом выходе фильтра (20) действительное значение FC(n) и мнимое значение FS(n) отфильтрованного сигнала определяется отсчет за отсчетом, а затем на основе этого
- частота, амплитуда и фаза всех обнаруженных составляющих элементов упомянутого акустического сигнала определяются отсчет за отсчетом,
- операция улучшения разрешения в частотной области упомянутого отфильтрованного сигнала выполняется последовательно отсчет за отсчетом и включает по меньшей мере этап определения частоты всех обнаруженных составляющих элементов на основе максимальных значений функции FG(n), получающейся в результате математической операции, отражающей количество соседних фильтров (20), выводящих значение угловой частоты, по существу аналогичное значению угловой частоты каждого последующего фильтра (20), и при этом на упомянутом этапе определения параметров долговременной модели сигнала:
- для каждого обнаруженного элемента упомянутого акустического сигнала для его отслеживания создается активный объект в базе (34) данных активных объектов;
- последующие обнаруженные элементы упомянутого акустического сигнала сопоставляются отсчет за отсчетом по меньшей мере с выбранными активными объектами в упомянутой базе (34) данных объектов для создания нового активного объекта или добавления упомянутого обнаруженного элемента к активному объекту или для закрытия активного объекта;
- для каждого активного объекта в базе (34) данных значения огибающей амплитуды и значения частоты и соответствующие им моменты времени определяются не реже одного раза за период длительности заданного окна W(n) фильтра (20) с целью создания характеристических точек, описывающих медленно меняющуюся синусоидальную форму волны упомянутого звукового объекта;
- хотя бы один выбранный закрытый активный объект передается в базу (35) данных звуковых объектов для получения хотя бы одного разложенного звукового объекта, определяемого набором характеристических точек с координатами в пространстве время-частота-амплитуда.
Способ может далее включать в себя этап коррекции выбранных звуковых объектов, который включает в себя шаг коррекции амплитуды и/или частоты выбранных звуковых объектов, чтобы уменьшить ожидаемое искажение в упомянутых звуковых объектах, которое вносится упомянутым банком цифровых фильтров.
Улучшение разрешения по частоте упомянутого фильтруемого сигнала может включать в себя шаг увеличения длины окна выбранных фильтров.
Работа по улучшению разрешения по частоте упомянутого фильтруемого сигнала может включать шаг вычитания ожидаемого спектра уверенно локализованных соседних звуковых объектов из спектра на выходе фильтров.
Работа по улучшению разрешения по частоте упомянутого отфильтрованного сигнала может далее включать шаг вычитания звукового сигнала, сгенерированного на основе уверенно локализованных соседних звуковых объектов, из упомянутого входного сигнала.
Система разложения акустического сигнала на звуковые объекты, имеющие форму синусоидальных сигналов с медленно-изменяющейся амплитудой и частотой, в соответствии с дальнейшей формой осуществления изобретения, состоит из подсистемы определения параметров кратковременной модели сигнала и подсистемы определения параметров долговременной модели сигнала на основе упомянутых параметров, при этом упомянутая подсистема определения кратковременных параметров включает в себя систему преобразования для преобразования аналогового звукового сигнала в цифровой входной сигнал PIN, причем подсистема для определения кратковременных параметров дополнительно содержит банк фильтров (20) с центральными частотами фильтров, распределенными по логарифмической шкале, каждый цифровой фильтр имеет длину окна пропорциональную центральной частоте, где каждый фильтр (20) приспособлен для определения действительного значения FC(n) и мнимого значения FS (n) упомянутого отфильтрованного сигнала; упомянутый банк (2) фильтров подключен к системе (3) отслеживания объектов, причем упомянутая система (3) отслеживания объектов содержит систему (31) спектрального анализа, адаптированную для обнаружения всех составляющих элементов входного сигнала PIN, систему голосования (32), адаптированную для определения частоты всех обнаруженных составляющих элементов на основе максимальных значений функции FG(n), полученных в результате математической операции, отражающей количество соседних фильтров (20), при этом выходное значение угловой частоты по существу такое же как значение угловой частоты каждого последующего фильтра (20), и подсистема определения долговременных параметров включает в себя систему (33) ассоциирования объектов, формообразующую систему (37), адаптированную для определения характеристических точек, описывающих медленно меняющиеся синусоидальные формы волны, базу (34) данных активных объектов и базу (35) данных звуковых объектов.
Система (3) отслеживания объектов может быть дополнительно связана с системой (4) коррекции, адаптированной для коррекции амплитуды и/или частоты отдельных выбранных звуковых объектов, с тем чтобы уменьшить ожидаемое искажение в упомянутых звуковых объектах, вносимых упомянутым банком цифровых фильтров, и/или адаптированной для объединения объектов с перерывами и/или удаления выбранных звуковых объектов.
Кроме того, система может включать в себя систему (36) улучшения разрешения, адаптированную для увеличения длины окна выбранного фильтра и/или для вычитания ожидаемого спектра уверенно локализованных соседних звуковых объектов из спектра на выходе фильтров и/или для вычитания звукового сигнала, сгенерированного на основе уверенно локализованных соседних звуковых объектов, из упомянутого входного сигнала.
Изобретение относится к области обработки звуковых сигналов. Технический результат изобретения заключается в возможности разложения акустического сигнала на звуковые объекты, имеющие форму сигналов с медленно изменяющейся амплитудой и частотой. Способ разложения акустического сигнала на цифровые звуковые объекты, представляющие компоненты акустического сигнала. Способ включает этапы преобразования аналогового акустического сигнала в цифровой входной сигнал (PIN); определение мгновенной частотной составляющей цифрового входного сигнала с использованием банка цифровых фильтров; определение мгновенной амплитуды мгновенной частотной составляющей; определение мгновенной фазы цифрового входного сигнала, связанной с мгновенной частотой; создание по меньшей мере одного цифрового звукового объекта на основе определенной мгновенной частоты, фазы и амплитуды, хранение цифрового звукового объекта в базе данных звуковых объектов. Частота упомянутого компонента определяется на основе максимальных значений функции (FG), которая для каждого фильтра отражает количество соседних фильтров, выводящих значение угловой частоты. 9 з.п. ф-лы, 51 ил.
1. Способ разложения акустического сигнала на цифровые звуковые объекты, причем цифровой звуковой объект представляет компонент акустического сигнала, соответствующий подсигналу акустического сигнала, имеющему форму синусоидальной волны с медленно меняющейся амплитудой и частотой, содержащий этапы, на которых выполняют:
- преобразование аналогового акустического сигнала в цифровой входной сигнал (PIN), который содержит отсчеты акустического сигнала;
- определение, для каждого отсчета, мгновенной частотной составляющей цифрового входного сигнала с использованием банка цифровых фильтров, содержащего цифровые фильтры (n);
- определение, для каждого отсчета, мгновенной амплитуды мгновенной частотной составляющей;
- определение, для каждого отсчета, мгновенной фазы цифрового входного сигнала, связанной с мгновенной частотой;
- создание по меньшей мере одного цифрового звукового объекта на основе определенной мгновенной частоты, фазы и амплитуды, причем цифровой звуковой объект определяется посредством набора характеристических точек, имеющих координаты в пространстве время-частота-амплитуда и описывающих упомянутый компонент; и
- сохранение цифрового звукового объекта в базе данных звуковых объектов,
отличающийся тем, что
частота упомянутого компонента определяется на основе максимальных значений функции (FG), которая, для каждого фильтра (n), отражает количество соседних фильтров (20), выводящих значение угловой частоты, по существу аналогичное значению угловой частоты фильтра (n).
2. Способ по п. 1, в котором цифровой фильтр в банке цифровых фильтров имеет длину окна, пропорциональную его центральной частоте.
3. Способ по п. 2, в котором центральные частоты банка цифровых фильтров распределены в соответствии с логарифмической шкалой.
4. Способ по п. 1, в котором мгновенную частоту отслеживают по последовательным отсчетам цифрового входного сигнала.
5. Способ по п. 4, отличающийся тем, что
- значения огибающей амплитуды и значения частоты, а также соответствующие им моменты времени определяют для создания характеристических точек с координатами в пространстве время-частота-амплитуда, описывающих форму волны упомянутого звукового объекта.
6. Способ по п. 5, отличающийся тем, что значения определяют не реже одного раза за период длительности окна W(n) данного фильтра (20).
7. Способ по п. 4, дополнительно содержащий этап корректировки амплитуды и/или частоты выбранных звуковых объектов, чтобы уменьшить ожидаемое искажение в упомянутых звуковых объектах, которое вносится упомянутым банком цифровых фильтров.
8. Способ по пп. 1, 2 или 3, отличающийся тем, что улучшение разрешения в частотной области упомянутого отфильтрованного сигнала дополнительно включает в себя этап увеличения длины окна выбранных фильтров.
9. Способ по п. 1, отличающийся тем, что операция улучшения разрешения в частотной области упомянутого отфильтрованного сигнала дополнительно включает в себя этап вычитания ожидаемого спектра расположенных по соседству звуковых объектов из спектра на выходе фильтров.
10. Способ по п. 1, отличающийся тем, что операция улучшения разрешения в частотной области упомянутого отфильтрованного сигнала дополнительно содержит этап вычитания звукового сигнала, сгенерированного на основе расположенных по соседству звуковых объектов, из упомянутого входного сигнала.
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
УСТРОЙСТВО И СПОСОБ ГЕНЕРИРОВАНИЯ СИГНАЛА С РАСШИРЕННОЙ ПОЛОСОЙ ПРОПУСКАНИЯ | 2009 |
|
RU2512090C2 |
US 7603270 B2, 13.10.2009. |
Авторы
Даты
2020-09-02—Публикация
2016-07-22—Подача