Представляемое изобретение относится к кодированию звука и, в частности, к алгоритмам параметрического кодирования акустических сигналов, применяемых в вокодерах.
Фазовые вокодеры представляют собой один из классов устройств кодирования речевой информации. Руководством по фазовым вокодерам является публикация: "The Phase Vocoder: A tutorial" [„ Фазовый вокодер: руководство"], Mark Dolson, Computer Music Journal, Volume 10, No.4, pages 14 to 27, 1986. Еще одно издание: „New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects" [„ Новые методики смещения основного тона, гармонизации и других звуковых спецэффектов в фазовом вокодере "], L.Laroche and M.Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics [Институт инженеров-электриков и электронщиков, секция применения обработки сигналов в аудио- и акустических сисетмах]. New Paltz, New York, October 17 to 20, 1999, pages 91 to 94.
Фиг.5-6 иллюстрируют варианты конструктивных решений и приложений фазового вокодера известного уровня техники. На фиг.5 показана схема реализации банка фильтров фазового вокодера, где на вход 500 подается исходный звуковой сигнал, а на выход 510 поступает синтезированный звуковой сигнал. В частности, каждый канал банка фильтров на фиг.5 имеет в своем составе полосовой фильтр 501 и последовательно соединенный с ним гетеродин 502. Выходные сигналы всех гетеродинов 502 по всем каналам суммируются с помощью сумматора 503. Сумматор 503 генерирует выходной сигнал 510.
Каждый фильтр 501 обеспечивает, во-первых, сигнал с амплитудным кодированием A(t) и, во-вторых, сигнал с частотным кодированием f(t). Как амплитудный, так и частотный сигналы представлены во временной области. Сигнал с амплитудным кодированием отображает поведение во времени амплитуды в пределах полосы пропускания фильтра, а сигнал с частотным кодированием отражает изменение во времени частоты сигнала на выходе фильтра.
На фиг.6 показана принципиальная схема фильтра 501. Входной сигнал делится на два параллельных тракта. Сигнал одного из трактов умножается на синусоиду с амплитудой 1,0 и с частотой, равной средней частоте полосового фильтра, что отражено элементом 551. Сигнал второго тракта умножается на косинусоиду с такой же амплитудой и частотой, что также отражено элементом 551. Таким образом, два параллельных тракта идентичны друг другу, за исключением фазы множительной волны. Затем произведение от умножения по каждому тракту вводится в фильтры низких частот 553. Сама операция умножения известна так же как простая кольцевая модуляция. Умножение любого сигнала на синусоидальную или косинусоидальную волну постоянной частоты приводит к одновременному смещению всех частотных составляющих исходного сигнала в сторону как плюса, так и минуса значения частоты гармоники. Если полученный результат пропустить через соответствующий низкочастотный фильтр, сохранится только низкочастотная компонента. Такая последовательность действий известна еще как гетеродинирование. Гетеродинирование осуществляется по каждому из обоих параллельных трактов, но, поскольку по одному тракту генерируются синусоидальные колебания, а по второму - косинусоидальные, результирующие гетеродинированные сигналы по двум этим трактам расходятся по фазе на 90°. Следовательно, верхний [на схеме] фильтр низких частот 553 генерирует прямоугольный сигнал 554, а нижний фильтр 553 формирует синфазный сигнал [555]. Эти два сигнала, именуемые также сигналами I и Q, передаются в преобразователь координат 556, который трансформирует ортогональное представление в амплитудно-фазовое представление.
Сигнал с амплитудным кодированием, соответствующий A(t) на фиг.5, поступает на выход 557. Фазовый сигнал вводится в блок развертывания фазы 558. На выходе блока 558 фазовое значение находится не в диапазоне от 0 до 360°, а линейно возрастает. Это „развернутое" фазовое значение вводится в фазочастотный преобразователь 559, который может быть реализован, например, в виде вычислителя разности фаз, который вычитает из фазы текущего момента времени фазу предшествующего момента времени с получением показателя частоты в текущий момент времени.
Это значение частоты складывается с постоянным значением частоты fi канала фильтра i для получения меняющегося во времени значения частоты на выходе 560.
Частота на выходе 560 имеет постоянную составляющую fi и переменную, называемую „флуктуацией частоты", отображающей отклонения текущей частоты сигнала в канале фильтра от среднего значения частоты fi.
Таким образом, как показано на фиг.5 и 6, фазовый вокодер разделяет спектральные и временные данные. Информация о спектре содержится в специальном канале банка фильтров и в показателе частоты fi, а данные времени включены в показатели флуктуации частоты и амплитуды во времени.
По-другому фазовый вокодер может быть интерпретирован через преобразование Фурье. Такая трактовка включает в себя ряд последовательно перекрывающих преобразований Фурье, выполняемых с использованием окон с конечной продолжительностью. При разложении по Фурье внимание фокусируется на значениях амплитуды и фазы для всех полос пропускания фильтра или шагов частотного разрешения в отдельно взятый момент времени. Если в варианте с банком фильтров ресинтез представляет собой классический пример аддитивного синтеза с подстройкой варьируемых во времени амплитуды и частоты по каждому гетеродину, то синтез по Фурье выполняется через реконструкцию реально-виртуальной формы с суммированием и наложением последовательных обратных преобразований Фурье. При разложении Фурье количество полос пропускания фильтра фазового вокодера совпадает с числом частотных позиций в преобразовании Фурье. Подобно этому, равномерная разбивка по частоте каждого фильтра может быть принята как основная особенность преобразования Фурье. Вместе с тем, конфигурация полос пропускания фильтров, то есть крутизна срезов их границ, определяется формой оконной функции, приложенной перед оцифровкой. Если брать форму представляющего параметра, например, оконной функции Хэмминга, крутизна спада частотной характеристики фильтра возрастает прямо пропорционально длительности окна.
Следует обратить внимание на то, что два разных вида анализа фазового вокодера применены только при реализации банка полосовых фильтров. Выходные параметры этих фильтров выражены в виде варьирующихся во времени амплитуд и частот с помощью одной и той же операции для обоих технических решений. Главная цель фазового вокодера - сепарировать временную и спектральную информацию. Оперативная задача состоит в разделении сигнала на ряд полос спектра и в описании характеристик изменяющегося во времени сигнала в каждой полосе.
Решающее значение здесь имеют две основные операции: масштабирование времени и транспонирование основного тона. Записанную фонограмму всегда легко воспроизвести в замедленном темпе за счет считывания ее с пониженной частотой дискретизации. Это похоже на проигрывание магнитной записи на замедленной скорости. Однако при столь примитивном способе продления времени звучания основной тон понижается в том же соотношении, в каком увеличивается время. Замедление эволюции звука без изменения частоты основного тона требует четкого разграничения временной и спектральной информации. Как уже отмечалось выше, это именно то, на что направлено действие фазового вокодера. Удлинение меняющихся во времени сигналов с амплитудным и частотным кодированием A(t) и f(t), как показано на фиг.5, никак не влияет на частоту индивидуальных осцилляторов, замедляя при этом извлечение сложного по составу звука. Результатом является продленное звучание с исходным основным тоном. Согласно преобразованию Фурье процедура масштабирования времени такова, что при необходимости продления времени звучания инверсные БПФ просто могут быть разнесены дальше, чем БПФ анализа. В итоге, в данной реализации спектральные изменения в синтезируемом звуке происходят медленнее, чем в оригинальном, а перемасштабирование фазы выполняется ровно с тем же коэффициентом, с каким продлен звук.
Другим приложением является транспонирование основного тона. Поскольку фазовый вокодер может изменять продолжительность звукового сигнала, не меняя частоту его основного тона, выполнимо и противоположное преобразование, а именно изменение основного тона при сохранении длительности звучания. Это выполняется или во временном масштабе с использованием требуемого коэффициента изменения основного тона с последующим воспроизведением полученного звукового сигнала с искаженной частотой дискретизации, или путем дискретизации с понижением на необходимый коэффициент и воспроизведения с неизмененной скоростью. Например, чтобы поднять основной тон на одну октаву, необходимо сначала увеличить продолжительность звукового сигнала, применив коэффициент 2, после чего воспроизвести его с частотой дискретизации, вдвое превышающей первоначальную.
Вокодер (или „ВОДЕР") был изобретен Дадли как управляемый вручную синтезатор человеческой речи [2]. Значительно позже принцип его действия был усовершенствован до так называемого фазового вокодера [3] [4]. Фазовый вокодер действует по принципу перекрывания кратковременных ДПФ-спектров и, следовательно, основан на наборе подполосовых фильтров с фиксированными центральными частотами. Вокодер нашел широкое применение как принцип, лежащий в основе обработки звуковых файлов. Например, такие акустические эффекты, как временное растягивание и транспонирование высоты тона, легко выполняются вокодером [5]. С тех пор в свет вышло много публикаций о модификациях и усовершенствованиях в этой технологии. В частности, были преодолены ограничения, связанные с наличием фильтров анализа с фиксированной частотой, путем добавления картирования на основе частоты основной гармоники (′f0′), к примеру, в ′ПРЯМОМ′ (′STRAIGHT′) вокодере [6]. Однако преобладающим случаем применения оставалось кодирование/обработка речи.
Другой сферой интересов сообщества, занимающегося обработкой звука, было разложение голосовых сигналов на модулированные составляющие. Каждая компонента состоит из несущей, амплитудной модуляции (AM) и частотной модуляции (ЧМ) в той или иной форме. Сигнал-адаптивный подход к такой декомпозиции был опубликован, в частности, в [7], где предлагался набор адаптивных к сигналу полосовых фильтров. В [8] предложена технология, использующая данные AM в сочетании с параметрическим кодером ′синусоиды плюс шум′. Другой метод декомпозиции был обнародован в [9], где используется так называемая стратегия ′FAME′: при которой голосовые сигналы с помощью полосовых фильтров разлагают на четыре полосы для последующего выделения их AM и ЧМ содержимого. Новые публикации нацелены также на репродуцирование звуковых сигналов только из информации AM (подполосных огибающих) и предлагают итеративные способы восстановления ассоциированных фазовых характеристик, которые преимущественно включают в себя ЧМ [10].
Наш подход, представленный здесь, ставит своей целью обработку звуковых сигналов общего характера, включая музыку. Действие аналогично фазовому вокодеру, но с изменениями, позволяющими осуществлять ориентированное на сигнал перцептуально мотивированное разложение подполос в ряд подполосных несущих частот с соответствующими сигналами AM и ЧМ. Следует подчеркнуть, что такая декомпозиция перцепционно направлена, и ее элементы поддаются прямой интерпретации, позволяя выполнять все виды модулирования составляющих.
При выполнении поставленной задачи мы исходим из заключения, что существуют перцептивно сходные сигналы. Достаточно узкополосный тональный полосовой сигнал в плане восприятия хорошо представлен синусоидальной несущей в позиции ее спектрального ′центра тяжести′ (COG) и ее Гильбертовой огибающей. Это коренится в том факте, что оба сигнала вызывают приблизительно одинаковое перемещение базилярной мембраны в ухе человека [11]. Простым примером, иллюстрирующим это, является двухтональный комплекс (1) с частотами f1 и f2, близкими друг к другу настолько, что они сенсорно сливаются в одну (пере-) модулированную составляющую
Сигнал, содержащий синусоидальную несущую частотой, равной спектральному COG st, и имеющий такую же огибающую абсолютной амплитуды как st, согласно (2) является sm
На фиг.9b (верхний и средний графики) изображены временной сигнал и огибающая Гилберта обоих сигналов. Следует обратить внимание на скачок фазы π первого сигнала в нулях огибающей в противоположность второму сигналу.
На фиг.9а (верхний и средний графики) отображены кривые спектральной плотности мощности двух сигналов.
Хотя по своему спектральному составу эти сигналы значительно различаются, их перцепционные доминанты - „средняя" частота, представленная COG, и амплитудная огибающая - соизмеримы. Это делает их сенсорно взаимозаменяемыми относительно ограниченного по полосе спектрального участка в COG, как изображено на фиг.9а и фиг.9b (нижние графики). Этот же принцип остается вполне верным и для более сложных сигналов.
Главным образом, системы модуляционного анализа/синтеза, которые разлагают широкополосный сигнал в набор компонент, каждая из которых содержит информацию о несущей, амплитудной модуляции и частотной модуляции, имеют много степеней свободы, поскольку сама задача сформулирована некорректно. Методы модификации огибающих амплитуд подполос сложных спектров звуковых частот с последующей их рекомбинацией с их немодифицированными фазами для ресинтеза на самом деле приводят к возникновению артефактов, поскольку эти методики не принимают во внимание конечный приемник звука, то есть человеческое ухо.
Более того, использование излишне длинных БПФ, то есть слишком длинных окон, с целью достижения высокого частотного разрешения одновременно снижает разрешающую способность по времени. С другой стороны, кратковременные сигналы не требуют высокой разрешающей способности по частоте, но требуют высокой разрешающей способности по времени, поскольку в определенный момент полосовые сигналы проявляют сильную взаимную корреляцию, которая известна так же как „вертикальная когерентность". Употребляя такую терминологию, необходимо представить себе спектрограмму в масштабе времени, где по горизонтальной оси проходит переменная времени, и где по вертикальной оси дается частотная переменная. Значит преобразование кратковременных сигналов с очень высоким частотным разрешением приведет к низкому разрешению по времени, что в то же самое время означает почти полную потерю вертикальной когерентности. И вновь, при такой модели не учитывается конечное приемное устройство звука - человеческое ухо.
Публикация [22] раскрывает методологию анализа, дающего в результате точные синусоидальные характеристики акустических сигналов. Эта методика объединяет модифицированное оценивание параметров вокодера с современными алгоритмами амплитудного детектирования в синусоидальном моделировании. Система последовательно обрабатывает входной сигнал фрейм за фреймом, отыскивает пики аналогично модели синусоидального анализа, но одновременно в динамическом режиме селектирует каналы вокодера, в которых преобразуются размытые пики в области БПФ. Таким образом могут быть точно параметризированы частотные траектории синусоид меняющейся частоты внутри фрейма. На этапе спектрального синтаксического разбора распознают пики и впадины БПФ амплитуды. При локализации пика спектр за его пределами устанавливают на нуль, а его положительно- и отрицательно-частотные версии сохраняют. Затем рассчитывают преобразование Гилберта этого спектра с последующим вычислением ОБПФ исходного и преобразованного по Гилберту спектров с целью получения двух сигналов во временной области, расходящихся между собой по фазе на 90°. Эти сигналы применяют для получения аналитического сигнала, используемого при анализе в вокодере. Распознанные побочные пики могут быть позже смоделированы как шум или исключены из модели.
Опять же, перцептивные критерии, такие как переменная ширина спектрального диапазона, воспринимаемого ухом человека, то есть более узкая полоса в нижней части спектра и более широкая полоса в верхней части спектра, не учитываются. Более того, существенной особенностью человеческого слуха является, как рассматривалось в контексте фиг.9а, 9b и 9с, его способность объединять гармонические тона в пределах полосы частот, входящей в критический для человеческого слуха диапазон, так, чтобы человек не слышал два устойчивые тона, незначительно различающиеся по частоте, но воспринимал их как один тон переменной амплитуды, частота которого находится между частотами исходных тонов. Этот эффект все больше нарастает с расширением критической для слуха полосы частот.
К тому же положение критических частотных полос в спектре не постоянно, а зависит от сигнала. Исследованиями психоакустики установлено, что человеческое ухо динамически выбирает центральные частоты критических частотных полос в зависимости от спектра. Например, когда ухо человека воспринимает громкий тональный сигнал, критическая полоса частот центруется вокруг него. Когда позже громкий тон будет различен на другой частоте, то слуховые органы позиционируют критическую полосу частот вокруг этой другой частоты так, чтобы восприятие слушателя было не только адаптивно к сигналу во времени, но и имело фильтры высокого спектрального разрешения в низкочастотной области и низкого спектрального разрешения, то есть с широкой полосой пропускания, в верхней части спектра.
Цель настоящего изобретения - предложить улучшенную концепцию параметризации звукового сигнала и преобразования параметрического представления путем модификации или синтеза.
Средствами достижения поставленной цели являются преобразователь звукового сигнала в соответствии с пунктом 1 формулы изобретения, способ преобразования звукового сигнала в соответствии с пунктом 7 формулы, модификатор параметрического представления в соответствии с пунктом 8, способ модификации параметрического представления по пункту 10, синтезатор параметрического представления по пункту 11, способ синтеза параметрического представления звукового сигнала по пункту 15, параметрическое представление звукового сигнала по пункту 22, или компьютерная программа по пункту 23.
Предлагаемое изобретение основано на заключении, что переменная ширина критических частотных полос имеет ряд преимуществ. Одно из преимуществ - повышение эффективности за счет использования низкой разрешающей способности слуха человека. В данном контексте настоящее изобретение помогает избежать вычисления данных, когда в этом нет необходимости, что повышает производительность.
Другое преимущество при этом состоит в том, что там, где требуется высокая разрешающая способность, расчет необходимых данных выполняется, обеспечивая повышение качества параметризованного и вновь синтезируемого сигнала.
Главное преимущество, тем не менее, состоит в том, что этот тип разложения сигнала обеспечивает простые, интуитивные и перцептуально адаптированные средства управления сигналом, позволяя, в частности, напрямую воздействовать на такие характеристики, как резкость, высота звука и т.п.
С этой целью проводят адаптивный к звуковому сигналу анализ и на основании результатов анализа подбирают совокупность полосовых фильтров, придерживаясь принципа приспособляемости к сигналу. Так, ширина полос пропускания полосовых фильтров не постоянна, а зависит от центральной частоты полосового фильтра. В силу этого, представляемое изобретение позволяет варьировать частоту полосового фильтра и дополнительно регулировать ширину полосы пропускания полосового фильтра таким образом, чтобы для каждого перцепционно выверенного полосового сигнала могли быть реализованы амплитудная и частотная модуляция вместе с текущей центральной частотой, которая приблизительно представляет собой расчетную центральную частоту полосы пропускания. Предпочтительнее, если значение центральной частоты в полосе выражает энергетический центр тяжести (COG) внутри этой полосы, чтобы человеческий слух мог быть смоделирован в максимально точной степени. Таким образом, значение центральной частоты полосового фильтра не обязательно является выбранным для выделенного тона в полосе, однако средняя частота полосового фильтра очень вероятно может проходить через частотную характеристику там, где в спектре БПФ пик отсутствовал.
Данные частотной модуляции получают путем понижающего смешения полосового сигнала с рассчитанной центральной частотой. Таким образом, несмотря на то, что исходя из БПФ (на основании спектра) центральная частота была рассчитана с низким временным разрешением, мгновенная информация о времени сохраняется в частотной модуляция. Однако отнесение долговременных изменений к несущей частоте, а кратковременных изменений к данным частотной модуляции и амплитудной модуляции дает возможность формировать параметрическое представление по принципу вокодера, выверенное перцепционно.
Итак, преимущества представляемого изобретения состоят в том, что оно удовлетворяет таким условиям, при которых извлекаемая информация перцептуально значима и интерпретируема, когда модуляция на основе модуляционной информации дает перцептивно взвешенный результат, лишенный нежелательных артефактов, вносимых в силу ограничений, присущих модуляции непосредственно.
Еще одним преимуществом настоящего изобретения является то, что информация, извлеченная непосредственно из несущей, уже представляет собой черновую, но благозвучную и показательную „эскизную" реконструкцию акустического сигнала, и дальнейшее применение любых данных AM и ЧМ способствует совершенствованию такого представления в сторону детализации и прозрачности. Это означает, что предлагаемый в изобретении подход обеспечивает полную масштабируемость, начиная с нижнего уровня, где только на основе информации, извлеченной из несущей, может быть восстановлен „эскиз" сигнала, уже являющийся перцептивно приемлемым, вплоть до верхних уровней масштабирования, где достигается наилучшее качество за счет использования соответствующих дополнительных данных AM и ЧМ, способствующих повышению разрешающей способности по точности/времени.
Достоинство данного изобретения состоит в том, что оно полезно и будет востребовано в области разработки новых акустических эффектов, с одной стороны, и в качестве структурного элемента в сфере создания будущих эффективных алгоритмов компрессии звука, с другой стороны. Поскольку в прошлом всегда существовало различие между методами параметрического кодирования и кодированием формы сигнала, такое различие может быть преодолено в большей степени благодаря представляемому изобретению. В то время как методы кодирования формы сигнала позволяют легко достигать прозрачности при наличии необходимого битрейта, алгоритмы параметрического кодирования, такие как CELP или ACELP, ограничены базовыми моделями источников, и даже если в этих кодерах постоянно наращивать битрейт, они не могут приблизиться к транспарентности. Вместе с тем, параметрические методы обычно предлагают широкий диапазон возможностей получения и применения различных акустических эффектов, в то время как кодирование формы сигнала строго ограничено задачей наилучшего воспроизведения исходного сигнала.
Предлагаемое изобретение заполнит этот пробел, обеспечивая плавный переход между двумя подходами.
Далее будут рассмотрены варианты реализации настоящего изобретения в сопровождении прилагаемых иллюстраций, где
на фиг.1A представлена принципиальная блочная схема осуществления устройства или способа преобразования звукового сигнала;
на фиг.1B представлена принципиальная схема другого предпочтительного варианта технического решения;
на фиг.2А дана блок-схема алгоритма преобразования, представленного на фиг.1А;
на фиг.2B дана блок-схема алгоритма процесса генерации множества полосовых сигналов в предпочтительном варианте осуществления;
на фиг.2С приведен пример адаптивной к сигналу сегментации спектра на основании расчета COG и перцептуальных ограничений;
на фиг.2d дана блок-схема алгоритма преобразования, представленного на фиг.1b;
на фиг.3а отображена схема реализации концепции модификации параметрического представления;
на фиг.3b дана принципиальная схема предпочтительного технического решения концепции, представленной на фиг.3а;
на фиг.3с представлены графики, схематически поясняющие процесс декомпозиции данных AM на грубо- и тонкоструктурную информацию;
на фиг.3d дана блок-схема алгоритма процесса сжатия, графически представленного на фиг.3с;
на фиг.4а показана принципиальная блочная схема реализации синтеза;
на фиг.4b дана принципиальная схема предпочтительного варианта конструктивного решения концепции, представленной на фиг.4а;
на фиг.4с отображен процесс наложения обработанного звукового сигнала с разрешением по времени, битстрим звукового сигнала и процедура наложения/сложения при модуляционном информационном синтезе;
на фиг.4d дана блок-схема предпочтительного варианта осуществления синтеза звукового сигнала с использованием параметрического представления;
на фиг.5 отображена структура вокодера анализа/синтеза известного уровня техники;
на фиг.6 дана принципиальная схема фильтра известного уровня техники как элемента структуры на фиг.5;
на фиг.7а отображена спектрограмма отрывка оригинальной музыкальной фонограммы;
на фиг.7b отображена спектрограмма только синтезированных несущих;
на фиг.7с отображена спектрограмма несущих, „декорированных" за счет грубой AM и ЧМ;
на фиг.7d отображена спектрограмма несущих, декорированных грубой AM и ЧМ с добавлением „изящного шума";
на фиг.7е отображена спектрограмма несущих и неизмененных AM и ЧМ после синтеза;
на фиг.8 приведен результат тестирования субъективно воспринимаемого качества звучания;
на фиг.9а показаны графики спектральной плотности мощности двухтонального сигнала, многотонального сигнала и соответствующим образом ограниченного по полосе многотонального сигнала;
на фиг.9b показаны графики формы волны и огибающие двухтонального сигнала, многотонального сигнала и соответствующим образом ограниченного по полосе многотонального сигнала; и
на фиг.9с даны уравнения генерации двух перцепционно - по полосе пропускания -эквивалентных сигналов.
На фиг.1 представлен преобразователь звукового сигнала 100 в параметрическое представление 180. Устройство включает в себя анализатор сигналов 102, предназначенный для получения результата 104 разложения части звукового сигнала. Результат анализа является информацией, вводимой в оцениватель полос пропускания 106, который выполняет оценивание данных относительно множества полосовых фильтров для данной части звукового сигнала на основании результата анализа. Таким образом адаптивно к сигналу рассчитываются параметры 108 набора полосовых фильтров.
В частности, информация 108 о наборе полосовых фильтров содержит данные о форме фильтра. Форма фильтра может включать в себя показатели ширины полосы пропускания полосового фильтра и/или средней частоты полосового фильтра для данного сегмента звукового сигнала и/или параметры спектральной формы функции передачи амплитуды в параметрической форме или непараметрической форме. Важно, что полоса пропускания полосового фильтра не постоянна по всему частотному диапазону, а зависит от центральной частоты полосового фильтра. Предпочтительно, чтобы зависимость выражалась в том, что полоса пропускания расширяется с повышением средней частоты и сужается с понижением средней частоты. Еще предпочтительнее, чтобы ширина полосы пропускания полосового фильтра полностью определялась по перцептуально скорректированной шкале, такой как шкала барков, чтобы ширина полосы пропускания полосового фильтра всегда зависела от ширины полосы частот, фактически воспринимаемой слухом человека в пределах определенной адаптивной к сигналу средней частоты.
Для этого анализатор сигналов 102 анализирует спектр сегмента звукового сигнала, в особенности распределение плотности мощности в спектре, чтобы обнаружить зоны концентрации мощности, поскольку такие же зоны определяются и ухом человека при восприятии и дальнейшей обработке звука.
Кроме того, устройство, относящееся к изобретению, включает в себя оцениватель модуляции 110 для оценивания амплитудной модуляции 112 или частотной модуляции 114 для каждой полосы набора полосовых фильтров для данного сегмента звукового сигнала. Для этого оцениватель модуляции 110 использует данные о наборе полосовых фильтров 108, что будет рассмотрено позже.
Кроме того, относящееся к изобретению устройство на фиг.1а имеет интерфейс вывода данных 116 для передачи, хранения или преобразования данных амплитудной модуляции 112, частотной модуляции 114 или информации о наборе полосовых фильтров 108, которая может включать параметры формы фильтра, в частности значения центральных частот полосовых фильтров для конкретного сегмента/блока звукового сигнала, или другие данные, как рассматривалось выше. Выходные данные являются параметрическим представлением 180, как показано на фиг.1а.
Фиг.1b демонстрирует предпочтительную версию исполнения оценивателя модуляции 110 и анализатора сигналов 102 (с фиг.1а), объединенного с оценивателем полос пропускания 106 (с фиг.1а) в единый блок, обозначенный на фиг.1b как „оценивание несущей частоты". Оцениватель модуляции 110 преимущественно содержит полосовой фильтр 110а, который формирует полосовой сигнал. Сформированный полосовой сигнал вводят в аналитический преобразователь сигнала 110b. Выходные данные блока 110b используют для вычисления параметров AM и ЧМ. Для расчета показателей AM с помощью блока 110с вычисляют амплитуду аналитического сигнала. Выходной сигнал блока анализа 110b вводят в умножитель 110d, управляемый реальной несущей частотой fc полосы пропускания 110а, который одновременно через другой вход принимает сигнал гетеродина 110е. Далее, с использованием блока 110f определяют фазу выходного сигнала умножителя. Посредством блока 110g распознают мгновенную фазу для завершения формирования информации ЧМ.
Таким образом, схема на фиг.1b иллюстрирует процесс разложения сигнала на несущие и соотносящиеся с ними компоненты модуляций.
Фигура отображает прохождение сигнала с выделением одной составляющей. Остальные составляющие выделяют аналогичным способом. Выделение преимущественно выполняют на поблочной основе при размере блока N=214 с частотой дискретизации 48 кГц и наложением на ¾, что примерно соответствует интервалу времени в 340 мс с шагом в 85 мс. Следует учитывать, что могут быть взяты другие размеры блока или коэффициенты. В конструкцию устройства входит подстраиваемый по сигналу полосовой фильтр, центрованный по локальному COG [12] в спектре ДПФ сигнала. Кандидатные позиции локального COG оценивают путем нахождения переходов от положительных к отрицательным значениям в функции CogPos, определяемой согласно (3). Процедура постселекции гарантирует, что окончательно оцененные позиции COG приблизительно равноудалены на перцептуальной шкале.
Для каждого индекса k спектрального коэффициента получаем относительное смещение в сторону локального центра тяжести на участке спектра, который перекрывается сглаженным скользящим окном w. Ширина B(k) окна соответствует перцептуальной шкале, например, шкале барков. X(k,m) - спектральный коэффициент k во временном блоке m. Кроме того, выполняется рекурсивное временное сглаживание первого порядка с константой времени τ.
Функции вычисления значений альтернативных центров тяжести могут быть итеративными или неитеративными. Неитеративная функция, к примеру, включает в себя сложение величин энергии для различных участков полосы и сравнение результатов сложения.
Локальный центр тяжести (COG) соответствует „средней" частоте, воспринимаемой слушателем, благодаря спектральным составляющим в районе этой частоты. Чтобы увидеть эту зависимость, необходимо учитывать эквивалентность COG и 'средней мгновенной частоты взвешенной интенсивности' (IWAIF), выведенную в [12]. Окно оценивания COG и ширину переходной полосы результирующего фильтра подбирают с учетом разрешающей способности слуха человека {„критических полос частот"). Здесь опытным путем определено, что ширина полосы около 0,5 барков удовлетворяем всем видам объектов испытаний (речь, музыка, окружающая среда). Более того, правильность этого выбора подтверждена в литературе [13].
В дальнейшем аналитический сигнал формируют преобразованием Гильберта для сигнала, прошедшего фильтрацию полосовым фильтром и гетеродинируемого частотой оцененного COG. В завершение сигнал далее разлагают на его амплитудную огибающую и траекторию мгновенных частот (МгнЧ), получая желаемые сигналы AM и ЧМ. Следует обратить внимание на то, что полосовые сигналы, центрованные по позициям локальных COG, соответствуют концепции „областей влияния" традиционного фазового вокодера. Оба метода сохраняют временную огибающую полосового сигнала: первый - по своей сути, а последний - обеспечивая локальную спектральную фазовую когерентность.
Следует учитывать, что рассчитанный набор фильтров, с одной стороны, перекрывает спектр бесшовно, но, с другой стороны, смежные фильтры не перекрывают друг друга слишком глубоко, поскольку это приводит к нежелательным эффектам биения после реконструкции (преобразованных) составляющих. Задача определения ширины полос пропускания фильтров, которые соответствуют перцептуальной шкале, но в то же время должны обеспечивать равномерный, без швов, охват спектра, требует компромиссного решения. Следовательно, оценивание несущей частоты и адаптивная к сигналу конструкция фильтров оказываются решающими факторами при перцептуальном подходе к разложению сигнала на составляющие и в силу этого значительно влияют на качество сигнала при ресинтезе. Пример такой компенсирующей сегментации показан на фиг.2с.
На фиг.2а представлен предпочтительный алгоритм преобразования звукового сигнала в параметрическое представление в соответствии с фиг.2b. На первом шаге 120 формируют блоки отсчетов звукового сигнала. Для этого преимущественно используют оконную функцию, хотя применение оконной функции не является обязательным для всех случаев. На следующем этапе 121 выполняют преобразование отсчетов в спектр высокого частотного разрешения. Затем, на шаге 122, рассчитывают функцию центра тяжести, предпочтительно применяя уравнение (3). С помощью анализатора сигналов 102 выполняют вычисление, результатом 104 которого становятся частоты перехода через нуль, которые пересылаются от анализатора сигналов 102 на фиг.1а к оценивателю полос пропускания 106 на фиг.1а.
Как видно из уравнения (3), функция центра тяжести рассчитывается на основании разных значений ширины полосы. Так, ширина полосы B(k), используемая в вычислении как числитель nom(k, m) и знаменатель (k, m) в уравнении (3), является частотно-зависимой. Поэтому показатель частоты k определяет значение В и, что даже важнее, величина В увеличивается при увеличении показателя частоты k. Следовательно, как становится понятно из уравнения (3) для nom(k, m), „окно" шириной В в трансформанте центрируется в области определенного значения частоты k, где i находится в пределах от -B(k)/2 до +B(k)/2.
Здесь коэффициент i, который умножается на окно w(i) в nom, обеспечивает величине спектральной плотности мощности X2 (где Х - амплитуда спектра), стоящей слева от фактической частотной характеристики k, вхождение в операцию суммирования с отрицательным знаком, в то время как квадратичные значения спектра справа от показателя частоты k вступают в операцию суммирования с положительным знаком. Естественно, возможен другой вариант этой функции, когда, например, верхняя половина будет вводиться с отрицательным знаком, а нижняя половина - с положительным. Функция B(k) обеспечивает корректность расчета центра тяжести в перцепционном плане и предпочтительна для определения, например, как показано на фиг.2с, где отображена перцептуально выверенная сегментация спектра.
В других версиях реализации значения спектра X(k) перед вычислением функции центра тяжести преобразуют в логарифмическую область. После этого величина В для числителя и знаменателя в уравнении (3) становится независимой от частоты (в логарифмическом масштабе). Здесь рассчитанная перцептуально обусловленная зависимость уже включена в значения спектра X, которые в данном варианте исполнения представлены в логарифмическом масштабе. Безусловно, эквивалентная полоса спектра в логарифмическом масштабе соответствует расширяющейся полосе, соотнесенной с центральной частотой в нелогарифмическом масштабе.
Сразу после вычисления переходов через нуль и, в особенности, положительно-отрицательных переходов на шаге 122 начинается выполнение процедуры постселекции на шаге 124. Здесь значения частоты в нулевых перекрещиваниях модифицируют, исходя из критериев слухового восприятия. Такая модификация подразумевает некоторые ограничения, связанные с условием, что спектр должен быть перекрыт полностью без каких бы то ни было пробелов. Более того, центральные частоты полосовых фильтров размещаются максимально близко к нулевым перекрещиваниям функции центра тяжести, и расположение центральных частот в нижней части спектра предпочтительнее их позиций в верхней части спектра. Это означает, что адаптивная к сигналу сегментация спектра имеет тенденцию к более близкому следованию результатам нахождения центров тяжести на шаге 122 в нижней части спектра, и, когда, исходя из этого определения, центры тяжести в верхней части спектра не соответствуют полосовым центральным частотам, принимается такое смещение.
Как только определены значения средних частот и соответствующие значения ширины полос пропускания полосовых фильтров, блок звукового сигнала фильтруется 126 банком полосовых фильтров с переменными полосами пропускания на модифицированных частотах, полученных на шаге 124. Таким образом, как видно из примера адаптивной к сигналу сегментации спектра на фиг.2с, банк фильтров применяют на основании расчета и задания коэффициентов пропускания, при этом банк фильтров в последующем используют для фильтрации сегмента звукового сигнала, который был использован для расчета сегментации спектра.
Такую фильтрацию осуществляют преимущественно посредством банка фильтров или посредством время-частотного преобразования, в частности, оконного ДПФ, последующего спектрального взвешивания и ОДПФ. Одиночный полосовой фильтр показан как элемент 110а, а полосовые фильтры для других составляющих 101 в совокупности с ним формируют банк фильтров. На основании подполосовых сигналов
После этого вычисления по одному блоку завершены, и на шаге 130 во временной области вводится значение дальнейшего пошагового или опережающего продвижения с перекрыванием для получения следующего блока отсчетов звукового сигнала, то есть элемента 120 на фиг.2а.
Этот алгоритм проиллюстрирован на фиг.4с. В верхней части диаграммы отображен некий звуковой сигнал во временной области, состоящий из семи блоков, каждый из которых содержит, предпочтительно, равное количество отсчетов сигнала, Каждый блок состоит из N отсчетов. Первый блок 1 состоит из первых четырех смежных дискретов 1, 2, 3 и 4. Следующий блок 2 состоит из дискретов сигнала 2, 3, 4, 5, третий блок, то есть блок 3, включает в себя сегменты сигнала 3, 4, 5, 6, и четвертый блок, то есть блок 4, содержит последующие сегменты сигнала 4, 5, 6 и 7. На шаге 128 на фиг.2а в битстриме формируют параметрическое представление каждого блока, то есть блока 1, блока 2, блока 3, блока 4, или выборочно сегмента блока, предпочтительно, из его средней части N/2, поскольку внешние сектора могут заключать в себе звонящий фильтр или характеристику спада окна преобразования, имеющего соответствующую конфигурацию. Желательно, чтобы параметрическое представление каждого блока передавалось последовательно в виде битстрима. Верхняя диаграмма на фиг.4с является примером процедуры формирования 4-кратного наложения. В качестве варианта может быть применено двукратное наложение, при котором величина шага или величина опережения, задаваемые на шаге 130, будут содержать на фиг.4с два сегмента вместо одного. По существу, в операции перекрывания нет необходимости, но ее выполнение желательно во избежание блокирующих артефактов и для обеспечения возможности перехода от блока к блоку наплывом, который в соответствии с предпочтительным вариантом реализации настоящего изобретения не выполняется во временной области, но выполняется в области AM/FM, как показано на фиг.4с, и как описано далее в контексте фиг.4а и 4b.
Фиг.2b иллюстрирует общий случай осуществления процедуры, выделенной из алгоритма на фиг.2а относительно уравнения (3). Данную процедуру, алгоритм которой представлен на фиг.2b, частично выполняют анализатор сигналов и оцениватель полос пропускания. На шаге 132 анализируют спектральное распределение мощности в сегменте звукового сигнала. Операция 132 может включать в себя время/частотное преобразование. На шаге 134 с помощью оцененных значений частот локальных центров спектральной плотности мощности выполняют перцепционно скорректированную сегментацию спектра, аналогичную показанной на фиг.2с, с перцептуально обусловленной шириной полос пропускания набора полосовых фильтров и с исключением каких-либо просветов в спектре. На шаге 135 сегмент звукового сигнала фильтруют в последовательности, соответствующей выполненной сегментации спектра, с помощью банка фильтров или посредством трансформации, для которой моделью может служить фиг.1b, где банк фильтров предназначен для одного канала, имеющего полосу пропускания 110а, и соответствующие полосовые фильтры предназначены для других составляющих 101. Результатом преобразований на шаге 135 является совокупность полосовых сигналов для полос, расширяющихся в направлении верхних частот. Далее, на шаге 136 предпочтительного осуществления, индивидуально обрабатывают каждый полосовой сигнал с использованием элементов с 110а по 110g. Тем не менее, при параметризации каждого полосового сигнала для извлечения параметров AM и ЧМ могут быть применены любые другие методики.
Позже в контексте фиг.2d будет рассмотрена предпочтительная последовательность операций обработки каждого полосового сигнала. На шаге 138 задают полосовой фильтр, используя расчетное значение средней частоты и ширину полосы, определенную при сегментации спектра на шаге 134 на фиг.2b. На этом этапе параметры полосового фильтра применяются и, кроме того, могут быть выведены на выходной интерфейс 116 на фиг.1а. На шаге 139 звуковой сигнал фильтруют с помощью полосового фильтра, заданного на шаге 138. На шаге 140 формируют аналитический вариант полосового сигнала. Здесь могут быть применены алгоритмы истинного или приближенного преобразования Гильберта. Это отражено в элементе 110b на фиг.1b. После этого на шаге 141 реализуют функции элемента 110с на фиг.1b, то есть определяют амплитуду аналитического сигнала с целью получения информации AM. В основном данные AM доступны при такой же разрешающей способности, какую имеет полосовой сигнал на выходе элемента 110а. Для сжатия такого большого объема информации по амплитудной модуляции может быть приложен любой способ децимации или параметризации, что будет обсуждаться ниже.
Для определения фазовых или частотных характеристик на шаге 142 выполняют умножение аналитического сигнала на сигнал гетеродина, имеющий среднюю частоту полосового фильтра. В случае применения умножения следующей операцией предпочтительно должна быть низкочастотная фильтрация, устраняющая высокочастотную компоненту, сгенерированную при умножении на шаге 142. При сложном сигнале гетеродина такое фильтрование не требуется. Результатом преобразования на шаге 142 становится понижающее смешение аналитического сигнала, который на шаге 143 обрабатывают с получением показателей мгновенной фазы, на что указывает элемент 110f на фиг.1b. Эти фазовые характеристики могут быть выведены в виде параметрической информации дополнительно к данным амплитудной модуляции, однако предпочтительнее такие фазовые показатели вычленить на шаге 144 для получения точных данных частотной модуляции, что на фиг.1b отображено элементом 114. К тому же фазовые характеристики могут быть использованы для описания связанных с ними фазочастотных флуктуаций. В случае, если фазовых характеристик достаточно для информации параметризации, то дифференциация с использованием элемента 110g не требуется.
На фиг.3а схематически отображен модификатор параметрического представления звукового сигнала, который получает от множества полосовых фильтров информацию, относящуюся к каждому интервалу времени, например, к блоку 1 на диаграмме в центре фиг.4с. Информация о полосовых фильтрах содержит параметры времени/переменных центральных частот (несущих), где ширина полосы пропускания зависит от конкретного полосового фильтра и его диапазона, и где каждому полосовому фильтру в определенный интервал времени соответствуют данные амплитудной модуляции, или фазовой модуляции, или частотной модуляции. Модификатор заключает в себе параметризатор данных 160, предназначенный для преобразования переменных во времени центральных частот или для модификации показателей амплитудной модуляции, или частотной модуляции, или фазовой модуляции и предназначенный для вывода преобразованного параметрического представления, содержащего несущие частоты сегмента звукового сигнала, преобразованные показатели AM, преобразованные показатели ФМ или преобразованные показатели ЧМ.
На фиг.3b приведен предпочтительный вариант реализации параметризатора данных 160 с фиг.3а. Данные амплитудной модуляции проходят стадию разложения на составляющие грубой/тонкой структуры. Подобная декомпозиция преимущественно носит нелинейную форму, как отображено на фиг.3с. При необходимости сжатия данных AM, например для передачи на синтезатор, передают только грубоструктурные параметры. В конструкцию синтезатора могут входить сумматор 160е и полосовой генератор шумов 160f. При этом указанные элементы могут входить также в состав параметризатора данных. Тем не менее, предпочтительная версия исполнения предполагает прохождение основного трафика между элементами 160а и 160е, причем по этому каналу передается, в основном, параметрическое представление грубой структуры, а, например, показатель величины энергии, характеризующий тонкую структуру или выведенный из нее, транслируется от анализатора на синтезатор по линии 161. Далее, на стороне синтезатора масштабируют генератор шумов 160f с целью формирования шумовой составляющей определенного полосового сигнала, причем характеристики, задаваемые шумовому сигналу, например уровень, поступают по линии 161. Затем, на стороне декодера/синтезатора шумы временно оформляют посредством грубой структуры, взвешивают с помощью целевой выходной энергии и суммируют с передаваемой грубой структурой для синтеза сигнала, что требует только низкой скорости передачи двоичных данных в силу искусственной реконструкции тонкой структуры. Основное назначение генератора шумов 160f - введение (псевдослучайного) шумового сигнала, имеющего определенную суммарную энергию и заданный во времени энергетический спектр. Управление им осуществляется посредством передачи служебных команд или за счет фиксированных уставок для каждой полосы, заданных, например, на основании эмпирических данных. Кроме этого, управление может осуществляться путем локального анализа поступающего сигнала, который выполняет модификатор или синтезатор, выводя управляющие параметры на блок введения шумов. Значения параметров управления преимущественно относятся к энергопоказателям.
В параметризатор данных 160 дополнительно могут быть включены функция принудительного встраивания полинома 160b и/или транспозитор 160d несущих частот, который также транспонирует информацию ЧМ с помощью умножителя 160с. С другой стороны, целесообразным может быть преобразование только несущих частот без модификации параметров ЧМ или данных AM или преобразование только информации ЧМ без изменения показателей AM или несущей частоты.
При наличии сформулированных параметров модуляции открывается доступ к новым интересным возможностям в обработке звукового сигнала. Значительным преимуществом представляемого здесь модуляционного разложения является то, что предлагаемый способ анализа/синтеза потенциально гарантирует перцептуальную сбалансированность конечного результата (отсутствие щелчков, стыковых повторов и т.п.) любого модуляционного преобразования, в большинстве случаев независимо от примененной методики обработки сигнала. Несколько примеров модуляции включено в схему на фиг.3b.
Несомненно, широкое применение найдет „транспонирование" звукового сигнала при сохранении скорости воспроизведения оригинала. Это легко достигается умножением всех несущих на постоянный множитель. Поскольку временная структура входного сигнала зависит исключительно от сигналов AM, ее не затрагивают расширения спектрального интервала несущей.
Если подмножеству несущих, соответствующих предварительно определенным частотным интервалам, при картировании задать соответствующие новые значения, лад музыкальной пьесы может быть изменен, например, с минора на мажор, или наоборот. Для получения такого результата несущие частоты квантуют и картируют в соответствующем цифровом формате MIDI (вводя заранее известные данные о тональности и ключе обрабатываемого музыкального фрагмента). В завершение введенную MIDI-кодировку реконвертируют с извлечением преобразованных несущих частот, которые используют для синтеза. Кроме того, специальная MIDI-функция распознавания атаки/затухания звучащей ноты становится не нужна, поскольку временные характеристики содержатся преимущественно в немодифицированных параметрах амплитудной модуляции и благодаря этому сохраняются.
Более перспективные способы обработки сигнала нацелены на модификацию модуляционных свойств сигнала. Предположим, необходимо скорректировать ′шероховатость′ сигнала [14] [15] с помощью модуляционного фильтрования. Сигнал AM содержит грубую структуру, относящуюся к наплыву и затуханию музыкальных событий и т.д., и тонкую структуру, относящуюся к более быстрым частотам модуляции (~30-300 Гц). Так как эта тонкая структура передает свойства шероховатости звукового сигнала (для несущих до 2 кГц) [15] [16], акустическая шероховатость может быть преобразована путем удаления тонкой структуры и сохранения грубой структуры.
Для декомпозиции огибающей на грубую и тонкую структуры применяют нелинейные методы. В частности, для захвата грубой AM используют кусочное встраивание полинома (низкого порядка). Тонкую (остаточную) структуру получают как разность между исходной и грубой огибающей. В случае потери тонкой структуры AM при необходимости она может быть перцепционно компенсирована путем введения „изящного" шума, ограниченного по полосе, масштабированного по разностной энергии и по времени грубой огибающей AM.
Рекомендуется в случае каких-либо преобразований сигнала AM ограничить скорость ЧМ сигнала исключительно до низких показателей, так как необработанная ЧМ может содержать внезапные пики в силу эффектов биения в районе одной полосы пропускания [17] [18]. Эти пики возникают вблизи нуля [19] сигнала AM и перцептивно незначительны. Пример такого пика МгнЧ можно найти на фиг.9 в формуле (1), соответствующей сигналу в форме фазового скачка пи в нулевых позициях огибающей Гилберта. Нежелательные пики могут быть удалены, например, путем принудительного встраивания полинома в ЧМ, при котором исходный сигнал AM выполняет роль весов для обеспечения высокой степени согласования. Таким образом, пики ЧМ могут быть устранены без внесения нежелательного смещения.
Другой подход предусматривает удаление ЧМ из сигнала. Здесь ЧМ можно просто установить на нуль. Поскольку несущие сигналы отцентрованы по локальным центрам тяжести COG, они представляют перцептуально корректную локальную среднюю частоту.
На фиг.3с приведен пример экстракции грубой структуры из полосового сигнала. Верхний график на фиг.3с отображает типичную грубую структуру тонального сигнала, извлеченного с помощью некоего инструмента. Вначале инструмент беззвучен, далее, в момент атаки, наблюдается резкий рост амплитуды, которая в течение так называемого периода незатухания сохраняется на одном уровне. Затем тон ослабевает. Это характеризуется своего рода экспоненциальным затуханием, которое начинается в конце периода незатухания. Это является началом периода спада, то есть моментом ослабления. Наличие периода незатухания не всегда обязательно для музыкальных инструментов. В частности, если рассматривать гитару, на ней тональный сигнал извлекается путем возбуждения струны, и после атаки в момент воздействия немедленно наступает весьма продолжительный период спада, в течение которого колебания струны затухают до достижения состояние покоя, которым завершается время извлечения звука. Для типичных музыкальных инструментов существуют типичные образцы звучания или грубые структуры характерных тонов. Для экстракции такой грубой структуры из полосового сигнала в него следует встроить полином, имеющий общий вид, аналогичный верхнему графику на фиг.3с, который может быть согласован путем подбора коэффициентов многочлена. После оптимального встраивания полинома определяют сигнал путем подстановки этого полинома, что означает вычитание грубой структуры полосового сигнала из реального полосового сигнала с получением тонкой структуры, которая при условии надлежащего совмещения полинома представляет собой достаточно шумный сигнал, обладающий определенной энергией, которая может быть передана со стороны анализатора на сторону синтезатора в дополнение к данным грубой структуры, которые играют роль коэффициентов многочлена. Декомпозиция полосового сигнала на грубую структуру и тонкую структуру является примером нелинейного разложения. Предусмотрены также другие виды нелинейного преобразования с целью выделения из полосового сигнала прочих составляющих и значительного снижения скорости передачи данных при пересылке параметров AM для приложений с низким битрейтом.
На фиг.3d дана блок-схема последовательности выполнения подобной процедуры. На шаге 165 выделяют грубую структуру путем, например, встраивания полинома и вычисления параметров полинома, которые затем становятся данными амплитудной модуляции, предназначенными для передачи от анализатора на синтезатор. Для повышения эффективность такой передачи эти параметры подвергают еще более глубокому квантованию и кодированию 166. Квантование может быть равномерным или неравномерным, а кодирование может выполняться по любому из известных алгоритмов энтропийного кодирования, например кодирования Хаффмана, с таблицами или без них, или арифметического кодирования, такого как контекстное арифметическое кодирование, известного по сжатию видеосигнала.
Далее формируют данные AM с низким битрейтом или данные ЧМ/ФМ, которые могут быть переданы по каналу связи с высокой степенью эффективности. На стороне синтезатора на шаге 168 полученные параметры декодируют и деквантуют. Затем, на шаге 169, реконструируют грубую структуру, например, путем подсчета всех значений, полученных с помощью полинома, который имеет переданные полиномиальные коэффициенты. Целесообразным может быть дополнительное введение в частотную полосу тонких шумов, предпочтительно, на основе переданных параметров энергии с временным распределением в соответствии с грубой AM или же в приложениях со сверхвысокими скоростями передачи данных на основе прибавления (тонкого) шума с эмпирически заданной энергией.
Кроме того, как обсуждалось выше, преобразование сигнала может включать в себя трансформацию средних частот в карту MIDI-номеров или, в целом, в музыкальный строй, чтобы в дальнейшем преобразовать, скажем, музыкальный фрагмент из мажорного лада в минорный, или наоборот. В подобном случае самой важной является модификация частот несущих. При этом данные AM или ФМ/ЧМ не изменяются.
Однако здесь применены также другие виды преобразований несущей частоты, например транспонирование всех несущих частот с использованием одного коэффициента транспозиции, который может быть целым числом больше 1 или дробным числом между 1 и 0. В результате преобразования в последнем случае частота основного тона будет ниже, а в первом случае преобразования частота основного тона будет выше, чем до преобразования.
На фиг.4а представлена схема синтезатора параметрического представления звукового сигнала, где параметрическое представление содержит информацию о полосах пропускания, включая частоты несущих или средние частоты полос пропускания полосовых фильтров. Дополнительно параметрическое представление содержит параметры амплитудной модуляции, частотной модуляции или фазовой модуляции полосового сигнала.
Для выполнения синтеза сигнала синтезатор оснащен входным интерфейсом 200, на который поступает немодифицированное или модифицированное параметрическое представление данных всех полосовых фильтров. В качестве примера на фиг.4а приведена последовательность устройств синтеза одного сигнала полосового фильтра. Для синтеза данных амплитудной модуляции введен синтезатор AM 201, обеспечивающий синтез составляющей AM на основе амплитудной модуляции. Кроме того, введен синтезатор ЧМ/ФМ, предназначенный для генерирования мгновенной частоты или фазовых характеристик на основе данных несущих частот и принятой информации о ФМ или ЧМ. Оба элемента 201, 202 соединены с генератором выходного сигнала, являющегося амплитудно-/частотно-/фазово-модулированным колебательным сигналом 204 для каждого канала банка фильтров. Далее задействован комбинатор 205, предназначенный для сведения сигналов каналов полосовых фильтров, аналогичных сигналам осцилляторов 204, для других каналов полосовых фильтров и предназначенный для формирования выходного звукового сигнала на базе сигналов каналов полосовых фильтров. Синтез выходного звукового сигнала 206 в предпочтительном варианте реализации осуществляется простым суммированием полосовых сигналов в порядке следования отсчетов. Однако возможны другие способы сведения.
На фиг.4b приведена принципиальная схема предпочтительного конструктивного исполнения синтезатора на фиг.4а. Преимущества такого решения основываются на операции сложения наложением (OLA) в области модуляции, то есть перед генерированием полосового сигнала временной области. Как наглядно отображено на средней диаграмме на фиг.4с, входной сигнал, который может представлять собой битстрим или может напрямую поступать от анализатора или модификатора, членится на составляющие AM 207а, ЧМ 207b и несущую частоту 207с. Синтезатор AM 201 включает в себя устройство сложения наложением 201а и, дополнительно, контроллер сборки компонент 201b, который, предпочтительно, включает в себя не только блок 201а, но и блок 202а, представляющий собой сумматор с наложением в составе синтезатора ЧМ 202. Синтезатор ЧМ 202 имеет в своем составе частотный сумматор с наложением 202а, фазовый интегратор 202b, фазовый комбинатор 202с, который одновременно может выполнять функцию сумматора, и фазовращатель 202d, управляемый контроллером сборки компонент 201b, предназначенный для восстановления фазовой постоянной на поблочной основе таким образом, чтобы фаза сигнала предыдущего блока непрерывно переходила в фазу текущего блока. На основании этого можно заключить, что сложение фаз с помощью элементов 202d, 202с соответствует восстановлению константы, утраченной при дифференциации в блоке 110g на фиг.1b на стороне анализатора. Следует отметить, что здесь наблюдается единственная потеря данных в перцептуальной области, то есть потеря постоянной составляющей дифференциатором 110g на фиг.1b. Эта потеря восполняется путем добавления фазовой постоянной, рассчитываемой устройством сборки компонент 201b на фиг.4b.
Сигнал синтезируется на базе суммирования всех составляющих. На фиг.4b показана технологическая цепочка обработки одной составляющей. Как и анализ, синтез осуществляется на поблочной основе. Поскольку для синтеза используют только среднюю часть N/2 каждого анализируемого блока, в результате получают коэффициент наложения ½. Алгоритм сборки компонент используют для совмещения AM и ЧМ и выстраивания абсолютной фазы составляющих, находящихся в непосредственной близости в спектре, по предшествующим составляющим в предыдущем блоке. Близость по спектру также рассчитывают по шкале барков, постоянно учитывая чувствительность слухового аппарата человека к частоте основного тона.
Сначала сигнал ЧМ складывают с несущей частотой и результат передают для выполнения операции сложения с наложением (OLA). Затем его интегрируют для получения фазы компоненты, которая будет синтезирована. Результирующий фазовый сигнал подают на генератор синусоидальных колебаний. Сигнал AM обрабатывают аналогичным образом на другой стадии OLA. В завершение амплитуду выходного сигнала гетеродина модулируют амплитудой результирующего сигнала AM и вводят компоненту в состав выходного сигнала.
На фиг.4с, в нижнем отделе диаграммы, показан предпочтительный вариант операции сложения наложением с 50%-ным перекрытием. При таком порядке выполнения первый сегмент фактически используемых данных текущего блока сигнала совмещают с соответствующим сегментом предшествующего блока, который стоит там на втором месте. Кроме того, в нижнем отделе диаграммы на фиг.4с показан процесс плавного наложения, при котором затухающий сегмент блока получает веса убывания от 1 до 0, а наплывающий блок параллельно получает веса нарастания от 0 до 1. Такие веса могут быть приложены сразу на стороне анализатора, после чего декодеру остается только выполнение функции сумматора. Тем не менее, указанные веса применяют предпочтительно не на стороне кодера, а предварительно задают для декодера. Как было рассмотрено ранее, для синтеза используют только средний участок N/2 каждого анализируемого блока, в результате чего коэффициент перекрытия получает значение 1/2, как показано на фиг.4с. Однако для наложения/сложения могут быть использованы все сегменты каждого анализируемого блока полностью, что обеспечивает 4-кратное перекрывание, как показано в верхней части диаграммы на фиг.4с. Тем не менее, предпочтительным является рассмотренный вариант реализации, при котором используют центральные сегменты, поскольку крайние четверти содержат характеристика спада аналитического окна, а центральные четверти содержат только сегменты с плоской вершиной.
В зависимости от сложившихся условий возможно использование других пропорций перекрывания.
На фиг.4d приведена предпочтительная последовательность шагов реализации, показанной на фиг.4а/4b. На шаге 170 два соседних блока данных AM взаимно смешиваются/наплывают. Операцию наложения с наплывом следует выполнять преимущественно на уровне параметров модуляции, но не на уровне готового синтезированного модулированного полосового сигнала во временной области. Благодаря этому предотвращается возникновение артефактов биения между двумя микшируемыми сигналами, если сравнивать с вариантом наплыва, выполненного во временной области, а не в области параметров модуляции. На шаге 171, используя сумматор 202с, рассчитывают абсолютную частоту для определенного момента времени путем соединения несущей частоты полосового сигнала каждого блока с характеристиками ЧМ высокого разрешения. Вслед за этим, на шаге 171, два смежных блока с абсолютной частотной информацией смешивают/перекрывают с наплывом, получая на выходе блока 202а смешанную мгновенную частоту. На шаге 173 результат операции OLA 202а интегрируют, как показано в блоке 202b на фиг.4b. Далее, с помощью операции сборки компонент 201b определяют абсолютную фазу соответствующей предшествующей частоты в предыдущем блоке, как показано на шаге 174. На основании определенной таким образом фазы фазовращатель 202d на фиг.4b корректирует абсолютную фазу сигнала, вводя с помощью блока 202с соответствующее значение ϕ0, что также отображено на шаге 175 на фиг.4d. Теперь фазовая характеристика готова для регулировки фазы генератора синусоидальных колебаний, что показано на шаге 176. Наконец, на шаге 177, амплитуду выходного сигнала модулируют с использованием параметров плавного наложения амплитуд, поступающих от блока 170. Амплитудный модулятор, как, например, умножитель 203b, в итоге выводит синтезированный полосовой сигнал для определенного полосового канала, который, благодаря процедуре, относящейся к данному изобретению, имеет ширину полосы частот, изменяющуюся от низких к высоким с ростом центральной частоты полосы пропускания.
Ниже представлен ряд спектрограмм, демонстрирующих возможности предлагаемых протоколов модулирования. На фиг.7а приведен отрезок оригинальной спектрограммы, регистрирующей фрагмент классического оркестрового музыкального произведения (А. Вивальди).
На фиг.7b-7е приведены соответствующие спектрограммы результатов разных способов модуляции в порядке наращивания реконструируемых модуляцией деталей. Фиг.7b иллюстрирует восстановление сигнала только по несущим. Области белого цвета соответствуют спектральным участкам высокой энергии и совпадают с зонами концентрации энергии в спектрограмме исходного сигнала на фиг.7а. Фиг.7с отображает те же несущие, но детализированные нелинейно сглаженными AM и ЧМ. Добавленные детали очевидны. На фиг.7d утраченные особенности AM компенсированы за счет введения по огибающей „тонкого" шума, который вновь дополняет сигнал разнообразными деталями. Наконец, на фиг.7е, дана спектрограмма сигнала, синтезированного из немодулированных составляющих. Сопоставление спектрограммы на фиг.7е со спектрограммой исходного сигнала на фиг.7а наглядно демонстрирует высокую степень детализации реконструированного сигнала.
С целью оценки эффективности предлагаемого способа было проведено субъективное тестирование аудированием. Испытание проводилось по методике „субъективной оценки промежуточного качества звука" MUSHRA [21] с использованием высококачественных электростатических головных телефонов STAX. Всего в тестировании участвовало 6 слушателей. Все субъекты испытаний могут рассматриваться как опытные слушатели.
Тестовую последовательность составляли образцы, поименованные на фиг.8, а их конфигурации отображены на графиках фиг.9.
Картограмма на фиг.8 отражает результаты тестирования. Здесь показаны средние результаты с 95%-ными доверительными интервалами для каждой позиции. На диаграмме отражены результаты статистического анализа итогов тестирования для всех слушателей. По оси Х представлен тип преобразования, по оси Y ранжирована оценка в баллах по 100-балльной шкале MUSHRA от 0 (плохо) до 100 (удобоваримо).
По результатам видно, что два варианта детализированного звучания - с полной AM и полной или черновой ЧМ - имеют наивысшую среднюю оценку в районе 80 баллов, при том, что они продолжают отличаться от оригинала. В силу того, что доверительные интервалы обоих вариантов большей частью взаимно перекрываются, можно сделать заключение, что потерей мелкой деталировки ЧМ в перцептивном плане можно пренебречь. Вариант звучания при грубых AM и ЧМ с добавлением „тонких" шумов оценивается значительно ниже, однако получает при этом в среднем 60 баллов: в этом отражено свойство постепенной деградации функциональных возможностей предлагаемого способа при увеличении потерь детализации данных амплитудной модуляции.
Наиболее интенсивное для восприятия снижение тона характерно для источников, имеющих ярко выраженный нестационарный режим звучания, таких как колокольчик и клавесин. Это происходит в силу утраты исходных фазовых соотношений между различными компонентами по всему спектру. Тем не менее, данная проблема может быть решена в дальнейших версиях предлагаемого способа синтеза путем настройки фазы несущей во временных центрах тяжести огибающей AM одновременно для всех составляющих.
Для фрагментов классической музыки в серии тестов наблюдаемая деградация оказалась статистически незначимой. Представленный способ анализа/синтеза применим в других сценариях практического приложения. Для кодирования звука этот способ может служить структурообразующим элементом усовершенствованного перцептуально выверенного масштабируемого аудиокодера высокого разрешения, основная концепция которого была изложена в [1]. При снижении битрейта и ограничении объема передаваемой информации параметры детализации могут быть заменены, например, передачей на приемник не полной огибающей AM, а грубой с последующим внесением „тонких" шумов.
К тому же, на вооружение могут быть взяты новые принципы расширения полос звуковых частот [20], согласно которым, например, смещенные и измененные компоненты основной полосы частот могут быть использованы для формирования полос высоких частот. Появляется возможность совершенствовать эксперименты, проводимые со слухом человека, например, создавая нереальные звуки с целью дальнейшей оценки восприятия человеком модуляционных структур [11].
Наконец, что не менее важно, становится возможным создание новых выразительных художественных акустических эффектов в музыке: в частности, с помощью соответствующих преобразований несущих частот сигналов можно изменять лад и ключ музыкального произведения или путем манипуляций над составляющими AM можно вносить разнообразные оттенки шероховатости в психоакустическое восприятие музыкальной фонограммы.
Таким образом, заявлена система, предназначенная для разложения произвольного звукового сигнала на перцептуально содержательную несущую частоту и составляющие АМ/ЧМ, благодаря чему предусматривается возможность масштабирования с высоким разрешением и тонкоструктурной настройки процессов модуляции. Предложен соответствующий способ ресинтеза. Приведены некоторые примеры осуществления основных принципов модуляции, и представлены практические результаты в виде спектрограмм звукового файла. Проведено аудиотестирование для контроля перцепционных свойств результатов различных видов модуляции и последующего ресинтеза. Определены основные будущие сценарии практического приложения данного нового многообещающего метода анализа/синтеза. Результаты демонстрируют, что предложенный способ может надлежащим образом заполнить существующий пробел между параметрическими и волновыми методами обработки звука и, кроме того, дает новые увлекательные возможности создания и применения необычных выразительных акустических эффектов.
Описанные выше примеры реализации приведены исключительно для наглядного представления основных принципов, лежащих в основе настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.
В зависимости от конкретных требований к реализации относящихся к изобретению методов эти методы могут быть осуществлены как в виде аппаратных средств, так и в виде программного обеспечения. Изобретение может быть реализовано с использованием цифрового накопителя данных, в частности диска, DVD-диска или CD-диска, содержащего электронно считываемые управляющие сигналы, совместимого с программируемыми компьютерными системами с целью осуществления методов, имеющих отношение к изобретению. Таким образом, в целом настоящее изобретение представляет собой компьютерный программный продукт с хранящимся на машиночитаемом носителе кодом программы, с помощью которого практически выполняются изобретенные методы при условии исполнения компьютерного программного продукта на компьютере. Иначе говоря, методы, относящиеся к изобретению, представляют собой, таким образом, компьютерную программу с присвоенным ей кодом программы, предназначенную для реализации, по меньшей мере, одного из относящихся к изобретению методов при выполнении компьютерной программы на компьютере.
Изобретение относится к алгоритмам параметрического кодирования звуковых сигналов. Технический результат изобретения заключается в улучшении концепции параметризации звукового сигнала за счет эффективности использования низкой разрешающей способности слуха человека. Устройство преобразования звукового сигнала в параметрическое представление, включающее в себя анализатор сигналов (102), предназначенный для разложения сегмента звукового сигнала с получением результатов анализа; оцениватель полос пропускания (106) для расчета данных о множестве полосовых фильтров на основании результатов анализа; оцениватель модуляции (110) для оценивания амплитудной модуляции (112), или частотной модуляции (114), или фазовой модуляции для каждой полосы пропускания множества полосовых фильтров для сегмента звукового сигнала с использованием данных о множестве полосовых фильтров; выходной интерфейс (116), предназначенный для передачи, хранения или преобразования информации относительно амплитудной модуляции, частотной модуляции или фазовой модуляции или информации относительно множества полосовых фильтров для сегмента звукового сигнала. 14 н. и 9 з.п. ф-лы, 25 ил.
1. Устройство для преобразования звукового сигнала в параметрическое представление, характеризующееся тем, что включает в себя анализатор сигнал (102) для разложения сегмента (122) аудиосигнала с получением результата анализа (104), реализованный с возможностью вычисления функции положения центра тяжести для спектрального представления сегмента (122) аудиосигнала, где спрогнозированные события в функции положения центра тяжести служат показателями кандидатных значений центральных частот для множества полосовых фильтров; оцениватель полос пропускания (106) для оценивания параметров (108) множества полосовых фильтров на основании результата анализа (104), характеризующийся тем, что информация о множестве полосовых фильтров содержит данные о форме фильтра для конкретного сегмента аудиосигнала, характеризующееся тем, что ширина полосы пропускания полосового фильтра является переменной величиной по всему спектру звуковых частот и зависит от средней частоты полосового фильтра, при этом оцениватель полос пропускания (106) выполнен с возможностью определения центральных частот, исходя из кандидатных значений (124); оцениватель модуляции (110) для оценивания амплитудной модуляции или частотной модуляции или фазовой модуляции для полосы пропускания каждого из множества полосовых фильтров для конкретного сегмента аудиосигнала на основании информации (108) о множестве полосовых фильтров; и выходной интерфейс (116) для передачи, хранения или обработки данных амплитудной модуляции, частотной модуляции или фазовой модуляции, или информации о множестве полосовых фильтров для сегмента аудиосигнала.
2. Устройство по п.1, характеризующееся тем, что анализатор сигналов (102) предназначен для вычисления значения позиции центра тяжести полосы частот.
3. Устройство по п.1, характеризующееся тем, что анализатор сигналов (102) предназначен для сложения отрицательных значений мощности первой половины полосы и положительных значений мощности второй половины полосы с получением кандидатного значения позиции центра тяжести, при этом кандидатные значения позиций центров тяжести сглажены во времени, давая сглаженное значение позиции центра тяжести, и в составе которого оцениватель полосовых фильтров (106) предназначен для нахождения частот пересечения нуля значениями позиций сглаженных центров тяжести во времени.
4. Устройство по п.1, характеризующееся тем, что оцениватель полос пропускания (106) предназначен для определения параметров средней частоты или ширины полос пропускания полосовых фильтров таким образом, что спектр от нижнего начального значения до верхнего конечного значения перекрывается без просветов, а нижняя начальная величина и верхняя конечная величина, при этом включают в себя, по меньшей мере, пять полос полосовых фильтров.
5. Устройство по п.1, характеризующееся тем, что оцениватель полос пропускания (106) обрабатывает данные для корректировки частоты переходов через нуль с формированием в результате приблизительно равных относительно перцепционной шкалы интервалов между центральными полосовыми частотами, минимизируя при этом расстояние между центральными частотами полос и частотами переходов через нуль в функции положения центра тяжести.
6. Устройство по п.1, характеризующееся тем, что оцениватель модуляции (110) предназначен для формирования аналитического полосового сигнала (110b) конкретной полосы пропускания и для вычисления амплитуды аналитического сигнала с целью получения данных амплитудной модуляции аудиосигнала в полосе полосового фильтра.
7. Способ преобразования звукового сигнала в параметрическое представление, характеризующийся тем, что включает в себя анализ (102) сегмента аудиосигнала с получением результата анализа (104), в ходе которого рассчитывают функцию положения центра тяжести для спектрального представления сегмента (122) аудиосигнала, при этом спрогнозированные события в функции положения центра служат показателями кандидатных значений для центральных частот для множества полосовых фильтров; оценивание (106) информации (108) о множестве полосовых фильтров на основании результата анализа (104), характеризующееся тем, что информация о множестве полосовых фильтров содержит данные о форме фильтра для конкретного сегмента аудиосигнала, при этом ширина полосы пропускания полосового фильтра является переменной величиной по всему спектру звуковых частот и зависит от средней частоты полосового фильтра, при этом на шаге оценивания (106) определяют центральные частоты, исходя из кандидатных значений (124); оценивание (110) амплитудной модуляции, или частотной модуляции, или фазовой модуляции для каждой полосы множества полосовых фильтров сегмента аудиосигнала с использованием данных (108) множества полосовых фильтров; и передачу, хранение или преобразование (116) данных амплитудной модуляции, частотной модуляции или фазовой модуляции, или параметров множества полосовых фильтров сегмента аудиосигнала.
8. Устройство модификации параметрического представления, формирующее для конкретного временного сегмента звукового сигнала данные о множестве полосовых фильтров, указывающих времязависимые центральные частоты полосовых фильтров, имеющих ширину полос пропускания, зависимую от центральных частот соответствующих полосовых фильтров; характеризующееся тем, что содержит модификатор (160), предназначенный для преобразования изменяющихся во времени центральных частот и для генерации модифицированного параметрического представления, где ширина полос полосовых фильтров зависит от средних частот соответствующих полосовых фильтров.
9. Устройство по п.8, характеризующееся тем, что модификатор (160) предназначен для коррекции всех центральных частот путем умножения на постоянный коэффициент или путем изменения только выбранных центральных частот для изменения тональности музыкальной пьесы, например, с мажора на минор или наоборот.
10. Способ модификации параметрического представления для формирования информации для конкретного временного сегмента звукового сигнала о множестве полосовых фильтров, содержащей указания на времязависимые центральные частоты полосовых фильтров с шириной полос пропускания, зависящей от центральных частот соответствующих полосовых фильтров, и для расчета для каждого полосового фильтра временного сегмента аудиосигнала данных амплитудной модуляции, или фазовой модуляции, или частотной модуляции, где параметры модуляции зависят от центральных частот полосовых фильтров, характеризующийся тем, что способ включает в себя модификацию (160) изменяющихся во времени центральных частот или генерацию модифицированного параметрического представления, где ширина полос полосовых фильтров зависит от средних частот соответствующих полосовых фильтров.
11. Синтезатор параметрического представления аудиосигнала, содержащего временной сегмент аудиосигнала, данные множества полосовых фильтров, указывающие переменные во времени центральные частоты полосовых фильтров с переменной шириной полос, которая зависит от средней частоты соответствующего полосового фильтра, и генерирующий для каждого полосового фильтра временного сегмента аудиосигнала данные амплитудной модуляции, или фазовой модуляции, или частотной модуляции, характеризующийся тем, что включает в себя синтезатор амплитудной модуляции (201), предназначенный для синтеза составляющей амплитудной модуляции на основании данных амплитудной модуляции; синтезатор частотной модуляция или фазовой модуляции, предназначенный для синтеза мгновенной частоты фазовой характеристики на основании параметров несущей частоты и данных частотной модуляции для соответствующей ширины полосы, где частотные интервалы между смежными несущими частотами различаются по всему частотному спектру, генератор колебаний (203), предназначенный для генерации выходного сигнала, представляющего мгновенно-амплитудно-модулированный, частотно-модулированный или фазо-модулированный колебательный сигнал (204) для каждого канала полосового фильтра; и комбинатор (205), предназначенный для сведения сигналов каналов полосовых фильтров и для генерации на их основе выходного акустического сигнала (206), при этом синтезатор амплитудной модуляции (201) включает в свой состав устройство сложения наложением (201а) для выполнения наложения и взвешенного суммирования последовательных блоков данных амплитудной модуляции с выведением компоненты амплитудной модуляции; или синтезатор частотной или фазовой модуляции (202) включает в свой состав устройство сложения наложением для взвешенного сложения двух последовательных блоков данных частотной модуляции или фазовой модуляции или комбинированного представления данных частотной модуляции и несущей частоты для полосового сигнала с выведением синтезированных частотных данных.
12. Устройство по п.11, характеризующееся тем, что синтезатор частотной или фазовой модуляции (202) включает в себя интегратор (202b), предназначенный для обобщения синтезированных частотных характеристик и для прибавления к ним фазовой составляющей (202d, 202с), выведенной из фазы компоненты в спектральной близости от предшествующего блока выходного сигнала осциллятора (203).
13. Устройство по п.12, характеризующееся тем, что осциллятор (203) является генератором синусоидальных колебаний, на который поступает фазовый сигнал, полученный в результате суммирования (202 с).
14. Устройство по п.23, характеризующееся тем, что осциллятор (203) включает в себя модулятор (203b), предназначенный для модуляции выходного сигнала генератора синусоидальных колебаний с использованием составляющей амплитудной модуляции для конкретной полосы.
15. Способ синтеза параметрического представления звукового сигнала, состоящего из временного сегмента аудиосигнала, данных множества полосовых фильтров, указывающих переменные во времени значения средних частот полосовых фильтров с переменной шириной полос, которая зависит от средней частоты соответствующего полосового фильтра, кроме того, содержащего данные амплитудной модуляции, или фазовой модуляции, или частотной модуляции для каждого полосового фильтра временного сегмента аудиосигнала, характеризующийся тем, что включает синтез (201) составляющей амплитудной модуляции на основании параметров амплитудной модуляции; синтез (202) мгновенной частоты или фазовых характеристик на основании данных несущей частоты и параметров частотной модуляции для соответствующей ширины полосы, где частотные интервалы между смежными несущими частотами различаются по всему частотному спектру, генерацию (203) выходного сигнала, представляющего мгновенно амплитудно-модулированный, частотно-модулированный или фазо-модулированный колебательный сигнал (204) для каждого канала полосового фильтра; и сведение (205) сигналов каналов полосовых фильтров для генерации на их базе выходного акустического сигнал (206), при этом шаг синтезирования (201) компоненты амплитудной модуляции включает в себя операцию наложения и взвешенного сложения (201а) последовательных блоков данных амплитудной модуляции с выведением составляющей амплитудной модуляции; или шаг синтезирования (202) данных мгновенной частоты или фазы включает в себя операцию взвешенного сложения двух последовательных блоков данных частотной модуляции или фазовой модуляции или комбинированного представления данных частотной модуляции и несущей частоты для полосового сигнала с выведением синтезированных частотных данных.
16. Машиночитаемый носитель информации с записанной на него компьютерной программой для осуществления способа по пп.7, 10 или 15 при условии ее выполнения на компьютере.
17. Устройство для преобразования звукового сигнала в параметрическое представление, характеризующееся тем, что включает в себя анализатор сигнала (102) для разложения сегмента аудиосигнала с получением результат анализа (104); оцениватель полос пропускания (106) для расчета параметров (108) множества полосовых фильтров на основании результата анализа (104), при этом информация о множестве полосовых фильтров содержит данные о форме фильтра для конкретного сегмента аудиосигнала, при этом ширина полосы пропускания полосового фильтра является переменной величиной по всему спектру звуковых частот и зависит от средней частоты полосового фильтра; оцениватель модуляции (110) для расчета амплитудной модуляции или частотной модуляции или фазовой модуляции для каждой полосы множества полосовых фильтров для сегмента аудиосигнала, исходя из совокупности параметров (108) множества полосовых фильтров, при этом оцениватель модуляции (110) реализован с возможностью выполнения понижающего микширования (110d) полосового сигнала с несущей, содержащей центральную частоту соответствующей полосы пропускания, с выведением данных частотной модуляции или фазовой модуляции в полосе пропускания полосового фильтра; и выходной интерфейс (116) для передачи, хранения или обработки данных амплитудной модуляции, частотной модуляции или фазовой модуляции, или информации о множестве полосовых фильтров для сегмента аудиосигнала.
18. Способ преобразования звукового сигнала в параметрическое представление, характеризующийся тем, что включает в себя анализ (102) сегмента аудиосигнала с получением результата анализа (104); оценивание (106) информации (108) о множестве полосовых фильтров на основе результатов анализа (104), которая содержит данные формы фильтра для данного сегмента аудиосигнала, при этом ширина полосы полосового фильтра различается по всему спектру звуковых частот и зависит от центральной частоты полосового фильтра; оценивание (110) амплитудной модуляции {AM} или частотной модуляции или фазовой модуляции для каждой полосы пропускания множества полосовых фильтров для сегмента аудиосигнала на основе информации (108) о множестве полосовых фильтров, при этом выполняется понижающее микширование (110d) полосового сигнала с несущей, содержащей центральную частоту соответствующей полосы пропускания, с выведением данных частотной модуляции или фазовой модуляции в полосе пропускания полосового фильтра; и передачу, хранение или преобразование (116) данных амплитудной модуляции, частотной модуляции или фазовой модуляции, или параметров множества полосовых фильтров сегмента аудиосигнала.
19. Устройство модификации параметрического представления, формирующее для конкретного временного сегмента звукового сигнала информацию о множестве полосовых фильтров, указывающую времязависимые центральные частоты полосовых фильтров, имеющих ширину полос пропускания, зависящую от центральных частот соответствующих полосовых фильтров, и генерирующий для каждого полосового фильтра временного сегмента аудиосигнала данные амплитудной модуляции, или фазовой модуляции, или частотной модуляции, где параметры модуляции зависят от центральных частот полосовых фильтров; характеризующееся тем, что содержит модификатор (160), предназначенный для преобразования изменяющихся во времени центральных частот или для корректировки амплитудной модуляции, или фазовой модуляции, или параметров частотной модуляции, и для генерации модифицированного параметрического представления, где ширина полос полосовых фильтров зависит от средних частот соответствующих полосовых фильтров, модификатор (160), преобразующий данные амплитудной модуляции или фазовой модуляции или частотной модуляции путем нелинейного разложения на грубую структуру и тонкую структуру и путем изменения или только грубой структуры или только тонкой структуры.
20. Способ модификации параметрического представления, которое содержит в себе относящиеся к выделенному во времени фрагменту аудиосигнала данные множества полосовых фильтров, где указаны изменяющиеся во времени центральные частоты полосовых фильтров, имеющих ширину полос, находящуюся в зависимости от центральной частоты соответствующих полосовых фильтров, и которое содержит в себе для каждого полосового фильтра, относящегося к выделенному во времени фрагменту аудиосигнала, данные амплитудной или фазовой или частотной модуляции, которые находятся во взаимосвязи с центральными частотами полосовых фильтров, характеризующийся тем, что включает модификацию (160) изменяющихся во времени центральных частот или модификацию данных амплитудной модуляции или фазовой модуляции или частотной модуляции и генерацию модифицированного параметрического представления, в котором ширина полос пропускания полосовых фильтров находится в зависимости от центральных частот соответствующих полосовых фильтров, причем, модификацию (160) данных амплитудной модуляции или фазовой модуляции или частотной модуляции осуществляют путем нелинейного разложения на грубую структуру и тонкую структуру и путем изменения или только грубой структуры или только тонкой структуры.
21. Синтезатор параметрического представления аудиосигнала, содержащего временной сегмент аудиосигнала, данные множества полосовых фильтров, указывающие переменные во времени центральные частоты полосовых фильтров с переменной шириной полос, которая зависит от средней частоты соответствующего полосового фильтра, и генерирующий для каждого полосового фильтра временного сегмента аудиосигнала данные амплитудной модуляции или фазовой модуляции или частотной модуляции, характеризующийся тем, что включает в себя синтезатор амплитудной модуляции (201), предназначенный для синтеза составляющей амплитудной модуляции на основании данных амплитудной модуляции, который имеет в своем составе генератор шума (160f) для введения шума, управляемый посредством служебных данных, заданных фиксированно или получаемых в ходе локального анализа; синтезатор частотной модуляция или фазовой модуляции, предназначенный для синтеза мгновенной частоты фазовой характеристики на основании параметров несущей частоты и данных частотной модуляции для соответствующей ширины полосы, где частотные интервалы между смежными несущими частотами различаются по всему частотному спектру, генератор колебаний (203), предназначенный для генерации выходного сигнала, представляющего мгновенно-амплитудно-модулированный, частотно-модулированный или фазо-модулированный колебательный сигнал (204) для каждого канала полосового фильтра; и комбинатор (205), предназначенный для сведения сигналов каналов полосовых фильтров и для генерации на их базе выходного акустического сигнал (206).
22. Способ синтеза параметрического представления звукового сигнала, состоящего из временного сегмента аудиосигнала, данных множества полосовых фильтров, указывающих переменные во времени центральные частоты полосовых фильтров с переменной шириной полос, которая зависит от центральной частоты соответствующего полосового фильтра, кроме того, содержащего данные амплитудной модуляции, или фазовой модуляции, или частотной модуляции для каждого полосового фильтра временного сегмента аудиосигнала, характеризующийся тем, что включает в себя синтез (201) компоненты амплитудной модуляции на основе данных амплитудной модуляции, который включает в себя шаг добавления шума, управляемый посредством передачи служебных данных, заданных фиксировано или выводимых в ходе локального анализа; синтез (202) мгновенной частоты или фазовых характеристик на основании данных несущей частоты и параметров частотной модуляции для соответствующей ширины полосы, где частотные интервалы между смежными несущими частотами различаются по всему частотному спектру, генерацию (203) выходного сигнала, представляющего мгновенно амплитудно-модулированный, частотно-модулированный или фазо-модулированный колебательный сигнал (204) для каждого канала полосового фильтра; и сведение (205) сигналов каналов полосовых фильтров для генерации на их базе выходного акустического сигнала (206).
23. Машиночитаемый носитель информации с записанной на него компьютерной программой для осуществления способа по пп.18, 20 или 22 при условии ее выполнения с использованием компьютерной техники.
Potamianos A et al: "Speech analysis and synthesis using an AM-FM modulation model", Speech Communication, Elsevier Science Publishers, Amsterdam [он-лайн] найдено в Интернет 03.05.2012: | |||
http://www.telecom.tuc.gr, с.4, 7-10, 13-16 | |||
RU 2005125737 А, 10.01.2006 | |||
US 5574823 A, 12.11.1996 | |||
US 6052658 A, 18.04.2000. |
Авторы
Даты
2013-07-10—Публикация
2009-03-10—Подача