Область техники
Конструктивные решения по данному изобретению относятся к устройству для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Другие конструктивные решения по данному изобретению относятся к способу генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Прочие конструктивные решения по настоящему изобретению относятся к носителю с программным кодом, предназначенному для осуществления указанного способа.
Ряд технических решений по предлагаемому изобретению имеет отношение к новым методам патчирования при репликации спектральных полос.
Уровень техники
Процесс накопления или передачи звуковых сигналов часто строго ограничен фактором скорости передачи данных. Такие ограничения обычно преодолевают за счет кодирования сигнала. В прошлом, когда был доступен только очень низкий битрейт, кодеры резко ограничивали ширину диапазона частот передаваемого аудиосигнала. Современные аудиокодеки рассчитаны на сохранение ширины слышимой полосы частот благодаря применению методов расширения диапазона частот (BWE). Подобные методики описаны, например, в [1]-[12]. Эти алгоритмы основаны на параметрическом представлении высокочастотного контента (ВЧ), сгенерированного из закодированной формы волны низкочастотной составляющей (НЧ) декодированного сигнала транспонированием в область спектра ВЧ (“патчированием”) и применением полученного параметра для последующей обработки сигнала.
В существующем уровне техники такие приемы расширения полосы пропускания, как репликация спектральных полос (SBR), используют в качестве эффективных методов генерации высокочастотных сигналов в кодеках, основанных на высокочастотной реконструкции (HFR).
При репликации спектральных полос, описанной в [1], обозначаемой также аббревиатурой “SBR”, для генерации ВЧ информации используют банк квадратурных зеркальных фильтров (банк КЗФ). С помощью, так называемой технологии “патчирования”, нижние частоты КЗФ копируют в верхнюю (частотную) позицию, реплицируя НЧ информацию в область ВЧ. Затем сгенерированные ВЧ монтируют с первоначальной частью ВЧ, используя параметры, которые совмещают (или корректируют) огибающую спектра и тональность (например, форматируя огибающую).
Стандартная репликация спектральных полос (SBR) включает в себя операцию патчирования, которая всегда выполняется путем копирования внутри области КЗФ.
Как установлено, это может иногда приводить к возникновению акустических артефактов, особенно если синусоиды скопированы вблизи друг друга на границе НЧ и генерируемой ВЧ части. Таким образом, можно заключить, что процедура SBR связана с проблемой артефактов. Кроме того, некоторые общепринятые реализации концепции расширения полосы пропускания сопряжены с достаточно высокой сложностью. В дополнение к этому, в некоторых вариантах подхода к расширению диапазона частот спектр становится слишком разреженным для „заплат" в верхней его части (с высокими коэффициентами растяжения), что может привести к нежелательным (слышимым) акустическим артефактам.
С учетом сказанного выше целью данного изобретения является создание концепции формирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, которая способствовала бы оптимальному соотношению вычислительной сложности и качества звука.
Краткое описание изобретения
Конструктивные решения по предлагаемому изобретению реализуют устройство для генерирования представления сигнала с расширенной полосой частот на базе представления входного сигнала. Устройство включает в себя фазовый вокодер, предназначенный для расчета значений спектрального представления первого патча сигнала с расширенной полосой частот на базе представления входного сигнала. Кроме того, устройство имеет в своем составе блок копирования значений, предназначенный для копирования набора значений спектрального представления первого патча, полученных от фазового вокодера, с целью расчета набора значений спектрального представления второго патча. Второй патч содержит более высокие частоты, чем первый патч. Устройство выполняет функцию формирования представления сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
Ключевой идеей данного изобретения является оптимальное соотношение вычислительной трудоемкости и акустического качества сигнала с расширенной полосой частот, достигаемое за счет совмещения фазового вокодера с блоком копирования значений, при этом фазовый вокодер генерирует первый патч сигнала с расширенной полосой частот, а второй патч сигнала с расширенной полосой частот формируется на базе первого патча с помощью блока копирования значений. Таким образом, содержимое первого патча представляет собой гармонически транспонированный вариант содержимого низкочастотной части (НЧ) входного сигнала (в виде преобразованного представления входного сигнала), а второй патч является сам (или представляет) сдвинутый (негармонически) по частоте вариант содержимого первого патча. Следовательно, второй патч может быть генерирован с относительно низкой сложностью вычислений, поскольку копирование значений в вычислительном отношении проще, чем операция фазового вокодирования. Дополнительно, устраняются большие спектральные дыры во втором патче, так как спектральные характеристики первого патча, как правило, достаточно заполнены (то есть содержат ненулевые значения), благодаря чему ослабляются или устраняются различимые на слух артефакты, которые могли бы возникнуть в некоторых случаях, когда второй патч разрежен.
Если обобщить сказанное, концепция изобретения дает существенные преимущества перед общепринятыми алгоритмами патчирования (“наложения заплаты”) в силу того, что при гармоническом расширении диапазона частот с помощью фазового вокодера получают значения спектрального представления первого патча, то есть - нижней части спектра, в то время как для высоких частот используют негармоническое расширение диапазона частот, основанное на копировании значений спектрального представления первого патча для получения значений спектрального представления второго патча. Таким образом, нижний диапазон (обозначенный как “первый патч”) полосы расширения частот (выше частоты перехода) формируется как гармоническое расширение основного частотного диапазона (то есть - в частотном диапазоне входного сигнала, охватывающем частоты, проходящие ниже частот полосы частотного расширения, например, частоты, находящиеся ниже частоты перехода), что обусловливает высокое качество восприятия на слух сигнала с расширенным диапазоном частот. Кроме того, установлено, что простая генерация значений спектрального представления верхнего диапазона полосы частотного расширения (который обозначен как “второй патч”), выполняемая с помощью блока копирования, не влечет за собой существенные акустические артефакты, так как человеческий слух не особенно чувствителен к спектральным тонкостям верхнего диапазона полосы частотного расширения (второго патча).
В итоге, концепция изобретения обеспечивает хорошее акустическое качество при сравнительно невысокой вычислительной сложности.
В предпочтительной версии реализации фазовый вокодер выполняет функцию копирования набора показателей амплитуды, связанных с совокупностью определенных частотных поддиапазонов входного представления в спектральной области, с целью получения набора значений амплитуды, связанных с соответствующими частотными поддиапазонами первого патча, при этом пара, куда входят определенный частотный поддиапазон входного спектрального представления и соответствующий частотный поддиапазон первого патча, охватывает (или включает в себя) пару, куда входят основная частота и гармоника основной частоты (например, первая гармоника основной частоты). Наряду с этим фазовый вокодер предпочтительно выполняет функцию умножения фазовых показателей, связанных с совокупностью определенных частотных поддиапазонов входного представления в спектральной области, на заданный коэффициент (допустим, 2) для получения значений фазы, связанных с соответствующими частотными поддиапазонами первого патча. Блок копирования значений преимущественно предназначается для копирования набора значений, связанных с совокупностью определенных частотных поддиапазонов первого патча, с целью получения набора значений, связанных с соответствующими частотными поддиапазонами второго патча. Блок копирования значений преимущественно рассчитан на то, чтобы при копировании сохранять фазовые показатели без изменения. Таким образом, фазовый вокодер выполняет, по крайней мере, приближенно, гармоническое транспонирование, в то время как блок копирования значений выполняет негармонический сдвиг частоты. Частотные поддиапазоны могут, например, представлять собой полосы частот, соотнесенные с коэффициентами быстрого преобразования Фурье (или любого сопоставимого преобразования). Или же, частотные поддиапазоны могут представлять собой полосы частот, соотнесенные с индивидуальными сигналами банка КЗФ. Как правило, ширина частотных поддиапазонов относительно центральной частоты невелика, при этом отношение конечной частоты к начальной в таком частотном интервале значительно меньше, чем 2:1. Другими словами, даже при условии, что частотные поддиапазоны входного спектрального представления (которые могут, например, иметь форму коэффициентов БПФ или форму сигналов банка КЗФ) и частотные поддиапазоны первого патча не должны полностью совпадать друг с другом гармонически, почти всегда можно соотнести частотный поддиапазон (имеющий, например, коэффициент встречаемости k) входного спектрального представления и соответствующий частотный поддиапазон (имеющий, например, коэффициент встречаемости 2k) первого патча так, чтобы частотный поддиапазон (2k) первого патча представлял, по меньшей мере, приближенно, гармоническую частоту соответствующего частотного поддиапазона (k) входного спектрального представления.
Следовательно, фазовый вокодер осуществляет гармоническое транспонирование с учетом фазовых характеристик, преобразованных путем масштабирования фазы. В отличие от этого, блок копирования значений лишь выполняет (хотя бы, приближенно), операцию негармонической частотной модуляции.
В предпочтительном конструктивном варианте блок копирования значений предусматривает копирование значений таким образом, чтобы обеспечить общий спектральный (или частотный) сдвиг значений первого патча к значениям второго патча.
Предпочтительное техническое решение фазового вокодера подразумевает получение значений спектрального представления первого патча таким образом, чтобы эти значения воспроизводили гармонически транспонированный вверх вариант диапазона опорной частоты представления входного сигнала (например, диапазон опорной частоты ниже так называемой частоты перехода). Блок копирования значений преимущественно предназначен для получения значений спектрального представления второго патча таким образом, чтобы эти значения воспроизводили частотно модулированный вариант первого патча. Таким образом, реализуются охарактеризованные выше преимущества. В особенности это относится к простоте реализации при хорошем акустическом восприятии.
Предпочтительное аппаратное исполнение рассчитано на прием аудиоданных с импульсно-кодовой модуляцией (с ИКМ) и на субдискретизацию импульсно-кодово-модулированных входных аудиоданных с целью генерации субдискретизированных импульсно-кодово-модулированных аудиоданных. Кроме того, устройство выполняет оконное взвешивание субдискретизированных импульсно-кодово-модулированных аудиоданных с целью получения взвешенных входных данных и преобразует эти взвешенные входные данные в частотную область с формированием представления входного сигнала. Наряду с этим устройство предпочтительно рассчитывает значения амплитуды ak (обозначенные также αk) и фазовые показатели φk величины шага дискретизации k (где k - коэффициент частотного разрешения) представления входного сигнала, а также копирует значения амплитуды ak с целью получения скопированных значений амплитуды ask (обозначенных также αsk), отображающих величину шага дискретизации с коэффициентом sk для первого патча, где s - коэффициент растяжения при s=2. В дополнение к этому устройство предпочтительно выполняет функции копирования и масштабирования фазовых показателей φk, относящихся к величине шага частотной дискретизации k представления входного сигнала, с целью получения скопированных и отмасштабированных фазовых показателей φsk, относящихся к величине шага частотной дискретизации с коэффициентом частотности sk первого патча. Также, устройство предпочтительно предусматривает копирование значений βk-iζ, связанных с шагом частотной дискретизации k-iζ, спектрального представления первого патча, с целью получения значений βk спектрального представления второго патча. Кроме того, устройство предпочтительно преобразует представление сигнала с расширенным диапазоном частот (включающее в себя спектральное представление первого патча и спектральное представление второго патча) во временную область с целью формирования временного представления и приложения к временному представлению окна синтеза. Применение изложенной выше концепции дает возможность генерировать сигнал с расширенным диапазоном частот при умеренной трудоемкости вычислений. Расширение полосы пропускания осуществляется в частотной области, откуда возможно преобразование в спектральную область, например, в область БПФ или КЗФ.
Предпочтительная аппаратная версия изобретения имеет в своем составе преобразователь сигнала из временной области в спектральную область (например, средство быстрого преобразования Фурье или банк КЗФ), рассчитывающий характеристики представления в спектральной области (например, коэффициенты быстрого преобразования Фурье или подполосовые сигналы КЗФ) входного аудиосигнала или предварительно обработанного (например, субдискретизированного и/или взвешенного) варианта входного аудиосигнала (например, импульсно-кодово-модулированного сигнала, сгенерированного ядром аудиодекодера). Названное устройство предпочтительно включает в себя преобразователь сигнала из спектральной области во временную область (например, средство обратного быстрого преобразования Фурье или синтезирующий банк КЗФ), формирующий представление во временной области сигнала с расширенным диапазоном частот с использованием значений спектрального представления (например, в виде коэффициентов БПФ или подполосовых сигналов КЗФ) первого патча и значений спектрального представления (например, в виде коэффициентов БПФ или подполосовых сигналов КЗФ) второго патча. Конфигурация спектрально-временного преобразователя преимущественно предполагает, что число возможных спектральных величин (например, дискретов БПФ или полос КЗФ), принятое им, превышает число возможных спектральных величин (например, дискретов БПФ, или полос КЗФ), сгенерированное время-спектральным преобразователем (например, средством быстрого преобразования Фурье или банком КЗФ), при этом спектрально-временной преобразователь обрабатывает большее количество частотных отсчетов (например, дискретов быстрого преобразования Фурье или частотных полос КЗФ), чем время-частотный преобразователь. Следовательно, расширение полосы пропускания достигается за счет того, что преобразователь сигнала из области спектра в область времени обрабатывает больший объем частотных отсчетов, чем преобразователь из временной области в частотную область.
В предпочтительном варианте осуществления устройство имеет в своем составе анализирующий оконный преобразователь, предусмотренный для оконного взвешивания входного аналогового звукового сигнала с целью формирования взвешенной модификации такого сигнала, которая служит основой для генерирования представления входного сигнала.
Кроме того, устройство включает в себя синтезирующий оконный преобразователь, предусмотренный для оконного взвешивания фрагмента представления во временной области сигнала с расширенным диапазоном частот с целью получения взвешенного фрагмента представления во временной области сигнала с расширенным диапазоном частот. В силу этого сокращаются или даже устраняются артефакты сигнала с расширенным диапазоном частот.
В предпочтительной версии исполнения устройство осуществляет функцию обработки множества последовательно перекрывающихся смещающихся во времени фрагментов входного аналогового аудиосигнала с образованием множества последовательно перекрывающихся смещающихся во времени взвешенных оконных рагментов представления во временной области сигнала с расширенной полосой частот. Временной сдвиг между двумя смежными фрагментами входного аудиосигнала во временной области - меньше, чем, или равен одной четвертой длины окна анализа. Было установлено, что относительно большое временное наложение смежных сдвинутых по времени фрагментов входного аудиосигнала во временной области (и/или сравнительно большое временное наложение смежных сдвинутых по времени фрагментов временного представления сигнала с расширенной полосой частот) дает в результате расширение диапазона частот, обеспечивающее хорошее слуховое восприятие, поскольку благодаря сравнительно большому временному наложению устраняются нестационарности сигнала.
Предпочтительное техническое решение предполагает оснащение устройства детектором нестационарных режимов, который обеспечивает данные о наличии нестационарности во входном сигнале (в представлении входного сигнала). Наряду с этим устройство включает в себя первый контур преобразования, генерирующий представление компоненты сигнала, расширенного по полосе частот, основываясь на стационарной составляющей представления входного сигнала, и второй контур преобразования, генерирующий представление компоненты сигнала, расширенного по полосе частот, основываясь на нестационарной составляющей представления входного сигнала. Второй контур преобразования выполняет функцию обработки спектрального представления входного сигнала, которое имеет более высокое спектральное разрешение, чем спектральное представление входного сигнала, обработанного первым контуром преобразования. Соответственно, компоненты сигнала, содержащие нестационарность, могут быть обработаны с более высоким спектральным разрешением, которое предотвращает слышимые артефакты, возникающие при нестационарных режимах. С другой стороны, более низкое спектральное разрешение может быть применено для стационарных компонент сигнала (то есть для составляющих сигнала, в которых детектор нестационарных режимов не распознает нестационарное состояние). В силу этого, вычислительная эффективность поддерживается на высоком уровне, в то время как увеличенная спектральная разрешающая способность используется только тогда, когда это целесообразно (например, когда это обеспечивает улучшение акустического качества вблизи нестационарности).
Преимущественная версия конфигурации этого устройства включает в себя блок добавления нулей во временной области, предназначенный для дополнения нулями нестационарной составляющей входного сигнала с получением расширенной во времени нестационарной составляющей входного сигнала. При этом первый контур преобразования содержит (первый) время-частотный преобразователь, который обеспечивает первый набор значений спектральной области, связанных со стационарной составляющей входного сигнала, в то время как второй контур преобразования содержит (второй) время-частотный преобразователь, который обеспечивает второй набор значений спектральной области, связанных с расширенной во времени нестационарной составляющей входного сигнала. Второй набор значений спектральной области превосходит первый набор значений спектральной области, по меньшей мере, на коэффициент 1,5. Подобным образом достигается адекватное управление нестационарным процессом.
В предпочтительном варианте компоновки второй контур преобразования содержит блок удаления нулей, предназначенный для извлечения множества нулевых значений из компоненты сигнала с расширенной полосой частот, на основе расширенной во времени нестационарной составляющей входного сигнала. За счет этого выполняется обращение временного растяжения входного сигнала, полученное добавлением нулей.
Предпочтительное конструктивное решение устройства предусматривает субдискретизатор, предназначенный для гармонической дискретизации представления входного сигнала во временной области. С помощью субдискретизации входного сигнала может быть повышена вычислительная эффективность, если входной сигнал не покрывает всю ширину полосы Найквиста входного потока отсчетов с импульсно-кодовой модуляцией.
Вариантом конструктивного решения по предлагаемому изобретению является устройство, в котором инвертирован порядок рабочих операций блока копирования значений и фазового вокодера. Данное устройство предназначено для генерации представления сигнала с расширенной полосой частот на основе представления входного сигнала (110; 383) и включает в себя блок копирования значений, выполняющий функции копирования набора значений представления входного сигнала, генерации набора значений спектрального представления первого патча, причем первый патч связан с более высокими частотами, чем представление входного сигнала. Кроме того, устройство включает в себя фазовый вокодер (130; 406), выполняющий расчет значений (β2ζ…β3ζ) спектрального представления второго патча сигнала с расширенной полосой частот на основе значений (β4/3ζ…β2) спектрального представления первого патча, причем второй патч связан с более высокими частотами, чем первый патч. Устройство предназначено для построения представления (120; 426) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
Данное устройство рассчитано на генерацию сигнала с расширенным диапазоном частот при сравнительно низкой вычислительной стоимости, но высоком акустическом качестве на выходе. Оставляя фазовый вокодер после копирования в режиме работы со сравнительно небольшой относительной частотой (то есть отношением частоты выходного сигнала вокодера к частоте входного сигнала вокодера), можно получить оптимальное заполнение спектра и предупредить его большие разрывы. Более того, было определено, что при таком подходе качество звучания даже возрастает по сравнению с подходом, опирающимся единственно на процедуру копирования, без введения фазового вокодера, даже несмотря на то, что первый патч (для более низких частот) получен с использованием копирования, и только второй патч (для более высоких частот) сгенерирован с использованием фазового кодера. Сверх того, вычислительная сложность уменьшается по сравнению с системами, в которых применена концепция генерации всех патчей с задействованием только фазовых вокодеров, а разрывы спектра при этом сокращаются.
Бесспорно, такое конструктивное решение может быть дополнено любой из функциональных возможностей, обсуждаемых здесь.
Данное изобретение осуществляется за счет предлагаемых способов генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Указанный способ базируется на концепции, лежащей в основе рассматриваемого устройства.
Осуществление способа, относящегося к настоящему изобретению, опирается на использование носителя с программным кодом.
Краткое описание фигур
На фиг.1 дана блок-схема работы устройства для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала согласно реализации данного изобретения; на фиг.2 графически отображена концепция расширения диапазона частот в соответствии с настоящим изобретением; на фиг.3 дана детализированная принципиальная блочная схема аудиодекодера, включающего в себя устройство для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, реализованного в соответствии с изобретением; на фиг.4 дана блок-схема способа генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, реализованного в соответствии с изобретением; на фиг.5 дана принципиальная блочная схема аудиодекодера в качестве первого сравнительного примера; и на фиг.6 дана принципиальная блочная схема аудиодекодера в качестве второго сравнительного примера.
Описание реализации изобретения
1. Устройство по фиг.1
На фиг.1 дана блок-схема работы устройства 100 для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Устройство 100 предназначено для приема представления входного сигнала 110 и генерации на его основе сигнала с расширенным диапазоном частот 120. Устройство 100 включает в себя фазовый вокодер 130, предназначенный для вычисления значений спектрального представления первого патча для сигнала с расширенным диапазоном частот 120 на основе представления входного сигнала 110. Значения спектрального представления первого патча обозначены, допустим, как βζ-β2ζ. Кроме того, устройство 100 включает в себя блок копирования значений 140, предназначенный для копирования наборов значений спектрального представления 132 первого патча, рассчитанные фазовым вокодером 130, для вычисления набора значений спектрального представления 142 второго патча, причем второй патч связан с более высокими частотами, чем первый патч. Значения спектрального представления 142 второго патча обозначены, допустим, как β2ζ-β3ζ. Устройство 100 генерирует представление 120 сигнала с расширенным диапазоном частот, используя значения βζ-β2ζ спектрального представления 132 первого патча и значения β2ζ-β3ζ спектрального представления 142 второго патча. Например, представление 120 сигнала с расширенным диапазоном частот может содержать как значения спектрального представления 132 первого патча, так и спектрального представления 142 второго патча. В дополнение к этому представление 120 сигнала с расширенным диапазоном частот может, в частности, содержать значения спектрального представления входного сигнала (скажем, в форме представления входного сигнала 110). Вместе с тем, представление 120 сигнала с расширенным диапазоном частот может базироваться на значениях спектрального представления 132 первого патча и значений спектрального представления 142 второго патча (и, как вариант, на таких как значения спектрального представления 116 входного сигнала и/или значения спектрального представления дополнительных патчей).
Ниже функциональные возможности и работа устройства 100 будут рассмотрены более подробно в контексте фиг.2, где графически отображена концепция генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, лежащая в основе изобретения.
На первом графике 200 отображено гармоническое транспонирование входного сигнала (в форме представления входного сигнала 110), выполняемое фазовым вокодером 130. Как можно видеть, входной сигнал представлен, к примеру, набором значений амплитуды αk. Индекс k обозначает шаг спектрального разрешения (предположим, отсчет быстрого преобразования Фурье с индексом k, или частотную полосу преобразования КЗФ с индексом k). Представление входного сигнала 110 может, например, содержать величины амплитуды αk от k=1 до k=ζ, где ζ обозначает так называемый шаг частоты перехода и характеризует начальную частоту расширения полосы. Затем описывается диапазон опорной частоты, например, с помощью фазовых характеристик φk, где k - индекс элемента разрешения по частоте, как сказано выше.
Аналогичным образом первый патч описывается набором значений представления в спектральной области, например, значениями βk при k между ζ, и 2ζ. Или, первый патч может быть отображен через величины амплитуды αk и фазовые характеристики φk с шагом разрешения по частоте с индексом k между ζ и 2ζ.
Как уже сказано, фазовый вокодер 130 предназначен для гармонического транспонирования на базе представления входного сигнала 110 с целью расчета значений спектрального представления 132 первого патча. Для этого фазовый вокодер 130 может задать величину амплитуды α2k шага по частоте с индексом (шага по частоте) 2k, как равную величине амплитуды αk шага по частоте с индексом (шага по частоте) k. Кроме того, фазовый вокодер 130 может задать фазовой характеристике φ2k шага по частоте с индексом 2k величину, равную 2 фазовым характеристика φk шага по частоте с индексом k. В этом случае шаг по частоте, имеющий индекс k становится отсчетом по частоте в представлении входного сигнала 110, а шаг по частоте с индексом 2k становится частотным дискретом спектрального представления 132 первого патча. Кроме того, шаг по частоте, имеющий индекс 2k может включать в себя частоту, которая является первой гармоникой частоты, входящей в шаг по частоте, имеющий индекс k. Таким образом могут быть получены характеристики амплитуды α2k и фазы φ2k, описывающие спектральное представление 132 первого патча, где k находится в пределах от ζ до 2ζ, давая в результате α2k=αk и φ2k=2φk. И наоборот, и равнозначно, параметры представления в спектральной области 132 первого патча β2k могут быть выведены для 2k между ζ, и 2ζ, таким образом, что β2k=αkej2φk
В итоге, если принять, что элементы разрешения по частоте с индексом k (или, равнозначно, 2k, и так далее), которые являются, например, отсчетами в частотной области быстрого преобразования Фурье, или полосами частот преобразования КЗФ, представляют собой линейные частотные дискреты (когда индекс элемента разрешения по частоте, например k или 2k, является, по меньшей мере, приближенно, пропорциональным частоте, входящей в соответствующий частотный дискрет, например, центральной частоте k-го частотного отсчета быстрого преобразования Фурье или центральной частоте k-й полосы КЗФ), можно заключить, что гармоническое транспонирование фазовым вокодером 130 выполнено. Однако характеристики представления в спектральной области 142 второго патча рассчитываются блоком копирования значений 140, который выполняет нелинейное копирование параметров спектрального представления 132 первого патча.
Теперь, ссылаясь на график 250, кратко рассмотрим негармоническое копирование. Как видно, первый патч представлен показателями βζ-β2ζ (или же величинами амплитуды αζ-α2ζ, и фазовыми характеристиками φζ-φ2ζ. Соответствующие характеристики β2ζ-β3ζ (или показатели амплитуды α2ζ-α3ζ и фазы φ2ζ-φ3ζ) спектрального представления 142 второго патча сгенерированы путем негармонического копирования, выполненного блоком копирования значений 140. Например, комплекснозначные спектральные величины β2ζ-β3ζ спектрального представления 142 второго патча могут быть рассчитаны на базе соответствующих характеристик βζ-β2ζ спектрального представления 132 первого патча согласно βk=βk-ζ для k в пределах 2ζ, и 3ζ. Аналогично, величины амплитуды α2ζ, to α3ζ, спектрального представления 142 второго патча могут быть вычислены, исходя из величин амплитуды спектрального представления 132 первого патча, согласно αk=αk-ζ для k между 2ζ, и 3ζ. При этом фазовые показатели φ2ζ - φ3ζ спектрального представления 142 второго патча могут быть сформированы на основе фазовых показателей φζ - φ2ζ, спектрального представления 132 первого патча согласно φk=φk-ζ; для k между 2ζ и 3ζ. Таким вот, блин, манером, показатели спектрального представления 142 второго патча описывают сигнал, который негармонически (т.е. линейно) сдвигается по частоте относительно сигнала, описанного значениями спектрального представления 132 первого патча.
Значения βζ - β2ζ, спектрального представления 132 первого патча и значения β2ζ - β3ζ спектрального представления 142 второго патча могут быть использованы для генерации представления 120 сигнала с расширенным диапазоном частот. По желанию представление 120 сигнала с расширенным диапазоном частот может быть сформировано в спектральной или во временной области. При необходимости формирования представления во временной области в схему может быть введен частотно-временной преобразователь, обеспечивающий временное представление, исходя из показателей βζ - β2ζ спектрального представления 132 первого патча и показателей β2ζ - β3ζ спектрального представления 142 второго патча. И наоборот (но, равносильно), расчетные оценки αζ-α2ζ, φζ-φ2ζ, α2ζ-α3ζ и φ2ζ-φ3ζ; могут быть использованы для извлечения представления 120 сигнала с расширенным диапазоном частот (как в области спектра, так и во временной области).
Как уже говорилось выше, концепция, рассмотренная с опорой на фиг.1 и 2, оптимизирует слуховое восприятие при сравнительно низкой вычислительной трудоемкости. Необходимость в применении фазового вокодера возникает только один раз, даже если налагается множество патчей (например, первый патч и второй патч). Более того, предупреждается появление больших спектральных разрывов во втором патче, которые могли бы возникнуть в случае введения в схему другого фазового вокодера для генерации второго патча. Таким образом, концепция изобретения способствует нахождению рационального компромисса между вычислительной сложностью и акустическим качеством.
Более того, следует отметить, что ряд реализаций позволяет на базе величин спектрального представления 132 первого патча генерировать дополнительные патчи. В частности, в развитие концепции изобретения предусматривается опция генерирования параметров спектрального представления третьего патча на базе показателей спектрального представления 132 первого патча с использованием еще одного блок копирования значений, что подробнее будет обсуждаться в контексте фиг.3.
Конструктивные решения, рассмотренные в фиг 1 и 2 (как и другие версии осуществления), открыты для внесения модификаций по широкому кругу аспектов. Допустим, первый патч будет рассчитан с использованием фазового вокодера, тогда второй, третий и четвертый патчи могут быть сгенерированы путем повышающего копирования спектральных характеристик. Или же, первый и второй патчи могут быть вычислены с использованием фазовых вокодеров, а третий и четвертый патчи могут быть выведены повышающим копированием параметров спектра. Несомненно, могут быть применены разнообразные комбинации рабочих операций фазовых вокодеров и процедур повышающего копирования.
Более того, первый патч может быть получен повышающим копированием (с помощью блока копирования значений) спектральных характеристик представления входного сигнала, а второй патч может быть сгенерирован фазовым вокодером (на основе скопированных величин первого патча, сформированного блоком копирования значений.
2. Конструктивное решение в соответствии с фиг.3
Далее будет рассмотрена фиг.3, где размещена детализированная принципиальная блочная схема аудиодекодера 300, включающего в себя устройство для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала.
2.1. Аудиодекодер - Обзор
Аудиодекодер 300 предназначен для приема потока данных 310 и синтезирования на его базе звукового сигнала 312. Аудиодекодер 300 включает в себя корневой декодер 320, синтезирующий на основе потока данных 310, например, импульсно-кодово-модулированные данные (“данные ИКМ”) 322. Корневой декодер 320 может представлять собой, например, аудиодекодер согласно описанию международного стандарта ISO/IEC 14496-3: 2005(е), part 3: audio, subpart 4: general audio coding (GA)-AAC, Twin VQ, BSAC [ISO/IEC 14496-3: 2005 (e), часть 3: аудио, подчасть 4: общее аудиокодирование (GA)-ААС, Twin VQ, BSAC]. Например, корневым декодером 320 может быть так называемый декодер стандарта ААС (усовершенствованный метод кодирования звука), описанный в указанном стандарте и знакомый специалистам в данной области. Таким образом, импульсно-кодово-модулированные аудиоданные 322 могут быть синтезированы корневым декодером 220 из потока данных 310. Например, импульсно-кодово-модулированные аудиоданные 322 могут содержать информацию о длине фрейма в 1024 отсчета.
Кроме того, в функции аудиодекодера 300 входит расширение диапазона частот (устройство расширения полосы частот) 330, которое предназначено для приема импульсно-кодово-модулированных аудиоданных 322 (например, о длине фрейма в 1024 отсчета) и синтезирования на их базе выходного сигнала 312. Расширение диапазона частот (устройство расширения полосы частот) 330 включает в себя прием из потока данных 310 управляющей информации 332. В расширение диапазона частот 330 входит подготовка патчированных данных КЗФ (устройство подготовки патчированных данных КЗФ) 340, которая состоит в приеме импульсно-кодово-модулированных аудиоданных 322 и формировании на их базе патчированных данных КЗФ 342. В расширение диапазона частот 330 также входит форматирование огибающей (форматер огибающей) 344, которое состоит в приеме патчированных данных КЗФ 342 и управляющих данных форматирования огибающей 346 и в обеспечении на их основе патчированных данных КЗФ с форматированной огибающей 348. Расширение диапазона частот 330 также включает в себя КЗФ-синтез (КЗФ-синтезатор) 350, который состоит в приеме патчированных данных КЗФ с форматированной огибающей 348 и синтезировании на их базе с помощью КЗФ синтеза выходного сигнала 312.
2.2. Подготовка патчированных данных КЗФ 340
2.2.1. Подготовка патчированных данных КЗФ - Обзор
При подготовке патчированных данных КЗФ 340 (при аппаратной реализации может выполняться устройством подготовки патчированных данных КЗФ 340) предусмотрена коммутация между двумя режимами, при этом в первом режиме осуществляется патчирование при репликации спектральных полос (SBR), а во втором режиме осуществляется патчирование при гармоническом расширении полосы частот (НВЕ). Например, импульсно-кодово-модулированные аудиоданные 322 могут подвергнуться задержке с помощью контура задержки 360 для формирования импульсно-кодово-модулированных аудиоданных с задержкой 362, а задержанные импульсно-кодово-модулированные аудиоданные 362 могут быть преобразованы в область КЗФ с помощью 32-полосного анализирующего КЗФ 364. В результате 32-полосный КЗФ-анализатор 364 может, например, переслать задержанные импульсно-кодово-модулированные аудиоданные 362 в 32-полосном представлении в области КЗФ (то есть в спектральной области) 365 на SBR-патчер 366 и НВЕ-патчер 368.
Патчер репликации спектральных полос 366 может, например, выполнять патчирование при репликации спектральных полос, что описано, например, в параграфе 4.6.18 “SBR tool” (“Инструментарий SBR”) международного стандарта ISO/IEC 14496-3: 2005(е), часть 3, подраздел 4. Соответственно, патчер репликации спектральных полос 366 может обеспечить 64-полосное представление в области КЗФ 370.
Как вариант или дополнительно, патчер гармонического расширения диапазона частот 368 может обеспечить 64-полосное представление в области КЗФ 372, что является представлением с расширенным диапазоном частот аудиоданных с ИКМ 322. Переключатель 374, управляемый служебными командами расширения диапазона частот 332, выделенными из потока данных 310, используется для выбора или патчирования репликации спектральных полос 366 или патчирования гармонического расширения диапазона частот 368 в зависимости от вида генерируемых патчированных данных КЗФ 342 (которые в зависимости от положения переключателя 374 могут являться 64-полосным представлением в области КЗФ 370 или 64-полосным представлением в области КЗФ 372).
2.2.2. Подготовка патчированных данных КЗФ - Гармоническое расширение диапазона рабочих частот 368
Ниже, более подробно будет описано (по крайней мере, частично) патчирование при гармоническом расширении диапазона 368. Патчирование при гармоническом расширении диапазона 368 представляет собой прохождение сигнала по тракту, в котором импульсно-кодово-модулированные аудиоданные 322 или их предобработанная версия преобразуются в спектральную область (например, в коэффициенты быстрого преобразования Фурье или КЗФ), в котором в спектральной области выполняется гармоническое расширение диапазона частот, и в котором полученное спектральное представление сигнала с расширенным диапазоном частот или, его описание, используется для патчирования гармонического расширения диапазона частот.
В конструктивной интерпретации на фиг.3 аудиоданные, прошедшие импульсно-кодовую модуляцию 322, субдискретизируются субдискретизатором 380, допустим, с коэффициентом 2, образуя на выходе гармонически дискретизированные импульсно-кодово-модулированные аудиоданные 381. Субдискретизированные импульсно-кодово-модулированные аудиоданные 381 затем взвешиваются оконным преобразователем 382, длина окна которого может составлять, например 512 отсчетов. Следует обратить внимание на то, что на последующих шагах преобразования окно смещается, предположим, на 64 отсчета субдискретизированных импульсно-кодово-модулированных аудиоданных 381, благодаря чему достигается относительно большое перекрывание оконно-взвешенных участков 383 субдискретизированных импульсно-кодово-модулированных аудиоданных.
Кроме того, аудиодекодер 300 включает в себя детектор нестационарности 384, предназначенный для обнаружения нестационарных состояний внутри импульсно-кодово-модулированных аудиоданных 322. Детектор нестационарности 384 способен распознавать нестационарные режимы как непосредственно в структуре аудиоданных с ИКМ 322, так и опираясь на служебную информацию, содержащуюся в массиве данных 310.
Взвешенные фрагменты 383 субдискретизированных аудиоданных с ИКМ 381 могут избирательно пройти обработку с задействованием первого контура преобразования 386 или второго контура преобразования 388. Первый контур 386 может быть активирован для обработки стационарного взвешенного сегмента 383 субдискретизированных аудиоданных с ИКМ (в котором детектор нестационарности 384 отрицает наличие нестационарного состояния), в то время как второй контур 388 может быть активирован для обработки нестационарного взвешенного компонента 383 субдискретизированных аудиоданных с ИКМ (где детектор нестационарности 384 идентифицировал наличие нестационарного состояния).
Первый контур 386 принимает стационарный взвешенный фрагмент 383 и на его основе формирует представление с расширенным диапазоном частот 387, 434 взвешенного фрагмента 383. Аналогичным образом второй контур 388 принимает нестационарный взвешенный фрагмент 383 субдискретизированных аудиоданных с ИКМ 381 и на его основе формирует представление с расширенным диапазоном частот 389 (нестационарного) взвешенного фрагмента 383. Как уже говорилось выше, детектор нестационарности 384 тестирует текущий взвешенный сегмент 383 на стационарность или нестационарность, чтобы направить данный оконный сегмент 383 на обработку в первый контур 386 или во второй контур 388. При этом разные сегменты после оконного взвешивания 383, могут проходить обработку по разным ветвям контура 386, где происходит значительное временное наложение последовательных представлений с расширенным диапазоном частот 387, 389 последовательных оконно-взвешенных фрагментов 383 (поскольку имеется существенное перекрывание по времени следующих друг за другом взвешенных фрагментов 383).
Далее, в процедуре гармонического расширения диапазона частот 368 применено устройство сложения с наложением 390, которое предназначено для наложения и сложении разных представлений с расширенным диапазоном частот 387, 389, относящихся к разным (последовательным во времени) взвешенным сегментам 383. Приращение может быть задано, скажем, в 256 отсчетов. Так формируется суммированный с наложением сигнал.
Кроме того, в процесс гармонического расширения диапазона частот 368 введен 64-полосный анализирующий КЗФ 394, который выполняет функцию приема суммированного с наложением сигнала 392 и преобразования его в 64-полосный сигнал области КЗФ 396. 64-полосный сигнал в области КЗФ 396 может отображать более широкую полосу частот, чем 32-полосный сигнал в области КЗФ 365, генерируемый 32-полосным КЗФ-анализатором 364.
Гармоническое расширение диапазона рабочих частот 368 достигается также включением в схему комбинатора 398, предназначенного для приема и совмещения двух сигналов - 32-полосного сигнала в КЗФ-области, поступающего от 32-полосного КЗФ-анализатора 364, и 64-полосного сигнала в КЗФ-области 396. Так, компоненты низкочастотного диапазона (или диапазона основной частоты) 64-полосного сигнала в области КЗФ 396 могут быть замещены или объединены с 32-полосным сигналом в области КЗФ 365, сгенерированным 32-полосным КЗФ-анализатором 364, таким образом, что, например, 32 низкочастотные компоненты (или полосы основных частот) 64-полосного сигнала в области КЗФ 372 будут определяться выходным сигналом 32-полосного КЗФ-анализатора 364, а 32 высокочастотные компоненты 64-полосного сигнала в области КЗФ 372 будут определяться 32 составляющими более высоких частот 64-полосного сигнала в области КЗФ 396.
Конечно, количество составляющих сигнала в области КЗФ может варьироваться в зависимости от конкретных требований. Естественно, координата частотного перехода между диапазоном основных частот (также обозначенных как диапазон более низких частот) и полосой расширения рабочего диапазона (также обозначенной как диапазон более высоких частот) может зависеть от частоты разделения, или, что равносильно, от ширины полосы звукового сигнала, описанного данными импульсно-кодовой модуляции 322.
Ниже более подробно описан первый контур преобразования 386. Первый контур 386 включает в себя преобразователь из области времени в частотную область 400, выполненный, например, в виде средства быстрого преобразование Фурье, генерирующего 512 коэффициенты быстрого преобразования Фурье на базе взвешенного сегмента 383 из 512 временных отсчетов субдискретизированных импульсно-кодово-модулированных аудиоданных 381. Соответственно, отсчеты быстрого преобразования Фурье нумеруются последовательными целочисленными индексами шага по частоте k в диапазоне между 1 и N=512.
Наряду с этим, первый контур 386 имеет в своем составе вычислитель значений амплитуды 402, который выводит показатели величины амплитуды αk из коэффициентов быстрого преобразования Фурье. Кроме того, первый контур 386 содержит вычислитель фазовых значений 404, предназначенный для выведения фазовых характеристик φk из коэффициентов быстрого преобразования Фурье.
Также, первый контур 386 включает в себя фазовый вокодер 406, который принимает значения амплитуды αk и фазы φk как описание входного сигнала и который имеет и может выполнять функции фазового вокодера 130, рассмотренные выше. Соответственно, фазовый вокодер 406 может выводить значения β2k спектрального представления первого патча в диапазоне между βξ и β2ξ. Значения β2k обозначены как элемент 408, они могут быть равными величинам спектрального представления 132 первого патча.
Далее, первый контур 386 включает в себя блок копирования значений 410, который может реализовывать функциональные возможности блока копирования значений 140 и который может принимать в качестве входных данных значения β2k (скажем, в диапазоне между βξ и β2ξ). Первый блок копирования значений 410 выводит значения βk в диапазоне между β2ξ и β3ξ, обозначенные элементом 412, которые могут быть равными значениям β2ξ to β3ξ спектрального представления 142 второго патча. Дополнительно (как опция), в первый контур 386 может быть введен второй блок копирования значений 414, предназначенный для приема значений βξ и β2ξ (также обозначенных элементом 408), сгенерированных фазовым вокодером 406, и выведения из них характеристик спектра β3ξ - β4ξ на основе операции копирования (результатом чего является нелинейная частотная манипуляция спектра, описанная значениями βξ-β2ξ (408)). Соответствующим образом, второй блок копирования значений 414 выводит параметры спектра β3ξ - β4ξ представления в спектральной области третьего патча, которые также обозначены элементом 416.
Первый контур 386 может быть дополнен вспомогательным интерполятором 420, предназначенным для приема параметров 412, 416 спектральных представлений второго патча и третьего патча (а также, произвольно, параметров 408 спектрального представления первого патча) и для интерполирования значений 422 спектрального представления второго и третьего патчей (и, произвольно, первого патча).
Наряду с этим, первый контур 386 может быть расширен за счет блока добавления нулей 424, который принимает интерполированные значения 422 (или, наоборот, исходные значения 412, 416) спектральных представлений второго и третьего патчей (а также, произвольно, первого патча) и на их основе генерирует дополненную нулями версию параметров спектрального представления, при этом нули добавляются для адаптации к формату преобразователя из спектральной во временную область 428.
Преобразователь из области спектра в область времени 428 может быть выполнен в виде, например, устройства обратного быстрого преобразования Фурье. Например, устройство обратного быстрого преобразования Фурье 428 может принимать набор из 2048 (возможно, интерполированных дополненных нулями) спектральных величин и на их базе формировать представление во временной области 430 сегмент сигнала с расширенной полосой частот. Первый контур 386 оснащен также оконным преобразователем синтеза 432, в функции которого входит прием временного представления 430 сегмента сигнала с расширенной полосой частот и выполнение синтезирующего оконного взвешивания для получения взвешенного окном синтеза представления во временной области сегмента сигнала с расширенной полосой частот 430.
Aудиодекодер 300 включает в себя также второй контур преобразования 388, набор функций которого схож с технологической картой первого контура 386. Вместе с тем, второй контур 388 включает в себя, кроме прочего, блок добавления нулей во временной области 438, который принимает оконно-взвешенную нестационарную составляющую 383 субдискретизированных импульсно-кодово-модулированных аудиоданных 381 и генерирует на ее основе дополненную нулями версию 439 таким образом, что в начало дополненного нулями фрагмента 439 и в конец дополненного нулями фрагмента 439 добавлены нули, и таким образом, что нестационарное состояние локализуется в средней части дополненного нулями фрагмента 439 (между заполненными нулями начальными отсчетами и заполненными нулями конечными отсчетами).
Наряду с этим, второй контур 388 содержит преобразователь из временной области в спектральную область 440, допустим, устройство быстрого преобразования Фурье или КЗФ (банк квадратурных зеркальных фильтров). Как правило, преобразователь из временной в спектральную область 440 имеет большее число элементов разрешения по частоте (например, отсчетов быстрого преобразования Фурье или полос КЗФ), чем преобразователь из временной в спектральную область 400 первого контура. Так, устройство быстрого преобразования Фурье 440 может выводить на основе дополненного нолями фрагмента 439 1024 коэффициента БПФ из 1024 временных отсчетов.
Второй контур 388 также включает в себя определитель величин амплитуды 442 и определитель фазовых характеристик 444, которые имеют такие же функциональные возможности, что и соответствующие схемотехнические элементы 402, 404 первого контура 386 за исключением увеличенной размерности N=1024. Второй контур 388 тоже содержит фазовый вокодер 446, первый блок копирования значений 450, второй блок копирования значений 454, опцию интерполятора 460 и опцию блока добавления нулей 464, в которых могут быть предусмотрены технические возможности, аналогичные соответствующим средствам первого контура 386, кроме увеличенного разрешения. В частности индекс ξ полосы перехода во втором контуре 388 может быть выше, чем в первом контуре 386, предположим, на коэффициент 2.
Следовательно, представление в спектральной области, содержащее, допустим, 4096 коэффициентов быстрого преобразования Фурье, может быть передано на прибор обратного быстрого преобразования Фурье 468, который, в свою очередь, сформирует сигнал во временной области, разбитый на 4096 дискретов.
Второй контур 388 также имеет в своем составе синтезирующий оконный преобразователь 472, который формирует оконно-взвешенную модификацию представления во временной области 470 сегмента сигнала с расширенной частотной полосой.
Кроме названного второй контур 388 включает в себя блок удаления нулей, формирующий сокращенное, взвешенное представление во временной области 478 сегмента сигнала с расширенной полосой частот, причем такое представление во временной области 478 после сокращения и оконного взвешивания может, например, содержать 2048 отсчетов.
Таким образом, представление во временной области 387 используется для стационарных составляющих (например, аудиофреймов) импульсно-кодово-модулированных аудиоданных 322, а представление во временной области 478 используется для нестационарных составляющих импульсно-кодово-модулированных аудиоданных 322. Следовательно, нестационарные составляющие обрабатываются с более высоким спектральным разрешением во втором контуре преобразования 388, в то время как стационарные составляющие обрабатываются с более низким спектральным разрешением в первом контуре преобразования 386.
2.3. Форматирование огибающей 344
Ниже дан краткий обзор форматирования огибающей 344. Дополнительно дается ссылка на соответствующие замечаниям во вводной части, также относящиеся к концепции изобретения.
Патчированные данные КЗФ 342, полученные на основе 64-полосного сигнала в области КЗФ 396, проходят процедуру форматирования огибающей 344 с формированием представления сигнала 348, которое вводится в синтезирующий банк КЗФ 350. С помощью форматирования огибающей полосовые сигналы области КЗФ патчированных данных КЗФ 342 адаптируются для дальнейшего КЗФ-синтеза, проходя операции заполнения шумом, восстановления недостающих гармоник и/или обратного фильтрования. Сочетание и дозировка заполнения шумом, восстановления недостающих гармоник и обратного фильтрования могут, например, управляться служебной информацией 346, извлекаемой из потока данных 310. За более подробной информацией можно обратиться, например, к рассмотрению инструментария репликации спектральных полос (SBR) в параграфе 4.6.18 Международного стандарта ISC/IEC 14496-3:2005(е), часть 3, подраздел 4. Однако в зависимости от предъявляемых требований могут использоваться различные подходы к форматированию огибающей.
3. Обсуждение и сравнение разных подходов
Далее следуют краткое обсуждение и выводы по предлагаемому изобретением подходу.
Конструктивные решения в соответствии с настоящим изобретением, например, устройство 100 согласно фиг.1 и аудиодекодер 300 согласно фиг.3, являются или включают в себя новые алгоритмы патчирования при репликации спектральных полос (SBR). При разных характеристиках сигнала или при различных ограничениях, накладываемых требованиями программного или аппаратного обеспечения, могут применяться разные способы патчирования в спектральной области.
При стандартной репликации спектральных полос (SBR) патчирование всегда выполняется копированием в области КЗФ. Это может иногда приводить к акустическим артефактам, особенно, если синусоиды копируются вблизи друг друга на границе НЧ и генерируемой ВЧ составляющих. В силу этого, предложен новый алгоритм патчирования, который помогает избежать некоторых проблем при использовании фазового вокодера (см., например [13]). Этот алгоритм проиллюстрирован на фиг.5 как пример для сравнения.
Стандартная репликация спектральных полос (SBR) вызывает проблему возникновения слуховых артефактов. Методика использования фазового вокодера, предложенная в [13], усложнена, в особенности из-за необходимости расчета большого количества быстрых преобразований Фурье. Кроме того, спектр становится сильно разреженным на высокочастотных патчах (высокие коэффициенты растяжения), что может приводить к нежелательным слышимым артефактам.
В двух вариантах реализации удалось избежать большого количества быстрых преобразований Фурье благодаря перемещению процесса генерации патчей из временной области в частотную область. На фиг.6 приведен пример разложения сигнала в частотной области с помощью быстрого преобразования Фурье. Однако вместо разложения по Фурье применимы и другие время-частотные преобразования.
На фиг.3 продемонстрировано гибридное решение алгоритма на фиг.6 для патчирования SBR. Только первый патч здесь сгенерирован с помощью фазового вокодера (например, блок 406 первого контура 386 и блока 446 второго контура 388), в то время как более высокочастотный патч (например, второй патч и третий патч) создаются копированием первого патча (например, с использованием блоков копирования значений 410, 414 первого контура 386, и/или блоков копирования значений 450, 454 второго контура 388). Это дает менее разреженный спектр.
Ниже с краткими пояснениями дан алгоритм сопоставления двух аудиодекодеров, один из которых показан на фиг.6, а второй предлагается в изобретении и показан на фиг.3.
Алгоритм для сравнения, или контрольный алгоритм, осуществленный в виде аудиодекодера, показанного на фиг.6, включает в себя следующие шаги:
1. Субдискретизация сигнала (если не нарушен критерий Найквиста).
2. Сигнал проходит оконное взвешивание (предложены окна Ханна, но применимы и другие конфигурации) и разбивается на так называемые “гранулы” длиной N (как, например, сегменты сигнала 383, прошедшие оконное взвешивание). Окна сдвигаются по ходу сигнала на величину шага Н. Предлагается частота наложения N/H=8 раз.
3. Если гранула (например, взвешенный фрейм сигнала 383) содержит нестационарность на срезах, она дополняется (например, блоком добавления нулей 438) нолями, который приводит к избыточной дискретизации в частотной области.
4. Гранулы преобразуются в частотную область (например, с использованием преобразователи из временной в спектральную область 400 440).
5. Гранулы частотной области (в качестве опции) дополняются до желаемой выходной длины алгоритма патчирования.
6. Вычисляются амплитуда и фаза (например, с использованием средств 402, 404, 442, 444).
7. Содержимое элемента разрешения по частоте n копируется в позицию sn при коэффициенте растяжения s. Фаза умножается на коэффициент растяжения s. Это выполняется для всех коэффициентов растяжения s (только для патчируемых участков спектра), (а) ζ×(s-1)/s≤n≤ξ или (b) ζ/s≤n≤ξ; (b) дает более плотный спектр, чем (а) при наложении патчей. ξ обозначает самую высокую частоту НЧ сегмента, так называемую частоту перехода. В принципе, фаза корректируется по положению нового отсчета (например, частотного), что может быть достигнуто с помощью алгоритма, рассмотренного здесь, или любого соответствующего алгоритма.
8. Шаги разрешения по частоте, которые при копировании не заполнены данными, могут быть заполнены с применением функции интерполяции (например, с использованием интерполяторов 420 460).
9. Гранулы преобразуются обратно во временную область (например, с использованием средств обратного быстрого преобразования Фурье 428 468).
10. Гранулы временной области умножаются на окна синтеза (вновь предложены окна Ханна) (с использованием, например, синтезирующих оконных преобразователей 432 472).
11. Если на шаге 3 было выполнено добавление нолей, ноли удаляются (например, с использованием блока удаления нолей 476).
12. Сигнал или фрейм с расширенным диапазоном частот (например, сигнал 392), формируются с помощью операции сложения наложением (OLA) (например, с использованием устройства сложения с наложением 390).
Вместе с тем, в альтернативных реализациях порядок выполнения отдельных шагов может быть изменен, а некоторые операции могут быть объединены в один шаг.
Алгоритм предлагаемого изобретения, реализованный в виде аудиодекодера, представленного на фиг.3, включает в себя следующие шаги:
1. Субдискретизация сигнала (если не нарушен критерий Найквиста).
2. Сигнал проходит оконное взвешивание (предложены окна Ханна, но применимы и другие конфигурации) и разбивается на так называемые „гранулы" длиной N (как, например, сегменты сигнала 383, прошедшие оконное взвешивание). Окна сдвигаются по ходу сигнала на величину шага Н. Предлагается частота наложения N/H=8 раз.
3. Если гранула (например, взвешенный фрейм сигнала 383) содержит нестационарность на срезах, она дополняется (например, блоком добавления нулей 438) нолями, который приводит к избыточной дискретизации в частотной области.
4. Гранулы преобразуются в частотную область (например, с использованием преобразователи из временной в спектральную область 400 440).
5. Гранулы частотной области (в качестве опции) дополняются до желаемой выходной длины алгоритма патчирования.
6. Вычисляются амплитуда и фаза (например, с использованием средств 402, 404, 442, 444).
7. а) Содержимое элемента разрешения по частоте n копируется в позицию 2п. Фаза умножается на 2. (а) ζ×(s-1)/s≤n≤ξ, или (b) ζ/s≤n≤ξ (см. выше).
7. б) Содержимое элемента разрешения по частоте 2n копируется в позици sn для всех коэффициентов растяжения s>2 в диапазонах 1≤n≤ξ.
8. Шаги разрешения по частоте, которые при копировании не заполнены данными, могут быть заполнены с применением функции интерполяции (например, с использованием интерполяторов 420 460).
9. Гранулы преобразуются обратно во временную область (например, с использованием средств обратного быстрого преобразования Фурье 428 468).
10. Гранулы временной области умножаются на окна синтеза (вновь предложены окна Ханна) (с использованием, например, синтезирующих оконных преобразователей 432 472).
11. Если на шаге 3 было выполнено добавление нолей, ноли удаляются (например, с использованием блока удаления нолей 476).
12. Сигнал или фрейм с расширенным диапазоном частот (например, сигнал 392), формируются с помощью операции сложения наложением (OLA) (например, с использованием устройства сложения с наложением 390).
Вместе с тем, в альтернативных реализациях порядок выполнения отдельных шагов может быть изменен, а некоторые операции могут быть объединены в один шаг.
Таким образом, все шаги идентичны как в контрольном алгоритме (реализованном в аудиодекодере, показанном на фиг.6), так и в алгоритме предлагаемого изобретения (осуществленном в виде аудиодекодера, представленного на фиг.3), за исключением шага 7, который был заменен следующими операциями:
7. а) Содержимое элемента разрешения по частоте n копируется в позицию 2n. Фаза умножается на 2. (а) ζ×(s-1)/s≤n≤ξ, или (b) ζ/s≤n≤ξ (см. выше).
7. б) Содержимое элемента разрешения по частоте 2n копируется в позиции sn для всех коэффициентов растяжения s>2 в диапазонах 1≤n≤ξ.
Итак, конструктивные решения согласно фиг.1, 2, 3 и 4 (а также - аудиодекодер на фиг.6), во-первых, резко снижают сложность по сравнению с упомянутыми традиционными решениями. Во-вторых, они предусматривают возможность выполнения спектральных преобразований, отличных как от обычной репликации спектральных полос (SBR), так и от представленных на фиг.5 (см., например, [13]).
Например, качество обработки речевых сигналов выигрывает, если алгоритм выполняется устройством и аудиодекодером согласно способу фиг.1, 2, 3 и 4, поскольку структура последовательности импульсов, характерная для голосовых сигналов, поддерживается здесь лучше, чем при подходе [13].
Наилучшей сферой применения конструктивных решений по настоящему изобретению являются аудиодекодеры, которые часто требуют портативного исполнения, а следовательно, и питания от миниатюрных источников.
4. Способ согласно фиг.4.
Далее будет рассмотрена блок-схема на фиг.4, отображающая алгоритм 400 способа генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Способ 400 включает в себя шаг 410, на котором, применяя фазовое вокодирование, генерируют значения спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала. Способ 400 также включает в себя шаг 420, на котором сгенерированные фазовым вокодированием значения спектрального представления первого патча копируют в виде набора значений для формирования набора значений спектрального представления второго патча, причем второй патч связан с более высокими частотами, чем первый патч. Способ 400 также включает в себя шаг 430, на котором генерируют сигнал с расширенным диапазоном частот, используя значения спектрального представления первого патча и значений спектрального представления второго патча.
Способ 400 может быть дополнен любыми аппаратными средствами и функциональными возможностями, рассмотренными здесь в отношении устройства, являющегося предметом изобретения.
5. Варианты осуществления
Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой. Некоторые или все шаги предлагаемого способа могут быть выполнены с использованием аппаратных средств, таких, например, как микропроцессор, программируемый компьютер или электронная схема. В некоторых случаях осуществления одна или больше ответственных операций, составляющих данный способ, могут быть выполнены таким устройством.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. В реализации могу быть применены такие цифровые носители информации, как гибкий диск, DVD, “Блю-рей”, CD, ПЗУ, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, содержащие электронно-считываемые управляющие сигналы, которые взаимодействуют (или совместимы) с программируемой компьютерной системой таким образом, что предлагаемый способ может быть осуществлен. Следовательно, цифровая среда хранения данных может быть читаемой компьютером.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно-считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.
Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями
6. Сравнительный пример на фиг.5
Далее будет кратко рассмотрен пример для сравнения на фиг.5. Функциональные возможности взятого для сравнения контрольного образца на фиг.5 однотипны с функциональными возможностями аудиодекодера на фиг.3 и не будут поясняться повторно. При этом, образец для сравнения на фиг.5 построен на задействовании трех фазовых вокодеров 590, 592, 594 или 596, 597, 598 на каждый контур. Как видно на фиг.5, каждый из фазовых вокодеров сопряжен с индивидуальным устройством обратного быстрого преобразования Фурье, оконным преобразователем синтеза, устройством сложения с наложением. Более того, в некоторых из вторичных контуров используется индивидуальная субдискретизация (коэффициент ↓) и индивидуальная задержка (z-samples). Следовательно, аппарат 500 согласно фиг.5 по своей вычислительной эффективности уступает устройству 300 на фиг.3. Тем не менее, в аппарат 500 внесены существенные усовершенствования по сравнению с некоторыми традиционными аудиодекодерами.
7. Сравнительный пример на фиг.6
На фиг.6 как образец для сравнения показан другой аудиодекодер 600. При сопоставлении фиг.6 с фиг.3 и 5 видно, что аудиодекодер 600 аналогичен аудиодекодерам 300, 500. Вместе с тем, аудиодекодер 600 также базируется на использовании множества обособленных фазовых вокодеров 690, 692, 694 или 696, 697, 698 в каждом контуре, что делает аппарат 600 в вычислительном плане более требовательным, чем устройство 300, и что способствует в некоторых случаях возникновению слышимых артефактов. Тем не менее, в аппарат 600 внесены существенные усовершенствования по сравнению с некоторыми традиционными аудиодекодерами.
8. Заключение
На основании обсуждения, изложенного выше, можно утверждать, что устройство 100 в соответствии с фиг.1, аудиодекодер 300 в соответствии с фиг.3 и способ 400 в соответствии с фиг.4 обеспечивают ряд преимуществ перед приведенными для сопоставления примерами, рассмотренными в краткой форме в контексте фиг.5 и 6.
Концепция изобретения имеет прикладное значение в широком спектре видов деятельности и может быть оптимизирована по широкому кругу направлений. В частности, приборы быстрого преобразования Фурье могут быть заменены банками КЗФ, а средства обратного быстрого преобразования Фурье могут быть замещены синтезирующими банками КЗФ.
Кроме того, в ряде конструктивных решений некоторые или все технологические операции могут быть объединены. Например, последовательность преобразований, включающая в себя синтез КЗФ с дальнейшим анализом КЗФ может быть рационализирована за счет исключения повторяющихся трансформаций.
Литература
[1] М.Dietz, L.Liljeryd, К.Kjörling and O.Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.
[2] S.Meltzer, R.Böhm and F.Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, May 2002.
[3] Т.Ziegler, A.Ehret, P.Ekstrand and М.Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, May 2002.
[4] International Standard ISO/IEC 14496-3: 2001/FPDAM 1, “Bandwidth Extension,” ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu lyengar et al.
[5] E.Larsen, R.М.Aarts, and М.Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[6] R.М.Aarts, E.Larsen, and O.Ouweltjes. A unified approach to low- and highfrequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.
[7] К.Käyhkö. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
[8] E.Larsen and R.М.Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[9] E.Larsen, R.М.Aarts, and М.Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[10] J.Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973.
[11] United States Patent Application 08/951, 029, Ohmori, et al. Audio band width extending system and method.
[12] United States Patent 6895375, Malah, D & Cox, R.V.: System for bandwidth extension of Narrow-band speech.
[13] Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs,” ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.
Изобретение относится к способам генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Техническим результатом является повышение акустического качества сигнала с расширенной полосой частот при сравнительно невысокой вычислительной сложности. Указанный результат достигается тем, что устройство для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала (110) включает фазовый вокодер (130), генерирующий значения (βζ…β2ζ) спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала; и блок копирования значений (140), предназначенный для копирования набора значений (βζ…β2ζ) спектрального представления первого патча, сгенерированных фазовым вокодером, с целью формирования набора значений (β2ζ…β3ζ) спектрального представления второго патча, причем второй патч связан с более высокими частотами, чем первый патч. Устройство выполнено с возможностью генерирования представления (120) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча. 6 н. и 11 з.п. ф-лы, 9 ил.
1. Устройство (100; 386) для генерирования представления (120; 426) сигнала с расширенным диапазоном частот на основе представления входного сигнала (110; 383), включающее в свою конструкцию фазовый вокодер (130; 406), генерирующий значения (βζ…β2ζ, 408) спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала; и блок копирования значений (140; 410, 416), предназначенный для копирования набора значений (βζ…β2ζ, 408) спектрального представления первого патча, сгенерированных фазовым вокодером, с целью формирования набора значений (β2ζ…β3ζ, 408) спектрального представления второго патча, причем второй патч связан с более высокими частотами, чем первый патч; при этом устройство выполнено с возможностью генерирования представления (120; 426) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
2. Устройство (100; 386) по п.1, в котором фазовый вокодер (130; 406) предназначен для копирования набора значений амплитуды (αζ/2…αζ), связанных с множеством определенных частотных поддиапазонов представления входного сигнала (110; 383), для генерирования набора значений амплитуды (αζ…α2ζ), связанных с соответствующими частотными поддиапазонами первого патча, причем пара определенного частотного поддиапазона представления входного сигнала и соответствующего частотного поддиапазона первого патча охватывает пару основной частоты и гармоники основной частоты; фазовый вокодер (130; 406) предназначен для умножения значений фазы (φζ/2…φζ), связанных с множеством определенных частотных поддиапазонов представления входного сигнала, на заданный коэффициент для формирования набора значений фазы (φζ…φ2ζ), связанных с соответствующими частотными поддиапазонами первого патча, и в котором блок копирования значений (140; 410) предназначен для копирования набора значений (βζ…β2ζ), связанных с множеством определенных частотных поддиапазонов первого патча, с целью формирования набора значений (β2ζ…β3ζ), связанных с соответствующими частотными поддиапазонами второго патча, при этом блок копирования значений выполнен с возможностью при копировании сохранять значения фазы без изменения.
3. Устройство (100; 386) по п.2, в котором блок копирования значений (140; 410) копирует значения таким образом, что между значениями (βζ…β2ζ) первого патча и соответствующими значениями (β2ζ…β3ζ) второго патча образуется общий спектральный сдвиг.
4. Устройство (100; 386) по п.1, в котором фазовый вокодер (130; 410) генерирует значения (βζ…β2ζ) спектрального представления (132; 408) первого патча таким образом, что значения спектрального представления первого патча описывают гармонически транспонированную вверх версию диапазона основной частоты представления входного сигнала (110; 383); и в котором блок копирования значений (140; 410) генерирует значения (β2ζ…β3ζ) спектрального представления (142; 412) второго патча таким образом, что значения спектрального представления второго патча представляют сдвинутый по частоте вариант аудиоконтента первого патча.
5. Устройство (100; 380, 382, 386) по п.1, предназначенное для приема входных аудиоданных (322), для выполнения субдискретизации (380) входных аудиоданных (322) с целью формирования субдискретизированных аудиоданных (381), для выполнения оконного взвешивания (382) субдискретизированных аудиоданных (381) с целью подготовки взвешенных входных данных (383), для преобразования (400) или трансформации взвешенных входных данных (383) в область спектра с целью формирования спектрального представления (401) входного сигнала (383), для вычисления (402, 404) значений амплитуды αk и значений фазы φk, описывающих элемент частотного разрешения с индексом k представления входного сигнала (383), для приложения (130; 406) множества значений амплитуды αk, описывающих элементы разрешения по частоте с индексом k представления входного сигнала (383), с целью получения значений амплитуды α2k, описывающих элементы разрешения по частоте с индексом sk первого патча, где s - коэффициент растяжения между 1,5 и 2,5, и для копирования и масштабирования (130; 406) фазовых значений φk, связанных с элементами частотного разрешения с индексом k представления входного сигнала (383), с целью получения скопированных и масштабированных фазовых значений φ2k=sφk, связанных с элементами частотного разрешения с индексом 2k первого патча, для копирования (140; 410) значений βk-iζ, связанных с элементами частотного разрешения с индексом k-iζ представления в спектральной области (132; 408) первого патча, вычисления значений βk спектрального представления (142; 412) второго патча, для преобразования (428) представления (426) сигнала с расширенным диапазоном частот во временную область с целью получения временного представления (430) и для приложения (432) к временному представлению окна синтеза.
6. Устройство (100; 386) по п.1, в котором преобразователь из временной области в спектральную область (400) предназначен для формирования представления входного сигнала (401) из значений спектрального представления входного аудиосигнала (322) или предобработанного варианта (383) входного аудиосигнала (322); и в котором преобразователь из области спектра во область времени (428) предназначен для формирования представления во временной области (430) сигнала с расширенным диапазоном частот с использованием значений (βζ…β2ζ, 408) спектрального представления первого патча и значений (β2ζ…β3ζ, 412) спектрального представления второго патча; при этом преобразователь из области спектра в область времени (428) характеризуется тем, что число (N=2048) различных спектральных величин (426), принимаемых им, больше числа (N=512) различных спектральных величин (401), генерируемых преобразователем из временной области в спектральную область (400), таким образом, что преобразователь из области спектра в область времени (428) обрабатывает большее число элементов частотного разрешения, чем преобразователь из области времени в область спектра (400).
7. Устройство (100; 382, 386) по п.1, в котором оконный анализатор (382) предназначен для выполнения оконного взвешивания входного аудиосигнала временной области (322) и для генерирования оконно-взвешенного варианта (383) входного аудиосигнала временной области, который лежит в основе формирования спектрального представления входного сигнала (401); и в котором оконный синтезатор (432) предназначен для выполнения оконного взвешивания фрагмента временного представления (430) сигнала с расширенным диапазоном частот с целью получения оконно-взвешенного фрагмента (434) временного представления сигнала с расширенным диапазоном частот.
8. Устройство (100; 382, 386) по п.7, предназначенное для обработки множества перекрывающихся со сдвигом по времени фрагментов входного аудиосигнала во временной области (322) с получением множества перекрывающихся со сдвигом по времени оконно-взвешенных фрагментов (434) представления во временной области сигнала с расширенным диапазоном частот, при этом временной сдвиг (Inc=64) между смежными смещенными по времени фрагментами входного аудиосигнала во временной области (322) - меньше или равен одной четвертой длины окна (512) оконного анализатора (382).
9. Устройство (100; 382, 386) по п.1, содержащее детектор нестационарности (384), предназначенный для обеспечения информации о наличии во входном сигнале (322) нестационарности; и включающее в свою схему первый контур преобразования (386), предусмотренный для формирования представления (434) сегмента сигнала с расширенной полосой частот на основе стационарной составляющей представления входного сигнала (383), и второй контур преобразования (388), предусмотренный для генерирования представления (478) сегмента сигнала с расширенной полосой частот на основе нестационарной составляющей представления входного сигнала (383); причем второй контур преобразования (388) строит спектральное представление (441) входного сигнала с более высоким спектральным разрешением (N=1024), чем спектральное представление (401) входного сигнала, сформированное первым контуром преобразования (386).
10. Устройство (100; 382, 386) по п.9, в котором второй контур преобразования (388) содержит блок добавления нулей во временной области (438), предназначенный для дополнения нулями содержащего нестационарность сегмента (383) входного сигнала с целью получения расширенного во времени содержащего нестационарность сегмента (439) входного сигнала; в составе которого первый контур преобразования (386) содержит преобразователь из области времени в частотную область (400), генерирующий первый ряд (N=512) значений области спектра (401), связанных со стационарной составляющей (383) входного сигнала; и в котором второй контур преобразования (388) содержит преобразователь из области времени в частотную область (440), генерирующий второй ряд (N=1024) значений области спектра (441), связанных с расширенным во времени содержащим нестационарность сегментом (439) входного сигнала, при этом второй ряд (N=1024) значений области спектра превышает, по меньшей мере, на коэффициент 1,5 первый ряд (N=512) значений области спектра.
11. Устройство (100; 382, 386) по п.10, в котором второй контур преобразования содержит блок удаления нулей (476), удаляющий множество нулевых значений из сегмента сигнала с расширенной полосой частот (474), сформированного на основе расширенного во времени содержащего нестационарность сегмента (439) входного сигнала.
12. Устройство (100; 380, 382, 386) по п.1, включающее в свой состав субдискретизатор (380), предусмотренный для выполнения гармонической дискретизации представления входного сигнала во временной области (322).
13. Аудиодекодер (300), включающий в себя устройство (100; 386) по одному из пп.1-12.
14. Способ (400) генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, включающий в себя: использование фазового вокодирования для получения (410) значений спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала; копирование (420) набора значений спектрального представления первого патча, полученных фазовым вокодированием, с целью вычисления набора значений спектрального представления второго патча, связанного с более высокими частотами, чем первый патч; и генерирование (430) представления сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
15. Устройство (100; 386) для генерирования представления (120; 426) сигнала с расширенным диапазоном частот на основе представления входного сигнала (110; 383), включающее в свою конструкцию: блок копирования значений, предназначенный для копирования набора значений (β1…βζ) представления входного сигнала для расчета набора значений (βζ…β2ζ) спектрального представления первого патча, при этом первый патч связан с более высокими частотами, чем представление входного сигнала; фазовый вокодер (130; 406), предназначенный для генерирования значений (β2ζ…β3ζ) спектрального представления второго патча сигнала с расширенным диапазоном частот на основе значений (β4/3ζ…β2ζ) спектрального представления первого патча, при этом второй патч связан с более высокими частотами, чем первый патч; и при этом устройство выполнено с возможностью генерирования представления (120; 426) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
16. Способ (400) генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, включающий в себя: копирование значений представления входного сигнала для расчета значений спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала, при этом первый патч связан с более высокими частотами, чем представление входного сигнала; использование фазового вокодирования для генерации набора значений спектрального представления второго патча на основе набора значений спектрального представления первого патча, при этом значения спектрального представления первого патча получаются копированием, причем второй патч связан с более высокими частотами, чем первый патч; и генерирование (430) представления сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
17. Носитель с программным кодом для осуществления способа по п.14 или 16 при условии использования на компьютере.
DIETZ MARTIN, Spectral band replication, a novel approach in audio coding, AES Convention paper 5553, 10.05.2002-13.05.2002, c.1-8 | |||
Дорожная спиртовая кухня | 1918 |
|
SU98A1 |
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
EP 1970900 A1, 17.09.2008 | |||
EP 1367566 A2, 03.12.2003 | |||
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
RU 2007116941 A, 20.11.2008. |
Авторы
Даты
2012-05-27—Публикация
2010-04-01—Подача