Заявляемое изобретение относится к кодированию акустических сигналов, в частности к методам высокочастотной реконструкции (восстановления высоких частот), включая использование устройства транспонирования (транспозитора) в частотной области, например устройства гармонической транспозиции (гармонического транспозитора).
Среди современных разработок в этой области известно несколько способов высокочастотного восстановления посредством гармонической транспозиции, или растягивания временной шкалы, или тому подобного. Один из подходов основан на использовании фазовых вокодеров. Они работают по принципу частотного разложения с достаточно высоким частотным разрешением и модулирования сигнала в частотной области перед его синтезом. Растяжение временной шкалы, или транспозиция (транспонирование), зависит от соотношения окна анализа, шага окна анализа, окна синтеза, шага окна синтеза, а также от фазового согласования разложенного сигнала.
Одна из неизбежных проблем таких подходов состоит в противоречии между разрешающей способностью по частоте, необходимой для высококачественной транспозиции стационарных звуков, и переходной характеристикой системы для нестационарных звуков.
Один из алгоритмов с использованием фазовых вокодеров, как описано, например, в: М. Puckette. Phase-locked Vocoder [„Синфазный вокодер"]. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics, Mohonk, 1995., Robel, A.: Transient detection and preservation in the phase vocoder [„Распознавание и сохранение нестационарности в фазовом вокодере"], citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M.: „Improved phase vocoder timescale modification of audio" [„Модификация шкалы времени аудиосигнала в усовершенствованном фазовом вокодере"], IEEE Trans. Speech and Audio Processing, vol. 7, no. 3, pp.323-332 и патенте США US 6549884, Laroche, J. & Dolson, M.: Phase-vocoder pitch-shifting for the patch generation [Смещение основного тона для генерации патчей в фазовом вокодере], был опубликован в Frederik Nagel, Sascha Disch, "A harmonic bandwidth extension method for audio codecs" [„Метод гармонического расширения полосы пропускания для аудиокодеков"], ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009. Однако применение этой методики, названной „гармоническое расширение полосы пропускания" (НВЕ), часто ведет к деградации аудиосигнала из-за нестационарных процессов в нем, как описано в Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs" [„Метод расширения полосы пропускания на базе (разового вокодера с новой формой управления нестационарным состоянием для аудиокодеков"], 126th AES Convention, Munich, Germany, May 2009, поскольку стандартный алгоритм фазового вокодера не может гарантировать сохранение вертикальной когерентности подполос и, более того, пересчет фаз дискретного преобразования Фурье (ДПФ) выполняют циклически по изолированным временным блокам преобразования.
Особенно известны два вида артефактов, наблюдаемых при поблочной обработке фазовым вокодером. В частности, это - дисперсия волнового сигнала и взаимное перекрывание (алиасинг) временных отсчетов из-за эффектов циклической временной свертки сигнала вследствие приложения вновь рассчитанных фаз.
Другими словами, в результате фазокомпенсации спектральных характеристик аудиосигнала с помощью алгоритма расширения полосы пропускания BWE нестационарность, присутствующая в блоке аудиосигнала, может опоясать блок, то есть циклически возвращаться в блок при свертке. Это приводит к наложению временных отсчетов и в результате - к ухудшению качества аудиосигнала.
Из этого следует, что нестационарные составляющие сигнала требуют применения специальных способов обработки. Однако, поскольку в схеме кодека алгоритм BWE реализуют на стороне декодера, серьезной помехой становится вычислительная сложность. Следовательно, борьба с указанной выше деградацией аудиосигнала преимущественно не должна осуществляться ценой значительного роста вычислительной трудоемкости.
Техническая задача данного изобретения - представление концепции эффективной генерации качественного высокочастотного аудиосигнала.
Это достигается за счет применения генератора высокочастотного аудиосигнала по пункту 1 формулы изобретения, способа генерирования высокочастотного аудиосигнала по пункту 14 или компьютерной программы по пункту 15.
В основе представленного изобретения лежит раздельная обработка нестационарных и стационарных составляющих аудиосигнала. Для этого в схему генератора высокочастотного аудиосигнала введен анализатор входного сигнала, считывающий информацию о нестационарном состоянии, которая содержится в первой составляющей входного сигнала, при этом вторая, более поздняя, составляющая входного сигнала не содержит информацию о нестационарности. Анализатор характеризуется способностью разлагать аудиосигнал в текущем времени, идентифицируя нестационарную составляющую по распределению энергии или по изменению энергии в сигнале. Для этого необходимо некоторое упреждение, например, в анализе выходного сигнала корневого кодера, чтобы на базе этого сигнала по результатам его анализа мог быть генерирован высокочастотный аудиосигнал. Альтернативой служит распознавание нестационарного состояния на стороне кодера и присоединение определенной сопутствующей информации, скажем бита в битовом потоке, к дискрету составляющей сигнала, где содержится признак нестабильности. Затем анализатор извлекает этот информационный бит нестационарности из потока битов для определения стационарности или нестационарности конкретно взятой составляющей данного входного аудиосигнала. Кроме того, в схему генератора высокочастотного аудиосигнала введен спектральный преобразователь входного сигнала во входное спектральное представление. Воссоздание верхних частот осуществляют в области банка фильтров, то есть после спектрального преобразования, с помощью спектрального преобразователя. С этой целью спектральный процессор обрабатывает входное спектральное представление, генерируя модифицированное спектральное представление, содержащее более высокие значения частотных характеристик, чем входное спектральное представление. Обратное преобразование во временную область выполняют с помощью последовательно подключенного временного преобразователя модифицированного спектрального представления во временное представление. В соответствии с изобретением спектральный преобразователь и/или временной преобразователь характеризуются возможностью выполнять избыточную (с повышенной частотой) частотную дискретизацию первой составляющей входного сигнала, где содержатся данные переходного состояния (нестационарности), и не выполнять избыточную частотную дискретизацию второй составляющей входного сигнала, где не содержатся данные переходного состояния.
Преимущество данного изобретения - в упрощении с одновременным сохранением хорошей переходной характеристики при выполнении, например, гармонических преобразований с помощью комбинированных банков фильтров. Таким образом заявлено изобретение устройства и способа адаптивной избыточной частотной дискретизации с использованием комбинированных транспозиторов в составе банка фильтров, управляемой детектором нестационарности согласно предпочтительному варианту реализации.
В предпочтительном варианте реализации спектральный процессор выполняет гармоническое транспонирование из базовой полосы частот в первую полосу высоких частот и, желательно, в дополнительные три или четыре полосы высоких частот. Одно из конструктивных решений предусматривает для каждой полосы высоких частот отдельный синтезирующий банк фильтров, выполняющий, например, обратное быстрое преобразование Фурье-ОБПФ. Другое более эффективное в вычислительном отношении техническое решение предусматривает одиночный банк фильтров синтеза, выполняющий, например, ОБПФ 1024. В обоих случаях избыточную дискретизацию в частотной области выполняют путем увеличения числа отсчетов в трансформанте на коэффициент избыточности дискретизации, предположим 1,5. Объем входных данных БПФ увеличивают, преимущественно, путем заполнения нулями, то есть за счет введения некоего количества нулей перед первым значением оконного (взвешенного) фрейма и введения некоторого количества нолей в конце окна фрейма. В ответ на сигнал управления БПФ объем БПФ возрастает за счет дискретизации с повышенной частотой, при этом рекомендуется заполнение нулями, причем для заполнения взвешенных фреймов могут быть использованы также другие значения, например, отличные от нуля значения шума.
Спектральный процессор также управляем выходным сигналом анализатора, то есть информацией о нестационарном состоянии, когда БПФ имеет большую длину, чем при стационарном состоянии или при отсутствии „заполнения", при этом значения индексов начала конфигурирования каналов в банке фильтров, то есть начальных точек возможных „раундов" транспозиции или итерационных циклов транспозиции, изменяются в зависимости от коэффициента избыточности дискретизации. Такое изменение происходит, преимущественно, в результате умножения примененного коэффициента трансформанты на коэффициент избыточности дискретизации с получением в произведении нового индекса начала операции патчирования (заполнения разрыва) фрагмента частотной области с избыточной дискретизацией.
В последующем предпочтительные технические решения поясняются со ссылкой на схемы фигур, где: на фиг.1 представлена принципиальная блочная схема генератора высокочастотного аудиосигнала; на фиг.2A представлена принципиальная блочная схема варианта конструктивного решения генератора высокочастотного аудиосигнала; на фиг.2B дана блок-схема рабочего цикла процессора для репликации спектральных полос (SBR) в полной технологической компоновке, включая генератор высокочастотного аудиосигнала с фигур 1 или 2A, генерирующего на выходе сигнал с расширенной полосой частот; фиг.3 представляет собой блок-схему процесса обработки, выполняемого спектральным процессором; фиг.4 отображает схему реализации данного изобретения с введением нескольких банков фильтров синтеза; фиг.5 отображает другой вариант реализации с задействованием одиночного банка фильтров синтеза; фиг.6 иллюстрирует процесс транспонирования спектра и построения соотношения полос в банке фильтров для варианта решения на фиг.5; фиг.7A иллюстрирует процедуру растягивания события нестационарности, близкого к центру окна; фиг.7B иллюстрирует процедуру растягивания события нестационарности, близкого к границе окна; и фиг.7C иллюстрирует процедуру растягивания события нестационарности с избыточной дискретизацией (дискретизацией на повышенной частоте), примененной в первом фрагменте входного сигнала, содержащем информацию о переходном (нестационарном) состоянии.
На фиг.1 представлена принципиальная блочная схема генератора высокочастотного аудиосигнала согласно изобретению. Входной сигнал поступает по шине ввода сигнала 10 на анализатор 12 и спектральный преобразователь 14. Анализатор разлагает входной сигнал на составляющие для идентификации данных о нестационарном состоянии, которые выводит на шину данных нестационарности 16. Дополнительно анализатор распознает наличие второй, последующей, компоненты входного сигнала, которая не содержит информацию о нестационарном состоянии. Сигналы, которые всегда находятся в переходном состоянии (нестационарны), не существуют. Из-за общей сложности выявлять нестационарные состояния предполагается таким образом, чтобы нестационарные компоненты, то есть „первая составляющая", входного сигнала присутствовали весьма редко, поскольку относящаяся к изобретению избыточная дискретизация в частотной области снижает эффективность, при том что она необходима для обработки звука с высоким качеством. Согласно рассматриваемому изобретению дискретизация на повышенной частоте в трансформанте активируется только, когда она действительно необходима, и отключается, когда в ней нет необходимости, то есть когда сигнал не несет признаки нестационарности, притом что избыточная частотная дискретизация может оставаться неактивной даже при сигналах с признаками нестационарности, если событие нестационарности имеет место близко от центра окна, как рассмотрено в контексте фиг.7A. Тем не менее, из соображений эффективности и трудоемкости рекомендуется маркировать определенные составляющие как нестационарные, если такая составляющая содержит признаки нестационарности, независимо от близости или удаленности события нестационарности от центра окна. Под воздействием множественного наложения (перекрывания), рассмотренного в контексте фиг.4 и 5, каждое событие нестационарности для одних окон происходит близко к центру и означает «благоприятное» нестационарное состояние, а для других окон - близко к срезу окна и в силу этого означает «неблагоприятное» нестационарное состояние.
Спектральный преобразователь 14 принимает входной сигнал 10, трансформирует его и выводит на шину 11 в виде входного спектрального представления. Шина 11 соединяет спектральный преобразователь 14 со спектральным процессором 13.
Спектральный процессор 13 обрабатывает входное спектральное представление и генерирует модифицированное спектральное представление, содержащее значения более высоких частот, чем входное спектральное представление. Формулируя иначе, спектральный процессор 13 выполняет транспонирование, причем, преимущественно, - гармоническое транспонирование, хотя спектральный процессор 13 предусматривает и другие виды транспозиции. Спектральный процессор 13 передает модифицированное спектральное представление по шине 15 на временной преобразователь 17, преобразующий модифицированное спектральное представление во временное представление. Спектральное представление преимущественно являет собой представление в частотной области или в области банка фильтров, а временное представление - прямое полночастотное представление во временной области, хотя временной преобразователь предусматривает также прямое преобразование модифицированного спектрального представления 15 в область банка фильтров, где каждый из подполосовых сигналов имеет полосу более высоких частот, чем банк фильтров БПФ. Поэтому временное представление на выходе в шину 18 может включать в себя также один или несколько подполосовых сигналов, каждый из которых несет полосу более высоких частот, чем частотный канал или значение в модифицированном спектральном представлении.
С точки зрения емкости алгоритма спектрального преобразования, спектральный преобразователь 14 или временной преобразователь 17 или оба эти элемента позволяют обеспечить с одинаково высокой степенью эффективности и низкой степенью сложности без потерь в акустическом качестве как выполнение избыточной частотной дискретизации первой компоненты аудиосигнала, содержащей информацию о нестационарном состоянии, так и невыполнение избыточной частотной дискретизации второй компоненты входного сигнала, не содержащей информацию о нестационарном состоянии.
Спектральный преобразователь преимущественно характеризуется возможностью выполнения избыточной дискретизации в частотной области (частотной дискретизации с более коротким шагом) с выполнением расширенной трансформации первой компоненты, содержащей признаки нестационарности, по сравнению с протяженностью трансформации второй компоненты, при этом более протяженная трансформация включает в себя заполнение данными. Разница в протяженности двух преобразований выражена коэффициентом избыточности частотной дискретизации, который может принимать значение в диапазоне от 1,3 до 3 и, предпочтительно, должен быть по возможности минимальным, но достаточно большим, чтобы предотвращать „неблагоприятные" нестационарные процессы, как показано на фиг.7, способные вносить предэхо, превышающее допустимые уровни. Предпочтительным является значение коэффициента избыточности дискретизации между 1,4 и 1,9.
Далее будет рассмотрена фиг.2A для детализации предпочтительных конструктивных решений спектрального преобразователя 14, спектрального процессора 13 и временного преобразователя 17с фиг.1.
Спектральный преобразователь 14 включает в себя оконный анализатор (устройство разбиения сигнала на дискретные окна) 14а и процессор БПФ 14b. Временной преобразователь включает в себя процессор ОБПФ 17а, оконный синтезатор (интегратор дискретных окон сигнала) 17b и процессор сложения наложением 17с. В компоновку устройства, относящегося к изобретению, может входить один спектральный преобразователь 14 и один временной преобразователь 17, как показано, например, на фиг.5 и фиг.6, или один спектральный преобразователь и несколько временных преобразователей 170, как показано на фиг.4. В схему спектрального процессора 13 предпочтительно включен блок фазирования/фазового транспонирования 13 а, который более подробно будет описан ниже. При этом блок фазирования/транспонирования фаз может быть задействован по любому из известных алгоритмов патчирования для генерации банком фильтров высокочастотных каналов на базе низкочастотных каналов, как известно из: М. Dietz, С. Liljeryd, К. Kjoerling и О. Kunz "Spectral Band Replication, a Novel Approach in Audio Coding" [„Репликация спектральных полос, новый подход к кодированию звука"], in 112th AES convention, Munich, May 2002. Алгоритм патчирования описан также в стандарте ISO/IEC 14496-3:2001 (MPEG-4). Однако в отличие от алгоритма патчирования в стандарте MPEG-4 спектральный процессор 13 преимущественно выполняет гармоническую транспозицию в несколько „раундов" или итерационных циклов, что подробно обсуждается в связи с фиг.6 и аппаратной версией с одним синтезирующим банком фильтров на фиг.5.
На фиг.2B показан процессор SBR (репликации спектральных полос) как элемент схемы восстановления верхних частот. По шине ввода данных 10 сигнал во временной (например) области, с выхода корневого декодера поступает на блок 20, на схеме отображающий модули на фиг.1 или фиг.2A. В данном варианте реализации временной преобразователь 17 генерирует на выходе реальный сигнал во временной области. Далее, этот реальный сигнал во временной области пересылают, предпочтительно, на КЗФ (квадратурно-зеркальный фильтр) для декомпозиции 21, после чего множество подполосовых сигналов выводят в шину 22. Эти выделенные подполосовые сигналы поступают в процессор SBR 23, который дополнительно принимает параметры SBR 24, получаемые, как правило, из входного битстрима, к которому относится кодированный низкочастотный полосовой сигнал, поступающий в корневой декодер (на фиг.2b не показан). С выхода процессора SBR 23 высокочастотный аудиосигнал после корректировки огибающей и других преобразований поступает на КЗФ 25 для синтеза, в конечном результате которого в шину 26 выводят высокочастотный аудиосигнал во временной области 26. По шине 26 сигнал пересылают в блок сведения (комбинатор) 27, который параллельно по обходной шине 28 дополнительно принимает низкочастотный сигнал. Рекомендуется, чтобы байпасная шина 28 или комбинатор 27 вносили в сигнал низкой частоты задержку, достаточную для сведения отлаженного высокочастотного сигнала 26 и скорректированного низкочастотного сигнала 28. Как вариант, на шаге синтеза КЗФ 25 функции синтеза и сведения могут быть совмещены, если сигнал низких частот также присутствует в представлении КЗФ и если представление низких частот КЗФ вводится в низкочастотные каналы при выполнении синтеза КЗФ 25, что отображено линией 29. В этом случае комбинатор 27 не нужен. На выходе синтезирующего КЗФ 25 или блока сведения 27 формируется аудиосигнал с расширенной полосой частот. В дальнейшем такой сигнал может быть сохранен, передан по каналам связи или воспроизведен через усилитель и акустическую систему.
На фиг.4 представлено конструктивное решение настоящего изобретения с использованием нескольких временных преобразователей 170а, 170b, 170с. Дополнительно фиг.4 отображает рабочую функцию оконного анализатора 14а на фиг.2A с шагом анализа в 128 отсчетов для данной версии. Длина выборки одного окна анализа 1024 отсчетов означает для оконного анализатора 14а выполнение 8-кратного цикла наложения.
Блок 14 формирует на выходе спектральное представление, которое затем поступает для обработки на параллельно сопряженные фазовые процессоры 41, 42, 43. Фазовый процессор 41 как элемент спектрального процессора 13 на фиг.1 принимает на свой вход от спектрального преобразователя 14 преимущественно комплексные спектральные величины и обрабатывает каждую из них, умножая на два каждую фазу каждой величины. Фазовый процессор 41 генерирует на выходе спектральное представление с сохранением амплитуд сигнала, какие были до ввода в блок 41, но с умножением каждой фазы на 2. Аналогичным образом фазовый процессор 42, определяя фазу каждой входной линии спектра, умножает эту фазу на коэффициент 3. Подобным же образом фазовый процессор 43 вновь находит фазу каждой комплексной полосы спектра, генерируемой спектральным преобразователем, и умножает фазу каждой линии спектра на 4. После этого выходные данные фазовых процессоров переходят на соответствующие временные преобразователи 170а, 170b, 170с. Кроме этого, в схему введены понижающие (разрежающие) дискретизаторы 44 и 45, из которых понижающий дискретизатор 44 работает с коэффициентом понижения частоты дискретизации 3/2, а понижающий дискретизатор 45 работает с понижающим коэффициентом частоты дискретизации 2. На выходах дискретизаторов с пониженной частотой дискретизации 44, 45 и на выходе частотно-временного преобразователя 170а все сигналы имеют одинаковую частоту дискретизации, равную 2fs, и поэтому могут быть суммированы подискретно с помощью сумматора 46. Следовательно, частота дискретизации выходного сигнала сумматора 46 в два раза выше, чем входного сигнала fs в левой части фиг.4. Поскольку частота дискретизации выходного сигнала спектрально-временного преобразователя 170а в два раза превышает частоту дискретизации входного сигнала, сложение наложением в блоке 170а выполняется с другим шагом, в данном случае - в 256 отсчетов. Соответственно, временной преобразователь 170b выполняет видоизмененную операцию сложения наложением, обозначенную рамкой „3", а в частотно-временном преобразователе 170с применен еще более увеличенный шаг в 512 отсчетов. Притом что схемотехнические элементы 44 и 45 выполняют дискретизацию с пониженной частотой 3/2 и 4/2, такая прореживающая дискретизация в определенной степени соответствует дискретизации с шагом, увеличенным в три раза, и дискретизации с шагом, увеличенным в четыре раза, согласно концепции фазового вокодера. Основанием для коэффициента 1/2 является тот факт, что к выходному сигналу элемента 170а так или иначе была приложена двойная частота дискретизации по сравнению с входным сигналом, и первая обработка, например, комбинатором 46 осуществляется на двойной частоте дискретизации. В этой связи следует заметить, что увеличение частоты дискретизации в два или более раз необходима в силу того, что спектральный состав высокочастотного аудиосигнала построен в более высоком диапазоне и во избежание алиасинга (наложения спектров) частота дискретизации также должна быть повышена исходя из теоремы Котельникова (Найквиста).
Высокие частоты генерируют путем подачи выходных сигналов спектрально-фазовых процессоров 41, 42, 43 на входные каналы соответствующих частот раздельных спектрально-временных преобразователей 170а, 170b, 170с. В дополнение к этому преобразователи во временную область 170а, 170b, 170с имеют больший шаг по частоте, чем входной банк фильтров 14, поэтому вместо такой же длины БПФ, как у этих процессоров, сигнал, генерируемый данным процессором, имеет расширенный с повышением спектральный состав или, говоря иначе, более высокую максимальную частоту.
Анализатор 12 предназначен для распознавания признаков нестационарности во входном сигнале и управления процессорами 14, 170а, 170b, 170с для задействования расширенного преобразования и применения заполнения значениями пространства перед началом оконного фрейма и после конца оконного фрейма, обеспечивая адаптивность избыточной частотной дискретизации. Фиг.5 иллюстрирует альтернативное конструктивное решение, где вместо трех синтезирующих банков фильтров 170а, 170b, 170с использован один банк фильтров синтеза 17. В такой компоновке фазовый процессор 13 управляет фазами, умножая их соответственно на 2, на 3 и на 4, что соответствует функции блоков 41-43 на фиг.4. Кроме этого, спектральный преобразователь 14 выполняет операцию оконного взвешивания с шагом анализа 128, а временной преобразователь 17 выполняет операцию сложения наложением с шагом синтеза 256. Временной преобразователь 17 выполняет частотно-временное преобразование с использованием двойного интервала между отдельными частотными полосами. В силу того что выходной сигнал блока 17 содержит в каждом окне 1024 значений и поскольку частота дискретизации удваивается, протяженность во времени оконного фрейма составляет половину общей протяженности во времени входного фрейма. Такое уменьшение длины уравновешивается за счет применения шага синтеза 256 или, формулируя вообще, шага синтеза, в 2 раза превышающего шаг анализа. Если обобщать, шаг синтеза должен быть больше шага анализа на коэффициент, который может быть равен коэффициенту повышения частоты дискретизации.
На фиг.5 представлен вариант эффективной компоновки транспозитора с использованием интегрированного банка фильтров, где два нижних элемента, входящих в схему на фиг.4, исключены. В таком случает банк второго порядка генерирует гармоники третьего и четвертого порядков, как показано на фиг.5. Из-за изменения параметров Т=3, 4 банка фильтров необходимо вместо простого «один-к-одному», переноса поддиапазонов, как обозначено на фиг.3, сформулировать правила интерполяции, как отображено на фиг.6. В принципе, если фактический интервал подполос банка синтезирующих фильтров в два раза превышает интервал подполос банка анализирующих фильтров, ввод в синтезируемую полосу с индексом n выполняют непосредственно из состава [разложенных] полос анализа с индексом k и k+1. Дополнительно определено, что k+r представляет целочисленные и дробные показатели nQ/T. Геометрическая интерполяция амплитуд выполняется с применением показателя степени (1-r) и r, а фазы линейно объединяют по весу Т(1-r) и Tr. Фиг.6 графически иллюстрирует пример переноса фаз для каждого коэффициента транспозиции при Q, равном 2. В частности, в левой половине фиг.6 отображен процесс транспонирования спектра, а в правой - процедура картирования (переноса и масштабирования) линий области банка фильтров, то есть построение целевой линии на основе исходной линии, где исходная линия представляет собой выходной сигнал банка фильтров анализа, т.е. спектрального преобразователя, и где целевая (задаваемая) линия, или линия целевых (рассчитываемых) элементов разрешения Целевых выборок [bins - „бинов"], является входным сигналом синтезирующего, или временного, преобразователя. Такая „перестановка", или перераспределение исходных выборок между целевыми выборками, реально способствует генерации верхних частот в силу того, что, например, индекс частоты k, транспонированный на частоту 3/2k или 2k, как видно на среднем и нижнем графиках слева, имеет, однако, в системе удвоенную частоту дискретизации, в результате чего транспозиция физической частоты, соответствующей, допустим, k, обозначенной на фиг.6 как fs, на целевую частоту k, 3/2k или 2k, соответствует транспозиции физической частоты с коэффициентом 2, 3 или 4.
Верхний левый график на фиг.6 дополнительно демонстрирует транспозицию с коэффициентом 2, несмотря на то, что полоса частот с индексом k переносится на частотную полосу с таким же индексом k. Тем не менее, транспонирование выполняется благодаря косвенному пересчету частоты дискретизации с коэффициентом 2 при использовании ядра БПФ такой же величины, но с другим - удвоенным - частотным интервалом. Ввиду этого картирование линий при переносе (исходных выборок) с выхода банка фильтров анализа на входы (на целевые выборки) банка фильтров синтеза на первом этапе выполняют напрямую, поскольку одинаковые индексы k переносят на такие же индексы k, только с умножением фазы каждой спектральной линии исходной выборки на два, на что на схеме указывают стрелки 62. Результатом этого будет транспозиция второго порядка с коэффициентом транспозиции два.
Для выполнения или аппроксимации транспозиции третьего порядка целевые элементы разрешения расширяют от 3/2k вверх в зависимости от частоты. Результат для целевых элементов дискретизации 3/2k и 3/2 (k+2) вновь будет прямым, поскольку соответствующие спектральные линии исходных элементов дискретизации k, k+2 могут быть применены как они есть, а их фазы, соответственно, умножены на 3, что обозначено стрелками умножения фаз 63. При этом целевая выборка 3/2 (k+1) не имеет прямой эквивалент среди исходных выборок. Если рассматривать, скажем, пример с малыми величинами, где k равно 4, а k+1 равно 5, то 3/2k соответствует 6, что при делении на 1,5 дает в итоге k=4. Однако следующий целевой элемент разрешения равен 7, а 7 при делении на 1,5 дает 4,66. При этом исходная выборка с коэффициентом 4,66 не существует, поскольку только целые числа могут составлять исходные элементы разрешения. Поэтому между соседними, или смежными, первоначальными выборками k и k+1 выполняют интерполяцию. Однако, так как 4,66 ближе к 5 (k+1), чем к 4 (k), фазовые характеристики исходного „бина" k+1 умножают на два, на что указывает стрелка 62, а фазовые характеристики исходного бина k (в примере равного 4) умножают на 1, что показано стрелкой 61, обозначающей умножение фазы на единицу. Это как раз соответствует прямому применению фазы как она есть. Эти фазы, полученные в итоге операций, обозначенных стрелками 61 и 62, преимущественно совмещают, например, путем сложения; однако предпочтительнее, если умножение фаз согласно обеим стрелкам вместе даст в результате коэффициент со значением 3, что необходимо для транспозиции третьего порядка. Таким же образом рассчитывают значения фаз для 3/2k+2 и 3/2(k+2)+1.
Аналогично вычисляют транспозицию четвертого порядка, где интерполированные значения, как указывают стрелки 62, рассчитывают по двум пограничным исходным выборкам, фазу каждой из которых умножают на два. С другой стороны, фазы кратных целевых выборок с прямым соответствием не требуют интерполирования, их рассчитывают, умножая фазы исходных элементов дискретизации на четыре.
Следует обратить внимание на то, что в предпочтительной версии исполнения при вычислении целевого элемента разрешения непосредственно из исходного элемента разрешения модулируют только фазы исходных элементов разрешения, оставляя без изменения амплитуды исходных элементов разрешения. В отношении интерполированных величин рекомендуется интерполяция между амплитудами двух соседних исходных элементов дискретизации, тем не менее, применимы другие способы совмещения этих двух исходных элементов дискретизации, например постоянный выбор большей амплитуды из двух смежных исходных элементов дискретизации, или меньшей амплитуды из двух смежных исходных элементов дискретизации, или нахождение среднего геометрического или среднего арифметического значения, или объединение амплитуд смежных исходных выборок любым другим путем.
На фиг.3 представлена блок-схема предпочтительного варианта алгоритма осуществления преобразований, отображенных на фиг.6. На шаге 30 выбирают целевой элемент разрешения. Затем, на шаге 31, рассчитывают фазу, умножая, если возможно, одну фазу на коэффициент транспозиции. Следовательно, шаг 31 применим к случаям, когда возможно умножение фаз на 3 при транспозиции третьего порядка, или, когда возможно, умножение на четыре (стрелки 64) при транспозиции четвертого порядка. Расчет интерполированных целевых элементов дискретизации невозможен непосредственно из одного исходного элемента разрешения. Вместо этого на шаге 32 выбирают смежные исходные выборки, которые могут быть использованы для интерполяции. При техническом осуществлении пограничные исходные выборки находятся в пределах значений двух целых чисел, которые включают в себя нецелое число, полученное в результате деления целевого элемента разрешения, который будет рассчитан с использованием целочисленного коэффициента транспозиции или дробного коэффициента транспозиции в случае интегрированной дискретизации с повышенной частотой, как показано на фиг.5. Далее, на шаге 33 к фазам соседних исходных элементов дискретизации применяют соответствующие фазовые постоянные (множители) для вычисления фазы задаваемого элемента разрешения. Сумма фазовых множителей, примененных к смежным исходным выборкам, равна коэффициенту транспозиции, как показано на среднем графике [фиг.6], как результат, например, „умножения" фазы на единицу согласно стрелке 61 и умножения фазы на два согласно стрелке 62 с увеличением фаз (1+2) в соответствии с коэффициентом транспозиции Т, равным 3, для третьего порядка.
После этого на шаге 34 определяют амплитуду формируемого целевого элемента разрешения, преимущественно, интерполируя амплитуды исходного элемента разрешения. Возможен вариант реализации, при котором амплитуды формируемых элементов разрешения могут быть выбраны произвольно в зависимости от амплитуд исходных элементов разрешения или в зависимости от средней амплитуды целевых элементов разрешения, полученных прямым расчетом. При использовании случайного выбора могут быть заданы среднее значение или одно из двух значений амплитуды исходной выборки как среднее значение для стохастического процесса.
Улучшение переходной характеристики трапспозитора обеспечивается за счет избыточной дискретизации в частотной области с использованием ядер ДПФ (дискретного преобразования Фурье) длиной 1024F и симметричного дополнения нулями окон анализа и синтеза соответственно этой длине. Здесь F - коэффициент избыточной частотной дискретизации.
По соображениям вычислительной сложности важно объем избыточной дискретизации удерживать на минимуме, поэтому далее будут даны пояснения в сопровождении графических фигур.
Рассмотрим в качестве примера кратковременного сигнала импульс Дирака в момент времени t=t0. В данном случае правильным представляется умножение фазы на Т для выполнения преобразования импульса в момент времени t=Tt0. Действительно, подобный умозрительный транспозитор с окном бесконечной протяженности обеспечил бы корректное растягивание (расширение) импульса. Для оконного анализа конечной импульсной характеристики ситуация осложняется тем, что каждый анализируемый блок должен быть интерпретирован как однопериодный интервал периодического сигнала с периодом, равным шагу ДПФ.
На фиг.7A на верхнем и нижнем графиках схематически отображены окна соответственно анализа и синтеза. Входной импульс в момент t=to изображен на верхнем графике вертикальной стрелкой. Допустим, блок ДПФ имеет длину L, тогда в результате умножения фазы на Т при ДПФ-разложении импульс сместится в точку t=Tt0 (сплошная стрелка), а другие составляющие будут удалены (пунктирные стрелки). В следующем окне местоположение импульса относительно центра изменится, на что желательной реакцией должен быть сдвиг импульса на Т расстояний от него до центра окна. Такие действия гарантируют, что все составляющие войдут в один растянутый во времени синтезированный импульс.
Проблема возникает в ситуации на фиг.7b, когда импульс смещается дальше к границе блока ДПФ. Событием, попавшим в окно синтеза, является импульс в момент t=Tt0-L. Конечным акустическим эффектом будет повторяющееся эхо (предэхо) во временном интервале, который сопоставим со шкалой (достаточно длинной) окна транспозитора.
На фиг.7C показан положительный эффект применения избыточной частотной дискретизации. Здесь размер ДПФ увеличен до FL, где L - протяженность окна, a F≥l.
Теперь период последовательностей импульсов составляет FL, а нежелательные компоненты из растянутого импульса могут быть удалены за счет выбора достаточно большого значения F. Для любого импульса в t=t0<L/2 нежелательное событие в точке t=Tt0-FL должно находиться слева от левого края окна синтеза в t=-L/2. Аналогично, TL/2-FL≤L/2 формирует правило
Более глубокий количественный анализ показывает, что при применении избыточной частотной дискретизации уровень предэхосигналов снижается несколько слабее по сравнении. со значением, предусмотренным неравенством, причиной чему являются малые значения в областях границ окна.
При транспонировании в соответствии с фиг.2 такое отклонение, как указано выше, подразумевает применение коэффициента избыточности дискретизации F=2,5, что удовлетворяет всем случаям Т=2, 3, 4. Ранее было показано, что введение F=2 уже приводит к существенному улучшению качества. В версии исполнения с интегрированным банком фильтров на фиг.3 достаточно использовать меньшее значение F=1,5.
Поскольку в случаях возникновения в сигнале нестационарностей осложнения устраняются избыточной дискретизацией, нестационарные состояния распознаются на стороне кодера, а на декодер пересылаются маркеры нестационарности для каждого фрейма корневого кодера с целью регулирования объема избыточной дискретизации, выполняемой при декодировании. Когда активирована дискретизация с повышенной частотой, коэффициент F=1,5 применяют, по меньшей мере, для всех гранул транспозитора, для которых задействовано окно анализа в текущем фрейме корневого кодера.
На фиг.7C область „дополнения нулями" обозначена перед первым ненулевым значением окна отрезком 70, а после последнего ненулевого значения окна - отрезком 71. Таким образом, окно на фиг.7C может рассматриваться как новое увеличенное окно, имеющее в начале и в конце нули в качестве весовых множителей. Это могло бы означать, что, когда оконный анализатор 14а или оконный синтезатор 17b применяют такое расширенное окно, выполнение отдельной операции дополнения нулями ненужно, поскольку добавление нулей выполняется автоматически с помощью окна, имеющего кластер нолей в начале и кластер нолей в конце. Тем не менее, в предпочтительном варианте осуществления окно (оконную функцию) не меняют, всегда используя одну и ту же форму окна, при этом сразу после идентификации нестационарного состояния выполняют дополнение нолями перед началом оконного фрейма или после конца оконного фрейма или перед началом и после конца, и это можно считать шагом, отдельным от оконного взвешивания и расчета преобразования. Следовательно, в случае нестационарного события подстановщик значений (устройство дополнения значениями) выполняет процедуру дополнения, предпочтительно, нолями таким образом, чтобы результат, то есть оконный фрейм и дополненные нули, был точно таким же, как в предполагаемом случае применения окна с нулевыми кластерами 70 и 71, как показано на фиг.7C.
Аналогичным образом при обнаружении нестационарности в процессе синтеза может быть применено рассчитанное увеличенное в длину окно синтеза, с помощью которого нулевое значение получат начальные и конечные значения фрейма, генерируемого процессором ОБПФ (обратного быстрого преобразования Фурье) 17а. Однако предпочтение отдается постоянному применению одного и того же окна синтеза с простым удалением значений из начала входного сигнала БПФ-1 (FFT-1), где количество нулевых значений (дополненных значений), удаленных из начала и из конца блока на выходе процессора 17а, соответствует количеству значений, заполненных нулями.
Дополнительно в процесс распознавания событий нестационарности включена функция контроля маркера (индекса) начала по специально выделенному каналу 29 на фиг.2A. Для этого начальные индексы k, а также, соответственно, индексы 3/2k и 2k умножают на коэффициент избыточной частотной дискретизации. Если этот коэффициент равен, допустим, двум, то каждый индекс k в левой половине фиг.6 будет заменен на 2k. При этом другие процедуры выполняют согласно описанным и проиллюстрированным здесь алгоритмам.
Желательно, чтобы сигнал обнаружения признаков нестационарности подавался для фрейма, на основе которого генерируется высококачественный высокочастотный сигнал, то есть для так называемого фрейма SBR (репликации спектральных полос). В таком случае первая компонента представляла бы собой фрейм SBR, содержащий событие нестационарности, а вторая компонента входного сигнала являлась бы фреймом SBR, более поздним, не содержащим признаки нестационарности. В силу этого каждое окно, которое содержит, по меньшей мере, одно дискретное значение такого фрейма с признаками нестационарности, было бы дополнено нулями таким образом, чтобы в случае если фрейм имеет длину в одно окно, а нестационарное событие представлено одним дискретом, то в результате восемь окон были бы преобразованы с использованием более длительной процедуры с дополнением значений.
Заявляемое изобретение может быть также отнесено к устройству для транспонирования в частотной области с выполнением адаптивной избыточной частотной дискретизации в банке фильтров интегрированных транспозиторов под контролем детектора нестационарности.
Несмотря на то что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. При техническом исполнении могут быть использованы цифровые носители и накопители данных, такие, в частности, как гибкий диск, DVD, CD, ROM, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, способные хранить электронно-считываемые сигналы управления и взаимодействовать с программируемой компьютерной средой таким образом, чтобы мог быть осуществлен соответствующий способ.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно-считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например Интернет.
Кроме того, реализация включает в себя аппаратные средства, например компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями
Изобретение относится к области кодирования акустических сигналов и может быть использовано при транспонировании в частотной области. Достигаемый технический результат - эффективная генерация качественного высокочастотного аудиосигнала путем раздельной обработки нестационарных и стационарных составляющих аудиосигнала. Генератор высокочастотного аудиосигнала, состоит из анализатора входного сигнала с распознаванием текущей информации о нестационарном состоянии, спектрального преобразователя входного сигнала во входное спектральное представление, спектрального процессора для обработки входного спектрального представления с получением модифицированного спектрального представления, содержащего значения частот, более высокие, чем во входном спектральном представлении, временного преобразователя для перевода модифицированного спектрального представления в представление во временной области, при этом спектральный преобразователь или временной преобразователь способны выполнять избыточную частотную дискретизацию первой составляющей входного сигнала, содержащей данные нестационарности, и не выполнять избыточную частотную дискретизацию второй составляющей входного сигнала, не содержащей признаки нестационарности. 3 н. и 12 з.п. ф-лы, 7 ил.
1. Генератор высокочастотного аудиосигнала (18), включающий анализатор (12) входного сигнала, выполненный с возможностью распознавания данных нестационарности, при этом первая составляющая входного сигнала содержит информацию о нестационарном состоянии, а следующая за ней вторая компонента входного сигнала не содержит информацию о нестационарном состоянии; спектральный преобразователь (14) входного сигнала во входное спектральное представление (11); спектральный процессор (13) для обработки входного спектрального представления и генерации модифицированного спектрального представления (15), которое содержит значения частот, более высокие, чем входное спектральное представление; и временной преобразователь (17) для преобразования модифицированного спектрального представления в представление во временной области; при этом спектральный преобразователь (14) или временной преобразователь (17) характеризуются возможностью выполнения избыточной частотной дискретизации первой составляющей входного сигнала, содержащей информацию о нестационарном состоянии, и возможностью невыполнения избыточной частотной дискретизации второй составляющей входного сигнала или выполнения избыточной частотной дискретизации с меньшим коэффициентом избыточности дискретизации по сравнению с первой составляющей входного сигнала.
2. Устройство по п.1, в котором спектральный преобразователь (14) выполняет избыточную дискретизацию в частотной области, применяя к первой составляющей, содержащей информацию о нестационарности, преобразование, более продолжительное за счет ввода дополняющих значений, чем преобразование второй составляющей.
3. Устройство по п.1, в котором спектральный преобразователь (14) включает оконный преобразователь (14а) для оконного взвешивания перекрывающихся фреймов входного аудиосигнала, состоящих из ряда оконных отсчетов, и время-частотный процессор (14b) для преобразования фрейма в частотную область, выполняющий функцию увеличения количества оконных отсчетов за счет дополнения фрейма значениями перед первым оконным отсчетом или после последнего оконного отсчета из числа входных отсчетов первой составляющей входного сигнала и функцию отмены дополнения значениями или дополнения меньшим количеством значений фреймов второй составляющей входного сигнала.
4. Устройство по п.2, в котором в качестве дополняемых данных используются нулевые значения.
5. Устройство по п.1, в котором спектральный преобразователь (14) имеет ядро преобразования с управляемой длиной преобразования, которая увеличивается для первой составляющей по сравнению с длиной преобразования второй составляющей входного сигнала.
6. Устройство по п.1, в котором спектральный преобразователь (14) предназначен для формирования ряда последовательных частотных полос; а спектральный процессор (13) выполняет функцию расчета фаз для полос, частота которых должна быть повышена путем фазовой или амплитудной модуляции ряда последовательных частотных полос с формированием преобразованного спектра, и в котором временной преобразователь (17) выполняет преобразование таким образом, что частота дискретизации выходного сигнал временного преобразователя выше частоты дискретизации входного аудиосигнала.
7. Устройство по п.1, в котором спектральный процессор (13) выполняет транспонирование участка спектра входного спектрального представления, начиная с определенного индекса частоты, на заданный коэффициент транспозиции, при этом определенный индекс частоты выше для первой составляющей входного сигнала и ниже для второй составляющей входного сигнала.
8. Устройство по п.7, в котором спектральный преобразователь (14) или временной преобразователь (17) предусматривают выполнение избыточной частотной дискретизации первой составляющей входного сигнала согласно коэффициенту избыточности дискретизации, и в котором спектральный процессор (13) предусматривает выполнение умножения определенного индекса частоты на коэффициент избыточности дискретизации для первой составляющей входного сигнала.
9. Устройство по п.1, в котором спектральный процессор (13) предусматривает выполнение расчета значения более высокой частоты путем совмещения значений двух смежных частот входного спектрального представления.
10. Устройство по п.9, в котором спектральный процессор предусматривает расчет фазы путем интерполяции фаз (33) двух смежных частотных показателей или расчет амплитуды (34), путем интерполяции амплитуд двух смежных частотных показателей.
11. Устройство по п.1, в котором спектральный процессор (13) выполнен с возможностью транспонирования на коэффициент транспозиции, при этом спектральный процессор (13) в случае, когда целевая расчетная частота не кратна коэффициенту транспозиции или не кратна коэффициенту транспозиции, разделенному на коэффициент повышающей дискретизации, сгенерированный временным преобразователем (17), рассчитывает фазу целевой частоты, используя фазы по меньшей мере двух смежных спектральных величин, каждая из которых умножена на индивидуальный фазовый множитель, причем фазовые множители заданы так, чтобы сумма фазовых множителей была равна коэффициенту транспозиции.
12. Устройство по п.1, в котором спектральный процессор выполнен с возможностью транспонирования на коэффициент транспозиции, при этом спектральный процессор (13) в случае, когда целевая расчетная частота не кратна коэффициенту транспозиции или не кратна коэффициенту транспозиции, разделенному на коэффициент повышающей дискретизации, сгенерированный временным преобразователем (17), рассчитывает фазу целевой частоты, используя фазы, по меньшей мере, двух смежных спектральных величин, каждая из которых умножена на индивидуальный фазовый множитель, причем фазовый множитель задают таким образом, чтобы фазовый множитель для первого значения входной спектральной характеристики был меньше фазового множителя для второго значения входного спектрального представления, когда индекс целевой частоты, деленный на коэффициент транспозиции или деленный на отношение коэффициента транспозиции и коэффициента повышающей дискретизации, находится ближе ко второму значению входного спектрального представления.
13. Устройство по п.1, входной сигнал которого содержит служебную информацию, включая данные нестационарности, и в котором анализатор предназначен для разложения входного сигнала с извлечением данных нестационарности из служебной информации, или в котором анализатор (12) включает в себя детектор нестационарности для разложения входного сигнала и идентификации в нем события нестационарности по характеру распределения энергии аудиосигнала или по изменению энергии аудиосигнала.
14. Способ генерирования высокочастотного аудиосигнала (18), включающий анализ (12) входного сигнала для нахождения информации о нестационарности, при этом первая составляющая входного сигнала содержит данные нестационарности, а вторая, следующая за ней, составляющая входного сигнала не содержит данные нестационарности; преобразование (14) входного сигнала во входное спектральное представление (11); обработку (13) входного спектрального представления с получением модифицированного спектрального представления (15), содержащего значения частот, более высоких, чем во входном спектральном представлении; и преобразование (17) модифицированного спектрального представления в представление во временной области, при этом на шаге преобразования (14) во входное спектральное представление или на шаге преобразования (17) в представление во временной области выполняется управляемая избыточная частотная дискретизация первой составляющей входного сигнала, содержащей информацию о нестационарном состоянии, причем для второй составляющей входного сигнала избыточная частотная дискретизация не выполняется или выполняется с меньшим коэффициентом избыточности дискретизации по сравнению с первой составляющая входного сигнала.
15. Машиночитаемый носитель информации с записанной на него компьютерной программой для осуществления способа генерирования высокочастотного аудиосигнала по п.14 при условии ее выполнения с использованием компьютерной техники.
Устройство анализа и синтеза речевого сигнала | 1981 |
|
SU980133A1 |
Авторы
Даты
2015-04-10—Публикация
2010-05-25—Подача