Область техники
Изобретение относится к системам кодирования источников звука, которые используют способ гармонической перестановки для получения высокого разрешения по частоте (HFR), а также процессорам цифровых эффектов, например так называемым возбудителям, которые генерируют гармонические искажения и добавляют яркость восприятия обработанного сигнала, и корректировщикам времени, которые увеличивают продолжительность сигнала при сохранении спектрального состава исходного сигнала.
Уровень техники
В РСТ WO 98/57436 была сформулирована концепция перестановки как способа восстановления высокочастотного диапазона на основе нижнего участка диапазона частот звукового сигнала. С помощью этой концепции аудиокодирования может быть получена существенная экономия битрейта. На основе HFR системы аудиокодирования, низкочастотный сигнал обрабатывается кодировщиком основного сигнала, а более высокие частоты повторно генерируются с использованием перестановки и дополнительной информации с очень низким битрейтом, которые описывают целевую форму спектра в декодировщике. Для низкого битрейта, который имеет узкий диапазон основного закодированного сигнала, становится все более важным, чтобы восстановленный высокочастотный диапазон имел хорошие характеристики восприятия. Гармонические перестановки, сформулированные в РСТ WO 98/57436, очень хорошо работают для сложных музыкальных сигналов в ситуации с низкой частотой кроссовера (разделительного фильтра). Принцип гармонической перестановки состоит в том, что синусоида с частотой ω преобразуется в синусоиду с частотой Tω, где целое число T>1, определяет порядок перестановки. В отличие от этого, модуляция в одном диапазоне (SSB) на основе способа отображения HFR синусоиды с частотой ω в синусоиду с частотой ω+Δω использует фиксированный сдвиг частоты Δω. Для основного сигнала с низкочастотным диапазоном, диссонирующие артефакты могут быть вызваны SSB перестановками.
Для достижения наилучшего возможного качества звука, современные высококачественные HFR гармонические способы используют сложные модулирующие банки фильтров, например, на основе Преобразования Фурье за короткий промежуток времени (STFT), с высоким разрешением по частоте и высокой степенью передискретизации для достижения необходимого качества звука. Высокое разрешение необходимо, чтобы избежать нежелательных интермодуляционных искажений, связанных с нелинейной обработкой суммы синусоид. При достаточно высоком разрешении по частоте, то есть для узких поддиапазонов, для получения способов с высоким качеством необходимо стремиться к тому, чтобы в каждом поддиапазоне имелось не более одной синусоиды. Высокая степень передискретизации во времени необходима для исключения искажений типа алиасинга, а определенная степень передискретизации по частоте необходима для исключения появления сигналов эха перед сигналами с переходными процессами. Очевидный недостаток состоит в том, что может стать высокой вычислительная сложность.
Блок поддиапазона, основанный на гармонической перестановке, является другим HFR способом, используемым для подавления интермодуляционных эффектов, в этом случае используется банк фильтров с грубым разрешением по частоте и низкой степенью передискретизации, например многоканальный QMF банк. Согласно этому способу временной блок выборок поддиапазона с комплексными значениями обрабатывается общим регулировщиком фазы, в то время как суперпозиция нескольких модифицированных выборок формирует выборку поддиапазона на выходе. Это пример чистого подавления интермодуляционных эффектов, которые возникают в противном случае, когда входной сигнал поддиапазона состоит из нескольких синусоид. Перенос с использованием блока на основе обработки поддиапазона имеет намного меньшую вычислительную сложность, чем для высококачественных модулей перестановки, и позволяет получить почти такое же качество для многих сигналов. Однако сложность по-прежнему значительно выше, чем для тривиальных SSB способов, основанных на HFR, так как требуется множество банков фильтров анализа, каждый обрабатываемый сигнал имеет различный порядок перестановки T, необходимый в типичном приложении HFR при синтезе необходимого диапазона частот. Кроме того, общий подход заключается в адаптации частоты дискретизации входных сигналов, чтобы соответствовать банку фильтров анализа постоянного размера, хотя сигналы банка фильтров имеют различные порядки перестановки. Также распространенным является применение фильтров диапазонов для входных сигналов с целью получения выходных сигналов, обрабатываемых перестановками с различными порядками, с неперекрывающимися спектральными плотностями мощности.
Часто накладываются жесткие ограничения по битрейту на хранение или передачу аудиосигналов. Предыдущие кодировщики были вынуждены резко сокращать передаваемый аудиодиапазон, поскольку они имели очень низкий битрейт. Современные аудиокодировщики в настоящее время могут кодировать широкодиапазонные сигналы с помощью способов расширения диапазона частот (BWE) [1-12]. Эти алгоритмы основываются на параметрическом представлении высоких частот (HF), который формируется из низкочастотной части (LF) декодированного сигнала с помощью перестановки патчей в HF область спектра («патчирование», «заплатка», или «патч» - информация, предназначенная для автоматизированного внесения определенных изменений в компьютерные файлы) и применением параметра, полученного при последующей обработке. LF часть кодируется с помощью любого аудио- или речевого кодировщика. Например, способы расширения диапазона, описанные в [1-4] и основанные на модуляции одного диапазона (SSB), для создания нескольких HF патчей, часто также называют способами «копирования вверх».
Недавно был создан новый алгоритм [13] (см. фиг.20), в котором для создания различных патчей используется банк фазовых вокодировщиков [15-17]. Этот способ был разработан для исключения шероховатостей слухового восприятия, которые часто наблюдаются в сигналах, подвергаемых процедуре расширения диапазона частот SSB. Однако поскольку BWE алгоритм при декодировании выполняется в цепи кодировщика, вычислительная сложность представляет собой серьезную проблему. Уровень развития современных способов, особенно фазовых вокодировщиков на основе НВЕ, приводит к значительному увеличению вычислительной сложности по сравнению с SSB способом.
Как отмечалось выше, существующие схемы расширения диапазона частот применяют только один способ патчирования данного блока сигнала в текущий момент времени, т.е. либо SSB на основе патчирования [1-4] либо НВЕ вокодировщик на основе патчирования [15-17]. Кроме того, современные аудиокодировщики [19-20] предлагает возможность глобального переключения способов патчирования на основе блоков во времени между альтернативными схемами патчирования.
SSB патчирование с копированием вверх вносит нежелательные шероховатости в звуковой сигнал, но обладает вычислительной простотой и сохраняет огибающую во времени переходных процессов. Кроме того, вычислительная сложность значительно увеличивается во время выполнения очень простого с точки зрения вычислений SSB способа с копированием вверх.
Сущность изобретения
При решении задач сокращения сложности алгоритма, частоты дискретизации имеют особое значение. Это связано с тем, что высокая частота дискретизации приводит к высокой сложности, и низкая частота дискретизации обычно означает низкую сложность в связи с уменьшением числа необходимых операций. С другой стороны, особенности использования приложений по расширению диапазона частот приводят к тому, что частота дискретизации выходного сигнала основного кодировщика, как правило, будет настолько низкой, что эта частота дискретизации становится слишком малой для полного диапазона сигнала. Иными словами, если, например, частота дискретизации выходного сигнала декодировщика в 2 или в 2,5 раза больше максимальной частоты выходного сигнала основного кодировщика, то расширение диапазона частот с коэффициентом 2 будет означать, что необходима операция дискретизации с уменьшенным шагом для того, чтобы величина выборки сигнала с расширенным диапазоном частот была настолько мала, чтобы выборка могла "перекрыть" дополнительно сгенерированные высокочастотные компоненты.
Кроме того, необходимо, чтобы банки фильтров, такие как банки фильтров анализа и синтеза выполняли значительное количество операций по переработке. Таким образом, размер банка фильтров, т.е. имеет ли банк фильтров 32 канала, 64 канала или даже большее число каналов, будет существенно влиять на сложность алгоритма аудиообработки. Следовательно, для большого количества каналов в банке фильтров требуется больше операций по обработке, чем при небольшом количестве фильтров каналов, и приводит к более высокой сложности. В связи с этим, в приложениях по расширению диапазона частот, а также в других приложениях аудиообработки, где используются различные частоты дискретизации, например, в приложениях, подобных вокодировщикам или любым другим приложениям аудиоэффектов, существуют конкретные взаимозависимости между сложностью и частотой дискретизации или диапазоном аудиочастот, откуда следует, что операции по увеличению частоты дискретизации или поддиапазонов фильтрации могут значительно повысить сложность, и при этом не будут влиять на качество звука при выборе конкретных операций неправильных инструментов и алгоритмов.
Технической задачей настоящего изобретения является создание усовершенствованной концепции обработки звука, которая имеет низкую сложность обработки, с одной стороны, и хорошее качество звука с другой.
Это достигается с помощью устройства для обработки входного звукового сигнала в соответствии с п.1 или 18, способа обработки входного звукового сигнала в соответствии с п.20 или 21 или компьютерной программой в соответствии с п.22.
Варианты осуществления настоящего изобретения связаны с конкретными способами каскадного размещения банка фильтров анализа и/или синтеза для получения повторной дискретизации небольшой сложности без потери качества звука. В варианте исполнения устройство для обработки звукового сигнала включает в себя банк фильтров синтеза для синтеза звука промежуточного сигнала на основе входного звукового сигнала, причем входной звуковой сигнал представлен множеством сигналов в первом поддиапазоне, полученными с помощью банка фильтров анализа, размещенных при обработке перед банком фильтров синтеза, причем количество каналов в банке фильтров синтеза меньше, чем количество каналов в банке фильтров анализа. Промежуточный сигнал обрабатывается в дополнительном банке фильтров анализа для генерирования множества сигналов второго поддиапазона промежуточного звукового сигнала, причем дополнительны банк фильтров анализа имеет количество каналов, отличающееся от числа каналов в банке фильтров синтеза, так что частота выборок сигнала поддиапазона для множества сигналов поддиапазона отличается от частоты дискретизации первого сигнала поддиапазона для множества сигналов первого поддиапазона, сгенерированных в банке фильтров анализа.
Каскад фильтров синтеза и последовательно включенный с ним банк фильтров анализа обеспечивают преобразование частоты дискретизации и дополнительную модуляцию участка диапазона исходного входного звукового сигнала, который поступает на вход банка фильтров синтеза основного диапазона. Предпочтительно, чтобы этот промежуточный сигнал во времени, который извлекается из исходного входного звукового сигнала, являлся, например, выходным сигналом основного декодировщика схемы расширения диапазона частот, который в данном изобретении представлен в качестве критической выборки сигнала, модулированного в основном диапазоне. Было установлено, что это представление, то есть повторно дискретизированный выходной сигнал, при последующей обработке в банке фильтров анализа для получения представления поддиапазона, имеет низкую сложность выполнения дальнейших операций, которые могут произойти или не произойти, и которые могут, например, обрабатываться с помощью операций расширения диапазона, таких как нелинейная обработка поддиапазона, заключающаяся в восстановлении высокочастотного участка диапазона, и операции слияния поддиапазонов в конечном банке фильтров синтеза.
Настоящее воплощение изобретения предоставляет различные аспекты аппаратного исполнения, способов и компьютерных программ для обработки звуковых сигналов в контексте расширения диапазонов частот и других аудиоприложений, которые не связаны с расширением диапазонов частот. Детальное изложение изобретения представлено ниже, а отдельные заявленные аспекты изобретения могут быть полностью или частично объединены, но могут также использоваться отдельно друг от друга, так как отдельные аспекты уже обеспечивают преимущества в восприятии качества, сложности вычислений и ресурсов процессора/памяти при реализации в компьютере или микропроцессоре.
Варианты изобретения реализуют способ для уменьшения вычислительной сложности участка поддиапазона на основе гармонического HFR способа с помощью эффективной фильтрации и выполнения повторной частотой дискретизации входных сигналов на этапах анализа в HFR банке фильтров. Кроме того, на фильтры диапазонов поступают входные сигналы, которые в модуле перестановки могут быть отмечены как устаревшие для участка поддиапазона.
Настоящие варианты изобретения способствуют уменьшению вычислительной сложности для участка поддиапазона на основе гармонической перестановки с эффективностью реализации в несколько порядков, т.е. перестановки в фрейме производятся в совмещенной паре банков фильтров анализа и синтеза. Компромисс достигается с учетом качества восприятия в сравнении с вычислительной сложностью, и только некоторые из подмножества порядков или все порядки перестановки могут быть выполнены совместно в паре банков фильтров. Кроме того, используется комбинированная схема перестановки, где непосредственно рассчитываются только определенные порядки перестановки, в то время как оставшийся диапазон частот заполняется с помощью копирования, то есть с помощью рассчитанного до этого порядка перестановки (например, второго порядка) и/или основного диапазона кодирования. В этом случае патчирование может быть осуществлено с использованием каждой возможной комбинации из доступного диапазона источников для копирования.
Кроме того, варианты осуществления изобретения представляют как способ улучшения качества гармоническими HFR способами, так и гармонические HFR способы для участка поддиапазона с помощью HFR инструментов спектрального выравнивания. В частности, повышение производительности достигается за счет выравнивания спектральных границ сгенерированных HFR сигналов с помощью частотной таблицы регулировки огибающей спектральной границы. Кроме того, спектральные границы инструмента ограничителя удовлетворяют тому же принципу соответствия спектральной границы сгенерированных HFR сигналов.
Другие варианты воплощения настроены на улучшение восприятия качества переходных процессов и, в то же время, на снижение вычислительной сложности, например, применение схемы патчирования, которая применяет смешанное патчирование, состоящее из гармонического патчирования и патчирования с копированием вверх.
В конкретных вариантах осуществления отдельные банки фильтров в каскадной структуре банка фильтров являются банками квадратурных зеркальных фильтров (QMF), которые выполнены на основе ФНЧ прототипа или окна, модулированного с помощью набора частот модуляции, определяющих центральные частоты каналов банка фильтров. Предпочтительно, чтобы все оконные функции или фильтры-прототипы были взаимосвязаны друг с другом, т.е. чтобы фильтры из банка фильтров с различными размерами (каналы банка фильтров) также были взаимосвязаны друг с другом. Предпочтительно, чтобы максимальный вариант банка фильтров в каскадной структуре банка фильтров включал в себя, в вариантах исполнения, первый банк фильтров анализа, последовательно подключенный к нему банк фильтров последующего анализа, а по завершении обработки окончательный банк фильтров синтеза, имеющий функцию окна или отклик фильтра-прототипа с определенным количеством функций окна или коэффициентов фильтра-прототипа. Вариант банка фильтров с меньшим размером содержит все версии малых выборок такой функции окна, что означает, что функции окна для других банков фильтров являются версиями малых выборок «большой» оконной функции. Например, если банк фильтров имеет половину размера большого банка фильтров, то функция окна в два раза меньше числа коэффициентов и коэффициенты банка фильтров меньшего размера получены с помощью версий малых выборок. В этой ситуации, версия малых выборок означает, что, например, каждый второй коэффициент фильтра берется из меньшего банка фильтров, имеющего в два раза меньший размер. Однако когда есть другие соотношения между размерами банка фильтров, которые не являются целочисленными, то определенный вид интерполяции оконных коэффициентов применяется таким образом, что в конце окна меньшего банка фильтров снова используется версия малых выборок окна банка фильтров больших размеров.
Варианты осуществления настоящего изобретения особенно полезны в ситуациях, когда для дальнейшей обработки используется только часть входного звукового сигнала, и эта ситуация особенно удачно решается в контексте гармонического расширения диапазона частот. В этом контексте являются особенно предпочтительными операции обработки, подобные вокодировщику.
Преимущество вариантов изобретения состоит в том, что варианты обеспечивают меньшую сложность модуля QMF перестановки за счет эффективности по времени, операций в частотной области и улучшения качества звука для QMF и DFT на основе гармонического копирования спектрального диапазона с использованием спектрального выравнивания.
Варианты относятся к системам кодирования источников звука, использующих, например, модуль поддиапазона на основе способа гармонической перестановки для получения высокого разрешения по частоте при восстановлении (HFR), а также процессоры цифровые эффектов, например, так называемые возбудители, в которых генерируются гармонические искажения, добавляющие яркость восприятия обработанного сигнала, а также корректировщики времени, в которых продолжительность сигнала увеличивается и сохраняется спектральный состав исходного сигнала. Варианты исполнения обеспечивают способ уменьшения вычислительной сложности участка поддиапазона с использованием способа гармонического HFR с помощью эффективной фильтрации и изменения частоты дискретизации входных сигналов до этапа обработки в банке HFR фильтров анализа. Кроме того, варианты исполнения показывают, что традиционные фильтры диапазонов, применяемые к входным сигналам, являются устаревшими для участка поддиапазона, использующего HFR систему. Кроме того, варианты исполнения с помощью инструмента HFR реализуют спектральное выравнивание не только в качестве способа улучшения качества гармонического HFR способа, но и для улучшения участка поддиапазона на основе гармонического HFR способа. В частности, варианты исполнения позволяют повысить производительность за счет выравнивания спектральных границ сгенерированных HFR сигналов в соответствии с частотной таблицей регулировки огибающей спектральной границы. Кроме того, спектральные границы инструмента ограничителя по такому же принципу соответствуют спектральным границам сгенерированных HFR сигналов.
Краткое описание чертежей
Настоящее изобретение будет описано путем наглядных примеров, не ограничивающих объем или сущность изобретения со ссылкой на прилагаемые чертежи, на которых:
фиг.1 иллюстрирует работу модуля перестановки на основе использования порядков перестановок 2, 3, и 4 в фреймах расширенного HFR декодировщика;
фиг.2 показана работа модуля нелинейного растяжения поддиапазона в соответствии с фиг.1;
фиг.3 иллюстрирует эффективную реализацию модуля перестановки в соответствии с фиг.1, где модуль передискретизации и полосовые фильтры из предыдущего банка HFR фильтров анализа реализованы с использованием множества скоростей дискретизации в модуле передискретизации во временной области и QMF на основе полосовых фильтров;
на фиг.4 показан пример формирования блоков для эффективной реализации с использованием разных скоростей во временной области модуля передискретизации на фиг.3;
фиг.5 иллюстрирует результат обработки тестового сигнала с помощью различных блоков по фиг.4 для перестановки порядка 2;
фиг.6 иллюстрирует эффективную реализацию модуля перестановки по фиг.1, в которой модуль передискретизации и фильтр диапазонов из предыдущего банка HFR фильтров анализа заменены на небольшие банки фильтров синтеза с передискретизацией, действующие на отдельные поддиапазоны с помощью 32-диапазонного банка фильтров анализа;
фиг.7 иллюстрирует результат обработки тестового сигнала с помощью фильтров синтеза с передискретизацией на фиг.6 для перестановки порядка 2;
фиг.8 иллюстрирует эффективную реализацию блоков с использованием разных скоростей во временной области в модуле передискретизации с уменьшением выборок с коэффициентом 2;
фиг.9 иллюстрирует эффективную реализацию блоков с использованием разных скоростей во временной области в модуле передискретизации с уменьшением выборок с коэффициентом 3/2;
фиг.10 иллюстрирует выравнивание спектральных границ модулем перестановки HFR сигналов до границ огибающей спектра в регулируемом диапазоне частот, в расширенном HFR кодировщике;
фиг.11 иллюстрирует ситуацию, когда в связи с выравниванием спектральных границ в модуле перестановки HFR сигналов возникают артефакты;
фиг.12 иллюстрирует ситуацию, каким образом можно исключить артефакты по фиг.11 при выравнивании спектральных границ в модуле перестановки HFR сигналов;
фиг.13 иллюстрирует адаптацию спектральных границ в инструменте ограничения спектральных границ в модуле перестановки HFR сигналов;
фиг.14 иллюстрирует типичный участок поддиапазона, полученный путем гармонической перестановки;
фиг.15 иллюстрирует пример сценария для применения обработки на основе перестановки к участку поддиапазона с использованием нескольких порядков перестановки в расширенном HFR аудиокодировщике;
фиг.16 иллюстрирует пример сценария с традиционным способом обработки участка поддиапазонана с использованием нескольких порядков перестановки, применяющих отдельный банк фильтров анализа для данного порядка перестановки;
фиг.17 иллюстрирует пример сценария с использованием способа изобретения для эффективной обработки участка поддиапазона с применением нескольких порядков перестановки на основе одного 64 диапазонного QMF банка фильтров анализа;
фиг.18 иллюстрирует еще один пример процедуры формирования сигнала поддиапазона;
фиг.19 иллюстрирует патчирование с модуляцией одного диапазона (SSB);
фиг.20 иллюстрирует патчирование гармонического расширения диапазона частот (НВЕ);
фиг.21 иллюстрирует смешанное патчирование, при котором первое патчирование формируется с помощью расширения по частоте, а второе патчирование производится с помощью SSB копирования низкочастотного участка в верхнюю часть диапазона;
фиг.22 иллюстрирует альтернативное смешанное патчирование, использующее первое НВЕ патчирование для генерации второго патчирования с помощью SSB копирования низкочастотного участка в верхнюю часть диапазона;
фиг.23 иллюстрирует предпочтительный вариант каскадной структуры банка фильтров анализа и синтеза;
фиг.24A иллюстрирует предпочтительный вариант осуществления малого банка фильтров синтеза по фиг.23;
фиг.24B иллюстрирует предпочтительный вариант осуществления улучшенного банка фильтров анализа по фиг.23;
в таблице 2 показан обзор нескольких вариантов банков фильтров анализа и синтеза по стандарту ISO/IEC 14496-3:2005 (E) и, в частности, вариант исполнения банка фильтров анализа, которые можно использовать в качестве банка фильтров анализа по фиг.23, и реализации банка фильтров синтеза, которые можно использовать в качестве окончательного банка фильтров синтеза по фиг.23;
фиг.25A иллюстрирует реализацию в виде блок-схемы банка фильтров анализа по таблице 2;
фиг.25B иллюстрирует предпочтительный вариант осуществления банка фильтров синтеза по таблице 2;
фиг.26 иллюстрирует общее представление о фреймах, в контексте обработки с расширением диапазона частот, и
фиг.27 иллюстрирует предпочтительный вариант осуществления обработки выходных сигналов поддиапазона с помощью улучшенного банка фильтров анализа по фиг.23.
Описание предпочтительных вариантов
Описанные ниже варианты осуществления изобретения являются лишь иллюстративными и могут обеспечить более низкую сложность QMF модуля перестановки, эффективного по выполнению операций во временной и частотной области, а также улучшающего качество звука при использовании как QMF, так и DFT на основе SBR гармонического спектрального выравнивания. Понятно, что модификации и изменения механизмов и деталей, описанных здесь, будут очевидны другим специалистам в данной области. Это изобретение, следовательно, должно быть ограничено только объемом формулы изобретения, а не конкретными деталями, представленными в виде описаний и объяснений изложенных здесь вариантов.
Фиг.23 иллюстрирует предпочтительный вариант осуществления устройства для обработки звукового сигнала, где входной звуковой сигнал может быть входным сигналом во временной области с выходом на линию 2300, например, основного звукового декодировщика 2301. Входной звуковой сигнал поступает на вход в первый банк фильтров анализа 2302, который, например, имеет M каналов. Следовательно, банк фильтров анализа 2302 имеет на выходе M сигналов поддиапазонов 2303, которые имеют частоту дискретизации fS=fS/M. Это означает, что банк фильтров анализа является банком фильтров анализа с критическим отбором выборок. Это означает, что банк фильтров анализа 2302 обеспечивает для каждого блока M входных выборок для линии 2300 с одной выборкой для каждого канала поддиапазона. В предпочтительном варианте, банк фильтров анализа 2302 представляет собой сложный модулирующий банк фильтров, в котором каждая выборка поддиапазона имеет магнитуду и фазу, что эквивалентно наличию вещественной и мнимой части. Таким образом, входной звукового сигнал на линии 2300 представлен множеством сигналов первого поддиапазона 2303, которые генерируются с помощью банка фильтров анализа 2302.
Подмножество всех сигналов первого поддиапазона поступает на вход банка фильтров синтеза 2304. Банк фильтров синтеза 2304 имеет MS каналов, где MS меньше, чем M. Следовательно, в банк фильтров синтеза 2304 вводятся не все сигналы поддиапазонов, генерируемые банком фильтров 2302, а только часть, то есть несколько меньшее количество каналов, как показано цифрой 2305. В варианте исполнения на фиг.23 подмножество 2305 охватывает некоторый промежуточный диапазон частот, но, в качестве альтернативы, это подмножество может также охватывать диапазон частот пропускания фильтров, начиная с канала 1 банка фильтров 2302, до канала, имеющего номер канала, меньший чем M, либо это подмножество 2305 может также охватывать диапазон сигналов поддиапазона, начиная с наибольшего номера канала M и заканчивая нижним номером канала, большим чем 1. Кроме того, индекс канала может начинаться с нуля, в зависимости от фактически использованных обозначений. Предпочтительно, однако, для операций расширения диапазона, чтобы некоторый промежуточный диапазон частот представлял сигналы поддиапазона, указанные в 2305, вводимые в банк фильтров синтеза 2304.
Другие каналы, не принадлежащих к группе 2305, не поступают на вход в банк фильтров синтеза 2304. Банк фильтров синтеза 2304 создает промежуточный звуковой сигнал 2306, который имеет частоту дискретизации fS·MS/M. Так как MS меньше, чем M, то частота дискретизации промежуточного сигнала 2306 будет меньше, чем частота дискретизации входного звукового сигнала на линии 2300. Таким образом, промежуточный сигнал 2306 имеет уменьшенную частоту дискретизации и представляет собой демодулированный сигнал, соответствующий диапазону частот сигнала, представленного поддиапазонами 2305, в которых сигнал демодулируется в основном диапазоне. Таким образом, низкочастотный канал диапазона 2305 поступает на вход в канал 1 из MS каналов банка фильтров синтеза, а самый высокочастотный канал блока 2305 поступает на вход с наибольшим номером в блоке 2304, за исключением некоторых операций с заполнением нулями по каналу с наименьшим или наибольшим номером для решения проблем алиасинга на границах подмножества 2305. Устройство для обработки входного звукового сигнала, отличающееся тем, что содержит дополнительный банк фильтров анализа 2307 для анализа промежуточного сигнала 2306, причем банк фильтров анализа имеет MA каналов, где MA отличается от MS и предпочтительно, чтобы MA было больше, чем MS. Если MA больше MS, то частота дискретизации выходных сигналов поддиапазонов в дополнительном банке фильтров анализа 2307, указанная в 2308, будет ниже, чем частота дискретизации сигнала поддиапазона 2303. Однако когда MA меньше, чем MS, то частота дискретизации сигнала поддиапазона 2308 будет выше, чем частота дискретизации сигнала поддиапазона из множества сигналов первого поддиапазона 2303.
Таким образом, каскад банков фильтров 2304 и 2307 (и предпочтительно 2302) обеспечивает высокие эффективность и качество операций по увеличению или уменьшению частоты дискретизации или высокую общую эффективность инструментов для выполнения передискретизации. Множество сигналов второго поддиапазона 2308 предпочтительно подвергается дальнейшей обработке в процессоре 2309, который выполняет обработку повторно дискретизированных данных в каскаде банка фильтров 2304, 2307 (и, предпочтительно, 2302). Кроме того, предпочтительно, чтобы блок 2309 также выполнял операцию повторной дискретизации на этапе расширения диапазона частот, так чтобы последние поддиапазоны на выходе блока 2309 имели ту же частоту дискретизации, что и поддиапазоны на выходе блока 2302. Тогда, в приложении для выполнения расширения диапазона частот, эти поддиапазоны вводятся вместе с дополнительными поддиапазонами, указанными индексом 2310, которые предпочтительно должны иметь низкочастотные поддиапазоны, как, например, сгенерированные банком фильтров анализа 2302 в банке фильтров синтеза 2311. При этом, в результате, формируется обработанный сигнал во временной области, например, диапазон расширенного сигнала может иметь частоту дискретизации 2fS. Эта частота дискретизации на выходе блока 2311 в этом варианте исполнения в 2 раза больше частоты дискретизации сигнала на линии 2300, и эта частота дискретизации на выходе блока 2311 достаточно велика, так что дополнительный диапазон частот, сгенерированный при обработке в блоке 2309, может быть включен в обработанный сигнал во временной области с высоким качеством звука.
В зависимости от определенного применения в настоящем изобретении каскадный банк фильтров, т.е. банк фильтров 2302, может располагаться в отдельном устройстве и аппаратном блоке для обработки входного звукового сигнала и содержать только банк фильтров синтеза 2304 и дополнительный банк фильтров анализа 2307. Иными словами, банк фильтров анализа 2302 может быть выполнен отдельно от процессора последующей обработки и может включать в себя блоки 2304, 2307 и, в зависимости от реализации, также блоки 2309 и 2311.
В других вариантах применения настоящего изобретения реализация каскадного банка фильтров может отличаться от традиционной в том, что некое устройство включает в себя банк фильтров анализа 2302 и малый банк фильтров синтеза 2304, а промежуточный сигнал подается на отличающийся от традиционного процессор с помощью специального переключателя или с помощью специального канала переключателя. Таким образом, одновременное использование банка фильтров анализа 2302 и малого банка фильтров синтеза 2304 позволяет создать очень эффективный способ понижения частоты дискретизации и одновременно выполнить демодуляцию сигнала в диапазоне частот, представленном подмножеством 2305 в основном диапазоне. Это уменьшение частоты дискретизации и демодуляция в основном диапазоне выполняются без потери качества звука, и, что особенно важно, без потери аудиоинформации и, следовательно, с высоким качеством обработки.
В таблице на фиг.23 показано несколько вариантов количества битов для различных устройств. Предпочтительно, чтобы банк фильтров анализа 2302 имел 32 канала, банк фильтров синтеза - 12 каналов, дополнительный банк фильтров анализа должен иметь в 2 раза больше каналов, чем в банке фильтров синтеза, например, 24 канала, и окончательный банк фильтров синтеза 2311 будет иметь 64 канала. Вообще говоря, банк фильтров анализа 2302 имеет большое количество каналов, в малом банке фильтров синтеза 2304 число каналов мало, в дополнительном банке фильтров анализа 2307 число каналов среднее, и в банке фильтров синтеза 2311 количество каналов очень большое.
Частота дискретизации выходных сигналов поддиапазона в банке фильтров анализа 2302 равна fS/M. Промежуточный сигнал имеет частоту дискретизации fS·MS/M. Каналы поддиапазона в дополнительном банке фильтров анализа, показанном индексом 2308, имеют частоту дискретизации fS·MS/(M·MA), и банк фильтров синтеза 2311 формирует выходной сигнал с частотой дискретизации 2fS, причем при обработке в блоке 2309 частота дискретизации удваивается. Однако если при обработке в блоке 2309 не удваивается частота дискретизации, то выходная частота дискретизации в банке фильтров синтеза будет соответственно ниже. Далее обсуждаются другие предпочтительные варианты, связанные с настоящим изобретением.
Фиг.14 иллюстрирует типичный участок поддиапазонана, полученный с помощью перестановки. входной сигнал во временной области подается на банк фильтров анализа 1401, который формирует множество комплекснозначных сигналов поддиапазона. Они подаются на блок обработки поддиапазона 1402. Множество комплекснозначных сигналов поддиапазона с его выхода подается на банк фильтров синтеза 1403, который в свою очередь выдает измененный сигнал во временной области. Блок обработки поддиапазона 1402 формирует нелинейный блок на основе операций обработки поддиапазона, таких, что изменение сигнала во временной области является преобразованной версией входного сигнала, соответствующей перестановке порядка T>1. Понятие блока, полученного на основе обработки поддиапазона, связано с выполнением нелинейных операций над блоками, содержащими более чем одну выборку в поддиапазоне в момент времени, когда последовательные блоки обрабатываются в окне и используется перекрытие с суммированием для создания выходных сигналов поддиапазона.
Банк фильтров 1401 и 1403 может иметь любой сложный экспоненциальный тип модуляции, такой как QMF или оконный DFT. Они могут четным или нечетным образом складываться при модуляции и могут быть определены с помощью широкого ряда фильтров прототипов или окон. Важно знать коэффициент ΔfS/ΔfA из параметров двух последовательных банков фильтров, измеряемых в физических единицах:
- ΔfA - область поддиапазона частот банка фильтров анализа 1401;
- ΔfS - область поддиапазона частот банка фильтров синтеза 1403.
Для конфигурирования процесса обработки поддиапазона 1402 необходимо найти соответствие между источником и целевыми показателями поддиапазона. Заметим, что входная синусоида с физической частотой Ω имеет основной вклад во входные поддиапазоны с индексом n≈Ω/ΔfA. Выходная синусоида с желаемой преобразованной физической частотой T·Ω в результате приводит к синтезу поддиапазона с индексом m≈T·Ω/ΔfS. Таким образом, значения индекса соответствующего источника обрабатываемого поддиапазона для данного целевого индекса поддиапазона m должны удовлетворять условию:
Фиг.15 иллюстрирует пример сценария для применения к участку поддиапазонана на основе перестановки с использованием нескольких порядков перестановки в расширенном HFR аудиокодировщике. Передающийся битовый поток поступает на основной декодировщик 1501, который формирует диапазон низких частот декодированного основного сигнала на частоте дискретизации fS. Низкая частота повторно дискретизируется для получения частоты дискретизации на выходе 2fS посредством сложной модуляции в 32 диапазонном банке QMF фильтров анализа 1502, за которым следует 64 диапазонный банк QMF фильтров синтеза (обратное QMF) 1505. Два банка фильтров 1502 и 1505 имеют одинаковые физические параметры разрешения ΔfS=ΔfA и блок HFR обработки 1504 просто пропускает неизмененной нижнюю часть поддиапазона низкочастотного сигнала основного диапазона частот. Высокочастотный контент в выходном сигнале получается путем подачи высокочастотных поддиапазонов из 64 диапазонного банка QMF фильтров синтеза 1505 с выходными диапазонами из модуля множественных перестановок 1503, в зависимости от требований к формированию и модификации спектра, выполняемых в блоке HFR обработки 1504. Модуль множественных перестановок 1503 принимает в качестве входного декодированный основной сигнал и выводит множество сигналов поддиапазонов, которые представляют собой 64 диапазонный QMF анализ с помощью суперпозиции или суммирования нескольких компонентов транспонированного сигнала. Цель состоит в том, что если выполняется HFR обработка, каждый компонент соответствует целочисленной физической перестановке основного сигнала (T=2, 3, …).
Фиг.16 иллюстрирует пример сценария для обработки участка поддиапазона на основе перестановки с несколькими порядками 1603 с применением отдельных банков фильтров анализа для соответствующих порядков перестановки. Эти три порядка перестановки T=2, 3, 4 должны быть выполнены и включены в область 64 диапазонной QMF обработки с частотой дискретизации на выходе 2fS. Блок суммирования 1604 просто выбирает и суммирует соответствующие поддиапазоны от каждой ветви коэффициента перестановки в единое множество QMF поддиапазонов, подаваемых в блок HFR обработки.
Рассмотрим сначала случай T=2. Цель состоит в том, чтобы в цепи обработки из 64 диапазонного QMF анализа 1602-2, блока обработки поддиапазона 1603-2, и 64 диапазонного банка QMF фильтров синтеза 1505 в результате выполнялась физическая перестановка T=2. Ссылка на эти три блока с индексами 1401, 1402 и 1403 на фиг.14 позволяет увидеть, что соотношение ΔfS/ΔfA=2 таково, что (1) в результате приводит к блоку с индексом 1603-2, для которого соответствие между исходным n и целевым m поддиапазонами дается выражением n=m.
В случае T=3, система, приведенная в примере, включает в себя преобразователь частоты дискретизации 1601-3, который преобразует входную частоту дискретизации с коэффициентом 3/2 от fS до 2fS/3. Цель состоит в том, чтобы в цепи обработки из 64 диапазонного QMF анализа 1602-3, блока обработки поддиапазона 1603-3 и 64 диапазонного банка QMF фильтров синтеза 1505 в результате выполнялась физическая перестановка T=3. Ссылка на эти три блока 1401, 1402 и 1403 на фиг.14 позволяет увидеть, что для преобразования, при котором ΔfS/ΔfA=3, выражение (1) в результате приводит к блоку с индексом 1603-3, для которого соответствие между исходным n и целевым m поддиапазонами снова дается выражением n=m.
В случае T=4, система, приведенная в примере, включает в себя преобразователь частоты дискретизации 1601-4, который преобразует входную частоту дискретизации с коэффициентом два от fS до fS/2. Цель состоит в том, чтобы в цепи обработки из 64 диапазонного QMF анализа 1602-4, блока обработки поддиапазона 1603-4 и 64 диапазонного банка QMF фильтров синтеза 1505 в результате выполнялась физическая перестановка T=4. Ссылка на эти три блока 1401, 1402 и 1403 на фиг.14, позволяет увидеть, что для преобразования, при котором ΔfS/ΔfA=4, выражение (1) в результате приводит к блоку с индексом 1603-4, для которого соответствие между исходным n и целевым m поддиапазонами также дается выражением n=m.
Фиг.17 иллюстрирует пример сценария изобретения с эффективной обработкой участка поддиапазона с несколькими порядками перестановки на основе применения перестановки в одном 64 диапазонном банке QMF фильтров анализа. Действительно, использование трех отдельных банков QMF фильтров анализа и двух преобразователей частоты дискретизации на фиг.16 в результате приводит к довольно высокой вычислительной сложности, а также некоторым неудобствам для фреймов на основе обработки за счет преобразования частоты дискретизации 1601-3. Настоящее предложение позволяет заменить две ветви 1601-3→1602-3→1603-3 и 1601-4→1602-4→1603-4 для обработки поддиапазонов 1703-3 и 1703-4, соответственно, в то время как ветвь 1602-2→1603-2 остается неизменной по сравнению с фиг.16. Все три порядка перестановки теперь будут выполняться в области фильтров со ссылкой на фиг.14, где ΔfS/ΔfA=2. В случае T=3, выражение (1) приводит к блоку с индексом 1703-3 и соответствие между исходным n и целевым m поддиапазонами дается выражением n≈2m/3. В случае T=4, выражение (1) приводит к блоку с индексом 1703-4 и соответствие между исходным n и целевым m поддиапазонами дается выражением n≈2m. Для дальнейшего уменьшения сложности, некоторые порядки перестановки могут быть созданы путем копирования уже рассчитанных порядков перестановок или копированием выхода основного декодировщика.
Фиг.1 иллюстрирует обработку участка поддиапазона в модуле перестановки с использованием перестановки с порядками 2, 3, и 4 в расширенном HFR декодировщике фреймов, например, таком как SBR [ISO/IEC 14496-3:2009, "Information technology - Coding of audio-visual objects - Part 3: Audio]. Битовый поток декодируется во временной области в основном декодировщике 101 и передается в HFR модуль 103, который генерирует высокочастотный сигнал из сигнала основного диапазона. После генерации, HFR сгенерированный сигнал динамически подстраивается с помощью переданной дополнительной информации для максимально близкого совпадения с исходным сигналом. Эта регулировка осуществляется с помощью HFR процессора 105 для сигналов поддиапазонов, полученных от одного или нескольких банков QMF фильтров анализа. Типичный сценарий, где основной декодировщик обрабатывает сигнал во временной области с частотой дискретизации, равной половине частоты входных и выходных сигналов, т.е. модуль HFR декодировщика будет эффективно выполнять повторную дискретизацию основного сигнала для увеличения в два раза частоты дискретизации. Такое преобразование частоты дискретизации, как правило, получается на первом этапе фильтрации сигнала основным кодировщиком с помощью 32 диапазонного банка QMF анализа 102. Поддиапазоны ниже так называемой частоты кроссовера, то есть нижнее подмножество из 32 поддиапазонов, которое содержит всю энергию сигнала основного кодировщика, суммируется с множеством поддиапазонов, которые содержат HFR сгенерированный сигнал. Обычно число суммируемых поддиапазонов равно 64, эти поддиапазоны, после фильтрации в банке QMF фильтров синтеза 106, в результате преобразования частоты дискретизации сигнала основного кодировщика суммируются с выходом HFR модуля.
Для участка поддиапазона в модуле HFR перестановки 103 выполняются три порядка перестановки T=2, 3 и 4 и результаты перестановки передаются в область 64 диапазонной QMF обработки с частотой дискретизации на выходе 2fS. Входной сигнал во временной области обрабатывается фильтрами диапазонов в блоках 103-12, 103-13 и 103-14. Это делается для того, чтобы на выходе получить сигналы, обработанные перестановками различных порядков, и сформировать непересекающиеся спектральный состав. Частота дискретизации сигналов затем понижается (103-23, 103-24), чтобы частота дискретизации входных сигналов соответствовала банку фильтров анализа постоянного размера (в данном случае 64). Следует отметить, что увеличение частоты дискретизации от fS до 2fS, можно объяснить тем фактом, что преобразователи частоты дискретизации используют коэффициент понижения частоты дискретизации T/2 вместо T, причем последний может привести к преобразованиям сигналов поддиапазона, имеющим равные частоты дискретизации в качестве входного сигнала. Сигналы с уменьшенной частотой дискретизации подаются на отдельный банк HFR фильтров анализа (103-32, 103-33 и 103-34), по одному на каждый порядок перестановки, которые обеспечивают формирование множества комплекснозначных сигналов поддиапазона. Они подаются в модули нелинейного расширения поддиапазонов (103-42, 103-43 и 103-44). Множество комплекснозначных выходных сигналов поддиапазона подается на модуль слияния/суммирования 104 вместе с выходом после передискретизации в банке фильтров анализа 102. Модуль слияния/суммирования просто объединяет поддиапазоны из основного банка фильтров анализа 102 и каждой ветви коэффициента растяжения в единое множество QMF поддиапазонов, которое подается в модуль HFR обработки 105.
Когда спектры сигналов различных порядков перестановки устанавливаются без перекрытия, то есть спектр сигнала T-го порядка перестановки должен начинаться там, где спектр сигнала T-1 порядка заканчивается, преобразованные сигналы должны иметь характер диапазонов. Следовательно, можно использовать традиционные фильтры диапазонов 103-12-103-14 на фиг.1. Тем не менее, с помощью простого и единственного выбора среди доступных поддиапазонов в модуле слияния/суммирования 104, отдельные фильтры диапазонов становятся избыточными и их можно исключить.
Вместо этого, качественная характеристика диапазонов, формируемая в QMF банке, получается путем подачи различных выходов от ветвей модуля перестановки независимо от каналов различных поддиапазонов в 104. Также достаточно применить растяжение во времени только для диапазонов, которые объединяются в 104.
На фиг.2 показана работа модуля нелинейного растяжения поддиапазона. Модуль извлечения 201 выделяет конечный фрейм выборок из комплекснозначного входного сигнала. Фрейм определяется положением указателя входа. Этот фрейм подвергается нелинейной обработке в 202 и впоследствии оконной операции в 203 с конечной длиной окна. Полученные выборки добавляются к ранее отмеченным выборкам в модуле перекрытия и суммирования 204, в котором позиция выходного фрейма определяется положением указателя выхода. Входной указатель увеличивается на фиксированное число, а выходной указатель увеличивается с помощью коэффициента растяжения поддиапазона, равного тому же числу. Итерация в этой цепочке операций будет формировать выходной сигнал с длительностью, увеличенной в число раз, равное коэффициенту растяжения поддиапазона, по отношению к длительности входного сигнала поддиапазона, вплоть до длины окна синтеза.
В то время как модуль SSB перестановки, на основе SBR [ISO/IEC 14496-3: 2009, "Information technology - Coding of audio-visual objects - Part 3: Audio] обычно использует весь основной диапазон частот, за исключением первого поддиапазона, модуль гармонической перестановки для создания высокочастотного диапазона сигнала, как правило, использует меньшую часть основного спектра кодировщика. Использованная часть, так называемый исходный диапазон, зависит от порядка перестановки, коэффициента расширения диапазона и правил, применяемых для суммирования, например, получены ли сигналы от различных порядков перестановки, допускается перекрытие спектров или нет. Как следствие, в модуле HFR обработки 105 для данного порядка перестановки на самом деле будет использоваться только ограниченная часть выходного спектра модуля гармонической перестановки.
Фиг.18 иллюстрирует другой вариант реализации выполнения обработки выборок при обработке единого (объединенного) сигнала поддиапазона. Объединенный сигнал поддиапазона подвергается некоторому прореживанию либо до, либо после того, как он прошел фильтрацию в банке фильтров анализа, не показанном на фиг.18. Таким образом, продолжительность во времени объединенного сигнала поддиапазона меньше, чем продолжительность во времени до прореживания. Объединенный сигнал поддиапазона поступает на вход в модуль извлечения 1800, который может быть идентичным модулю извлечения 201, но эти модули также могут быть реализованы различным образом. Модуль извлечения 1800 на фиг.18 работает с использованием улучшенного значения выборка/блок, обозначенного e. Улучшенное значение выборка/блок может быть переменным или может быть зафиксировано и показано на фиг.18, в виде стрелки к модулю извлечения 1800. На выходе модуля извлечения 1800, существует множество извлеченных блоков. Эти блоки имеют сильное перекрытие, поскольку улучшенное значение выборка/блок е значительно меньше, чем длина блока в модуле извлечения. Например в данном случае модуль извлечения извлекает блоки из 12 выборок. Первый блок включает в себя выборки от 0 до 11, второй блок включает в себя выборки с 1 по 12, третий блок включает в себя выборки 2 до 13, и так далее. В этом варианте улучшенное значение выборка/блок e равно 1, и имеется 11-кратное перекрытие.
Отдельные блоки вводятся в модуль обработки окна 1802 для оконной обработки блоков с использованием функции окна для каждого блока. Кроме того, предусмотрен вычислитель фазы 1804, который вычисляет фазу для каждого блока. Вычислитель фазы 1804 может использовать отдельный блок перед или после оконной операции. Тогда, значение регулировки фазы p×k рассчитывается и вводится в регулировщик фазы 1806. Регулировщик фазы применяет значение настройки для каждой выборки в блоке. Кроме того, коэффициент k равен коэффициенту расширения диапазона частот. Когда, например, должно быть получено расширение диапазона в 2 раза, то фаза p, рассчитанная для блока, извлекается модулем извлечения 1800 и умножается на коэффициент 2, и значение корректировки, применяемое к каждой выборке блока в регулировщик e фазы 1806, равно p, умноженному на 2. В данном примере это и есть значение/правило. Кроме того, скорректированная фаза для синтеза равна k*p, p+(k-1)*p. Таким образом, в этом примере поправочный коэффициент равен либо 2 при умножении, либо 1*p при сложении. Другие значения/правила могут быть применены для расчета значения корректировки фазы.
В варианте изобретения объединенный сигнал поддиапазона является комплексным сигналом поддиапазона, и фаза блока может быть рассчитана с помощью множества различных способов. Одним из способов является взятие выборки в середине или близко к середине блока и вычисление фазы этой сложной выборки. Кроме того, можно рассчитать фазу для каждой выборки.
Хотя на фиг.18 показан подход, в котором регулировщик фазы работает последовательно с модулем обработки окна, эти два модуля также могут быть взаимозаменяемыми, так что регулировка фазы выполняется для блоков, извлеченных модулем извлечения, с последующим выполнением оконной операции. Так как обе операции, т.е. оконная и регулировка фазы представляют собой вещественные или комплексные умножения, эти операции могут быть сведены в одну операцию с использованием комплексного коэффициента умножения, который сам по себе является произведением множителя регулировки фазы и оконного коэффициента.
Блоки с подстроенной фазой подаются на вход перекрытия/суммирования и модуль амплитудной коррекции 1808, где оконные блоки и блоки с подстроенной фазой перекрываются/суммируются. Важно, однако, чтобы улучшенное значение выборка/блок в блоке 1808 отличалось от значения, используемого в модуле извлечения 1800. В частности, улучшенное значение выборка/блок в блоке 1808 больше, чем значение e, используемое в блоке 1800, так что в блоке 1808 получается значение растяжения во времени выходного сигнала. Таким образом, обработанный выходной сигнал поддиапазона в блоке 1808 имеет длину, которая больше, чем у входного сигнала поддиапазоне в блоке 1800. Когда должно быть получено расширение диапазона, равное двум, то используется улучшенное значение выборка/блок, которое в два раза превышает соответствующее значение в блоке 1800. В результате растяжение во времени равно двум. Когда, однако, необходимо другие коэффициенты растяжения во времени, то могут быть использованы другие улучшенные значения выборка/блок так, что на выходе блока 1808 получается необходимая продолжительность по времени.
Для решения вопроса перекрытия, предпочтительно выполнять коррекцию амплитуды с целью решения вопроса о различных совпадениях в блоках 1800 и 1808. Эта коррекция амплитуды, однако, может быть также введена в модуль обработки окна/регулировщик фазы с помощью коэффициента умножения, но коррекция амплитуды также может быть выполнена после перекрытия/обработки.
В приведенном выше примере с блоком длиной 12 и улучшенным значением выборка/блок в одном модуле извлечения, улучшенное значение выборка/блок для модуля перекрытия/суммирования 1808 будет равно двум, если выполняется расширение диапазона в два раза. Это может привести к перекрытию пяти блоков. При выполнении расширения диапазона в три раза улучшенное значение выборка/блок, используемое модулем 1808, будет равно трем, а перекрытие уменьшится до перекрытия трех блоков. Если должно быть выполнено расширение диапазона частот в четыре раза, то в модуле перекрытия/суммирования 1808 придется использовать улучшенное значение выборка/блок из четырех блоков, которое по-прежнему будет приводить к перекрытию более двух блоков.
Большая вычислительная эффективность может быть достигнута за счет ограничения входных сигналов в ветвях модулей перестановки, которые содержат исключительно исходный диапазон, и эта частота дискретизации адаптирована к каждому порядку перестановки. Принципиальная схема блока такой системы для модуля поддиапазона на основе HFR генератора показана на фиг.3. Вход сигнала основного кодировщика обрабатывается специальным модулем передискретизации с уменьшением количества выборок s, предшествующих обработке в банке HFR фильтров анализа.
Основное назначение каждого модуля передискретизации с уменьшением частоты дискретизации состоит в фильтрации диапазона сигналов источников и их передаче в банк фильтров анализа с минимально возможной частотой дискретизации. Словосочетание «минимально возможной» относится к максимально низкой частоте дискретизации, которая еще может использоваться для последующей обработки, не обязательно низкая частота дискретизации, что позволяет избежать алиасинга после уменьшения частоты дискретизации. Преобразование частоты дискретизации может быть получено различными способами. Без ограничения объема изобретения, ниже приведены два примера: в первом повторная дискретизация выполняется с различными скоростями обработки во временной области, а во втором дискретизация достигается путем QMF обработки поддиапазона.
На фиг.4 приведен пример блоков с множеством битрейтов во временной области в модуле передискретизации с уменьшением выборок для порядка перестановки, равного 2. Входной сигнал с диапазоном частот B Гц и частотой дискретизации fS, модулируется с помощью комплексных экспонент (401) для выполнения частотного сдвига начала диапазона частот источников (входного сигнала) на частоту DC в соответствии с выражением:
Примеры входного сигнала и спектра после модуляции изображены на фиг.5A и 5B. Модулированный сигнал интерполируется (402) и фильтруется с помощью комплексного фильтра нижних частот с диапазоном частот в пределах от 0 до B/2 Гц (403). Спектры после соответствующей обработки показаны на фиг.5C и 5D. Отфильтрованный сигнал впоследствии прореживается (404) и вычисляется вещественная (действительная) часть сигнала (405). Результат после этих действий показан на фиг.5E и 5F. В этом конкретном примере, при T=2, B=0,6 (по нормализованной шкале, т.е. fS=2), P2 выбиралась равной 24, для безопасного перекрытия исходного диапазона. Коэффициент уменьшения частоты дискретизации становится равным
где участок был сокращен на общий множитель 8. Таким образом, коэффициент интерполяции равен 3 (как видно из фиг.5C), а коэффициент прореживания равен 8. С помощью многоскоростных тождеств Noble Identities ["Multirate Systems And Filter Banks," P.P. Vaidyanathan, 1993, Prentice Hall, Englewood Cliffs], модуль прореживания может быть перемещен влево, а интерполятор вправо на фиг.4. Таким образом, модуляция и фильтрация выполняется с минимально возможной частотой дискретизации и в дальнейшем сложность вычислений снижается.
Другой подход заключается в использовании выходных поддиапазонов после передискретизации в 32-диапазонном банке фильтров QMF анализа 102, которые существуют в способах SBR и HFR. Поддиапазоны, охватывающие диапазон источника для различных ветвей модуля перестановки синтезируются во временной области с малой частотой повторной дискретизации QMF банков, предшествующих этапу анализа в HFR банках фильтров. Такая HFR система показана на фиг.6. Малые QMF банки получают отдельные выборки от исходного 64-диапазонного QMF банка, в котором коэффициенты фильтра-прототипа находятся путем линейной интерполяции исходного фильтра-прототипа. Следуя обозначениям на фиг.6, банк QMF фильтров синтеза, предшествующий ветви модуля перестановки 2-й порядка имеет Q2=12 поддиапазонов (поддиапазонов с нулевыми значениями с номерами индексов от 8 до 19 в 32-диапазонном QMF). Для предотвращения наложения спектров в процессе синтеза, первый (индекс 8) и последний (индекс 19) диапазоны устанавливаются в ноль. Результирующий спектр излучения показан на фиг.7. Обратим внимание, что блок модуля перестановки на основе банка фильтров анализа имеет 2Q2=24 поддиапазонов, т.е. такое же количество поддиапазонов, как и при использовании различных частот дискретизации во временной области в модуле передискретизации с уменьшением выборок на основе примера (фиг.3).
Если сравнить фиг.6 и фиг.23, то видно, что элемент 601 из фиг.6 соответствует банку фильтров анализа 2302 на фиг.23. Кроме того, банк фильтров синтеза 2304 на фиг.23 соответствует элементу 602-2, а дополнительный банк фильтров анализа 2307 на фиг.23 соответствует элементу 603-2. Модуль 604-2 соответствует модулю 2309, а 605 сумматор может соответствовать банку фильтров синтеза 2311, но в других вариантах сумматор может быть настроен на выходные сигналы поддиапазона, а затем может быть использован последующий банк фильтров синтеза, подключенный к сумматору. Однако в зависимости от варианта реализации, определенная восстановленная высокая частота, представленная в контексте фиг.26, может быть получена перед выполнением фильтрации синтеза в банке фильтров синтеза 2311 или сумматоре 205, или эта может частота быть получена позже при фильтрации синтеза в банке фильтров синтеза 2311 по фиг.23, либо после сумматора в блоке 605 на фиг.6.
Другие ветви, находящиеся от 602-3 до 604-3 или находящиеся от 602-T до 604-T, не показаны на фиг.23, но могут быть реализованы таким же образом, но с разными размерами банка фильтров, где T на фиг.6 соответствует коэффициенту перестановки. Однако как обсуждалось в контексте фиг.27, перестановка с коэффициентом перестановки, равным 3, и перестановка с коэффициентом перестановки, равной 4, могут быть введены в ветвь обработки, состоящей из элементов 602-2 на 604-2, так что модуль 604-2 не только обеспечивает перенос с коэффициентом 2, но и перенос с коэффициентами 3 и 4, вместе с некоторым банком фильтров синтеза, используемым как это обсуждалось в контексте фиг.26 и 27.
Вариант исполнения на фиг.6, Q2 соответствует MS, равным, например, 12. Кроме того, размер банка фильтров дальнейшего анализа 603-2, соответствующий элементу 2307, равен 2MS, т.е. 24 в рассматриваемом варианте.
Кроме того, как указано выше, наименьший и наибольший каналы поддиапазона в банке фильтров синтеза 2304 можно задавать равными нулю для исключения проблем алиасинга.
Система, приведенная на фиг.1, может рассматриваться как упрощенный частный случай передискретизации, представленный на фиг.3 и 4. Для упрощения понимания, модуляторы не показаны. Кроме того, фильтрация при HFR анализе получена с использованием 64-диапазонного банка фильтров анализа. Таким образом, на фиг.3 P2=P3=P4=64, а коэффициенты уменьшения частоты дискретизации равны 1, 1,5 и 2 для 2-го, 3-го и 4-го порядка перестановки в соответствующих ветвях.
Преимущество настоящего изобретения в том, что в контексте заявленной обработки путем критической выборки, сигналы поддиапазонов из 32-диапазонного банка QMF фильтров анализа, соответствующие модулям 2302 на фиг.23 или 601 на фиг.6, могут быть использованы по стандарту MPEG4 (ISO/IEC 14496-3). Определение этого банка фильтров анализа в стандарте MPEG-4 показано в таблице 2 и показана в виде блок-схемы на фиг.25A, которая также взята из MPEG-4 стандарта. SBR (копирование спектрального диапазона частот) часть этого стандарта включена здесь путем ссылки. В частности, банк фильтров анализа 2302 на фиг.23 или 32-диапазонный QMF 601 на фиг.6 может быть реализован, как показано в таблице 2 и блок-схеме на фиг.25A.
Кроме того, банк фильтров синтеза, показанный в модуле 2311 на фиг.23, может быть реализован, как показано в таблице 2 и как показано на схеме фиг.25B. Тем не менее, могут быть применены любые другие определения фильтров, но при использовании банка фильтров анализа 2302 реализация, показанная в таблице 2 и на фиг.25A, является предпочтительной в связи с надежностью, стабильностью и высоким качеством предоставляемых этим имеющим 32 канала MPEG-4 банком фильтров анализа в контексте расширения диапазона возможных приложений, таких как спектральное копирование диапазона, или любые другие приложения с восстановлением высокочастотного диапазона.
Банк фильтров синтеза 2304 настроен для синтеза множества поддиапазонов, охватывающих исходный диапазон в модуле перестановки. Такой синтез позволяет выполнить синтез промежуточного сигнала 2306 во временной области. Предпочтительно, чтобы малый банк фильтров синтеза 2304 имел QMF банк с малыми вещественными выборками.
Выход во временной области 2306 этого банка фильтров подается на комплексный банк QMF фильтров анализа с удвоенным размером банка фильтров. Этот QMF банк иллюстрируется модулем 2307 на фиг.23. Эта процедура позволяет существенно экономить вычислительную сложность, как только соответствующий исходный диапазон преобразуется в область QMF поддиапазона с удвоенной частотой разрешения. Малые QMF банки получают малые выборки из исходного 64-диапазонного QMF банка, где коэффициенты фильтра-прототипа получаются путем линейной интерполяции исходного фильтра-прототипа. Предпочтительно, чтобы использовался фильтр-прототип, связанный с MPEG-4 банком фильтров синтеза, имеющим 640 выборок, в котором MPEG-4 банк фильтров анализа имеет окно из 320 выборок.
Процедура получения малых выборок в банке фильтров описана на фиг.24A и 24B, иллюстрирующих блок-схему. Сначала определяются следующие переменные:
где MS является размером малых выборок банка фильтров синтеза и kL представляет индекс поддиапазона первого канала из 32-диапазонного QMF банка, необходимый для входа в банк фильтров синтеза с малыми выборками. Массив startSubband2kL приведен в таблице 1. Функция потока {x} округляет аргумент x до ближайшего целого числа в сторону минус бесконечности.
Таким образом, значение MS определяет размер банка фильтров синтеза 2304 на фиг.23, а KL это первый канал подмножества 2305, указанный на фиг.23. В частности, значения в уравнении ftableLow определены в ISO/IEC 14496-3, в разделе 4.6.18.3.2, который также включен в настоящее описание посредством ссылки. Следует отметить, что значение MS идет с увеличением на 4, что означает, что размер банка фильтров синтеза 2304 может быть 4, 8, 12, 16, 20, 24, 28 или 32.
Предпочтительно, чтобы банк фильтров синтеза 2304 являлся банком фильтров синтеза с вещественными значениями. Для этого набора MS вещественных значений выборок поддиапазона рассчитываются, с использованием MS, новые комплексные значения выборок поддиапазона в соответствии с первым шагом на фиг.24A. Для этого используется следующее уравнение
В уравнении exp () обозначает комплексную экспоненциальную функцию, i мнимую единицу, а kL было определено ранее.
- Сдвиг выборок в массиве V происходит на 2MS позиции. Самые старшие 2MS выборки удаляются.
- MS выборки поддиапазона с вещественными значениями умножается на матрицу N, то есть вычисляется результат умножения матрицы на вектор N·V, где
Результат этой операции сохраняется в позициях от 0 до 2MS-1 в массиве v.
- Извлечение выборок из v происходит в соответствии с блок-схемой на фиг.24A для создания 10MS-элемента массива g.
- Выполняется умножение выборок массива g на окна ci для получения массива w. Коэффициенты окна ci получены путем линейной интерполяции коэффициентов c, т.е. с помощью уравнения
ci(n)=ρ(n)c(µ(n)+1)+(1-ρ(n))c(µ(n)), 0≤n≤10MS
где µ(n) и ρ(n) являются целой и дробной частями, соответственно.
Коэффициенты окна c можно найти в таблице 4.A.87 из ISO/IEC 14496-3:2009.
Таким образом, банк фильтров синтеза имеет вычислитель функции окна прототипа для расчета функции окна прототипа на основе малых выборок или интерполяции с помощью сохраненной функции окна для фильтров с различным размером.
- Расчет MS новых выходных выборок выполняется путем суммировании выборок из массива w в соответствии с последним шагом в блок-схеме на фиг.24A.
Далее на фиг.23 и блок-схеме на фиг.24B показан предпочтительный вариант исполнения дополнительного банка фильтров анализа 2307.
- Сдвиг выборок в массиве x на 2MS позиции выполняется в соответствии с первым шагом на фиг.24B. Самые старшие 2MS выборки отбрасываются и новые 2MS выборок записываются в позиции от 0 до 2MS-1.
- Выборки массива x умножаются на коэффициенты окна c2i. Коэффициенты окна c2i получены путем линейной интерполяции коэффициентов c, т.е. с помощью уравнения
c2i(n)=ρ(n)c(µ(n)+1)+(1-ρ(n))c(µ(n)), 0≤n≤20MS
где µ(n) и ρ(n) являются целой и дробной частями 32·n/MS, соответственно.
Коэффициенты окна можно найти в таблице 4.A.87 из ISO/IEC 14496-3: 2009.
Следовательно, дополнительный банк фильтров анализа 2307 имеет вычислитель функции окна прототипа для расчета функции окна прототипа с помощью малых выборок или интерполяции с помощью хранимой функции окна для фильтров с различным размером.
- выборки суммируются в соответствии с формулой в блок-схеме на фиг.24B, и формируется 4MS элемент массива u.
- Рассчитываются 2MS новых комплексных выборок поддиапазона путем умножения матрицы на вектор M·u, где
В уравнении, exp () означает комплексную экспоненциальную функцию, а i - мнимую единицу.
Блок-схема для коэффициента 2 в модуле передискретизации с уменьшением выборок показана на фиг.8A. В этом случае фильтр низких частот с вещественными значениями может быть записан в виде H(z)=B(z)/A(z), где B(z) не-рекурсивная часть (FIR), а A(z) - рекурсивная часть (IIR). Однако для эффективной реализации с использованием многоскоростных тождеств Noble Identities для уменьшения вычислительной сложности, предпочтительно создать фильтр, у которого все полюса имеют кратность 2 (двойные полюсы), т.е. A(z2). Таким образом, фильтр может быть учтен, как показано на фиг.8B. При использовании Noble Identities 1, рекурсивная часть может быть размещена после модуля прореживания, как показано на фиг.8C. Нерекурсивный фильтр B(z) может быть реализован с помощью стандартного 2-компонентного многофазного разложения:
Таким образом, модуль передискретизации с уменьшением выборок может быть структурирован как показано на фиг.8D. После использования Noble Identity 1, FIR часть вычисляется при минимально возможной частоте дискретизации, как показано на фиг.8E. Из фиг.8E, легко видеть, что FIR операции (цепь задержки, модуль прореживания и многофазные компоненты) можно рассматривать как операцию суммирования окна с использованием входного элемента из двух выборок. Для двух входных выборок, одна новая выходная выборка фактически будет производиться в результате понижения частоты дискретизации с коэффициентом 2.
Блок-схема с коэффициентом 1,5=3/2 в модуле передискретизации с уменьшением выборок показана на фиг.9A. Фильтр низких частот с вещественными значениями снова может быть задан в виде H(z)=B(z)/A(z), где B(z) не-рекурсивная часть (FIR) и A(z) рекурсивная часть (IIR). Как и прежде, для эффективной реализации с целью уменьшения вычислительной сложности на основе использования многоскоростных тождеств Noble Identities предпочтительно создать фильтр, у которого все полюса имеют кратность 2 (двойные полюсы) либо кратность 3 (тройные полюсы), т.е. A(z2) или A(z3) соответственно. Здесь двойной полюс выбран в качестве алгоритма дизайна, являющегося более эффективным для фильтра низких частот, хотя рекурсивная часть фактически в 1,5 раза сложнее при реализации по сравнению с подходом на основе тройных полюсов. Таким образом, фильтр может быть учтен, как показано на фиг.9B. При использовании Noble Identities 2 рекурсивная часть может быть перемещена в переднюю часть интерполятора, как показано на фиг.9C. Нерекурсивный фильтр может быть реализован с помощью стандартного разложения многофазных компонент, в соответствии с выражением:
Таким образом, модуль передискретизации с уменьшением выборок может быть структурирован, как показано на фиг.9D. После использования Noble Identity 1 и 2, вычисляется FIR часть при минимально возможной частоте дискретизации, как показано на фиг.9E. Из фиг.9E легко видеть, что четные индексированные выходные выборки вычисляются с использованием нижних диапазонов трех многофазных фильтров (E0(z), E2(z), E4(z)), а нечетные индексированные выборки вычисляются с использованием верхних диапазонов (E1(z), E3(z), E5(z)). Работу каждой группы (цепь задержки, модуль прореживания и многофазные компоненты) можно рассматривать как операцию суммирования окна с использованием входного элемента из трех выборок. Коэффициенты окна, используемые в верхних диапазонах, имеют нечетные коэффициенты индексации, в то время как нижние диапазоны используют четные коэффициенты индексации исходного фильтра. Таким образом, для группы из трех входных выборок, будут сформированы две новые выходные выборки и результирующей эффективностью с понижением частоты дискретизации в 1,5 раза.
Сигнал во временной области от основного декодировщика (101 на фиг.1) также может быть передискретизирован с меньшей частотой дискретизации при преобразовании синтеза в основном декодировщике. Использование преобразования синтеза с меньшей частотой дискретизации позволяет еще более снизить вычислительную сложность. В зависимости от частоты кроссовера (частоты переключения каналов), то есть из диапазона сигнала основного кодировщика, при соотношении размера преобразования синтеза и номинального размера Q(Q<1), в результате получается выходной сигнал основного кодировщика с частотой дискретизации QfS. Для обработки передискретизированного сигнала основного кодировщика в выборках, применяемых в данном исполнении, все банки фильтров анализа по фиг.1 (102, 103-32, 103-33 и 103-34) должны масштабироваться с коэффициентом Q, а модуль передискретизации должен работать с уменьшением выборок S (301-2, 301-3 и 301-Т) на фиг.3, при использовании модуля прореживания 404 по фиг.4, а также банка фильтров анализа 601 по фиг.6. Очевидно, что Q должен быть выбран таким образом, чтобы размеры всех банков фильтров являлись целыми числами.
Фиг.10 иллюстрирует выравнивание спектральных границ в HFR модуле перестановки сигналов в соответствии с частотной таблицей регулировки огибающей спектральной границы в HFR расширенном кодировщике, таком как SBR [ISO/IEC 14496-3:2009, "Information technology - Coding of audio-visual objects - Part 3: Audio]. Рис 10(a) показывает, стилистический график диапазона частот, содержащий частотную таблицу регулировки огибающей спектральной границы с так называемыми коэффициентами масштабирования диапазонов, охватывающими диапазон частот от частоты кроссовера kx до конечной частоты ks. Коэффициенты масштабирования диапазонов представляют собой сетки частот, используемые в HFR расширенном кодировщике при регулировке уровня энергии вновь сгенерированного высокочастотного диапазона, т.е. частотной огибающей. Для регулировки огибающей, энергия сигнала усредняется в блоке по времени/частоте и ограничивается границами диапазона коэффициентов масштабирования и границами выбранного промежутка времени. Если сигналы, сгенерированные различными порядками перестановки, не выровнены в диапазоне коэффициентов масштабирования, как показано на фиг.10B, могут возникнуть артефакты, если спектральная энергия резко изменяется в непосредственной близости от границ диапазонов перестановки, поскольку процесс настройки огибающей будет поддерживать структуру спектра в пределах одного диапазона коэффициента масштабирования. Таким образом, предлагаемое решение адаптирует частотные границы преобразованных сигналов с границами диапазона коэффициентов масштабирования, как показано на фиг.10C. На рисунке верхние границы сигналов, сгенерированные с помощью порядков перестановки 2 и 3 (T=2, 3), немного ниже по сравнению с фиг.10B с целью согласования диапазона коэффициентов масштабирования обрабатываемых диапазонов и границ существующих диапазонов коэффициентов масштабирования.
Реалистичный сценарий демонстрации потенциальных артефактов при использовании невыровненных границ изображен на фиг.11. На фиг.11A еще раз показаны границы диапазона коэффициентов масштабирования. На фиг.11B показаны нескорректированные HFR сгенерированные сигналы с порядками перестановки T=2, 3 и 4 вместе с основным диапазоном декодированного сигнала. На фиг.11C показана огибающая скорректированного сигнала, когда предполагается плоская целевая огибающая. Блоки с клеточной штриховкой представляют диапазоны коэффициентов масштабирования с высокими изменениями энергии, которые могут привести к аномалиям в выходном сигнале.
Фиг.12 иллюстрирует сценарий фиг.11 в случае использования соответствия границ. Фиг.12A показывает границы диапазона коэффициентов масштабирования, фиг.12B представляет нескорректированные сгенерированные HFR сигналы с порядками перестановки T=2, 3 и 4 вместе с основным диапазоном декодированного сигнала в соответствии с фиг.11C, фиг.12C показывает огибающую скорректированного сигнала, когда предполагается плоская целевая огибающая. Как видно из этого чертежа, отсутствуют диапазоны коэффициентов масштабирования с высокими изменениями энергии вследствие рассогласования границ преобразованных диапазонов сигнала и диапазонов коэффициентов масштабирования, поэтому уменьшается возможность появления артефактов.
Фиг.13 иллюстрирует адаптацию границ с помощью HFR ограничителя границ диапазонов, как описано, например, в SBR [ISO/IEC 14496-3: 2009, "Information technology - Coding of audio-visual objects - Part 3: Audio] для гармонического патчирования в HFR расширенном кодировщике. Ограничитель работает в диапазонах частот с гораздо более грубым разрешением, чем в диапазоне коэффициентов масштабирования, но принцип работы имеет очень близкий. В ограничителе рассчитывается среднее значение усиления для каждого из диапазонов ограничителя. Отдельные значения коэффициента усиления, т.е. огибающая значений усиления, рассчитанная для каждого диапазона коэффициентов масштабирования, не может превышать среднее значение коэффициента усиления ограничителя более чем на определенный мультипликативный коэффициент. Цель ограничителя состоит в том, чтобы подавить большие изменения усиления в диапазонах коэффициента масштабирования в пределах каждого диапазона ограничения. Несмотря на то, что адаптация сгенерированных в модуле перестановки диапазонов к диапазонам коэффициента масштабирования обеспечивает малые изменения энергии в пределах диапазона коэффициента масштабирования, адаптация границ в ограничителе границ диапазона к границам диапазонов в модуле перестановки, в соответствии с настоящим изобретением, способна функционировать в более широком диапазоне изменений энергии между обрабатываемыми диапазонами в модуле перестановки.
Фиг.13A показывает ограничения по частоте сгенерированных HFR сигналов с порядками перестанови T=2, 3 и 4. Энергетические уровни различных преобразованные сигналов могут существенно различаться. Фиг.13B показывает частотные диапазоны ограничителя, которые, как правило, имеют постоянную ширину по логарифмической шкале частот. Границы частотного диапазона модуля перестановки добавляются в качестве постоянных границ ограничителя, а оставшиеся границы ограничителя пересчитываются для сохранения логарифмических соотношений, как, например, показано на фиг.13C. Хотя некоторые аспекты были описаны в контексте аппаратной части, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или части этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента, или компонента соответствующего аппаратного модуля.
Другие варианты используют смешанные схемы патчирования, которые показаны на фиг.21, где смешанный способ патчирования не используется во временном блоке. Для полного охвата различных областей HF спектра, BWE включает в себя несколько патчей. В НВЕ патчи высоких порядков требуют использования высоких коэффициентов перестановки в фазовом вокодировщике, которые особенно ухудшают качество восприятия переходных процессов.
Таким образом, предпочтительны варианты создания патчей высшего порядка, которые занимают верхние участки спектра, и имеют вычислительную эффективность SSB копирования при патчировании вверх, и также предпочтительны патчи низкого порядка в ближних спектральных областях, для которых желательно сохранение гармонической структуры, особенно при НВЕ патчировании. Отдельные совмещения способов патчирования могут быть статическими в течение долгого времени или, предпочтительно, чтобы этот процесс был управляемым для потока битов.
Для операции копирования вверх, может быть использована низкочастотная информация, как показано на фиг.21. Кроме того, могут быть использованы данные из патчей, которые были получены с использованием НВЕ способов, как показано на фиг.21. Последнее приводит к менее плотным тональным структурам для высших патчей. Кроме этих двух примеров, допускаются все комбинации копирования вверх и НВЕ.
Преимуществами предлагаемой концепции являются:
- Улучшенное восприятие качества переходных процессов
- Снижение вычислительной сложности
Фиг.26 иллюстрирует предпочтительную цепь обработки с целью расширения диапазона частот, где при нелинейной обработке поддиапазона могут быть выполнены различные операции обработки, указанные индексами 1020a, 1020b. Каскадированный банк фильтров 2302, 2304, 2307 представлен на фиг.26 под индексом 1010. Кроме того, индекс 2309 может соответствовать элементам 1020a, 1020b, а регулировщик огибающей 1030 может быть помещен между модулями 2309 и 2311 на фиг.23 или может быть помещен после обработки в модуле 2311. В этой реализации, избирательная обработка диапазона обрабатываемого сигнала во временной области, например, расширение диапазона сигнала, выполняется во временной области, а не в области поддиапазона, которая существовала до банка фильтров синтеза 2311.
Фиг.26 иллюстрирует устройство для генерации диапазона частот расширенного звукового сигнала на основе низкочастотного входного сигнала 1000 в соответствии с другим вариантом исполнения. Устройство содержит банк фильтров анализа 1010, желаемый поддиапазон нелинейного процессора поддиапазона 1020a, 1020b, впоследствии связанный с регулировщиком огибающей 1030 или, в общем случае, процессором восстановления высоких частот, вырабатывающим параметры восстановления высоких частот, как, например, параметры на входной линии 1040. Регулировщик огибающей, или, как обычно его называют, процессор восстановления высоких частот, обрабатывает отдельные сигналы поддиапазонов для каждого канала поддиапазона и входы обрабатываемых сигналов поддиапазонов для каждого канала поддиапазона в банке фильтров синтеза 1050. Банк фильтров синтеза 1050 получает в качестве своих входных сигналов низкочастотных каналов, представление поддиапазона низкочастотного сигнала основного декодировщика. В зависимости от реализации, низкочастотный диапазон также может быть получен с выходов банка фильтров анализа 1010 на фиг.26. Преобразованные сигналы поддиапазонов подаются в высокочастотные каналы банка фильтров синтеза для формирования восстановленных высоких частот.
Банк фильтров 1050, в результате выдает сигнал на выход модуля перестановки, который включает в себя расширение диапазона частот с помощью коэффициентов перестановки 2, 3, и 4, а выходной сигнал модуля 1050 больше не имеет ограничений диапазона по частоте кроссовера, то есть до максимальной частоты сигнала основного кодировщика, соответствующего низкой частоте сгенерированных SBR или HFR компонентов сигнала.
В варианте исполнения фиг.26 банк фильтров анализа производит в два раза больше выборок и имеет определенный интервал поддиапазона анализа 1060. Банк фильтров синтеза 1050 имеет интервал поддиапазона анализа 1070, который, в данном варианте имеет удвоенный размер интервала анализа поддиапазона, что приводит к вкладу в перестановку, который будет обсуждаться ниже в контексте фиг.27.
На фиг.27 подробно показана реализация предпочтительного варианта нелинейного процессора поддиапазона 1020a по фиг.26. Схема на фиг.27 получает в качестве входного единый сигнал поддиапазона 108, который обрабатывается в трех «ветвях»: верхняя ветвь 110a используется для перестановки с коэффициентом перестановки, равным 2. Ветвь в середине фиг.27, указанная индексом 110b используется для перестановки с коэффициентом перестановки, равным 3, а нижняя ветвь на фиг.27 используется для перестановки с коэффициентом перестановки, равным 4 и обозначается индексом 110c. Однако фактическая перестановка, полученная каждым элементом обработки на фиг.27, равна 1 (т.е. перестановка отсутствует) для ветви 110a. Фактическая перестановка, полученная элементом обработки, показанным на фиг.27 для средней ветви 110b, равна 1,5, а фактическая перестановка для нижней ветви 110c равна 2. Об этом свидетельствуют цифры в скобках в левой части фиг.27, где указан коэффициент перестановки T. Перестановки 1,5 и 2 представляют собой вклад в первую перестановку, полученную при выполнении операции прореживания в ветвях 110b, 110c и определении времени растяжения в процессоре перекрытия и суммирования.
Второй вклад, т.е. удвоенная перестановка, получается в банке фильтров синтеза 105, имеющем интервал поддиапазона анализа 107, который в два раза больше интервала анализа банка фильтров поддиапазона. Поэтому, так как банк фильтров синтеза имеет в два раза больший интервал анализа поддиапазона, в ветви 110a не выполняется никакой функциональности прореживания.
Ветвь 110b, однако, имеет функциональность прореживания для получения перестановки с коэффициентом 1,5. В связи с тем, что банк фильтров синтеза имеет два раза больший физический интервал поддиапазона банка фильтров анализа, выполняется перестановка с коэффициентом перестановки, равным 3, как показано на фиг.27 слева от модуля извлечения для второй ветви 110b.
Аналогично, третья ветвь имеет функциональность прореживания, соответствующую перестановке с коэффициентом перестановки, равным 2, а окончательный вклад различных интервалов поддиапазонов в банке фильтров анализа и банке фильтров синтеза, в результате, соответствует перестановке с коэффициентом перестановки, равным 4 в третьей ветви 110c.
В частности, каждая ветвь имеет модули извлечения 120a, 120b, 120c, и каждый из этих модулей извлечения может быть похож на модуль извлечения 1800 из фиг.18. Кроме того, каждая ветвь имеет вычислитель фазы 122a, 122b и 122c, и каждый вычислитель фазы может быть похож на вычислитель фазы 1804 из фиг.18. Кроме того, каждая ветвь имеет регулировщики фазы 124a, 124b, 124c и каждый регулировщик фазы может быть похож на регулировщик фазы 1806c из фиг.18. Кроме того, каждая ветвь имеет модуль обработки окна 126a, 126b, 126c, где каждый из этих модулей обработки окна s может быть похож на модуль обработки окна 1802 из фиг.18. Тем не менее, модули обработки окна s 126a, 126b, 126c также могут быть настроены на использование прямоугольных окон вместе с некоторыми "заполнениями нулями". Транспонированные или патчированные сигналы от каждой ветви 110a, 110b, 110c в варианте изобретения на фиг.27, вводятся в сумматор 128, который добавляет вклад от каждой ветви в текущий сигнал поддиапазона чтобы, в результате, получить так называемые транспонированные блоки на выходе сумматора 128. Затем выполняется процедура перекрытия с суммированием по перекрытию и суммированию 130, и модуль перекрытия с суммированием 130 может быть похож на модуль перекрытия/суммирования 1808 из фиг.18. Модуль перекрытия/суммирования применяется для перекрытия с суммированием с улучшенным значением, равным 2-е, где е улучшенное значение перекрытия или " значение шага" в модулях извлечения 120a, 120b, 120c, а модуль перекрытия/суммирования 130 формирует на выходах преобразованный сигнал, который, в варианте фиг.27, имеет единый выход поддиапазона для канала k, т.е. для рассматриваемого текущего канала поддиапазона. Обработка, показанная на фиг.27, выполняется для каждого анализируемого поддиапазона или для определенной группы анализируемых поддиапазонов, как показано на фиг.26, преобразованные сигналы поддиапазонов вводятся в банк фильтров синтеза 1050 после обработки в модуле 1030, чтобы в результате получить выходной сигнал модуля перестановки, как показано на фиг.26 на выходе модуля 1050.
В варианте изобретения, модуль извлечения 120a первой ветви модуля перестановки 110a извлекает 10 выборок поддиапазона, а затем выполняется преобразование этих 10 QMF выборок в полярных координатах. Этот выходной сигнал, сформированный в регулировщике фазы 124a, затем направляется в модуль обработки окна 126a, который расширяет выходной сигнал нулями в первом и последнем значениях в блоке, т.е. эта операция эквивалентна оконной операции (синтеза) с прямоугольным окном длиной 10. Модуль извлечения 120a в ветви 110a не выполняют прореживание. Таким образом, выборки, извлеченные модулем извлечения, переходят в извлеченный блок в том же интервале выборок, в котором они были извлечены.
Тем не менее, существуют различия в ветвях 110b и 110c. Предпочтительно, чтобы модуль извлечения 120b извлекал блок из 8 выборок поддиапазона и направлял эти 8 выборок поддиапазона в извлеченный блок в интервале выборок различных поддиапазонов. Нецелые записи выборок поддиапазона для выделенных блоков получаются путем интерполяции, и полученные таким образом QMF выборки вместе с интерполированными выборками преобразуются в полярных координатах и обрабатываются в регулировщике фазы. Кроме того, оконная операция в модуле обработки окна 126b осуществляется с целью расширения нулями в течение первых двух выборок выходного блока в 124b регулировщике фазы, а обработка последних двух выборок эквивалентна оконной операции (синтеза) с прямоугольным окном длиной 8.
Модуль извлечения 120 с, настроенный на извлечение блоков с расширением во времени из 6 выборок поддиапазона и выполнение прореживания с коэффициентом прореживания 2, выполняет преобразование QMF выборок в полярных координатах и повторно выполняет операцию в регулировщике фазы 124b, а выход вновь расширяется нулями, однако теперь в течение первых трех выборок поддиапазона и последних трех выборок поддиапазона. Эта операция эквивалентна оконной операции (синтеза) с прямоугольным окном длиной 6.
Затем используется перестановка выходов каждой ветви для формирования суммарного QMF выхода в сумматоре 128, и суммарные QMF выходы, в результате, накладывается с использованием перекрытия и суммирования в блоке 130, где улучшенное перекрытие и суммирование или значение шага в два раза больше значения шага в модулях извлечения 120a, 120b, 120c, как обсуждалось выше.
Один из вариантов включает в себя способ декодирования звукового сигнала с помощью блока поддиапазона на основе гармонических перестановок, включая фильтрацию основного декодированного сигнала с помощью М-диапазонного банка фильтров анализа для получения набора сигналов поддиапазонов; синтеза подмножества указанных сигналов поддиапазонов с помощью передискретизации в банке фильтров синтеза, имеющем уменьшенное число поддиапазонов, чтобы получить передискретизацию исходных сигналов диапазонов.
Воплощение изобретения относится к способу выравнивания границ спектрального диапазона HFR генерируемых сигналов до спектральных границ, используемых в параметрических процессах.
Воплощение относится к способу выравнивания спектральных границ HFR генерируемых сигналов в соответствии с частотной таблицей регулировки огибающей спектральной границы е, включающей: поиск самой верхней границы в частотной таблицей регулировки огибающей е, которая не превышают фундаментальные ограничения диапазон HFR сгенерированного сигнала с коэффициентом перестановки T, и использование найденной верхней границы в качестве предела частоты HFR сгенерированного сигнала с коэффициентом перестановки T.
Воплощение относится к способу выравнивания спектральных границ с помощью инструментов ограничения спектральных границ HFR сгенерированных сигналов, включающему: добавление частотных границ HFR сгенерированных сигналов в таблицу границ, необходимую для создания диапазона частотных границ, используемых инструментами ограничения. Таблица границ позволяет ограничителю использовать добавленные частотные границы в качестве постоянных границ с соответствующей регулировкой остальных границ.
Воплощение относится к комбинированным перестановкам звукового сигнала, состоящим из нескольких целых порядков перестановок при низком разрешении области фильтрации, при которых операция перестановки выполняется с временными блоками сигналов поддиапазона.
Еще один вариант относится к комбинированным перестановкам, в которых порядки перестановки, большие чем 2, могут выполняться на основе соответствующего устройства для порядков перестановки, равных 2.
Еще один вариант относится к комбинированным перестановкам, в которых порядки перестановки больше 3, выполнены в соответствующем аппаратном исполнении для порядков перестановки 3, в то время как перестановки с порядками ниже чем 4 выполняются отдельно.
Еще один вариант относится к комбинированным перестановкам, в которых порядки перестановки (например, порядки перестановки больше 2), возникающие при копировании с предварительно рассчитанными порядками перестановки (т.е. особенно в случаях малых порядков), включая основной диапазон кодирования. Все возможные комбинации из имеющихся порядков перестановки и основного диапазона частот можно использовать без ограничений.
Воплощение относится к снижению вычислительной сложности в связи с уменьшением количества банков фильтров анализа, которые необходимы для перестановки.
Воплощение относится к устройствам для получения сигнала с расширенным диапазоном частот из входного звукового сигнала, включающим: патчи для патчирования входного звукового сигнала для получения первого патчированного сигнала и второго патчированного сигнала, второй патчированный сигнал с отличающейся частотой патчей по сравнению к первым патчированным сигналом, причем первый патчированный сигнал генерируется с использованием первого алгоритма патчирования, а второй патчированный сигнал генерируется с использованием второго алгоритма патчирования, и сумматор для объединения первого патчированного сигнала, и второго патчированного сигнала для получения диапазона частот расширенного сигнала.
Другой вариант связан устройство в соответствии с которым первый алгоритм патчирования является гармоническим алгоритмом патчирования, а второй алгоритм патчирования не является гармоническим алгоритмом патчирования.
Следующий вариант связан с предыдущим устройством, в котором первая частота патчирования ниже, чем вторая частота патчирования или наоборот.
Следующий вариант связан с предыдущим устройством, в котором входной сигнал содержит информацию патчирования, и в котором модуль патчирования настроен на выполнение контроля информации патчирования, извлеченной из входного сигнала с помощью измененного первого алгоритма патчирования или второго алгоритма патчирования в зависимости от информации патчирования.
Следующий вариант связан с предыдущим устройством, в котором модуль патчирования выполняет операцию патчирования последовательных блоков выборок звукового сигнала, и в которой модуль патчирования настроен на применение первого алгоритма патчирования и второго алгоритма патчирования в одном блоке звуковых выборок.
Следующий вариант связан с предыдущим устройством, в котором содержится патч произвольного порядка, модуль прореживания, управляемый с помощью коэффициента расширения диапазона частот, банк фильтров, и расширитель для сигнала поддиапазона в банке фильтров.
Следующий вариант связан с предыдущим устройством, в котором расширитель содержит модуль извлечения для извлечения ряда перекрывающихся блоков в соответствии с улучшенным значением извлечения; регулировщик фазы или модуль обработки окна для настройки значений выборок поддиапазона в каждом блоке, использующем функцию окна или коррекцию фазы; и перекрытие/суммирование для выполнения процедуры перекрытия с суммирования подстроенных в окне и скорректированных по фазе блоков, при использовании улучшенного значения перекрытия большего, чем улучшенное значение извлечения.
Еще один вариант относится к устройству для расширения диапазона частот звукового сигнала, содержащей: банк фильтров для фильтрации звукового сигнала и получения сигналов поддиапазонов с уменьшенной частотой дискретизации; множество различных процессоров поддиапазона для обработки различных сигналов поддиапазонов различными способами, процессоры поддиапазонов выполняют различные операции по растяжению во времени сигнала поддиапазона с использованием различных коэффициентов растяжения; объединения обработанных выходных поддиапазонов с помощью множества различных процессоров поддиапазонов и получения расширенного диапазона частот звукового сигнала.
Еще один вариант относится к устройству для уменьшения частоты дискретизации звукового сигнала, включающей: модулятор; интерполятор, использующий коэффициент интерполяции; комплексный фильтр низких частот, а также модуль прореживания, использующий коэффициент прореживания, в котором коэффициент прореживания больше, чем коэффициент интерполяции.
Воплощение относится к устройству для уменьшения частоты дискретизации звукового сигнала, содержащей: первый банк фильтров для генерирования множества сигналов поддиапазонов из звукового сигнала, причем частота дискретизации сигнала поддиапазона меньше, чем частота дискретизации звукового сигнала; по крайней мере один банк фильтров синтеза с последующим банком фильтров анализа для выполнения преобразования частоты дискретизации, банк фильтров синтеза с числом каналов, отличающимся от числа каналов банка фильтра анализа; процессор растяжения во времени для обработки частоты дискретизации преобразованного сигнала; и сумматор для объединения растянутого во времени сигнала и низкочастотного сигнала или в другого растянутого во времени сигнала.
Еще один вариант относится к устройству для уменьшения частоты дискретизации звукового сигнала с помощью нецелочисленного коэффициента понижения частоты дискретизации, включающей: цифровой фильтр; интерполятор, имеющий коэффициент интерполяции; многофазный элемент с четной и нечетной ветвями; и модуль прореживания, имеющий коэффициент прореживания, больший, чем коэффициент интерполяции, коэффициент прореживания и коэффициент интерполяции выбираются такими, чтобы отношение коэффициента интерполяции и коэффициента прореживания не являлось целым числом.
Один из вариантов относится к устройству для обработки звукового сигнала, включающей: основной декодировщик, имеющий размер преобразования синтеза, меньший, чем номинальный размер преобразования, так что выходной сигнал генерируется в основном декодировщике, имеющем частоту дискретизации, меньшую, чем номинальная частота дискретизации, соответствующая номинальному размеру преобразования; и процессор последующей обработки, имеющий один или более банков фильтров, один или несколько расширителей во времени и модуль слияния, причем число каналов банков фильтров у одного или нескольких банков фильтров снижается по сравнению с числом, определенным в качестве номинального размера преобразования.
Еще один вариант относится к устройству для обработки низкочастотного сигнала, включающей: генератор патчей для создания множества патчей с помощью низкочастотного звукового сигнала; регулировщик огибающей для настройки огибающей сигнала с помощью коэффициентов масштабирования, заданных в диапазонах подстройки коэффициентов масштабирования, имеющих границы диапазонов коэффициентов масштабирования, причем генератор патчей настроен на формирование множества патчей, так что границы между соседними патчами совпадают с границами между соседними диапазонами коэффициентов масштабирования по шкале частот.
Один из вариантов относится к устройству для обработки низкочастотного звукового сигнала, включающей: генератор патчей для создания множества патчей с помощью низкочастотного сигнала звуковой частоты; а также ограничителя регулировки огибающей для ограничения значений регулировки огибающей сигналов путем ограничения диапазонов подстройки ограничителя, имеющих границы диапазонов в ограничителе, причем генератор патчей настроен на формирование множества патчей, так что границы между соседними патчами совпадают с границами между соседними диапазонами коэффициентов масштабирования по шкале частот.
Обработка в соответствии с изобретением полезна для улучшения аудиокодировщиков, использующих схему расширения диапазона частот. Особенно, если очень важно оптимальное качество восприятия при данном битрейте и, в то же время, вычислительные мощности ограничены.
Наиболее известные приложения относятся к аудиодекодировщикам, которые часто реализуются в портативных устройствах и, следовательно, используют батареи питания.
Закодированные в соответствии с изобретением звуковые сигналы могут быть сохранены на цифровых носителях или могут быть переданы по передающей среде, такой как беспроводная передающая среда или проводная передающая среда, такая как Интернет.
В зависимости от определенных требований к реализации, воплощения изобретения могут быть реализованы в аппаратной части или в программном обеспечении. Реализация может быть выполнена с помощью цифрового носителя, например, дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM и флэш-памяти, имеющих электронно-считываемые управляющие сигналы, сохраненные на нем, которые совместимы (или могут быть совместимы) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты в соответствии с изобретением содержат носители данных, имеющие электронно-считываемые управляющие сигналы, которые могут быть совместимы с программируемой системой компьютера, так что выполняется один из способов, описанных здесь.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, кодом рабочей программы для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.
Другие варианты включают компьютерную программу для выполнения одного из способов, описанных здесь, хранящуюся на машиночитаемом носителе.
Другими словами, вариант предлагаемого способа является, таким образом, компьютерной программой, имеющей программный код для выполнения одного из способов, описанных здесь, когда компьютерная программа выполняется на компьютере.
Следовательно, другой вариант осуществления способа изобретения использует носитель данных (или цифровой носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
Еще один вариант предлагаемого способа является, таким образом, потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть сконфигурированы для передачи через линию передачи данных, например через Интернет.
Еще один вариант включает в себя средства обработки, например, компьютер или программируемое логическое устройство, настроенное или адаптированное для выполнения одного из способов, описанных в настоящем документе.
Еще один вариант включает в себя компьютер с установленной на ней компьютерной программой для выполнения одного из способов, описанных в настоящем документе.
В некоторых вариантах может быть использовано программируемое логическое устройство (например, программируемая пользователем вентильная матрица) для выполнения некоторых или всех функций из способов, описанных в настоящем документе. В некоторых вариантах, программируемая пользователем вентильная матрица может быть совместима с микропроцессором для выполнения одного из способов, описанных здесь. Как правило, способы предпочтительно реализовывать с помощью любого устройства.
Описанные выше варианты являются лишь иллюстрацией принципов настоящего изобретения. Понятно, что модификации и изменения механизмов и деталей, описанных здесь, будут очевидны для других специалистов в данной области. Это изобретение, следовательно, должно быть ограничено только объемом представленной ниже формулы изобретения, а не конкретными деталями, представленными в виде описаний и объяснений предложенных здесь вариантов.
Литература
[1] М. Dietz, L. Liljeryd, К. Kjörling and О. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, May 2002.
[2] S. Meltzer, R. Böhm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," in 112th AES Convention, Munich, May 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, May 2002.
[4] International Standard ISO/IEC 14496-3: 2001 / FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[5] E. Larsen, R.M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[6] R.M. Aarts, E. Larsen, and O. Ouweltjes. A unified approach to low- and high frequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.
[7] K. Käyhkö. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
[8] E. Larsen and R.M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[9] E. Larsen, R.M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[10] J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973.
[11] United States Patent Application 08/951029, Ohmori, et al. Audio band width extending system and method.
[12] United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech.
[13] Frederik Nagel, Sascha Disch, "A harmonic bandwidth extension method for audio codecs," ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.
[14] Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs," 126th AES Convention, Munich, Germany, May 2009.
[15] M. Puckette. Phase-locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics, Mohonk 1995", Röbel, A.: Transient detection and preservation in the phase vocoder; citeseer.ist.psu.edu/679246.html.
[16] Laroche L., Dolson M.: "Improved phase vocoder timescale modification of audio", IEEE Trans. Speech and Audio Processing, vol. 7, no.3, pp.323-332.
[17] United States Patent 6549884 Laroche, J. & Dolson, M.: Phase-vocoder pitch-shifting.
[18] Herre, J.; Faller, C.; Ertel, C.; Hilpert, J.; Hölzer, A.; Spenger, С. "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio," 116th Conv. Aud. Eng. Soc, May 2004.
[19] Neuendorf, Max; Gournay, Philippe; Multrus, Markus; Lecomte, Jérémie; Bessette, Bruno; Geiger, Ralf; Bayer, Stefan; Fuchs, Guillaume; Hilpert, Johannes; Rettelbach, Nikolaus; Salami, Redwan; Schuller, Gerald; Lefebvre, Roch; Grill, Bernhard: Unified Speech and Audio Coding Scheme for High Quality at Lowbitrates, ICASSP 2009, April 19-24, 2009, Taipei, Taiwan.
[20] Bayer, Stefan; Bessette, Bruno; Fuchs, Guillaume; Geiger, Ralf; Gournay, Philippe; Grill, Bernhard; Hilpert, Johannes; Lecomte, Jérémie; Lefebvre, Roch; Multrus, Markus; Nagel, Frederik; Neuendorf, Max; Rettelbach, Nikolaus; Robilliard, Julien; Salami, Redwan; Schuller, Gerald: A Novel Scheme for Low Bitrate Unified Speech and Audio Coding, 126th AES Convention, May 7,2009, Munchen.
Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала. Устройство содержит банк фильтров синтеза для синтеза промежуточного звукового сигнала из входного аудиосигнала, входного аудиосигнала, представленного множеством первых сигналов поддиапазонов, сгенерированных в банке фильтров анализа, причем число каналов в банке фильтров синтеза меньше, чем количество каналов в банке фильтров анализа. Кроме того, устройство содержит дополнительный банк фильтров анализа для генерации множества вторых сигналов поддиапазонов из промежуточного аудиосигнала, причем дополнительный банк фильтров анализа имеет число каналов, отличающееся от числа каналов в банке фильтров синтеза, так что частота дискретизации сигнала поддиапазона из множества вторых сигналов поддиапазонов отличается от частоты дискретизации первого сигнала поддиапазона из множества первых сигналов поддиапазонов. 6 н. и 17 з.п. ф-лы, 52 ил., 2 табл.
1. Устройство для обработки входного звукового сигнала (2300), включающее банк фильтров синтеза (2304) для синтеза промежуточного звукового сигнала (2306) из входного звукового сигнала (2300), входной звуковой сигнал (2300), представленный множеством сигналов первого поддиапазона (2303), сгенерированных банком фильтров анализа (2302), причем число каналов фильтров (MS) в банке фильтров синтеза (2304) меньше, чем число каналов (М) в банке фильтров анализа (2302); а также дополнительный банк фильтров анализа (2307) для генерации множества сигналов второго поддиапазона (2308) из промежуточного звукового сигнала (2306), причем дополнительный банк фильтров анализа (2307) имеет число каналов (МА), отличающееся от числа каналов банка фильтров синтеза (2304), так что частота дискретизации сигнала поддиапазона из множества сигналов второго поддиапазона (2308) отличается от частоты дискретизации сигнала первого поддиапазона из множества сигналов первого поддиапазона (2303).
2. Устройство по п. 1, в котором банк фильтров синтеза (2304) является банком фильтров с вещественными значениями.
3. Устройство по п. 1, в котором число сигналов первого поддиапазона из множества сигналов первого поддиапазона (2303) больше или равно 24, а также количество каналов банка фильтров в банке фильтров синтеза (2304) меньше или равно 22.
4. Устройство по п. 1, в котором банк фильтров синтеза (2304) настроен только на обработку подгруппы (2305) из всех сигналов первого поддиапазона (2303) из множества сигналов первого поддиапазона, представляющих полный диапазон частот входного звукового сигнала (2300), и в котором банк фильтров синтеза (2304) настроен на генерацию промежуточного звукового сигнала (2306) в качестве сегмента диапазона полного диапазона частот пропускания входного звукового сигнала (2300), модулированного в основном диапазоне.
5. Устройство по п. 1, которое дополнительно включает банк фильтров анализа (2302) для получения представления во временной области входного звукового сигнала (2300) и для анализа представления во временной области и получения множества сигналов первого поддиапазона (2303), причем поддиапазоны (2305) из множества сигналов первого поддиапазона (2303) вводятся в банк фильтров синтеза (2304), причем остальные сигналы поддиапазонов из множества сигналов первого поддиапазона не поступают в банк фильтров синтеза (2304).
6. Устройство по п. 1, в котором банк фильтров анализа (2302) является банком фильтров с комплексными значениями, в которых банк фильтров синтеза (2304) включает в себя вычислитель вещественных значений для расчета вещественных значений сигналов поддиапазона на основе сигналов первого поддиапазона, причем сигналы поддиапазонов с вещественными значениями, вычисленные с помощью вычислителя вещественных значений, дополнительно обрабатываются в банке фильтров синтеза (2304) для получения промежуточного звукового сигнала (2306).
7. Устройство по п. 1, в котором дополнительный банк фильтров анализа (2307) является банком фильтров с комплексными значениями и настроен на генерацию множества сигналов второго поддиапазона (2308) в качестве комплексных сигналов поддиапазонов.
8. Устройство по п. 1, характеризующееся тем, что банк фильтров синтеза (2304), дополнительный банк фильтров анализа (2307) или банк фильтров анализа (2302) предназначены для использования субдискретизированных версий выборок одной и той же оконной функции банка фильтров.
9. Устройство по п. 1, дополнительно включающее процессор подполосового сигнала (2309) для обработки множества вторых поддиапазонов (2308); и дополнительный банк фильтров синтеза (2311) для фильтрования множества обработанных поддиапазонов, и характеризующееся тем, что дополнительный банк фильтров синтеза (2311), банк фильтров синтеза (2304), банк фильтров анализа (2302) или дополнительный банк фильтров анализа (2307) используют субдискретизированную версию выборок одной и той же оконной функции банка фильтров, или тем, что дополнительный банк фильтров синтеза (2311) использует окно синтеза, или тем, что дополнительный банк фильтров анализа (2307), банк фильтров синтеза (2304) или банк фильтров анализа (2302) используют субдискретизированную версию выборки оконной функции синтеза, используемую дополнительным банком фильтров синтеза (2311).
10. Устройство по п. 1, дополнительно включающее подполосовой процессор (2309) для нелинейной обработки каждого поддиапазона с формированием множества обработанных поддиапазонов; процессор высокочастотной реконструкции (1030) для корректировки входного сигнала на основе передаваемых параметров (1040); и дополнительный банк фильтров синтеза (2311, 1050) для сложения входного звукового сигнала (2300) и множества обработанных подполосовых сигналов, при этом процессор высокочастотной реконструкции (1030) предназначен для обработки выходных данных дополнительного банка фильтров синтеза (1050,2311) или для обработки множества обработанных поддиапазонов перед вводом множества обработанных поддиапазонов в дополнительный банк фильтров синтеза (2311, 1050).
11. Устройство по п. 1, характеризующееся тем, что дополнительный банк фильтров анализа (2307) или банк фильтров синтеза (2304) снабжен вычислителем прототипной оконной функции для расчета прототипа оконной функции путем субдискретизации или интерполяции с приложением хранящейся в памяти оконной функции для банка фильтров других размеров с использованием информации о числе каналов для дополнительного банка фильтров анализа (2307) или банка фильтров синтеза (2304).
12. Устройство по п. 1, характеризующееся тем, что банк фильтров синтеза (2304) выполнен с возможностью установки на нуль входа в низший и в высший канал банка фильтров синтеза (2304).
13. Устройство по п. 1, предназначенное для выполнения гармонического транспонирования на основе блоков, где банк фильтров синтеза (2304) содержит субдискретизированную выборку оконной функции банка фильтров.
14. Устройство по п. 1, которое дополнительно включает процессор поддиапазона (2309) для обработки множества вторых поддиапазонов (2308), причем процессор поддиапазона (2309, 1020а, 1020b) включает в себя, в произвольном порядке, модуль прореживания, управляемый с помощью коэффициента расширения диапазона, и расширитель сигнала поддиапазона, причем расширитель содержит модуль извлечения (1800, 120а, 120b, 120с) для извлечения ряда перекрывающихся блоков по значению опережающего смещения выборка/блок; регулировщик фазы (1806, 124а, 124b, 124с) или модуль обработки окна (1802, 126а, 126b, 126с) для регулирования значений выборки поддиапазона в каждом блоке на основе оконной функции или фазовой коррекции; и модуль перекрытия и суммирования (1808, 130) для выполнения процедуры перекрытия и суммирования оконных блоков с величиной опережающего перекрытия, большей, чем величина опережающего смещения выборка/блок.
15. Устройство по п. 1, которое дополнительно включает процессор поддиапазона (2309), причем процессор поддиапазона (2309, 1020а, 1020b) включает в себя множество различных ветвей обработки (110а, 110b, 110с) с различными коэффициентами перестановки для получения сигнала перестановки, в котором каждая ветвь обработки настроена на извлечение блоков (120а, 120b, 120с) выборок поддиапазона; сумматор (128) для суммирования сигналов перестановки и получения транспонированных блоков; и модуль перекрытия и суммирования (130) для перекрытия и суммирования во времени последовательных транспонированных блоков с использованием второй величины опережающего смещения выборка/блок, имеющей большее значение, чем первая величина опережающего смещения выборка/блок, для извлечения блоков (120а, 120b, 120с) из множества различных ветвей обработки (110а, 110b, 110с).
16. Устройство по п. 1, которое дополнительно включает банк фильтров анализа (2302), причем банк фильтров синтеза (2304) и дополнительный банк фильтров анализа (2307) настроены на выполнение преобразования частоты дискретизации, процессор расширения времени (100а, 100b, 100с) для обработки частоты дискретизации преобразованного сигнала; и сумматор (2311, 605) для объединения обработанных сигналов поддиапазона, сгенерированных процессором расширения времени для получения обработанного сигнала во временной области.
17. Устройство по п. 1, в котором количество каналов в дополнительном банке фильтров анализа (2307) больше числа каналов в банке фильтров синтеза (2304).
18. Устройство для обработки входного звукового сигнала (2300), включающее: банк фильтров анализа (2302), имеющий число (М) каналов банка фильтров анализа, предназначенный для фильтрации входного звукового сигнала (2300) с формированием множества сигналов первого поддиапазона (2303); и банк фильтров синтеза (2304), предназначенный для синтеза промежуточного звукового сигнала (2306) с использованием группы (2305) сигналов первого поддиапазона (2303), включающей число подполосовых сигналов, меньшее, чем число каналов банка фильтров анализа (2302), при этом промежуточный звуковой сигнал (2306) является субдискретизированным представлением выборки части диапазона входного звукового сигнала (2300).
19. Устройство по п. 18, в котором банк фильтров анализа (2302) является банком фильтров QMF с критически отобранными комплексными выборками и в котором банк фильтров синтеза (2304) является банком фильтров QMF с критически отобранными вещественными выборками.
20. Способ обработки входного звукового сигнала (2300), включающий фильтрацию синтеза с помощью фильтров синтеза (2304) для синтеза промежуточного звукового сигнала (2306) из входного звукового сигнала (2300), входной звуковой сигнал (2300), который представляется в виде множества первых сигналов поддиапазона (2303), сгенерированных в банке фильтров анализа (2302), причем количество каналов (MS) в банке фильтров синтеза (2304) меньше, чем количество каналов (М) в банке фильтров анализа (2302); а также фильтрацию анализа с использованием дополнительного банка фильтров анализа (2307) для создания множества вторых сигналов поддиапазонов (2308) из промежуточного аудиосигнала (2306), причем дополнительный банк фильтров анализа (2307) имеет число каналов (МА), отличное от количества каналов в банке фильтров синтеза (2304), так что частота дискретизации сигнала поддиапазона из множества вторых сигналов поддиапазонов (2308) отличается от частоты дискретизации первого сигнала поддиапазона из множества первых сигналов поддиапазонов (2303).
21. Способ для обработки входного звукового сигнала (2300), включающий фильтрацию анализа с помощью банка фильтров анализа (2302), имеющего число (М) каналов, причем банк фильтров анализа (2302) настроен на фильтрацию входного аудиосигнала (2300) для получения множества первых сигналов поддиапазонов (2303); и фильтрацию синтеза с использованием банка фильтров синтеза (2304) для синтеза промежуточного звукового сигнала (2306) с использованием групп (2305) первых сигналов поддиапазонов (2303), причем группа состоит из меньшего числа сигналов поддиапазонов, чем количество каналов в банке фильтров анализа (2302), причем промежуточный звуковой сигнал (2306) является субдискретизированным представлением выборки части диапазона частот входного звукового сигнала (2300).
22. Машиночитаемый носитель информации с сохраненной на нем компьютерной программой, имеющей код программы, для осуществления способа по п. 20.
23. Машиночитаемый носитель информации с сохраненной на нем компьютерной программой, имеющей код программы, для осуществления способа по п. 21.
WO 9857436 A2, 17.12.1998 | |||
US 2003093279 A1, 15.05.2003 | |||
US 6549884 B1, 15.04.2003 | |||
EP 1940023 A2, 02.07.2008 | |||
УСОВЕРШЕНСТВОВАННОЕ ПРЕОБРАЗОВАНИЕ СПЕКТРА/СВЕРТКА В ОБЛАСТИ ПОДДИАПАЗОНОВ | 2001 |
|
RU2251795C2 |
Авторы
Даты
2016-06-10—Публикация
2011-03-04—Подача