Изобретение относится к кодированию аудиосигнала или декодированию кодированного аудиосигнала.
В работе Erik Schuijers, Werner Oomen, Bert den Brinker and Jeroen Breebaart, "Advances in Parametric Coding for High-Quality Audio", Preprint 5852, 114th AES Convention, Amsterdam, The Netherlands, 22-25 March 2003 раскрыта схема параметрического кодирования с использованием рационального параметрического представления для стереоизображения. Два входных сигнала совмещаются в один монофонический аудиосигнал. Перцентуально, значимые пространственные метки моделируются явным образом, как показано на фиг.1. Объединенный сигнал кодируется с использованием монофонического параметрического кодера. Стереофонические параметры: межканальная разница мощности (IID), межканальная разница времени (ITD) и межканальная взаимная корреляция (ICC) - подвергаются квантованию, кодируются и мультиплексируются в битовый поток вместе с квантованным монофоническим аудиосигналом. На стороне декодера битовый поток демультиплексируется в кодированный монофонический сигнал и стереофонические параметры. Кодированный монофонический аудиосигнал декодируется для получения декодированного монофонического аудиосигнала m' (см. фиг.2). Из монофонического сигнала временной области декоррелированный сигнал вычисляется с использованием фильтра D, формирующего перцепционную декорреляцию. Как монофонический сигнал m' временной области, так и декоррелированный сигнал d преобразуются в частотную область. Затем стереофонический сигнал частотной области обрабатывается с параметрами IID, ITD и ICC посредством масштабирования, фазовых компенсаций и смешивания, соответственно, в узле обработки параметров для получения декодированной стереофонической пары l' и r'. Результирующие представления частотной области преобразуются обратно во временную область.
Цель изобретения состоит в обеспечении предпочтительного аудиокодирования или декодирования с использованием пространственных параметров. С этой целью изобретение предусматривает способ кодирования, аудиокодер, устройство для передачи или сохранения, способ декодирования, аудиодекодер, устройство воспроизведения и компьютерный программный продукт, которые определены в независимых пунктах формулы изобретения. Предпочтительные варианты осуществления определены в зависимых пунктах формулы изобретения.
Согласно первому аспекту изобретения, аудиосигнал кодируется, причем аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, кодирование содержит фильтрацию в поддиапазонах каждого из первого аудиоканала и второго аудиоканала в комплексно модулированном банке фильтров для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала и второе множество поддиапазонных сигналов для второго аудиоканала, дискретизирование с понижением частоты каждого из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов получения пространственных параметров из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и получение одноканального аудиосигнала, содержащего поддиапазонные сигналы, полученные из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Посредством обеспечения дополнительной фильтрации в поддиапазонах, частотное разрешение упомянутого поддиапазона повышается. Такое повышенное частотное разрешение обладает тем преимуществом, что становится возможным достижение более высокого качества аудиосигнала (ширина полосы единственного поддиапазонного сигнала в типовом случае является более высокой, чем у критических диапазонов в слуховой системе человека) в рациональной реализации (потому что должно быть преобразовано лишь небольшое количество диапазонов). Параметрический пространственный кодер пытается смоделировать бинауральные метки, которые воспринимаются по неравномерной частотной шкале, аналогичной шкале эквивалентных прямоугольных диапазонов (ERB). Одноканальный аудиосигнал может быть получен непосредственно из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Однако, одноканальный аудиосигнал преимущественно извлекается из под-поддиапазонных сигналов для тех дискретизированных с понижением частоты поддиапазонов, которые должны подвергаться дополнительной фильтрации в поддиапазонах, в этом случае под-поддиапазонные сигналы каждого поддиапазона суммируются для формирования новых поддиапазонных сигналов, и при этом одноканальный аудиосигнал получается из этих новых поддиапазонных сигналов и поддиапазонов из первого и второго множества поддиапазонов, которые не подвергаются дополнительной фильтрации.
Согласно другому главному аспекту изобретения, предусмотрено аудио декодирование кодированного аудиосигнала, причем кодированный аудиосигнал содержит кодированный одноканальный аудиосигнал и набор пространственных параметров, аудиодекодирование содержит декодирование кодированного одноканального аудиоканала для получения множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов, и получение двух аудиоканалов из пространственных параметров, под-поддиапазонных сигналов и дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах. Посредством обеспечения дополнительной фильтрации в поддиапазонах в пределах полосы, частотное разрешение упомянутого поддиапазона повышается и, следовательно, может быть достигнуто более высококачественное аудиодекодирование.
Одно из главных преимуществ этих аспектов изобретения состоит в том, что параметрическое пространственное кодирование может быть легко объединено с методами спектральной репликации диапазона («SBR»). Метод SBR известен из работы: Martin Dietz, Lars Liljeryd, Kristofer Kjцrling and Oliver Kunz, «Spectral Band Replication, a novel approach in audio coding», Preprint 5553, 112th AES Convention, Munich, Germany, 10-13 May 2002 и из работы: Per Ekstrand, «Bandwidth extension of audio signals by spectral band replication», Proc. 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), pp. 53-58, Leuven, Belgium, November 15, 2002. Дополнительная ссылка может быть сделана на стандарт MPEG-4 (стандарт сжатия видеоизображения и звука) ISO/DEC 14496-3:2001/FDAM1, JTC1/SC29/WG11, «Кодирование движущихся изображений и звука, растягивание ширины спектра», которая описывает аудиокодек, использующий метод SBR.
Метод SBR основан на представлении, что типично имеется значительная корреляция между низкими и высокими частотами в аудиосигнале. Как таковая, последовательность операций SBR состоит из копирования нижней части(ей) спектра в более высокую часть(и), после которого огибающая спектра корректируется для высокой части(ей) спектра с использованием небольшого количества информации, закодированной в битовом потоке. Упрощенная структурная схема такого усовершенствованного SBR-декодера показана на фиг.3. Битовый поток демультиплексируется и декодируется в основные данные (например, усовершенствованное аудио кодирование (ААС) MPEG-2/4) и данные SBR. С использованием основных данных сигнал декодируется при половине частоты дискретизации сигнала полной ширины полосы. Выходной сигнал основного декодера анализируется посредством 32-диапазонного комплексного банка (псевдо) квадратурных зеркальных фильтров (QMF). Эти 32 диапазона затем расширяются до полной ширины полосы, то есть 64 диапазонов, в которых высокочастотный (ВЧ) контент формируется посредством копирования части(ей) нижних диапазонов. Огибающая диапазонов, для которых формируется ВЧ-контент, корректируется согласно данным SBR. В заключение, посредством 64-диапазонного комплексного банка QMF-фильтров синтеза восстанавливается выходной сигнал импульсно-кодовой модуляции (ИКМ).
SBR-декодер, который показан на фиг.3, является так называемым двухскоростным декодером. Это означает, что основной декодер работает при половине частоты дискретизации и, следовательно, используется только 32-диапазонный банк QMF-фильтров анализа. Односкоростные декодеры, где основной декодер работает при полной частоте дискретизации и банк QMF-фильтров анализа состоит из 64 диапазонов, также возможны. На практике восстановление выполняется посредством (псевдо) комплексного банка QMF-фильтров. Так как комплексный банк QMF-фильтров дискретизируется не критическим образом, не требуется предпринимать никаких дополнительных мер для того, чтобы учитывать наложение спектров. Заметим, что в SBR-декодере, который раскрыт Экстрандом, банк QMF-фильтров анализа состоит только из 32 диапазонов, тогда как банк QMF-фильтров синтеза состоит из 64 диапазонов, так как основной декодер работает при половине частоты дискретизации в сравнении с декодером полного аудиосигнала. В соответствующем кодере, однако, используется 64-диапазонный банк QMF-фильтров анализа, чтобы покрыть весь частотный диапазон.
Хотя изобретение является особенно полезным для стереофонического аудиокодирования, изобретение также полезно для кодирования сигналов с более чем двумя аудиоканалами.
Эти и другие аспекты изобретения очевидны и поясняются со ссылкой на варианты осуществления, описанные ниже.
На чертежах показано следующее:
Фиг.1 - структурная схема узла для извлечения стереофонических параметров в качестве используемого в параметрическом стереофоническом («PS») кодере;
Фиг.2 - структурная схема узла для восстановаления стереофонического сигнала в качестве используемого в PS-декодере;
Фиг.3 - структурная схема декодера со спектральной репликацией диапазона(«SBR»);
Фиг.4 - структурная схема комбинированного усовершенствованного PS- и SBR-кодера согласно варианту осуществления изобретения;
Фиг.5 - структурная схема комбинированного усовершенствованного PS- и SBR-кодера согласно варианту осуществления изобретения;
Фиг.6 - M-диапазонный дискретизированный с понижением частоты комплексный банк QMF-фильтров анализа (слева) и синтеза (справа);
Фиг.7 - амплитудно-частотная характеристика в дБ фильтра прототипа;
Фиг.8 - амплитудно-частотные характеристики в дБ первых четырех из 64 недискретизированных с понижением частоты комплексно модулированных фильтров анализа;
Фиг.9 - структурная схема Q-диапазонного банка фильтров с тривиальным синтезом;
Фиг.10 - комбинированная амплитудно-частотная характеристика в дБ первого недискретизированного с понижением частоты модулированного QMF-фильтра и 8-диапазонного комплексно модулированного банка фильтров;
Фиг.11 - стилизованная амплитудно-частотная характеристика 4-диапазонного банка четных фильтров (сверху) и банка нечетных фильтров (снизу) согласно варианту осуществления изобретения;
Фиг.12 - 77-диапазонный неоднородный банк гибридных фильтров анализа, основанный на 64-диапазонном комплексном QMF-анализе согласно варианту осуществления изобретения;
Фиг.13 - 71-диапазонный неоднородный банк гибридных фильтров анализа, основанный на 64-диапазонном комплексном QMF-анализе для использования в аудиодекодере;
Фиг.14 - структурная схема рациональной реализации комплексно модулированного банка фильтров анализа.
Чертежи показывают только те элементы, которые необходимы для понимания изобретения.
Комбинирование SBR c PS потенциально дает в результате чрезвычайно эффективный кодек. Оба, SBR и PS, являются алгоритмами постобработки в декодере, состоящем из в некоторой степени подобной структуры, то есть некоторой разновидностью время-частотного преобразования, обработки и, в заключение, частотно-временного преобразования. При комбинировании обоих алгоритмов требуется, чтобы оба алгоритма могли работать одновременно, например в приложении цифрового сигнального процессора (DSP). Отсюда, выгодно повторно использовать, насколько это возможно, вычисленные промежуточные результаты одного кодека для другого. В случае комбинирования PS с SBR, это ведет к повторному использованию комплексных (псевдо) QMF-сигналов поддиапазонов для PS-обработки. В комбинированном кодере (см. фиг.4) стереофонический входной сигнал анализируется посредством двух 64-диапазонных банков фильтров анализа. С использованием комплексного представления области поддиапазонов, блок вычисления PS оценивает стереофонические параметры и формирует результат монофонического (поддиапазонного) микширования с понижением частоты, который создается. Этот результат монофонического микширования с понижением частоты затем подается в блок оценки SBR-параметров. В заключение, результат монофонического микширования с понижением частоты конвертируется обратно во временную область посредством 32-диапазонного банка фильтров синтеза так, что он может кодироваться основным декодером (основному декодеру требуется только половина ширины полосы).
В комбинированном декодере, как показано на фиг.5, независимо от того, используется двухскоростная или односкоростная система, поддиапазонные сигналы области с полной шириной спектра (64 диапазона) после коррекции огибающей конвертируются в стереофонический набор поддиапазонных сигналов области согласно стереофоническим параметрам. Эти два набора поддиапазонных сигналов, в заключение, конвертируются во временную область посредством 64-диапазонного банка QMF-фильтров синтеза. Если бы можно было непосредственно комбинировать PS с SBR, ширина полосы низкочастотных диапазонов QMF-фильтров была бы большей, чем требуемая для высококачественного стереофонического представления. Таким образом, для обеспечения высококачественного представления стереоизображения выполняется дополнительное подразбиение сигналов нижних поддиапазонов в соответствии с предпочтительными вариантами осуществления изобретения.
Для лучшего понимания аспектов изобретения сначала разъяснена теория, на которой основаны комплексные QMF-фильтры поддиапазонов.
QMF-фильтры поддиапазонов
Поддиапазонный QMF-фильтр анализа может быть описан, как изложено ниже. Если задан фильтр p(ν) прототипа с имеющей вещественное значение линейной фазой, М-диапазонный комплексно модулированный банк фильтров анализа может быть определен фильтрами анализа
(1)
для k=0,1,…,M-1. Фазовый параметр θ не важен для последующего анализа, но типичным результатом выбора является (N + M)/2, где N - порядок фильтра прототипа. При условии дискретного временного сигнал x(ν) с действительным значением, поддиапазонные сигналы νk(n) получены посредством фильтрации (свертки) x(ν) c hk(ν), а затем дискретизации с понижением частоты результата с коэффициентом M (см. слева на фиг.6).
Операция синтеза состоит, во-первых, из дискретизации с повышением частоты поддиапазонных QMF-сигналов с коэффициентом M, сопровождаемой фильтрацией посредством комплексно модулированных фильтров типа (1), сложением результатов и, в заключение, удвоением действительной части (см. справа на фиг.6). Затем, почти идеальное восстановление сигналов с вещественным значением может быть получено посредством подходящего проектирования фильтра p(ν) прототипа с вещественной линейной фазой. Амплитудно-частотная характеристика фильтра прототипа, который используется в SBR-системе стандарта MPEG-4 (упомянутого выше) в случае с 64 диапазонами, показана на фиг.7. Амплитудно-частотные характеристики 64 комплексно модулированных фильтров анализа получены сдвигом амплитудно-частотной характеристики фильтра прототипа p(ν) на .
Часть этих характеристик показана на фиг.8. Заметим, что фильтруются только положительные частоты, за исключением k = 0 и k = M-1. Как результат, поддиапазонные сигналы до дискретизации с понижением частоты близки к аналитическим, обеспечивая простые амплитудные и фазовые применения вещественных синусоид. Фазовые компенсации также возможны для первого и последнего диапазона, если синусоиды, находящиеся в этих диапазонах, имеют частоту больше π/2M или меньше π-π/2M соответственно. Для частот вне этой зоны характеристика фазовой компенсации быстро ухудшается из-за взаимных помех отрицательных частот.
Начиная с QMF-фильтров анализа, которые описаны выше, в вариантах осуществления изобретения, лучшее частотное разрешение получается дополнительной фильтрацией каждого дискретизированного с понижением частоты поддиапазонного сигнала νk(n) в подполосы Qk. Далее выведены свойства дополнительной фильтрации в поддиапазонах.
Преобразование сигнала в области поддиапазонов комплексного QMF.
В последующем, пусть будет дискретным временным преобразованием Фурье дискретного временного сигнала z(n). При условии свойства почти идеального восстановления, которое упоминалось выше, а также схемы, где P(ω), являющееся преобразованием Фурье от p(ν), по существу стремится к нулю вне частотного интервала , что имеет место для фильтра p(ν) прототипа, как проиллюстрировано выше, следующим этапом является рассмотрение системы, где поддиапазонные сигналы νk(n) преобразуются перед синтезом. Далее, пусть каждая полоса k преобразуется посредством фильтрации фильтром Bk(ω). При условии
для (2)
где звездочка обозначает комплексное сопряжение, может быть показано (пренебрегая общей задержкой, при условии вещественного входного сигнала и односкоростной системы), что результирующая система, включающая в себя банк фильтров синтеза, соответствует фильтрации фильтром
(3)
Согласно гипотезе относительно свойств P(ω), подстановка Bk(ω) = 1 для всех k в (3), приводит к B(ω) = 1, а тождество квадратичной суммы следует смещенным частотным характеристикам фильтра прототипа. Выбирая вещественные постоянные Bk(ω)=bk ≥ 0, система действует как корректор, который интерполирует значения bk коэффициента усиления на частотах π(k+1/2)/M. Привлекательным признаком является то, что система в целом инвариантна ко времени, то есть свободна от наложения спектров, несмотря на использование дискретизации с понижением и повышением частоты. Это конечно будет верным только вплоть до величины отклонения от принятых гипотез фильтра прототипа.
Для получения монофонического аудиосигнала дополнительная фильтрация в поддиапазонах комплексных поддиапазонных сигналов должна не только сохранять эти свойства, но также распространять эти свойства на манипулирование фильтрованными поддиапазонными сигналами. Фильтрация в поддиапазонах, сохраняющая эти свойства, может выполняться с использованием преобразования так называемых M-диапазонных фильтров, известных из работы: P.P. Vaidyanathan, «Multirate systems and filter banks», Prentice Hall Signal Processing Series, 1993, sections 4.6.1-4.6.2.
Модулированные банки фильтров с тривиальным синтезом
Дискретный временной сигнал ν(n) может быть разложен на Q разных сигналов банком фильтров с импульсными частотными характеристиками gq(n), q=0,1,…,Q-1. Это проиллюстрировано на фиг.9. Допустим, что соответствующими выходными сигналами анализа являются yq(n), и рассмотрим операцию тривиального синтеза
(4)
Идеальное восстановление, y(n) = ν(n), в таком случае, получается посредством выбора фильтров из условия, чтобы
(5)
где δ(n) = 1, если n = 0, и δ(n)≠0, если n ≠ 0. Для каузальных фильтров правая сторона в (5) должна быть замещена на δ(n-d), где d - положительная задержка, но это простое преобразование опущено для ясности представления.
Фильтры gq(n) могут быть выбраны в качестве комплексных модуляций фильтра g(n) прототипа посредством
(6)
В этом предпочтительном варианте осуществления изобретения фильтры упорядочены нечетным образом (коэффициент q+1/2). Преимущество этого предпочтительного варианта осуществления описано позже. Идеальное восстановление (5) получается, если и только если
(7)
Вариантом этого является вещественная косинусоидальная модуляция, к примеру
, (8)
при вещественном фильтре g(m) прототипа, удовлетворяющем
(9)
(Это легко получается при принятии во внимание gq(n)+gQ-1-q(n) в (6)).
Фильтрация в поддиапазонах комплексно-экспоненциальным модулированным банком фильтров
Начиная с QMF-фильтров анализа, которые описаны выше, лучшее частотное разрешение получается посредством дополнительной фильтрации каждого дискретизированного с понижением частоты поддиапазонного сигнала νk(n) в поддиапазоне Qk посредством использования одной из модулированных структур (6) или (8), приведенных выше. Обозначим результирующие выходные сигналы как , и пусть описывает банк фильтров, применяемый в поддиапазоне k. Если Qk = 1, фильтрация отсутствует, а =δ(n). Типичным примером применения является случай, где M=64, Q0=8, Qk=4 для k = 1,2, и Qk=1 для k>2.
Комбинированный результат двух банков фильтров от x(ν) до может быть описан как фильтация фильтрами (ω) с последующей дискретизацией с понижением частоты с коэффициентом М, где
(10)
Если частотная характеристика P(ω) фильтра прототипа, по существу, является нулевой вне интервала [-π/M,π/M], что имеет место для SBR-фильтров анализа (см. фиг.7), то фильтр (ω) имеет единственную номинальную центральную частоту, определенную в комплексно-модулированном случае согласно
(11)
где s - целое число, выбранное из условия, что Qk(k-)≤ 2(q + Qks) +1 ≤ Qk(k+). Например, как проиллюстрировано на фиг.10, если k = 0, а Q0 = 8, значениями ω0,0,ω0,1,…ω0,7 являются
Преобразование сигнала с неравномерным частотным разрешением
Введение банков фильтров поддиапазонов, которые описаны выше, не привносит дополнительной дискретизации с понижением частоты, так что сохраняется свободное от наложения спектров преобразование сигнала, которое показано выше только в случае комплексного QMF. Рассмотрим общую комбинированную операцию M- поддиапазонного анализа, дополнительную фильтрацию в поддиапазонах с использованием поддиапазонов Qk в пределах поддиапазона k, фильтрацию каждого поддиапазонного сигнала посредством фильтра Ak,q(ω), синтез в пределах каждого поддиапазона k посредством суммирования и, в заключение, синтез посредством M-диапазонного банка фильтров синтеза. Полная функция преобразования такой системы задана согласно (3), для k ≥ 0,
(12)
Для ω>π/(2M) это дает
(13)
значит, характеристикой пропускной способности поддиапазона (k,q) является . Для |ω|≤π/(2M) должно быть уделено некоторое внимание, обусловленное (2). В этом интервале частот справедливо
(14)
а при условии вещественных коэффициентов поддиапазонных фильтров прототипа справедливо
(15)
значит, если преобразующие фильтры выбраны так, что
(16),
то B0(-Mω)* = B0(Mω) и тождество квадратичной суммы, упомянутое в связи с (3), приводит к
(17)
для |ω|≤π/(2M), соответствующего характеристике пропускной способности для поддиапазона (0,q).
Равенства с (15) по (17) показывают желательность провести различие между положительными и отрицательными частотами. Это является причиной того, почему нечетные (комплексные) фильтры используются для фильтрации в поддиапазонах поддиапазонных QMF-сигналов взамен четных (комплексных) фильтров (см. фиг.11). Для четных фильтров невозможно применять фазовые компенсации синусоид, соответствующих центральному фильтру, то есть фильтру с центральной частотой, равной нулю, так как здесь отсутствует различие между положительной и отрицательной частотами. При условии фильтра прототипа с диапазоном частотной характеристики G(ω), ограниченным до [-2π/Q,2π/Q], при количестве диапазонов Q, для четного случая нижним пределом, до которого приблизительно могут применяться фазовые компенсации, является 2π/Q, тогда как для нечетного случая нижним пределом, до которого приблизительно могут применяться фазовые компенсации, является π/Q.
Как упомянуто выше, для PS-синтеза отдельными важными случаями вышеизложенного являются коррекция и фазовая компенсация. Касательно коррекции, Ak,q(ω)=ak,q≥0 и условие (16) вырождается в
(18)
Случай фазовой компенсации соответствует Ak,q(ω)=exp(iαk,q)≥0, в этом случае условие (16) удовлетворено, если
(19)
Оценка стереофонических параметров
Неравномерный комплексный банк фильтров, то есть QMF-банк, с последующей дополнительной фильтрацией в поддиапазонах, как описано выше, может применяться для оценки стереофонических параметров: межканальных разностей мощности (IID), межканальных разностей фаз (IPD) и межканальной взаимной корреляции (ICC), которые показаны ниже. Заметим, что в этом практическом варианте осуществления IPD используется в качестве практически эквивалентной замены ITD, которая использовалась в работе Schuijers et al. В комбинированном PS-кодере (см. фиг.4) первые три канала комплексного QMF-фильтра фильтруются в поддиапазонах таким образом, что в итоге получаются 77 комплексных сигналов (см. фиг.12).
С этого момента заданные по 77 комплексных выровненных по времени сигналов левых и правых поддиапазонов обозначаются как и соответственно, согласно индексированию .
Чтобы оценить стереофонические параметры в определенной позиции поддиапазонной выборки n', левый, правый и ненормализованный межканальный управляющий сигнал рассчитываются как:
(20)
для каждого стереофонического элемента кодированного сигнала b h(n) является окном полосной области с протяженностью L, ε - крайне малое значение, препятствующее делению на ноль (например, ε = 1e-10), а и - левый и правый поддиапазонные сигналы области. В случае 20 стереофонических элементов кодированного сигнала суммирование по k, от kl вплоть до kh включительно, и q, от ql вплоть до qh включительно, происходит как показано в таблице 1. Заметим, что «отрицательные» частоты (например, k = 0 с q = 4…7) не включены в оценку параметра по (20).
Индексы начала и остановки суммирования по k и q
Суммирования для вычисления el(b), er(b) и eR(b) выстроены так, что средняя точка этих сигналов в суммировании совпадает с позицией параметра, отсюда смещение на . Как понятно из таблицы 1, только под-поддиапазонные сигналы и поддиапазонные сигналы с положительной центральной частотой используются для оценки стереофонических параметров. IID, обозначенная как I(b), ICC, обозначенная как C(b), и IPD, обозначенная как P(b), для каждого стереофонического компонента b кодированного сигнала рассчитываются как:
(21)
Угол в уравнении P(b) = ∠eR(b) рассчитывается с использованием четырехквадрантной функции арктангенса, дающей значения между -π и π. В зависимости от целевой битовой скорости и применения эти параметры или подмножество этих параметров квантуются и кодируются в PS-часть битового потока.
Синтез стереофонического сигнала
Для того, чтобы удержать вычислительные затраты (в показателях использования ОЗУ) в декодере по возможности низкими, используется подобная структура анализа. Однако первый диапазон является комплексным только частично (см. фиг.13). Это получено суммированием средних пар диапазона и , и и . Более того, второй и третий диапазон являются двухдиапазонными вещественными банками фильтров, которые получаются суммированием выходных сигналов и , и суммированием выходных сигналов и (см. описание в разделе о модулированных банках фильтров). С использованием этого упрощения структуры банка фильтров декодера отличительный признак между положительными и отрицательными частотами по-прежнему обеспечивается подразбиением первого фильтра поддиапазона. Банк фильтров анализа декодера показан на фиг.13. Заметим, что индексирование первых отфильтрованных (под-)поддиапазонных QMF-сигналов отсортировано по частоте. Стереофонические (под-)поддиапазонные сигналы одного кадра конструируются как:
(22)
(23)
с sk(n) монофоническими (под-)поддиапазонными сигналами и dk(n) монофоническими декоррелированными (под-)поддиапазонными сигналами, которые выводятся из монофонических (под-)поддиапазонных сигналов sk(n) для учета синтеза параметров ICC, k=0,…,K-1 - индекс поддиапазона (К является общим количеством поддиапазонов, то есть K=71), индекс n=0,…,N-1 QMF-отсчета поддиапазона, где N - количество отсчетов поддиапазона для кадра, Λ11, Λ12, Λ21, Λ22 - матрицы обработки масштабных коэффициентов, а Prl - матрица обработки фазового поворота. Матрицы обработки определены в качестве функции времени и частоты, и могут быть выведены непосредственно из векторов обработки, как описано в стандарте MPEG-4 ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11, Coding of Moving Pictures and Audio, Extension 2 (ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11, Кодирование движущихся изображений и звука, расширение 2).
sk(n) определено согласно фиг.12 с получением результата, показанного на фиг.13
(24)
Синтез стереофонических параметров осуществляется согласно индексированию по таблице 2.
Таблица индексирования параметров
Уравнения синтеза, следовательно, выглядят подобным образом:
(25)
(26)
Заметим, что знак Prt меняется в уравнениях, приведенных выше, если в таблице встречается *. Это соответствует равенству (19), то есть для отрицательных частот должен быть применен обратный поворот фазы.
Рациональная реализация модулированных банков фильтров с тривиальным синтезом
При условии модулированного банка фильтров с фильтром прототипа длиной L прямая реализация могла бы потребовать QL операций на входной отсчет, но тот факт, что модуляция в (6) является антипериодической, с периодом Q, может быть использован, чтобы разделить фильтрацию на многофазное кадрирование из L операций с последующим преобразованием размера Q для каждого входного отсчета. Многофазное представление, как таковое, известно из P.P. Vaidyanathan, «Multirate systems and filter banks», Prentice Hall Signal Processing Series, 1993, section 4.3. Ниже приведено полезное применение такого многофазного представления согласно предпочтительному варианту осуществления изобретения.
Преобразованием является дискретное преобразование Фурье (ДПФ), сопровождаемое фазовым вращением, которое является порядком Qlog2Q, когда Q - степень двух. Значит, значительная экономия получается в типичных случаях, где L много больше, чем log2Q. В случае (8) вещественной модуляции антипериодичность с периодом 2Q, комбинированная с четной/нечетной симметрией в окрестности n = 0 и n = Q, снова может быть использована для многофазного кадрирования, а ядром преобразования является дискретное косинусное преобразование (ДКП) типа III. Подробное описание для случая комплексной модуляции представлено ниже.
Рациональная реализация фильтрации в под-поддиапазонах с использованием основной обработки БПФ может быть осуществлена с использованием многофазной декомпозиции фильтра прототипа с последующей модуляцией. Пусть фильтр g(n) прототипа имеет порядок N, где N=mQ, а m - положительное целое число. Это условие не является ограничительным, поскольку фильтр прототипа произвольного порядка может быть дополнен нулями, чтобы реализовать ограничение. Z-преобразованием фильтра прототипа, сконструированного для использования в комплексно модулированной системе (6), является
(27)
Это может быть выражено в многофазной записи, как
(28)
где
(29)
Все фильтры банка фильтров являются частотно-модулированными вариантами фильтра прототипа. Z-преобразование фильтра gq(n) задано согласно
(30)
где
(31)
Выражением для выходного сигнала из одного фильтра является
(32)
Посредством идентификации компонентов последней суммы можно видеть, что многофазные компоненты обрабатывают задержанные варианты входного сигнала, которые затем умножаются на комплексную экспоненциальную функцию. В заключение, все выходные сигналы Yq(z), q = 0..Q-1 находятся посредством применения БПФ (без масштабирующего коэффициента). Фиг.14 показывает топологию для банка фильтров анализа. Поскольку многофазные фильтры в (29) являются некаузальными, надлежащая величина задержки должна быть добавлена ко всем многофазным компонентам.
Следует отметить, что вышеупомянутые варианты осуществления иллюстрируют, но не ограничивают изобретение, и что специалистам в данной области техники будут очевидны многочисленные альтернативные варианты осуществления, реализуемые без изменения объема формулы изобретения. В формуле изобретения любые обозначения ссылочных позиций в скобках не должны истолковываться как ограничивающие пункт формулы изобретения. Слово «содержащий» не исключает присутствия иных элементов или этапов, чем перечисленные в пункте формулы изобретения. Изобретение может быть реализовано посредством аппаратных средств, содержащих отдельные элементы, и посредством подходящим образом запрограммированного компьютера. В пункте формулы изобретения об устройстве, перечисляющем различные средства, некоторые из этих средств могут быть осуществлены одним и тем же элементом аппаратных средств. Простое обстоятельство, что определенные признаки повторяются в разных зависимых пунктах формулы изобретения, не служит признаком того, что сочетание этих признаков не может быть использовано предпочтительным образом.
Изобретение относится к кодированию аудиосигнала или декодированию кодированного аудиосигнала. Технический результат - обеспечение аудио кодирования или декодирования с использованием пространственных параметров. Аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, при этом кодирование содержит фильтрование в поддиапазонах каждого из первого аудиоканала и второго аудиоканала в комплексно модулированном банке фильтров для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала и второе множество поддиапазонных сигналов для второго аудиоканала, дискретизацию с понижением частоты каждого из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов, получение пространственных параметров из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и получение одноканального аудиосигнала, содержащего поддиапазонные сигналы, получение из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Дополнительно предложено декодирование, при котором кодированный аудиосигнал, содержащий кодированный одноканальный аудиосигнал и набор пространственных параметров, декодируется посредством декодирования кодированного одноканального аудиоканала для получения множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительной фильтрации в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов и получение двух аудиоканалов из пространственных параметров, под-поддиапазонных сигналов и тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергнуты дополнительной фильтрации. 7 н. и 17 з.п. ф-лы, 14 ил., 2 табл.
1. Способ кодирования аудиосигнала, причем аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, при этом способ содержит этапы, на которых:
осуществляют фильтрацию в поддиапазонах каждого из первого аудиоканала и второго аудиоканала в комплексно модулированном банке фильтров для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала и второго множества поддиапазонных сигналов для второго аудиоканала,
дискретизируют с понижением частоты каждый из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второе множество дискретизированных с понижением частоты поддиапазонных сигналов,
осуществляют дополнительную поддиапазонную фильтрацию, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов,
получают пространственные параметры из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергнуты дополнительной фильтрации в поддиапазонах, и
получают одноканальный аудиосигнал, содержащий поддиапазонные сигналы, полученные из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов.
2. Способ по п.1, в котором для каждого поддиапазона, который подвергается дополнительной фильтрации в поддиапазонах, под-поддиапазонные сигналы суммируются вместе после масштабирования и/или поворота фазы для формирования нового поддиапазонного сигнала, и при этом одноканальный аудиосигнал получают из этих новых поддиапазонных сигналов и дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергнуты дополнительной фильтрации.
3. Способ по п.1, в котором дополнительная фильтрация в поддиапазонах выполняется над, по меньшей мере, поддиапазонным сигналом наименьшей частоты из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и над поддиапазонным сигналом наименьшей частоты из второго множества дискретизированных с понижением частоты поддиапазонных сигналов.
4. Способ по п.3, в котором дополнительная фильтрация в поддиапазонах выполняется дополнительно над, по меньшей мере, поддиапазонным сигналом следующей наименьшей частоты из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и над поддиапазонным сигналом следующей наименьшей частоты из второго множества дискретизированных с понижением частоты поддиапазонных сигналов.
5. Способ по п.4, в котором количество под-поддиапазонов в поддиапазонных сигналах наименьшей частоты больше, чем количество под-поддиапазонов в поддиапазонных сигналах следующей наименьшей частоты.
6. Способ по п.1, в котором дополнительный банк фильтров поддиапазонов, по меньшей мере, частично является комплексно модулированным банком фильтров.
7. Способ по п.1, в котором дополнительный банк фильтров поддиапазонов, по меньшей мере, частично является вещественным косинусно модулированным банком фильтров.
8. Способ по п.1, в котором дополнительный банк фильтров поддиапазонов является банком нечетно упорядоченных фильтров.
9. Способ по п.1, в котором под-поддиапазонные сигналы не подвергаются дополнительной дискретизации с понижением частоты.
10. Способ по п.1, в котором одноканальный аудиосигнал ограничен по ширине полосы и дополнительно кодирован, и при этом параметры спектральной репликации диапазона извлекаются из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и/или второго множества дискретизированных с понижением частоты поддиапазонных сигналов.
11. Аудиокодер для кодирования аудиосигнала, причем аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, при этом кодер содержит
первый комплексно модулированный банк фильтров для фильтрации в поддиапазонах первого аудиоканала для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала,
второй комплексно модулированный банк фильтров для фильтрации в поддиапазонах второго аудиоканала для обеспечения второго множества поддиапазонных сигналов для второго аудиоканала,
средство для дискретизации с понижением частоты каждого из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов,
дополнительный банк фильтров для дополнительной фильтрации в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов для обеспечения множества под-поддиапазонных сигналов,
средство для получения пространственных параметров из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и
средство для получения одноканального аудиосигнала, содержащего поддиапазонные сигналы, полученные из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов.
12. Устройство для передачи или сохранения кодированного аудиосигнала, основанного на входном аудиосигнале, причем устройство содержит
блок ввода для приема входного аудиосигнала,
аудиокодер по п.11 для кодирования входного аудиосигнала для получения кодированного аудиосигнала,
канальный кодер для дополнительного кодирования кодированного аудиосигнала в формат, подходящий для передачи и хранения.
13. Способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал содержит кодированный одноканальный аудиосигнал и набор пространственных параметров, при этом способ декодирования содержит этапы, на которых
декодируют кодированный одноканальный аудиосигнал для получения множества дискретизированных с понижением частоты поддиапазонных сигналов,
осуществляют дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов, и
получают два аудиоканала из пространственных параметров, под-поддиапазонных сигналов и тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергнуты дополнительной фильтрации в поддиапазонах.
14. Способ по п.13, в котором дополнительная фильтрация в поддиапазонах выполняется над, по меньшей мере, поддиапазонным сигналом наименьшей частоты из множества дискретизированных с понижением частоты поддиапазонных сигналов.
15. Способ по п.14, в котором дополнительная фильтрация в поддиапазонах выполняется над, по меньшей мере, поддиапазонным сигналом следующей наименьшей частоты из множества дискретизированных с понижением частоты поддиапазонных сигналов.
16. Способ по п.15, в котором количество под-поддиапазонов в поддиапазонных сигналах наименьшей частоты больше, чем количество под-поддиапазонов в поддиапазонных сигналах следующей наименьшей частоты.
17. Способ по п.13, в котором дополнительный банк фильтров поддиапазонов, по меньшей мере, частично является комплексно модулированым банком фильтров.
18. Способ по п.13, в котором дополнительный банк фильтров поддиапазонов, по меньшей мере, частично является вещественным косинусно модулированным банком фильтров.
19. Способ по п.13, в котором дополнительный банк фильтров поддиапазонов является банком нечетно упорядоченных фильтров.
20. Способ по п.13, в котором в поддиапазоне наименьшей частоты изменения фазы для под-поддиапазонных сигналов, имеющих отрицательную центральную частоту во временной области, определяются отрицательным значением изменения фазы для поддиапазонного сигнала, имеющего положительную центральную частоту, которая по абсолютному значению является ближайшей к упомянутой отрицательной центральной частоте.
21. Способ по п.13, в котором кодированный аудиосигнал содержит параметры спектральной репликации диапазона, и в котором высокочастотный компонент извлекается из множества дискретизированных с понижением частоты поддиапазонных сигналов и параметров спектральной репликации диапазона, и при этом два аудиоканала получают из пространственных параметров, под-поддиапазонных сигналов, тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и высокочастотного компонента.
22. Аудиодекодер для декодирования кодированного аудиосигнала, причем кодированный аудиосигнал содержит кодированный одноканальный аудиосигнал и набор пространственных параметров, при этом аудиодекодер содержит:
декодер для декодирования кодированного одноканального аудиоканала для получения множества дискретизированных с понижением частоты поддиапазонных сигналов,
дополнительный банк фильтров для дополнительной фильтрации в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов,
средство для получения двух аудиоканалов из пространственных параметров, под-поддиапазонных сигналов и тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах.
23. Устройство для воспроизведения выходного аудиосигнала, причем устройство содержит блок ввода для приема кодированного аудиосигнала, аудиодекодер по п.22 для декодирования кодированного аудиосигнала для получения выходного аудиосигнала, и блок воспроизведения, такой как выходной каскад динамиков или наушников, для воспроизведения выходного аудиосигнала.
24. Машиночитаемый носитель, содержащий программный код, который при исполнении компьютером обеспечивает команды компьютеру для выполнения этапов способа по п.1 или 13.
WEN JIN et al | |||
A scalable subband audio coding scheme for ATM environments | |||
Перекатываемый затвор для водоемов | 1922 |
|
SU2001A1 |
ENGINEERING THE FUTURE | |||
CLEMSON, SC, 30.03.-01.04.2001 | |||
IEEE SOUTHEASTCON | |||
NEW YORK, NY: IEEE, US, 30.03.2001, p.271-275, XP010542621 ISBN: 0-7803-6748-0, paragraph 11.A!; fig.1, 2b | |||
СПОСОБЫ КОДИРОВАНИЯ/ДЕКОДИРОВАНИЯ ЦИФРОВЫХ ДАННЫХ АУДИО/ВИДЕО СИГНАЛОВ И УСТРОЙСТВА ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ | 1997 |
|
RU2194361C2 |
СИСТЕМА КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ БЕЗ ПОТЕРЬ | 1999 |
|
RU2158057C1 |
US 5392037 A, 21.02.1995 | |||
US 5956674 A, 21.09.1999 | |||
Пневматический логический элемент | 1973 |
|
SU497413A1 |
Авторы
Даты
2009-11-27—Публикация
2004-10-28—Подача