Настоящее изобретение направлено на обработку аудиосигналов и, в частности, на эффективные схемы кодирования параметров направленного кодирования аудио, таких как метаданные DirAC.
Настоящее изобретение направлено на то, чтобы предлагать решение по кодированию с низкой скоростью передачи битов для кодирования пространственных метаданных из анализа трехмерных аудиосцен, проведенного посредством направленного кодирования аудио (DirAC), перцепционно обусловленной технологии для пространственной аудиообработки.
Передача аудиосцены в трех измерениях требует обработки множества каналов, что обычно вызывает большой объем данных, которые следует передавать. Технология направленного кодирования аудио (DirAC) [1] представляет собой эффективный подход для анализа аудиосцены и ее параметрического представления. DirAC использует перцепционно обусловленное представление звукового поля на основании направления поступления (DoA) и рассеянности, измеренных в расчете на полосу частот. Это базируется на таком допущении, что в один момент времени и для одной критической полосы частот, пространственное разрешение слуховой системы ограничено декодированием одной сигнальной метки для направления, а другой - для интерауральной когерентности. Пространственный звук затем воспроизводится в частотной области посредством плавного перехода двух потоков: ненаправленного рассеянного потока и направленного нерассеянного потока.
Настоящее изобретение раскрывает способ кодирования трехмерного аудио на основе звукового представления DirAC и воспроизведения для достижения передачи иммерсивного аудиоконтента на низких скоростях передачи битов.
DirAC представляет собой перцепционно обусловленное пространственное воспроизведение звука. Предполагается, что в один момент времени и для одной критической полосы частот, пространственное разрешение слуховой системы ограничено декодированием одной сигнальной метки для направления, а другой - для интерауральной когерентности.
На основании этих допущений, DirAC представляет пространственный звук в одной полосе частот посредством плавного перехода двух потоков: ненаправленного рассеянного потока и направленного нерассеянного потока. Обработка DirAC выполняется в двух фазах: анализа и синтеза, как проиллюстрировано на фиг. 10a и 10b.
В каскаде анализа DirAC, совпадающий микрофон первого порядка в B-формате рассматривается как ввод, и рассеянность и направление поступления звука анализируются в частотной области.
В каскаде синтеза DirAC, звук разделяется на два потока, нерассеянный поток и рассеянный поток. Нерассеянный поток воспроизводится в качестве точечных источников с использованием амплитудного панорамирования, которое может выполняться посредством использования векторного амплитудного панорамирования (VBAP) [2]. Рассеянный поток отвечает за ощущение огибания и формируется посредством передачи в громкоговорители взаимно декоррелированных сигналов.
Параметры DirAC, также далее называемые пространственными метаданными или метаданными DirAC, состоят из кортежей рассеянности и направления. Направление может представляться в сферических координатах посредством двух углов, азимута и наклона, тогда как рассеянность представляет собой скалярный множитель между 0 и 1.
Фиг. 10a показывает гребенку 130 фильтров, принимающую входной сигнал в B-формате. Выполняются энергетический анализ 132 и анализ 134 интенсивности. Выполняются временное усреднение для энергетических результатов, указываемых в 136, и временное усреднение для результатов интенсивности, указываемых в 138, и из средних данных, значения рассеянности для отдельных частотно-временных элементов разрешения вычисляются так, как указано в 110. Значения направления для частотно-временных элементов разрешения, заданные посредством временного или частотного разрешения гребенки 130 фильтров, вычисляются посредством блока 120.
В синтезе DirAC, проиллюстрированном на фиг. 10b, снова используется гребенка 431 аналитических фильтров. Например, применяется блок 421 обработки виртуальных микрофонов, в котором виртуальные микрофоны соответствуют, например, положениям громкоговорителей для конфигурации громкоговорителей «5.1». Метаданные рассеянности обрабатываются посредством соответствующих блоков 422 обработки для рассеянности и посредством таблицы усилений на основе VBAP (векторного амплитудного панорамирования), указываемой в блоке 423. Блок 424 усреднения по громкоговорителям выполнен с возможностью выполнения усреднения усилений, и соответствующий блок 425 нормализации применяется таким образом, чтобы иметь соответствующие заданные уровни громкости в отдельных конечных сигналах громкоговорителей. Компенсация микрофонов выполняется в блоке 426.
Результирующие сигналы используются для формирования, с одной стороны, рассеянного потока 427, который содержит каскад декорреляции, и дополнительно также формируется нерассеянный поток 428. Оба потока суммируются в сумматоре 429 для соответствующей подполосы частот, и в блоке 431, выполняется суммирование с другими подполосами частот, т.е. частотно-временное преобразование. Таким образом, блок 431 также может рассматриваться в качестве гребенки синтезирующих фильтров. Аналогичные операции обработки выполняются для других каналов из определенной компоновки громкоговорителей, причем, для отличающегося канала, настройка виртуальных микрофонов в блоке 421 должна отличаться.
В каскаде анализа DirAC, совпадающий микрофон первого порядка в B-формате рассматривается как ввод, и рассеянность и направление поступления звука анализируются в частотной области.
В каскаде синтеза DirAC, звук разделяется на два потока, нерассеянный поток и рассеянный поток. Нерассеянный поток воспроизводится в качестве точечных источников с использованием амплитудного панорамирования, которое может выполняться посредством использования векторного амплитудного панорамирования (VBAP) [2]. Рассеянный поток отвечает за ощущение огибания и формируется посредством передачи в громкоговорители взаимно декоррелированных сигналов.
Параметры DirAC, также далее называемые пространственными метаданными или метаданными DirAC, состоят из кортежей рассеянности и направления. Направление может представляться в сферических координатах посредством двух углов, азимута и наклона, тогда как рассеянность представляет собой скалярный множитель между 0 и 1.
Если STFT рассматривается как частотно-временное преобразование с временным разрешением в 20 мс, которое обычно рекомендуется в некоторых статьях, и с перекрытием в 50% между смежными функциями аналитического кодирования со взвешиванием, то анализ DirAC должен формировать, для ввода, дискретизированного при 48 кГц, 288000 значений в секунду, что соответствует, если углы квантуются в 8 битах, полной скорости передачи битов приблизительно в 2,3 Мбит/с. Объем данных не является подходящим для достижения пространственного кодирования аудио с низкой скоростью передачи битов, и в силу этого требуется эффективная схема кодирования метаданных DirAC.
Предыдущие работы относительно уменьшения метаданных главным образом акцентируют внимание на сценариях на основе телеконференций, в которых характеристики DirAC значительно ухудшены для обеспечения минимальной скорости передачи данных его параметров [4]. Фактически, предлагается ограничивать направленный анализ азимутом в горизонтальной плоскости для воспроизведения только двумерной аудиосцены. Кроме того, рассеянность и азимут передаются только вплоть до 7 кГц, ограничивая связь широкополосной речью. В завершение, рассеянность приблизительно квантуется в одном или двух битах, только иногда включая или выключая рассеянный поток в каскаде синтеза, что не является достаточно общим при рассмотрении множества аудиоисточников и более одного речевого источника поверх фонового шума. В [4], азимут квантован в 3 битах, и предполагается, что источник, в этом случае громкоговоритель, имеет очень статичное положение. Следовательно, параметры передаются только с частотой обновления в 50 мс. На основании множества этих строгих допущений, потребность в битах может уменьшаться приблизительно до 3 Кбит/с.
Задача настоящего изобретения состоит в создании улучшенной концепции пространственного кодирования аудио.
Данная задача решается посредством устройства для кодирования параметров направленного кодирования аудио по пункту 1 формулы, способа кодирования параметров направленного кодирования аудио по пункту 28 формулы, декодера для декодирования кодированного аудиосигнала по пункту 29 формулы, способа декодирования по пункту 46 формулы или компьютерной программы по пункту 47 формулы.
В соответствии с одним аспектом, настоящее изобретение основано на таких выявленных сведениях, что повышенное качество, с одной стороны, и в то же время уменьшенная скорость передачи битов для кодирования параметров пространственного кодирования аудио, с другой стороны, получаются, когда параметры рассеянности, с одной стороны, и параметры направления, с другой стороны, обеспечиваются с различными разрешениями, и различные параметры с различными разрешениями квантуются и кодируются, чтобы получать кодированные параметры направленного кодирования аудио.
В варианте осуществления, временное или частотное разрешение для параметров рассеянности ниже временного или частотного разрешения параметров направления. В дополнительном варианте осуществления, выполняется группировка не только по частоте, но также и по времени. Исходные параметры рассеянности/направленного кодирования аудио вычисляются с высоким разрешением, например, для частотно-временных элементов разрешения с высоким разрешением, и группировка, а предпочтительно группировка с усреднением выполняется для вычисления результирующего параметра рассеянности с низким временным или частотным разрешением и для вычисления результирующего параметра направления со средним временным или частотным разрешением, т.е. при том, что временное или частотное разрешение находится между временным или частотным разрешением для параметра рассеянности и исходным высоким разрешением, с которым вычислены исходные необработанные параметры.
В вариантах осуществления, первое и второе временные разрешения отличаются, и первое и второе частотные разрешения являются идентичными, или наоборот, т.е. эти первое и второе частотные разрешения отличаются, но первое и второе временные разрешения являются идентичными. В дополнительном варианте осуществления, также первое и второе временные разрешения отличаются, и первое и второе частотные разрешения отличаются. Следовательно, первое временное или частотное разрешение также может считаться первым частотно-временным разрешением, и второе временное или частотное разрешение также может считаться вторым частотно-временным разрешением.
В дополнительном варианте осуществления, группировка параметров рассеянности выполняется с помощью суммирования со взвешиванием, причем весовые коэффициенты для суммирования со взвешиванием определяются на основании мощности аудиосигнала таким образом, что частотно-временные элементы разрешения, имеющие более высокий уровень мощности или, в общем, более высокий связанный с амплитудой показатель для аудиосигнала, имеют более высокое влияние на результат, чем параметр рассеянности для частотно-временного элемента разрешения, в котором сигнал, который должен анализироваться, имеет более низкую степень или более низкий связанный с энергией показатель.
Дополнительно предпочтительно выполнять двукратное усреднение со взвешиванием для вычисления сгруппированных параметров направления. Это двукратное усреднение со взвешиванием выполняется таким образом, что параметры направления из частотно-временных элементов разрешения имеют более высокое влияние на конечный результат, когда мощность исходного сигнала является довольно высокой в этом частотно-временном элементе разрешения. Одновременно также учитывается значение рассеянности для соответствующего элемента разрешения таким образом, что, в конечном счете, параметр направления из частотно-временного элемента разрешения, имеющего ассоциированную высокую рассеянность, имеет меньшее влияние на конечный результат по сравнению с параметром направления, имеющим низкую рассеянность, когда мощность является идентичной в обоих частотно-временных элементах разрешения.
Предпочтительно выполнять обработку параметров в кадрах, причем каждый кадр организуется в определенное число полос частот, причем каждая полоса частот содержит по меньшей мере два исходных частотных элемента разрешения, в которых вычислены параметры. Полоса пропускания полос частот, т.е. число исходных частотных элементов разрешения, увеличивается с увеличивающимся номером полосы частот таким образом, что полосы верхних частот являются более широкими, чем полосы нижних частот. Обнаружено, что в предпочтительных вариантах осуществления, число параметров рассеянности в расчете на полосу частот и кадр равно единице, в то время как число параметров направления в расчете на кадр и полосу частот, например, равно двум или даже больше двух, к примеру, четырем. Обнаружено, что идентичное частотное разрешение, но различное временное разрешение, для параметров рассеянности и направления является полезным, т.е. число полос частот для параметров рассеянности и параметров направления в кадре равно друг другу. Эти сгруппированные параметры затем квантуются и кодируются посредством процессора квантователя и кодера.
В соответствии со вторым аспектом настоящего изобретения, задача создания улучшенной концепции обработки для параметров пространственного кодирования аудио решается посредством квантователя параметров для квантования параметров рассеянности и параметров направления и последующего соединенного кодера параметров для кодирования квантованных параметров рассеянности и квантованных параметров направления, и соответствующего выходного интерфейса для формирования представления кодированных параметров, содержащего информацию относительно кодированных параметров рассеянности и кодированных параметров направления. Таким образом, посредством квантования и последующего энтропийного кодирования, получается существенное уменьшение скорости передачи данных.
Параметры рассеянности и параметры направления, вводимые в кодер, могут представлять собой параметры рассеянности/направления высокого разрешения либо сгруппированные или несгруппированные параметры направленного кодирования аудио низкого разрешения. Один признак предпочтительного квантователя параметров заключается в том, что точность квантования для квантования параметров направления извлекается из значения рассеянности параметра рассеянности, ассоциированного с идентичной частотно-временной областью. Таким образом, в одном признаке второго аспекта, параметры направления, которые ассоциированы с параметрами рассеянности, имеющими высокую рассеянность, квантуются менее точно по сравнению с параметрами направления, ассоциированными с частотно-временными областями, имеющими параметр рассеянности, указывающий низкую рассеянность.
Непосредственно параметры рассеянности могут энтропийно кодироваться в режиме кодирования без предварительной обработки либо могут кодироваться в режиме кодирования одиночных значений, когда параметры рассеянности для полос частот кадра имеют идентичное значение по всему кадру. В других вариантах осуществления, значения рассеянности могут кодироваться в процедуре на основании только двух последовательных значений.
Другой признак второго аспекта заключается в том, что параметры направления преобразуются в представление в виде азимута/наклона. В этом признаке, значение наклона используется для того, чтобы определять алфавит для квантования и кодирования значения азимута. Предпочтительно, алфавит азимута имеет наибольшее количество различных значений, когда наклон указывает нулевой угол или, в общем, экваториальный угол на единичной сфере. Наименьшее количество значений в алфавите азимута имеется, когда наклон указывает северный или южный полюс единичной сферы. Следовательно, значение алфавита снижается с увеличивающимся абсолютным значением угла наклона, подсчитанным от экватора.
Это значение наклона квантуется с точностью квантования, определенной из соответствующего значения рассеянности, и алфавит квантования, с одной стороны, и точность квантования, с другой стороны, определяют квантование и типично энтропийное кодирование соответствующих значений азимута.
Таким образом, выполняется эффективная и параметрически адаптированная обработка, которая удаляет максимально возможно существенную нерелевантность и в то же время применяет высокое разрешение или высокую точность к областям, в которых означенное целесообразно, тогда как в других областях, таких как северный полюс или южный полюс единичной сферы, точность не является настолько высокой, по сравнению с экватором единичной сферы.
Сторона декодера, работающая в соответствии с первым аспектом, выполняет любой вид декодирования и выполняет соответствующую разгруппировку с кодированными или декодированными параметрами рассеянности и кодированными или декодированными параметрами направления. Таким образом, преобразование разрешения параметров выполняется для того, чтобы повышать разрешение из кодированного или декодированного параметра направленного кодирования аудио до разрешения, которое в итоге используется посредством модуля рендеринга аудио для того, чтобы выполнять рендеринг аудиосцены. В ходе этого преобразования разрешения, различное преобразование разрешения выполняется для параметров рассеянности, с одной стороны, и параметров направления, с другой стороны.
Параметры рассеянности типично кодируются с низким разрешением, и в силу этого, один параметр рассеянности должен умножаться или копироваться несколько раз, чтобы получать представление высокого разрешения. С другой стороны, соответствующий параметр направления должен копироваться менее часто или умножаться менее часто по сравнению с параметром рассеянности, поскольку разрешение параметров направления уже больше разрешения параметров рассеянности в кодированном аудиосигнале.
В варианте осуществления, скопированные или умноженные параметры направленного кодирования аудио применяются как есть либо обрабатываются, к примеру, сглаживаются или фильтруются по нижним частотам, чтобы избегать артефактов, вызываемых посредством параметров, серьезно изменяющихся по частоте и/или во времени. Тем не менее, поскольку в предпочтительном варианте осуществления, применение параметрических данных после преобразования разрешения выполняется в спектральной области, соответствующее частотно-временное преобразование подготовленного посредством рендеринга аудиосигнала из частотной области во временную область выполняет внутренне присущее усреднение вследствие предпочтительно применяемой процедуры суммирования с перекрытием, что представляет собой признак, типично включенный в гребенки синтезирующих фильтров.
На стороне декодера в соответствии со вторым аспектом, конкретные процедуры, выполняемые на стороне кодера относительно энтропийного кодирования, с одной стороны, и квантования, с другой стороны, отменяются. Предпочтительно определять точность деквантования на стороне декодера из типично квантованного или деквантованного параметра рассеянности, ассоциированного с соответствующим параметром направления.
Предпочтительно определять алфавит для параметра наклона из соответствующего значения рассеянности и его связанной точности деквантования. Также для второго аспекта предпочтительно выполнять определение алфавита деквантования для параметра азимута на основании значения квантованного или предпочтительно деквантованного параметра наклона.
В соответствии со вторым аспектом, режим кодирования без предварительной обработки, с одной стороны, или режим энтропийного кодирования, с другой стороны, выполняется на стороне кодера, и режим, приводящий к меньшему числу битов, выбирается в кодере и передается в служебных сигналах в декодер через некоторую вспомогательную информацию. Типично, режим кодирования без предварительной обработки всегда выполняется для параметров направления, имеющих ассоциированные высокие значения рассеянности, в то время как режим энтропийного кодирования пробуется для параметров направления, имеющих ассоциированные более низкие значения рассеянности. В режиме энтропийного кодирования с кодированием без предварительной обработки, значения азимута и наклона объединяются в индекс сферы, и индекс сферы затем кодируется с помощью двоичного кода или прореженного кода, а на стороне декодера это энтропийное кодирование отменяется, соответственно.
В режиме энтропийного кодирования с моделированием, среднее значение наклона и азимута вычисляется для кадра, и остаточные значения относительно этих средних значений фактически вычисляются. Таким образом, вид прогнозирования выполняется, и остаточные значения прогнозирования, т.е. расстояние для наклона и азимута, энтропийно кодируются. С этой целью, предпочтительно выполнять процедуру на основе расширенного кода Голомба-Райса на базе параметра на основе кода Голомба-Райса, который определяется на стороне кодера и кодируется, в дополнение к расстояниям предпочтительно со знаком и средним значениям. На стороне декодера, как только энтропийное кодирование с моделированием, т.е. этот режим декодирования, передается в служебных сигналах и определяется посредством оценки вспомогательной информации в декодере, декодирование с процедурой на основе расширенного кода Голомба-Райса выполняется с использованием кодированных средних, кодированных расстояний предпочтительно со знаком и соответствующих параметров на основе кода Голомба-Райса для наклона и азимута.
Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:
Фиг. 1a иллюстрирует предпочтительный вариант осуществления стороны кодера первого аспекта или второго аспекта;
Фиг. 1b иллюстрирует предпочтительный вариант осуществления стороны декодера первого аспекта или второго аспекта;
Фиг. 2a иллюстрирует предпочтительный вариант осуществления устройства для кодирования в соответствии с первым аспектом;
Фиг. 2b иллюстрирует предпочтительную реализацию модуля вычисления параметров по фиг. 2a;
Фиг. 2c иллюстрирует дополнительную реализацию для вычисления параметра рассеянности;
Фиг. 2d иллюстрирует дополнительную предпочтительную реализацию модуля 100 вычисления параметров по фиг. 2a;
Фиг. 3a иллюстрирует частотно-временное представление, полученное посредством гребенки 130 аналитических фильтров по фиг. 1a или 430 по фиг. 1b с высоким временным или частотным разрешением;
Фиг. 3b иллюстрирует реализацию группировки по рассеянности с низким временным или частотным разрешением и, в частности, с конкретным низким временным разрешением одного параметра рассеянности в расчете на кадр;
Фиг. 3c иллюстрирует предпочтительную иллюстрацию среднего разрешения для параметров направления, имеющих пять полос частот, с одной стороны, и четыре временных области, с другой стороны, что приводит к 20 частотно-временным областям;
Фиг. 3d иллюстрирует выходной поток битов с кодированными параметрами рассеянности и кодированными параметрами направления;
Фиг. 4a иллюстрирует устройство для кодирования параметров направленного кодирования аудио в соответствии со вторым аспектом;
Фиг. 4b иллюстрирует предпочтительную реализацию квантователя параметров и кодера параметров для вычисления кодированных параметров рассеянности;
Фиг. 4c иллюстрирует предпочтительную реализацию кодера по фиг. 4a относительно взаимодействия различных элементов;
Фиг. 4d иллюстрирует квазиравномерное покрытие единичной сферы, применяемое для целей квантования в предпочтительном варианте осуществления;
Фиг. 5a иллюстрирует общее представление работы кодера параметров по фиг. 4a, работающего в различных режимах кодирования;
Фиг. 5b иллюстрирует предварительную обработку индексов направления для обоих режимов по фиг. 5a;
Фиг. 5c иллюстрирует первый режим кодирования в предпочтительном варианте осуществления;
Фиг. 5d иллюстрирует предпочтительный вариант осуществления второго режима кодирования;
Фиг. 5e иллюстрирует предпочтительную реализацию энтропийного кодирования расстояний со знаком и соответствующих средних с использованием процедуры GR-кодирования;
Фиг. 5f иллюстрирует предпочтительный вариант осуществления для определения оптимального параметра на основе кода Голомба-Райса;
Фиг. 5g иллюстрирует реализацию процедуры на основе расширенного кода Голомба-Райса для кодирования переупорядоченных расстояний со знаком, как указано в блоке 279 по фиг. 5e;
Фиг. 6a иллюстрирует реализацию квантователя параметров по фиг. 4a;
Фиг. 6b иллюстрирует предпочтительную реализацию функциональностей для деквантователя параметров, также используемого в определенных аспектах в реализации на стороне кодера;
Фиг. 6c иллюстрирует общее представление реализации необработанной процедуры кодирования направления;
Фиг. 6d иллюстрирует реализацию вычисления и квантования и деквантования для среднего направления для азимута и наклона;
Фиг. 6e иллюстрирует проецирование данных среднего наклона и азимута;
Фиг. 6f иллюстрирует вычисление расстояний для наклона и азимута;
Фиг. 6g иллюстрирует общее представление кодирования среднего направления в режиме энтропийного кодирования с моделированием;
Фиг. 7a иллюстрирует декодер для декодирования кодированного аудиосигнала в соответствии с первым аспектом;
Фиг. 7b иллюстрирует предпочтительную реализацию преобразователя разрешения параметров по фиг. 7a и последующего рендеринга аудио;
Фиг. 8a иллюстрирует декодер для декодирования кодированного аудиосигнала в соответствии со вторым аспектом;
Фиг. 8b иллюстрирует схематичное представление потока битов для кодированных параметров рассеянности в варианте осуществления;
Фиг. 8c иллюстрирует реализацию потока битов, когда выбран режим кодирования без предварительной обработки;
Фиг. 8d иллюстрирует схематичный поток битов, когда выбран другой режим кодирования, т.е. режим энтропийного кодирования с моделированием;
Фиг. 8e иллюстрирует предпочтительную реализацию декодера параметров и деквантователя параметров, в которой точность деквантования определяется на основании рассеянности для частотно-временной области;
Фиг. 8f иллюстрирует предпочтительную реализацию декодера параметров и деквантователя параметров, в которой алфавит наклона определяется из точности деквантования, и алфавит азимута определяется на основании точности деквантования и данных наклона для частотно-временной области;
Фиг. 8g иллюстрирует общее представление декодера параметров по фиг. 8a, иллюстрирующее два различных режима декодирования;
Фиг. 9a иллюстрирует операцию декодирования, когда режим кодирования без предварительной обработки является активным;
Фиг. 9b иллюстрирует декодирование среднего направления, когда режим энтропийного декодирования с моделированием является активным;
Фиг. 9c иллюстрирует восстановление наклонов и азимутов, когда режим декодирования с моделированием является активным, и последующее деквантование;
Фиг. 10a иллюстрирует известный анализатор DirAC; и
Фиг. 10b иллюстрирует известный синтезатор DirAC.
Настоящее изобретение обобщает сжатие метаданных DirAC для любого вида сценария. Настоящее изобретение применяется в системе пространственного кодирования, проиллюстрированной на фиг. 1a и фиг. 1b, на которых проиллюстрированы пространственный аудиокодер и декодер на основе DirAC.
Кодер обычно анализирует пространственную аудиосцену в B-формате. В качестве альтернативы, анализ DirAC может регулироваться, чтобы анализировать различные аудиоформаты, такие как аудиообъекты или многоканальные сигналы, либо комбинацию любых пространственных аудиоформатов. Анализ DirAC извлекает параметрическое представление из входной аудиосцены. Направление поступления (DoA) и рассеянность, измеренные в расчете на частотно-временную единицу, формируют параметры. Анализ DirAC выполняется посредством кодера пространственных метаданных, который квантует и кодирует параметры DirAC для получения параметрического представления с низкой скоростью передачи битов. Второй модуль является предметом этого изобретения.
Наряду с параметрами, сигнал понижающего сведения, извлекаемый из других источников или входных аудиосигналов, кодируется для передачи посредством традиционного базового аудиокодера. В предпочтительном варианте осуществления, EVS-аудиокодер является предпочтительным для кодирования сигнала понижающего сведения, но изобретение не ограничено этим базовым кодером и может применяться к любому базовому аудиокодеру. Сигнал понижающего сведения состоит из различных каналов, называемых транспортными каналами: сигнал, например, может представлять собой четыре сигнала коэффициентов, составляющие сигнал в B-формате, стереопару или монофоническое понижающее сведение, в зависимости от целевой скорости передачи битов. Кодированные пространственные параметры и кодированный поток аудиобитов мультиплексируются до передачи по каналу связи.
В декодере, транспортные каналы декодируются посредством базового декодера, в то время как метаданные DirAC сначала декодируются до передачи с декодированными транспортными каналами в синтез DirAC. Синтез DirAC использует декодированные метаданные для управления воспроизведением прямого звукового потока и его смешения с рассеянным звуковым потоком. Воспроизведенное звуковое поле может воспроизводиться при произвольной схеме размещения громкоговорителей или может формироваться в формате амбиофонии (HOA/FOA) с произвольным порядком.
Аудиокодер для кодирования аудиосигнала, такого как входной сигнал в B-формате, проиллюстрирован на фиг. 1a. Аудиокодер содержит анализатор 100 DirAC. Анализатор 100 DirAC может включать в себя гребенку 130 аналитических фильтров, модуль 110 оценки рассеянности и модуль 120 оценки направления. Данные рассеянности и данные направления выводятся в кодер 200 пространственных метаданных, который, в завершение, выводит кодированные метаданные по линии 250. Сигнал в B-формате также может перенаправляться в формирователь диаграммы направленности антенны/модуль 140 выбора сигналов, который формирует, из входного сигнала, транспортный моно- или стереоаудиосигнал, который затем кодируется в аудиокодере 150, т.е. предпочтительно, в кодере на основе стандарта EVS (улучшенных голосовых услуг). Кодированный аудиосигнал выводится в 170. Кодированные параметры кодирования, указываемые в 250, вводятся в декодер 300 пространственных метаданных. Кодированный аудиосигнал 170 вводится в аудиодекодер 340, который реализуется, в предпочтительном варианте осуществления и в соответствии с реализацией на стороне кодера, в качестве EVS-декодера.
Декодированный транспортный сигнал вводится в синтезатор 400 DirAC вместе с декодированными параметрами направленного кодирования аудио. В варианте осуществления, проиллюстрированном на фиг. 1b, синтезатор DirAC содержит выходной синтезатор 420, гребенку 430 аналитических фильтров и гребенку 440 синтезирующих фильтров. В выводе гребенки 400 синтезирующих фильтров, получается декодированный многоканальный сигнал 450, который может перенаправляться в громкоговорители, либо который, в качестве альтернативы, может представлять собой аудиосигнал в любом другом формате, таком как формат амбиофонии первого порядка (FOA) или амбиофонии высшего порядка (HOA). Естественно, любые другие параметрические данные, такие как данные MPS (стандарта объемного звучания MPEG) или данные SAOC (пространственного кодирования аудиообъектов) могут формироваться вместе с транспортным каналом, представляющим собой моноканал или стереоканал.
Обычно, выходной синтезатор работает посредством вычисления, для каждого частотно-временного элемента разрешения, определенного посредством гребенки 430 аналитических фильтров, прямого аудиосигнала, с одной стороны, и рассеянного аудиосигнала, с другой стороны. Прямой аудиосигнал вычисляется на основании параметров направления и взаимосвязи между прямым аудиосигналом и рассеянным аудиосигналом в конечном аудиосигнале для этого частотно-временного элемента разрешения, определенного на основании параметра рассеянности таким образом, что частотно-временной элемент разрешения, имеющий высокое значение параметра рассеянности, приводит к выходному сигналу, который имеет большое количество рассеянного сигнала и низкое количество прямого сигнала, в то время как частотно-временной элемент разрешения, имеющий низкую рассеянность, приводит к выходному сигналу, имеющему большое количество прямого сигнала и низкое количество рассеянного сигнала.
Фиг. 2a иллюстрирует устройство для кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления в соответствии с первым аспектом. Устройство содержит модуль 100 вычисления параметров для вычисления параметров рассеянности с первым временным или частотным разрешением и для вычисления параметров направления со вторым временным или частотным разрешением. Устройство содержит процессор 200 квантователя и кодера для формирования квантованного и кодированного представления параметров рассеянности и параметров направления, проиллюстрированных в 250. Модуль 100 вычисления параметров может содержать элементы 110, 120, 130 по фиг. 1a, причем различные параметры уже вычисляются в первом или втором временном или частотном разрешении.
В качестве альтернативы, предпочтительная реализация проиллюстрирована на фиг. 2b. Здесь, модуль вычисления параметров и, в частности, блоки 110, 120 на фиг. 1a сконфигурированы таким образом, как проиллюстрировано в элементе 130 по фиг. 2b, т.е. таким образом, что они вычисляют параметры с третьим или четвертым типично высоким временным или частотным разрешением. Выполняется операция группировки. Чтобы вычислять параметры рассеянности, группировка и усреднение выполняется, как проиллюстрировано в блоке 141, чтобы получать представление параметров рассеянности с первым временным или частотным разрешением, и для вычисления параметров направления, группировка (и усреднение) выполняется в блоке 142, чтобы получать представление параметров направления во втором временном или частотном разрешении.
Параметры рассеянности и параметры направления вычисляются таким образом, что второе временное или частотное разрешение отличается от первого временного или частотного разрешения, и первое временное разрешение ниже второго временного разрешения, или второе частотное разрешение превышает первое частотное разрешение, либо, в качестве альтернативы, первое временное разрешение ниже второго временного разрешения, и первое частотное разрешение равно второму частотному разрешению.
Типично, параметры рассеянности и параметры направления вычисляются для набора полос частот, при этом полоса частот, имеющая более низкую центральную частоту, является более узкой, чем полоса частот, имеющая более высокую центральную частоту. Как уже пояснено относительно фиг. 2b, модуль 100 вычисления параметров выполнен с возможностью получения начальных параметров рассеянности, имеющих третье временное или частотное разрешение, и модуль 100 вычисления параметров также выполнен с возможностью получения начальных параметров направления, имеющих четвертое временное или частотное разрешение, при этом обычно третье и четвертое временные или частотные разрешения равны друг другу.
Модуль вычисления параметров затем выполнен с возможностью группирования и усреднения начальных параметров рассеянности таким образом, что третье временное или частотное разрешение выше первого временного или частотного разрешения, т.е. выполняется уменьшение разрешения. Модуль вычисления параметров также выполнен с возможностью группирования и усреднения начальных параметров направления таким образом, что четвертое временное или частотное разрешение выше второго временного или частотного разрешения, т.е. выполняется уменьшение разрешения. Предпочтительно, третье временное или частотное разрешение представляет собой постоянное временное разрешение таким образом, что каждый начальный параметр рассеянности ассоциирован с временным квантом или частотным элементом разрешения, имеющим идентичный размер. Четвертое временное или частотное разрешение также представляет собой постоянное частотное разрешение таким образом, что каждый начальный параметр направления ассоциирован с временным квантом или частотным элементом разрешения, имеющим идентичный размер.
Модуль вычисления параметров выполнен с возможностью усреднения по первому множеству параметров рассеянности, ассоциированных с первым множеством временных квантов. Модуль 100 вычисления параметров также выполнен с возможностью усреднения по второму множеству параметров рассеянности, ассоциированных со вторым множеством частотных элементов разрешения, и модуль вычисления параметров также выполнен с возможностью усреднения по третьему множеству параметров направления, ассоциированных с третьим множеством временных квантов, или модуль вычисления параметров также выполнен с возможностью усреднения по четвертому множеству параметров направления, ассоциированных с четырьмя множествами частотных элементов разрешения.
Как пояснено относительно фиг. 2c и фиг. 2d, модуль 100 вычисления параметров выполнен с возможностью выполнения средневзвешенного вычисления, при котором параметр рассеянности или параметр направления, извлекаемый из части входного сигнала, имеющей более высокий связанный с амплитудой показатель, взвешивается с использованием более высокого весового коэффициента по сравнению с параметром рассеянности или параметром направления, извлекаемым из части входного сигнала, имеющей более низкий связанный с амплитудой показатель. Модуль 100 вычисления параметров выполнен с возможностью вычисления 143 связанного с амплитудой показателя в расчете на элемент разрешения в третьем или четвертом временном или частотном разрешении, как проиллюстрировано на фиг. 2c, элемент 143. В блоке 144, вычисляются весовые коэффициенты для каждого элемента разрешения, и в блоке 145, группировка и усреднение выполняется с использованием комбинирования со взвешиванием, такого как суммирование со взвешиванием, при котором параметры рассеянности для отдельных элементов разрешения вводятся в блок 145. В выводе блока 145, получаются параметры рассеянности с первым временным или частотным разрешением, которые после этого могут нормализоваться в блоке 146, но эта процедура является только необязательной.
Фиг. 2d иллюстрирует вычисление параметров направления со вторым разрешением. В блоке 146, связанный с амплитудой показатель вычисляется в расчете на элемент разрешения в третьем или четвертом разрешении, аналогично элементу 143 по фиг. 2c. В блоке 147, весовые коэффициенты вычисляются для каждого элемента разрешения, но не только в зависимости от связанного с амплитудой показателя, полученного из блока 147, но также и с использованием соответствующего параметра рассеянности в расчете на элемент разрешения, как проиллюстрировано на фиг. 2d. Таким образом, для идентичного связанного с амплитудой показателя, более высокий коэффициент типично вычисляется для более низкой рассеянности. В блоке 148, группировка и усреднение выполняется с использованием комбинирования со взвешиванием, такого как суммирование, и результат может нормализоваться, как проиллюстрировано в необязательном блоке 146. Таким образом, в выводе блока 146, параметр направления получается в качестве единичного вектора, соответствующего двумерной или трехмерной области, такого как декартов вектор, который может легко преобразовываться в полярную форму, имеющую значение азимута и значение наклона.
Фиг. 3a иллюстрирует частотно-временной растр, полученный посредством анализа 430 на основе гребенки фильтров по фиг. 1a и фиг. 1b или применяемый посредством синтеза 440 на основе гребенки фильтров по фиг. 1b. В варианте осуществления, полный частотный диапазон разделяется на 60 полос частот, и кадр дополнительно имеет 16 временных квантов. Это высокое временное или частотное разрешение предпочтительно представляет собой третье или четвертое высокое временное или частотное разрешение. Таким образом, начиная с 60 полос частот и 16 временных квантов, получаются 960 частотно-временных мозаичных фрагментов или элементы разрешения в расчете на кадр.
Фиг. 3b иллюстрирует уменьшение разрешения, выполняемое посредством модуля вычисления параметров и, в частности, посредством блока 141 по фиг. 2b, чтобы получать представление первого временного или частотного разрешения для значений рассеянности. В этом варианте осуществления, полная полоса пропускания частот разделяется на пять сгруппированных полос частот и только один временной квант. Таким образом, для одного кадра, получаются, в конечном счете, только пять параметров рассеянности в расчете на каждый кадр, которые затем дополнительно квантуются и кодируются.
Фиг. 3c иллюстрирует соответствующую процедуру, выполняемую посредством блока 142 по фиг. 2b. Параметры направления высокого разрешения из фиг. 3a, на котором один параметр направления вычисляется для каждого элемента разрешения, группируются и усредняются в представление со средним разрешением на фиг. 3c, на котором один элемент имеет, для каждого кадра, пять полос частот, но, в отличие от фиг. 3a, теперь четыре временных кванта. Таким образом, в конечном счете, один кадр принимает 20 параметров направления, т.е. 20 сгруппированных элементов разрешения в расчете на кадр для параметров направления и только пять сгруппированных элементов разрешения в расчете на кадр для параметров рассеянности по фиг. 3b. В предпочтительном варианте осуществления, края полосы частот являются исключающими в своих верхних краях, так что.
При сравнении фиг. 3b и фиг. 3c, следует отметить, что параметр рассеянности для первой полосы частот, т.е. параметр рассеянности 1 соответствует четырем параметрам направления для первой полосы частот или ассоциирован с ними. Как указано далее, точность квантования для всех параметров направления в первой полосе частот определяется посредством параметра рассеянности для первой полосы частот или, примерно, точность квантования для параметров направления для пятой полосы частот, т.е. для соответствующих четырех параметров направления, покрывающих пятую полосу частот и четыре временных кванта в пятой полосе частот, определяется посредством одного параметра рассеянности для пятой полосы частот.
Таким образом, в этом варианте осуществления, в котором только один параметр рассеянности состоит в расчете на полосу частот, все параметры направления в одной полосе частот имеют идентичную точность квантования/деквантования. Как указано далее, алфавит для квантования и кодирования параметра азимута зависит от значения исходного/квантованного/деквантованного параметра наклона. Таким образом, хотя каждый параметр направления для каждой полосы частот имеет идентичный параметр квантования/деквантования, каждый параметр азимута для каждого сгруппированного элемента разрешения или частотно-временной области по фиг. 3c может иметь различный алфавит для квантования и кодирования.
Результирующий поток битов, сформированный посредством процессора 200 квантователя и кодера, проиллюстрированного в 250 на фиг. 2a, подробнее иллюстрируется на фиг. 3d. Поток битов может содержать индикатор 260 разрешения, указывающий первое разрешение и второе разрешение. Тем не менее, когда первое разрешение и второе разрешение фиксированно задаются посредством кодера и декодера, в таком случае этот индикатор разрешения не требуется. Элементы 261, 262 иллюстрируют кодированные параметры рассеянности для соответствующих полос частот. Поскольку. 3d иллюстрирует только пять полос частот, только пять параметров рассеянности включаются в кодированный поток данных. Элементы 363, 364 иллюстрируют кодированные параметры направления. Для первой полосы частот, предусмотрено четыре кодированных параметра направления, причем первый индекс параметра направления указывает полосу частот, и второй параметр указывает временной квант. Параметр направления для пятой полосы частот и четвертого временного кванта, т.е. для верхнего правого частотного элемента разрешения на фиг. 3c, указывается в качестве DIR54.
В дальнейшем подробно поясняется дополнительная предпочтительная реализация.
Частотно-временное разложение
В DirAC, как анализ, так и синтез выполняется в частотной области. Частотно-временной анализ и синтез могут выполняться с использованием различных блочных преобразований, таких как кратковременное преобразование Фурье (STFT), либо гребенок фильтров, таких как комплексно-модулированная гребенка квадратурных зеркальных фильтров (QMF). В предпочтительном варианте осуществления, целесообразно совместно использовать кадрирование между обработкой DirAC и базовым кодером. Поскольку базовый кодер предпочтительно основан на 3GPP EVS-кодеке, требуется кадрирование по 20 мс. Кроме того, важные критерии, такие как временные и частотные разрешения и надежность для наложения спектров, являются релевантными для очень активной частотно-временной обработки в DirAC. Поскольку система спроектирована для связи, алгоритмическая задержка представляет собой другой аспект импорта.
По всем этим причинам, комплексно-модулированная гребенка фильтров с низкой задержкой (CLDFB) представляет собой предпочтительный вариант выбора. CLDFB имеет временное разрешение в 1,25 мс и разделяет кадр в 20 мс на 16 временных квантов. Частотное разрешение составляет 400 Гц, что означает то, что входной сигнал разлагается в (f/2)/400 полосы частот. Работа гребенки фильтров описана в общей форме посредством следующей формулы:
где и являются действительными и мнимыми значениями подполос частот, соответственно, t является подполосным временным индексом с , и k является индексом подполосы частот, причем -1. Аналитический прототип представляет собой асимметричный фильтр нижних частот с адаптивной длиной в зависимости от . Длина задается посредством , что означает то, что фильтр охватывает более 10 последовательных блоков для преобразования.
Например, CLDFB должен разлагать сигнал, дискретизированный при 48 кГц, на 60×16=960 частотно-временных мозаичных фрагментов в расчете на кадр. Задержка после анализа и синтеза может регулироваться посредством выбора различных прототипных фильтров. Обнаружено, что задержка в 5 мс (анализ и синтез) представляет собой хороший компромисс между обеспечиваемым качеством и вызываемой задержкой. Для каждого частотно-временного мозаичного фрагмента, вычисляются рассеянность и направление.
Оценка параметров DirAC
В каждой полосе частот, оценивается направление поступления звука вместе с рассеянностью звука. Из частотно-временного анализа входных компонентов в B-формате, векторы давления и скорости могут определяться следующим образом:
где i является индексом ввода, n и являются k временным и частотным индексами частотно-временного мозаичного фрагмента, и представляют единичные декартовы векторы. P (n, k) и U (n, k) необходимы для вычисления параметров DirAC, а именно, DoA и рассеянности посредством вычисления вектора интенсивности:
,
где (.) обозначает комплексное сопряжение. Рассеянность комбинированного звукового поля задается следующим образом:
,
где обозначает оператор временного усреднения, c является скоростью звука, и E (k, n) является энергией звукового поля, заданной следующим образом:
.
Рассеянность звукового поля задается как отношение между интенсивностью звука и плотностью энергии, имеющее значения между 0 и 1.
Направление поступления (DoA) выражается посредством единичного вектора , заданного следующим образом:
.
Направление поступления определяется посредством энергетического анализа ввода в B-формате и может задаваться как противоположное направление вектора интенсивности. Направление задается в декартовых координатах, но может легко преобразовываться в сферические координаты, заданные посредством единичного радиуса, угла азимута и угла наклона.
В общем, если значения параметров непосредственно преобразуются в биты для каждого частотно-временного мозаичного фрагмента, должны кодироваться 3 значения: угол азимута, угол наклона и рассеянность. Метаданные в таком случае состоят в примере CLDFB из 2880 значений в расчете на кадр, т.е. 144000 значений в секунду. Этот огромный объем данных должен радикально уменьшаться для достижения кодирования с низкой скоростью передачи битов.
Группировка и усреднение метаданных DirAC
Для уменьшения числа параметров, параметры, вычисленные в каждом частотно-временном мозаичном фрагменте, сначала группируются и усредняются вдоль полос частот параметров и по нескольким временным квантам. Группировка развязывается между рассеянностью и направлением, что представляет собой важный аспект изобретения. Фактически, развязывание использует тот факт, что рассеянность поддерживает более долгосрочную характеристику звукового поля, чем направление, которое представляет собой более реактивную пространственную сигнальную метку.
Полосы частот параметров составляют неравномерное и неперекрывающееся разложение полос частот примерно согласно целому числу раз по шкале эквивалентной прямоугольной полосы пропускания (ERB). По умолчанию, 9 раз по ERB-шкале приспосабливается для 5 полос частот параметров в сумме для полосы пропускания аудиосигнала в 16 кГц.
Рассеянность вычисляется следующим образом:
,
где power(n, k)a является энергией входного сигнала, измеренной в частотно-временном мозаичном фрагменте индексов (t, k) и возведенной в степень a, и diffuseness(n, k) является рассеянностью входного сигнала, измеренной в частотно-временном мозаичном фрагменте индексов (n, k), и где задает предел полос частот параметров с точки зрения индексов полос частот, и задает предел группировки по времени в индексах временных квантов. Например, таблицы могут задаваться для 5 полос частот параметров и 1 временной группы следующим образом:
Вектор направления в декартовых координатах вычисляется следующим образом:
где power(n, k)a является энергией входного сигнала, измеренной в частотно-временном мозаичном фрагменте индексов (t, k) и возведенной в степень a, diffuseness(n, k) является рассеянностью входного сигнала, измеренной в частотно-временном мозаичном фрагменте индексов (n, k), и direction(n, k) является направлением, измеренным в частотно-временном мозаичном фрагменте индексов (n, k) в трехмерных декартовых координатах, и где задает предел полос частот параметров с точки зрения индексов полос частот, и задает предел группировки по времени в индексах временных квантов. Например, таблицы могут задаваться для 5 полос частот параметров и 4 временных групп следующим образом:
Параметр a обеспечивает возможность сжатия или расширения весовых коэффициентов на основании степени при суммировании со взвешиванием, выполняемом для усреднения параметров. В предпочтительном режиме, a=1.
В общем, это значение может составлять реальное неотрицательное число, поскольку экспонента, меньшая 1, также может быть полезной. Например, 0,5 (квадратный корень) по-прежнему должен обеспечивать больший весовой коэффициент для связанных с более высокой амплитудой сигналов, но более умеренный по сравнению с экспонентой в 1 или большей 1.
После группировки и усреднения, результирующий направленный вектор , в общем, более не представляет собой единичный вектор. В силу этого требуется нормализация:
.
В дальнейшем поясняется предпочтительный вариант осуществления второго аспекта настоящего изобретения. Фиг. 4a иллюстрирует устройство для кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления в соответствии с дополнительным вторым аспектом. Устройство содержит квантователь 210 параметров, принимающий на входе сгруппированные параметры, как пояснено относительно первого аспекта, или параметры, которые не сгруппированы или которые сгруппированы по-другому.
Следовательно, например, квантователь 210 параметров и последующий соединенный кодер 220 параметров для кодирования квантованных параметров рассеянности и квантованных параметров направления включаются вместе с выходным интерфейсом для формирования представления кодированных параметров, содержащего информацию относительно кодированных параметров рассеянности и кодированных параметров направления в блоке 200 по фиг. 1a. Процессор 200 квантователя и кодера по фиг. 2a может реализовываться, например, как пояснено далее относительно квантователя 210 параметров и кодера 220 параметров, но процессор 200 квантователя и кодера также может реализовываться любым другим способом по первому аспекту.
Предпочтительно, квантователь 210 параметров по фиг. 4a выполнен с возможностью квантования параметра рассеянности, как проиллюстрировано в 231 на фиг. 4b, с использованием неравномерного квантователя, чтобы формировать индексы рассеянности. Кодер 220 параметров по фиг. 4a выполнен таким образом, как проиллюстрировано в элементе 232, т.е. с возможностью энтропийного кодирования значений рассеянности, полученных для кадра с использованием предпочтительно трех различных режимов, хотя также может использоваться один режим либо только два различных режима. Один режим представляет собой режим без предварительной обработки, который выполняется таким образом, что каждое отдельное значение рассеянности кодируется с использованием, например, двоичного кода или прореженного двоичного кода. В качестве альтернативы, дифференциальное кодирование может выполняться таким образом, что каждая разность и исходное абсолютное значение кодируются с использованием режима без предварительной обработки. Тем не менее, может возникать такая ситуация, что идентичный кадр имеет идентичную рассеянность по всем полосам частот, и может использоваться код на основании только одного значения. С другой стороны, альтернативно может возникать такая ситуация, что имеются только последовательные значения для рассеянности, т.е. последовательные индексы рассеянности в одном кадре, и в таком случае может применяться третий режим кодирования, как проиллюстрировано в блоке 232.
Фиг. 4c иллюстрирует реализацию квантователя 210 параметров по фиг. 4a. Квантователь 210 параметров по фиг. 4a выполнен с возможностью преобразования параметра направления в полярную форму, как проиллюстрировано в 233. В блоке 234, определяется точность квантования для элемента разрешения. Этот элемент разрешения может представлять собой исходный элемент разрешения с высоким разрешением либо, альтернативно и предпочтительно, сгруппированный элемент разрешения с низким разрешением.
Как пояснено выше относительно фиг. 3b и фиг. 3c, каждая полоса частот имеет идентичное значение рассеянности, но имеет четыре различных значения направления. Идентичная точность квантования определяется для всей полосы частот, т.е. для всех параметров направления в полосе частот. В блоке 235, параметр наклона в качестве вывода посредством блока 233 квантуется с использованием точности квантования. Алфавит квантования для квантования параметра наклона предпочтительно также получается из точности квантования для элемента разрешения, определенной в блоке 234.
Для целей обработки значения азимута, алфавит азимута определяется 236 из информации наклона для соответствующего (сгруппированного) частотно-временного элемента разрешения. Информация наклона может быть квантованным значением наклона, исходным значением наклона или квантованным и снова деквантованным значением наклона, при этом последнее значение, т.е. квантованное и снова деквантованное значение наклона, является предпочтительным для того, чтобы иметь идентичную ситуацию на стороне кодера и на стороне декодера. В блоке 237, параметр азимута квантуется с алфавитом для этого частотно-временного элемента разрешения. Хотя можно иметь идентичную точность квантования полосы частот, как пояснено выше относительно фиг. 3b, тем не менее, можно иметь различные алфавиты азимута для каждого отдельного сгруппированного частотно-временного элемента разрешения, ассоциированного с параметром направления.
Кодирование метаданных DirAC
Для каждого кадра, пространственные параметры DirAC вычисляются в сетке, состоящей из полос частот по частоте, и для каждой полосы частот b, временных квантов группируются в число временных групп одинакового размера. Параметр рассеянности отправляется для каждой полосы частот, и параметр направления - для каждой временной группы каждой полосы частот.
Например, если и , с , это должно приводить к 5 параметрам рассеянности и 20 параметрам направления в расчете на кадр, которые дополнительно квантуются и энтропийно кодируются.
Квантование параметров рассеянности
Каждый параметр рассеянности diff(b) квантуется в один из diff_alph дискретных уровней, с использованием неравномерного квантователя, формирующего индекс diff_idx(b) рассеянности. Например, квантователь может извлекаться из таблицы ICC-квантования, используемой в MPS-стандарте, для которого пороговые значения и уровни восстановления вычисляются посредством функции generate_diffuseness_quantizer.
Предпочтительно, используются только неотрицательные значения из таблицы ICC-квантования, в качестве icc=[1,0, 0,937, 0,84118, 0,60092, 0,36764, 0,0], содержащие только 6 уровней из исходных 8. Поскольку ICC в 0,0 соответствует рассеянности в 1,0, и ICC в 1,0 соответствует рассеянности в 0,0, набор координат y создается как y=1,0-icc, с соответствующим набором координат x в качестве x=[0,0, 0,2, 0,4, 0,6, 0,8, 1,0]. Способ кусочной кубической интерполяции с сохранением формы, известный как кусочный кубический эрмитов интерполяционный полином (PCHIP), используется для того, чтобы извлекать кривую, проходящую через набор точек, заданный посредством x и y. Число шагов квантователя рассеянности составляет diff_alph, что в предлагаемой реализации равно 8, но оно не имеет взаимосвязи с общим числом уровней таблицы ICC-квантования, которое также равно 8.
Формируется новый набор diff_alph равномерно разнесенных координат x_interpolated от 0,0 до 1,0 (или близко к, но меньше 1,0, когда случай чистой рассеянности в 1,0 исключается по соображениям рендеринга звука), и соответствующие значения y на кривой используются в качестве значений восстановления, причем эти значения восстановления нелинейно разнесены. Точки в середине между последовательными значениями x_interpolated также формируются, и соответствующие значения y кривой используются в качестве пороговых значений, чтобы определять то, какие значения преобразуются в конкретный индекс рассеянности и в силу этого в значение восстановления. Для предлагаемой реализации, сформированные значения reconstruction и threshold (округленные до 5 цифр), вычисленные посредством функции generate_diffuseness_quantizer, являются следующими:
reconstructions=[0,0, 0,03955, 0,08960, 0,15894, 0,30835, 0,47388, 0,63232, 0,85010]
thresholds=[0,0, 0,01904, 0,06299, 0,11938, 0,22119, 0,39917, 0,54761, 0,73461, 2,0]
Заполняющее большое пороговое значение вне диапазона (2,0) суммируется на конце пороговых значений, чтобы упрощать выполнение поиска. Для пояснения примером, если diff(b)=0,33, для конкретной полосы b частот, то thresholds[4]<=diff(b)< thresholds[5], в силу чего diff_idx(b)=4, и соответствующее значение восстановления составляет reconstructions[4]=0,30835.
Вышеуказанная процедура представляет собой только один возможный вариант выбора нелинейного квантователя для значений рассеянности.
Энтропийное кодирование параметров рассеянности
Функция EncodeQuasiUniform(value, alphabet_sz) используется для того, чтобы кодировать с квазиравномерной вероятностью с использованием прореженного кода. Для , число наименьших единиц кодируется с использованием битов, а остальные - с использованием битов. Если представляет собой степень двух, в результате применяется двоичное кодирование.
В зависимости от своих значений, квантованные индексы рассеянности могут энтропийно кодироваться с использованием одного из трех доступных способов: кодирование без предварительной обработки, на основании только одного значения и на основании только двух последовательных значений. Первый бит (diff_use_raw_coding) указывает, используется ли способ кодирования без предварительной обработки. Для кодирования без предварительной обработки, каждое значение индекса рассеянности кодируется с использованием функции EncodeQuasiUniform.
Если все значения индекса равны, используется способ на основе только одного значения. Второй бит (diff_have_unique_value) используется для того, чтобы указывать этот способ, затем уникальное значение кодируется с использованием функции EncodeQuasiUniform. Если все значения индекса состоят только из двух последовательных значений, используется способ на основе только двух последовательных значений, указываемый посредством вышеуказанного второго бита. Меньшее из двух последовательных значений кодируется с использованием функции EncodeQuasiUniform, с учетом того, что ее размер алфавита уменьшается до diff_alph-1. Затем для каждого значения, разности между ним и минимальным значением кодируется с использованием одного бита.
Предпочтительная функция EncodeQuasiUniform(value, alphabet_sz) реализует то, что называется прореженным кодом. Она может задаваться в псевдокоде следующим образом:
bits=floor(log2(alphabet_sz))
thresh=2^(bits+1)-alphabet_sz
if (value<thresh)
write_bits(value, bits)
else
write_bits(value+thresh, bits+1)
Если alphabet_sz представляет собой степень 2, то alphabet_sz=2^bits, и thresh=2^bits, в силу чего ветвь else никогда не используется, и в результате применяется двоичное кодирование. В противном случае, первые thresh наименьших значений кодируются с помощью двоичного кода, имеющего bits битов, и остальные, начиная с value=thresh, кодируются с помощью двоичного кода, имеющего bits+1 битов. Первый двоичный код, кодированный с использованием bits+1 битов, имеет значение value+thresh=thresh+thresh=thresh*2, в силу чего декодер может выяснять, посредством считывания только первых bits битов и сравнения их value с thresh, должен ли он считывать еще один дополнительный бит. Функция декодирования, DecodeQuasiUniform (alphabet_sz) может задаваться в псевдокоде следующим образом:
bits=floor(log2(alphabet_sz))
thresh=2^(bits+1)-alphabet_sz
value=read_bits(bits)
if (value>=thresh)
value=(value*2+read_bits(1))-thresh
return value
Преобразование параметров направления в полярные координаты
Каждый трехмерный вектор dv направления, который нормализуется таким образом, что , преобразуется в полярное представление, состоящее из угла наклона и угла азимута, с использованием функции DirectionVector2AzimuthElevation. Обратное преобразование направления, из полярных координат в нормализованный вектор направления, достигается с использованием функции AzimuthElevation2DirectionVector.
Квантование параметров направления
Направление, представленное в качестве пары наклона и азимута, дополнительно квантуется. Для каждого квантованного уровня индекса рассеянности, требуемая угловая точность выбирается из конфигурационного вектора angle_spacing в качестве и используется для того, чтобы формировать набор квазиравномерно распределенных точек квантования на единичной сфере.
Значение deg_req углового разнесения предпочтительно вычисляется не из рассеянности diff(b), а из индекса diff_idx(b) рассеянности. Следовательно, имеется diff_alph возможных значений deg_req, по одному для каждого возможного индекса рассеянности. На стороне декодера, исходная рассеянность diff(b) недоступна, а только индекс diff_idx(b) рассеянности, который может использоваться для выбора идентичного значения углового разнесения, аналогично кодеру. В предлагаемой реализации, таблица угловых разнесений является следующей:
angle_spacing_table=[5,0, 5,0, 7,5, 10,0, 18,0, 30,0, 45,0, 90,0]
Квазиравномерно распределенные точки на единичной сфере формируются таким способом, чтобы удовлетворять нескольким важным требуемым свойствам. Точки должны распределяться симметрично относительно осей X, Y и Z. Квантование данного направления в ближайшую точку и преобразование в целочисленный индекс должно представлять собой постоянную временную операцию. В завершение, вычисление соответствующей точки на сфере из целочисленного индекса и деквантование в направление должно представлять собой постоянную логарифмическую временную операцию относительно общего числа точек на сфере.
Предусмотрено два типа симметрии относительно оси для точек на горизонтальной плоскости: при двух присутствующих точках, когда ортогональная ось пересекает единичную сферу на текущей плоскости, и без присутствующих точек. В качестве примера для произвольной горизонтальной плоскости, возникают три возможных случая. Если число точек составляет кратное 4, к примеру, 8, возникает симметрия относительно оси X (слева направо) и двух точек, присутствующих при 90 и 270 градусов на оси Y и симметрия относительно оси Y (спереди назад) и двух точек, присутствующих при 0 и 180 градусов на оси X. Если число точек составляет только кратное 2, к примеру, 6, возникает симметрия относительно оси X, но без точек при 90 и 270 градусов на оси Y и симметрия относительно оси Y и двух точек, присутствующих при 0 и 180 градусов на оси X. В завершение, когда число точек составляет произвольное целое число, к примеру, 5, возникает симметрия относительно оси X, но без точек при 90 и 270 градусов на оси Y, и отсутствует симметрия относительно оси Y.
В предпочтительном варианте осуществления, наличие точек при 0, 90, 180 и 270 градусах на всех горизонтальных плоскостях (соответствующих всем квантованным наклонам) считается полезным с психоакустической точки зрения, что подразумевает то, что число точек на каждой горизонтальной плоскости всегда составляет кратное 4. Тем не менее, в зависимости от конкретного варианта применения, условие относительно числа точек на каждой горизонтальной плоскости может ослабляться таким образом, что оно составляет только кратное 2 или произвольное целое число.
Кроме того, в предпочтительном варианте осуществления, для каждого наклона "исходная" точка азимута всегда существует в привилегированном направлении в 0 градусов (к передней стороне). Это свойство может ослабляться посредством выбора предварительно вычисленного угла смещения при квантовании для каждого наклона отдельно с точками азимута, распределенными относительно него вместо направления в 0 градусов. Это может легко реализовываться посредством суммирования смещения перед квантованием и вычитания его после деквантования.
Требуемая угловая точность составляет deg_reg и должна быть делителем 90 градусов. В противном случае, она повторно вычисляется перед фактическим использованием как . Например, список возможных значений составляет . Угол el наклона равномерно квантуется, с размером deg_reg шага, с формированием , одного из индексов квантования, где . Этот индекс соответствует деквантованному наклону . Эквивалентно, только на основании размера алфавита, для квантования и для деквантования.
В экваторе, угол az азимута равномерно квантуется, с размером deg_reg шага, формируя az_idx, один из 4*n_points индексов квантования. Для других наклонов, горизонтальное угловое разнесение при наблюдении из центра единичной сферы, которое соответствует длине хорды между двумя последовательными точками, может аппроксимироваться посредством длины дуги на горизонтальной окружности, расположенной при наклоне q_el. Следовательно, число точек, соответствующих 90 градусов на этой горизонтальной окружности, уменьшается, относительно окружности экватора, пропорционально ее радиусу таким образом, что длина дуги между двумя последовательными точками остается приблизительно идентичной везде. На полюсах, общее число точек становится одной.
Предусмотрено индексов квантования, соответствующих наклону q_el, где . Соответствующий индекс квантования представляет собой , в котором результирующее значение az_alph заменяется 0. Этот индекс соответствует деквантованному азимуту . Отметим, что за исключением полюсов, в которых az_alph=1, наименьшие значения около полюсов составляют az_alph=4 для deg_reg=90 и deg_reg=45 и az_alph=8 для всех остальных.
Если условие относительно числа точек на каждой горизонтальной плоскости ослабляется таким образом, что оно составляет только кратное 2, алфавит азимута становится , поскольку имеется 2* n_points, соответствующих 180 градусов на экваториальной плоскости. Если условие относительно числа точек ослабляется, чтобы быть произвольным целым числом, алфавит азимута становится , поскольку имеется 4*n_points, соответствующих 360 градусам на экваториальной плоскости. В обоих случаях, на экваториальной плоскости число точек всегда составляет кратное 4, поскольку radius_len=1 и n_points являются целым числом.
Процесс квантования и деквантования, описанный выше, достигается с использованием функций QuantizeAzimuthElevation и DequantizeAzimuthElevation, соответственно.
Предпочтительно, функция round(x) округляет x до ближайшего целого числа, обычно реализуемого с фиксированной запятой в качестве round(x)=floor(x+0,5). Округление для привязок, которые являются значениями точно в середине между целыми числами, к примеру, 1,5, может выполняться несколькими способами. Вышеуказанное определение округляет привязки к +бесконечности (1,5 округляется до 2, 2,5 округляется до 3). Реализации с плавающей запятой обычно имеют собственное округление до целочисленной функции, с округлением привязок до четных целых чисел (1,5, округляется до 2, 2,5 округляется до 2).
Фиг. 4d, указываемый как "квазиравномерное покрытие единичной сферы", иллюстрирует пример квазиравномерного покрытия единичной сферы с использованием угловой точности в 15 градусов, показывающий квантованные направления. Трехмерный вид приведён сверху, только верхняя полусфера нарисована для лучшей визуализации, и соединительная пунктирная спиральная линия служит лишь для более простой визуальной идентификации точек из идентичной горизонтальной окружности или плоскости.
В дальнейшем иллюстрируется предпочтительная реализация кодера 220 параметров по фиг. 4a для целей кодирования квантованных параметров направления, т.е. квантованных индексов наклона и квантованных индексов азимута. Как проиллюстрировано на фиг. 5a, кодер выполнен с возможностью классификации 240 каждого кадра относительно значений рассеянности в кадре. Блок 240 принимает значения рассеянности, которые в варианте осуществления по фиг. 3b, представляют собой только пять значений рассеянности для кадра. Если кадр состоит только из низких значений рассеянности, применяется режим 241 кодирования с низкой рассеянностью. Когда пять значений рассеянности в кадре представляют собой только высокие значения рассеянности, в таком случае применяется режим 242 кодирования с высокой рассеянностью. Когда определяется то, что значения рассеянности в кадре и ниже и выше порогового значения ec_max рассеянности, в таком случае применяется режим 243 кодирования со смешанной рассеянностью. Как в режиме 241 кодирования с низкой рассеянностью, так и в режиме 242 кодирования с высокой рассеянностью, а также для полос частот с низкой рассеянностью, относительно кадра со смешанной рассеянностью, кодирование без предварительной обработки, с одной стороны, и энтропийное кодирование, с другой стороны, пробуются, т.е. выполняются, как указано в 244a, 244b и 244c. Тем не менее, для полос частот с высокой рассеянностью в кадре со смешанной рассеянностью, режим кодирования без предварительной обработки всегда используется, как указано в 244d.
В случае если различные режимы кодирования, т.е. режим кодирования без предварительной обработки и режим энтропийного кодирования (с моделированием) используются, результат выбирается посредством контроллера кодера, который выбирает режим, который приводит к меньшему числу битов для кодирования квантованных индексов. Это указывается в 245a, 245b и 245c.
С другой стороны, можно использовать только режим кодирования без предварительной обработки для всех кадров и полос частот либо только режим энтропийного кодирования с моделированием для всех полос частот, либо любой другой режим кодирования для кодирования индексов, такой как режим кодирования Хаффмана или режим арифметического кодирования с/без контекстной адаптации.
В зависимости от результата выбранной процедуры в блоках 245a, 245b и 245c, вспомогательная информация задается для всего кадра, как проиллюстрировано в блоках 246a, 246b, либо задается только для соответствующих полос частот, т.е. полос частот с низкой рассеянностью в блоке 246c. Кроме того, вспомогательная информация также может задаваться для всего кадра в случае элемента 246c. В этом случае, определение полос частот с высокой рассеянностью может выполняться только в декодере таким образом, что даже если вспомогательная информация задается для всего кадра, декодер, тем не менее, определяет то, что имеется кадр со смешанной рассеянностью, и то, что параметры направления для полос частот, имеющих высокое значение рассеянности в этом кадре со смешанной рассеянностью, кодируются с помощью режима кодирования без предварительной обработки, хотя вспомогательная информация для кадра указывает режим энтропийного кодирования с моделированием.
В предпочтительном варианте осуществления, diff_alph=8. Затем пороговое значение ec_max выбрано равным 5, посредством минимизации среднего сжатого размера на большом тестовом массиве. Это пороговое значение ec_max используется в следующем режиме, в зависимости от диапазона значений для индексов рассеянности текущего кадра:
- для кадров с низкой и средней рассеянностью, где diff_idx(b)<=ec_max, для всех полос b частот, все направления кодируются с использованием как кодирования без предварительной обработки, так и энтропийного кодирования, и наилучшее выбирается и указывается посредством одного бита в качестве вспомогательной информации (идентифицированной выше в качестве dir_use_raw_coding);
- для кадров со смешанной рассеянностью, где diff_idx(b)<=ec_max, для некоторых полос b частот, направления, соответствующие этим полосам частот, кодируются идентично первому случаю; тем не менее, для других полос b частот с высокой рассеянностью, где diff_idx(b)>ec_max, направления, соответствующие этим другим полосам частот, всегда кодируются в качестве необработанных (чтобы исключать смешение статистики по энтропийному кодированию направлений, имеющих низкую и среднюю рассеянность, с направлениями, имеющими высокую рассеянность, которые также квантуются очень приблизительно);
- для кадров с высокой рассеянностью, где diff_idx(b)>ec_max, для всех полос b частот, пороговое значение ec_max задается заранее равным ec_max=diff_alph для текущего кадра (поскольку индексы рассеянности кодируются до направлений, это задание может осуществляться заранее идентично на стороне декодера), в силу чего этот случай уменьшается до первого случая.
Фиг. 5b иллюстрирует предпочтительную, но необязательную предварительную обработку индексов направления для обоих режимов. Для обоих режимов, квантованные индексы направления, т.е. квантованные индексы азимута и квантованные индексы наклона обрабатываются в блоке 247 как преобразование индексов наклона/азимута, приводящее к значениям со знаком, при этом нулевой индекс соответствует углу наклона или азимута в нуль. Последующее преобразование 248 в значения без знака, содержащее перемежение положительных/отрицательных значений, выполняется для того, чтобы иметь более компактное представление переупорядоченных индексов азимута/наклона без знака.
Фиг. 5c иллюстрирует предпочтительную реализацию первого режима 260 кодирования, т.е. режима кодирования без предварительной обработки без моделирования. Предварительно обработанные индексы азимута/наклона вводятся в блок 261, чтобы объединять оба индекса в один индекс сферы. На основании точности квантования, извлекаемой из ассоциированного индекса рассеянности, т.е. deg_req, выполняется 262 кодирование с помощью функции кодирования, такой как EncodeQuasiUniform или (прореженный) двоичный код. Таким образом, получаются кодированные индексы сферы для полос частот или для всего кадра. Кодированные индексы сферы для всего кадра получаются в случае кадра только с низкой рассеянностью, в котором выбрано кодирование без предварительной обработки, либо кадра только с высокой рассеянностью, в котором также выбрано кодирование без предварительной обработки, или кодированные индексы сферы только для полос частот с высокой рассеянностью кадра получаются в случае кадра со смешанной рассеянностью, указываемого в 243 на фиг. 5a, на котором, для других полос частот, с низкой или средней рассеянностью, выбран второй режим кодирования, такой как энтропийное кодирование с моделированием.
Фиг. 5d иллюстрирует этот второй режим кодирования, который, например, может представлять собой режим энтропийного кодирования с моделированием. Предварительно обработанные индексы, которые, например, классифицируются для кадра со смешанной рассеянностью, как проиллюстрировано на фиг. 5a в 240 вводятся в блок 266, который собирает соответствующие данные квантования, такие как индексы наклона, алфавиты наклона, индексы азимута, алфавиты азимута, и эти данные собираются в отдельные векторы для кадра. В блоке 267, средние вычисляются для наклона и азимута четко на основании информации, извлекаемой из деквантования и соответствующего векторного преобразования, как поясняется ниже. Эти средние значения квантуются с наибольшей угловой точностью, используемой в кадре, что указывается в блоке 268. Прогнозированные индексы наклона и азимута формируются из средних значений, как проиллюстрировано в блоке 269, и расстояния со знаком для наклона и азимута из исходных индексов, связанные с прогнозированными индексами наклона и азимута, вычисляются и необязательно уменьшаются до другого меньшего интервала значений.
Как проиллюстрировано на фиг. 5e, данные, сформированные посредством операции моделирования с использованием операции проецирования для извлечения прогнозных значений, проиллюстрированных на фиг. 5d, энтропийно кодируются. Эта операция кодирования, проиллюстрированная на фиг. 5e, в итоге формирует биты для кодирования из соответствующих данных. В блоке 271, средние значения для азимута и наклона преобразуются в значения со знаком, и определенное переупорядочение 272 выполняется для того, чтобы иметь более компактное представление, и эти средние значения кодируются 273 с помощью двоичного кода или прореженного двоичного кода, чтобы формировать 274 средние биты наклона и средние биты азимута. В блоке 275, определяется параметр на основе кода Голомба-Райса, к примеру, как проиллюстрировано на фиг. 5f, и этот параметр затем также кодируется с помощью (прореженного) двоичного кода, проиллюстрированного в блоке 276, чтобы иметь параметр на основе кода Голомба-Райса для наклона и другой параметр на основе кода Голомба-Райса для азимута, проиллюстрированные в 277. В блоке 278, (уменьшенные) расстояния со знаком, вычисленные посредством блока 270, переупорядочиваются и затем кодируются с помощью способа на основе расширенного кода Голомба-Райса, проиллюстрированного в 279, чтобы иметь кодированные расстояния наклона и расстояния азимута, указываемые в 280.
Фиг. 5f иллюстрирует предпочтительную реализацию для определения параметра на основе кода Голомба-Райса в блоке 275, который выполняется оба для определения параметра наклона на основе кода Голомба-Райса или параметра азимута на основе кода Голомба-Райса. В блоке 281, интервал определяется для соответствующего параметра на основе кода Голомба-Райса. В блоке 282, общее число битов для всех уменьшенных расстояний со знаком вычисляется, для каждого возможного варианта значения, и в блоке 283, возможный вариант значения, приводящий к наименьшему числу битов, выбирается в качестве параметра на основе кода Голомба-Райса для обработки азимута или наклона.
В дальнейшем поясняется фиг. 5g для того, чтобы дополнительно иллюстрировать процедуру в блоке 279 по фиг. 5e, т.е. способ на основе расширенного кода Голомба-Райса. На основе выбранного параметра p на основе кода Голомба-Райса, индекс расстояния для наклона или для азимута разделяется на старшую часть MSP и младшую часть LSP, как проиллюстрировано справа от блока 284. В блоке 285, завершающий нулевой бит MSP-части исключается, в случае, когда MSP является максимальным возможным значением, и в блоке 286, результат кодируется с помощью (прореженного) двоичного кода.
LSP-часть также кодируется с помощью (прореженного) двоичного кода, проиллюстрированного в 287. Таким образом, в линиях 288 и 289, получаются кодированные биты для старшей части MSP и кодированные биты для младшей части LSP, которые вместе представляют соответствующие кодированные уменьшенные расстояния со знаком для наклона или для азимута.
Фиг. 8d иллюстрирует пример для кодированного направления. Бит 806 режима указывает, например, режим энтропийного кодирования с моделированием. Элемент 808a иллюстрирует средние биты азимута, и элемент 808b иллюстрирует средние биты наклона, как пояснено выше относительно элемента 274 по фиг. 5e. Параметр 808c азимута на основе кода Голомба-Райса и параметр 808d наклона на основе кода Голомба-Райса также включаются в кодированной форме в поток битов по фиг. 8d согласно тому, что пояснено выше относительно элемента 277. Кодированные расстояния наклона и кодированные расстояния азимута (808e и 808f) включаются в поток битов, полученный в 288 и 289 или поясненный выше относительно элемента 280 на фиг. 5e и фиг. 5g. Элемент 808g иллюстрирует дополнительные биты рабочих данных для дополнительных расстояний наклона/азимута. Средние для наклона и азимута и параметры на основе кода Голомба-Райса для наклона и азимута требуются только один раз для каждого кадра, но при необходимости, также могут вычисляться два раза для кадра и т.п., если кадр является довольно длинным, или статистика по сигналам сильно изменяется в кадре.
Фиг. 8c иллюстрирует поток битов, когда бит режима указывает кодирование без предварительной обработки, как задано посредством фиг. 5c, блок 260. Бит 806 режима указывает режим кодирования без предварительной обработки, и элемент 808 указывает биты рабочих данных для индексов сферы, т.е. результат блока 262 по фиг. 5c.
Энтропийное кодирование параметров направления
При кодировании квантованного направления, индекс el_idx наклона всегда кодируется сначала перед индексом az_idx азимута. Если текущая конфигурация учитывает только горизонтальную экваториальную плоскость, то ничего не кодируется для наклона, и он считается нулем везде.
Перед кодированием, значения со знаком преобразуются в значения без знака посредством использования общего преобразования с переупорядочением, которое перемежает положительные и отрицательные числа в числа без знака в качестве , реализованного посредством функции ReorderGeneric. Выражение оценивается как равное 1, если является истинным, и оценивается как 0, если является ложным.
Поскольку число меньших значений без знака кодируется более эффективно, при использовании на один бит меньше, с использованием функции EncodeQuasiUniform, индексы наклона и азимута, которые уже не имеют знака, преобразуются в значение со знаком таким образом, что значение индекса со знаком в нуль соответствует углу наклона или азимута в нуль, и только после этого применяется функция ReorderGeneric. Посредством преобразования сначала в значение со знаком, нулевое значение располагается в середине интервала со знаком возможных значений, и после применения функции ReorderGeneric, результирующее значение переупорядоченного индекса наклона без знака составляет , и результирующее значение переупорядоченного индекса азимута без знака составляет .
Для кодирования без предварительной обработки, без моделирования, два переупорядоченных индекса без знака объединяются в один индекс сферы без знака , где функция sphere_offsets вычисляет сумму всех алфавитов az_alph азимута, соответствующих переупорядоченным индексам наклона без знака, меньшим el_idx_r. Например, когда deg_reg=90, где el_idx_r=0 (наклон в 0 градусов) имеет az_alph=4, el_idx_r=1 (наклон в -90 градусов) имеет az_alph=1, и el_idx_r=2 (наклон в 90 градусов) имеет az_alph=1, должна принимать значение 4+1. Если текущая конфигурация учитывает только горизонтальную экваториальную плоскость, то el_idx_r всегда 0, и индекс сферы без знака упрощается до . В общем, общее число точек на сфере или количество точек сферы составляет .
Индекс sphere_idx сферы без знака кодируется с использованием функции EncodeQuasiUniform. Для энтропийного кодирования, с моделированием, квантованные направления группируются в две категории. Первая содержит квантованные направления для индексов рассеянности , которые энтропийно кодируются, и вторая содержит квантованные направления для индексов рассеянности , которые кодируются без предварительной обработки, где ec_max является пороговым значением, оптимально выбранным в зависимости от diff_alph. Этот подход неявно исключает из энтропийного кодирования полос частот с высокой рассеянностью, когда полосы частот с низкой и средней рассеянностью также присутствуют в кадре, чтобы исключать смешение статистики остатков. Для кадра со смешанной рассеянностью кодирование без предварительной обработки всегда используется для полос частот с высокой рассеянностью. Тем не менее, если все полосы частот имеют высокую рассеянность, , пороговое значение задается заранее равным ec_max=diff_alph для обеспечения энтропийного кодирования для всех полос частот.
Для первой категории квантованных направлений, которые энтропийно кодируются, соответствующие индексы el_idx наклона, алфавиты el_alph наклона, индексы az_idx азимута и алфавиты az_alph азимута собираются в отдельные векторы для последующей обработки.
Средний вектор направления извлекается посредством преобразования каждого квантованного направления, которое энтропийно кодируется обратно в вектор направления, вычисления среднего, медианы или моды векторов направления, что включает в себя ренормализацию, и преобразования среднего вектора направления в средний наклон el_avg и азимут az_avg. Два значения квантуются с использованием наилучшей угловой точности deg_reg, используемой посредством квантованных направлений, которые энтропийно кодируются, что обозначается посредством deg_reg_avg, которая обычно представляет собой требуемую угловую точность, соответствующую наименьшему индексу рассеянности .
С использованием соответствующего значения n_points_avg, извлекаемого из deg_reg_avg, квантуется el_avg, нормально формируя el_avg_idx, и el_avg_alph; тем не менее, az_avg квантуется с использованием точности на экваторе, формируя az_avg_idx и az_avg_alph=4* n_points_avg.
Для энтропийного кодирования каждого направления, деквантованный средний наклон q_el_avg и азимут q_az_avg проецируются с использованием точности этого направления, чтобы получать прогнозированные индексы наклона и азимута. Для индекса el_idx наклона, его точность, которая может извлекаться из el_aplh, используется для того, чтобы вычислять проецируемый средний индекс el_avg_idx_p наклона. Для соответствующего индекса az_idx азимута, его точность на горизонтальной окружности, расположенная при наклоне q_el, который может извлекаться из az_aplh, используется для того, чтобы вычислять проецируемый средний индекс az_avg_idx_p азимута.
Проекция для того, чтобы получать прогнозированные индексы наклона и азимута, может вычисляться несколькими эквивалентными способами. Для наклона, , что может легко упрощаться в . Чтобы упрощать точную по битам операцию, предыдущая формула может перезаписываться с использованием полностью целочисленной математики, включающей в себя деление, в качестве Для азимута, , что может легко упрощаться в . Чтобы упрощать точную по битам операцию, предыдущая формула может перезаписываться с использованием полностью целочисленной математики, включающей в себя деление, в качестве . На полюсах, на которых , всегда имеется и задается непосредственно.
Расстояние el_idx_dist со знаком вычисляется в качестве разности между каждым индексом el_idx наклона и его соответствующим el_avg_idx_p. Кроме того, поскольку разность формирует значения в интервале , они уменьшаются до интервала посредством суммирования el_alph для значений, которые являются слишком небольшими, и вычитания el_alph для значений, которые являются слишком большими, аналогично модульной арифметике. Если это уменьшенное расстояние относительно el_avg_idx_p интерпретируется с использованием циклического возврата, это может формировать все значения из для алфавита без знака, содержания значения el_alph.
Аналогично, расстояние az_idx_dist со знаком вычисляется в качестве разности между каждым индексом az_idx азимута и его соответствующим az_avg_idx_p. Разностная операция формирует значения в интервале , которые уменьшаются до интервала посредством суммирования az_alph для значений, которые являются слишком небольшими, и вычитания az_alph для значений, которые являются слишком большими. Когда az_alph=1, индекс азимута всегда az_idx=0, и ничего не должно кодироваться.
В зависимости от своих значений, квантованные индексы наклона и азимута могут кодироваться с использованием одного из двух доступных способов: кодирование без предварительной обработки или энтропийное кодирование. Первый бит (dir_use_raw_coding) указывает, используется ли способ кодирования без предварительной обработки. Для кодирования без предварительной обработки, объединенные одиночные индексы sphere_index сферы без знака непосредственно кодируются с использованием функции EncodeQuasiUniform.
Энтропийное кодирование состоит из нескольких частей. Все квантованные индексы наклона и азимута, соответствующие индексам рассеянности , кодируются как для кодирования без предварительной обработки. В таком случае, для других, сначала энтропийно кодируется часть наклона, а далее часть азимута.
Часть наклона состоит из трех компонентов: средний индекс наклона, параметр на основе кода Голомба-Райса и уменьшенные расстояния наклона со знаком. Средний индекс el_avg_idx наклона преобразуется в значение со знаком таким образом, что нулевое значение находится в середине интервала со знаком возможных значений, функция ReorderGeneric применяется, и результат кодируется с использованием функции EncodeQuasiUniform. Параметр на основе кода Голомба-Райса, имеющий размер алфавита в зависимости от максимума размеров алфавита индексов наклона, кодируется с использованием функции EncodeQuasiUniform. В завершение, для каждого уменьшенного расстояния наклона со знаком el_idx_dist, функция ReorderGeneric применяется, чтобы формировать el_idx_dist_r, и результат кодируется с использованием способа на основе расширенного кода Голомба-Райса с параметром, указываемым выше.
Например, если наилучшая используемая угловая точность deg_reg_min составляет 5 градусов, то максимум размеров алфавита наклона el_alph должен составлять . В этом случае, значения параметров на основе кода Голомба-Райса (обозначаются как p в описании способа на основе кода Голомба-Райса ниже) ограничены интервалом В общем, наибольшее потенциально полезное значение параметра на основе кода Голомба-Райса составляет , что формирует двоичные кодовые слова длины, равной или немного большей длины, сформированных посредством кодирования без предварительной обработки с использованием функции EncodeQuasiUniform. Оптимальное значение параметра el_gr_param на основе кода Голомба-Райса выбирается посредством эффективного вычисления без кодирования, для каждого значения в вышеуказанном интервале, полного размера в битах для всех значений el_idx_dist_r, которые должны кодироваться с использованием способа на основе расширенного кода Голомба-Райса, и выбора одного значения, которое обеспечивает наименьший размер в битах.
Часть азимута также состоит из трех компонентов: средний индекс азимута, параметр на основе кода Голомба-Райса и уменьшенные расстояния азимута со знаком. Средний индекс az_avg_idx азимута преобразуется в значение со знаком таким образом, что нулевое значение находится в середине интервала со знаком возможных значений, функция ReorderGeneric применяется, и результат кодируется с использованием функции EncodeQuasiUniform. Параметр на основе кода Голомба-Райса, имеющий размер алфавита в зависимости от максимума размеров алфавита индексов азимута, кодируется с использованием функции EncodeQuasiUniform. В завершение, для каждого уменьшенного расстояния азимута со знаком az_idx_dist, функция ReorderGeneric применяется, чтобы формировать az_idx_dist_r, и результат кодируется с использованием способа на основе расширенного кода Голомба-Райса с параметром, указываемым выше.
Например, если наилучшая используемая угловая точность deg_reg_min составляет 5 градусов, то максимум размеров az_alph алфавита азимута должен составлять . В этом случае, значения параметров на основе кода Голомба-Райса (обозначаются как p в описании способа на основе кода Голомба-Райса ниже) ограничены интервалом , оптимальное значение параметра на основе кода Голомба-Райса az_gr_param выбирается посредством эффективного вычисления, для каждого значения в вышеуказанном интервале, полного размера в битах для всех значений az_idx_dist_r, которые должны кодироваться с использованием способа на основе расширенного кода Голомба-Райса, и выбора одного значения, которое обеспечивает наименьший размер в битах.
Важное свойство, которое следует учитывать для эффективного энтропийного кодирования, заключается в том, что каждое переупорядоченное уменьшенное расстояние el_idx_dist_r наклона может иметь различный размер алфавита, который составляет точно el_alph исходного значения el_idx индекса наклона и зависит от соответствующего индекса diff_idx(b) рассеянности. Кроме того, каждое переупорядоченное уменьшенное расстояние az_idx_dist_r азимута может иметь различный размер алфавита, который является точно az_alph исходного значения az_idx индекса азимута и зависит и от соответствующего q_el его горизонтальной окружности и от индекса diff_idx(b) рассеянности.
Существующий способ энтропийного кодирования Голомба-Райса, с целочисленным параметром p≥0, используется для того, чтобы кодировать целое число u без знака. Во-первых, u разбивается на младшую часть с p битов, , и старшую часть . Старшая часть кодируется в унарном формате, с использованием u_msp одиночных битов и завершающего нулевого бита, и младшая часть кодируется в двоичном формате.
Поскольку произвольно большие целые числа могут кодироваться, некоторая эффективность кодирования может быть потеряна, когда фактические значения, которые должны кодироваться, имеют известный и относительно небольшой размер алфавита. Другой недостаток заключается в вероятности декодирования недопустимого значения (или вне диапазона) или считывания очень большого числа одиночных битов, в случае ошибки при передаче или намеренно созданного недопустимого потока битов.
Способ на основе расширенного кода Голомба-Райса комбинирует три улучшения по сравнению с существующим способом на основе кода Голомба-Райса, для кодирования вектора значений, каждое из которых имеет известный и потенциально отличающийся размер u_alph алфавита. Во-первых, размер алфавита старшей части может вычисляться в качестве . Если кодируется максимальное возможное значение старшей части, u_msp_alph-1, завершающий нулевой бит может исключаться, поскольку это условие может неявно обнаруживаться на стороне декодера, при этом модификация представляет собой существующий способ на основе ограниченного кода Голомба-Райса. Кроме того, для идентичного случая, когда u_msp=u_msp_alph-1, размер алфавита младшей части u_lsp, который может вычисляться в качестве . Это также является полезным, когда конкретное значение u имеет алфавит u_alph меньший 2p. В завершение, когда u_msp_alph≤3, способ на основе ограниченного кода Голомба-Райса формирует коды, имеющие только одну длину, в p или p+1 битов, либо коды, имеющие только две длины, в p+1 и p+2 битов. Функция EncodeQuasiUniform является оптимальной для вплоть до двух длин, в силу чего она используется вместо этого.
Пороговое значение 3 является специальным предпочтительным значением, поскольку, когда u_msp_alph=3, кодовые слова ограниченного кода Голомба-Райса для старшей части равны 0, 10, 11; в силу этого общие длины кода составляют 1+p, 2+p и 2+p, где p является числом битов для младшей части; поскольку прореженный код всегда является оптимальным для вплоть до двух длин, он используется вместо этого, заменяя как старшую, так и младшую части.
Кроме того, следует указывать то, что функция EncodeQuasiUniform представляет собой точно прореженный код, который неявно становится двоичным кодом, когда размер алфавита представляет собой степень двух. Обычно, прореженный код является оптимальным и уникально определяется с учетом размера алфавита; это формирует коды одной или двух длин только; для 3 или более последовательных длин кода, возможные коды более не являются квазиравномерными, и имеются различные варианты выбора для числа возможных кодов каждой длины.
Это изобретение не ограничено точным вышеприведенным описанием. В качестве альтернативы, изобретение может легко расширяться в форму схемы межкадрового прогнозирующего кодирования, в которой, для каждой полосы частот параметров, средний вектор направления вычисляется с использованием предыдущих векторов направления во времени, из текущего кадра и также необязательно из предыдущих кадров, вместо вычисления оного среднего вектора направления для всего текущего кадра и его квантования и кодирования в качестве вспомогательной информации. Это решение должно иметь преимущество большей эффективности при кодировании, но также и меньшей надежности на предмет возможных потерь пакетов.
Фиг. 6a-6g иллюстрируют дополнительные процедуры, выполняемые в кодере, как пояснено выше. Фиг. 6a иллюстрирует общее представление квантователя 210 параметров, состоящего из функции 210a квантования наклона, функции 210b квантования азимута и функции 210c деквантования наклона. Фиг. 6a предпочтительный вариант осуществления иллюстрирует квантователь параметров, имеющий функцию 210c азимута на основании квантованного и снова деквантованного значения q_el наклона.
Фиг. 6c иллюстрирует соответствующий деквантователь для деквантования наклона, как пояснено выше относительно фиг. 6a для кодера. Тем не менее, вариант осуществления по фиг. 6b также является полезным для деквантователя, проиллюстрированного в элементе 840 по фиг. 8a. На основании точности deg_req деквантования, деквантуются индекс наклона, с одной стороны, и индекс азимута, с другой стороны, чтобы в итоге получать деквантованное значение q_el наклона и деквантованное значение q_az азимута. Фиг. 6c иллюстрирует первый режим кодирования, т.е. режим кодирования без предварительной обработки, как пояснено относительно элементов 260-262 на фиг. 5c. Фиг. 6c дополнительно иллюстрирует предварительную обработку, поясненную на фиг. 5b, показывающую преобразование данных наклона в значения со знаком в 247a и соответствующее преобразование данных азимута в значения со знаком в 247b. Переупорядочение выполняется для наклона, как указано в 248a, и для азимута, как указано в 248b. Процедура подсчета точек сферы выполняется в блоке 248c, чтобы вычислять, на основании точности квантования или деквантования, алфавит сферы. В блоке 261, выполняется объединение обоих индексов в один индекс сферы, и кодирование в блоке 262 выполняется с помощью двоичного или прореженного двоичного кода, при котором, в дополнение к этому индексу сферы, также извлекается алфавит сферы для соответствующей точности деквантования, как также проиллюстрировано на фиг. 5c.
Фиг. 6d иллюстрирует процедуру, выполняемую для режима энтропийного кодирования с моделированием. В элементе 267a, деквантование данных азимута и наклона выполняется на основании соответствующих индексов и точности деквантования. Деквантованные значения вводятся в блок 267b, чтобы вычислять вектор направления из деквантованных значений. В блоке 267c, усреднение выполняется для векторов, имеющих ассоциированный индекс рассеянности ниже соответствующего порогового значения, чтобы получать усредненный вектор. В блоке 267d, средний вектор направления для направления снова преобразуется обратно в среднее наклона и среднее азимута, и эти значения затем квантуются с использованием наибольшей точности, определенной посредством блока 268e. Это квантование проиллюстрировано в 268a, 268b, и квантование приводит к соответствующим квантованным индексам и алфавитам квантования, при этом алфавиты определяются посредством точности квантования для среднего значения. В блоках 268c и 268d, снова деквантование выполняется для того, чтобы получать деквантованное среднее значение для наклона и азимута.
На фиг. 6e, проецируемое среднее наклона вычисляется в блоке 269a, и проецируемое среднее азимута вычисляется в блоке 269b, т.е. фиг. 6e иллюстрирует предпочтительную реализацию блока 269 по фиг. 5d. Как проиллюстрировано на фиг. 6e, блоки 269a, 269b предпочтительно принимают квантованные и снова деквантованные средние значения для наклона и азимута. В качестве альтернативы, проекция также может выполняться для вывода блока 267d непосредственно, хотя процедура с квантованием и снова деквантованием является предпочтительной для более высокой точности и более высокой совместимости с состояниями на стороне кодера и на стороне декодера.
На фиг. 6f, проиллюстрирована процедура, соответствующая блоку 270 по фиг. 5d в предпочтительном варианте осуществления. В блоках 278a, 278b, соответствующие разности или "расстояния", как они называются в блоке 270 по фиг. 5d, вычисляются между исходными индексами и проецируемыми индексами. Соответствующее уменьшение интервала выполняется в блоках 270c для наклона и 270d для данных азимута. После переупорядочения в блоке 270e, 270f, получаются данные, которые должны подвергаться кодированию расширенным кодом Голомба-Райса, как пояснено выше относительно фиг. 5e-5g.
Фиг. 6g иллюстрирует дополнительные сведения относительно процедуры, выполняемой для формирования кодированных битов для среднего наклона и среднего азимута. Блок 271a и 271b иллюстрирует преобразование средних данных наклона и азимута в данные со знаком, и в дальнейшем функция ReorderGeneric проиллюстрирована относительно обоих видов данных в блоке 272a и 272b. Элементы 273a и 273b иллюстрируют кодирование этих данных с использованием (прореженного) двоичного кода, такой как вышеописанной функции квазиравномерного кодирования.
Фиг. 7a иллюстрирует декодер в соответствии с первым аспектом для декодирования кодированного аудиосигнала, содержащего кодированные параметры направленного кодирования аудио, кодированные параметры направленного кодирования аудио, содержащие кодированные параметры рассеянности и кодированные параметры направления. Устройство содержит процессор 300 параметров для декодирования кодированных параметров направленного кодирования аудио для того, чтобы получать декодированные параметры рассеянности с первым временным или частотным разрешением и декодированные параметры направления со вторым временным или частотным разрешением. Процессор 300 параметров соединяется с преобразователем 710 разрешения параметров для преобразования декодированных параметров рассеянности или декодированных параметров направления в преобразованные параметры рассеянности или преобразованные параметры направления. В качестве альтернативы, как проиллюстрировано посредством разграничивающей линии, преобразователь 710 разрешения параметров может уже выполнять обработку разрешения параметров с кодированными параметрическими данными, и преобразованные кодированные параметры отправляются из преобразователя 710 разрешения параметров в процессор 300 параметров. В этом втором случае, процессор 300 параметров затем подает обработанные, т.е. декодированные параметры непосредственно в модуль 420 рендеринга аудио. Тем не менее, предпочтительно выполнять преобразование разрешения параметров с декодированными параметрами рассеянности и декодированными параметрами направления.
Декодированные параметры направления и рассеянности обычно имеют третье или четвертое временное или частотное разрешение, когда они передаются в модуль 420 рендеринга аудио, причем третье или четвертое разрешение превышает разрешение, которое является внутренне присущим в этих параметрах, когда они выводятся посредством процессора 300 параметров.
Преобразователь 710 разрешения параметров выполнен с возможностью выполнения другого преобразования разрешения параметров с декодированными параметрами рассеянности и декодированными параметрами направления, поскольку временные или частотные разрешения, внутренне присущие в декодированных параметрах рассеянности и декодированных параметрах направления, отличаются друг от друга, и типично, декодированные параметры рассеянности имеют более низкое временное или частотное разрешение по сравнению с декодированными параметрами направления. Как пояснено выше относительно фиг. 3a в 3c, наибольшее разрешение, которое используется посредством модуля 420 рендеринга аудио, представляет собой разрешение, проиллюстрированное на фиг. 3b и промежуточное разрешение, как проиллюстрировано на фиг. 3c, представляет собой разрешение, которое является внутренне присущим в декодированных параметрах направления, и низкое разрешение, внутренне присущее в декодированных параметрах рассеянности, представляет собой разрешение, проиллюстрированное на фиг. 3b.
Фиг. 3a-3c являются только примерами, иллюстрирующими три очень конкретных временных или частотных разрешения. Любое другое временное или частотное разрешение, которое имеет идентичную тенденцию в том, что предусмотрено высокое временное или частотное разрешение, среднее разрешение и низкое разрешение, также может применяться посредством настоящего изобретения. Временное или частотное разрешение ниже другого временного или частотного разрешения, когда оба этих разрешения имеют идентичное частотное разрешение, но различное временное разрешение, или наоборот, как проиллюстрировано в примере по фиг. 3b и фиг. 3c. В этом примере, частотное разрешение является идентичным на фиг. 3b и фиг. 3c, но временное разрешение является более высоким на фиг. 3c, так что фиг. 3c иллюстрирует среднее разрешение, тогда как фиг. 3b иллюстрирует низкое разрешение.
Результат модуля 420 рендеринга аудио, работающего при третьем или четвертом высоком временном или частотном разрешении, затем перенаправляется в спектрально-временной преобразователь 440, который после этого формирует многоканальный аудиосигнал 450 временной области, как уже пояснено выше относительно фиг. 1b. Спектрально-временной преобразователь 440 преобразует данные из спектральной области, сформированный посредством модуля 420 рендеринга аудио, во временную область по линии 450. Спектральная область, в которой работает модуль 420 рендеринга аудио, содержит, для кадра, первое число временных квантов и второе число полос частот. Кадр содержит число частотно-временных элементов разрешения, равное результату умножения первого числа и второго числа, при этом первое число и второе число задают третье временное или частотное разрешение, т.е. высокое временное или частотное разрешение.
Преобразователь 710 разрешения выполнен с возможностью формирования из параметра рассеянности, ассоциированного с первым временным или частотным разрешением, определенного числа по меньшей мере четырех параметров рассеянности, причем два из этих параметров рассеянности предназначены для частотно-временных элементов разрешения, смежных во времени, и другие два из этих по меньшей мере четырех параметров рассеянности предназначены для частотно-временных элементов разрешения, смежных друг с другом по частоте.
Поскольку временное или частотное разрешение для параметров рассеянности ниже для параметров направления, преобразователь разрешения параметров выполнен с возможностью формирования для декодированного параметра рассеянности множества преобразованных параметров рассеянности и, для декодированного параметра направления, второго множества преобразованных параметров направления, причем второе множество превышает первое множество.
Фиг. 7b иллюстрирует предпочтительную процедуру, выполняемую посредством преобразователя разрешения параметров. В блоке 721, преобразователь 710 разрешения параметров получает параметры рассеянности/направления для кадра. В блоке 722, выполняется умножение параметров рассеянности или операция копирования по меньшей мере для четырех частотно-временных элементов разрешения с высоким разрешением. В блоке 723, выполняется необязательная обработка, такая как сглаживание или фильтрация нижних частот, для умноженных параметров, находящихся в представлении высокого разрешения. В блоке 724, параметры высокого разрешения применяются к соответствующим аудиоданным в соответствующих частотно-временных элементах разрешения с высоким разрешением.
Фиг. 8a иллюстрирует предпочтительную реализацию декодера для декодирования кодированного аудиосигнала, содержащего кодированные параметры направленного кодирования аудио, включающие в себя кодированные параметры рассеянности и кодированные параметры направления в соответствии с первым аспектом. Кодированный аудиосигнал вводится во входной интерфейс. Входной интерфейс 800 принимает кодированный аудиосигнал и отделяет, из кодированного аудиосигнала, кодированные параметры рассеянности и кодированные параметры направления, типично покадрово. Эти данные вводятся в декодер 820 параметров, который формирует, из кодированных параметров, квантованные параметры рассеянности и квантованные параметры направления, причем квантованные параметры направления, например, представляют собой индексы азимута и индексы наклона. Эти данные вводятся в деквантователь 840 параметров для определения, из квантованных параметров рассеянности и квантованных параметров направления, деквантованных параметров рассеянности и деквантованных параметров направления. Эти данные затем могут использоваться для преобразования одного аудиоформата в другой аудиоформат или могут использоваться для рендеринга аудиосигнала в многоканальный сигнал или в любом другом представлении, таком как амбиофоническое представление, MPS-представление или SAOC-представление.
Вывод деквантованных параметров посредством блока 840 может вводиться в необязательный преобразователь разрешения параметров, как пояснено выше относительно фиг. 7a в блоке 710. Преобразованные или непреобразованные параметры могут вводиться в модуль 420, 440 рендеринга аудио, проиллюстрированный на фиг. 8a. Когда кодированный аудиосигнал дополнительно содержит кодированный транспортный сигнал, входной интерфейс 800 выполнен с возможностью отделения кодированного транспортного сигнала от кодированного аудиосигнала и подачи этих данных в аудиодекодер 340 транспортных сигналов, который уже пояснен выше относительно фиг. 8b. Результат вводится во временно-спектральный преобразователь 430, подающий модуль 420 рендеринга аудио. Когда модуль 420 рендеринга аудио реализуется так, как проиллюстрировано на фиг. 1b, преобразование во временную область выполняется с использованием гребенка 440 синтезирующих фильтров по фиг. 1b.
Фиг. 8b иллюстрирует часть кодированного аудиосигнала, типично организованного в потоке битов, который означает кодированные параметры рассеянности. Параметры рассеянности имеют ассоциированные предпочтительно два бита 802 режима для указания трех различных режимов, проиллюстрированных на фиг. 8b и поясненных выше. Кодированные данные для параметров рассеянности содержат рабочие данные 804.
Части потока битов для параметров направления проиллюстрированы на фиг. 8c и фиг. 8d, как пояснено выше, при этом фиг. 8c иллюстрирует ситуацию, когда режим кодирования без предварительной обработки выбран, и фиг. 8d иллюстрирует ситуацию, в которой режим энтропийного декодирования с моделированием выбран/указан посредством бита 806 режима или флага режима.
Декодер 820 параметров по фиг. 8a выполнен с возможностью декодирования рабочих данных рассеянности для частотно-временной области, как указано в блоке 850, и в предпочтительном варианте осуществления частотно-временная область является частотно-временной областью с низким разрешением. В блоке 851, определяется точность деквантования для частотно-временной области. На основании этой точности деквантования, блок 852 по фиг. 8e иллюстрирует декодирование и/или деквантование параметров направления с использованием точности деквантования, которая является идентичной для частотно-временной области, с которой ассоциирован параметр рассеянности. Вывод по фиг. 8e представляет собой набор декодированных параметров направления для частотно-временной области, к примеру, для одной полосы частот по фиг. 3c, т.е. в проиллюстрированном примере, четыре параметра направления для одной полосы частот в кадре.
Фиг. 8f иллюстрирует дополнительный признак декодера и, в частности, декодер 820 параметров и деквантователь 840 параметров по фиг. 8a. Независимо от того, определяется ли точность деквантования на основании параметра рассеянности либо явно передается в служебных сигналах или определяется другим способом, блок 852a указывает определение алфавита наклона из передаваемой в служебных сигналах точности деквантования для частотно-временной области. В блоке 852b, данные наклона декодируются и необязательно деквантуются с использованием алфавита наклона для частотно-временной области, чтобы получать, в выводе блока 852b, деквантованные параметры наклона. В блоке 852c, алфавит азимута для частотно-временной области определяется не только из точности деквантования из блока 851, но помимо этого, также из квантованных или деквантованных данных наклона, с тем чтобы отражать ситуацию, которая пояснена выше относительно квазиравномерного покрытия единичной сферы на фиг. 4d. В блоке 852d, декодирование и необязательно деквантование данных азимута с алфавитом азимута выполняется для частотно-временной области.
Настоящее изобретение в соответствии со вторым аспектом предпочтительно сочетает эти две функции, но два признака, т.е. этот по фиг. 8a или другой по фиг. 8f также может применяться отдельно друг от друга.
Фиг. 8g иллюстрирует общее представление декодирования параметров в зависимости от того, выбирается режим декодирования без предварительной обработки или режим декодирования с моделированием, как указано посредством бита 806 режима, поясненного на фиг. 8c и фиг. 8d. Когда декодирование без предварительной обработки должно применяться, в таком случае индексы сферы для полосы частот декодируются, как указано в 862, и квантованные параметры азимута/наклона для полосы частот вычисляются из декодированных индексов сферы, как указано в блоке 864.
Когда декодирование с моделированием указано посредством бита 806 режима, в таком случае средние для данных азимута/наклона в полосе частот/кадре декодируются, как указано посредством блока 866. В блоке 868, декодируются расстояния для получения информации азимута/наклона в полосе частот, и в блоке 870, соответствующие квантованные параметры наклона и азимута вычисляются типично с использованием операции суммирования.
Независимо от того, применяется режим декодирования без предварительной обработки или режим декодирования с моделированием, декодированные индексы азимута/наклона деквантуются 872, как также проиллюстрировано в 840 на фиг. 8a, и в блоке 874, и результат может преобразовываться в декартовы координаты для полосы частот. В качестве альтернативы, когда данные азимута и наклона могут непосредственно использоваться в модуле рендеринга аудио, в таком случае такие преобразования в блоке 874 не требуются. Любое потенциально используемое преобразование разрешения параметров может применяться до или после преобразования, если преобразование в декартовы координаты выполняется в любом случае.
В дальнейшем также следует обратиться к фиг. 9a-9c относительно дополнительных предпочтительных реализаций декодера. Фиг. 9a иллюстрирует операцию декодирования, проиллюстрированную в блоке 862. В зависимости от точности деквантования, определенной посредством блока 851 на фиг. 8e или фиг. 8f, функциональность подсчета точек сферы блока 248c выполняется для того, чтобы определять фактический алфавит сферы, который также применен во время кодирования. Биты для индекса сферы декодируются в блоке 862, и разложение на два индекса выполняется, как проиллюстрировано в 864a и подробнее приводится на фиг. 9a. Функции 864b, 864c переупорядочения и соответствующие функции преобразования в блоке 864d и 864e выполняются для того, чтобы, в итоге получать индексы наклона, индексы азимута и соответствующие алфавиты для последующего деквантования в блоке 872 по фиг. 8g.
Фиг. 9b иллюстрирует соответствующие процедуры для другого режима декодирования, т.е. режима декодирования с моделированием. В блоке 866a, точность деквантования для средних вычисляется в соответствии с тем, что пояснено выше относительно стороны кодера. Алфавиты вычисляются в блоке 866b, и в блоках 866c и 866d, соответствующие биты 808a, 808b по фиг. 8d декодируются. Функции 866e, 866f переупорядочения выполняются в последующих операциях 866g, 866h преобразования, чтобы отменять или имитировать соответствующие операции, выполняемые на стороне кодера.
Фиг. 9c дополнительно иллюстрирует полную операцию 840 деквантования в предпочтительном варианте осуществления. Блоки 852a определяют алфавит наклона как уже пояснено относительно фиг. 8f, и соответствующее вычисление алфавита азимута также выполняется в блоке 852c. Операция 820a, 820e вычисления проекции также выполняется для наклона и азимута. Также выполняются процедуры переупорядочивания для наклона 820b и азимута 820f, и также выполняются соответствующие операции 820c, 820g суммирования. Также выполняется соответствующее уменьшение интервала в блоках 820d для наклона и 820h для азимута, и деквантование наклона выполняется в блоке 840a и 840b. Фиг. 9c показывает то, что эта процедура подразумевает определенный порядок, т.е. то, что данные наклона обрабатываются сначала, и на основании деквантованных данных наклона, декодирование и деквантование данных азимута выполняется в предпочтительном варианте осуществления настоящего изобретения.
В дальнейшем обобщаются выгоды и преимущества предпочтительных вариантов осуществления.
- Эффективное кодирование пространственных метаданных, сформированных посредством DirAC, без нарушения общности модели. Оно представляет собой ключевой фактор для интегрирования DirAC в схему кодирования с низкой скоростью передачи битов.
- Группировка и усреднение параметров направления и рассеянности с различными временными (или необязательно частотными) разрешениями: рассеянность усредняется за большее время, чем направление, поскольку рассеянность поддерживает более долгосрочную характеристику звукового поля, чем направление, которое представляет собой более реактивную пространственную сигнальную метку.
- Квазиравномерное динамическое покрытие трехмерной сферы, полностью симметричной относительно осей координат X, Y и Z и любого требуемого углового разрешения, является возможным.
- Операции квантования и деквантования имеют постоянную сложность (поиск ближайшего кодового вектора не требуется).
- Кодирование и декодирование одного квантованного индекса точки имеет константу или в большей части логарифмической сложности относительно общего числа квантованных точек на сфере.
- Размер энтропийного кодирования по принципу наихудшего случая всех пространственных метаданных DirAC для одного кадра всегда ограничивается таким образом, что он только на 2 бита превышает размер кодирования без предварительной обработки.
- Способ кодирования расширенным кодом Голомба-Райса, который является оптимальным для кодирования вектора символов с потенциально различными размерами алфавита.
- Использование среднего направления для эффективного энтропийного кодирования направлений, преобразование квантованного среднего направления из наибольшего разрешения в разрешение каждого азимута и наклона.
- Всегда кодирование без предварительной обработки использования для направлений с высокой рассеянностью, выше предварительно заданного порогового значения, для кадров со смешанной рассеянностью.
- Использование углового разрешения для каждого направления в качестве функции его соответствующей рассеянности.
Первый аспект настоящего изобретения направлен на обработку параметров рассеянности и параметров направления с первым и вторым временными или частотными разрешениями и последующее квантование и кодирование таких значений. Этот первый аспект дополнительно означает группировку параметров с различными частотно-временными разрешениями. Дополнительный аспект относится к выполнению связанного с амплитудным показателем взвешивания в пределах группировки, и еще один дополнительный аспект относится к взвешиванию для усреднения и группировки параметров направления с использованием соответствующих параметров рассеянности в качестве основы для соответствующих весовых коэффициентов. Вышеприведенные аспекты также описаны и конкретно представляются в первом наборе пунктов формулы изобретения.
Второй аспект настоящего изобретения, который подробнее конкретно представляется во вложенном наборе примеров, направлен на выполнение квантования и кодирования. Этот аспект может выполняться без признаков, приведённых в первом аспекте, или может использоваться вместе с соответствующими признаками, конкретно представленными в первом аспекте.
Таким образом, все различные аспекты, конкретно представленные в пунктах формулы изобретения и наборе примеров и конкретно представленные представлено в различных зависимых пунктах формулы изобретения и примерах, могут использоваться независимо друг от друга или могут использоваться вместе, и в частности, для наиболее предпочтительного варианта осуществления предпочтительно, если все аспекты набора пунктов формулы изобретения используются вместе со всеми аспектами набора примеров.
Набор примеров содержит нижеприведенные примеры:
1. Устройство для кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления, содержащее:
- модуль (100) вычисления параметров для вычисления параметров рассеянности с первым временным или частотным разрешением и для вычисления параметров направления со вторым временным или частотным разрешением; и
- процессор (200) квантователя и кодера для формирования квантованного и кодированного представления параметров рассеянности и параметров направления.
2. Устройство по примеру 1, в котором модуль (100) вычисления параметров выполнен с возможностью вычисления параметров рассеянности и параметров направления таким образом, что второе временное или частотное разрешение отличается от первого временного или частотного разрешения.
3. Устройство по примеру 1 или 2, в котором модуль (100) вычисления параметров выполнен с возможностью вычисления параметров рассеянности и параметров направления таким образом, что первое временное разрешение ниже второго временного разрешения, или второе частотное разрешение больше первого частотного разрешения, или первое временное разрешение ниже второго временного разрешения, и первое частотное разрешение равно второму частотному разрешению.
4. Устройство по одному из предшествующих примеров,
- в котором модуль (100) вычисления параметров выполнен с возможностью вычисления параметров рассеянности и параметров направления для набора полос частот, при этом полоса частот, имеющая более низкую центральную частоту, является более узкой, чем полоса частот, имеющая более высокую центральную частоту.
5. Устройство по одному из предшествующих примеров,
- в котором модуль (100) вычисления параметров выполнен с возможностью получения начальных параметров рассеянности, имеющих третье временное или частотное разрешение и получения начальных параметров направления, имеющих четвертое временное или частотное разрешение, и
- при этом модуль (100) вычисления параметров выполнен с возможностью группирования и усреднения начальных параметров рассеянности таким образом, что третье временное или частотное разрешение выше первого временного или частотного разрешения, или
- при этом модуль (100) вычисления параметров выполнен с возможностью группирования и усреднения начальных параметров направления таким образом, что четвертое временное или частотное разрешение выше второго временного или частотного разрешения.
6. Устройство по примеру 5,
- в котором третье временное или частотное разрешение и четвертое временное или частотное разрешение равны друг другу.
7. Устройство по примеру 5 или 6,
- в котором третье временное разрешение или частотное разрешение представляет собой постоянное временное или частотное разрешение таким образом, что каждый начальный параметр рассеянности ассоциирован с временным квантом или частотным элементом разрешения, имеющим идентичный размер, или
- при этом четвертое временное или частотное разрешение представляет собой постоянное временное или частотное разрешение таким образом, что каждый начальный параметр направления ассоциирован с временным квантом или частотным элементом разрешения, имеющим идентичный размер, и
- при этом модуль (100) вычисления параметров выполнен с возможностью усреднения по первому множеству параметров рассеянности, ассоциированных с первым множеством временных квантов, или
- при этом модуль (100) вычисления параметров выполнен с возможностью усреднения по второму множеству параметров рассеянности, ассоциированных со вторым множеством частотных элементов разрешения, или
- при этом модуль (100) вычисления параметров выполнен с возможностью усреднения по третьему множеству параметров направления, ассоциированных с третьим множеством временных квантов, или
- при этом модуль (100) вычисления параметров выполнен с возможностью усреднения по четвертому множеству параметров направления, ассоциированных с четвертым множеством частотных элементов разрешения.
8. Устройство по одному из примеров 5-7,
- в котором модуль (100) вычисления параметров выполнен с возможностью усреднения с использованием среднего взвешенного, при этом параметр рассеянности или параметр направления, извлекаемый из части входного сигнала, имеющей более высокий связанный с амплитудой показатель, взвешивается с использованием более высокого весового коэффициента по сравнению с параметром рассеянности или параметром направления, извлекаемым из части входного сигнала, имеющей более низкий связанный с амплитудой показатель.
9. Устройство по примеру 8,
- в котором связанный с амплитудой показатель представляет собой мощность или энергию во временной части или частотной части либо мощность или энергию, возведенную в степень посредством реального неотрицательного числа, равного или отличающегося от 1 во временной части или частотной части.
10. Устройство по одному из примеров 5-9,
- в котором модуль (100) вычисления параметров выполнен с возможностью выполнения усреднения таким образом, что параметр рассеянности или параметр направления нормализуется относительно связанного с амплитудой показателя, извлекаемого из временной части входного сигнала, соответствующего первому или второму временному или частотному разрешению.
11. Устройство по одному из примеров 5-9,
- в котором модуль (100) вычисления параметров выполнен с возможностью группирования и усреднения начальных параметров направления с использованием усреднения со взвешиванием, при этом первый параметр направления, ассоциированный с первой временной частью, имеющей первый параметр рассеянности, указывающий более низкую рассеянность, взвешивается выше второго параметра направления, ассоциированного со второй временной частью, имеющей второй параметр рассеянности, указывающий более высокую рассеянность.
12. Устройство по одному из предшествующих примеров,
- в котором модуль (100) вычисления параметров выполнен с возможностью вычисления начальных параметров направления таким образом, что начальные параметры направления содержат декартов вектор, имеющий компонент для каждого из двух или трех направлений, и при этом модуль (100) вычисления параметров выполнен с возможностью выполнения усреднения для каждого отдельного компонента декартова вектора отдельно, или при этом компоненты нормализуются таким образом, что сумма возведенных в квадрат компонентов декартова вектора для параметра направления равна единице.
13. Устройство по одному из предшествующих примеров, дополнительно содержащее:
- частотно-временной модуль разложения для разложения входного сигнала, имеющего множество входных каналов в частотно-временное представление для каждого входного канала, или
- при этом частотно-временной модуль разложения выполнен с возможностью разложения входного сигнала, имеющего множество входных каналов в частотно-временное представление для каждого входного канала, имеющего третье временное или частотное разрешение или четвертое временное или частотное разрешение.
14. Устройство по одному из примеров 6-13,
- в котором частотно-временной модуль разложения содержит модулированную гребенку фильтров, приводящую к комплексным значениям для каждого подполосного сигнала, при этом каждый подполосный сигнал имеет множество временных квантов в расчете на кадр и полосу частот.
15. Устройство по одному из предшествующих примеров,
- при этом устройство выполнено с возможностью ассоциирования индикатора первого или второго временного или частотного разрешения в квантованное и кодированное представление для передачи в декодер или для хранения.
16. Устройство по одному из предыдущих примеров, в котором процессор (200) квантователя и кодера для формирования квантованного и кодированного представления параметров рассеянности и параметров направления содержит квантователь параметров для квантования параметров рассеянности и параметров направления и кодер параметров для кодирования квантованных параметров рассеянности и квантованных параметров направления по любому из прилагаемых пп. 1-26.
17. Способ кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления, содержащий:
- вычисление параметров рассеянности с первым временным или частотным разрешением и для вычисления параметров направления со вторым временным или частотным разрешением; и
- формирование квантованного и кодированного представления параметров рассеянности и параметров направления.
18. Декодер для декодирования кодированного аудиосигнала, содержащего параметры направленного кодирования аудио, включающие в себя кодированные параметры рассеянности и кодированные параметры направления, причем декодер содержит:
- процессор (300) параметров для декодирования кодированных параметров направленного кодирования аудио для того, чтобы получать декодированный параметр рассеянности с первым временным или частотным разрешением и декодированные параметры направления со вторым временным или частотным разрешением; и
- преобразователь (710) разрешения параметров для преобразования кодированных или декодированных параметров рассеянности или кодированных или декодированных параметров направления в преобразованные параметры рассеянности или преобразованные параметры направления, имеющие третье временное или частотное разрешение, при этом третье временное или частотное разрешение отличается от первого временного или частотного разрешения или второго временного или частотного разрешения либо от первого временного или частотного разрешения и второго временного или частотного разрешения.
19. Декодер по примеру 18, дополнительно содержащий модуль (420) рендеринга аудио, работающий в спектральной области, причем спектральная область содержит, для кадра, первое число временных квантов и второе число полос частот таким образом, что кадр содержит число частотно-временных элементов разрешения, равное результату умножения первого числа и второго числа, при этом первое число и второе число задают третье временное или частотное разрешение.
20. Декодер по примеру 18 или 19, дополнительно содержащий модуль (420) рендеринга аудио, работающий в спектральной области, причем спектральная область содержит, для кадра, первое число временных квантов и второе число полос частот таким образом, что кадр содержит число частотно-временных элементов разрешения, равное результату умножения первого числа и второго числа, при этом первое число и второе число задают четвертое частотно-временное разрешение, в котором четвертое временное или частотное разрешение является равным или превышает третье временное или частотное разрешение.
21. Декодер по одному из примеров 18-20,
- в котором первое временное или частотное разрешение ниже второго временного или частотного разрешения, и
- при этом преобразователь (710) разрешения параметров выполнен с возможностью формирования из декодированного параметра рассеянности первого множества преобразованных параметров рассеянности и формирования из декодированного параметра направления второго множества преобразованных параметров направления, при этом второе множество превышает первое множество.
22. Устройство по одному из примеров 18-21,
- в котором кодированный аудиосигнал содержит последовательность кадров, в котором каждый кадр организуется в полосах частот, при этом каждый кадр содержит только один кодированный параметр рассеянности в расчете на полосу частот и по меньшей мере два последовательных во времени параметра направления в расчете на полосу частот, и
- при этом преобразователь (710) разрешения параметров выполнен с возможностью ассоциирования декодированного параметра рассеянности со всеми временными элементами разрешения в полосе частот или в каждый частотно-временной элемент разрешения, включенный в полосу частот в кадре, и
- ассоциировать один по меньшей мере из двух параметров направления полосы частот с первой группой временных элементов разрешения и с каждым частотно-временным элементом разрешения, включенным в полосу частот, и ассоциировать второй декодированный параметр направления по меньшей мере из двух параметров направления со второй группой временных элементов разрешения и с каждым частотно-временным элементом разрешения, включенным в полосу частот, при этом вторая группа не включает в себя ни одного из временных элементов разрешения в первой группе.
23. Декодер по одному из примеров 18-22, в котором кодированный аудиосигнал содержит кодированный транспортный аудиосигнал, при этом декодер содержит:
- аудиодекодер (340) для декодирования кодированного транспортного аудиосигнала, чтобы получать декодированный аудиосигнал, и
- частотно-временной преобразователь (430) для преобразования декодированного аудиосигнала в частотное представление, имеющее третье временное или частотное разрешение.
24. Декодер по одному из примеров 18-23, содержащий:
- модуль (420) рендеринга аудио для применения преобразованных параметров рассеянности и преобразованных параметров направления в спектральное представление аудиосигнала в третьем временном или частотном разрешении, чтобы получать спектральное представление синтеза; и
- спектрально-временной преобразователь (440) для преобразования спектрального представления синтеза в третьем или четвертом временном или частотном разрешении, чтобы получать синтезированный пространственный аудиосигнал временной области, имеющий временное разрешение, превышающее разрешение третьего временного или частотного разрешения.
25. Декодер по одному из примеров 18-24,
- в котором преобразователь (710) разрешения параметров выполнен с возможностью умножения декодированного параметра направления с использованием операции копирования или умножения декодированного параметра рассеянности с использованием операции копирования либо сглаживания или фильтрации по нижним частотам набора умноженных параметров направления или набора умноженных параметров рассеянности.
26. Декодер по одному из примеров 18-25,
- в котором второе временное или частотное разрешение отличается от первого временного или частотного разрешения.
27. Декодер по одному из примеров 18-26,
- в котором первое временное разрешение ниже второго временного разрешения, или второе частотное разрешение превышает первое частотное разрешение, или первое временное разрешение ниже второго временного разрешения, и первое частотное разрешение равно второму частотному разрешению.
28. Декодер по одному из примеров 18-27,
- в котором преобразователь (710) разрешения параметров выполнен с возможностью умножения декодированных параметров рассеянности и декодированных параметров направления в соответствующее число смежных по частоте преобразованных параметров для набора полос частот, при этом полоса частот, имеющая более низкую центральную частоту, принимает меньшее число умноженных параметров, чем полоса частот, имеющая более высокую центральную частоту.
29. Декодер по одному из примеров 18-28,
- в котором процессор (300) параметров выполнен с возможностью декодирования кодированного параметра рассеянности для кадра кодированного аудиосигнала для получения квантованного параметра рассеянности для кадра, и при этом процессор (300) параметров выполнен с возможностью определения точности деквантования для деквантования по меньшей мере одного параметра направления для кадра с использованием квантованного или деквантованного параметра рассеянности, и
- при этом процессор параметров выполнен с возможностью деквантования квантованного параметра направления с использованием точности деквантования.
30. Декодер по одному из примеров 18-29,
- в котором процессор (300) параметров выполнен с возможностью определения из точности деквантования, которая должна использоваться посредством процессора (300) параметров для деквантования, алфавита декодирования для декодирования кодированного параметра направления для кадра, и
- при этом процессор (300) параметров выполнен с возможностью декодирования кодированного параметра направления с использованием определенного алфавита декодирования и определять деквантованный параметр направления.
31. Декодер по одному из примеров 18-30,
- в котором процессор (300) параметров выполнен с возможностью определения из точности деквантования, которая должна использоваться посредством процессора (300) параметров для деквантования параметра направления, алфавита наклона для обработки кодированного параметра наклона, и определения из индекса наклона, полученного с использованием алфавита наклона, алфавита азимута, и
- при этом процессор (300) параметров выполнен с возможностью деквантования кодированного параметра азимута с использованием алфавита азимута.
32. Способ декодирования кодированного аудиосигнала, содержащего параметры направленного кодирования аудио, включающие в себя кодированные параметры рассеянности и кодированные параметры направления, при этом способ содержит:
- декодирование (300) кодированных параметров направленного кодирования аудио для того, чтобы получать декодированный параметр рассеянности с первым временным или частотным разрешением и декодированные параметры направления со вторым временным или частотным разрешением; и
- преобразование (710) кодированных или декодированных параметров рассеянности или кодированных или декодированных параметров направления в преобразованные параметры рассеянности или преобразованные параметры направления, имеющие третье временное или частотное разрешение, при этом третье временное или частотное разрешение отличается от первого временного или частотного разрешения или второго временного или частотного разрешения либо от первого временного или частотного разрешения и второго временного или частотного разрешения.
33. Компьютерная программа для осуществления, при выполнении на компьютере или процессоре, способа по примеру 17 или 32.
Кодированный аудиосигнал согласно изобретению, содержащий представление параметров, может сохраняться на цифровом носителе данных или постоянном носителе данных или может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на постоянном носителе данных.
Другими словами, вариант осуществления способа согласно изобретению в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель данных (цифровой носитель данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.
Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидными модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в данном документе в качестве описания и пояснения вариантов осуществления.
Библиографический список
[1] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki and T. Pihlajamäki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, ноябрь 2009 года, Зао; Мияги, Япония.
[2] V. Pulkki, "Virtual source positioning using vector base amplitude panning", J. Audio Eng. Soc., 45(6):456-466, июнь 1997 года.
[3] J. Ahonen and V. Pulkki, "Diffuseness estimation using temporal variation of intensity vectors", in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, Нью-Палц, 2009 год.
[4] T. Hirvonen, J. Ahonen and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126th Convention, 2009 год, 7-10 мая, Мюнхен, Германия.
название | год | авторы | номер документа |
---|---|---|---|
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ ПАРАМЕТРОВ НАПРАВЛЕННОГО КОДИРОВАНИЯ АУДИО С ИСПОЛЬЗОВАНИЕМ РАЗЛИЧНЫХ ЧАСТОТНО-ВРЕМЕННЫХ РАЗРЕШЕНИЙ | 2018 |
|
RU2763313C2 |
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ МНОЖЕСТВА АУДИООБЪЕКТОВ ИЛИ УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ДВУХ ИЛИ БОЛЕЕ РЕЛЕВАНТНЫХ АУДИООБЪЕКТОВ | 2021 |
|
RU2823518C1 |
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ МНОЖЕСТВА АУДИООБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ НАПРАВЛЕНИЯ ВО ВРЕМЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ ИЛИ УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОПТИМИЗИРОВАННОГО КОВАРИАЦИОННОГО СИНТЕЗА | 2021 |
|
RU2826540C1 |
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА ИЛИ ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОЙ АУДИОСЦЕНЫ | 2021 |
|
RU2809587C1 |
АУДИОДЕКОДЕР, АУДИОКОДЕР И СВЯЗАННЫЕ СПОСОБЫ С ИСПОЛЬЗОВАНИЕМ ОБЪЕДИНЕННОГО КОДИРОВАНИЯ ПАРАМЕТРОВ МАСШТАБИРОВАНИЯ ДЛЯ КАНАЛОВ МНОГОКАНАЛЬНОГО АУДИОСИГНАЛА | 2021 |
|
RU2809981C1 |
КОДЕР АУДИОСЦЕНЫ, ДЕКОДЕР АУДИОСЦЕНЫ И СООТВЕТСТВУЮЩИЕ СПОСОБЫ, ИСПОЛЬЗУЮЩИЕ ПРОСТРАНСТВЕННЫЙ АНАЛИЗ С ГИБРИДНЫМ КОДЕРОМ/ДЕКОДЕРОМ | 2019 |
|
RU2749349C1 |
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ПАРАМЕТРОВ | 2020 |
|
RU2803451C2 |
МАСКИРОВКА ПОТЕРЬ ПАКЕТОВ ДЛЯ ПРОСТРАНСТВЕННОГО КОДИРОВАНИЯ АУДИОДАННЫХ НА ОСНОВЕ DIRAC | 2020 |
|
RU2807473C2 |
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ПАРАМЕТРОВ | 2020 |
|
RU2806701C2 |
УСТРОЙСТВО КВАНТОВАНИЯ АУДИОДАННЫХ, УСТРОЙСТВО ДЕКВАНТОВАНИЯ АУДИОДАННЫХ И СООТВЕТСТВУЮЩИЕ СПОСОБЫ | 2021 |
|
RU2807462C1 |
Группа изобретений направлена на обработку аудиосигналов и, в частности, на эффективные схемы кодирования параметров направленного кодирования аудио, таких как метаданные направленного кодирования аудио (DirAC). Техническим результатом является создание способа кодирования трехмерного аудио на основе звукового представления DirAC и воспроизведения для достижения передачи иммерсивного аудиоконтента на низких скоростях передачи битов. Устройство для кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления, содержит квантователь (210) параметров для квантования параметров рассеянности и параметров направления, кодер (220) параметров для кодирования квантованных параметров рассеянности и квантованных параметров направления, и выходной интерфейс (230) для формирования представления кодированных параметров, содержащего информацию относительно кодированных параметров рассеянности и кодированных параметров направления. 6 н. и 37 з.п. ф-лы, 42 ил.
1. Устройство для кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления, содержащее:
- квантователь (210) параметров для квантования параметров рассеянности и параметров направления;
- кодер (220) параметров для кодирования квантованных параметров рассеянности и квантованных параметров направления; и
- выходной интерфейс (230) для формирования представления кодированных параметров, содержащего информацию относительно кодированных параметров рассеянности и кодированных параметров направления,
причём квантователь (210) параметров выполнен с возможностью квантования параметров рассеянности с использованием неравномерного квантователя, чтобы формировать индексы рассеянности, и извлечения неравномерного квантователя с использованием таблицы квантования межканальной когерентности для получения пороговых значений и уровней восстановления неравномерного квантователя, или
при этом кодер (220) параметров выполнен с возможностью кодирования квантованных параметров рассеянности в режиме кодирования без предварительной обработки с помощью двоичного кода, если алфавит кодирования имеет размер, представляющий собой степень двух, или кодирования квантованных параметров рассеянности в режиме кодирования без предварительной обработки с использованием прореженного кода, если алфавит кодирования отличается от степени двух, или кодирования квантованных параметров рассеянности в режиме на основании только одного значения с использованием первого конкретного индикатора и кодового слова для одного значения из режима кодирования без предварительной обработки, или кодирования квантованных параметров рассеянности в режиме на основании только двух последовательных значений с использованием второго конкретного индикатора, кода для меньшего из двух последовательных значений и бита для разности между каждым фактическим значением и меньшим из двух последовательных значений, или
причём квантователь (210) параметров выполнен с возможностью квантования угла азимута с использованием числа возможных индексов квантования, при этом число индексов квантования снижается от меньших углов наклона к большим углам наклона таким образом, что первое число возможных индексов квантования для первого угла наклона, имеющего первую абсолютную величину, выше второго числа возможных индексов квантования для второго угла наклона, имеющего вторую абсолютную величину, при этом вторая абсолютная величина имеет большее абсолютное значение, чем первая абсолютная величина, или
причём квантователь (210) параметров выполнен с возможностью определения в качестве квантованных параметров направления индексов наклона, алфавитов наклона, ассоциированных с индексами наклона, индексов азимута и алфавитов азимута, ассоциированных с индексами азимута, извлечения среднего вектора направления из векторов квантованного направления для временной части или частотной части входного сигнала, квантования среднего вектора направления с использованием наилучшей угловой точности векторов для временной части или частотной части, и кодирования квантованного среднего вектора направления, или при этом выходной интерфейс (230) выполнен с возможностью введения кодированного среднего вектора направления в представление кодированных параметров в качестве дополнительной вспомогательной информации.
2. Устройство по п. 1,
- в котором кодер (220) параметров выполнен с возможностью определения для всех значений рассеянности, ассоциированных с временной частью или частотной частью, того, является ли режим кодирования режимом кодирования без предварительной обработки, режимом кодирования на основе только одного значения или режимом кодирования на основе только двух последовательных значений,
- при этом режим без предварительной обработки передается в служебных сигналах с использованием одного из двух битов, при этом режим кодирования на основе только одного значения передается в служебных сигналах с использованием другого из двух битов, имеющих первое значение, и при этом режим кодирования на основе только двух последовательных значений передается в служебных сигналах с использованием другого из двух битов, имеющих второе значение.
3. Устройство по п. 1, в котором квантователь (210) параметров выполнен с возможностью:
- приема для каждого параметра направления декартова вектора, имеющего два или три компонента, и
- преобразования декартова вектора в представление, имеющее значение азимута и значение наклона.
4. Устройство по п. 1,
- в котором квантователь (210) параметров выполнен с возможностью определения для квантования параметра направления точности квантования, причем точность квантования зависит от параметра рассеянности, ассоциированного с параметром направления, таким образом, что параметр направления, ассоциированный с более низким значением параметра рассеянности, квантуется более точно, чем параметр направления, ассоциированный с более высоким значением параметра рассеянности.
5. Устройство по п. 4,
- в котором квантователь (210) параметров выполнен с возможностью определения точности квантования:
- таким образом, что квантованные точки квазиравномерно распределяются на единичной сфере, или
- таким образом, что квантованные точки распределяются симметрично относительно оси X, оси Y или оси Z, или
- квантование данного направления в ближайшую точку квантования или одну из нескольких ближайших точек квантования посредством преобразования в целочисленный индекс представляет собой постоянную временную операцию, или
- таким образом, что вычисление соответствующей точки на сфере из целочисленного индекса и деквантование в направление представляет собой постоянную или операцию логарифмической сложности относительно общего числа точек на сфере.
6. Устройство по п. 3,
- в котором квантователь (210) параметров выполнен с возможностью квантования угла наклона, имеющего отрицательные и положительные значения, в набор индексов квантования без знака, при этом первая группа индексов квантования указывает отрицательные углы наклона, и вторая группа индексов квантования указывает положительные углы наклона.
7. Устройство по п. 1, в котором квантователь (210) параметров выполнен с возможностью:
- определения из значения рассеянности, ассоциированного с углом азимута, требуемой точности,
- квантования угла наклона, ассоциированного с углом азимута, с использованием требуемой точности, и
- квантования угла азимута с использованием квантованного угла наклона.
8. Устройство по п. 1,
- в котором квантованный параметр направления имеет квантованный угол наклона и квантованный угол азимута, и при этом кодер (220) параметров выполнен с возможностью сначала кодирования квантованного угла наклона и после этого кодирования квантованного угла азимута.
9. Устройство по п. 1,
- в котором квантованные параметры направления содержат индексы без знака для пары углов азимута и наклона,
- при этом кодер (220) параметров выполнен с возможностью преобразования индексов без знака в индексы со знаком таким образом, что индекс, указывающий нулевой угол, располагается в середине интервала со знаком возможных значений и
- при этом кодер (220) параметров выполнен с возможностью выполнения преобразования с переупорядочением в индексы со знаком, чтобы перемежать положительные и отрицательные числа в числа без знака.
10. Устройство по п. 1,
- в котором квантованные параметры направления содержат переупорядоченные или непереупорядоченные индексы азимута и наклона без знака, и
- при этом кодер (220) параметров выполнен с возможностью объединения индексов пары в индекс сферы, и
- выполнения кодирования без предварительной обработки индекса сферы.
11. Устройство по п. 10,
- в котором кодер (220) параметров выполнен с возможностью извлечения индекса сферы из смещения сферы и текущего переупорядоченного или непереупорядоченного индекса азимута, и
- при этом смещение сферы извлекается из суммы алфавитов азимута, соответствующих переупорядоченным или непереупорядоченным индексам наклона, меньшим, чем текущий переупорядоченный или непереупорядоченный индекс наклона.
12. Устройство по п. 1, в котором кодер (220) параметров выполнен с возможностью выполнения энтропийного кодирования для квантованных параметров направления, ассоциированных со значениями рассеянности, меньшими или равными пороговому значению, и выполнения кодирования без предварительной обработки для квантованных параметров направления, ассоциированных со значениями рассеянности, превышающими пороговое значение.
13. Устройство по п. 12,
- в котором кодер (220) параметров выполнен с возможностью определения порогового значения динамически с использованием алфавита квантования и квантования параметров рассеянности, или при этом кодер (220) параметров выполнен с возможностью определения порогового значения на основании алфавита квантования параметров рассеянности.
14. Устройство по п. 1,
- в котором кодер (220) параметров выполнен с возможностью:
- вычисления прогнозированных индексов наклона и прогнозированных индексов азимута с использованием среднего вектора направления, и
- вычисления расстояний со знаком между индексами наклона и прогнозированными индексами наклона и между индексами азимута и прогнозированными индексами азимута.
15. Устройство по п. 14,
- в котором кодер (220) параметров выполнен с возможностью преобразования расстояний со знаком в уменьшенный интервал посредством суммирования значения для небольших значений и вычитания значения для больших значений.
16. Устройство по п. 1,
- в котором кодер (220) параметров выполнен с возможностью определения, кодируются ли квантованные параметры направления посредством режима кодирования без предварительной обработки или посредством режима энтропийного кодирования, и при этом выходной интерфейс (230) выполнен с возможностью введения соответствующего индикатора в представление кодированных параметров.
17. Устройство по п. 1,
- в котором кодер (220) параметров выполнен с возможностью выполнения энтропийного кодирования с использованием способа на основе кода Голомба-Райса либо его модификации.
18. Устройство по п. 1, в котором кодер (220) параметров выполнен с возможностью:
- преобразования компонентов среднего вектора направления в представление со знаком таким образом, что соответствующее нулевое значение находится в середине интервала со знаком возможных значений,
- выполнения преобразования с переупорядочением значений со знаком для перемежения положительных и отрицательных чисел в числа без знака,
- кодирования результата с использованием функции кодирования для получения кодированных компонентов среднего вектора направления; и
- кодирования параметра на основе кода Голомба-Райса с использованием размера алфавита в зависимости от максимума размеров алфавита для соответствующего компонента вектора направления.
19. Устройство по п. 14,
- в котором кодер (220) параметров выполнен с возможностью выполнения преобразования с переупорядочением расстояний со знаком или уменьшенных расстояний со знаком для перемежения положительных и отрицательных чисел в числа без знака,
- при этом кодер (220) параметров выполнен с возможностью кодирования переупорядоченных расстояний со знаком или переупорядоченных уменьшенных расстояний со знаком с использованием способа на основе кода Голомба-Райса либо его модификации.
20. Устройство по п. 19, в котором кодер (220) параметров выполнен с возможностью применения способа на основе кода Голомба-Райса либо его модификации с использованием:
- определения старшей части и младшей части значения, которое должно кодироваться;
- вычисления алфавита для старшей части;
- вычисления алфавита для младшей части; и
- кодирования старшей части в унарном формате с использованием алфавита для старшей части и кодирования младшей части в двоичном формате с использованием алфавита для младшей части.
21. Устройство по п. 1,
- в котором кодер (220) параметров выполнен с возможностью применения способа на основе кода Голомба-Райса либо его модификации с использованием:
- определения старшей части и младшей части значения, которое должно кодироваться; и
- вычисления алфавита для старшей части,
- при этом, когда алфавит старшей части меньше или равен заданному значению, такому как 3, способ EncodeQuasiUniform используется для кодирования полного значения, при этом примерный способ EncodeQuasiUniform, такой как прореженный код, формирует коды только одной длины или коды, имеющие только две длины, или
- кодирования младшей части в режиме кодирования без предварительной обработки с помощью двоичного кода, если алфавит кодирования имеет размер степени двух, или кодирования младшей части в режиме кодирования без предварительной обработки с использованием прореженного кода, если алфавит кодирования отличается от степени двух.
22. Устройство по п. 1, дополнительно содержащее модуль вычисления параметров для вычисления параметров рассеянности с первым временным или частотным разрешением и для вычисления параметров направления со вторым временным или частотным разрешением.
23. Способ кодирования параметров направленного кодирования аудио, содержащих параметры рассеянности и параметры направления, содержащий этапы, на которых:
- квантуют параметры рассеянности и параметры направления;
- кодируют квантованные параметры рассеянности и квантованные параметры направления; и
- формируют представление кодированных параметров, содержащее информацию относительно кодированных параметров рассеянности и кодированных параметров направления;
причем квантование содержит этапы, на которых квантуют параметры рассеянности с использованием неравномерного квантователя, чтобы формировать индексы рассеянности, и извлекают неравномерный квантователь с использованием таблицы квантования межканальной когерентности для получения пороговых значений и уровней восстановления неравномерного квантователя, или
при этом кодирование содержит этапы, на которых кодируют квантованные параметры рассеянности в режиме кодирования без предварительной обработки с помощью двоичного кода, если алфавит кодирования имеет размер, представляющий собой степень двух, или кодируют квантованные параметры рассеянности в режиме кодирования без предварительной обработки с использованием прореженного кода, если алфавит кодирования отличается от степени двух, или кодируют квантованные параметры рассеянности в режиме на основании только одного значения с использованием первого конкретного индикатора и кодового слова для одного значения из режима кодирования без предварительной обработки, или кодируют квантованные параметры рассеянности в режиме на основании только двух последовательных значений с использованием второго конкретного индикатора, кода для меньшего из двух последовательных значений и бита для разности между каждым фактическим значением и меньшим из двух последовательных значений, или
причем квантование содержит этап, на котором квантуют угол азимута с использованием числа возможных индексов квантования, при этом число индексов квантования снижается от меньших углов наклона к большим углам наклона таким образом, что первое число возможных индексов квантования для первого угла наклона, имеющего первую абсолютную величину, выше второго числа возможных индексов квантования для второго угла наклона, имеющего вторую абсолютную величину, при этом вторая абсолютная величина имеет большее абсолютное значение, чем первая абсолютная величина, или
причем квантование содержит этапы, на которых определяют в качестве квантованных параметров направления индексы наклона, алфавиты наклона, ассоциированные с индексами наклона, индексы азимута и алфавиты азимута, ассоциированные с индексами азимута, извлекают средний вектор направления из векторов квантованного направления для временной части или частотной части входного сигнала, квантуют средний вектор направления с использованием наилучшей угловой точности векторов для временной части или частотной части, и кодируют квантованный средний вектор направления, или при этом формирование содержит этап, на котором вводят кодированный средний вектор направления в представление кодированных параметров в качестве дополнительной вспомогательной информации.
24. Декодер для декодирования кодированного аудиосигнала, содержащего кодированные параметры направленного кодирования аудио, содержащие кодированные параметры рассеянности и кодированные параметры направления, содержащий:
- входной интерфейс (800) для приема кодированного аудиосигнала и для отделения, из кодированного аудиосигнала, кодированных параметров рассеянности и кодированных параметров направления;
- декодер (820) параметров для декодирования кодированных параметров рассеянности и кодированных параметров направления, чтобы получать квантованные параметры рассеянности и квантованные параметры направления; и
- деквантователь (840) параметров для определения, из квантованных параметров рассеянности и квантованных параметров направления, деквантованных параметров рассеянности и деквантованных параметров направления.
25. Декодер по п. 24,
- в котором входной интерфейс (800) выполнен с возможностью определения из индикатора (806) режима кодирования, включенного в кодированный аудиосигнал, должен ли декодер (820) параметров использовать первый режим декодирования, представляющий собой режим декодирования без предварительной обработки, или второй режим декодирования, представляющий собой декодирования с моделированием и отличающийся от первого режима декодирования, для декодирования кодированных параметров направления.
26. Декодер по п. 24,
- в котором декодер (820) параметров выполнен с возможностью декодирования кодированного параметра (804) рассеянности для кадра кодированного аудиосигнала для получения квантованного параметра рассеянности для кадра,
- при этом деквантователь (840) выполнен с возможностью определения точности деквантования для деквантования по меньшей мере одного параметра направления для кадра с использованием квантованного или деквантованного параметра рассеянности, и
- при этом деквантователь (840) параметров выполнен с возможностью деквантования квантованного параметра направления с использованием точности деквантования.
27. Декодер по п. 24,
- в котором декодер (820) параметров выполнен с возможностью определения из точности деквантования алфавита декодирования для декодирования кодированного параметра направления для кадра, и
- при этом декодер (820) параметров выполнен с возможностью декодирования кодированного параметра направления с использованием алфавита декодирования для получения квантованного параметра направления.
28. Декодер по п. 24,
- в котором декодер (820) параметров выполнен с возможностью извлечения квантованного индекса сферы из кодированного параметра направления и разложения квантованного индекса сферы на квантованный индекс наклона и квантованный индекс азимута.
29. Декодер по п. 24, в котором декодер (820) параметров выполнен с возможностью:
- определения из точности деквантования алфавита наклона, или
- определения из квантованного параметра наклона или деквантованного параметра наклона алфавита азимута.
30. Декодер по п. 24, в котором декодер (820) параметров выполнен с возможностью:
- декодирования из кодированных параметров направления квантованного параметра наклона и декодирования из кодированных параметров направления квантованного параметра азимута,
- при этом деквантователь (840) параметров выполнен с возможностью определения из квантованного параметра наклона или деквантованного параметра наклона алфавита азимута, при этом размер алфавита азимута больше для данных наклона, указывающих наклон с первым абсолютным углом наклона, по сравнению с данными наклона, указывающими наклон со вторым абсолютным углом наклона, причем второй абсолютный угол наклона превышает первый абсолютный угол наклона, и
- при этом декодер (820) параметров выполнен с возможностью использования алфавита азимута для формирования квантованного параметра азимута, или при этом деквантователь параметров выполнен с возможностью использования для деквантования квантованного параметра азимута алфавита азимута.
31. Декодер по п. 24,
- в котором входной интерфейс (800) выполнен с возможностью определения режима декодирования с моделированием из индикатора (806) режима декодирования в кодированном аудиосигнале,
- при этом декодер (820) параметров выполнен с возможностью получения среднего индекса наклона или среднего индекса азимута.
32. Декодер по п. 31, в котором декодер (820) параметров выполнен с возможностью определения из квантованного индекса рассеянности для кадра точности деквантования для кадра (851),
- определения (852a) из точности деквантования для кадра среднего алфавита наклона или среднего алфавита азимута, и
- вычисления среднего индекса наклона с использованием битов (808b) в кодированном аудиосигнале и среднего алфавита наклона или вычисления среднего индекса азимута с использованием битов (808a) в кодированном аудиосигнале и среднего алфавита азимута.
33. Декодер по п. 31,
- в котором декодер (820) параметров выполнен с возможностью декодирования определенных битов (808c) в кодированном аудиосигнале для получения декодированного параметра наклона на основе кода Голомба-Райса, и декодирования дополнительных битыов (808c) в кодированном аудиосигнале для получения декодированных расстояний наклона, или
- при этом декодер (820) параметров выполнен с возможностью декодирования определенных битов (808a) в кодированном аудиосигнале для получения декодированного параметра азимута на основе кода Голомба-Райса, и декодирования дополнительных битов (808f) в кодированном аудиосигнале для получения декодированных расстояний азимута,
- при этом декодер (820) параметров выполнен с возможностью вычисления квантованных параметров наклона из параметра наклона на основе кода Голомба-Райса и декодированных расстояний наклона, и среднего индекса наклона, либо вычисления квантованных параметров азимута из параметра азимута на основе кода Голомба-Райса и декодированных расстояний азимута, и среднего индекса азимута.
34. Декодер по п. 24,
- в котором декодер (820) параметров выполнен с возможностью декодирования параметра рассеянности для временной и частотной части из кодированного аудиосигнала для получения квантованного параметра (850) рассеянности,
- при этом деквантователь (840) параметров выполнен с возможностью определения точности деквантования из квантованного или деквантованного параметра (851) рассеянности,
- при этом декодер (820) параметров выполнен с возможностью извлечения (852a) алфавита наклона из точности деквантования и использования алфавита наклона для получения квантованного параметра наклона для временной и частотной части кадра, и
- при этом деквантователь выполнен с возможностью деквантования квантованного параметра наклона с использованием алфавита наклона для получения деквантованного параметра наклона для временной и частотной части кадра.
35. Декодер по п. 24,
- в котором декодер (820) параметров выполнен с возможностью декодирования кодированного параметра направления для получения квантованного параметра наклона,
- при этом деквантователь (840) параметров выполнен с возможностью определения (852c) алфавита азимута из квантованного параметра наклона или деквантованного параметра наклона, и
- при этом декодер (820) параметров выполнен с возможностью вычисления (852d) квантованного параметра азимута с использованием алфавита азимута, или при этом деквантователь (840) параметров выполнен с возможностью деквантования квантованного параметра азимута с использованием алфавита азимута.
36. Декодер по п. 24, в котором деквантователь (840) параметров выполнен с возможностью:
- определения (852a) алфавита наклона с использованием точности деквантования, и
- определения (852c) алфавита азимута с использованием точности деквантования и квантованного или деквантованного параметра наклона, сформированного с использованием алфавита наклона, и
- при этом декодер (820) параметров выполнен с возможностью использования алфавита наклона для декодирования кодированного параметра направления для получения квантованного параметра наклона, и использования алфавита азимута для декодирования кодированного параметра направления для получения квантованного параметра азимута, или при этом деквантователь (840) параметров выполнен с возможностью деквантования квантованного параметра наклона с использованием алфавита наклона и деквантования квантованного параметра азимута с использованием алфавита азимута.
37. Декодер по п. 28, в котором декодер (820) параметров выполнен с возможностью:
- вычисления прогнозированного индекса наклона или прогнозированного индекса азимута с использованием среднего индекса наклона или среднего индекса азимута, и
- выполнения операции декодирования кодом Голомба-Райса либо ее модификации для получения расстояния для параметра азимута или наклона, и
- суммирования расстояния для параметра азимута или наклона со средним индексом наклона или средним индексом азимута для получения квантованного индекса наклона или квантованного индекса азимута.
38. Декодер по п. 24, дополнительно содержащий:
- преобразователь (710) разрешения параметров для преобразования частотно-временного разрешения деквантованного параметра рассеянности либо временного или частотного разрешения деквантованного параметра азимута или наклона, либо параметрического представления, извлекаемого из деквантованного параметра азимута или деквантованного параметра наклона, в целевое временное или частотное разрешение, и
- модуль (420) рендеринга аудио для применения параметров рассеянности и параметров направления в целевом временном или частотном разрешении к аудиосигналу для получения декодированного многоканального аудиосигнала.
39. Декодер по п. 38, содержащий:
- спектрально-временной преобразователь (440) для преобразования многоканального аудиосигнала из представления в спектральной области в представление во временной области, имеющее временное разрешение, превышающее временное разрешение из целевого временного или частотного разрешения.
40. Декодер по п. 24,
- в котором кодированный аудиосигнал содержит кодированный транспортный сигнал, при этом входной интерфейс (800) выполнен с возможностью извлечения кодированного транспортного сигнала,
- при этом декодер содержит аудиодекодер (340) транспортных сигналов для декодирования кодированного транспортного сигнала,
- при этом декодер дополнительно содержит временно-спектральный преобразователь (430) для преобразования декодированного транспортного сигнала в спектральное представление, и
- при этом декодер содержит модуль (420, 440) рендеринга аудио для рендеринга многоканального аудиосигнала с использованием деквантованных параметров рассеянности и деквантованных параметров направления, и
- при этом декодер дополнительно содержит спектрально-временной преобразователь (440) для преобразования подготовленного посредством рендеринга аудиосигнала в представление во временной области.
41. Способ декодирования кодированного аудиосигнала, содержащего кодированные параметры направленного кодирования аудио, содержащие кодированные параметры рассеянности и кодированные параметры направления, содержащий этапы, на которых:
- принимают (800) кодированный аудиосигнал и отделяют, из кодированного аудиосигнала, кодированные параметры рассеянности и кодированные параметры направления;
- декодируют (820) кодированные параметры рассеянности и кодированные параметры направления, чтобы получать квантованные параметры рассеянности и квантованные параметры направления; и
- определяют (840), из квантованных параметров рассеянности и квантованных параметров направления, деквантованные параметры рассеянности и деквантованные параметры направления.
42. Физический носитель данных, на котором сохранена компьютерная программа для осуществления, при выполнении на компьютере или процессоре, способа по п. 23.
43. Физический носитель данных, на котором сохранена компьютерная программа для осуществления, при выполнении на компьютере или процессоре, способа по п. 41.
СПОСОБ ЗАЩИТЫ УГЛЕВОДОРОДНОГО ТОПЛИВА ОТ МИКРОБИОЛОГИЧЕСКОГО ПОРАЖЕНИЯ И БИОЦИДНАЯ ПРИСАДКА, ПРЕДНАЗНАЧЕННАЯ ДЛЯ ИСПОЛЬЗОВАНИЯ В ЭТОМ СПОСОБЕ | 2007 |
|
RU2346028C1 |
AHONEN J., PULKKI V | |||
Колосоуборка | 1923 |
|
SU2009A1 |
ПЕРЕДВИЖНАЯ ДИАГРАММА ДЛЯ СРАВНЕНИЯ ЦЕННОСТИ РАЗЛИЧНЫХ ПРОДУКТОВ ПО ИХ КАЛОРИЙНОСТИ | 1919 |
|
SU285A1 |
GANG LI, XIAOCHEN WANG, LI GAO, RUIMIN HU, DENGSHI LI | |||
The perceptual |
Авторы
Даты
2021-12-27—Публикация
2018-11-16—Подача