КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ПАРАМЕТРОВ Российский патент 2023 года по МПК G10L19/08 

Описание патента на изобретение RU2803451C2

1. Введение

Здесь раскрыты несколько примеров технологии кодирования и декодирования. В частности, изобретение служит для кодирования и декодирования многоканального аудиосодержимого на низких скоростях передачи битов, например, с использованием инфраструктуры DirAC. Этот способ позволяет получать высококачественный выходной сигнал при использовании низких скоростей передачи битов. Он может использоваться во множестве вариантов применения, включающих в себя производство художественной продукции, связь и виртуальную реальность.

1.1. Документы из уровня техники

Этот раздел кратко описывает уровень техники.

1.1.1. Дискретное кодирование многоканального содержимого

Наиболее простой подход для кодирования и передачи многоканального содержимого заключается в количественном определении и кодировании непосредственно форм сигналов многоканального аудиосигнала без предшествующей обработки или предположений. Хотя этот способ работает идеально в теории, имеется один главный недостаток, который заключается в потреблении битов, требуемых для кодирования многоканального содержимого. Следовательно, другие способы, подлежащие описанию (а также предложенное изобретение), представляют собой так называемые «параметрические подходы», поскольку они используют метапараметры для описания и передачи многоканального аудиосигнала вместо самого исходного многоканального аудиосигнала.

1.1.2. Стандарт объемного звучания MPEG

Стандарт объемного звучания MPEG представляет собой стандарт ISO/MPEG, завершенный в 2006 году, для параметрического кодирования многоканального звука [1]. Этот способ основан главным образом на двух наборах параметров:

- межканальные когерентности (ICC), которые описывают когерентность между каждым каналом данного многоканального аудиосигнала.

- разность канальных уровней (CLD), которая соответствует разности уровней между двумя входными каналами многоканального аудиосигнала.

Одна особенность стандарта объемного звучания MPEG заключается в использовании так называемых «древовидных структур», причем эти структуры позволяют «описывать два входных канала посредством одиночных выходных каналов» (цитата из [1]).

В качестве примера, ниже содержится схема кодера многоканального аудиосигнала 5.1 с использованием стандарта объемного звучания MPEG. На этом чертеже, шесть входных каналов (помечены как "L", "LS", "R"", RS", "C" и "LFE" на чертеже) последовательно обрабатываются через древовидный структурный элемент (указан на чертеже как "R_OTT"). Каждый из этих древовидных структурных элементов должен формировать набор параметров, ICC и CLD, указанных выше, а также остаточный сигнал, который обрабатывается снова через другую древовидную структуру и формирует другой набор параметров. После того как конец дерева достигается, различные параметры, ранее вычисленные, передаются в декодер, как и микшированный с понижением сигнал. Эти элементы используются посредством декодера для формирования выходного многоканального сигнала, причем обработка декодера по существу представляет собой обратную древовидную структуру, используемую посредством кодера.

Главное преимущество стандарта объемного звучания MPEG основывается на использовании этой структуры и вышеуказанных параметров. Тем не менее, один из недостатков стандарта объемного звучания MPEG заключается в отсутствии гибкости вследствие древовидной структуры. Также вследствие особенностей обработки в некоторых конкретных элементах может происходить снижение качества.

См., в числе прочего, фиг. 7, где показано общее представление кодера по стандарту объемного звучания MPEG для сигнала 5.1, извлеченного из [1].

1.2. Направленное кодирование аудио

Направленное кодирование аудио (сокращенное "DirAC") [2] также представляет собой параметрический способ воспроизведения пространственных аудиоданных, он разработан Ville Pulkki из университета Aalto в Финляндии. DirAC основывается на обработке по полосам частот, которая использует два набора параметров для описания систем пространственного звучания:

- Направление поступления (DoA), которое является углом в градусах, который описывает направление поступления преобладающего звука в аудиосигнале.

- Рассеянность, которая является значением между 0 и 1, которые описывают, насколько «рассеянным» является звук. Если значение равно 0, звук является нерассеянным и может ассимилироваться в качестве точечного источника, исходящего из точного угла, если значение равно 1, звук является абсолютно рассеянным и предположительно исходит из «каждого» угла.

Для синтеза выходных сигналов DirAC предполагает разложение синтеза на рассеянную и нерассеянную часть, синтез рассеянного звука направлен на формирование восприятия окружающего звука, тогда как синтез прямого звука направлен на формирование преобладающего звука.

При том, что DirAC обеспечивает выходные сигналы хорошего качества, оно имеет один значительный недостаток: оно не предназначено для многоканальных аудиосигналов. Следовательно, параметры DoA и рассеянности не являются подходящими для описания многоканального входного аудиосигнала, и в результате это сказывается на качестве выходного сигнала.

1.3. Бинауральное кодирование по сигнальным меткам

Бинауральное кодирование по сигнальным меткам (BCC) [3] представляет собой параметрический подход, разработанный Christof Faller. Этот способ основывается на наборе параметров, аналогичном наборам параметров, описанным для стандарта объемного звучания MPEG (см. также 1.1.2), а именно:

- межканальной разности уровней (ICLD), которая представляет собой показатель отношений энергий между двумя каналами многоканального входного сигнала.

- межканальной разности времен (ICTD), которая представляет собой показатель задержки между двумя каналами многоканального входного сигнала.

- межканальной корреляции (ICC), которая представляет собой показатель корреляции между двумя каналами многоканального входного сигнала.

Подход BCC имеет почти одинаковые характеристики с точки зрения вычисления параметров, подлежащих передаче, по сравнению с новым изобретением, которое описано ниже, но в нем отсутствует гибкость и масштабируемость передаваемых параметров.

1.4. Пространственное кодирование аудиообъектов по стандарту MPEG

Здесь следует отметить просто пространственное кодирование аудиообъектов [4]. Оно представляет собой MPEG-стандарт для кодирования так называемых аудиообъектов, которые в определенной степени связаны с многоканальным сигналом. Он использует аналогичные параметры со стандартом объемного звучания MPEG.

1.5. Предпосылки/недостатки уровня техники

1.5. Предпосылки

1.5.1.1. Использование инфраструктуры DirAC

Один аспект изобретения, который следует отметить, заключается в том, что настоящее изобретение должно соответствовать инфраструктуре DirAC. Тем не менее, также следует заранее отметить, что параметры DirAC не являются подходящими для многоканального аудиосигнала. Необходимо привести некоторые дополнительные пояснения по этой теме.

Исходная обработка DirAC использует либо сигналы микрофонов, либо амбиофонические сигналы. Из этих сигналов, вычисляются параметры, а именно, направление поступления (DoA) и рассеянность.

Один первый подход, который опробован для использования DirAC с многоканальными аудиосигналами, заключается в преобразовании многоканальных сигналов в амбиофоническое содержимое с использованием способа, предложенного Ville Pulkki, описанного в [5]. Затем, после того как эти амбиофонические сигналы извлечены из многоканальных аудиосигналов, регулярная обработка DirAC выполнена с использованием DoA и рассеянности. Результат этой первой попытки заключается в том, что качество и пространственные признаки выходного многоканального сигнала ухудшены и не удовлетворяют требованиям целевого варианта применения.

Следовательно, основное обуславливание в основе этого нового изобретения заключается в том, чтобы использовать набор параметров, который эффективно описывает многоканальный сигнал, а также использовать инфраструктуру DirAC; дополнительные пояснения приводятся в разделе 1.1.2.

1.5.1.2. Создание системы, работающей на низких скоростях передачи битов

Одна из задач и назначение настоящего изобретения заключается в предложении подхода, который обеспечивает возможность вариантов применения с низкими скоростями передачи битов. Это требует нахождения оптимального набора данных для описания многоканального содержимого между кодером и декодером. Это также требует нахождения оптимального компромисса с точки зрения чисел передаваемых параметров и выходного качества.

1.5.1.3. Создание гибкой системы

Другая важная задача настоящего изобретения заключается в предложении гибкой системы, которая может поддерживать любой многоканальный аудиоформат, предназначенный для воспроизведения на любой конфигурации громкоговорителей. Качество на выходе не должно нарушаться в зависимости от конфигурации на входе.

1.5.2. Недостатки уровня техники

Упомянутый выше уровень техники имеет нескольких недостатков, которые перечислены в нижеприведенной таблице.

Недостаток Рассматриваемый уровень техники Комментарий Несоответствующие скорости передачи битов Дискретное кодирование многоканального содержимого Прямое кодирование многоканального содержимого приводит к скоростям передачи битов, которые являются слишком высокими для указанных требований и для целевых вариантов применения. Несоответствующие параметры/дескрипторы Ранее созданное DirAC Ранее созданный способ DirAC использует рассеянность и DoA в качестве описания параметров; оказывается, что эти параметры не являются подходящими для описания многоканального аудиосигнала Отсутствие гибкости подхода Стандарт объемного звучания MPEG
BCC
Стандарт объемного звучания MPEG и BCC не являются достаточно гибкими относительно требований целевых вариантов применения

2. Описание изобретения

2.1. Раскрытие изобретения

В соответствии с аспектом, предусмотрено устройство (кодер) синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем устройство синтеза аудиоданных содержит:

- входной интерфейс, выполненный с возможностью приема сигнала понижающего микширования, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя информацию канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов; и

- процессор синтеза, выполненный с возможностью формирования, согласно по меньшей мере одному правилу микширования, сигнала синтеза с использованием:

- информации канального уровня и корреляции исходного сигнала; и

- ковариационной информации, ассоциированной с сигналом понижающего микширования.

Устройство синтеза аудиоданных может содержать:

- модуль вычисления прототипных сигналов, выполненный с возможностью вычисления прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет упомянутое число каналов синтеза;

- модуль вычисления правил микширования, выполненный с возможностью вычисления по меньшей мере одного правила микширования с использованием:

- информации канального уровня и корреляции исходного сигнала; и

- ковариационной информации, ассоциированной с сигналом понижающего микширования;

- при этом процессор синтеза выполнен с возможностью формирования сигнала синтеза с использованием прототипного сигнала и по меньшей мере одного правила микширования.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой ковариационной информации исходного сигнала.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой ковариационной информации, адаптированной к числу каналов сигнала синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления ковариационной информации, адаптированной к числу каналов сигнала синтеза, посредством назначения групп исходных каналов одиночным каналам синтеза, или наоборот, так что восстановленная целевая ковариационная информация сообщается в некоторое число каналов сигнала синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления ковариационной информации, адаптированной к числу каналов сигнала синтеза, посредством формирования целевой ковариационной информации для упомянутого числа исходных каналов и затем применения правила понижающего микширования или правила повышающего микширования и энергетической компенсации, чтобы достигать целевой ковариации для каналов синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой версии ковариационной информации на основе оцененной версии исходной ковариационной информации, при этом оцененная версия исходной ковариационной информации сообщается в некоторое число каналов синтеза или в некоторое число исходных каналов.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения оцененной версии исходной ковариационной информации из ковариационной информации, ассоциированной с сигналом понижающего микширования.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения оцененной версии исходной ковариационной информации посредством применения к ковариационной информации, ассоциированной с сигналом понижающего микширования, правила оценки, ассоциированного с прототипным правилом для вычисления прототипного сигнала.

Устройство синтеза аудиоданных может быть выполнено с возможностью нормализации по меньшей мере для одной пары каналов оцененной версии () исходной ковариационной информации (Cy) в квадратные корни уровней каналов пары каналов.

Устройство синтеза аудиоданных может быть выполнено с возможностью интерпретации матрицы с нормализованной оцененной версией исходной ковариационной информации.

Устройство синтеза аудиоданных может быть выполнено с возможностью заполнения матрицы посредством вставки записей, полученных во вспомогательной информации потока битов.

Устройство синтеза аудиоданных может быть выполнено с возможностью денормализации матрицы посредством масштабирования оцененной версии исходной ковариационной информации посредством квадратного корня уровней каналов, формирующих пару каналов.

Устройство синтеза аудиоданных может быть выполнено с возможностью выполнения извлечения из вспомогательной информации сигнала понижающего микширования, причем устройство синтеза аудиоданных дополнительно выполнено с возможностью восстановления целевой версии ковариационной информации посредством оцененной версии исходной информации канального уровня и корреляции из:

- ковариационной информации по меньшей мере для одного первого канала или пары каналов; и

- информации канального уровня и корреляции по меньшей мере для одного второго канала или пары каналов.

Устройство синтеза аудиоданных может быть выполнено с возможностью предпочтения информации канального уровня и корреляции, описывающей канал или пару каналов, полученной из вспомогательной информации потока битов, а не ковариационной информации, восстановленной из сигнала понижающего микширования для того же самого канала или пары каналов.

Восстановленная целевая версия исходной ковариационной информации может пониматься как описание энергетической взаимосвязи между парой каналов основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения версии в частотной области (FD) сигнала понижающего микширования, причем версия FD сигнала понижающего микширования на полосы частот или группы полос частот, при этом различная информация канального уровня и корреляции ассоциирована с различными полосами частот или группами полос частот,

- при этом устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных полос частот или групп полос частот таким образом, чтобы получить различные правила микширования для различных полос частот или групп полос частот.

Сигнал понижающего микширования разделяется на интервалы, при этом различная информация канального уровня и корреляции ассоциирована с различными интервалами, и устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных интервалов таким образом, чтобы получить различные правила микширования для различных интервалов.

Сигнал понижающего микширования разделяется на кадры, и каждый кадр разделяется на интервалы, при этом устройство синтеза аудиоданных выполнено с возможностью, когда наличие и положение переходной части в одном кадре передаются в служебных сигналах как находящиеся в одном переходном интервале:

- ассоциирования текущей информации канального уровня и корреляции с переходным интервалом и/или с интервалами после переходного интервала кадра; и

- ассоциирования с интервалом кадра, предшествующим переходному интервалу, информации канального уровня и корреляции предыдущего интервала.

Устройство синтеза аудиоданных может быть выполнено с возможностью выбора прототипного правила, выполненного с возможностью вычисления прототипного сигнала на основе числа каналов синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью выбора прототипного правила из множества предварительно сохраненных прототипных правил.

Устройство синтеза аудиоданных может быть выполнено с возможностью задания прототипного правила на основе выбора вручную.

Прототипное правило может быть основано или включать в себя матрицу с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью работы на скорости передачи битов, равной или ниже 160 Кбит/с.

Устройство синтеза аудиоданных может дополнительно содержать энтропийный декодер для получения сигнала понижающего микширования со вспомогательной информацией.

Устройство синтеза аудиоданных дополнительно содержит модуль декорреляции для уменьшения величины корреляции между различными каналами.

Прототипный сигнал может непосредственно передаваться в процессор синтеза без выполнения декорреляции.

По меньшей мере одно из информации канального уровня и корреляции исходного сигнала по меньшей мере одного правила микширования и ковариационной информации, ассоциированной с сигналом понижающего микширования, имеет форму матрицы.

Вспомогательная информация включает в себя идентификационные данные исходных каналов:

- при этом устройство синтеза аудиоданных может быть дополнительно выполнено с возможностью вычисления по меньшей мере одного правила микширования с использованием по меньшей мере одного из информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования, идентификационных данных исходных каналов и идентификационных данных каналов синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью вычисления по меньшей мере одного правила микширования посредством разложения по сингулярным значениям (SVD).

Сигнал понижающего микширования может разделяться на кадры, причем устройство синтеза аудиоданных выполнено с возможностью сглаживания принимаемого параметра либо оцененного или восстановленного значения или матрицы микширования, с использованием линейного комбинирования с параметром либо с оцененным или восстановленным значением, либо с матрицей микширования, полученной для предшествующего кадра.

Устройство синтеза аудиоданных может быть выполнено с возможностью, деактивации сглаживания принимаемого параметра либо оцененного или восстановленного значения, либо матрицы микширования, когда наличие и/или положение переходной части в одном кадре передаются в служебных сигналах.

Сигнал понижающего микширования может разделяться на кадры, и кадры разделяются на интервалы, при этом информация канального уровня и корреляции исходного сигнала получается из вспомогательной информации потока битов покадрово, причем устройство синтеза аудиоданных выполнено с возможностью использования для текущего кадра матрицы микширования (или правила микширования), полученной посредством масштабирования, матрицы микширования (или правила микширования), вычисленного для текущего кадра, посредством коэффициента, увеличивающегося вдоль последующих интервалов текущего кадра, и посредством добавления матрицы микширования (или правила микширования), используемой для предшествующего кадра в версии, масштабируемой посредством понижающего коэффициента вдоль последующих интервалов текущего кадра.

Число каналов синтеза может превышать число исходных каналов. Число каналов синтеза может быть меньше числа исходных каналов. Число каналов синтеза и число исходных каналов могут превышать число каналов понижающего микширования.

По меньшей мере одно или все из числа каналов синтеза, числа исходных каналов и числа каналов понижающего микширования составляет множественное число.

По меньшей мере одно правило микширования может включать в себя первую матрицу микширования и вторую матрицу микширования, причем устройство синтеза аудиоданных содержит:

- первый тракт, включающий в себя:

- блок обработки первых матриц микширования, выполненный с возможностью синтеза первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:

- ковариационной матрицы, ассоциированной с сигналом синтеза, причем ковариационная матрица восстановлена из информации канального уровня и корреляции; и

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования,

- второй тракт для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем второй тракт включает в себя:

- блок обработки прототипных сигналов, выполненный с возможностью повышающего микширования сигнала понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;

- декоррелятор, выполненный с возможностью декорреляции микшированного с повышением прототипного сигнала;

- блок обработки вторых матриц микширования, выполненный с возможностью синтеза второго компонента сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,

- при этом устройство синтеза аудиоданных выполнено с возможностью оценки второй матрицы микширования из:

- остаточной ковариационной матрицы, обеспеченной блоком обработки первых матриц микширования; и

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,

- при этом устройство синтеза аудиоданных дополнительно содержит блок суммирования для суммирования первого компонента сигнала синтеза со вторым компонентом сигнала синтеза.

В соответствии с аспектом, может быть предусмотрено устройство синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, при этом сигнал понижающего микширования представляет собой микшированную с понижением версию исходного сигнала, имеющего некоторое число исходных каналов, причем устройство синтеза аудиоданных содержит:

- первый тракт, включающий в себя:

- блок обработки первых матриц микширования, выполненный с возможностью синтеза первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:

- ковариационной матрицы, ассоциированной с сигналом синтеза; и

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования.

- второй тракт для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем второй тракт включает в себя:

- блок обработки прототипных сигналов, выполненный с возможностью повышающего микширования сигнала понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;

- декоррелятор, выполненный с возможностью декорреляции микшированного с повышением прототипного сигнала;

- блок обработки вторых матриц микширования, выполненный с возможностью синтеза второго компонента сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,

- при этом устройство синтеза аудиоданных выполнено с возможностью вычисления второй матрицы микширования из:

- остаточной ковариационной матрицы, обеспеченной блоком обработки первых матриц микширования; и

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,

- при этом устройство синтеза аудиоданных дополнительно содержит блок суммирования для суммирования первого компонента сигнала синтеза со вторым компонентом сигнала синтеза.

Остаточная ковариационная матрица получается посредством вычитания, из ковариационной матрицы, ассоциированной с сигналом синтеза, матрицы, полученной посредством применения первой матрицы микширования к ковариационной матрице, ассоциированной с сигналом понижающего микширования.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения второй матрицы микширования из:

- второй матрицы, которая получается посредством разложения остаточной ковариационной матрицы, ассоциированной с сигналом синтеза;

- первой матрицы, которая представляет собой инверсию или регуляризованную инверсию диагональной матрицы, полученную из оценки ковариационной матрицы декоррелированных прототипных сигналов.

Диагональная матрица может получаться посредством применения функции вычисления квадратного корня к главным диагональным элементам ковариационной матрицы декоррелированных прототипных сигналов.

Вторая матрица может получаться посредством разложения по сингулярным значениям (SVD), применяемого к остаточной ковариационной матрице, ассоциированной с сигналом синтеза.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения второй матрицы микширования посредством умножения второй матрицы на инверсию или регуляризованную инверсию диагональной матрицы, полученную из оценки ковариационной матрицы декоррелированных прототипных сигналов и третьей матрицы.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения третьей матрицы посредством SVP, применяемого к матрице, полученной из нормализованной версии ковариационной матрицы декоррелированных прототипных сигналов, причем нормализация выполняется относительно главной диагонали остаточной ковариационной матрицы и диагональной матрицы и второй матрицы.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения первой матрицы микширования из второй матрицы и обратной или регуляризованной инверсии второй матрицы,

- при этом вторая матрица получается посредством разложения ковариационной матрицы, ассоциированной с сигналом понижающего микширования, и

- вторая матрица получается посредством разложения восстановленной целевой ковариационной матрицы, ассоциированной с сигналом понижающего микширования.

Устройство синтеза аудиоданных может быть выполнено с возможностью оценки ковариационной матрицы декоррелированных прототипных сигналов из диагональных записей матрицы, полученной из применения к ковариационной матрице, ассоциированной с сигналом понижающего микширования, прототипного правила, используемого в прототипном блоке для повышающего микширования сигнала понижающего микширования из некоторого числа каналов понижающего микширования в упомянутое число каналов синтеза.

Полосы частот агрегируются друг с другом в группы агрегированных полос частот, при этом информация относительно групп агрегированных полос частот передается во вспомогательной информации потока битов, при этом информация канального уровня и корреляции исходного сигнала обеспечивается в расчете на каждую группу полос частот таким образом, чтобы вычислить одну и ту же по меньшей мере одну матрицу микширования для различных полос частот одной и той же агрегированной группы полос частот.

В соответствии с аспектом, может быть предусмотрен аудиокодер для формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет множество исходных каналов, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования, причем аудиокодер содержит:

- модуль оценки параметров, выполненный с возможностью оценки информации канального уровня и корреляции исходного сигнала, и

- модуль записи потоков битов для кодирования сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.

Аудиокодер может быть выполнен с возможностью обеспечения информации канального уровня и корреляции исходного сигнала в качестве нормализованных значений.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет по меньшей мере информацию канального уровня, ассоциированную со всеми исходными каналами.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет по меньшей мере информацию корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами.

Информация канального уровня и корреляции исходного сигнала включает в себя по меньшей мере одно значение когерентности, описывающее когерентность между двумя каналами из пары исходных каналов.

Значение когерентности может нормализоваться. Значение когерентности может составлять:

,

- где является ковариацией между каналами i и j, при этом и соответственно, являются уровнями, ассоциированными с каналами i и j.

Информация канального уровня и корреляции исходного сигнала включает в себя по меньшей мере одну межканальную разность уровней (ICLD).

По меньшей мере одна ICLD может обеспечиваться в качестве логарифмического значения. По меньшей мере одна ICLD может быть нормализована. ICLD может быть следующей:

- где:

- Xi является ICLD для канала i.

- Pi является мощностью текущего канала i

- Pdmx,i является линейным комбинированием значений ковариационной информации сигнала понижающего микширования.

Аудиокодер может быть выполнен с возможностью выбора, следует ли кодировать или не кодировать по меньшей мере часть информации канального уровня и корреляции исходного сигнала, на основе информации состояния, таким образом, чтобы включить во вспомогательную информацию увеличенный объем информации канального уровня и корреляции в случае сравнительно меньшего объема рабочих данных.

Аудиокодер может быть выполнен с возможностью выбора того, какая часть информации канального уровня и корреляции исходного сигнала должна кодироваться во вспомогательной информации, на основе показателей по каналам, таким образом, чтобы включить информацию канального уровня и корреляции, ассоциированную с более чувствительными показателями, во вспомогательную информацию.

Информация канального уровня и корреляции исходного сигнала может иметь форму записей матрицы.

Матрица может быть симметричной или эрмитовой, при этом записи информации канального уровня и корреляции предусмотрены для всех или не всех записей на диагонали матрицы и/или менее чем для половины недиагональных элементов матрицы.

Модуль записи потоков битов может быть выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.

Исходный сигнал либо его обработанная версия может разделяться на множество последующих кадров равной продолжительности.

Аудиокодер может быть выполнен с возможностью кодирования информации канального уровня и корреляции исходного сигнала, конкретного для каждого кадра, во вспомогательной информации.

Аудиокодер может быть выполнен с возможностью кодирования во вспомогательной информации одной и той же информации канального уровня и корреляции исходного сигнала, совместно ассоциированного с множеством последовательных кадров.

Аудиокодер может быть выполнен с возможностью выбора числа последовательных кадров, в которых одна и та же информация канального уровня и корреляции исходного сигнала может выбираться таким образом, что:

- сравнительно более высокая скорость передачи битов или больший объем рабочих данных подразумевает увеличение числа последовательных кадров, с которыми ассоциирована одна и та же информация канального уровня и корреляции исходного сигнала, и наоборот.

Аудиокодер может быть выполнен с возможностью сокращения числа последовательных кадров, с которыми ассоциирована одна и та же информация канального уровня и корреляции исходного сигнала, для обнаружения переходной части.

Каждый кадр может подразделяться на целое число последовательных интервалов.

Аудиокодер может быть выполнен с возможностью оценки информации канального уровня и корреляции для каждого интервала и кодирования во вспомогательной информации суммы или среднего либо другого заданной линейной комбинации информации канального уровня и корреляции, оцененной для различных интервалов.

Аудиокодер может быть выполнен с возможностью выполнения анализа переходных процессов для версии во временной области кадра для определения наличия переходной части в кадре.

Аудиодекодер может быть выполнен с возможностью определения, в каком интервале кадра имеется переходная часть, и:

- кодирования информации канального уровня и корреляции исходного сигнала, ассоциированного с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре,

- без кодирования информации канального уровня и корреляции исходного сигнала, ассоциированного с интервалами, предшествующими переходной части.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации наличия переходной части, имеющейся в одном интервале кадра.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации того, в каком интервале кадра имеется переходная часть.

Аудиокодер может быть выполнен с возможностью оценки информации канального уровня и корреляции исходного сигнала, ассоциированного с множеством интервалов кадра, и их суммирования или усреднения, либо их линейного комбинирования для получения информации канального уровня и корреляции, ассоциированной с кадром.

Исходный сигнал может преобразовываться в сигнал частотной области, при этом аудиокодер выполнен с возможностью кодирования , информации канального уровня и корреляции исходного сигнала по полосам частот во вспомогательной информации.

Аудиокодер может быть выполнен с возможностью агрегирования некоторого числа полос частот исходного сигнала в более сокращенное число полос частот таким образом, чтобы кодировать информацию канального уровня и корреляции исходного сигнала по агрегированным полосам частот во вспомогательной информации.

Аудиокодер может выполнен с возможностью, в случае обнаружения переходной части в кадре, дополнительного агрегирования полос частот таким образом, что:

- число полос частот уменьшается; и/или

- ширина по меньшей мере одной полосы частот увеличивается посредством агрегирования с другой полосой частот.

Аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке битов по меньшей мере одной информации канального уровня и корреляции одной полосы частот в качестве приращения относительно ранее кодированной информации канальной уровня и корреляции.

Аудиокодер может быть выполнен с возможностью кодирования во вспомогательной информации потока битов неполной версии информации канального уровня и корреляции относительно информации канального уровня и корреляции, оцененной посредством модуля оценки.

Аудиокодер может быть выполнен с возможностью адаптивного выбора из всей информации канального уровня и корреляции, оцененной посредством модуля оценки, выбранной информации, которая должна кодироваться во вспомогательной информации потока битов, таким образом, что информация канального уровня и/или корреляции для оставшейся невыбранной информации, оцененная посредством модуля оценки, не кодируется.

Аудиокодер может быть выполнен с возможностью восстановления информации канального уровня и корреляции из выбранной информации канального уровня и корреляции, за счет этого моделируя оценку в декодере невыбранной информации канального уровня и корреляции, и вычисления информации об ошибках между:

- невыбранной информацией канального уровня и корреляции, оцененной посредством кодера; и

- невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере, некодированной информации канального уровня и корреляции; и

- таким образом, чтобы отличать на основании вычисленной информации об ошибках:

- восстанавливаемую надлежащим образом информацию канального уровня и корреляции;

- от невосстанавливаемой надлежащим образом информации канального уровня и корреляции,

- таким образом, чтобы принимать решение в отношении:

- выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации потока битов; и

- невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, в силу этого отказываясь от кодирования во вспомогательной информации потока битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.

Информация канального уровня и корреляции может индексироваться согласно заданному упорядочению, при этом кодер выполнен с возможностью передачи в служебных сигналах во вспомогательной информации потока битов индексов, ассоциированных с заданным упорядочением, причем индексы указывают, какая из информации канального уровня и корреляции кодируется. Индексы обеспечиваются через битовую карту. Индексы могут задаваться согласно комбинаторной системе счисления, ассоциирующей одномерный индекс с записями матрицы.

Аудиокодер может быть выполнен с возможностью выполнения выбора между:

- адаптивным обеспечением информации канального уровня и корреляции, в которой индексы, ассоциированные с заданным упорядочением, кодируются во вспомогательной информации потока битов; и

- фиксированным обеспечением информации канального уровня и корреляции таким образом, чтобы информация канального уровня и корреляции, которая кодируется, задавалась и упорядочивалась согласно заданному фиксированному упорядочению без обеспечения индексов.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации потока битов то, обеспечена ли информация канального уровня и корреляции согласно адаптивному обеспечению или согласно фиксированному обеспечению.

Аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке битов текущей информации канального уровня и корреляции в качестве приращения относительно предыдущей информации канального уровня и корреляции.

Аудиокодер может быть дополнительно выполнен с возможностью формирования сигнала понижающего микширования согласно статическому понижающему микшированию.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем способ содержит:

- прием сигнала понижающего микширования, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя:

- информация канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов;

- формирование сигнала синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала и ковариационной информации, ассоциированной с сигналом.

Способ может содержать:

- вычисление прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала и ковариационной информации, ассоциированной с сигналом понижающего микширования; и

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования.

В соответствии с аспектом, предусмотрен способ формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит:

- оценку информации канального уровня и корреляции исходного сигнала,

- кодирование сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, при этом сигнал понижающего микширования представляет собой микшированную с понижением версию исходного сигнала, имеющего некоторое число исходных каналов, при этом способ содержит следующие фазы:

- первую фазу, включающую в себя:

- синтез первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:

- ковариационной матрицы, ассоциированной с сигналом синтеза; и

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования.

- вторую фазу для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем вторая фаза включает в себя:

- этап обработки прототипных сигналов, сводящий с повышением сигнал понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;

- этап декорреляции, декоррелирующий микшированный с повышением прототипный сигнал;

- этап обработки вторых матриц микширования, синтезирующий второй компонент сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,

- при этом способ вычисляет вторую матрицу микширования из:

- остаточной ковариационной матрицы, обеспеченной посредством этапа обработки первых матриц микширования; и

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,

- при этом способ дополнительно содержит этап суммирования, суммирующий первый компонент сигнала синтеза со вторым компонентом сигнала синтеза, за счет этого получая сигнал синтеза.

В соответствии с аспектом, предусмотрено устройство синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем число каналов синтеза больше одного или больше двух, причем устройство синтеза аудиоданных содержит по меньшей мере одно из:

- входного интерфейса, выполненного с возможностью приема сигнала понижающего микширования, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя по меньшей мере одно из:

- информации канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем число исходных каналов больше одного или больше двух;

- такой части, как модуль вычисления прототипных сигналов (например, «вычисление прототипных сигналов»), выполненный с возможностью вычисления прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;

- такой части, как модуль вычисления правил микширования (например, «восстановление параметров»), выполненный с возможностью вычисления одного (или более) правил микширования (например, матрицы микширования) с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования; и

- такой части, как процессор синтеза, например, «механизм синтеза»), выполненный с возможностью формирования сигнала синтеза с использованием прототипного сигнала и правила микширования.

Число каналов синтеза может превышать число исходных каналов. В качестве альтернативы, число каналов синтеза может быть меньше числа исходных каналов.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции, адаптированной к числу каналов сигнала синтеза.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции на основе оцененной версии исходной информации канального уровня и корреляции.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью получения оцененной версии исходной информации канального уровня и корреляции из ковариационной информации, ассоциированной с сигналом понижающего микширования.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью получения оцененной версии исходной информации канального уровня и корреляции посредством применения к ковариационной информации, ассоциированной с сигналом понижающего микширования, правила оценки, ассоциированного с прототипным правилом, используемым модулем вычисления прототипных сигналов (например, «вычисление прототипных сигналов») для вычисления прототипного сигнала.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью извлечения из вспомогательной информации сигнала понижающего микширования:

- ковариационной информации, ассоциированной с сигналом понижающего микширования, описывающим уровень первых каналов или энергетическую взаимосвязь между парой каналов в сигнале понижающего микширования; и

- информации канального уровня и корреляции исходного сигнала, описывающего уровень первого канала или энергетическую взаимосвязь между парой каналов в исходном сигнале,

- таким образом, чтобы восстановить целевую версию исходной информации канального уровня и корреляции посредством использования по меньшей мере одного из:

- ковариационной информации исходного канала по меньшей мере для одного первого канала или пары каналов; и

- информации канального уровня и корреляции, описывающей по меньшей мере один второй канал или пару каналов.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью предпочтения информации канального уровня и корреляции, описывающей канал или пару каналов, а не ковариационной информации исходного канала для одного и того же канала или пары каналов.

Восстановленная целевая версия исходной информации канального уровня и корреляции, описывающей энергетическую взаимосвязь между парой каналов, основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.

Сигнал понижающего микширования может разделяться на полосы частот или группы полос частот: различная информация канального уровня и корреляции может быть ассоциирована с различными полосами частот или группами полос частот; синтезатор (модуль вычисления прототипных сигналов и, в частности, в некоторых аспектах по меньшей мере один из модуля вычисления правил микширования и процессора синтеза) работает по-разному для различных полос частот или групп полос частот, чтобы получать различные правила микширования для различных полос частот или групп полос частот.

Сигнал понижающего микширования может разделяться на интервалы, при этом различная информация канального уровня и корреляции ассоциирована с различными интервалами, и по меньшей мере один из компонента синтезатора (например, модуль вычисления прототипных сигналов, модуль вычисления правил микширования, процессор синтеза или другие элементы синтезатора) работает по-разному для различных интервалов, чтобы получать различные правила микширования для различных интервалов.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью выбора прототипного правила, выполненного с возможностью вычисления прототипного сигнала на основе числа каналов синтеза.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью выбора прототипного правила из множества предварительно сохраненных прототипных правил.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью определения прототипного правила на основе выбора вручную.

Синтезатор (например, модуль вычисления прототипных сигналов) может включать в себя матрицу с первой и второй размерностями, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.

Устройство синтеза аудиоданных (например, модуль вычисления прототипных сигналов) может быть выполнено с возможностью работы на скорости передачи битов, равной или меньшей, чем 64 Кбит/с или 160 Кбит/с.

Вспомогательная информация может включать в себя идентификационные данные исходных каналов (например, L, R, C и т.д.).

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью вычисления (например, «восстановление параметров») правила микширования (например, матрицы микширования) с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования, и идентификационных данных исходных каналов и идентификационных данных каналов синтеза.

Устройство синтеза аудиоданных может выбирать (например, посредством выбора, к примеру, выбора вручную либо посредством предварительного выбора, либо автоматически, например, посредством распознавания числа громкоговорителей), для сигнала синтеза, число каналов независимо по меньшей мере от одной из информации канального уровня и корреляции исходного сигнала во вспомогательной информации.

Устройство синтеза аудиоданных может выбирать различные прототипные правила для различных выборов в некоторых примерах. Модуль вычисления правил микширования может быть выполнен с возможностью вычисления правила микширования.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем число каналов синтеза больше одного или больше двух, при этом способ содержит:

- прием сигнала понижающего микширования, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя:

- информацию канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем число исходных каналов больше одного или больше двух;

- вычисление прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования; и

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования (например, правила).

В соответствии с аспектом, предусмотрен аудиокодер для формирования сигнала понижающего микширования из исходного сигнала (например, y), причем исходный сигнал имеет по меньшей мере два канала, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования, причем аудиокодер содержит по меньшей мере одно из:

- модуля оценки параметров, выполненного с возможностью оценки информации канального уровня и корреляции исходного сигнала,

- модуля записи потоков битов для кодирования сигнала понижающего микширования в поток битов таким образом, что сигнал понижающего микширования кодируется в потоке битов так образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет информацию канального уровня, ассоциированную не со всеми каналами исходного сигнала.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет информацию корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных каналов в исходном сигнале, но не со всеми каналами исходного сигнала.

Информация канального уровня и корреляции исходного сигнала может включать в себя по меньшей мере одно значение когерентности, описывающее когерентность между двумя каналами из пары каналов.

Информация канального уровня и корреляции исходного сигнала может включать в себя по меньшей мере одну межканальную разность уровней (ICLD) между двумя каналами из пары каналов.

Аудиокодер может быть выполнен с возможностью выбора, следует ли кодировать или не кодировать по меньшей мере часть информации канального уровня и корреляции исходного сигнала, на основе информации состояния, таким образом, чтобы включить во вспомогательную информацию увеличенный объем информации канального уровня и корреляции в случае сравнительно более низкой перегрузки.

Аудиокодер может быть выполнен с возможностью выбора того, следует ли решать, какая часть информацию канального уровня и корреляции исходного сигнала должна кодироваться во вспомогательной информации, на основе показателей по каналам, таким образом, чтобы включить информацию канального уровня и корреляции, ассоциированную с более чувствительными показателями (например, с показателями, которые ассоциированы с более перцепционно значимой ковариацией) во вспомогательную информацию.

Информация канального уровня и корреляции исходного сигнала может иметь форму матрицы.

Модуль записи потоков битов может быть выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.

В соответствии с аспектом, предусмотрен способ формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет по меньшей мере два канала, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования.

Способ может содержать:

- оценку информации канального уровня и корреляции исходного сигнала,

- кодирование сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.

Аудиокодер может быть агностическим относительно декодера. Устройство синтеза аудиоданных может быть агностическим относительно декодера.

В соответствии с аспектом, предусмотрена система, содержащая устройство синтеза аудиоданных, описанное выше или ниже, и аудиокодер, описанный выше или ниже.

В соответствии с аспектом, предусмотрен постоянный блок хранения, сохраняющий инструкции, которые при выполнении процессором предписывают процессору осуществлять способ, описанный выше или ниже.

3. Примеры

3.1. Краткое описание чертежей

Фиг. 1 показывает упрощенное общее представление обработки согласно изобретению.

Фиг. 2a показывает аудиокодер согласно изобретению.

Фиг. 2b показывает другой вид аудиокодера согласно изобретению.

Фиг. 2c показывает другой вид аудиокодера согласно изобретению.

Фиг. 2d показывает другой вид аудиокодера согласно изобретению.

Фиг. 3a показывает устройство синтеза аудиоданных (декодер) согласно изобретению.

Фиг. 3b показывает другой вид устройства синтеза аудиоданных (декодера) согласно изобретению.

Фиг. 3c показывает другой вид устройства синтеза аудиоданных (декодера) согласно изобретению.

Фиг. 4a-4d показывают примеры ковариационного синтеза.

Фиг. 5 показывает пример гребенки фильтров для аудиокодера согласно изобретению.

Фиг. 6a-6c показывают примеры работы аудиокодера согласно изобретению.

Фиг. 7 показывает пример уровня техники.

Фиг. 8a-8c показывают примеры того, каким образом получается ковариационная информация согласно изобретению.

Фиг. 9a-9d показывают примеры матриц межканальной когерентности.

Фиг. 10a-10b показывают примеры кадров.

Фиг. 11 показывает схему, используемую посредством декодера для получения матрицы микширования.

3.2. Осуществление изобретения

Показано, что примеры основаны на кодере, сводящем с понижением сигнал 212 и передающем информацию 220 канального уровня и корреляции в декодер. Декодер может формировать правило микширования (например, матрицу микширования) из информации 220 канального уровня и корреляции. Информация, которая является важной для формирования правила микширования, может включать в себя ковариационную информацию (например, ковариационную матрицу Cy) исходного сигнала 212 и ковариационную информацию (например, ковариационную матрицу Cx) сигнала понижающего микширования. Хотя ковариационная матрица Cx может непосредственно оцениваться посредством декодера посредством анализа сигнала понижающего микширования, ковариационная матрица Cy исходного сигнала 212 легко оценивается посредством декодера. Ковариационная матрица Cy исходного сигнала 212, в общем, представляет собой симметричную матрицу (например, матрицу 5×5 в случае 5-канального исходного сигнала 212): в то время, когда матрица представляет, на диагонали, уровень каждого канала, она представляет ковариации между каналами в недиагональных записях. Матрица является диагональной, поскольку ковариация между общими каналами i и j является одинаковой с ковариацией между j и i. Следовательно, для передачи в декодер целой ковариационной информации необходимо передавать в служебных сигналах в декодер 5 уровней в диагональных записях и 10 ковариаций для недиагональных записей. Тем не менее, показано, что можно уменьшать объем информации, которая должна кодироваться.

Кроме того, показано, что в некоторых случаях, вместо уровней и ковариаций, могут обеспечиваться нормализованные значения. Например, могут обеспечиваться межканальные когерентности (ICC, также указываемые с помощью ξi, j) и межканальные разности уровней (ICLD, также указываемые с помощью Xi), указывающие значения энергии. ICC, например, могут представлять собой корреляционные значения, обеспеченные вместо ковариаций для недиагональных записей матрицы Cy. Пример информации корреляции может иметь форму . В некоторых примерах, только часть ξi, j фактически кодируется.

Таким образом формируется матрица ICC. Диагональные записи матрицы ICC в принципе должны одинаково составлять 1, и в силу этого не обязательно кодировать их в потоке битов. Тем не менее, следует понимать, что кодер может передавать в декодер ICLD, например, в форме (см. также ниже). В некоторых примерах, все Xi фактически кодируются.

Фиг. 9a-9d показывают примеры матрицы 900 ICC, с диагональными значениями "d", которые могут представлять собой ICLD Xi, и недиагональными значениями, указываемыми 902, 904, 905, 906, 907 (см. ниже), которые могут представлять собой ICC ξi, j.

В настоящем документе, произведение между матрицами указывается посредством отсутствия символа. Например, произведение между матрицей A и матрицей B указывается посредством AB. Сопряженное транспонирование матрицы указывается с помощью звездочки (*).

При обращении к диагонали, она служит в качестве главной диагонали.

3.3. Настоящее изобретение

Фиг. 1 показывает аудиосистему 100 со стороной кодера и стороной декодера. Сторона кодера может осуществляться посредством кодера 200 и может получать аудиосигнал 212, например, из модуля аудиодатчика (например, микрофонов), либо может получаться из модуля хранения или из удаленного модуля (например, через радиопередачу). Сторона декодера может осуществляться посредством аудиодекодера 300 (устройства синтеза аудиоданных), который может передавать аудиосодержимое в модуль воспроизведения аудио (например, громкоговорители). Кодер 200 и декодер 300 могут обмениваться данными между собой, например, через канал связи, который может быть проводным или беспроводным (например, через радиочастотные волны, свет или ультразвук и т.д.). Кодер и/или декодер в силу этого могут включать в себя или соединяться с модулями связи (например, антеннами, приемо-передающими устройствами и т.д.) для передачи кодированного потока 248 битов из кодера 200 в декодер 300. В некоторых случаях, кодер 200 может сохранять кодированный поток 248 битов в модуле хранения (например, в оперативном запоминающем устройстве, во флэш-памяти и т.д.), для будущего использования. Аналогично, декодер 300 может считывать поток 248 битов, сохраненный в модуле хранения. В некоторых примерах, кодер 200 и декодер 300 могут представлять собой одно и то же устройство: после кодирования и сохранения потока 248 битов, устройство, возможно, должно считывать его для воспроизведения аудиосодержимого.

Фиг. 2a, 2b, 2c и 2d показывают примеры кодеров 200. В некоторых примерах, кодеры по фиг. 2a и 2b и 2c и 2d могут быть одинаковыми и отличаться друг от друга только вследствие отсутствия некоторых элементов на одном и/или на другом чертеже.

Аудиокодер 200 может быть выполнен с возможностью формирования сигнала 246 понижающего микширования из исходного сигнала 212 (причем исходный сигнал 212 имеет по меньшей мере два (например, три или более) канала, и сигнал 246 понижающего микширования имеет по меньшей мере один канал понижающего микширования).

Аудиокодер 200 может содержать модуль 218 оценки параметров, выполненный с возможностью оценки информации 220 канального уровня и корреляции исходного сигнала 212. Аудиокодер 200 может содержать модуль 226 записи потоков битов для кодирования сигнала 246 понижающего микширования в поток 248 битов. Сигнал 246 понижающего микширования в силу этого кодируется в потоке 248 битов таким образом, что он имеет вспомогательную информацию 228, включающую в себя информацию канального уровня и корреляции исходного сигнала 212.

В частности, входной сигнал 212 может пониматься, в некоторых примерах, в качестве аудиосигнала временной области, такого как, например, временная последовательность аудиовыборок. Исходный сигнал 212 имеет по меньшей мере два канала, которые, например, могут соответствовать различным микрофонам (например, для положения в стереофонических аудиоданных или, как бы то ни было, положения в многоканальных аудиоданных) либо, например, соответствовать различным положениям громкоговорителей модуля воспроизведения аудио. Входной сигнал 212 может сводиться с понижением в блоке 244 вычисления понижающего микшера, чтобы получать микшированную с понижением версию 246 (также указываемую в качестве x) исходного сигнала 212. Эта микшированная с понижением версия исходного сигнала 212 также называется «сигналом 246 понижающего микширования». Сигнал 246 понижающего микширования имеет по меньшей мере один канал понижающего микширования. Сигнал 246 понижающего микширования имеет меньше каналов, чем исходный сигнал 212. Сигнал 212 понижающего микширования может находиться во временной области.

Сигнал 246 понижающего микширования кодируется в потоке 248 битов посредством модуля 226 записи потоков битов (например, включающего в себя энтропийный кодер или мультиплексор, или базовый кодер) для потока битов, который должен сохраняться или передаваться в приемное устройство (например, ассоциирован со стороной декодера). Кодер 200 может включать в себя модуль 218 оценки параметров (или блок оценки параметров). Модуль 218 оценки параметров может оценивать информацию 220 канального уровня и корреляции, ассоциированную с исходным сигналом 212. Информация 220 канального уровня и корреляции может кодироваться в потоке 248 битов в качестве вспомогательной информации 228. В примерах, информация 220 канального уровня и корреляции кодируется посредством модуля 226 записи потоков битов. В примерах, даже если на фиг. 2b не показан модуль 226 записи потоков битов ниже относительно блока 235 вычисления для понижающего микширования, несмотря на это, модуль 226 записи потоков битов может иметься. На фиг. 2c, показано, что модуль 226 записи потоков битов может включать в себя базовый кодер 247, чтобы кодировать сигнал 246 понижающего микширования, с тем чтобы получать кодированную версию сигнала 246 понижающего микширования. Фиг. 2c также показывает то, что модуль 226 записи потоков битов может включать в себя мультиплексор 249, который кодирует в потоке битов 228 как кодированный сигнал 246 понижающего микширования, так и информацию 220 канального уровня и корреляции (например, в качестве кодированных параметров) во вспомогательной информации 228.

Как показано посредством фиг. 2b (но не приводится на фиг. 2a и 2c), исходный сигнал 212 может обрабатываться (например, посредством гребенки 214 фильтров, см. ниже), чтобы получать версию 216 в частотной области исходного сигнала 212.

На фиг. 6c показывается пример оценки параметров, в котором модуль 218 оценки параметров задает параметры ξi,j и Xi (например, нормализованные параметры), которые должны в дальнейшем кодироваться в потоке битов. Модули 502 и 504 оценки ковариации оценивают ковариацию Cx и Cy, соответственно, для сигнала 246 понижающего микширования, который должен кодироваться, и входного сигнала 212. Затем в блоке 506 ICLD параметры Xi ICLD вычисляются и передаются в модуль 246 записи потоков битов. В блоке 510 преобразования ковариаций в когерентности, получаются ICC ξi,j (412). В блоке 250, только некоторые ICC выбираются для кодирования.

Блок 222 квантования параметров (фиг. 2b) может разрешать получение информации 220 канального уровня и корреляции в квантованной версии 224.

Информация 220 канального уровня и корреляции исходного сигнала 212 может в общем включать в себя информацию относительно энергии (или уровня) канала исходного сигнала 212. Помимо этого или в альтернативе, информация 220 канального уровня и корреляции исходного сигнала 212 может включать в себя информацию корреляции между парами каналов, к примеру, корреляцию между двумя различными каналами. Информация канального уровня и корреляции может включать в себя информацию, ассоциированную с ковариационной матрицей Cy (например, в нормализованной форме, такой как корреляция или ICC), в которой каждый столбец и каждая строка ассоциированы с конкретным каналом исходного сигнала 212, и в которой канальные уровни описаны посредством диагональных элементов матрицы Cy и информации корреляции, и информация корреляции описана посредством недиагональных элементов матрицы Cy. Матрица Cy может быть такой, что она представляет собой симметричную матрицу (т.е. она равна своему транспонированию) или эрмитову матрицу (т.е. она равна своему сопряженному транспонированию). Cy, в общем, является положительной полуопределенной. В некоторых примерах, корреляция может заменяться посредством ковариации (и информация корреляции заменяется посредством ковариационной информации). Следует понимать, что можно кодировать, во вспомогательной информации 228 потока 248 битов, информацию, ассоциированную не со всеми каналами исходного сигнала 212. Например, не обязательно обеспечивать эту информацию канального уровня и корреляции относительно всех каналов или всех пар каналов. Например, только сокращенный набор информации относительно корреляции между парами каналов сигнала 212 понижающего микширования может кодироваться в потоке 248 битов, в то время как оставшаяся информация может оцениваться на стороне декодера. В общем, можно кодировать меньше элементов, чем диагональных элементов Cy, и можно кодировать меньше элементов, чем элементов за пределами диагонали Cy.

Например, информация канального уровня и корреляции может включать в себя записи ковариационной матрицы Cy исходного сигнала 212 (информацию 220 канального уровня и корреляции исходного сигнала) и/или ковариационной матрицы Cx сигнала 246 понижающего микширования (ковариационную информацию сигнала понижающего микширования), например, в нормализованной форме. Например, ковариационная матрица может ассоциировать каждую линию и каждый столбец с каждым каналом, с тем чтобы выражать ковариации между различными каналами и, на диагонали матрицы, уровнем каждого канала. В некоторых примерах, информация 220 канального уровня и корреляции исходного сигнала 212, кодированная во вспомогательной информации 228, может включать в себя только информацию канального уровня (например, только диагональные значения корреляционной матрицы Cy) или только информацию корреляции (например, только значения за пределами диагонали корреляционной матрицы Cy). То же применимо к ковариационной информации сигнала понижающего микширования.

Как показано далее, информация 220 канального уровня и корреляции может включать в себя по меньшей мере одно значение (ξi,j) когерентности, описывающее когерентность между двумя каналами i и j из пары каналов i, j. Помимо этого или в качестве альтернативы, информация 220 канального уровня и корреляции может включать в себя по меньшей мере одну межканальную разность (Xi) уровней (ICLD). В частности, можно задавать матрицу, имеющую значения ICLD или значения межканальной когерентности (ICC). Следовательно, вышеприведенные примеры относительно передачи элементов матриц Cy и Cx могут обобщаться для других значений, которые должны кодироваться (например, передаваться) для осуществления информации 220 канального уровня и корреляции и/или информации когерентности канала понижающего микширования.

Входной сигнал 212 может подразделяться на множество кадров. Различные кадры могут иметь, например, одинаковую продолжительность (например, каждый из них может состоять, в течение времени, истекшего для одного кадра, из одинакового числа выборок во временной области). Различные кадры в силу этого имеют, в общем, равные продолжительности. В потоке 248 битов сигнал 246 понижающего микширования (который может представлять собой сигнал временной области) может кодироваться покадрово (либо в любом случае, его подразделение на кадры может определяться посредством декодера). Информация 220 канального уровня и корреляции, кодированная в качестве вспомогательной информации 228 в потоке 248 битов, может быть ассоциирована с каждым кадром (например, параметры информации 220 канального уровня и корреляции могут быть предусмотрены для каждого кадра или для множества последовательных кадров). Соответственно, для каждого кадра сигнала 246 понижающего микширования, ассоциированная вспомогательная информация 228 (например, параметры) может кодироваться во вспомогательной информации 228 потока 248 битов. В некоторых случаях, множество последовательных кадров могут быть ассоциированы с одной и той же информацией 220 канального уровня и корреляции (например, с одинаковыми параметрами) относительного информации (параметров), кодированной во вспомогательной информации 228 потока 248 битов. Соответственно, один параметр может в результате должен быть совместно ассоциирован с множеством последовательных кадров. Это может происходить, в некоторых примерах, когда два последовательных кадра имеют аналогичные свойства, либо когда скорость передачи битов должна снижаться (например, вследствие необходимости уменьшения рабочих данных). Например:

- в случае большого объема рабочих данных, число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, увеличивается, с тем чтобы уменьшать число битов, записанных в поток битов;

- в случае меньшего объема рабочих данных число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, уменьшается, с тем чтобы увеличивать качество микширования.

В других случаях, когда скорость передачи битов снижается, число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, увеличивается, с тем чтобы уменьшать число битов, записанных в поток битов, и наоборот.

В некоторых случаях, можно сглаживать параметры (либо восстановленные или оцененные значения, такие как ковариации) с использованием линейного комбинирования с параметрами (либо восстановленными или оцененными значениями, такими как ковариации), предшествующими текущему кадру, например, посредством суммирования, среднего и т.д.

В некоторых примерах, кадр может разделяться между множеством последующих интервалов. Фиг. 10a показывает кадр 920 (подразделяемый на четыре последовательных интервала 921-924), и фиг. 10b показывает кадр 930 (подразделяемый на четыре последовательных интервала 931-934). Продолжительность различных интервалов может быть одинаковой. Если длина кадра имеет размер интервала в 1,25 мс и в 20 мс, предусмотрено 16 интервалов в одном кадре (20/1,25=16).

Подразделение интервалов может выполняться в гребенках фильтров (например, 214), поясненных ниже.

В примере, гребенка фильтров представляет собой комплексно-модулированную гребенку фильтров с низкой задержкой (CLDFB), размер кадра составляет 20 мс, а размер интервала составляет 1,25 мс, что приводит к 16 интервалам гребенки фильтров в расчете на кадр и к числу полос частот для каждого интервала, которое зависит от входной частоты дискретизации, и при этом полосы частот имеют ширину 400 Гц. Таким образом, например, для входной частоты дискретизации 48 кГц, длина кадра в выборках составляет 960, длина интервала составляет 60 выборок, и число выборок гребенки фильтров в расчете на интервал также составляет 60.

Частота дискретизации/
кГц
Длина кадра/выборки Длина интервала/выборки Число полос частот гребенки фильтров
48 960 60 60 32 640 40 40 16 320 20 20 8 160 10 10

Даже если каждый кадр (и также каждый интервал) может кодироваться во временной области, анализ по полосам частот может выполняться. В примерах, множество полос частот анализируются для каждого кадра (или интервала). Например, гребенка фильтров может применяться к временному сигналу, и результирующие подполосные сигналы могут анализироваться. В некоторых примерах, информация 220 канального уровня и корреляции также обеспечивается по полосам частот. Например, для каждой полосы частот входного сигнала 212 или сигнала 246 понижающего микширования, может обеспечиваться ассоциированная информация 220 канального уровня и корреляции (например, Cy или матрица ICC). В некоторых примерах, число полос частот может модифицироваться на основе свойств сигнала и/или запрашиваемой скорости передачи битов или измерений для текущих рабочих данных. В некоторых примерах, чем больше интервалов, которые требуются, тем меньше полос частот используется для поддержки аналогичной скорости передачи битов.

Поскольку размер интервала меньше размера кадра (по продолжительности), интервалы могут быть подходяще использоваться в случае переходной части в исходном сигнале 212, обнаруженной в кадре: кодер (и, в частности, гребенка 214 фильтров) может распознавать наличие переходной части, передавать в служебных сигналах ее наличие в потоке битов и указывать во вспомогательной информации 228 потока 248 битов, в каком интервале кадра имеется переходная часть. Кроме того, параметры информации 220 канального уровня и корреляции, кодированной во вспомогательной информации 228 потока 248 битов, соответственно, могут быть ассоциированы только с интервалами после переходной части и/или интервалом, в котором имеется переходная часть. Декодер в силу этого должен определять наличие переходной части и должен ассоциировать информацию 220 канального уровня и корреляции только с интервалами после переходной части и/или с интервалом, в котором имеется переходная часть (для интервалов, предшествующих переходной части, декодер использует информацию 220 канального уровня и корреляции для предыдущего кадра). На фиг. 10a, переходная часть не имеется, и параметры 220, кодированные во вспомогательной информации 228, в силу этого могут пониматься как ассоциированные со всем кадром 920. На фиг. 10b, переходная часть имеется во интервале 932: в силу этого параметры 220, кодированные во вспомогательной информации 228, должны означать интервалы 932, 933 и 934, в то время как параметры, ассоциированные с интервалом 931, предположительно должны быть одинаковыми для кадра, который предшествует кадру 930.

С учетом вышеизложенного, для каждого кадра (или интервала) и для каждой полосы частот, конкретная информация 220 канального уровня и корреляции, связанная с исходным сигналом 212, может задаваться. Например, элементы ковариационной матрицы Cy (например, ковариации и/или уровни) могут оцениваться для каждой полосы частот.

Если происходит обнаружение переходной части, в то время как множество кадров вместе ассоциированы с одним и тем же параметром, после этого можно сократить число кадров, вместе ассоциированных с одним и тем же параметром, таким образом, чтобы повысить качество микширования.

Фиг. 10a показывает кадр 920 (называемый здесь «нормальным кадром»), для которого, в исходном сигнале 212, восемь полос частот задаются (восемь полос 1...8 частот показаны в ординате, в то время как интервалы 921-924 показаны в абсциссе). Параметры информации 220 канального уровня и корреляции могут в теории кодироваться во вспомогательной информации 228 потока 248 битов, по полосам частот (например, должна быть предусмотрена одна ковариационная матрица для каждой исходной полосы частот). Тем не менее, чтобы уменьшать объем вспомогательной информации 228, кодер может агрегировать множество исходных полос частот (например, последовательных полос частот), чтобы получать по меньшей мере одну агрегированную полосу частот, сформированную посредством множества исходных полос частот. Например, на фиг. 10a группируются восемь исходных полос частот для получения четырех агрегированных полос частот (агрегированной полосы 1 частот, ассоциированной с исходной полосой 1 частот; агрегированной полосы 2 частот, ассоциированной с исходной полосой 2 частот; агрегированной полосы 3 частот, группирующей исходные полосы 3 и 5 частот; агрегированной полосы 3 частот, группирующей исходные полосы 5...8 частот). Матрицы ковариации, корреляции, ICC и т.д. могут быть ассоциированы с каждой из агрегированных полос частот. В некоторых примерах, то, что кодируется во вспомогательной информации 228 потока 248 битов, представлять собой параметры, полученные из суммы (либо среднего либо другого линейного комбинирования) параметров, ассоциированных с каждой агрегированной полосой частот. Следовательно, размер вспомогательной информации 228 потока 248 битов дополнительно уменьшается. Ниже по тексту, "агрегированная полоса частот" также называется "полосой частот параметров", поскольку она означает эти полосы частот, используемые для определения параметров 220.

Фиг. 10b показывает кадр 931 (подразделяемый на четыре последовательных интервала 931-934 или в другом целом числе), в котором имеется переходная часть. Здесь, переходная часть имеется во втором интервале 932 (в «переходном интервале»). В этом случае, декодер может определять в качестве ориентира параметры информации 220 канального уровня и корреляции только для переходного интервала 932 и/или для последующих интервалов 933 и 934. Информация 220 канального уровня и корреляции предыдущего интервала 931 не предусмотрены: следует понимать, что информация канального уровня и корреляции интервала 931 в принципе, в частности, должна отличаться от информации канального уровня и корреляции интервалов, но, вероятно, должна быть в большей степени аналогичной информации канального уровня и корреляции кадра, предшествующего кадру 930. Соответственно, декодер должен применять информацию канального уровня и корреляции кадра, предшествующего кадру 930, к интервалу 931, а информацию канального уровня и корреляции кадра 930 только к интервалам 932, 933 и 934.

Поскольку наличие и положение интервалов 931 с переходной частью могут передаваться в служебных сигналах (например, на 261, как показано далее) во вспомогательной информации 228 потока 248 битов, разработана технология для исключения или уменьшения увеличения размера вспомогательной информации 228: группировки между агрегированными полосами частот могут изменяться: например, агрегированная полоса 1 частот теперь группирует исходные полосы 1 частот и 2, причем агрегированная полоса 2 частот группирует исходные полосы 3...8 частот. Следовательно, число полос частот дополнительно уменьшается относительно случая по фиг. 10a, и параметры должны быть обеспечены только для двух агрегированных полос частот.

Фиг. 6a показывает, что блок 218 оценки параметров (модуль оценки параметров) допускает извлечение некоторого числа информации 220 канального уровня и корреляции.

Фиг. 6a показывает, что модуль 218 оценки параметров допускает извлечение некоторого числа параметров (информации 220 канального уровня и корреляции), которые могут представлять собой ICC матрицы 900 по фиг. 9a-9d.

При этом, только часть оцененных параметров фактически отправляется в модуль 226 записи потоков битов, чтобы кодировать вспомогательную информацию 228. Это обусловлено тем, что кодер 200 может быть выполнен с возможностью выбора (в блоке 250 определения, не показанном на фиг. 1-5), следует ли кодировать или не кодировать по меньшей мере часть информации 220 канального уровня и корреляции исходного сигнала 212.

Это проиллюстрировано на фиг. 6a в качестве множества переключателей 254s, которые управляются посредством выбора 254 (команды) из блока 250 определения. Если каждый из выходных сигналов 220 блока 218 оценки параметров представляет собой ICC матрицы 900 по фиг. 9c, не все параметры, оцененные посредством блока 218 оценки параметров, фактически кодируются во вспомогательной информации 228 потока 248 битов: в частности, в то время как записи 908 (ICC между каналами: R и L; C и L; C и R; RS и CS) фактически кодируются, записи 907 не кодируются (т.е. блок 250 определения, который может быть одинаковым с блоком по фиг. 6c, может считаться имеющим открытые переключатели 254s для некодированных записей 907, но закрытые переключатели 254s для записей 908, которые должны кодироваться во вспомогательной информации 228 потока 248 битов). Следует отметить, что информация 254' относительно того, какие параметры выбраны для кодирования (записи 908), может кодироваться (например, в качестве битовой карты или другой информации относительно того, какие записи 908 кодируются). На практике, информация 254' (которая, например, может представлять собой карту ICC) может включать в себя индексы (схематично проиллюстрированные на фиг. 9d) кодированных записей 908. Информация 254' может иметь форму битовой карты: например, информация 254' может состоять из поля фиксированной длины, причем каждое положение ассоциировано с индексом согласно заданному упорядочению, причем значение каждого бита обеспечивает информацию относительно того, обеспечивается ли фактически параметр, ассоциированный с этим индексом.

В общем, блок 250 определения может выбирать то, следует кодировать или не кодировать по меньшей мере часть информации 220 канального уровня и корреляции (т.е. определять, должна ли кодироваться запись матрицы 900), например, на основе информации 252 состояния. Информация 252 состояния может быть основана на состоянии рабочих данных: например, в случае высокой нагрузки по передаче, можно уменьшать объем вспомогательной информации 228, которая должна кодироваться в потоке 248 битов. Например, и обращаясь к Фиг. 9c:

- в случае большого объема рабочих данных, число записей 908 матрицы 900, которые фактически записываются во вспомогательную информацию 228 потока 248 битов, уменьшается;

- в случае меньшего объема рабочих данных, число записей 908 матрицы 900, которые фактически записываются во вспомогательную информацию 228 потока 248 битов, уменьшается.

В качестве альтернативы или дополнения, могут оцениваться показатели 252 для определения того, какие параметры 220 должны кодироваться во вспомогательной информации 228 (например, того, какие записи матрицы 900 предназначены быть кодированными записями 908, а какие записи должны отброшены). В этом случае, можно кодировать в потоке битов только параметры 220 (ассоциированные с более чувствительными показателями, например, показатели, которые ассоциированы с более перцепционно значимой ковариацией, могут быть ассоциированы с записями, которые должны выбираться в качестве кодированных записей 908).

Следует отметить, что этот процесс может повторяться для каждого кадра (или для множества кадров, в случае понижающей дискретизации) и для каждой полосы частот.

Соответственно, блок 250 определения также может управляться, в дополнение к показателям состояния и т.д., посредством модуля 218 оценки параметров, через команду 251 на фиг. 6a.

В некоторых примерах (например, фиг. 6b), аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке 248 битов текущей информации 220t канального уровня и корреляции в качестве приращения 220k относительно предыдущей информации 220(t-1) канального уровня и корреляции. То, что кодируется посредством этого модуля 226 записи потоков битов во вспомогательной информации 228, может представлять собой приращение 220k, ассоциированное с текущим кадром (или интервалом) относительно предыдущего кадра. Это показывается на фиг. 6b. Текущая информация 220t канального уровня и корреляции передаётся в элемент 270 хранения данных таки образом, что элемент 270 хранения данных сохраняет значение текущей информации 220t канального уровня и корреляции для последующего кадра. Между тем, текущая информация 220t канального уровня и корреляции может сравниваться с ранее полученной информацией 220(t-1) канального уровня и корреляции. (Это показано на фиг. 6b в качестве вычитателя 273). Соответственно, результат 220Δ вычитания может получаться посредством вычитателя 273. Разность 220Δ может использоваться в модуле 220s масштабирования для получения относительного приращения 220k между предыдущей информацией 220(t-1) канального уровня и корреляции и текущей информацией 220t канального уровня и корреляции. Например, если настоящая информация 220t канального уровня и корреляции на 10% больше предыдущей информации 220(t-1) канального уровня и корреляции, то приращение 220, кодированное во вспомогательной информации 228 посредством модуля 226 записи потоков битов, должно указывать информацию приращения в 10%. В некоторых примерах, вместо обеспечения относительного приращения 220k, может кодироваться только разность 220Δ.

Вариант выбора параметров, которые должны фактически кодироваться, из параметров, таких как ICC и ICLD, как пояснено выше и ниже, может быть адаптирован к конкретной ситуации. Например, в некоторых примерах:

- для одного первого кадра, только ICC 908 по фиг. 9c выбираются для кодирования во вспомогательной информации 228 потока 248 битов, в то время как ICC 907 не кодируются во вспомогательной информации 228 потока 248 битов;

- для второго кадра, различные ICC выбираются для кодирования, в то время как различные невыбранные ICC не кодируются.

То же самое может быть допустимым для интервалов и полос частот (и для различных параметров, таких как ICLD). Следовательно, кодер (и, в частности, блок 250) может определять то, какой параметр должен кодироваться, а какой не должен кодироваться, за счет этого адаптируя выбор параметров, которые должны кодироваться, к конкретной ситуации (например, состоянию, выбору и т.д.). "Признак важности" в силу этого может анализироваться, с тем чтобы выбирать то, какой параметр следует кодировать, а какой можно не кодировать. Признак важности может представлять собой показатели, ассоциированные, например, с результатами, полученными при моделировании операций, выполняемых посредством декодера. Например, кодер может моделировать восстановление посредством декодера некодированных параметров 907 ковариации, и признак важности может представлять собой показатели, указывающие абсолютную ошибку между некодированными параметрами 907 ковариации и параметрами, которые являются одинаковыми с параметрами, предположительно восстановленными посредством декодера. Посредством измерения ошибок в различных сценариях моделирования (например, при этом каждый сценарий моделирования ассоциирован с передачей некоторых кодированных параметров 908 ковариации и измерением ошибок, затрагивающих восстановление некодированных параметров 907 ковариации), можно определять сценарий моделирования, который меньше всего затрагивается посредством ошибок (например, сценарий моделирования, для которого показатели относительно всех ошибок в восстановлении), с тем чтобы отличать параметры 908 ковариации, которые должны кодироваться, от параметров 907 ковариации, которые не должны кодироваться, на основе наименее затрагиваемого сценария моделирования. В наименее затрагиваемом сценарии, невыбранные параметры 907 представляют собой параметры, которые являются наиболее легко восстанавливаемыми, и выбранные параметры 908 тенденциозно представляют собой параметры, для которых показатели, ассоциированные с ошибкой, должны быть самыми большими.

То же может выполняться, вместо моделирования параметров, таких как ICC и ICLD, посредством моделирования восстановления или оценки, посредством декодера, ковариации либо посредством моделирования свойств микширования или результатов микширования. В частности, моделирование может выполняться для каждого кадра или для каждого интервала и может осуществляться для каждой полосы частот или агрегированной полосы частот.

Пример может представлять собой моделирование восстановления ковариации с использованием уравнения (4) или (6) (см. ниже), начиная с параметров, кодированных во вспомогательной информации 228 потока 248 битов.

Если обобщать, можно восстанавливать информацию канального уровня и корреляции из выбранной информации канального уровня и корреляции, за счет этого моделируя оценку, в декодере (300), невыбранной информации (220, Cy) канального уровня и корреляции, и вычислять информацию об ошибках между:

- невыбранной информацией (220) канального уровня и корреляции, оцененной посредством кодера; и

- невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере (300), некодированной информации (220) канального уровня и корреляции; и

- с тем чтобы отличать, на основе вычисленной информации об ошибках:

- восстанавливаемую надлежащим образом информацию канального уровня и корреляции; от

- невосстанавливаемой надлежащим образом информации канального уровня и корреляции,

- с тем чтобы принимать решение на предмет:

- выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации (228) потока (248) битов; и

- невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, в силу этого отказываясь от кодирования во вспомогательной информации (228) потока (248) битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.

В общих чертах, кодер может моделировать любую операцию декодера и оценивать показатели ошибки из результатов моделирования.

В некоторых примерах, признак важности может отличаться (или содержать другие отличающиеся показатели) от оценки показателей, ассоциированных с ошибками. В некотором случае, признак важности может быть ассоциирован с выбором вручную или на основе важности на основе психоакустических критериев. Например, наиболее важные пары каналов могут выбираться для кодирования (908), даже без моделирования.

Далее приведено некоторое дополнительное пояснение для разъяснения того, каким образом кодер может передавать в служебных сигналах то, какие параметры 908 фактически кодируются во вспомогательной информации 220 потока 248 битов.

Обращаясь к фиг. 9d, параметры по диагонали матрицы 900 ICC ассоциированы с упорядоченными индексами 1...10 (причем порядок предварительно определяется и известен посредством декодера). На фиг. 9c показано, что выбранные параметры 908, которые должны кодироваться, представляют собой ICC для пар L-R, L-C, R-C, LS-RS, которые индексируются посредством индексов 1, 2, 5, 10, соответственно. Соответственно, во вспомогательной информации 228 потока 248 битов, также предусмотрен индикатор индексов 1, 2, 5, 10 (например, в информации 254' по фиг. 6a). Соответственно, декодер должен понимать, что четыре ICC, предусмотренные во вспомогательной информации 228 потока 248 битов, представляют собой L-R, L-C, R-C, LS-RS, на основе информации относительно индексов 1, 2, 5, 10, также обеспеченной кодером, во вспомогательной информации 228. Индексы могут передаваться, например, через битовую карту, которая ассоциирует положение каждого бита в битовой карте с заданной. Например, для передачи в служебных сигналах индексов 1, 2, 5, 10, можно записать «1100100001» (в поле 254' вспомогательной информации 228), поскольку первый, второй, пятый и десятый биты означают индексы 1, 2, 5, 10 (в распоряжении специалистов в данной области техники другие варианты имеются). Он представляет собой так называемый «одномерный индекс», но другие стратегии индексации являются возможными. Например, комбинаторная технология счисления, согласно которой кодируется число N (в поле 254' вспомогательной информации 228), которое однозначно ассоциируется с конкретной парой каналов (см. также https://en.wikipedia.org/wiki/Combinatorial_number_system). Битовая карта также может называться «картой ICC», когда она относится к ICC.

Следует отметить, что в некоторых случаях используется неадаптивное (фиксированное) обеспечение параметров. Это означает, что в примере по фиг. 6a, вариант 254 выбора из параметров, которые должны кодироваться, является фиксированным, и нет необходимости для указания выбранных параметров в поле 254'. Фиг. 9b показывает пример фиксированного обеспечения параметров: выбранные ICC представляют собой L-C, L-LS, R-C, CRS, и нет необходимости передачи в служебных сигналах их индексов, поскольку декодер уже знает то, какие ICC кодируются во вспомогательной информации 228 потока 248 битов.

Тем не менее, в некоторых случаях кодер может выполнять выбор между фиксированным обеспечением параметров и адаптивным обеспечением параметров. Кодер может передавать в служебных сигналах вариант выбора во вспомогательной информации 228 потока 248 битов, так что декодер может знать то, какие параметры фактически кодируются.

В некоторых случаях по меньшей мере некоторые параметры могут обеспечиваться без адаптации. Например:

- ICDL могут кодироваться в любом случае, без необходимости указания их в битовой карте; и

- ICC могут подвергаться адаптивному обеспечению.

Пояснения связаны с каждым кадром или интервалом, или полосой частот. Для последующего кадра или интервала, или полосы частот, различные параметры 908 должны передаваться в декодер, различные индексы ассоциированы с последующим кадром или интервалом, или полосой частот; и могут выполняться различные выборы (например, фиксированные по сравнению с адаптивными). Фиг. 5 показывает пример гребенки 214 фильтров кодера 200, которая может использоваться для обработки исходного сигнала 212, чтобы получать сигнал 216 частотной области. Как видно из фиг. 5, сигнал 212 временной области (TD) может анализироваться посредством блока 258 анализа переходных процессов (детектора переходных частей). Кроме того, преобразование в версию 264 в частотной области (FD) входного сигнала 212, во множестве полос частот, обеспечивается посредством фильтра 263 (который может реализовывать, например, фильтр Фурье, короткий фильтр Фурье, квадратурное зеркало и т.д.). Версия 264 в частотной области входного сигнала 212 может анализироваться, например, в блоке 267 анализа полос частот, который может определять (согласно команде 268) конкретную группировку полос частот, которая должна выполняться в блоке 265 группировки сегментов. После этого, сигнал 216 FD должен представлять собой сигнал в сокращенном числе агрегированных полос частот. Агрегирование полос частот пояснено выше относительно фиг. 10a и 10b. Блок 267 группировки сегментов также может преобразовываться и согласовываться посредством анализа переходных процессов, выполняемого посредством блока 258 анализа переходных процессов. Как пояснено выше, может быть возможным дополнительно сокращать число агрегированных полос частот в случае переходной части: следовательно, информация 260 относительно переходной части может преобразовывать и согласовывать группировку сегментов. Помимо этого или в альтернативе, информация 261 относительно переходной части кодируется во вспомогательной информации 228 потока 248 битов. Информация 261 при кодировании во вспомогательной информации 228 может включать в себя, например, флаг, указывающий, имеется ли переходная часть (к примеру: «1», что означает «в кадре имеется переходная часть» по сравнению с «0», что означает: «в кадре отсутствует переходная часть»), и/или индикатор положения переходной части в кадре (к примеру, поле, указывающее, в каком интервале наблюдается переходная часть). В некоторых примерах, если информация 261 указывает, что в кадре отсутствует переходная часть («0»), индикатор положения переходной части не кодируется во вспомогательной информации 228, чтобы уменьшить размер потока 248 битов. Информация 261 также называется «параметром переходных частей» и показывается на фиг. 2d и 6b как кодируемая во вспомогательной информации 228 потока 246 битов.

В некоторых примерах, группировка сегментов в блоке 265 также может преобразовываться и согласовываться посредством внешней информации 260', такой как информация относительно состояния передачи (например, измерения, ассоциированные с передачами, частота ошибок и т.д.). Например, чем больше объем рабочих данных (или чем больше частота ошибок), тем больше агрегирование (тенденциозно меньше агрегированных полос частот, которые являются более широкими), с тем чтобы иметь меньший объем вспомогательной информации 228, которая должна кодироваться в потоке 248 битов. Информация 260', в некоторых примерах, может быть аналогичной информации или показателям 252 по фиг. 6a.

В общем, нецелесообразно отправлять параметры для каждой комбинации полос частот/интервалов, но выборки гребенки фильтров группируются как по числу интервалов, так и по числу полос частот, чтобы сокращать число наборов параметров, которые передаются в расчете на кадр. Вдоль частотной оси, группировка полос частот в полосы частот параметров использует непостоянное разделение в полосах частот параметров, причем число полос частот в полосах частот параметров не является постоянным, а зачастую соответствует психоакустически обусловленному разрешению полос частот параметров, т.е. в полосах нижних частот, полосы частот параметров содержат только одну или небольшое число полос частот гребенки фильтров, и для более высоких полос частот параметров, большее (и постоянно увеличивающееся) число полос частот гребенки фильтров группируется в одну полосу частот параметров.

Таким образом, например, снова для входной частоты дискретизации 48 кГц и числа полос частот параметров, заданного равным 14, следующий вектор grp14 описывает индексы гребенки фильтров, которые обеспечивают границы полос частот для полос частот параметров (причем индекс начинается с 0):

grp14=

Полоса j частот параметров содержит полосы частот гребенки фильтров .

Следует отметить, что группировка полос частот для 48 кГц также может непосредственно использоваться для других возможных частот дискретизации посредством простого ее усечения, поскольку группировка как соответствует психоакустически обусловленной шкале частот, так и имеет определенные границы полос частот, соответствующие числу полос частот для каждой частоты дискретизации (таблица 1).

Если кадр является непереходным, или обработка переходных частей не реализуется, группировка вдоль временной оси выполняется по всем интервалам в кадре таким образом, что один набор параметров доступен в расчете на полосу частот параметров.

При этом число наборов параметров должно быть большим, но временное разрешение может быть ниже 20-миллисекундных кадров (в среднем 40 мс). Таким образом, чтобы дополнительно сокращать число наборов параметров, отправленных в расчете на кадр, только поднабор полос частот параметров используется для определения и кодирования параметров для отправки в потоке битов в декодер. Поднаборы являются фиксированными и известны как кодеру, так и декодеру. Конкретный поднабор, отправленный в потоке битов, передается в служебных сигналах посредством поля в потоке битов, чтобы указывать для декодера то, какому поднабору полос частот параметров принадлежат передаваемые параметры, и декодер затем заменяет параметры для этого поднабора посредством передаваемых (ICC, ICLD) и сохраняет параметры из предыдущих кадров (ICC, ICLD) для всех полос частот параметров, которые не находятся в текущем поднаборе.

В примере, полосы частот параметров могут разделяться на два поднабора, примерно содержащие половину полных полос частот параметров, и непрерывный поднабор для более низких полос частот параметров и один непрерывный поднабор для более высоких полос частот параметров. Поскольку имеются два поднабора, поле потоков битов для передачи в служебных сигналах поднабора составляет один бит, и пример для поднаборов для 48 кГц и 14 полос частот параметров представляет собой:

,

- где указывает то, какому поднабору принадлежит полоса j частот параметров.

Следует отметить, что сигнал 246 понижающего микширования может фактически кодироваться, в потоке 248 битов, в качестве сигнала во временной области: просто, последующий модуль 218 оценки параметров должен оценивать параметры 220 (например, ξi, j и/или Xi) в частотной области (и декодер 300 должен использовать параметры 220 для подготовки правила 403 микширования (например, матрицы микширования), как пояснено ниже).

Фиг. 2d показывает пример кодера 200, который может представлять собой один из предыдущих кодеров или может включать в себя элементы ранее поясненных кодеров. Входной сигнал 212 TD вводится в кодер, и выводится поток 248 битов, причем поток 248 битов включает в себя сигнал 246 понижающего микширования (например, кодированный посредством базового кодера 247) и информацию 220 корреляции и уровня, кодированную во вспомогательной информации 228.

Как видно из фиг. 2d, гребенка 214 фильтров может включаться (пример гребенки фильтров приведён на фиг. 5). Преобразование в частотной области (FD) предусмотрено в блоке 263 (DMX в частотной области) для получения сигнала 264 FD, который представляет собой версию FD входного сигнала 212. Сигнал 264 FD (также указываемый с X) получается во множестве полос частот. Может быть предусмотрен блок 265 группировки полос частот/интервалов (который может реализовывать блок 265 группировки по фиг. 5) для получения сигнала 216 FD в агрегированных полосах частот. Сигнал 216 FD, в некоторых примерах, может представлять собой версию сигнала 264 FD в меньшем числе полос частот. Затем сигнал 216 может передаваться в модуль 218 оценки параметров, который включает в себя блоки 502, 504 оценки ковариации (здесь показаны как один отдельный блок) и, ниже, блок 506, 510 оценки и кодирования параметров (варианты осуществления элементов 502, 504, 506 и 510 показаны на фиг. 6c). Блок 506, 510 оценки и кодирования параметров также может обеспечивать параметры 220, которые должны кодироваться во вспомогательной информации 228 потока 248 битов. Детектор 258 переходных частей (который может осуществлять блок 258 анализа переходных процессов по фиг. 5) может узнавать переходные части и/или положение переходной части в кадре (например, то, в каком интервале переходная часть идентифицирована). Соответственно, информация 261 относительно переходной части (например, параметр переходных частей) может передаваться в модуль 218 оценки параметров (например, для определения, какие параметры должны кодироваться). Детектор 258 переходных частей также может передавать информацию или команды (268) в блок 265, так что группировка выполняется с учетом наличия и/или положения переходной части в кадре.

Фиг. 3a, 3b, 3c показывают примеры аудиодекодеров 300 (также называемых «устройствами синтеза аудиоданных»). В примерах, декодеры по фиг. 3a, 3b, 3c могут представлять собой один и тот же декодер, только с некоторыми отличиями для исключения различных элементов. В примерах, декодер 300 может быть таким же, как и декодеры по фиг. 1 и 4. В примерах, декодер 300 также может представлять собой одно и то же устройство по отношению к кодеру 200.

Декодер 300 может быть выполнен с возможностью формирования сигнала (336, 340, yR) синтеза из сигнала x понижающего микширования в TD (246) или в FD (314). Устройство 300 синтеза аудиоданных может содержать входной интерфейс 312, выполненный с возможностью приема сигнала 246 понижающего микширования (например, сигнала понижающего микширования, одинакового с сигналом понижающего микширования, кодированным посредством кодера 200) и вспомогательной информации 228 (например, кодированной в потоке 248 битов). Вспомогательная информация 228 может включать в себя, как пояснено выше, информацию (220, 314) канального уровня и корреляции, такую как по меньшей мере одно из ξ, X и т.д. либо их элементов (как пояснено ниже) исходного сигнала, который может представлять собой исходный входной сигнал 212, y, на стороне кодера. В некоторых примерах, все ICLD (X) и некоторые записи (но не все) 906 или 908 за пределами диагонали матрицы 900 ICC (ICC или значения ξ) получаются посредством декодера 300.

Декодер 300 может выполнен с возможностью (например, через модуль вычисления прототипных сигналов или модуль 326 вычисления прототипных сигналов) вычисления прототипного сигнала 328 из сигнала (324, 246, x) понижающего микширования, причем прототипный сигнал 328 имеет некоторое число каналов (больше одного) сигнала 336 синтеза.

Декодер 300 может выполнен с возможностью (например, через модуль 402 вычисления правил микширования) вычисления правила 403 микширования с использованием по меньшей мере одного из:

- информации канального уровня и корреляции (например, 314, Cy, ξ, X либо их элементы) исходного сигнала (212, y); и

- ковариационной информации (например, Cx либо ее элементы), ассоциированной с сигналом (324, 246, x) понижающего микширования.

Декодер 300 может содержать процессор 404 синтеза, выполненный с возможностью формирования сигнала (336, 340, yR) синтеза с использованием прототипного сигнала 328 и правила 403 микширования.

Процессор 404 синтеза и модуль 402 вычисления правил микширования могут быть объединены в одном механизме 334 синтеза. В некоторых примерах, модуль 402 вычисления правил микширования может быть внешним по отношению к механизму 334 синтеза. В некоторых примерах, модуль 402 вычисления правил микширования по фиг. 3a может быть интегрирован с модулем 316 восстановления параметров по фиг. 3b.

Число каналов синтеза сигнала (336, 340, yR) синтеза больше одного (и в некоторых случаях больше двух или больше трех) и может составлять большее, меньшее или равное число исходных каналов по сравнению с исходным сигналом (212, y), которое также больше одного (и в некоторых случаях больше двух или больше трех). Число каналов сигнала (246, 216, x) понижающего микширования составляет по меньшей мере один или два и меньше числа число исходных каналов исходного сигнала (212, y) и числа каналов синтеза сигнала (336, 340, yR) синтеза.

Входной интерфейс 312 может считывать кодированный поток 248 битов (например, тот же поток 248 битов, кодированный посредством кодера 200). Входной интерфейс 312 может представлять собой или содержать модуль считывания потоков битов и/или энтропийный декодер. Поток 248 битов может кодировать, как пояснено выше, сигнал (246, x) понижающего микширования и вспомогательную информацию 228. Вспомогательная информация 228 может содержать, например, исходную информацию канального уровня и корреляции 220 в форме, выводимой либо модулем 218 оценки параметров, либо любым из элементов ниже относительно модуля 218 оценки параметров (например, блока 222 квантования параметров и т.д.). Вспомогательная информация 228 может содержать либо кодированные значения, либо индексированные значения, либо и то, и другое. Даже если входной интерфейс 312 не показан на фиг. 3b для сигнала (346, x) понижающего микширования, несмотря на это, он может также применяться к сигналу понижающего микширования, как показано на фиг 3a. В некоторых примерах, входной интерфейс 312 может квантовать параметры, полученные из потока 248 битов.

Декодер 300 в силу этого может получать сигнал (246, x) понижающего микширования, который может находиться во временной области. Как пояснено, выше, сигнал 246 понижающего микширования может разделяться на кадры и/или интервалы (см. выше). В примерах, гребенка 320 фильтров может преобразовывать сигнал 246 понижающего микширования во временной области, чтобы получать версию 324 сигнала 246 понижающего микширования в частотной области. Как пояснено выше, полосы частот версии 324 в частотной области сигнала 246 понижающего микширования могут группироваться в группы полос частот. В примерах, может выполняться такая же группировка, как та, что выполняется в гребенке 214 фильтров (см. выше). Параметры для группировки (например, то, какие полосы частот и/или сколько полос частот должны группироваться и т.д.) могут быть основаны, например, на передаче служебных сигналов посредством модуля 265 группировки сегментов или блока 267 анализа полос частот, причем передача служебных сигналов кодируется во вспомогательной информации 228.

Декодер 300 может включать в себя модуль 326 вычисления прототипных сигналов. Модуль 326 вычисления прототипных сигналов может вычислять прототипный сигнал 328 из сигнала понижающего микширования (например, одной из версий 324, 246, x), например, посредством применения прототипного правила (например, матрицы Q). Прототипное правило может осуществляться посредством прототипной матрицы (Q) с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза. Следовательно, прототипный сигнал имеет некоторое число каналов сигнала 340 синтеза, которые должны в конечном счете быть сформированы.

Модуль 326 вычисления прототипных сигналов может применять так называемое повышающее микширование к сигналу (324, 246, x) понижающего микширования, в том смысле, что он просто формирует версию сигнала (324, 246, x) понижающего микширования в увеличенном числе каналов (числе каналов сигнала синтеза, которые должны формироваться), но без применения существенной «интеллектуальности». В примерах, модуль 326 вычисления прототипных сигналов может просто применять фиксированную заданную прототипную матрицу (идентифицированную как "Q" в этом документе) к версии 324 FD сигнала 246 понижающего микширования. В примерах, модуль 326 вычисления прототипных сигналов может применять различные прототипные матрицы к различным полосам частот. Прототипное правило (Q) может выбираться из множества предварительно сохраненных прототипных правил, например, на основе конкретного числа каналов понижающего микширования и конкретного числа каналов синтеза.

Прототипный сигнал 328 может декоррелироваться в модуле 330 декорреляции таким образом, чтобы получить декоррелированную версию 332 прототипного сигнала 328. Тем не менее, в некоторых примерах, предпочтительно модуль 330 декорреляции не имеется, поскольку доказано, что изобретение является достаточно эффективным, чтобы позволить его исключить.

Прототипный сигнал (в любой из его версий 328, 332) может вводиться в механизм 334 синтеза (и, в частности, в процессор 404 синтеза). Здесь обрабатывается прототипный сигнал (328, 332) для получения сигнала (336, yR) синтеза. Механизм 334 синтеза (и, в частности, в процессор404 синтеза) может применять правило 403 микширования (в некоторых примерах, поясненных ниже, правила микширования равны двум, например, одно для основного компонента сигнала синтеза и одно для остаточного компонента). Правило 403 микширования может осуществляться, например, посредством матрицы. Матрица 403 может формироваться, например, посредством модуля 402 вычисления правил микширования, на основе информации канального уровня и корреляции (314, к примеру, ξ, X либо ее элементов) исходного сигнала (212, y).

Сигнал 336 синтеза, выводимый механизмом 334 синтеза (и, в частности, процессором 404 синтеза), при необходимости может фильтроваться в гребенке 338 фильтров. Помимо этого или в альтернативе, сигнал 336 синтеза может преобразовываться во временную область в гребенке 338 фильтров. Версия 340 (во временной области или фильтрованная) сигнала 336 синтеза в силу этого может использоваться для воспроизведения аудио (например, посредством громкоговорителей).

Чтобы получать правило 403 микширования (например, матрицу микширования), информация канального уровня и корреляции (например, Cy, CyR и т.д.) исходного сигнала и ковариационная информация (например, Cx), ассоциированная с сигналом понижающего микширования, может передаваться в модуль 402 вычисления правил микширования. Для этой цели, можно использовать информацию 220 канального уровня и корреляции, кодированную во вспомогательной информации 228 посредством кодера 200.

Тем не менее, в некоторых случаях, для уменьшения объема информации, кодированной в потоке 248 битов, не все параметры кодируются посредством кодера 200 (например, не вся информация канального уровня и корреляции исходного сигнала 212 и/или не вся ковариационная информация микшированного с понижением сигнала 246). Следовательно, некоторые параметры 318 должны оцениваться в модуле 316 восстановления параметров.

В модуль 316 восстановления параметров может подаваться, например по меньшей мере одно из:

- версии 322 сигнала 246 (x) понижающего микширования, которая, например, может представлять собой фильтрованную версию или версию FD сигнала 246 понижающего микширования; и

- вспомогательной информации 228 (включающая в себя информацию 228 канального уровня и корреляции).

Вспомогательная информация 228 может включать в себя (в качестве информации уровня и корреляции входного сигнала) информацию, ассоциированную с корреляционной матрицей Cy исходного сигнала (212, y): тем не менее, в некотором случае не все элементы корреляционной матрицы Cy фактически кодируются. Следовательно, технологии оценки и восстановления разработаны для восстановления версии (CyR) корреляционной матрицы Cy (например, через промежуточные этапы, которые получают оцененную версию ).

Параметры 314, передаваемые в модуль 316, могут получаться посредством энтропийного декодера 312 (входного интерфейса) и, например, могут квантоваться.

Фиг. 3c показывает пример декодера 300, который может представлять собой вариант осуществления одного из декодеров по фиг. 1-3b. Здесь, декодер 300 включает в себя входной интерфейс 312, представленный посредством демультиплексора. Декодер 300 выводит сигнал 340 синтеза, который, например, может находиться в TD (сигнал 340), которые должен воспроизводиться посредством громкоговорителей, либо в FD (сигнал 336). Декодер 300 по фиг. 3c может включать в себя базовый декодер 347, который также может представлять собой часть входного интерфейса 312. Базовый декодер 347 в силу этого может выдавать сигнал x, 246 понижающего микширования. Гребенка 320 фильтров может преобразовывать сигнал 246 понижающего микширования из TD в FD. Версия FD сигнала x, 246 понижающего микширования указывается с помощью 324. Сигнал 324 FD понижающего микширования может передаваться в блок 388 для ковариационного синтеза. Блок 388 для ковариационного синтеза может выдавать сигнал 336 (Y) синтеза в FD. Гребенка 338 обратных фильтров может преобразовывать аудиосигнал 314 в его версии 340 TD. Сигнал 324 FD понижающего микширования может передаваться в блок 380 группировки полос частот/интервалов. Блок 380 группировки полос частот/интервалов может выполнять такую же операцию, как та, которая выполнена в кодере, посредством блока 265 группировки сегментов по фиг. 5 и 2d. Поскольку полосы частот сигнала 216 понижающего микширования по фиг. 5 и 2d, в кодере, группированы или агрегированы в небольшом числе полос частот (с большой шириной), и параметры 220 (ICC, ICLD) ассоциированы с группами агрегированных полос частот, теперь необходимо агрегировать декодированный сигнал понижающего микширования тем же способом: каждую агрегированную полосу частот со связанным параметром. Следовательно, номер 385 означает сигнал XB понижающего микширования после агрегирования. Следует отметить, что фильтр обеспечивает неагрегированное представление FD таким образом, чтобы иметь возможность обрабатывать параметры, поскольку в кодере группировка полос частот/интервалов в декодере (380) осуществляет одинаковое агрегирование по полосам частот/интервалам с кодером для обеспечения агрегированного понижающего микширования XB.

Блок 380 группировки полос частот/интервалов также может агрегировать по различным интервалам в кадре, так что сигнал 385 также агрегируется в размерности интервала, аналогичной кодеру. Блок 380 группировки полос частот/интервалов также может принимать информацию 261, кодированную во вспомогательной информации 228 потока 248 битов, указывающую на наличие переходной части, и в этом случае, также положение переходной части в кадре.

В блоке 384 оценки ковариации, оценивается ковариация Cx сигнала 246 (324) понижающего микширования. Ковариация Cy получается в блоке 386 вычисления ковариации, например, посредством использования уравнений (4)-(8) может использоваться с этой целью. Фиг. 3c показывает «многоканальный параметр», который, например, может представлять собой параметры 220 (ICC и ICLD). Ковариации Cy и Cx затем передаются в блок 388 для ковариационного синтеза для синтеза сигнала 388 синтеза. В некоторых примерах, блоки 384, 386 и 388 могут осуществлять, если их рассматривать вместе, как восстановление 316 параметров, так и микширование вычисляются 402, и процессор 404 синтеза, как пояснено выше и ниже.

4. Пояснение

4.1. Общее представление

Новый подход настоящих примеров нацелен, в числе прочего, на выполнение кодирования и декодирования многоканального содержимого на низких скоростях передачи битов (что означает на равных или ниже 160 Кбит/с) при поддержании качества звука, максимально близкого к исходному сигналу, и сохранении пространственных свойств многоканального сигнала. Одна характеристики нового подхода также заключается в том, чтобы подходить инфраструктуре DirAC, упомянутой выше. Выходной сигнал может подготавливаться посредством рендеринга такой же конфигурацией громкоговорителей, как и конфигурация громкоговорителей для входного сигнала 212, либо другой конфигурацией громкоговорителей (которая может быть большей или меньшей с точки зрения громкоговорителей). Кроме того, выходной сигнал может подготавливаться посредством рендеринга на громкоговорителях с использованием бинаурального рендеринга.

Текущий раздел должен представлять всестороннее описание изобретения и различных модулей, которые составляют его.

Предложенная система состоит из двух основных частей:

- Кодер 200, который извлекает необходимые параметры 220 из входного сигнала 212, квантует их (на 222) и кодирует их (на 226). Кодер 200 также может вычислять сигнал 246 понижающего микширования, который кодируется в потоке 248 битов (и может передаваться в декодер 300).

- Декодер 300, который использует кодированные (например, передаваемые) параметры и микшированный с понижением сигнал 246 для формирования многоканального выходного сигнала, качество которого является максимально близким к исходному сигналу 212.

Фиг. 1 показывает общее представление предложенного нового подхода согласно примеру. Следует отметить, что некоторые примеры используют только поднабор блоков конфигурации, показанных в общей схеме, и исключают определенные блоки обработки в зависимости от ситуации применения.

Входной сигнал 212 (y) в изобретении представляет собой многоканальный аудиосигнал 212 (также называемый «многоканальным потоком») во временной области или в частотно-временной области (например, сигнал 216), что означает, например, набор аудиосигналов, которые сформированы или предназначены для воспроизведения посредством набора громкоговорителей.

Первая часть обработки представляет собой часть кодирования; из многоканального аудиосигнала, так называемый сигнал 246 "понижающего микширования" должен вычисляться (см. также 4.2.6) наряду с набором параметров или вспомогательной информацией, 228 (см. также 4.2.2 и 4.2.3), которые извлекаются из входного сигнала 212 во временной области или в частотной области. Эти параметры кодируются (см. также 4.2.5) и, в этом случае, передаются в декодер 300.

Сигнал 246 понижающего микширования и кодированные параметры 228 затем могут передаваться в базовый кодер и канал передачи, который связывает сторону кодера и сторону декодера процесса.

На стороне декодера, микшированный с понижением сигнал обрабатывается (4.3.3 и 4.3.4), и передаваемые параметры декодируются (см. также 4.3.2). Декодированные параметры используются для синтеза выходного сигнала с использованием ковариационного синтеза (см. также 4.3.5), и это должно приводить к конечному многоканальному выходному сигналу во временной области.

Перед подробным описанием, предусмотрены некоторые общие характеристики, которые должны устанавливаться, причем по меньшей мере одна из них является допустимой:

- Обработка может использоваться с любой конфигурацией громкоговорителей. Следует учесть тот факт, что при увеличении числа громкоговорителей сложность процесса и число битов, необходимых для кодирования передаваемых параметров, также должны увеличиваться.

- Вся обработка может выполняться на основе кадров, т.е. входной сигнал 212 может разделяться на кадры, которые обрабатываются независимо. На стороне кодера, каждый кадр формирует набор параметров, которые должны передаваться в сторону декодера для обработки.

- Кадр также может разделяться на интервалы; эти интервалы представляют затем статистические свойства, которые не могут получаться в масштабе кадра. Кадр может разделяться, например, на восемь интервалов, и длина каждого интервала должна составлять 1/8 от длины кадра.

4.2. Кодер

Задача кодера состоит в извлечении соответствующих параметров 220 для описания многоканального сигнала 212, их квантования (на 222), их кодирования (на 226) в качестве вспомогательной информации 228, и затем, в этом случае, их передачи на сторону декодера. Здесь подробно описаны параметры 220, а также то, каким образом они могут быть вычислены.

Более подробная схема кодера 200 содержится на фиг. 2a-2d. Это общее представление подчеркивает два основных выходных сигнала 228 и 246 кодера.

Первый вывод кодера 200 представляет собой сигнал 228 понижающего микширования, который вычисляется из многоканального входного аудиосигнала 212; микшированный с понижением сигнал 228 является представлением исходного многоканального потока (сигнала) в меньшем количестве каналов, чем исходное содержимое (212). Дополнительная информация относительно их вычисления содержится в параграфе 4.2.6.

Второй выходной сигнал кодера 200 представляет собой кодированные параметры 220, выражаемые как вспомогательная информация 228 в потоке 248 битов; эти параметры 220 представляют собой ключевой момент настоящих примеров: они представляют собой параметры, которые используются для эффективного описания многоканального сигнала на стороне декодера. Эти параметры 220 обеспечивают хороший компромисс между качеством и числом битов, требуемых для их кодирования в потоке 248 битов. На стороне кодера, вычисление параметра может осуществляться в несколько этапов; далее процесс описан в частотной области, но может выполняться также во временной области. Параметры 220 сначала оцениваются из многоканального входного сигнала 212, затем они могут квантоваться в квантователе 222, и после этого они могут преобразовываться в цифровой поток 248 битов в качестве вспомогательной информации 228. Дополнительная информация относительно этих этапов содержится в параграфах 4.2.2, 4.2.3 и 4.2.5.

4.2.1. Гребенка фильтров и группировка сегментов

Гребенки фильтров поясняются для стороны кодера (например, гребенка 214 фильтров) или для стороны декодера (например, гребенки 320 и/или 338 фильтров).

Изобретение может использовать гребенки фильтров в различных точках во время процесса. Эти гребенки фильтров могут преобразовывать сигнал либо из временной области в частотную область (в так называемые агрегированные полосы частот или полосы частот параметров), причем в этом случае они называются «гребенками фильтров анализа», либо из частотной во временную область (например, 338), причем в этом случае они называются «гребенками фильтров синтеза».

Вариант выбора гребенки фильтров должен совпадать с желательными требованиями по производительности и оптимизации, но остальная обработка может выполняться независимо от конкретного варианта выбора гребенки фильтров. Например, можно использовать гребенку фильтров на основе квадратурных зеркальных фильтров или гребенку фильтров на основе кратковременного преобразования Фурье.

Обращаясь к фиг. 5, выходной сигнал гребенки 214 фильтров кодера 200 должен представлять собой сигнал 216 в частотной области, представленный для некоторого числа полос частот (266 относительно 264). Выполнение остальной обработки для всех полос частот (264) может пониматься как обеспечение лучшего качества и лучшего частотного разрешения, но также требует более важных скоростей передачи битов для передачи всей информации. Следовательно, наряду с процессом гребенки фильтров выполняется так называемая «группировка сегментов» (265), которая соответствует группировке некоторой частоты для представления информации 266 относительно меньшего набора полос частот.

Например, выходной сигнал 264 фильтра 263 (фиг. 5) может представляться в 128 полосах частот, и группировка сегментов на 265 может приводить к сигналу 266 (216) только с 20 полосами частот. Предусмотрено несколько способов группирования полос частот, и один понятный способ, например, может представлять собой попытку аппроксимации эквивалентной прямоугольной полосы пропускания. Эквивалентная прямоугольная полоса пропускания представляет собой тип психоакустически обусловленного деления на полосы частот, которое пытается моделировать то, как человеческая слуховая система обрабатывает аудиособытия, т.е. задача состоит в группировании гребенки фильтров таким способом, который подходит для человеческого слуха.

4.2.2. Оценка параметров (например, модуль 218 оценки)

Аспект 1. Использование ковариационных матриц для описания и синтеза многоканальное содержимое

Оценка параметров на 218 представляет собой один из основных моментов изобретения; они используются на стороне декодера, чтобы синтезировать выходной многоканальный аудиосигнал. Эти параметры 220 (кодированные в качестве вспомогательной информации 228) выбраны, поскольку они эффективно описывают многоканальный входной поток 212 (сигнал), и они не требуют большого объема данных, которые должны передаваться. Эти параметры 220 вычисляются на стороне кодера и впоследствии используются совместно с механизмом синтеза на стороне декодера, чтобы вычислять выходной сигнал.

Здесь ковариационные матрицы могут вычисляться между каналами многоканального аудиосигнала и микшированного с понижением сигнала. А именно:

- Cy: ковариационная матрица многоканального потока (сигнала), и/или

- Cx: ковариационная матрица потока 246 (сигнала) понижающего микширования.

Обработка может выполняться на основе полос частот параметров, в силу чего полоса частот параметров является независимой от другой полосы частот параметров, и уравнения могут быть описаны для данной полосы частот параметров без потери общности.

Для данной полосы частот параметров, ковариационные матрицы определяются следующим образом:

(1)

- где:

- обозначает оператор действительной части.

- Вместо действительной части, может быть предусмотрена любая другая операция, которая приводит к действительному значению, которое имеет взаимосвязь с комплексным значением, из которого оно извлекается (например, абсолютным значением)

- * обозначает оператор сопряженного транспонирования

- B обозначает взаимосвязь между исходным числом полос частот и сгруппированными полосами частот (см. ниже 4.2.1. относительно группировки сегментов)

- Y и X являются, соответственно, исходным многоканальным сигналом 212 и микшированным с понижением сигналом 246 в частотной области

Cy (либо ее элементы или значения, полученные из Cy либо из ее элементов) также указываются в качестве информации канального уровня и корреляции исходного сигнала 212. Cx (либо ее элементы или значения, полученные из Cy либо из ее элементов) также указываются в качестве ковариационной информации, ассоциированной с сигналом 212 понижающего микширования.

Для данного кадра (и полосы частот), только одна или две ковариационных матрицы Cy и/или Cx могут выводиться, например, блоком 218 оценки. Поскольку процесс основан на интервалах, а не на кадрах, различная реализация может выполняться относительно взаимосвязи между матрицами для данных интервалов и для целого кадра. В качестве примера, можно вычислять ковариационную матрицу(ы) для каждого интервала в кадре и суммировать их для вывода матрицы для одного кадра. Следует отметить, что определение для вычисления ковариационных матриц представляет собой математическое определение, но также можно вычислять или по меньшей мере модифицировать эти матрицы заранее, если необходимо получать выходной сигнал с конкретными характеристиками.

Как пояснено выше, не обязательно, что все элементы матриц Cy и/или Cx фактически кодируются во вспомогательной информации 228 потока 248 битов. Для Cx, можно просто оценивать их из сигнала 246 понижающего микширования, кодированного посредством применения уравнения (1), и в силу этого кодер 200 может легко отказываться, просто-напросто, от кодирования любого элемента Cx (либо если обобщать, от ковариационной информации, ассоциированной с сигналом понижающего микширования). Для Cy (или для информации канального уровня и корреляции, ассоциированной с исходным сигналом) можно оценивать, на стороне декодера по меньшей мере один из элементов Cy посредством использования технологий, поясненных ниже.

Аспект 2a. Передача ковариационных матриц и/или энергий для описания и восстановления многоканального аудиосигнала

Как упомянуто выше, ковариационные матрицы используются для синтеза. Можно передавать непосредственно эти ковариационные матрицы (либо их поднабор) из кодера в декодер.

В некоторых примерах, матрица Cx не должна обязательно передаваться, поскольку она может повторно вычисляться на стороне декодера с использованием микшированного с понижением сигнала 246, но в зависимости от сценария применения, эта матрица может требоваться в качестве передаваемого параметра.

С точки зрения точки реализации, не все значения в этих матрицах Cx, Cy должны кодироваться или передаваться, например, чтобы удовлетворять определенным конкретным требованиям относительно скоростей передачи битов. Непередаваемые значения могут оцениваться на стороне декодера (см. также 4.3.2).

Аспект 2b. Передача межканальных когерентностей и межканальных разностей уровней для описания и восстановления многоканального сигнала

Из ковариационных матриц Cx, Cy, альтернативный набор параметров может задаваться и использоваться для восстановления многоканального сигнала 212 на стороне декодера. Эти параметры могут представлять собой, конкретно, например, межканальные когерентности (ICC) и/или межканальные разности уровней (ICLD).

Межканальные когерентности описывают когерентность между каждым каналом многоканального потока. Этот параметр может извлекаться из ковариационной матрицы Cy и вычисляться следующим образом (для данной полосы частот параметров и для двух данных каналов i и j):

(2)

- где:

- ξi, j является ICC между каналами i и j входного сигнала 212

- являются значениями в ковариационной матрице (ранее заданными в уравнении (1)) многоканального сигнала между каналами i и i входного сигнала 212

Значения ICC могут вычисляться между каждым каналом многоканального сигнала, что может приводить к большому объему данных по мере того, как размер многоканального сигнала растет. На практике, может кодироваться и/или передаваться сокращенный набор ICC. Кодированные и/или передаваемые значения должны определяться, в некоторых примерах, в соответствии с требованием по производительности.

Например, при решении проблем, связанных с сигналом, сформированным посредством 5.1 (или 5.0) в качестве определённой конфигурации громкоговорителей, установленной рекомендацией ITU «ITU-R BS.2159-4», можно выбирать передачу только четырех ICC. Четыре ICC могут представлять собой ICC между:

- центральным и правым каналом

- центральным и левым каналом

- левым каналом и левым каналом объемного звучания

- правым каналом и правым каналом объемного звучания

В общем случае, индексы ICC, выбранных из матрицы ICC, описаны посредством карты ICC.

В общем, для каждой конфигурации громкоговорителей может выбираться для кодирования и/или передачи в декодер фиксированный набор ICC, которые обеспечивают в среднем наилучшее качество. Число ICC и то, какие ICC должны передаваться, могут зависеть от конфигурации громкоговорителей и/или доступной полной скорости передачи битов и доступны в кодере и декодере без необходимости передачи карты ICC в потоке 248 битов. Другими словами, фиксированный набор ICC и/или соответствующая фиксированная карта ICC могут использоваться, например, в зависимости от конфигурации громкоговорителей и/или полной скорости передачи битов.

Эти фиксированные наборы могут быть не подходящими для конкретного материала и обеспечивать, в некоторых случаях, значительно худшее качество, чем среднее качество для всего материала с использованием фиксированного набора ICC. Чтобы преодолеть это, в другом примере для каждого кадра (или интервала), оптимальный набор ICC и соответствующая карта ICC могут оцениваться на основе признака важности определенного ICC. Карта ICC, используемая для текущего кадра, затем явно кодируется и/или передается вместе с квантованными ICC в потоке 248 битов.

Например, признак важности ICC может определяться посредством формирования оценки ковариации или оценки матрицы ICC с использованием ковариации Cx понижающего микширования из уравнения (1), аналогично декодеру с использованием уравнений (4) и (6) от 4.3.2. В зависимости от выбранного признака, признак вычисляется для каждой ICC или соответствующей записи в ковариационной матрице для каждой полосы частот, для которой параметры передаются в текущем кадре и комбинируются для всех полос частот. Эта матрица комбинированных признаков затем используется для определения наиболее важных ICC и, таким образом, набора ICC, которые должны использоваться, и карты ICC, которая должна передаваться.

Например, признак важности ICC представляет собой абсолютную ошибку между записями оцененной ковариации и действительной ковариации Cy, и матрица комбинированных признаков представляет собой сумму для абсолютной ошибки для каждой ICC по всем полосам частот, которые должны передаваться в текущем кадре. Из матрицы комбинированных признаков, выбираются n записей, в которых суммированная абсолютная ошибка является наибольшей, и n составляет число ICC, которые должны передаваться для комбинации громкоговорителей/скоростей передачи битов, и карта ICC компонуется из этих записей.

Кроме того, в другом примере, как показано на фиг. 6b, чтобы исключить слишком большое изменение карт ICC между кадрами, матрица признаков может подчеркиваться для каждой записи, которая находится в выбранной карте ICC предыдущего кадра параметров, например, в случае абсолютной ошибки ковариации посредством применения коэффициента >1 (220k) к записям карты ICC предыдущего кадра.

Кроме того, в другом примере, флаг, отправленный во вспомогательной информации 228 потока 248 битов, может указывать, используется ли в текущем кадре фиксированная карта ICC или оптимальная карта ICC, и если флаг указывает на фиксированный набор, то карта ICC не передается в потоке 248 битов.

Оптимальная карта ICC, например, кодируется и/или передается в качестве битовой карты (например, карта ICC может реализовывать информацию 254' по фиг. 6a).

Другой пример для передачи карты ICC представляет собой передачу индекса в таблицу всех возможных карт ICC, причем, например, собственно индекс дополнительно энтропийно кодируется. Например, таблица всех возможных карт ICC не сохраняется в запоминающем устройстве, но карта ICC, указываемая индексом, непосредственно вычисляется из индекса.

Второй параметр, который может передаваться совместно с ICC (или отдельно), представляет собой ICLD. "ICLD" означает межканальную разность уровней, и она описывает энергетические взаимосвязи между каждым каналом входного многоканального сигнала 212. Нет уникального определения ICLD; важный аспект этого значения заключается в том, что оно описывает отношения энергий в многоканальном потоке.

В качестве примера, преобразование из Cy в ICLD может получаться следующим образом:

(3)

- где:

- Xi является ICLD для канала i.

- Pi является мощностью текущего канала i, она может извлекаться из диагонали Cy: .

- Pdmx, i: зависит от канала i, но всегда должно представлять собой линейную комбинацию значений в Cx, оно также зависит от исходной конфигурации громкоговорителей.

В примерах, Pdmx, i не является одинаковой для каждого канала, а зависит от отображения, связанного с матрицей понижающего микширования (которая представляет собой прототипную матрицу для декодера), это упоминается в общем в одном из ключевых пунктов в уравнении (3). Зависит от того, канал i понижающее сводится только в один из каналов понижающего микширования или более чем в один из них. Другими словами, Pdmx, i может составлять или включать в себя сумму по всем диагональным элементам Cx, в которых имеется ненулевой элемент в матрице понижающего микширования, так что уравнение (3) может перезаписываться следующим образом:

- где αi является весовым коэффициентом, связанным с ожидаемой долей энергии канала в понижающем микшировании, причем этот весовой коэффициент является фиксированным для определенной конфигурации входных громкоговорителей и известным в кодере и декодере. Ниже приведено понятие матрицы Q. Некоторые значения αi и матриц Q также приведены в конце документа.

В случае реализации, задающей картографировании для каждого входного канала i, причем картографический индекс представляет собой канал j понижающего микширования, в которое только сводится входной канал i, либо если картографический индекс превышает число каналов понижающего микширования. Таким образом, имеется картографический индекс mICLD, i, который используется для определения Pdmx, i следующим образом:

4.2.3. Квантование параметров

Примеры квантования параметров 220, чтобы получать параметры 224 квантования, могут выполняться, например, посредством модуля 222 квантования параметров по фиг. 2b и 4.

После того как набор параметров 220 вычисляется, что означает либо ковариационные матрицы {Cx, Cy}, либо ICC и ICLD ξ, X, они квантуются. Вариант выбора квантователя может представлять собой компромисс между качеством и объемом данных, которые следует передавать, но отсутствует ограничение относительно используемого квантователя.

В качестве примера, в этом случае, ICC и ICLD используются; один может представлять собой нелинейный квантователь, заключающий в себе 10 шагов квантования в интервале [-1,1] для ICC, и другой может представлять собой нелинейный квантователь, заключающий в себе 20 шагов квантования в интервале [-30,30] для ICLD.

Кроме того, в качестве оптимизации реализации, можно выбирать необходимость дискретизировать с понижением передаваемые параметры, что означает то, квантованные параметры 224 используются каждые два или более кадров в строке.

В аспекте, поднабор параметров, передаваемых в текущем кадре, передается в служебных сигналах посредством индекса кадра параметров в потоке битов.

4.2.4. Обработка переходных частей, дискретизированные с понижением параметры

Некоторые примеры, поясненные ниже, могут пониматься как показанные на фиг. 5, который в свою очередь может представлять собой пример блока 214 по фиг. 1 и 2d.

В случае наборов дискретизированных с понижением параметров (например, полученных в блоке 265 на фиг. 5), т.е. набор 220 параметров для поднабора полос частот параметров может использоваться более чем для одного обработанного кадра, переходные части, которые появляются более чем в одном поднаборе, не могут сохраняться с точки зрения локализации и когерентности. Следовательно, может быть преимущественным отправлять параметры для всех полос частот в таком кадре. Этот специальный тип кадра параметров, например, может передаваться в служебных сигналах посредством флага в потоке битов.

В аспекте, обнаружение переходных частей на 258 используется для обнаружения таких переходных частей в сигнале 212. Также может обнаруживаться положение переходной части в текущем кадре. Степень временной детализации предпочтительно может быть связана со степенью временной детализации используемой гребенки 214 фильтров, так что каждое положение переходной части может соответствовать интервалу или группе интервалов гребенки 214 фильтров. Интервалы для вычисления ковариационных матриц Cy и Cx затем выбираются на основе положения переходной части, например, только с использованием интервалов от интервала, содержащего переходную часть, до конца текущего кадра.

Детектор переходных частей (или блок 258 анализа переходных процессов) может представлять собой детектор переходных частей, также используемый при кодировании микшированного с понижением сигнала 212, например, детектор переходных частей во временной области базового IVAS-кодера. Следовательно, пример по фиг. 5 также может применяться выше по отношению к блоку 244 вычисления для понижающего микширования.

В примере, наличие переходной части кодируется с использованием одного бита (к примеру: «1», что означает «имеется переходная часть в кадре» по сравнению с «0», что означает: «отсутствует переходная часть в кадре»), и если переходная часть обнаруживается, кроме того, положение переходной части кодируется и/или передается в качестве кодированного поля 261 (информации относительно переходной части) в потоке 248 битов для обеспечения возможности аналогичной обработки в декодере 300.

Если обнаружена переходная часть и должна выполняться передача всех полос частот (например, путём передачи в служебных сигналах), отправка параметров 220 с использованием нормальной группировки сегментов может приводить к всплеску скорости передачи данных, необходимой для передачи параметров 220 в качестве вспомогательной информации 228 в потоке 248 битов. Кроме того, временное разрешение является более важным, чем частотное разрешение. В силу этого может быть преимущественным, в блоке 265, изменять группировку сегментов для такого кадра, так чтобы иметь меньшее количество полос частот, которые следует передавать (например, от большого количества полос частот в версии 264 сигнала до меньшего количества полос частот в версии 266 сигнала). Пример использует такую другую группировку сегментов, например, посредством комбинирования двух соседних полос частот по всем полосам частот для нормального коэффициента понижающей дискретизации в 2 для параметров. В общих чертах, наличие переходной части подразумевает, что непосредственно ковариационные матрицы предположительно должны значительно отличаться до и после переходной части. Чтобы исключать артефакты для интервалов перед переходной частью, могут рассматриваться только непосредственно переходный интервал и все последующие интервалы до конца кадра. Это также основано на таком предположении, что, заблаговременно, сигнал является достаточно стационарным, и можно использовать информацию и правила микширования, которые извлечены для предыдущего кадра, также для интервалов, предшествующих переходной части.

Если обобщать, кодер может быть выполнен с возможностью определения, в каком интервале кадра имеется переходная часть, и кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре, без кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалами, предшествующими переходной части.

Аналогичным образом, декодер может (например, в блоке 380), когда наличие и положение переходной части в одном кадре передаются в служебных сигналах (261):

- ассоциировать текущую информацию (220) канального уровня и корреляции с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре; и

- ассоциировать, с интервалом кадра, предшествующим интервалу, в котором имеется переходная часть, информацию (220) канального уровня и корреляции предыдущего интервала.

Другой важный аспект переходной части заключается в том, что в случае определения наличия переходной части в текущем кадре, операции сглаживания более не выполняются для текущего кадра. В случае переходной части, сглаживание не проводится для Cy и Cx, но CyR и Cx из текущего кадра используются при вычислении матриц микширования.

4.2.5. Энтропийное кодирование

Модуль 226 энтропийного кодирования (модуль записи потоков битов) может представлять собой последний модуль кодера; его цель состоит в преобразовании квантованных значений, полученных ранее, в двоичный поток битов, который также называется «вспомогательной информацией».

Способ, используемый для кодирования значений, может представлять собой, в качестве примера, кодирование Хаффмана [6] или дельта-кодирование. Способ кодирования не является крайне важным и оказывает влияние только на конечную скорость передачи битов; следует адаптировать способ кодирования в зависимости от скоростей передачи битов, которых он хочет достигать.

Для уменьшения размера потока 248 битов могут быть выполнены несколько оптимизаций реализации. В качестве примера, может быть реализован переключающий механизм, который переключается с одной схемы кодирования на другую в зависимости от того, какая из них является более эффективной с точки зрения размера потока битов.

Например, параметры могут дельта-кодироваться вдоль частотной оси для одного кадра и результирующей последовательности дельта-индексов, энтропийно кодированных посредством диапазонного кодера.

Кроме того, в случае понижающей дискретизации параметров, также в качестве примера, может быть реализован механизм для передачи в каждом кадре только поднабора полос частот параметров для непрерывной передачи данных.

Эти примеры требуют битов служебных сигналов для передачи в служебных сигналах относящегося к декодеру аспекта обработки на стороне кодера.

4.2.6. Вычисление для понижающего микширования

Часть 244 понижающего микширования обработки может быть простой, но при этом, в некоторых примерах, крайне важной. Понижающее микширование, используемое в изобретении, может быть пассивным, что означает, что способ, которым оно вычисляется, остается одинаковым во время обработки и является независимым от сигнала или от его характеристик в определённое время. Тем не менее, следует понимать, что вычисление для понижающего микширования на 244 может расширяться до активного вычисления (например, как описано в [7]).

Сигнал 246 понижающего микширования может вычисляться в двух различных местах:

- Первый раз для оценки параметров (см. 4.2.2), на стороне кодера, поскольку это может быть необходимо (в некоторых примерах) для вычисления ковариационной матрицы Cx.

- Второй раз на стороне кодера, между кодером 200 и декодером 300 (во временной области), причем микшированный с понижением сигнал 246 кодируется и/или передается в декодер 300 и используется основа для синтеза в модуле 334.

В качестве примера, в случае стереофонического понижающего микширования для входного сигнала 5.1, сигнал понижающего микширования может вычисляться следующим образом:

- Левый канал понижающего микширования составляет сумму левого канала, левого канала объемного звучания и центрального канала.

Правый канал понижающего микширования составляет сумму правого канала, правого канала объемного звучания и центрального канала. В качестве альтернативы, в случае монофонического понижающего микширования для входного сигнала 5.1, сигнал понижающего микширования вычисляется в качестве суммы каждого канала многоканального потока.

В примерах, каждый канал сигнала 246 понижающего микширования может получаться в качестве линейного комбинирования каналов исходного сигнала 212, например, с постоянными параметрами, за счет этого реализуя пассивное понижающее микширование.

Вычисление микшированных с понижением сигналов может расширяться и адаптироваться для дополнительных конфигураций громкоговорителей согласно потребности обработки.

Аспект 3. Обработка с низкой задержкой с использованием пассивного понижающего микширования и гребенки фильтров с низкой задержкой

Настоящее изобретение может обеспечивать обработку с низкой задержкой посредством использования пассивного понижающего микширования, например, обработку, описанную выше для входного сигнала 5.1 и гребенки фильтров с низкой задержкой. С использованием этих двух элементов, можно достигать задержек ниже 5 миллисекунд между кодером 200 и декодером 300.

4.3. Декодер

Задача декодера состоит в синтезе выходного аудиосигнала (336, 340, yR) в определённой конфигурации громкоговорителей посредством использования кодированного (например, передаваемого) сигнала (246, 324) понижающего микширования и кодированной вспомогательной информации 228. Декодер 300 может подготавливать посредством рендеринга выходные аудиосигналы (334, 240, yR) посредством той же конфигурации громкоговорителей, что и конфигурация громкоговорителей, используемая для входного сигнала (212, y), либо посредством другой конфигурации громкоговорителей. Без потери общности, предполагается, что входные и выходные конфигурации громкоговорителей являются одинаковыми (но в примерах они могут отличаться). В этом разделе далее описаны различные модули, которые могут составлять декодер 300.

Фиг. 3a и 3b иллюстрируют подробное общее представление возможной обработки декодера. Важно отметить, что по меньшей мере некоторые модули (в частности, модули с пунктирной границей, такие как 320, 330, 338) на фиг. 3b могут отбрасываться в зависимости потребностей и требований для данного варианта применения. Декодер 300 может вводиться посредством (например, приёма) двух наборов данных из кодера 200:

- Вспомогательной информации 228 с кодированными параметрами (как описано в 4.2.2)

- Микшированного с понижением сигнала (246, y), который может находиться во временной области (как описано в 4.2.6).

Кодированные параметры 228, возможно, должны сначала декодироваться (например, посредством входного модуля 312), например, с помощью способа обратного кодирования, который ранее использован. После того как этот этап выполняться, могут восстанавливаться релевантные параметры для синтеза, например, ковариационные матрицы. Параллельно, микшированный с понижением сигнал (246, x) может обрабатываться через несколько модулей: сначала может использоваться гребенка 320 фильтров анализа (см. также 4.2.1) для получения версии 324 в частотной области сигнала 246 понижающего микширования. Затем может вычисляться прототипный сигнал 328 (см. также 4.3.3), и может выполняться дополнительный этап декорреляции (на 330) (см. также 4.3.4). Ключевой момент синтеза представляет собой механизм 334 синтеза, который использует ковариационные матрицы (например, восстановленные в блоке 316) и прототипный сигнал (328 или 332) в качестве входного сигнала и формирует конечный сигнал 336 в качестве выходного сигнала (см. также 4.3.5). В завершение, может выполняться последний этап в гребенке 338 фильтров синтеза (например, если ранее использовалась гребенка 320 фильтров анализа), который формирует выходной сигнал 340 во временной области.

4.3.1. Энтропийное декодирование (например, блок 312)

Энтропийное декодирование в блоке 312 (входном интерфейсе) может обеспечивать возможность получения квантованных параметров 314, ранее полученных в 4. Декодирование потока 248 битов может пониматься как простая операция; поток 248 битов может считываться согласно способу кодирования, используемому в 4.2.5, и затем декодировать его.

С точки зрения точки реализации, поток 248 битов может содержать служебные биты, которые не являются данными, но которые указывают некоторые особенности обработки на стороне кодера.

Например, два используемых первых бита могут указывать, какой способ кодирования используется в случае, если кодер 200 имеет возможность переключения между несколькими способами кодирования. Следующий бит также может использоваться для описания того, какие полосы частот параметров передаются в данный момент.

Другая информация, которая может кодироваться во вспомогательной информации потока 248 битов, может включать в себя флаг, указывающий переходную часть, и поле 261, указывающее то, в каком интервале кадра имеется переходная часть.

4.3.2. Восстановление параметров

Восстановление параметров может выполняться, например, посредством блока 316 и/или модуля 402 вычисления правил микширования.

Цель этого восстановления параметров состоит в том, чтобы восстанавливать ковариационные матрицы Cx и Cy (либо если обобщать, ковариационную информацию, ассоциированную с сигналом 246 понижающего микширования, и информацию уровня и корреляции исходного сигнала) из микшированного с понижением сигнала 246 и/или из вспомогательной информации 228 (или в ее версии, представленной посредством квантованных параметров 314). Эти ковариационные матрицы Cx и Cy могут быть обязательными для синтеза, поскольку они представляют собой матрицы, которые эффективно описывают многоканальный сигнал 246.

Восстановление параметров в модуле 316 может представлять собой двухэтапный процесс:

- во-первых, матрица Cx (либо если обобщать, ковариационная информация, ассоциированная с сигналом 246 понижающего микширования) повторно вычисляется из сигнала 246 понижающего микширования (этот этап может исключаться в случаях, в которых ковариационная информация, ассоциированная с сигналом 246 понижающего микширования, фактически кодируется во вспомогательной информации 228 потока 248 битов); и

- затем, матрица Cy (либо если обобщать, информация уровня и корреляции исходного сигнала 212) может восстанавливаться, например, с использованием по меньшей мере частично передаваемых параметров и Cx либо, если обобщать, ковариационной информации, ассоциированной с сигналом 246 понижающего микширования (этот этап может исключаться в случаях, в которых информация уровня и корреляции исходного сигнала 212 фактически кодируется во вспомогательной информации 228 потока 248 битов).

Следует отметить, что, в некоторых примерах, для каждого кадра можно сглаживать ковариационную матрицу Cx текущего кадра с использованием линейного комбинирования с восстановленной ковариационной матрицей, предшествующей текущему кадру, например, посредством суммирования, среднего и т.д. Например, в t-ом кадре, конечная ковариация, которая должна использоваться для уравнения (4), может учитывать целевую ковариацию, восстановленную для предшествующего кадра, например:

.

Тем не менее, в случае определения наличия переходной части в текущем кадре, операции сглаживания более не выполняются для текущего кадра. В случае переходной части, сглаживание не проводится, Cx из текущего кадра используется.

Ниже содержится общее представление процесса.

Примечание: Что касается кодера, обработка здесь может выполняться на основе полос частот параметров независимо для каждой полосы частот, для ясности, обработка далее описана только для одной конкретной полосы частот и системы обозначений, адаптированной соответствующим образом.

Аспект 4a. Восстановление параметров в случае, если передаются ковариационные матрицы

Для этого аспекта, предполагается, что кодированные (например, передаваемые) параметры во вспомогательной информации 228 (ковариационной матрице, ассоциированной с сигналом 246 понижающего микширования, и информации канального уровня и корреляции исходного сигнала 212) представляют собой ковариационные матрицы (или их поднабор), как задано в аспекте 2a. Тем не менее, в некоторых примерах, ковариационная матрица, ассоциированная с сигналом 246 понижающего микширования и/или информацией канального уровня и корреляции исходного сигнала 212, может осуществляться посредством другой информации.

Если полные ковариационные матрицы Cx и Cy кодируются (например, передаются), последующая обработка отсутствует для обработки в блоке 318 (и блок 318 в силу этого может исключаться в таких примерах). Если только поднабор по меньшей мере одной из этих матриц кодируется (например, передается), отсутствующие значения должны оцениваться. Конечные ковариационные матрицы, используемые в механизме 334 синтеза (или более конкретно, в процессоре 404 синтеза), должны состоять из кодированных (например, передаваемых) значений 228 и оцененных значений на стороне декодера. Например, если только некоторые элементы матрицы Cy кодируются во вспомогательной информации 228 потока 248 битов, оставшиеся элементы Cy здесь оцениваются.

Для ковариационной матрицы Cx микшированного с понижением сигнала 246, можно вычислять отсутствующие значения посредством использования микшированного с понижением сигнала 246 на стороне декодера и применять уравнение (1).

В аспекте, в котором передаются или кодируются наличие и положение переходной части, используются одинаковые интервалы для вычисления ковариационной матрицы Cx микшированного с понижением сигнала 246, аналогично стороне кодера.

Для ковариационной матрицы Cy, отсутствующие значения могут вычисляться, в первой оценке, следующим образом:

(4),

- где:

- является оценкой ковариационной матрицы исходного сигнала 212 (она представляет собой пример оцененной версии исходной информации канального уровня и корреляции)

- Q является так называемой прототипной матрицей (прототипным правилом, правилом оценки), которая описывает взаимосвязь между микшированным с понижением и исходным сигналом (см. также 4.3.3) (она представляет собой пример прототипного правила),

- Cx является ковариационной матрицей сигнала понижающего микширования (она представляет собой пример ковариационной информации сигнала 212 понижающего микширования),

- * обозначает сопряженное транспонирование

После того как эти этапы выполняются, ковариационные матрицы получаются снова и могут использоваться для конечного синтеза.

Аспект 4b. Восстановление параметров в случае, если ICC и ICLD переданы

Для этого аспекта, можно предполагать, что кодированные (например, передаваемые) параметры во вспомогательной информации 228 представляют собой ICC и ICLD (либо их поднабор), как задано в аспекте 2b.

В этом случае, может быть сначала необходимо повторно вычислять ковариационную матрицу Cx. Это может осуществляться с использованием микшированного с понижением сигнала 212 на стороне декодера и применения уравнения (1).

В аспекте, в котором передаются наличие и положение переходной части, используются одинаковые интервалы для вычисления ковариационной матрицы Cx микшированного с понижением сигнала, аналогично кодеру. Затем ковариационная матрица Cy может повторно вычисляться из ICC и ICLD; эта операция может выполняться следующим образом:

Может быть получена энергия (также известная как уровень) каждого канала многоканального входного сигнала. Эти энергии извлекаются с использованием передаваемых ICLD и следующей формулы:

(5)

- где:

- где αi является весовым коэффициентом, связанным с ожидаемой долей энергии канала в понижающем микшировании, причем этот весовой коэффициент является фиксированным для определенной конфигурации входных громкоговорителей и известным в кодере и декодере. В случае реализации, задающей картографировании для каждого входного канала i, причем картографический индекс представляет собой канал j понижающего микширования, в которое только сводится входной канал i, либо если картографический индекс превышает число каналов понижающего микширования. Таким образом, имеется картографический индекс mICLD, i, который используется для определения Pdmx, i следующим образом:

Системы обозначений являются одинаковыми с системами обозначений, используемыми в оценке параметров в 4.2.3.

Эти энергии могут использоваться для нормализации оцененной Cy. В случае, если не все ICC передаются из стороны кодера, оценка Cy может вычисляться для непередаваемых значений. Оцененная ковариационная матрица может получаться с помощью прототипной матрицы Q и ковариационной матрицы Cx с использованием уравнения (4).

Эта оценка ковариационной матрицы приводит к оценке матрицы ICC, для которой член индекса (i, j) может задаваться следующим образом:

(6)

Таким образом, «восстановленная» матрица может задаваться следующим образом:

(7)

- где:

- Подстрочный индекс R указывает восстановленную матрицу (которая представляет собой пример восстановленной версии исходной информации уровня и корреляции),

- Ансамбль соответствует всем парам (i, j), которые декодированы (например, переданы из кодера в декодер) во вспомогательной информации 228.

В примерах, ξi, j может быть предпочтительной по сравнению , в силу того, что является менее точной, чем кодированное значение ξi, j.

В завершение, из этой восстановленной матрицы ICC восстановленная ковариационная матрица может представлять собой выведенную CyR. Эта матрица может получаться посредством применения энергий, полученных в уравнении (5), к восстановленной матрице ICC, таким образом, для индексов (i, j):

(8)

В случае, если передается полная матрица ICC, требуются только уравнения (5) и (8). Предыдущие параграфы иллюстрируют один подход для восстановления пропущенных параметров, могут использоваться другие подходы, и предложенный способ не является уникальным.

Из примера в аспекте 1b с использованием сигнала 5.1, можно отметить, что значения, которые не передаются, являются значениями, которые должны оцениваться на стороне декодера.

Ковариационные матрицы Cx и CyR могут теперь получаться. Важно, чтобы отметить, что восстановленная матрица CyR может представлять собой оценку ковариационной матрицы Cy входного сигнала 212. Компромисс настоящего изобретения может заключаться в том, чтобы иметь оценку ковариационной матрицы на стороне декодера, достаточно близкую к исходной, а также передавать максимально возможно небольшое количество параметров. Эти матрицы могут быть обязательными для конечного синтеза, который проиллюстрирован в 4.3.5.

Следует отметить, что, в некоторых примерах, для каждого кадра можно сглаживать восстановленную ковариационную матрицу текущего кадра с использованием линейного комбинирования с восстановленной ковариационной матрицей, предшествующей текущему кадру, например, посредством суммирования, среднего и т.д. Например, в t-ом кадре, конечная ковариация, которая должна использоваться для синтеза может учитывать целевую ковариацию, восстановленную для предшествующего кадра, например:

Тем не менее, в случае переходной части сглаживание не проводится, и CyR для текущего кадра используется при вычислении матриц микширования.

Также следует отметить, что в некоторых примерах, для каждого кадра, несглаженная ковариационная матрица каналов Cx понижающего микширования используется для восстановления параметров, в то время как сглаженная ковариационная матрица Cx, t, как описано в разделе 4.2.3, используется для синтеза.

Фиг. 8a возобновляет операцию для получения ковариационных матриц Cx и CyR в декодере 300 (например, выполняемую в блоках 386 или 316...). В блоках по фиг. 8a, между скобками, также указывается уравнение, которое приспосабливается посредством конкретного блока. Как можно видеть, модуль 384 оценки ковариации, через уравнение (1), позволяет достигать ковариации Cx сигнала 324 понижающего микширования (или в его версии 385 с уменьшенной полосой частот). Первый блок 384' оценки ковариации, посредством использования уравнения (4) и правила Q надлежащего типа, позволяет достигать первой оценки ковариации Cy. Затем, блок 390 преобразования ковариаций в когерентности, посредством применения уравнения (6), получает когерентности ξ. После этого, замещающий блок ICC 392, посредством приспособления уравнения (7), выбирает между оцененными ICC (ξ) и ICC, передаваемым в служебных сигналах во вспомогательной информации 228 потока 348 битов. Выбранные когерентности ξR затем вводятся в блок 394 применения энергии, который применяет энергию согласно ICLD (Xi). Затем целевая ковариационная матрица CyR передаётся в модуль 402 вычисления правил микширования или блок 388 для ковариационного синтеза по фиг. 3a либо в модуль вычисления правил микширования по фиг. 3c или механизм 344 синтеза по фиг. 3b.

4.3.3. Вычисление прототипных сигналов (блок 326)

Задача модуля 326 обработки прототипных сигналов состоит в формировании сигнала 212 понижающего микширования (либо его версии 324 в частотной области) таким способом, при котором он может использоваться посредством механизма 334 синтеза (см. 4.3.5). Модуль 326 обработки прототипных сигналов может выполнять повышающее микширование микшированного с понижением сигнала. Вычисление прототипного сигнала 328 может выполняться посредством модуля 326 обработки прототипных сигналов посредством умножения микшированного с понижением сигнала 212 (или 324) на так называемую прототипную матрицу Q:

Yp=XQ (9),

- где:

- Q является прототипной матрицей (которая представляет собой пример прототипного правила),

- X является микшированным с понижением сигналом (212 или 324)

- Yp является прототипным сигналом (328).

Способ, которым прототипная матрица устанавливается, может быть зависимым от обработки и может задаваться таким образом, чтобы удовлетворять требованию применения. Единственное ограничение может состоять в том, что число каналов прототипного сигнала 328 должно быть равным требуемому числу выходных каналов; это непосредственно ограничивает размер прототипной матрицы. Например, Q может представлять собой матрицу, имеющую число линий, которое составляет число каналов сигнала (212, 324) понижающего микширования, и число столбцов, которое составляет число каналов конечного выходного сигнала (332, 340) синтеза.

В качестве примера, в случае сигналов 5.1 или 5.0, прототипная матрица может устанавливаться следующим образом:

Следует отметить, что прототипная матрица может предварительно определяться и фиксироваться. Например, Q может быть одинаковой для всех кадров, но может отличаться для различных полос частот. Кроме того, предусмотрены различные Q для различной взаимосвязи между числом каналов сигнала понижающего микширования и числом каналов сигнала синтеза. Q может выбираться из множества предварительно сохраненных Q, например, на основе конкретного числа каналов понижающего микширования и конкретного числа каналов синтеза.

Аспект 5. Восстановление параметров в случае, если выходная конфигурация громкоговорителей отличается от входной конфигурации громкоговорителей

Один вариант применения предложенного изобретения заключается в формировании выходного сигнала 336 или 340 на конфигурации громкоговорителей, которая отличается от исходного сигнала 212 (что означает, например, с большим или меньшим числом громкоговорителей).

Для этого, следует соответствующим образом модифицировать прототипную матрицу. В этой ситуации прототипный сигнал, полученный с помощью уравнения (9), должен содержать столько каналов, сколько содержит выходная конфигурация громкоговорителей. Например, если в качестве входного сигнала (на стороне сигнала 212) имеется 5 сигналов каналов, и желательно получить в качестве выходного сигнала (на стороне сигнала 336) 7 канальных сигналов, то прототипный сигнал должен содержать уже 7 каналов.

После этого, оценка ковариационной матрицы в уравнении (4) по-прежнему остается и по-прежнему должна использоваться для оценки параметров ковариации для каналов, которые не имеются во входном сигнале 212.

Передаваемые параметры 228 между кодером и декодером по-прежнему являются релевантными, и уравнение (7) также по-прежнему может использоваться. Более точно, кодированные (например, передаваемые) параметры должны назначаться канальным парам, которые являются максимально близкими, с точки зрения геометрии, исходной конфигурации. По существу, требуется выполнять операцию адаптации.

Например, если на стороне кодера оценивается значение ICC между одним громкоговорителем справа и одним громкоговорителем слева, это значение может назначаться канальной паре выходной конфигурации, которые имеют одинаковые левое и правое положения; в случае, если геометрия отличается, это значение может назначаться паре громкоговорителей, положения которых являются максимально близкими с исходной парой.

Далее, после того, как целевая ковариационная матрица Cy получена для новой выходной конфигурации, остальная обработка является неизменной.

Соответственно, чтобы адаптировать целевую ковариационную матрицу (CyR) к числу каналов синтеза, можно:

- использовать прототипную матрицу Q, которая преобразуется из упомянутого числа каналов понижающего микширования в некоторое число каналов синтеза; она может получаться посредством:

- адаптации формулы (9), так что прототипный сигнал имеет некоторое число каналов синтеза;

- адаптации формулы (4), за счет этого оценивая в числе каналов синтеза;

- поддержания формул (5)-(8), которые в силу этого получаются в числе исходных каналов;

- но назначения групп исходных каналов (например, пар исходных каналов) одиночным каналам синтеза (например, выбора назначений с точки зрения геометрии) или наоборот.

На фиг. 8b приведён пример, который представляет собой версию фиг. 8a, на котором указываются число каналов некоторой матрицы и векторов. Когда ICC (полученные из вспомогательной информации 228 потока 348 битов) применяются к матрице ICC в 392, группы исходных каналов (например, пары исходных каналов) для одиночных каналов синтеза (например, выбор назначений с точки зрения геометрии) или наоборот.

Другая возможность формирования целевой ковариационной матрицы для числа выходных каналов, отличающегося от числа входных каналов, состоит в том, чтобы сначала формировать целевую ковариационную матрицу для числа входных каналов (например, числа исходных каналов входного сигнала 212) и затем адаптировать эту первую целевую ковариационную матрицу к числу каналов синтеза, получая вторую целевую ковариационную матрицу, соответствующую числу выходных каналов. Это может осуществляться посредством применения правила повышающего или понижающего микширования, например, матрицы, содержащей коэффициенты для комбинации определенных входных (исходных) каналов с выходными каналами, к первой целевой ковариационной матрицы CyR, и на втором этапе, применения этой матрицы CyR к передаваемым мощностям входного канала (ICLD) и получения вектора мощностей канала для числа выходных каналов (синтеза) и регулирования первой целевой ковариационной матрицы согласно векторам, чтобы получать вторую целевую ковариационную матрицу с запрашиваемым числом каналов синтеза. Эта отрегулированная вторая целевая ковариационная матрица теперь может использоваться в синтезе. Пример этого приведён на фиг. 8c, которая представляет собой версию фиг. 8a, в которой блоки 390-394 управляют восстановлением целевой ковариационной матрицы CyR, с тем чтобы иметь число исходных каналов исходного сигнала 212. После этого, в блоке 395 прототипный сигнал QN (который следует преобразовывать в число каналов синтеза) и вектор ICLD могут применяться. В частности, блок 386 по фиг. 8c является тем же, что и блок 386 по фиг. 8a, за исключением того факта, что на фиг. 8c, число каналов восстановленной целевой ковариации является совершенно равным числу исходных каналов входного сигнала 212 (и на фиг. 8a, для общности, восстановленная целевая ковариация имеет некоторое число каналов синтеза).

4.3.4. Декорреляция

Цель модуля 330 декорреляции состоит в том, чтобы уменьшать величину корреляции между каждым каналом прототипного сигнала. Высококоррелированный сигнал громкоговорителей может приводить к фантомным источникам и ухудшать качество и пространственные свойства выходного многоканального сигнала. Этот этап является факультативным и может осуществляться или не осуществляться согласно требованию варианта применения. В настоящем изобретении, декорреляция используется до механизма синтеза. В качестве примера, всечастотный частотный декоррелятор может использоваться.

Следует отметить, что относительно стандарта объемного звучания MPEG:

В стандарте объемного звучания MPEG согласно уровню техники, предусмотрено использование так называемых «матриц микширования» (обозначаемых как M1 и M2 в стандарте). Матрица M1 управляет тем, как доступные микшированные с понижением сигналы вводятся в декорреляторы. Матрица M2 описывает то, как прямые и декоррелированные сигналы должны комбинироваться для формирования выходного сигнала.

Хотя могут иметься сходства с прототипной матрицей, определённой в 4.3.3, а также с использованием декорреляторов, описанных в этом настоящем разделе, важно отметить, что:

- Прототипная матрица Q имеет совершенно другую функцию по сравнению с матрицами, используемыми в стандарте объемного звучания MPEG, аспект этой матрицы заключается в формировании прототипного сигнала. Цель этого прототипного сигнала должна вводиться в механизм синтеза.

- Прототипная матрица не имеет намерение подготавливать микшированные с понижением сигналы к декорреляторам и может адаптироваться в зависимости от требований и целевого варианта применения. Например, прототипная матрица может формировать прототипный сигнал для выходной конфигурации громкоговорителей, которая больше, чем входная конфигурация.

- Использование декорреляторов в предложенном изобретении не является обязательным; обработка основана на использовании ковариационной матрицы в механизме синтеза (см. также 5.1).

- Предложенное изобретение не формирует выходной сигнал посредством комбинированного прямого и декоррелированного сигнала.

- Вычисление M1 и M2 сильно зависит от древовидной структуры, различные коэффициенты этих матриц являются зависимыми от случая с точки зрения структуры. Дело обстоит не так в предложенном изобретении, обработка является агностической относительно микшированного с понижением вычисления (см. также 5.2), и концептуально предложенная обработка нацелена на рассмотрение взаимосвязи между каждым каналом только вместо пар каналов, поскольку это может осуществляться с древовидной структурой.

Следовательно, настоящее изобретение отличается от стандарта объемного звучания MPEG из уровня техники.

4.3.5. Механизм синтеза, матричное вычисление

Последний этап декодера включает в себя механизм синтеза 334 или процессор синтеза 402 (и при необходимости дополнительно гребенку 338 фильтров синтеза). Задача механизма 334 синтеза состоит в формировании конечного выходного сигнала 336 относительно определенных ограничений. Механизм 334 синтеза может вычислять выходной сигнал 336, характеристики которого ограничены посредством входных параметров. В настоящем изобретении, входные параметры 318 механизма 338 синтеза, за исключением прототипного сигнала 328 (или 332), представляют собой ковариационные матрицы Cx и Cy. В частности, CyR называется «целевой ковариационной матрицей», поскольку характеристики выходных сигналов должны быть максимально близкими к характеристикам, заданным посредством Cy (показано, что поясняются оцененная версия и предварительно сконструированная версия целевой ковариационной матрицы).

Механизм 334 синтеза, который может использоваться, не является уникальным, в качестве примера, может использоваться ковариационный синтез из источника из уровня техники [8], который включён в настоящий документ путём ссылки. Другой механизм 333 синтеза, который может использоваться, представляет собой механизм синтеза, описанный в обработке DirAC в [2].

Выходной сигнал механизма 334 синтеза может требовать дополнительной обработки через гребенку 338 фильтров синтеза.

В качестве конечного результата, получается выходной многоканальный сигнал 340 во временной области.

Аспект 6. Высококачественные выходные сигналы с использованием «ковариационного синтеза»

Как упомянуто выше, используемый механизм 334 синтеза не является уникальным, и может использоваться любой механизм, который использует передаваемые параметры либо их поднабор. Тем не менее, один аспект настоящего изобретения может заключаться в обеспечении высококачественных выходных сигналов 336, например, посредством использования ковариационного синтеза [8].

Этот способ синтеза нацелен на вычисление выходного сигнала 336, характеристики которого задаются посредством ковариационной матрицы CyR. Для этого, вычисляются так называемые матрицы оптимального микширования, причем эти матрицы должны сводить прототипный сигнал 328 в конечный выходной сигнал 336 и должны обеспечивать оптимальный с математической точки зрения результат с учетом целевой ковариационной матрицы CyR.

Матрица M микширования представляет собой матрицу, которая преобразует прототипный сигнал xp в выходной сигнал yR (336) через взаимосвязь .

Матрица микширования также может представлять собой матрицу, которая преобразует сигнал x понижающего микширования в выходной сигнал через взаимосвязь . Из этой взаимосвязи также можно вывести .

В представленной обработке CyR и Cx могут в некоторых примерах быть уже известны (поскольку они, соответственно, представляют собой целевую ковариационную матрицу CyR и ковариационную матрицу Cx сигнала 246 понижающего микширования).

Одно решение с математической точки зрения задается посредством , где Ky и представляют собой все матрицы, полученные посредством выполнения разложения по сингулярным значениям для Cx и CyR. Для P, он представляет собой свободный параметр здесь, но оптимальное решение (с перцепционной точки зрения для слушателя) может находиться относительно ограничения, предписанного посредством прототипной матрицы Q. Математическое подтверждение того, что указывается здесь, содержится в [8].

Этот механизм 334 синтеза обеспечивает высококачественный выходной сигнал 336, поскольку подход разработан с возможностью обеспечения оптимального математического решения проблемы восстановления выходного сигнала.

Если говорить не с точки зрения математики, важно понимать, что ковариационные матрицы представляют энергетические взаимосвязи между различными каналами многоканального аудиосигнала. Матрица Cy для исходного многоканального сигнала 212 и матрица Cx для микшированного с понижением многоканального сигнала 246. Каждое значение этих матриц преобразует энергетическую взаимосвязь между двумя каналами многоканального потока.

Следовательно, философия в основе ковариационного синтеза заключается в том, чтобы формировать сигнал, характеристики которого управляются посредством целевой ковариационной матрицы CyR. Эта матрица CyR вычислена таким способом, при котором она описывает исходный входной сигнал 212 (или выходной сигнал, который желательно получать, в случае если он отличается от входного сигнала). После этого, за счет наличия этих элементов, ковариационный синтез должен оптимально сводить прототипный сигнал для формирования конечного выходного сигнала.

В дополнительном аспекте, матрица микширования, используемая для синтеза интервала, представляет собой комбинацию матрицы M микширования текущего кадра, и матрицы Mp микширования предыдущего, с тем чтобы гарантировать сглаженный синтез, например, линейную интерполяцию на основе индекса интервала в текущем кадре.

В дополнительном аспекте, в котором передаются наличие и положение переходной части, используется предыдущая матрица Mp микширования для всех интервалов перед положением переходной части, и матрица M микширования используется для интервала, содержащего положение переходной части, и всех последующих интервалов в текущем кадре. Следует отметить, что, в некоторых примерах, для каждого кадра или интервала можно сглаживать матрицу микширования текущего кадра или интервала с использованием линейного комбинирования с матрицей микширования, используемой для предшествующего кадра или интервала, например, посредством суммирования, среднего и т.д. Предположим, что, для текущего кадра t, интервал s, полоса частот i выходного сигнала получаются посредством , где Ms, i представляет собой комбинацию Mt-1,i матрицы микширования, используемой для предыдущего кадра, и Mt, i, которая представляет собой матрицу микширования, вычисленную для текущего кадра, например, линейную интерполяцию между ними:

,

- где ns составляет число интервалов в кадре (например, 16), и t-1 и t указывают предыдущий и текущий кадр. Если обобщать, матрица Ms, i микширования, ассоциированная с каждым интервалом, может получаться посредством масштабирования вдоль последующих интервалов текущего кадра t матрицы Mt, i микширования, вычисленной для текущего кадра, посредством повышающего коэффициента, и посредством добавления, вдоль последующих интервалов текущего кадра t, матрицы Mt-1,i микширования, масштабируемой посредством понижающего коэффициента. Коэффициенты могут быть линейными.

Может быть предусмотрено, что в случае переходной части (например, передаваемой в служебных сигналах в информации 261), комбинируются не текущая и прошлая матрицы микширования, а предыдущая матрица микширования вплоть до интервала, содержащего переходную часть, и текущая матрица микширования для интервала, содержащего переходную часть и все последующие интервалы до конца кадра.

,

- где s является индексом интервала, i является индексом полосы частот, t и t-1 указывают текущий и предыдущий кадр, и st является интервалом, содержащим переходную часть.

Отличия от источника из уровня техники [8]

Также важно отметить, что предложенное изобретение выходит за рамки объема способа, предложенного в [8]. Заметные различия, в числе прочего, заключаются в следующем:

- Целевая ковариационная матрица CyR вычисляется на стороне кодера предложенной обработки.

- Целевая ковариационная матрица CyR также может вычисляться другим способом (в предложенном изобретении, ковариационная матрица не составляет сумму рассеянной и прямой части).

- Обработка выполняется не для каждой полосы частот отдельно, а группируется для полос частот параметров (как упомянуто в 0).

- С более глобальной точки зрения: ковариационный синтез здесь представляет собой только один блок всего процесса и должен использоваться совместно со всеми другими элементами на стороне декодера.

4.3. Предпочтительные аспекты в качестве списка

По меньшей мере один из следующих аспектов может характеризовать изобретение:

1. На стороне кодера

a. Ввод многоканального аудиосигнала 246.

b. Преобразование сигнала 212 из временной области в частотную область (216) с использованием гребенки 214 фильтров

c. Вычисление сигнала 246 понижающего микширования в блоке 244

d. Из исходного сигнала 212 и/или сигнала 246 понижающего микширования, оценка первого набора параметров для описания многоканального потока 246 (сигнала): ковариационные матрицы Cx и/или Cy

e. Передача и/или кодирование ковариационных матриц Cx и/или Cy непосредственно либо вычисление ICC и/или ICLD и их передача

f. Кодирование передаваемых параметров 228 в потоке 248 битов с использованием соответствующей схемы кодирования

g. Вычисление микшированного с понижением сигнала 246 во временной области

h. Передача вспомогательной информации (т.е. параметров) и микшированного с понижением сигнала 246 во временной области

2. На стороне декодера

a. Декодирование потока 248 битов, содержащего вспомогательную информацию 228 и сигнал 246 понижающего микширования

b. (при необходимости) Применение гребенки фильтров 320 к сигналу 246 понижающего микширования, чтобы получать версию 324 сигнала 246 понижающего микширования в частотной области

c. Восстановление ковариационных матриц Cx и CyR из ранее декодированных параметров 228 и сигнала 246 понижающего микширования

d. Вычисление прототипного сигнала 328 из сигнала 246 (324) понижающего микширования

e. (при необходимости) Декорреляция прототипного сигнала (в блоке 330)

f. Применение механизма 334 синтеза к прототипному сигналу с использованием восстановленных Cx и CyR.

g. (при необходимости) Применение гребенки 338 фильтров синтеза к выходному сигналу 336 ковариационного синтеза 334

h. Получение выходного многоканального сигнала 340

4.5. Ковариационный синтез

В настоящем разделе, поясняются некоторые технологии, которые могут реализовываться в системах по фиг. 1-3d. Тем не менее, эти технологии также могут реализовываться независимо: например, в некоторых примерах нет необходимости в вычислении ковариации, осуществляемом для фиг. 8a-8c и в уравнениях (1)-(8). Следовательно, в некоторых примерах, если обратиться к CyR (восстановленной целевой ковариации), она также может заменяться посредством Cy (которая также может непосредственно обеспечиваться без восстановления). Несмотря на это, технологии этого раздела могут преимущественно использоваться вместе с технологиями, поясненными выше.

Обратимся теперь к фиг. 4a-4d. Здесь поясняются примеры блоков 388a-388d для ковариационного синтеза. Блоки 388a-388d могут реализовывать, например, блок 388 по фиг. 3c для выполнения ковариационного синтеза. Блоки 388a-388d, например, могут представлять собой часть процессора 404 синтеза и модуля 402 вычисления правил микширования механизма 334 синтеза и/или блока 316 восстановления параметров по фиг. 3a. На фиг. 4a-4d, сигнал 324 понижающего микширования находится в частотной области (FD) (т.е. ниже гребенки 320 фильтров) и указывается как X, в то время как сигнал 336 синтеза также находится в FD и указывается как Y. Тем не менее, можно обобщать эти результаты, например, во временной области. Следует отметить, что каждый из блоков 388a-388d для ковариационного синтеза по фиг. 4a-4d может называться «одной отдельной полосой частот» (например, после дезагрегирования в 380), и ковариационные матрицы Cx и CyR (или другая восстановленная информация) в силу этого могут быть ассоциированы с одной конкретной полосой частот. Ковариационный синтез может выполняться, например, покадрово, и в этом случае ковариационные матрицы Cx и CyR (или другая восстановленная информация) ассоциированы с одним отдельным кадром (или со множеством последовательными кадрами): следовательно, ковариационный синтез может выполняться покадрово или каждое множество кадров.

На фиг. 4a, блок 388a ковариационного синтеза может состоять из одного блока 600a оптимального микширования с компенсацией энергии при отсутствии блока корреляции. По существу, одна отдельная матрица M микширования обнаруживается, и единственная важная операция, которая дополнительно выполняется, представляет собой вычисление матрицы M' микширования с компенсацией энергии.

Фиг. 4b показывает блок 388b для ковариационного синтеза, обусловленный посредством [8]. Блок 388b для ковариационного синтеза может позволять получать сигнал 336 синтеза в качестве сигнала синтеза, имеющего первый основной компонент 336M и второй остаточный компонент 336R. Хотя основной компонент 336M может получаться в матрице микширования оптимального основного компонента 600b, например, посредством обнаружения матрицы MM микширования из ковариационных матриц Cx и CyR и без декорреляторов, остаточный компонент 336R может получаться другим способом. MR должен в принципе удовлетворять взаимосвязи . Типично, полученная матрица микширования не полностью удовлетворяет этому, и остаточная целевая ковариация может обнаруживаться с помощью . Как можно видеть, сигнал 324 понижающего микширования может извлекаться в тракт 610b (тракт 610b может называться "вторым трактом", параллельным первому тракту 610b', включающему в себя блок 600b). Прототипная версия 613b (указываемая с помощью YpR) сигнала 324 понижающего микширования может получаться в блоке 612b обработки прототипных сигналов (блоке повышающего микширования). Например, уравнение, такое как уравнение (9) может использоваться, т.е.:

В настоящем документе приведены примеры Q (прототипной матрицы или матрицы повышающего микширования). Ниже блока 612b имеется декоррелятор 614b для декорреляции прототипного сигнала 613b для получения декоррелированного сигнала 615b (также указываемого с помощью ). Из декоррелированного сигнала 615b ковариационная матрица декоррелированного сигнала (615b) оценивается в блоке 616b. Посредством использования ковариационной матрицы декоррелированного сигнала в качестве эквивалента Cx микширования основных компонентов и Cr в качестве целевой ковариации в другом блоке оптимального микширования, остаточный компонент 336R сигнала 336 синтеза может получаться в блоке 618b обработки матриц микширования оптимальных остаточных компонентов. Блок 618b обработки матриц микширования оптимальных остаточных компонентов может реализовываться таким образом, что матрица MR микширования формируется таким образом, чтобы свести декоррелированный сигнал 615b и получить остаточный компонент 336R сигнала 336 синтеза (для конкретной полосы частот). В блоке 620b суммирования, остаточный компонент 336R суммируется с основным компонентом 336M (тракты 610b и 610b' в силу этого объединяются в блоке 620b суммирования).

Фиг. 4c показывает пример ковариационного синтеза 388c, альтернативного ковариационному синтезу 388b по фиг. 4b. Блок 388c для ковариационного синтеза позволяет получать сигнал 336 синтеза в качестве сигнала Y, имеющего первый основной компонент 336M' и второй остаточный компонент 336R'. Хотя основной компонент 336M' может получаться в матрице микширования оптимального основного компонента 600c, например, посредством обнаружения матрицы MM микширования из ковариационных матриц Cx и CyR (либо другой информации 220 Cy) и без корреляторов, остаточный компонент 336R' может получаться другим способом. Сигнал 324 понижающего микширования может извлекаться в тракт 610c (тракт 610c может называться "вторым трактом", параллельным первому тракту 610c', включающему в себя блок 600c). Прототипная версия 613c сигнала 324 понижающего микширования может получаться в блоке 612c понижающего микширования (блоке повышающего микширования) посредством применения прототипной матрицы Q (например, матрицы, которая сводит с повышением микшированный с понижением сигнал 234 в версию 613c микшированного с понижением сигнала 234 в числе каналов, которое составляет число каналов синтеза). Например, может использоваться уравнение, такое как уравнение (9). В настоящем документе приведены примеры Q. Ниже блока 612c может быть предусмотрен декоррелятор 614c. В некоторых примерах, первый тракт не имеет декоррелятора, в то время как второй тракт имеет декоррелятор.

Декоррелятор 614c может обеспечивать декоррелированный сигнал 615c (также указываемый с помощью ). Тем не менее, в отличие от технологии, используемой в блоке 388b для ковариационного синтеза по фиг. 4b, в блоке 388c для ковариационного синтеза по фиг. 4c, ковариационная матрица декоррелированного сигнала 615c не оценивается из декоррелированного сигнала 615c (). Напротив, ковариационная матрица декоррелированного сигнала 615c получается (в блоке 616c) из:

- ковариационной матрицы Cx сигнала 324 понижающего микширования (например, оцененной в блоке 384 на фиг. 3c и/или с использованием уравнения (1)); и

- прототипной матрицы Q.

Посредством использования ковариационной матрицы , оцененной из ковариационной матрицы Cx сигнала 324 понижающего микширования, в качестве эквивалента Cx матрицы микширования основных компонентов и Cr в качестве целевой ковариационной матрицы, остаточный компонент 336R' сигнала 336 синтеза получается в блоке 618c обработки матриц микширования оптимальных остаточных компонентов. Блок 618c обработки матриц микширования оптимальных остаточных компонентов может реализовываться таким образом, что матрица MR микширования остаточных компонентов формируется, с тем чтобы получать остаточный компонент 336R' посредством микширования декоррелированного сигнала 615c согласно матрице MR микширования остаточных компонентов. В блоке 620c суммирования, остаточный компонент 336R' суммируется с основным компонентом 336M', с тем чтобы получать сигнал 336 синтеза (тракты 610c, и 610c' в силу этого объединяются в блоке 620c суммирования).

В некоторых примерах, остаточный компонент 336R или 336R' не всегда или не обязательно вычисляется (и тракт 610b или 610c не всегда используется). В некоторых примерах, хотя для некоторых полос частот ковариационный синтез выполняется без вычисления остаточного сигнала 336R или 336R' для других полос частот одного и того же кадра, ковариационный синтез обрабатывается также с учетом остаточного сигнала 336R или 336R'. Фиг. 4d показывает пример блока 388d ковариационного синтеза, который может представлять собой конкретный случай блока 388b или 388c для ковариационного синтеза: здесь, модуль 630 выбора полос частот может выбирать или отменять выбор (способом, представленным посредством переключателя 631) вычисления остаточного сигнала 336R или 336R'. Например, тракт 610b или 610c может избирательно активироваться посредством модуля 630 выбора для некоторых полос частот и деактивироваться для других полос частот. В частности, тракт 610b или 610c может деактивироваться для полос частот по заданному пороговому значению (например, фиксированному пороговому значению), которое может составлять пороговое значение (например, максимальное), которое отличает между полосами частот, для которых человеческое ухо является нечувствительным к фазе (полосами частот с частотой выше порогового значения), и полосами частот, для которых человеческое ухо является фазочувствительным (полосами частот с частотой ниже порогового значения), так что остаточный компонент 336R или 336R' не вычисляется для полос частот с частотой ниже порогового значения и вычисляется для полос частот с частотой выше порогового значения.

Пример по фиг. 4d также может получаться посредством подстановки блока 600b или 600c вместо блока 600a по фиг. 4a и подстановки замены блока 610b или 610c вместо блока 388b для ковариационного синтеза по фиг. 4b или блока 388c для ковариационного синтеза по фиг. 4c.

Здесь приведены некоторые указания относительно того, как можно получить правило (матрицу) микширования в любом из блоков 338, 402 (или 404), 600a, 600b, 600c и т.д. Как пояснено выше, предусмотрено множество способов для получения матриц микширования, но некоторые из них здесь поясняются подробнее.

В частности, сначала, следует обратиться к блоку 388b для ковариационного синтеза по фиг. 4b. В блоке 600c обработки матриц микширования оптимальных основных компонентов, матрица M микширования для основного компонента 336M сигнала 336 синтеза может получаться, например, из:

- ковариационной матрицы Cy исходного сигнала 212 (Cy может оцениваться с использованием по меньшей мере некоторых формул (6)-(8), поясненных выше, см., например, фиг. 8; она может иметь так называемую форму «целевой версии» CyR, например, оцененную с помощью формулы (8)); и

- ковариационной матрицы Cx сигнала 246, 324 понижающего микширования (Cy может оцениваться, например, с использованием формулы (1)).

Например, как предложено в [8], общепризнанным является разложение ковариационных матриц Cx и Cy, которые являются эрмитовыми и положительными полуопределенными, согласно следующей факторизации:

Kx и Ky могут получаться, например, посредством применения разложения по сингулярным значениям (SVD) два раза из Cx и Cy. Например:

- SVD в Cx может обеспечивать матрицу UCx сингулярных векторов (например, левых сингулярных векторов); и

- диагональную матрицу SCx сингулярных значений;

- так что Kx получается посредством умножения UCx на диагональную матрицу, имеющую в своих записях квадратные корни значений в соответствующих записях SCx.

Кроме того, SVD в Cy может обеспечивать:

- матрицу VCy сингулярных векторов (например, правых сингулярных векторов); и

- диагональную матрицу SCy сингулярных значений,

- так что Ky получается посредством умножения UCy на диагональную матрицу, имеющую, в своих записях, квадратные корни значений в соответствующих записях SCy.

После этого можно получать матрицу микширования основных компонентов, которая, при применении к сигналу 324 понижающего микширования, должна позволять получать основной компонент 336M сигнала 336 синтеза. Матрица микширования основных компонентов может получаться следующим образом:

Если Kx является необратимой матрицей, регуляризованная обратная матрица может получаться с помощью известных технологиях и заменяется вместо .

Параметр P, в общем, является свободным, но он может оптимизироваться. Чтобы достигать P, можно применять SVD к:

Cx (ковариационной матрицей сигнала 324 понижающего микширования); и

(ковариационной матрицей прототипного сигнала 613b).

После того как SVD выполняются, можно получать P следующим образом:

Λ является матрицей, имеющей столько строк, сколько составляет число каналов синтеза, и столько столбцов, сколько составляет число числа каналов понижающего микширования. Λ представляет собой идентификационные данные в первом квадратном блоке и заполняется нулями в оставшихся записях. Ниже поясняется то, как V и U получаются из Cx и , и U представляют собой матрицы сингулярных векторов, полученных из SVD:

S является диагональной матрицей сингулярных значений, типично полученных через SVD. является диагональной матрицей, которая нормализует энергии в расчете на один канал прототипного сигнала (615b) в энергии сигнала синтеза y. Чтобы получать , сначала необходимо вычислять , т.е. ковариационную матрицу прототипного сигнала (614b). Затем, чтобы достигать из , диагональные значения нормализуются в соответствующие диагональные значения Cy, в силу этого обеспечивая . Пример заключается в том, что диагональные записи вычисляются как , где являются значениями диагональных записей Cy, и являются значениями диагональных записей .

После того как получается, ковариационная матрица Cr остаточного компонента получается следующим образом:

После получения Cr можно получить матрицу микширования для микширования декоррелированного сигнала 615b, чтобы получить остаточный сигнал 336R, причем в одном и том же оптимальном микшировании Cr имеет ту же роль, что и роль CyR в основном оптимальном микшировании, и ковариация декоррелированных прототипов выполняет роль ковариации Cx входных сигналов в основном оптимальном микшировании.

Тем не менее, следует понимать, что, по сравнению с технологией по фиг. 4b, технология по фиг. 4c представляет некоторые преимущества. В некоторых примерах, технология по фиг. 4c является той же, что и технология по фиг. 4c по меньшей мере для вычисления основной матрицы и для формирования основного компонента сигнала синтеза. В отличие от этого, технология по фиг. 4c отличается от технологии по фиг. 4b при вычислении матрицы остаточного микширования и, говоря в общем, для формирования остаточного компонента сигнала синтеза. Теперь следует обратиться к фиг. 11 в связи с фиг. 4c для вычисления матрицы остаточного микширования. В примере по фиг. 4c, используется декоррелятор 614c в частотной области, который обеспечивает декорреляцию прототипного сигнала 613c, но сохраняет энергии непосредственно прототипного сигнала 613b.

Кроме того, в примере по фиг. 4c предполагается (по меньшей мере, посредством аппроксимации), что декоррелированные каналы декоррелированного сигнала 615c являются взаимно некогерентными, и в силу этого, что все недиагональные элементы ковариационной матрицы декоррелированных сигналов равны нулю. При обоих предположениях, можно просто оценивать ковариацию декоррелированных прототипов из применения Q к Cx и применять только главную диагональ этой ковариации (т.е. энергии прототипных сигналов). Эта технология по фиг. 4c является более эффективной, чем оценка по примеру по фиг. 4b, из декоррелированного сигнала 615b, в которой необходимо выполнять то же самое агрегирование полос частот/интервалов, которое уже выполнено для Cx. Следовательно, в примере по фиг. 4c, можно просто применять матричное умножение уже агрегированного Cx. Следовательно, одна и та же матрица микширования вычисляется для всех полос частот одной и той же агрегированной группы полос частот.

Таким образом, ковариация 711 () декоррелированного сигнала может оцениваться, на 710, с использованием:

в качестве главной диагонали матрицы со всеми недиагональными элементами, заданными равными нулю, которая используется в качестве ковариации входных сигналов. В примерах, в которых Cx сглаживается для выполнения синтеза основного компонента 336M' сигнала синтеза, может использоваться технология, согласно которой версия Cx, которая используется для вычисления Pdecorr, представляет собой несглаженную Cx.

Теперь, прототипная матрица Qr должна использоваться. Тем не менее, следует отметить, что, для остаточного сигнала, Qr представляет собой единичную матрицу. Знание свойств (диагональной матрицы) и Qr (единичной матрицы) приводит к дополнительному упрощению при вычислении матрицы микширования (по меньшей мере одно SVD может не использоваться), см. следующую технологию и распечатку Matlab.

Сначала, аналогично примеру по фиг. 4b, остаточная целевая ковариационная матрица Cx (эрмитова положительная полуопределенная) из входного сигнала 212 может разлагаться как . Матрица Kr может получаться через SVD (702): SVD 702, применяемое к Cr, формирует:

- матрицу UCr сингулярных векторов (например, левых сингулярных векторов);

- диагональную матрицу SCr сингулярных значений;

- так что Kr получается (на 706) посредством умножения UCr на диагональную матрицу, имеющую, в своих записях, квадратные корни значений в соответствующих записях SCr (причем последняя получена на 704).

В этот момент, может быть теоретически возможным применять другое SVD, на этот раз к ковариации декоррелированных прототипов.

Тем не менее, в этом примере (фиг. 4c), чтобы уменьшать вычислительные усилия, выбран другой тракт. , оцененная из , представляет собой диагональную матрицу, и в силу этого SVD не требуется (SVD диагональной матрицы обеспечивает сингулярные значения в качестве сортированного вектора диагональных элементов, и левые и правые сингулярные вектора просто указывают индекс сортировки). Посредством вычисления (на 712) квадратного корня каждого значения в записях диагонали , получается диагональная матрица . Эта диагональная матрица является такой, что , с таким преимуществом, что SVD не требуется для получения . Из диагональной ковариации декоррелированных сигналов, вычисляется оцененная ковариационная матрица декоррелированного сигнала 615c. Но поскольку прототипная матрица Qr (т.е. матрица идентификационных данных), можно непосредственно использовать для формулирования в качестве , где являются значениями диагональных записей Cr, и являются значениями диагональных записей . представляет собой диагональную матрицу (полученную на 722), которая нормализует энергии в расчете на один канал декоррелированного сигнала (615b) для требуемых энергий сигнала синтеза y.

В этот момент, можно (на 734) умножать на (также результат 735 умножения 734 называется " "). Затем (736), Kr умножается на , чтобы получать (т.е. = ). Из , может выполняться SVD (738), с тем чтобы получать матрицу U левых сингулярных векторов и матрицу V правых сингулярных векторов. Посредством умножения (740) V и U*, получается матрица P (). В завершение (742), можно получать матрицу MR микширования для остаточного сигнала посредством применения:

,

- где (полученная на 745) может заменяться посредством регуляризованной инверсии. MR в силу этого может использоваться в блоке 618c для остаточного микширования.

Здесь приведён код Matlab для выполнения ковариационного синтеза, как пояснено выше. Следует отметить, что в этом коде звездочка (*) означает умножение, а апостроф (') означает эрмитову матрицу.

% Вычисление матрицы остаточного микширования

function[m]=ComputeMixingMatrixResidual(C_hat_y, Cr,reg_sx, reg_ghat)

EPS_=single(1e-15);% эпсилон, чтобы исключать деления на ноль

num_outputs=size(Cr,1);

% Разложение Cy

[U_Cr, S_Cr]=svd(Cr);

Kr=U_Cr*sqrt(S_Cr);

% SVD диагональной матрицы представляет собой упорядоченные диагональные элементы,

% можно пропускать упорядочение и получать Kx непосредственно из Cx

K_hat_y=sqrt(diag(C_haty));

limit=max(K_hat_y)*reg_sx+EPS_;

S_hat_y_reg_diag=max(K_hat_y, limit);

% Формулирование регуляризованной Kx

K_hat_y_reg_inverse=1./S_hat_y_reg_diag;

% Формулирование матрицы G-шляпа нормализации

% Q является единичной матрицей в случае остаточной/рассеянной части, так что:

% Q*Cx*Q'=Cx

Cy_hat_diag=diag(C_hat_y);

limit=max(Cy_hat_diag)*reg_ghat+EPS_;

Cy_hat_diag=max(Cy_hat_diag, limit);

G_hat=sqrt(diag(Cr)./Cy_hat_diag);

% Формулирование оптимальной P

% Kx, G_hat являются диагональными матрицами, Q является I, и т.д.

K_hat_y=K_hat_y.*G_hat;

for k=1:num_outputs

Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);

end

[U,~,V]=svd(Ky_dash);

P=V*U';

% Формулирование M

M=Kr*P;

for k=1:num_outputs

M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);

end

end

Здесь приведено пояснение относительно ковариационного синтеза по фиг. 4b и 4c. В некоторых примерах, два способа синтеза могут рассматриваться для каждой полосы частот, для некоторых полос частот применяется полный синтез, включающий в себя остаточный тракт из фиг. 4b, для полос частот, типично выше определенной частоты, при которой человеческое ухо является нечувствительным к фазе, чтобы достигать требуемых энергий в канале, применяется энергетическая компенсация.

Таким образом, также в примере по фиг. 4b, для полос частот ниже определенной (фиксированной, известной декодеру) границы (порогового значения) полосы частот, полный синтез согласно фиг. 4b может выполняться (например, в случае фиг. 4d). В примере по фиг. 4b, ковариация декоррелированного сигнала 615b извлекается непосредственно из декоррелированного сигнала 615b. Напротив, в примере по фиг. 4c, используется декоррелятор 614c в частотной области, который обеспечивает декорреляцию прототипного сигнала 613c, но сохраняет энергии самого прототипного сигнала 613b.

Дополнительные факторы:

--- В обоих примерах по фиг. 4b и в 4c: в первом тракте (610b', 610c'), матрица MM микширования формируется (в блоке 600b, 600c) посредством базирования на ковариации Cy исходного сигнала 212 и ковариации Cx сигнала 324 понижающего микширования;

--- В обоих примерах по фиг. 4b и в 4c: во втором тракте (610b, 610c), предусмотрен декоррелятор (614b, 614c), и формируется матрица MR микширования (в блоке 618b, 618c), которая должна учитывать ковариацию декоррелированного сигнала (616b, 616c); но

-ooo В примере по фиг. 4b, ковариация декоррелированного сигнала (616b, 616c) вычисляется, интуитивно, с использованием декоррелированного сигнала (616b, 616c) и взвешивается в энергиях исходного канала y;

-ooo В примере по фиг. 4c, ковариация декоррелированного сигнала (616b, 616c) вычисляется, парадоксальным образом, посредством его оценки из матрицы Cx и взвешивается в энергиях исходного канала y.

Следует отметить, что ковариационная матрица (CyR) может представлять собой восстановленную целевую матрицу, поясненную выше (например, полученную из информации 220 канального уровня и корреляции, записанной во вспомогательную информацию 228 потока 248 битов), и в силу этого может считаться ассоциированной с ковариацией исходного сигнала 212. В любом случае, поскольку она должна использоваться для сигнала 336 синтеза, ковариационная матрица (CyR) также может рассматриваться считаться ковариацией, ассоциированной с сигналом синтеза. То же применимо к остаточной ковариационной матрице Cr, которая может пониматься как остаточная ковариационная матрица (Cr), ассоциированная с сигналом синтеза, и основная ковариационная матрица, которая может пониматься как основная ковариационная матрица, ассоциированная с сигналом синтеза.

5. Преимущества

5.1. Уменьшенное использование декорреляции и оптимальное использование механизма синтеза

С учетом предложенной технологии, а также параметров, которые используются для обработки, и способа, которым эти параметры комбинируются с механизмом 334 синтеза, поясняется, что потребность в сильной декорреляции аудиосигнала (например, в его версии 328) уменьшается, а также что влияние декорреляции (например, артефактов или ухудшения пространственных свойств или ухудшения качества сигнала) уменьшается, если не исключается, даже в отсутствие модуля 330 декорреляции.

Более точно, как указано выше, часть 330 декорреляции обработки является факультативной. Фактически, механизм 334 синтеза принимает меры относительно декорреляции сигнала 328 посредством использования целевой ковариационной матрицы Cy (либо ее поднабор) и обеспечивает то, что каналы, которые составляют выходной сигнал 336, надлежащим образом декоррелируются между собой. Значения в ковариационной матрице Cy представляют энергетические взаимосвязи между различными каналами многоканального аудиосигнала именно потому, что они использованы в качестве цели для синтеза.

Кроме того, кодированные (например, передаваемые) параметры 228 (например, в их версии 314 или 318), комбинированные с механизмом 334 синтеза, могут обеспечивать высококачественный выходной сигнал 336, с учетом того факта, что механизм 334 синтеза использует целевую ковариационную матрицу Cy для воспроизведения выходного многоканального сигнала 336, пространственные характеристики и качество звука которого являются максимально близкими со входным сигналом 212.

5.2. Агностическая к понижающему микшированию обработка

С учетом предложенной технологии, а также способа, которым вычисляются прототипные сигналы 328, и того, как они используются с механизмом 334 синтеза, здесь поясняется, что предложенный декодер является агностическим относительно способа, которым микшированные с понижением сигналы 212 вычисляются в кодере.

Это означает то, что предложенное изобретение в декодере 300 может выполняться независимо от способа, которым микшированные с понижением сигналы 246 вычисляются в кодере, и того, что выходное качество сигнала 336 (или 340) не основывается на конкретном способе понижающего микширования.

5.3. Масштабируемость параметров

С учетом предложенной технологии, а также способа, которым параметры (28, 314, 318) вычисляются, и способа, которым они используются с механизмом 334 синтеза, а также способа, которым они оцениваются на стороне декодера, поясняется то, что параметры, используемые для описания многоканальных аудиосигналов, являются масштабируемыми по числу и задаче.

Обычно кодируется (например, передается) только поднабор параметров (например, поднабор Cy и/или Cx, например, элементы), оцененный на стороне кодера: это позволяет уменьшать скорости передачи битов, используемые посредством обработки. Следовательно, количество параметров (например, элементов Cy и/или Cx), кодированных (например, передаваемых), может быть масштабируемым, с учетом того факта, что непередаваемые параметры восстанавливаются на стороне декодера. Это дает возможность масштабировать всю обработку с точки зрения выходного качества и скоростей передачи битов: чем больше передаваемых параметров, тем лучше выходное качество, и наоборот.

Кроме того, эти параметры (например, Cy и/или Cx либо их элементы) являются масштабируемыми по назначению, что означает, что они могут управляться посредством пользовательского ввода для изменения характеристик выходного многоканального сигнала. Кроме того, эти параметры могут вычисляться для каждой полосы частот и в силу этого обеспечивать возможность масштабируемого частотного разрешения.

Например, может быть возможным решать подавлять один громкоговоритель в выходном сигнале (336, 340), и в силу этого, может быть возможным непосредственно манипулировать параметрами на стороне декодера, с тем чтобы достигать такого преобразования.

5.4. Гибкость выходной конфигурации

С учетом предложенной технологии, а также используемого механизма 334 синтеза и гибкости параметров (например, Cy и/или Cx либо ее элементов), здесь поясняется то, что предложенное изобретение обеспечивает возможность большого спектра возможностей рендеринга относительно выходной конфигурации.

Более точно, выходная конфигурация не должна обязательно быть одинаковой с входной конфигурацией. Можно манипулировать восстановленной целевой ковариационной матрицей, которая подается в механизм синтеза, для формирования выходного сигнала в конфигурации громкоговорителей, которая больше или меньше либо просто имеет геометрию, отличную от исходной геометрии. Это возможно в силу параметров, которые передаются, а также поскольку предложенная система является агностической относительно микшированного с понижением сигнала (см. также 5.2).

По этим причинам поясняется, что предложенное изобретение является гибким с точки зрения выходной конфигурации громкоговорителей.

5. Некоторые примеры прототипных матриц

Ниже приводятся таблицы уже для 5.1, но без учета LFE, поскольку LFE также включено в обработку (только с одним ICC для взаимосвязи LFE/C и ICLD для LFE, отправленного только в наименьшей полосе частот параметров, и заданного равным 1 и нулю, соответственно, для всех других полос частот в синтезе на стороне декодера). Именование и порядки каналов соответствуют CICP, содержащимся в ISO/IEC 23091-3 "Information technology - Coding independent code-points - Part 3: Audio", Q всегда используется как в качестве прототипной матрицы в декодере, так и в качестве матрицы понижающего микширования в кодере.

5.1 (CICP6). αi должны использоваться для вычисления ICLD.

7.1. (CICP12)

5.1+4. (CICP16)

7.1+4. (CICP19)

6. Способы

Хотя вышеприведенные технологии главным образом пояснены в качестве компонентов или функциональных устройств, изобретение также может реализовываться как способы. Блоки и элементы, поясненные выше, также могут пониматься как этапы и/или фазы способов.

Например, предусмотрен способ декодирования для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем способ содержит:

- прием сигнала понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя:

- информацию (220) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов;

- формирование сигнала синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx), ассоциированной с сигналом (246, x).

Способ декодирования может содержать по меньшей мере один из следующих этапов:

- вычисление прототипного сигнала из сигнала (246, x) понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации, ассоциированной с сигналом (246, x) понижающего микширования; и

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования.

Также предусмотрен способ декодирования для формирования сигнала (336) синтеза из сигнала (324, x) понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал (336) синтеза имеет некоторое число каналов синтеза, причем сигнал (324, x) понижающего микширования представляет собой микшированную с понижением версию исходного сигнала (212), имеющего некоторое число исходных каналов, при этом способ содержит следующие фазы:

- первую фазу (610c'), включающую в себя:

- синтез первого компонента (336M') сигнала синтеза согласно первой матрице (MM) микширования, вычисленной из:

- ковариационной матрицы (CyR), ассоциированной с сигналом синтеза (например, восстановленной целевой версией ковариации исходного сигнала); и

- ковариационной матрицы (Cx), ассоциированной с сигналом (324) понижающего микширования.

- вторую фазу (610c) для синтеза второго компонента (336R') сигнала синтеза, при этом второй компонент (336R') представляет собой остаточный компонент, причем вторая фаза (610c) включает в себя:

- этап (612c) обработки прототипных сигналов, сводящий с повышением сигнал (324) понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;

- этап (614c) декорреляции, декоррелирующий микшированный с повышением прототипный сигнал (613c);

- этап (618c) обработки вторых матриц микширования, синтезирующий второй компонент (336R') сигнала синтеза согласно второй матрице (MR) микширования из декоррелированной версии (615c) сигнала (324) понижающего микширования, причем вторая матрица (MR) микширования представляет собой матрицу остаточного микширования,

- при этом способ вычисляет вторую матрицу (MR) микширования из:

- остаточной ковариационной матрицы (Cr), обеспечиваемая этапом (600c) обработки первых матриц микширования; и

- оценки ковариационной матрицы () декоррелированных прототипных сигналов, полученной из ковариационной матрицы (Cx), ассоциированной с сигналом (324) понижающего микширования,

- при этом способ дополнительно содержит этап (620c) суммирования, суммирующий первый компонент (336M') сигнала синтеза со вторым компонентом (336R') сигнала синтеза, за счет этого получая сигнал (336) синтеза.

Кроме того, предусмотрен способ кодирования для формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов, причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит:

- оценку (218) информации (220) канального уровня и корреляции исходного сигнала (212, y),

- кодирование (226) сигнала (246, x) понижающего микширования в поток (248) битов, так что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (12, y).

Эти способы могут реализовываться в любом из кодеров и декодера, поясненных выше.

7. Блоки хранения

Кроме того, изобретение может быть реализовано в постоянном блоке хранения, сохраняющем инструкции, которые при выполнении процессором предписывают процессору осуществлять способ, описанный выше.

Кроме того, изобретение может быть реализовано в постоянном модуле хранения, сохраняющем инструкции, которые при выполнении процессором предписывают процессору управлять по меньшей мере одной из функций кодера или декодера.

Модуль хранения, например, может составлять часть кодера 200 или декодера 300.

8. Другие аспекты

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых аспектах, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

В зависимости от определенных требований к реализации, аспекты изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые аспекты согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, аспекты настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие аспекты содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, аспект изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный аспект изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный аспект изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный аспект содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.

Дополнительный аспект содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный аспект согласно изобретению содержит устройство или систему, выполненные с возможностью передачи (например, электронными или оптическими средствами) в приемное устройство компьютерной программы для осуществления одного из способов, описанных в данном документе. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых аспектах для выполнения части или всех из функциональностей способов, описанных в данном документе, может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица). В некоторых аспектах программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.

Устройство, описанное в данном документе, может быть реализовано с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.

Вышеописанные аспекты являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что для специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в качестве описания и пояснения аспектов в данном документе.

9. Библиография и источники

[1] J. Herre, K. Kjörling, J. Breebart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier и K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Audio English Society, издание 56, номер 11, стр. 932-955, 2008 год.

[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Audio English Society, издание 55, номер 6, стр. 503-516, 2007 год.

[3] C. Faller и F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, стр. 520-531, 2003 год.

[4] O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegård, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Hölzer, M. L. Valero, B. Resch, H. Mundt и H.-O. Oh, "MPEG Spatial Audio Object Coding - The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes", in AES, Сан-Франциско, 2010 год.

[5] L. Mikko-Ville и V. Pulkki, "Converting 5.1. Audio Recordings to B-Format for Directional Audio Coding Reproduction", in ICASSP, Прага, 2011 год.

[6] D. A. Huffman, "A Method for the Construction of Minimum-Redundancy Codes", Proceedings of the IRE, издание 40, номер 9, стр. 1098-1101, 1952 год.

[7] A. Karapetyan, F. Fleischmann и J. Plogsties, "Active Multichannel Audio Downmix", in 145th Audio Engineering Society, Нью-Йорк, 2018 год.

[8] J. Vilkamo, T. Bäckström и A. Kuntz, "Optimized Covariance Domain Framework for Time-Frequency Processing of Spatial Audio", Journal of the Audio Engineering Society, издание 61, номер 6, стр. 403-411, 2013 год.

Похожие патенты RU2803451C2

название год авторы номер документа
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ПАРАМЕТРОВ 2020
  • Бутеон, Александр
  • Фукс, Гийом
  • Мультрус, Маркус
  • Кюх, Фабиан
  • Тиргарт, Оливер
  • Байер, Штефан
  • Диш, Саша
  • Херре, Юрген
RU2806701C2
УМЕНЬШЕНИЕ АРТЕФАКТОВ ГРЕБЕНЧАТОГО ФИЛЬТРА ПРИ МНОГОКАНАЛЬНОМ ПОНИЖАЮЩЕМ МИКШИРОВАНИИ С АДАПТИВНЫМ ФАЗОВЫМ СОВМЕЩЕНИЕМ 2014
  • Фюг Зимоне
  • Кунтц Ахим
  • Крачмер Михаэль
  • Вилькамо Юха
RU2678161C2
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ МНОЖЕСТВА АУДИООБЪЕКТОВ ИЛИ УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ДВУХ ИЛИ БОЛЕЕ РЕЛЕВАНТНЫХ АУДИООБЪЕКТОВ 2021
  • Айхензер, Андреа
  • Корсе, Срикантх
  • Байер, Штефан
  • Кюх, Фабиан
  • Тиргарт, Оливер
  • Фукс, Гийом
  • Векбеккер, Доминик
  • Херре, Юрген
  • Мультрус, Маркус
RU2823518C1
УСТРОЙСТВО И СПОСОБ ДЛЯ УЛУЧШЕННОГО ПРОСТРАНСТВЕННОГО КОДИРОВАНИЯ АУДИООБЪЕКТОВ 2014
  • Херре, Юрген
  • Муртаза, Адриан
  • Паулус, Йоуни
  • Диш, Саша
  • Фукс, Харальд
  • Хелльмут, Оливер
  • Риддербуш, Фалько
  • Терентив, Леон
RU2660638C2
СПОСОБЫ И УСТРОЙСТВА КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ОСНОВЫВАЮЩИХСЯ НА ОБЪЕКТАХ ОРИЕНТИРОВАННЫХ АУДИОСИГНАЛОВ 2008
  • Ким Донг Соо
  • Панг Хее Сук
  • Лим Дзае Хиун
  • Йоон Сунг Йонг
  • Ли Хиун Коок
RU2406166C2
МНОГОКАНАЛЬНЫЙ АУДИОДЕКОДЕР, МНОГОКАНАЛЬНЫЙ АУДИОКОДЕР, СПОСОБЫ, КОМПЬЮТЕРНАЯ ПРОГРАММА И КОДИРОВАННОЕ АУДИОПРЕДСТАВЛЕНИЕ С ИСПОЛЬЗОВАНИЕМ ДЕКОРРЕЛЯЦИИ ПРЕДСТАВЛЕННЫХ ПОСРЕДСТВОМ РЕНДЕРИНГА АУДИОСИГНАЛОВ 2014
  • Диш Саша
  • Фукс Харальд
  • Хелльмут Оливер
  • Херре Юрген
  • Муртаза Адриан
  • Паулус Йоуни
  • Риддербуш Фалько
  • Терентив Леон
RU2665917C2
СПОСОБ ОБРАБОТКИ АУДИОСИГНАЛА, БЛОК ОБРАБОТКИ СИГНАЛОВ, СТЕРЕОФОНИЧЕСКИЙ РЕНДЕРЕР, АУДИОКОДЕР И АУДИОДЕКОДЕР 2014
  • Фюг Зимоне
  • Плогстис Ян
RU2642376C2
МНОГОКАНАЛЬНЫЙ ДЕКОРРЕЛЯТОР, МНОГОКАНАЛЬНЫЙ АУДИОДЕКОДЕР, МНОГОКАНАЛЬНЫЙ АУДИОКОДЕР, СПОСОБЫ И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ ПРЕДВАРИТЕЛЬНОГО МИКШИРОВАНИЯ ВХОДНЫХ СИГНАЛОВ ДЕКОРРЕЛЯТОРА 2014
  • Диш Саша
  • Фукс Харальд
  • Хелльмут Оливер
  • Херре Юрген
  • Муртаза Адриан
  • Паулус Йоуни
  • Риддербуш Фалько
  • Терентив Леон
RU2666640C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА ИЛИ НАБОРА ПАРАМЕТРИЧЕСКИХ ДАННЫХ 2005
  • Шпершнайдер Ральф
  • Херре Юрген
  • Хильперт Йоханнес
  • Эртель Христиан
  • Геиэрсбергер Штефан
RU2355046C2
СПОСОБ ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА В СООТВЕТСТВИИ С ИМПУЛЬСНОЙ ХАРАКТЕРИСТИКОЙ ПОМЕЩЕНИЯ, БЛОК ОБРАБОТКИ СИГНАЛОВ, АУДИОКОДЕР, АУДИОДЕКОДЕР И УСТРОЙСТВО БИНАУРАЛЬНОГО РЕНДЕРИНГА 2014
  • Фюг Зимоне
  • Плогстис Ян
RU2643867C2

Иллюстрации к изобретению RU 2 803 451 C2

Реферат патента 2023 года КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ПАРАМЕТРОВ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности кодирования и декодирования параметров аудиосигнала с низкими скоростями передачи битов для описания многоканального содержимого между кодером и декодером без потери качества выводимого звука. Технический результат достигается за счет того, что восстанавливают целевую версию (CyR) ковариационной информации (Cy) исходного сигнала на основании оцененной версии () исходной ковариационной информации (Cy), при этом оцененная версия () исходной ковариационной информации (Cy) сообщается в упомянутое число каналов синтеза, причём оцененная версия () исходной ковариационной информации получается из ковариационной информации (Cx) сигнала понижающего микширования, причём оцененная версия () исходной ковариационной информации получается посредством применения к ковариационной информации (Cx) сигнала понижающего микширования правила (Q) оценки, которое представляет собой прототипное правило для вычисления прототипного сигнала или ассоциировано с ним. 5 н. и 69 з.п. ф-лы, 27 ил., 2 табл.

Формула изобретения RU 2 803 451 C2

1. Устройство (300) синтеза аудиоданных для формирования сигнала (336, 340, yR) синтеза из сигнала (246, x) понижающего микширования, причем сигнал (336, 340, yR) синтеза имеет множество каналов синтеза, причем устройство (300) синтеза аудиоданных содержит:

- входной интерфейс (312), выполненный с возможностью приема сигнала понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя информацию (314, ξ, χ) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов; и

- процессор (404) синтеза, выполненный с возможностью формирования сигнала (336, 340, yR) синтеза согласно по меньшей мере одному правилу микширования в форме матрицы с использованием:

- информации (220, 314, ξ, χ) канального уровня и корреляции исходного сигнала (212, y); и

- ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования,

причём устройство (300) синтеза аудиоданных выполнено с возможностью восстановления (386) целевой версии (CyR) ковариационной информации (Cy) исходного сигнала,

причём устройство (300) синтеза аудиоданных выполнено с возможностью восстановления (386) целевой версии (CyR) ковариационной информации (Cy) на основании оцененной версии () исходной ковариационной информации (Cy), при этом оцененная версия () исходной ковариационной информации (Cy) сообщается в упомянутое число каналов синтеза,

причём устройство (300) синтеза аудиоданных выполнено с возможностью получения оцененной версии () исходной ковариационной информации из ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования, причём устройство (300) синтеза аудиоданных выполнено с возможностью получения оцененной версии () исходной ковариационной информации (220) посредством применения к ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования правила (Q) оценки, которое представляет собой прототипное правило для вычисления прототипного сигнала (326) или ассоциировано с ним.

2. Устройство (300) синтеза аудиоданных по п. 1, содержащее:

- модуль (326) вычисления прототипных сигналов, выполненный с возможностью вычисления прототипного сигнала (328) из сигнала (324, 246, x) понижающего микширования, причем прототипный сигнал (328) имеет упомянутое число каналов синтеза;

- модуль (402) вычисления правил микширования, выполненный с возможностью вычисления по меньшей мере одного правила (403) микширования с использованием:

- информации (314, ξ, 0) канального уровня и корреляции исходного сигнала (212, y); и

- ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования;

- при этом процессор (404) синтеза выполнен с возможностью формирования сигнала (336, 340, yR) синтеза с использованием прототипного сигнала (328) и упомянутого по меньшей мере одного правила (403) микширования.

3. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза.

4. Устройство синтеза аудиоданных по п. 3, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза, посредством назначения групп исходных каналов одиночным каналам синтеза, или наоборот, таким образом, что восстановленная целевая версия ковариационной информации (CyR) сообщается в упомянутое число каналов сигнала (336, 340, yR) синтеза.

5. Устройство синтеза аудиоданных по п. 4, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза, посредством формирования целевой версии (CyR) ковариационной информации для упомянутого числа исходных каналов и затем применения правила понижающего микширования или правила повышающего микширования и энергетической компенсации для достижения целевой версии (CyR) ковариации для каналов синтеза.

6. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью нормализации по меньшей мере для одной пары каналов оцененной версии () исходной ковариационной информации (Cy) в квадратные корни уровней каналов пары каналов.

7. Устройство синтеза аудиоданных по п. 6, выполненное с возможностью интерпретации матрицы с нормализованной оцененной версией () исходной ковариационной информации (Cy).

8. Устройство синтеза аудиоданных по п. 7, выполненное с возможностью заполнения матрицы посредством вставки записей (908), полученных во вспомогательной информации (228) потока (248) битов.

9. Устройство синтеза аудиоданных по любому из пп. 6-8, выполненное с возможностью денормализации матрицы посредством масштабирования оцененной версии () исходной ковариационной информации (Cy) посредством квадратного корня уровней каналов, образующих пару каналов.

10. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью извлечения из вспомогательной информации (228) сигнала (324, 246, x) понижающего микширования информации (ξ, χ) канального уровня и корреляции, причем устройство синтеза аудиоданных дополнительно выполнено с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy) посредством оцененной версии () исходной информации (220) канального уровня и корреляции из:

- ковариационной информации (Cx) по меньшей мере для одной пары каналов; и

- информации (ξ, χ) канального уровня и корреляции по меньшей мере для одного второго канала и одной пары каналов.

11. Устройство синтеза аудиоданных по п. 10, выполненное с возможностью предпочтения информации (ξ, χ) канального уровня и корреляции, описывающей канал или пару каналов, полученной из вспомогательной информации (228) потока (248) битов, а не ковариационной информации (Cy), восстановленной из сигнала (324, 246, x) понижающего микширования для того же канала или пары каналов.

12. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором восстановленная целевая версия (CyR) ковариационной информации (Cy) описывает энергетическую взаимосвязь между парой каналов или основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.

13. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью получения версии (324) в частотной области (FD) сигнала (246, x) понижающего микширования, причем версия (324) FD сигнала (246, x) понижающего микширования разделена на полосы частот или группы полос частот, при этом различная информация (220) канального уровня и корреляции ассоциирована с различными полосами частот или группами полос частот,

- при этом устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных полос частот или групп полос частот таким образом, чтобы получить различные правила (403) микширования для различных полос частот или групп полос частот.

14. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал (324, 246, x) понижающего микширования разделен на интервалы, при этом различная информация (220) канального уровня и корреляции ассоциирована с различными интервалами, и устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных интервалов таким образом, чтобы получить различные правила (403) микширования для различных интервалов.

15. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал (324, 246, x) понижающего микширования разделен на кадры, и каждый кадр разделен на интервалы, при этом устройство синтеза аудиоданных выполнено с возможностью, когда наличие и положение переходной части в одном кадре передаются в служебных сигналах (261) как находящиеся в одном переходном интервале:

- ассоциирования текущей информации (220) канального уровня и корреляции с переходным интервалом и/или с интервалами после переходного интервала кадра; и

- ассоциирования с интервалом кадра, предшествующим переходному интервалу, информации (220) канального уровня и корреляции предыдущего кадра.

16. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью выбора прототипного правила (Q), выполненного с возможностью вычисления прототипного сигнала (328) на основе числа каналов синтеза.

17. Устройство синтеза аудиоданных по п. 16, выполненное с возможностью выбора прототипного правила (Q) из множества предварительно сохраненных прототипных правил.

18. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью определения прототипного правила (Q) на основе выбора вручную.

19. Устройство синтеза аудиоданных по п. 17 или 18, в котором прототипное правило включает в себя матрицу (Q) с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.

20. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью работы на скорости передачи битов, равной или меньшей, чем 160 Кбит/с.

21. Устройство синтеза аудиоданных по любому из предшествующих пунктов, дополнительно содержащее энтропийный декодер (312) для получения сигнала (246, x) понижающего микширования со вспомогательной информацией (314).

22. Устройство синтеза аудиоданных по любому из предшествующих пунктов, дополнительно содержащее модуль (614b, 614c, 330) декорреляции для уменьшения величины корреляции между различными каналами.

23. Устройство синтеза аудиоданных по любому из пп. 1-21, в котором прототипный сигнал (328) непосредственно передаётся в процессор (600a, 600b, 404) синтеза без выполнения декорреляции.

24. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором по меньшей мере одно из информации (ξ, χ) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx) сигнала (246, x) понижающего микширования, имеет форму матрицы.

25. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором вспомогательная информация (228) включает в себя идентификационные данные исходных каналов;

- при этом устройство синтеза аудиоданных дополнительно выполнено с возможностью вычисления по меньшей мере одного правила (403) микширования с использованием по меньшей мере одного из информации (ξ, χ) канального уровня и корреляции исходного сигнала (212, y), ковариационной информации (Cx) сигнала (246, x) понижающего микширования, идентификационных данных исходных каналов и идентификационных данных каналов синтеза.

26. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью вычисления по меньшей мере одного правила микширования посредством разложения по сингулярным значениям (SVD).

27. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал понижающего микширования разделен на кадры, причем устройство синтеза аудиоданных выполнено с возможностью сглаживания принимаемого параметра или оцененного или восстановленного значения или матрицы микширования с использованием линейной комбинации с параметром или оцененного или восстановленного значения, или матрицы микширования, полученной для предшествующего кадра.

28. Устройство синтеза аудиоданных по п. 27, выполненное с возможностью, когда наличие и/или положение переходной части в одном кадре передаются в служебных сигналах (261), деактивации сглаживания принимаемого параметра или оцененного или восстановленного значения или матрицы микширования.

29. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал понижающего микширования разделен на кадры, и кадры разделены на интервалы, при этом информация (220, ξ, χ) канального уровня и корреляции исходного сигнала (212, y) получается из вспомогательной информации (228) потока (248) битов покадрово, причем устройство синтеза аудиоданных выполнено с возможностью использования для текущего кадра правила микширования, полученного посредством масштабирования правила микширования, вычисленного для текущего кадра, на коэффициент, увеличивающийся вдоль последующих интервалов текущего кадра, и путём добавления правила микширования, используемого для предшествующего кадра в версии, масштабированной на понижающий коэффициент вдоль последующих интервалов текущего кадра.

30. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором число каналов синтеза больше числа исходных каналов.

31. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором число каналов синтеза меньше числа исходных каналов.

32. Аудиокодер (200) для формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов, причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования, причем аудиокодер (200) содержит:

- модуль (218) оценки параметров, выполненный с возможностью оценки информации (220) канального уровня и корреляции исходного сигнала (212, y), и

- модуль (226) записи потоков битов для кодирования сигнала (246, x) понижающего микширования в поток (248) битов таким образом, что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (212, y),

причём информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одну межканальную разность уровней (ICLD),

причём информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), включает в себя по меньшей мере информацию (220, 908) корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами.

33. Аудиокодер по п. 32, выполненный с возможностью обеспечения информации (220) канального уровня и корреляции исходного сигнала (212, y) в качестве нормализованных значений.

34. Аудиокодер по п. 32 или 33, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), включает в себя или представляет по меньшей мере информацию канального уровня, ассоциированную со всеми исходными каналами.

35. Аудиокодер по любому из пп. 32-34, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одно значение (ξi,j) когерентности, описывающее когерентность между двумя каналами из пары исходных каналов.

36. Аудиокодер по п. 35, в котором значение когерентности нормализовано.

37. Аудиокодер по любому из пп. 35, 36, в котором значение когерентности является следующим:

- где является ковариацией между каналами i и j, при этом и соответственно являются уровнями, ассоциированными с каналами i и j.

38. Аудиокодер по любому из пп. 32-37, в котором по меньшей мере одна ICLD обеспечивается в качестве логарифмического значения.

39. Аудиокодер по пп. 32-38, в котором по меньшей мере одна ICLD является нормализованной.

40. Аудиокодер по п. 39, в котором ICLD является следующей:

- где:

- Xi является ICLD для канала i,

- Pi является мощностью текущего канала i,

- Pdmx,i является линейным комбинированием значений ковариационной информации сигнала понижающего микширования.

41. Аудиокодер по любому из пп. 32-40, выполненный с возможностью выбора (250) того, следует ли кодировать или не кодировать по меньшей мере часть информации (220) канального уровня и корреляции исходного сигнала (212, y), на основе информации состояния (252) таким образом, чтобы включить во вспомогательную информацию (228) увеличенный объем информации (220) канального уровня и корреляции в случае сравнительно меньшего объема рабочих данных.

42. Аудиокодер по любому из пп. 32-41, выполненный с возможностью выбора (250) того, какая часть информации (220) канального уровня и корреляции исходного сигнала (212, y) должна кодироваться во вспомогательной информации (228), на основе показателей (252) по каналам таким образом, чтобы включить информацию (220) канального уровня и корреляции, ассоциированную с более чувствительными показателями, во вспомогательную информацию (228).

43. Аудиокодер по любому из пп. 32-44, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y) имеет форму записей матрицы (Cy).

44. Аудиокодер по п. 43, в котором матрица является симметричной или эрмитовой, при этом записи информации (220) канального уровня и корреляции обеспечиваются для всех или не всех записей на диагонали матрицы (Cy) и/или менее чем для половины недиагональных элементов матрицы (Cy).

45. Аудиокодер по любому из пп. 32-44, в котором модуль (226) записи потоков битов выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.

46. Аудиокодер по любому из пп. 32-45, в котором исходный сигнал (212, y) или его обработанная версия (216) разделены на множество последующих кадров равной продолжительности.

47. Аудиокодер по п. 46, выполненный с возможностью кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), конкретного для каждого кадра во вспомогательной информации (228).

48. Аудиокодер по п. 47, выполненный с возможностью кодирования одинаковой информации (220) канального уровня и корреляции исходного сигнала (212, y), совместно ассоциированного с множеством последовательных кадров, во вспомогательной информации (228).

49. Аудиокодер по любому из пп. 47, 48, выполненный с возможностью выбора некоторого числа последовательных кадров, в которых одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y) выбирается таким образом, что:

- сравнительно более высокая скорость передачи битов или больший объем рабочих данных подразумевает увеличение числа последовательных кадров, с которыми ассоциирована одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y), и наоборот.

50. Аудиокодер по любому из пп. 48, 49, выполненный с возможностью сокращения числа последовательных кадров, с которыми ассоциирована одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y), при обнаружении переходной части.

51. Аудиокодер по любому из пп. 46-50, в котором каждый кадр подразделяен на целое число последовательных интервалов.

52. Аудиокодер по п. 51, выполненный с возможностью оценки информации (220) канального уровня и корреляции для каждого интервала и кодирования во вспомогательной информации (228) суммы или среднего или другой заданной линейной комбинации информации (220) канального уровня и корреляции, оцененной для различных интервалов,

причём аудиокодер выполнен с возможностью выполнения анализа переходных процессов (258) для версии во временной области кадра для определения наличия переходной части в кадре.

53. Аудиодекодер по п. 52, выполненный с возможностью определения, в каком интервале кадра имеется переходная часть, и:

- кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре,

- без кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалами, предшествующими переходной части.

54. Аудиокодер по п. 52 или 53, выполненный с возможностью передачи в служебных сигналах (261) во вспомогательной информации (228) наличия переходной части, имеющейся в одном интервале кадра.

55. Аудиокодер по п. 54, выполненный с возможностью передачи в служебных сигналах (261) во вспомогательной информации (228) того, в каком интервале кадра имеется переходная часть.

56. Аудиокодер по любому из пп. 52-54, выполненный с возможностью оценки информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с множеством интервалов кадра, и их суммирования или их усреднения или их линейного комбинирования, чтобы получить информацию (220) канального уровня и корреляции, ассоциированную с кадром.

57. Аудиокодер по любому из пп. 32-56, в котором исходный сигнал (212, y) преобразуется (263) в сигнал (264, 266) частотной области, при этом аудиокодер выполнен с возможностью кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y) по полосам частот во вспомогательной информации (228),

причём аудиокодер выполнен с возможностью агрегирования (265) некоторого числа полос частот исходного сигнала (212, y) в более сокращенное число полос частот (266) таким образом, чтобы кодировать информацию (220) канального уровня и корреляции исходного сигнала (212, y) по агрегированным полосам частот во вспомогательной информации (228).

58. Аудиокодер по п. 57, выполненный с возможностью, в случае обнаружения переходной части в кадре, дополнительного агрегирования (265) полосы частот таким образом, что:

- число полос частот (266) уменьшается; и/или

- ширина по меньшей мере одной полосы частот увеличивается посредством агрегирования с другой полосой частот.

59. Аудиокодер по любому из пп. 57, 58, дополнительно выполненный с возможностью кодирования (226) в потоке (248) битов по меньшей мере одной информации (220) канального уровня и корреляции одной полосы частот в качестве приращения относительно ранее кодированной информации канального уровня и корреляции.

60. Аудиокодер по любому из пп. 32-59, выполненный с возможностью кодирования во вспомогательной информации (228) потока (248) битов неполной версии информации (220) канального уровня и корреляции по отношению к информации (220) канального уровня и корреляции, оцененной посредством модуля (218) оценки.

61. Аудиокодер по п. 60, выполненный с возможностью адаптивного выбора из всей информации (220) канального уровня и корреляции, оцененной модулем (218) оценки, выбранной информации, которая должна кодироваться во вспомогательной информации (228) потока (248) битов, таким образом, что информация (220) канального уровня и/или корреляции для оставшейся невыбранной информации, оцененная посредством модуля (218) оценки, не кодируется.

62. Аудиокодер по п. 60, выполненный с возможностью восстановления информации (220) канального уровня и корреляции из выбранной информации (220) канального уровня и корреляции, таким образом моделируя оценку в декодере (300) невыбранной информации (220) канального уровня и корреляции, и вычисления информации об ошибках между:

- невыбранной информацией (220) канального уровня и корреляции, оцененной кодером; и

- невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере (300), некодированной информации (220) канального уровня и корреляции; и

- таким образом, чтобы отличать на основании вычисленной информации об ошибках:

- восстанавливаемую надлежащим образом информацию канального уровня и корреляции; от

- невосстанавливаемой надлежащим образом информации канального уровня и корреляции,

- таким образом, чтобы принять решение в отношении:

- выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации (228) потока (248) битов; и

- невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, таким образом отказываясь от кодирования во вспомогательной информации (228) потока (248) битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.

63. Аудиокодер по любому из пп. 61, 62, в котором информация (220) канального уровня и корреляции индексирована согласно заданному упорядочению, при этом кодер выполнен с возможностью передачи в служебных сигналах во вспомогательной информации (228) потока (248) битов индексов, ассоциированных с заданным упорядочением, причем индексы указывают, какая из информации (220) канального уровня и корреляции кодируется.

64. Аудиокодер по п. 63, в котором индексы передаются через битовую карту.

65. Аудиокодер по любому из пп. 63, 64, в котором индексы определяются согласно комбинаторной системе счисления, ассоциирующей одномерный индекс с записями матрицы.

66. Аудиокодер по любому из пп. 64, 65, выполненный с возможностью выполнения выбора между:

- адаптивным обеспечением информации (220) канального уровня и корреляции, в которой индексы, ассоциированные с заданным упорядочением, кодируются во вспомогательной информации потока битов; и

- фиксированным обеспечением информации (220) канального уровня и корреляции таким образом, что информация (220) канального уровня и корреляции, которая кодируется, задается и упорядочивается согласно заданному фиксированному упорядочению без обеспечения индексов.

67. Аудиокодер по п. 66, выполненный с возможностью передачи в служебных сигналах во вспомогательной информации (228) потока (248) битов обеспечивается ли информация (220) канального уровня и корреляции согласно адаптивному обеспечению или согласно фиксированному обеспечению.

68. Аудиокодер по любому из пп. 32-67, дополнительно выполненный с возможностью кодирования (226) в потоке (248) битов текущей информации (220t) канального уровня и корреляции в качестве приращения (220k) относительно предыдущей информации (220(t-1)) канального уровня и корреляции.

69. Аудиокодер по любому из пп. 32-68, дополнительно выполненный с возможностью формирования сигнала (246) понижающего микширования согласно статическому понижающему микшированию (244).

70. Аудиокодер по любому из пп. 32-69, в котором аудиокодер является агностическим относительно устройства синтеза аудиоданных.

71. Способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет множество каналов синтеза, при этом способ содержит этапы, на которых:

- принимают сигнал понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя:

- информацию (220) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов;

- формируют сигнал синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx) сигнала (246, x) понижающего микширования,

причём способ дополнительно содержит этапы, на которых:

восстанавливают (386) целевую версию (CyR) ковариационной информации (Cy) исходного сигнала на основании оцененной версии () исходной ковариационной информации (Cy), при этом оцененная версия () исходной ковариационной информации (Cy) сообщается в упомянутое число каналов синтеза,

причём оцененная версия () исходной ковариационной информации получается из ковариационной информации (Cx) сигнала (246, x) понижающего микширования, причём оцененная версия () исходной ковариационной информации (220) получается посредством применения к ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования правила (Q) оценки, которое представляет собой прототипное правило для вычисления прототипного сигнала (326) или ассоциировано с ним.

72. Способ по п. 71, при этом способ содержит этапы, на которых:

- вычисляют прототипный сигнал из сигнала (246, x) понижающего микширования, причем прототипный сигнал имеет упомянутое число каналов синтеза;

- вычисляют правило микширования с использованием информации канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации сигнала (246, x) понижающего микширования; и

- формируют сигнал синтеза с использованием прототипного сигнала и правила микширования.

73. Способ формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов, причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит этапы, на которых:

- оценивают (218) информацию (220) канального уровня и корреляции исходного сигнала (212, y), причём информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одну межканальную разность уровней (ICLD), причём информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), дополнительно включает в себя по меньшей мере информацию (220, 908) корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами,

- кодируют (226) сигнал (246, x) понижающего микширования в поток (248) битов, так что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (12, y).

74. Постоянный блок хранения, сохраняющий инструкции, которые при выполнении процессором предписывают процессору осуществлять способ по любому из пп. 71-73.

Документы, цитированные в отчете о поиске Патент 2023 года RU2803451C2

Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек 1923
  • Григорьев П.Н.
SU2007A1
ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ 2007
  • Ояла Паси
  • Турку Юлия
  • Вяянянен Маури
  • Тамми Микко
RU2409912C9

RU 2 803 451 C2

Авторы

Бутеон, Александр

Фукс, Гийом

Мультрус, Маркус

Кюх, Фабиан

Тиргарт, Оливер

Байер, Штефан

Диш, Саша

Херре, Юрген

Даты

2023-09-13Публикация

2020-06-15Подача